7.2 數(shù)據(jù)的內(nèi)在預(yù)測性_第1頁
7.2 數(shù)據(jù)的內(nèi)在預(yù)測性_第2頁
7.2 數(shù)據(jù)的內(nèi)在預(yù)測性_第3頁
7.2 數(shù)據(jù)的內(nèi)在預(yù)測性_第4頁
7.2 數(shù)據(jù)的內(nèi)在預(yù)測性_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《大數(shù)據(jù)導(dǎo)論》機(jī)器學(xué)習(xí)1.什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。

專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。

“機(jī)器學(xué)習(xí)之父”——阿瑟·塞繆爾(ArthurSamuel)將其定義為“沒有明確編程就能學(xué)習(xí)的能力”。2.機(jī)器學(xué)習(xí)案例——圖像識別機(jī)器學(xué)習(xí)已經(jīng)被用來大大改進(jìn)計算機(jī)識別圖像或視頻中的對象的能力。你收集了數(shù)十萬甚至數(shù)百萬張圖片,然后讓人類標(biāo)記它們。例如,人類可能會標(biāo)記其中包含貓的圖片與不包含貓的圖片。然后,該算法嘗試構(gòu)建一個模型,該模型可以準(zhǔn)確地將另外的圖片標(biāo)記出是否包含貓。當(dāng)準(zhǔn)確度達(dá)到足夠高,機(jī)器現(xiàn)在就“學(xué)會”了識別貓的樣子。

分類是一種有監(jiān)督的機(jī)器學(xué)習(xí),它將數(shù)據(jù)分為相關(guān)的、以前學(xué)習(xí)過的類別。它包括兩個步驟:

1、將已經(jīng)被分類或者有標(biāo)號的訓(xùn)練數(shù)據(jù)給系統(tǒng)

2、將未知或者相似數(shù)據(jù)給系統(tǒng)來分類,基于訓(xùn)練數(shù)據(jù)形成的理解,算法會分類無標(biāo)號數(shù)據(jù)。例如,銀行想找出哪些客戶可能會拖欠貸款。3.機(jī)器學(xué)習(xí)——分類(有監(jiān)督的機(jī)器學(xué)習(xí))分類適用的樣例問題可以是:·基于其他申請是否被接受或者被拒絕,申請人的信用卡申請是否應(yīng)該被接受?·基于已知的水果蔬菜樣例,西紅柿是水果還是蔬菜?·病人的藥檢結(jié)果是否表示有心臟病的風(fēng)險?4.機(jī)器學(xué)習(xí)——分類,可適用的問題

聚類是一種無監(jiān)督的學(xué)習(xí)技術(shù),通過這項技術(shù),數(shù)據(jù)被分割成不同的組,這樣在每組中數(shù)據(jù)有相似的性質(zhì)。聚類不需要先學(xué)習(xí)類別。相反,類別是基于分組數(shù)據(jù)產(chǎn)生的。數(shù)據(jù)如何成組取決于用什么類型的算法,每個算法都有不同的技術(shù)來確定聚類。

例如,一個銀行想基于已有的顧客記錄檔案,對顧客進(jìn)行分類,以便向他們介紹不同的金融產(chǎn)品,但是還不知道分成哪幾類,聚類就是通過不同類型的算法,分析出不同的類型。5.機(jī)器學(xué)習(xí)——聚類(無監(jiān)督的機(jī)器學(xué)習(xí))

聚類適用的樣例問題可以是:·根據(jù)樹之間的相似性,存在多少種樹?·根據(jù)相似的購買記錄,存在多少組顧客?·根據(jù)病毒的特性,它們的不同分組是什么?6.機(jī)器學(xué)習(xí)——聚類,可用于的問題

異常檢測是指在給定數(shù)據(jù)集中,發(fā)現(xiàn)明顯不同于其他數(shù)據(jù)或與其他數(shù)據(jù)不一致的數(shù)據(jù)的過程。這種機(jī)器學(xué)習(xí)技術(shù)被用來識別反常、異常和偏差,它們可以是有利的,例如機(jī)會,也可能是不利的,例如風(fēng)險。異常檢測與分類和聚類的概念緊密相關(guān),雖然它的算法專注于尋找不同值。它可以基于有監(jiān)督或無監(jiān)督的學(xué)習(xí)。異常檢測的應(yīng)用包括欺詐檢測、醫(yī)療診斷、網(wǎng)絡(luò)數(shù)據(jù)分析和傳感器數(shù)據(jù)分析。7.機(jī)器學(xué)習(xí)——異常檢測

過濾是自動從項目池中尋找有關(guān)項目的過程。項目可以基于用戶行為或通過匹配多個用戶的行為被過濾。過濾常用的媒介是推薦系統(tǒng)。通常過濾的主要方法是協(xié)同過濾和內(nèi)容過濾。例如,為了實(shí)現(xiàn)交叉銷售,一家銀行構(gòu)建了使用內(nèi)容過濾的推薦系統(tǒng)?;陬櫩唾徺I的金融產(chǎn)品和相似金融產(chǎn)品性質(zhì)所找到的匹配,推薦系統(tǒng)自動推薦客戶可能感興趣的潛在金融產(chǎn)品。8.機(jī)器學(xué)習(xí)——過濾感謝聆聽!《大數(shù)據(jù)導(dǎo)論》語義分析1.什么是語義分析

例如:從某些博客文章中,提取關(guān)鍵詞在不同的語境下,文本或語音數(shù)據(jù)的片段可以攜帶不同的含義,而一個完整的句子可能會保留它的意義,即使結(jié)構(gòu)不同。為了使機(jī)器能提取有價值的信息,文本或語音數(shù)據(jù)需要像被人理解一樣被機(jī)器所理解。語義分析是從文本和語音數(shù)據(jù)中提取有意義的信息的實(shí)踐。

自然語言處理(NLP)是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,是一門融語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。

具體來說,包括將句子分解為單詞的語素分析、統(tǒng)計各單詞出現(xiàn)頻率的頻度分析、理解文章含義并造句的理解等。智能手機(jī)iPhone中的語音助手Siri2.自然語言處理自然語言處理包括文本和語音識別。對語音識別,系統(tǒng)嘗試著理解語音然后行動,例如轉(zhuǎn)錄文本。語音客服機(jī)器人智能音箱語音識別3.自然語言處理——產(chǎn)品4.文本分析相比于結(jié)構(gòu)化的文本,非結(jié)構(gòu)化的文本通常更難分析與搜索。文本分析是專門通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語言處理技術(shù)去發(fā)掘非結(jié)構(gòu)化文本價值的分析文本的應(yīng)用。文本分析的基本原則是,將非結(jié)構(gòu)化的文本轉(zhuǎn)化為可以搜索和分析的數(shù)據(jù)。文本分析通常包括兩步:(1)解析文檔中的文本提??;(2)用這些提取的實(shí)體和事實(shí)對文檔進(jìn)行分類。

是指搜索引擎的工作不再拘泥于用戶所輸入請求語句的字面本身,而是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到用戶所輸入語句后面的真正意圖,并以此來進(jìn)行搜索,從而更準(zhǔn)確地向用戶返回最符合其需求的搜索結(jié)果。5.語義檢索例如,搜索框中輸入“孟字去掉子”時,深諳語義搜索的搜索引擎就能夠判斷出,用戶想要找的并不是含有“孟”、“去掉子”等字眼的內(nèi)容,而是想要查找與“皿”這個字相關(guān)的內(nèi)容;6.語義檢索——例子

語義檢索是基于“知識”的搜索,即利用機(jī)器學(xué)習(xí)、人工智能等模擬或擴(kuò)展人的認(rèn)識思維,提高信息內(nèi)容的相關(guān)性。

語義檢索具有明顯的優(yōu)勢:檢索機(jī)制和界面的設(shè)計均體現(xiàn)“面向用戶”的思想,即用戶可以根據(jù)自己的需求及其變化,靈活地選擇理想的檢索策略與技術(shù);語義檢索能主動學(xué)習(xí)用戶的知識,主動向用戶提供個性化的服務(wù):綜合應(yīng)用各種分析、處理和智能技術(shù),既能滿足用戶的現(xiàn)實(shí)信息需求,又能向用戶提供潛在內(nèi)容知識,全面提高檢索效率。5.語義檢索的優(yōu)勢感謝聆聽!《大數(shù)據(jù)導(dǎo)論》視覺分析

視覺分析是一種數(shù)據(jù)分析,指的是對數(shù)據(jù)進(jìn)行圖形表示來開啟或增強(qiáng)視覺感知。

視覺分析的主要類型包括:熱點(diǎn)圖、時間序列圖、網(wǎng)絡(luò)圖、空間數(shù)據(jù)制圖等。1、視覺分析

熱點(diǎn)圖是有效的視覺分析技術(shù),它能促進(jìn)識別感興趣的領(lǐng)域,發(fā)現(xiàn)數(shù)據(jù)集內(nèi)的極(最大或最?。┲?。2008年美國總統(tǒng)選舉2、熱點(diǎn)圖3、時間序列圖

時間序列圖可以分析在固定時間間隔記錄的數(shù)據(jù)。這種分析充分利用了時間序列,這是一個按時間排序的、在固定時間間隔記錄的值的集合。

例如一個包含每月月末記錄的銷售圖的時間序列。4、網(wǎng)絡(luò)圖

在視覺分析中,一個網(wǎng)絡(luò)圖描繪互相連接的實(shí)體。一個實(shí)體可以是一個人,一個團(tuán)體,或者其他商業(yè)領(lǐng)域的物品,例如產(chǎn)品。實(shí)體之間可能是直接連接,也可能是間接連接。有些連接可能是單方面的,所以反向遍歷是不可能的。

有人爬取了新浪微博數(shù)據(jù),分析了黃曉明和Angelababy的社交網(wǎng)絡(luò)圖。來源:/kmd8d5r/article/details/791920065、社交網(wǎng)絡(luò)圖6、空間數(shù)據(jù)制圖

空間或地理空間數(shù)據(jù)通常用來識別單個實(shí)體的地理位置,然后將其繪圖。空間數(shù)據(jù)分析專注于分析基于地點(diǎn)的數(shù)據(jù),從而尋找實(shí)體間不同地理關(guān)系和模式。

ArcMap是一個用戶桌面組件,具有強(qiáng)大的地圖制作,空間分析,空間數(shù)據(jù)建庫等功能。是美國環(huán)境系統(tǒng)研究所(EnvironmentSystemResearchInstitute,ESRI)于1978年開發(fā)的GIS系統(tǒng)。7、空間數(shù)據(jù)制圖軟件感謝聆聽!《大數(shù)據(jù)導(dǎo)論》情感分析

情感分析是一種特殊的文本分析,它側(cè)重于確定個人的偏見或情緒。通過對自然語言語境中的文本進(jìn)行分析,來判斷作者的態(tài)度。情感分析不僅提供關(guān)于個人感覺的信息,也提供感覺的強(qiáng)度。此信息可以被整合到?jīng)Q策階段。常見的情感分析包括識別客戶的滿意或不滿,測試產(chǎn)品的成功與失敗和發(fā)現(xiàn)新趨勢。1、什么是情感分析

例如,一個冰激凌公司會想了解哪種口味的冰激凌最受小孩歡迎。僅有銷量數(shù)據(jù)并不提供此信息,因?yàn)橄M(fèi)冰激凌的小孩并不一定是冰激凌的買家。情感分析被用于存檔客戶在冰激凌公司網(wǎng)站留下的反饋來提取信息,尤其是關(guān)于小孩對于特定口味偏好的信息。2、情感分析——案例

情感和行為是交互的。周圍的事物影響著你,決定了你的情感。如果你的客戶取消了訂單,你會感到失望。反過來說,你的情感也會影響行為。你現(xiàn)在心情愉快,因此決定再給修理工一次機(jī)會來修好你的車。3、情感和行為是交互的4、情緒標(biāo)簽QQ的情緒圖標(biāo)情緒圖標(biāo)是一種直接的情感表達(dá)方式:憤怒、忙碌、醉酒、輕佻、饑渴以及勞累等大部分情況,語言和文字是模糊和間接的情感表達(dá)方式,而我們通常都無法直接看到作者的主觀內(nèi)在情感。

一種簡單的方式是,看文字里是否出現(xiàn)某些關(guān)鍵詞,然后加以運(yùn)算,來判斷主觀的內(nèi)在情感。

例如,判斷焦慮,可以查找“緊張”、“害怕”、“面試”、“醫(yī)院”等詞,以及文章里面是否缺乏那些非焦慮博客中常見的詞匯,例如“太好了”、“真棒”、“愛”等。5、一種簡單文字情感分析方式6、情緒指標(biāo)影響金融市場美國伊利諾伊大學(xué)的兩位科學(xué)家:

博客中所表現(xiàn)出來的焦慮是否會影響到股市呢?

焦慮指數(shù)和標(biāo)普500指數(shù)的走勢對照。其中,焦慮指數(shù)(虛線)和標(biāo)普500指數(shù)走勢(實(shí)線)交錯產(chǎn)生了諸多的菱形空間。

用虛線表示的焦慮指數(shù)與標(biāo)普500指數(shù)呈反相關(guān)關(guān)系?!敖箲]程度越高,對市場的負(fù)面影響越大?!?/p>

其研究表明,通過公眾情緒可預(yù)測股市走勢。感謝聆聽!《大數(shù)據(jù)導(dǎo)論》神經(jīng)網(wǎng)絡(luò)1、什么是神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)一般指生物的大腦神經(jīng)元,細(xì)胞,觸點(diǎn)等組成的網(wǎng)絡(luò),用于產(chǎn)生生物的意識,幫助生物進(jìn)行思考和行動。2、人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,簡寫為ANNs)也簡稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(ConnectionModel),它是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。3、研究內(nèi)容生物原型:從生理學(xué)、心理學(xué)、解剖學(xué)、腦科學(xué)、病理學(xué)等方面研究神經(jīng)細(xì)胞、神經(jīng)網(wǎng)絡(luò)、神經(jīng)系統(tǒng)的生物原型結(jié)構(gòu)及其功能機(jī)理。模型研究:根據(jù)生物原型的研究,建立神經(jīng)元、神經(jīng)網(wǎng)絡(luò)的理論模型。其中包括概念模型、知識模型、物理化學(xué)模型、數(shù)學(xué)模型等。算法研究:在理論模型研究的基礎(chǔ)上構(gòu)作具體的神經(jīng)網(wǎng)絡(luò)模型,以實(shí)現(xiàn)計算機(jī)模擬或準(zhǔn)備制作硬件,包括網(wǎng)絡(luò)學(xué)習(xí)算法的研究。這方面的工作也稱為技術(shù)模型研究。4、應(yīng)用完成某種信號處理或模式識別的功能構(gòu)作專家系統(tǒng)手寫體識別神經(jīng)網(wǎng)絡(luò)圖像識別機(jī)器視覺語音識別5、經(jīng)典的神經(jīng)網(wǎng)絡(luò)這是一個包含三個層次的神經(jīng)網(wǎng)絡(luò)。紅色的是輸入層,綠色的是輸出層,紫色的是中間層(也叫隱藏層)。輸入層有3個輸入單元,隱藏層有4個單元,輸出層有2個單元。對于神經(jīng)元的研究由來已久,1904年生物學(xué)家就已經(jīng)知曉了神經(jīng)元的組成結(jié)構(gòu)。一個神經(jīng)元通常具有多個樹突,主要用來接受傳入信息;而軸突只有一條,軸突尾端有許多軸突末梢可以給其他多個神經(jīng)元傳遞信息。軸突末梢跟其他神經(jīng)元的樹突產(chǎn)生連接,從而傳遞信號。這個連接的位置在生物學(xué)上叫做“突觸”。人腦中的神經(jīng)元形狀6、生物神經(jīng)元

1943年,心理學(xué)家McCulloch(麥卡洛克)和數(shù)學(xué)家Pitts(匹茲)參考了生物神經(jīng)元的結(jié)構(gòu),發(fā)表了抽象的神經(jīng)元模型MP。7、人工神經(jīng)元模型8、連接連接是神經(jīng)元中最重要的東西。每一個連接上都有一個權(quán)重。一個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法就是讓權(quán)重的值調(diào)整到最佳,以使得整個網(wǎng)絡(luò)的預(yù)測效果最好。我們使用a來表示輸入,用w來表示權(quán)值。一個表示連接的有向箭頭可以這樣理解:在初端,傳遞的信號大小仍然是a,端中間有加權(quán)參數(shù)w,經(jīng)過這個加權(quán)后的信號會變成a*w,因此在連接的末端,信號的大小就變成了a*w。在其他繪圖模型里,有向箭頭可能表示的是值的不變傳遞。而在神經(jīng)元模型里,每個有向箭頭表示的是值的加權(quán)傳遞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論