大數(shù)據(jù)時(shí)代的機(jī)器學(xué)習(xí)_第1頁
大數(shù)據(jù)時(shí)代的機(jī)器學(xué)習(xí)_第2頁
大數(shù)據(jù)時(shí)代的機(jī)器學(xué)習(xí)_第3頁
大數(shù)據(jù)時(shí)代的機(jī)器學(xué)習(xí)_第4頁
大數(shù)據(jù)時(shí)代的機(jī)器學(xué)習(xí)_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)第1頁5月16日,吳恩達(dá)加入baidu,擔(dān)任baidu企業(yè)首席科學(xué)家,負(fù)責(zé)baidu研究院領(lǐng)導(dǎo)工作,尤其是Baidu Brain計(jì)劃。Geoffrey Hinton:Deep Learning開山祖師爺,多倫多大學(xué)教授,“Google大腦”責(zé)任人Facebook人工智能試驗(yàn)室主任、NYU數(shù)據(jù)科學(xué)中心創(chuàng)始人、深度學(xué)習(xí)界泰斗Yann LeCun第2頁第3頁Machine Learning, What it is and why it matters?輸入:身高、體重輸出:漂亮、普通X=165,46h(X)=1X=154,66h(X)=0.X=162,52h(X)=?第4頁Machine Le

2、arning, What it is and why it matters?第5頁Machine Learning, What it is and why it matters?第6頁Machine Learning, What it is and why it matters?第7頁Machine Learning, What it is and why it matters?第8頁Machine Learning, What it is and why it matters?第9頁模式識(shí)別=機(jī)器學(xué)習(xí)。二者主要區(qū)分在于前者是從工業(yè)界發(fā)展起來概念,后者則主要源自計(jì)算機(jī)學(xué)科。在著名Pattern

3、 Recognition And Machine Learning這本書中,Christopher M. Bishop在開頭是這么說“模式識(shí)別源自工業(yè)界,而機(jī)器學(xué)習(xí)來自于計(jì)算機(jī)學(xué)科。不過,它們中活動(dòng)能夠被視為同一個(gè)領(lǐng)域兩個(gè)方面,同時(shí)在過去間,它們都有了長足發(fā)展”。第10頁數(shù)據(jù)挖掘=機(jī)器學(xué)習(xí)+數(shù)據(jù)庫。數(shù)據(jù)挖掘是一個(gè)思索方式,告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識(shí),但不是每個(gè)數(shù)據(jù)都能挖掘出金子,所以不要神話它。一個(gè)系統(tǒng)絕對(duì)不會(huì)因?yàn)樯狭艘粋€(gè)數(shù)據(jù)挖掘模塊就變得無所不能,一個(gè)擁有數(shù)據(jù)挖掘思維人員才是關(guān)鍵,而且他還必須對(duì)數(shù)據(jù)有深刻認(rèn)識(shí),這么才可能從數(shù)據(jù)中導(dǎo)出模式指導(dǎo)業(yè)務(wù)改進(jìn)。大部分?jǐn)?shù)據(jù)挖掘中算法是機(jī)器學(xué)習(xí)算法

4、在數(shù)據(jù)庫中優(yōu)化。第11頁統(tǒng)計(jì)學(xué)習(xí)近似等于機(jī)器學(xué)習(xí)。統(tǒng)計(jì)學(xué)習(xí)是個(gè)與機(jī)器學(xué)習(xí)高度重合學(xué)科。因?yàn)闄C(jī)器學(xué)習(xí)中大多數(shù)方法來自統(tǒng)計(jì)學(xué),甚至能夠認(rèn)為,統(tǒng)計(jì)學(xué)發(fā)展促進(jìn)機(jī)器學(xué)習(xí)繁榮興盛。比如著名支持向量機(jī)算法,就是源自統(tǒng)計(jì)學(xué)科。不過在某種程度上二者是有分別,這個(gè)分別在于:統(tǒng)計(jì)學(xué)習(xí)者重點(diǎn)關(guān)注是統(tǒng)計(jì)模型發(fā)展與優(yōu)化,偏數(shù)學(xué),而機(jī)器學(xué)習(xí)者更關(guān)注是能夠處理問題,偏實(shí)踐,所以機(jī)器學(xué)習(xí)研究者會(huì)重點(diǎn)研究學(xué)習(xí)算法在計(jì)算機(jī)上執(zhí)行效率與準(zhǔn)確性提升。第12頁計(jì)算機(jī)視覺=圖像處理+機(jī)器學(xué)習(xí)。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機(jī)器學(xué)習(xí)模型中輸入,機(jī)器學(xué)習(xí)則負(fù)責(zé)從圖像中識(shí)別出相關(guān)模式。計(jì)算機(jī)視覺相關(guān)應(yīng)用非常多,比如baidu識(shí)圖、手寫字符

5、識(shí)別、車牌識(shí)別等等應(yīng)用。這個(gè)領(lǐng)域是應(yīng)用前景非常熾熱,同時(shí)也是研究熱門方向。伴隨機(jī)器學(xué)習(xí)新領(lǐng)域深度學(xué)習(xí)發(fā)展,大大促進(jìn)了計(jì)算機(jī)圖像識(shí)別效果,所以未來計(jì)算機(jī)視覺界發(fā)展前景不可估量。第13頁語音識(shí)別=語音處理+機(jī)器學(xué)習(xí)。語音識(shí)別就是音頻處理技術(shù)與機(jī)器學(xué)習(xí)結(jié)合。語音識(shí)別技術(shù)普通不會(huì)單獨(dú)使用,普通會(huì)結(jié)合自然語言處理相關(guān)技術(shù)。當(dāng)前相關(guān)應(yīng)用有蘋果語音助手siri等。第14頁自然語言處理=文本處理+機(jī)器學(xué)習(xí)。自然語言處理技術(shù)主要是讓機(jī)器了解人類語言一門領(lǐng)域。在自然語言處理技術(shù)中,大量使用了編譯原理相關(guān)技術(shù),比如詞法分析,語法分析等等,除此之外,在了解這個(gè)層面,則使用了語義了解,機(jī)器學(xué)習(xí)等技術(shù)。作為唯一由人類本身

6、創(chuàng)造符號(hào),自然語言處理一直是機(jī)器學(xué)習(xí)界不停研究方向。第15頁回歸算法:線性回歸和邏輯回歸。線性回歸就是我們前面說過房價(jià)求解問題。怎樣擬合出一條直線最正確匹配我全部數(shù)據(jù)?普通使用“最小二乘法”來求解?!白钚《朔ā彼枷胧沁@么,假設(shè)我們擬合出直線代表數(shù)據(jù)真實(shí)值。邏輯回歸是一個(gè)與線性回歸非常類似算法,不過,從本質(zhì)上講,線型回歸處理問題類型與邏輯回歸不一致。線性回歸處理是數(shù)值問題,也就是最終預(yù)測(cè)出結(jié)果是數(shù)字,比如房價(jià)。第16頁第17頁神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)誕生起源于對(duì)大腦工作機(jī)理研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦。機(jī)器學(xué)習(xí)學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)試驗(yàn),發(fā)覺在視覺與語音識(shí)別上效果都相當(dāng)好。在

7、BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程數(shù)值算法)誕生以后,神經(jīng)網(wǎng)絡(luò)發(fā)展進(jìn)入了一個(gè)熱潮。BP算法創(chuàng)造人之一是前面介紹機(jī)器學(xué)習(xí)大牛Geoffrey Hinton(圖1中中間者)。第18頁支持向量機(jī)(SVM):支持向量機(jī)算法從某種意義上來說是邏輯回歸算法強(qiáng)化:經(jīng)過給予邏輯回歸算法更嚴(yán)格優(yōu)化條件,支持向量機(jī)算法能夠取得比邏輯回歸更加好分類界限。不過假如沒有某類函數(shù)技術(shù),則支持向量機(jī)算法最多算是一個(gè)更加好線性分類技術(shù)。第19頁支持向量機(jī)(SVM):訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽,而算法目標(biāo)則是經(jīng)過訓(xùn)練,推測(cè)出這些數(shù)據(jù)標(biāo)簽。這類算法有一個(gè)統(tǒng)稱,即無監(jiān)督算法(前面有標(biāo)簽數(shù)據(jù)算法則是有監(jiān)督算法)。無監(jiān)督算法中最經(jīng)典代表就是聚類

8、算法。以二維數(shù)據(jù)為例,某一個(gè)數(shù)據(jù)包含兩個(gè)特征。我希望經(jīng)過聚類算法,給他們中不一樣種類打上標(biāo)簽,聚類算法就是計(jì)算種群中距離,依據(jù)距離遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。第20頁降維算法:降維算法也是一個(gè)無監(jiān)督學(xué)習(xí)算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實(shí)表示是數(shù)據(jù)特征量大小,經(jīng)過降維算法我們就能夠去除冗余信息,將特征降低為面積與房間數(shù)量兩個(gè)特征,即從高維數(shù)據(jù)壓縮到低維,如主成份分析第21頁推薦算法:推薦算法是當(dāng)前業(yè)界非常火一個(gè)算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛利用。推薦算法主要特征就是能夠自動(dòng)向用戶推薦他們最感興趣東西,從而增加購置率,提升效益。第22頁有監(jiān)督算法:線性回

9、歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),SVM無監(jiān)督算法:聚類算法,降維算法。特殊算法:推薦算法。第23頁第24頁第25頁第26頁1.大數(shù)據(jù),小分析:即數(shù)據(jù)倉庫領(lǐng)域OLAP分析思緒,也就是多維分析思想。2.大數(shù)據(jù),大分析:這個(gè)代表就是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)分析法。3.流式分析:這個(gè)主要指是事件驅(qū)動(dòng)架構(gòu)。4.查詢分析:經(jīng)典代表是NoSQL數(shù)據(jù)庫。第27頁Its not who has the best algorithm that wins .Its who has the most data.第28頁第29頁,Geoffrey Hinton在科學(xué)雜志Science上發(fā)表了一篇文章,論證了兩個(gè)觀點(diǎn):1.多隱層神經(jīng)網(wǎng)

10、絡(luò)含有優(yōu)異特征學(xué)習(xí)能力,學(xué)習(xí)得到特征對(duì)數(shù)據(jù)有更本質(zhì)刻畫,從而有利于可視化或分類;2.深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上難度,能夠經(jīng)過“逐層初始化” 來有效克服。第30頁,Geoffrey Hinton在科學(xué)雜志Science上發(fā)表了一篇文章,論證了兩個(gè)觀點(diǎn):1.多隱層神經(jīng)網(wǎng)絡(luò)含有優(yōu)異特征學(xué)習(xí)能力,學(xué)習(xí)得到特征對(duì)數(shù)據(jù)有更本質(zhì)刻畫,從而有利于可視化或分類;2.深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上難度,能夠經(jīng)過“逐層初始化” 來有效克服。第31頁6月,紐約時(shí)報(bào)披露了Google Brain項(xiàng)目,這個(gè)項(xiàng)目是由Andrew Ng和Map-Reduce創(chuàng)造人Jeff Dean共同主導(dǎo),用16000個(gè)CPU Core并行計(jì)算平臺(tái)訓(xùn)練一個(gè)

11、稱為“深層神經(jīng)網(wǎng)絡(luò)”機(jī)器學(xué)習(xí)模型,在語音識(shí)別和圖像識(shí)別等領(lǐng)域取得了巨大成功。Andrew Ng就是文章開始所介紹機(jī)器學(xué)習(xí)大牛。第32頁11月,微軟在中國天津一次活動(dòng)上公開演示了一個(gè)全自動(dòng)同聲傳譯系統(tǒng),講演者用英文演講,后臺(tái)計(jì)算機(jī)一氣呵成自動(dòng)完成語音識(shí)別、英中機(jī)器翻譯,以及漢字語音合成,效果非常流暢,其中支撐關(guān)鍵技術(shù)是深度學(xué)習(xí);。第33頁1月,在baidu年會(huì)上,創(chuàng)始人兼CEO李彥宏高調(diào)宣告要成立baidu研究院,其中第一個(gè)重點(diǎn)方向就是深度學(xué)習(xí),并為此而成立深度學(xué)習(xí)研究院(IDL)。第34頁4月,麻省理工學(xué)院技術(shù)評(píng)論雜志將深度學(xué)習(xí)列為十大突破性技術(shù)(Breakthrough Technology)之首。第35頁第36頁10月阿爾法圍棋以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。年3月挑戰(zhàn)世界圍棋冠軍、職業(yè)九段選手李世石。依據(jù)日程安排,5盤棋將分別于3月9日、10日、12日、13日和15日舉行,即使一方率先取得3勝,也會(huì)下滿5盤。最終以4:1結(jié)束了這場(chǎng)“戰(zhàn)爭”。第37頁第38頁第39頁第40頁第41頁第42頁第43頁第44頁第45頁第46頁第47頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論