




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
愿科學(xué)之精神在國民中得到普及,愿中國年輕的一代涌現(xiàn)更多的杰出專業(yè)人才?!啊啊稊?shù)學(xué)之美》《浪潮之巔》作者騰訊副總裁吳軍這本書適合誰看?所有不理解高數(shù)線代用處的理工大學(xué)生想在社會(huì)科學(xué)領(lǐng)域取得突破的文藝青年張嘴移動(dòng)互聯(lián)網(wǎng)閉口云計(jì)算的創(chuàng)業(yè)才俊這本書適合誰看?幾乎所有領(lǐng)域的人都可以讀一讀這本書你可以不懂?dāng)?shù)學(xué)但你應(yīng)該學(xué)點(diǎn)數(shù)學(xué)思維整體思維案例:如何抓住搜索引擎排名作弊者?大部分人發(fā)現(xiàn)某個(gè)網(wǎng)站系統(tǒng)作弊將該網(wǎng)站放進(jìn)黑名單作弊者更換作弊網(wǎng)站不斷擴(kuò)展黑名單目錄這其實(shí)是一種湊結(jié)果的方法,能快速解決問題,但一旦出現(xiàn)新情況就需要不斷調(diào)整適應(yīng),最后導(dǎo)致解決問題的方法越來越復(fù)雜而失去效果。頂尖高手提煉作弊網(wǎng)站鏈接特征建立特征鏈接向量模型發(fā)現(xiàn)網(wǎng)站向量特征異常清除作弊網(wǎng)站搜索結(jié)果分析業(yè)務(wù)建立數(shù)學(xué)模型,然后用實(shí)踐數(shù)據(jù)驗(yàn)證模型的可靠性,再用經(jīng)過實(shí)踐檢驗(yàn)的模型去解決所有相關(guān)的問題,這樣建立了普遍適應(yīng)能力的,抗干擾能力強(qiáng)的系統(tǒng)。復(fù)雜問題往往有簡單之解,如利用計(jì)算機(jī)完成機(jī)器翻譯?!獏擒姾唵螁栴}往往復(fù)雜到無解,如回答我們?yōu)槭裁匆钪俊锶~跨界思維案例:如何讓計(jì)算機(jī)理解自然語言?早期對(duì)處理自然語言問題是基于語法分析的機(jī)器翻譯語音識(shí)別自動(dòng)問答自動(dòng)摘要應(yīng)用層自然語言理解認(rèn)知層句法分析基礎(chǔ)層語義分析克勞德·艾爾伍德·香農(nóng)(1916—2001)美國數(shù)學(xué)家,信息論創(chuàng)建者必須讓計(jì)算機(jī)理解自然語言的規(guī)則!““—1956年于達(dá)特茅斯夏季人工智能研究會(huì)議這都是人工智能問題——為什么會(huì)這樣想?基于人類直覺1能把英語翻譯成漢語的人,一定是能理解兩種語言規(guī)則的人?;趹T性思維2通過分析語句和獲取語義,傳統(tǒng)語言學(xué)研究已經(jīng)建立了復(fù)雜的語法規(guī)則體系。但是他們的思路遇到了大麻煩?。∮?jì)算量爆炸1僅僅覆蓋20%真實(shí)語句的規(guī)則就超過幾萬條。多義性陷阱2自然語言含義和上下文相關(guān),難以用規(guī)則表述?!?研究陷入長久的停滯……之后一些科學(xué)家在語音識(shí)別領(lǐng)域?qū)崿F(xiàn)了意外的突破1970年,弗里德里克·賈里尼克(FrederickJelinek)在IBM華生實(shí)驗(yàn)室想解決語音識(shí)別問題,采取了基于統(tǒng)計(jì)的方法,使語音識(shí)別率從
提高到90%一個(gè)句子是否合理,就看他(出現(xiàn))的可能性大小如何,至于可能性就用概率來衡量?!啊昂髞戆柛ダ椎隆に共└裉?AlfredSpector)去IBM參觀
后受到啟發(fā),最早讓卡內(nèi)基-梅隆大學(xué)從傳統(tǒng)自然語言處
理方法轉(zhuǎn)到基于統(tǒng)計(jì)方法,這也是李開復(fù)后來就讀大學(xué)。90%90%1992年,李開復(fù)和洪小文循著基于統(tǒng)計(jì)方法而不是基于規(guī)則分析方法的思路,結(jié)合機(jī)器學(xué)習(xí)技術(shù),開發(fā)的“斯芬克斯”系統(tǒng)最終解決了語音識(shí)別的問題,使語音識(shí)別達(dá)到了商業(yè)化級(jí)別。李開復(fù)和洪小文出色的工作,幫助他們的論文導(dǎo)師拉杰·雷迪(RajReddy)獲得了圖靈獎(jiǎng)。不過讓計(jì)算機(jī)理解自然語言依然有很多挑戰(zhàn)計(jì)算簡化統(tǒng)計(jì)模型語料選擇模型訓(xùn)練給定一個(gè)模型,如何計(jì)算某個(gè)特定的輸出序列的概率?
【Forward-Backward算法】1給定一個(gè)模型和某個(gè)特定的輸出序列,如何找到最可能產(chǎn)生這個(gè)輸出的狀態(tài)序列?【維特比算法】2給定足夠量的觀測數(shù)據(jù),如何估計(jì)隱含馬爾可夫模型的參數(shù)?【無監(jiān)督的鮑姆-韋爾奇算法】3簡化思維案例:如何建立一個(gè)可用的搜索引擎?5000億個(gè)網(wǎng)頁如何在最短時(shí)間內(nèi)用最少服務(wù)器遍歷一遍網(wǎng)頁?5000億個(gè)網(wǎng)頁如何用最少空間建立網(wǎng)頁內(nèi)容的索引用于比對(duì)?5000億個(gè)網(wǎng)頁如何計(jì)算出那些網(wǎng)頁的質(zhì)量度高可優(yōu)先推薦?5000億個(gè)網(wǎng)頁如何計(jì)算出哪個(gè)網(wǎng)頁最可能是客戶查找的網(wǎng)頁?相關(guān)查詢快速下載制作索引排名推薦查詢相關(guān)下載網(wǎng)頁制作索引網(wǎng)頁排名如何在有限時(shí)間內(nèi)最多地爬下最重要的網(wǎng)頁?問題本質(zhì)數(shù)學(xué)方法圖論BFS(廣度優(yōu)先算法)
找到一個(gè)網(wǎng)站就順鏈接下載其上全部下級(jí)頁面DFS(深度優(yōu)先算法)
先找到重要的網(wǎng)站下載重要的頁面這個(gè)問題也可以等價(jià)于從北京出發(fā)到走遍全國每個(gè)城市,怎樣走最好?查詢相關(guān)下載網(wǎng)頁制作索引網(wǎng)頁排名如何用最少空間建立網(wǎng)頁內(nèi)容的索引用于比對(duì)?問題本質(zhì)數(shù)學(xué)方法布爾代數(shù)建立一個(gè)關(guān)鍵字詞匯表1每個(gè)關(guān)鍵詞建立一個(gè)長長的二進(jìn)制數(shù),每一位代表一篇文獻(xiàn)2每一位數(shù)如果是1則代表一篇文獻(xiàn)是否含有某關(guān)鍵詞,1000100100010…表示第1篇,第5篇,第8篇,第12篇含有某關(guān)鍵詞3計(jì)算機(jī)要找出哪些文字含用戶搜索關(guān)鍵詞只需要做一次布爾運(yùn)算4布爾運(yùn)算的效率最便宜的微機(jī)一秒鐘可以進(jìn)行數(shù)十億次5海量網(wǎng)頁就構(gòu)成了一個(gè)海量索引6索引還需要記錄每個(gè)詞的位置和次數(shù)7巨大的索引超出計(jì)算機(jī)內(nèi)存,需要設(shè)計(jì)計(jì)算機(jī)的分布式運(yùn)算能力8查詢相關(guān)下載網(wǎng)頁制作索引網(wǎng)頁排名如何計(jì)算出那些網(wǎng)頁的質(zhì)量度高優(yōu)先推薦?問題本質(zhì)數(shù)學(xué)方法PageRank算法PageRank算法核心思想就是一個(gè)網(wǎng)頁被很多其它網(wǎng)頁所鏈接,特別是高質(zhì)量的網(wǎng)頁所鏈接,那么它的網(wǎng)頁質(zhì)量就高,相應(yīng)排名也高。1為了計(jì)算網(wǎng)頁的質(zhì)量排名,就需要知道其關(guān)聯(lián)的網(wǎng)頁質(zhì)量排名,這就產(chǎn)生了一個(gè)是先有雞還是先有蛋的怪圈。2利用二維矩陣相乘迭代算法解決這個(gè)問題,假定所有網(wǎng)頁排名都是一個(gè)相同初始值,通過這種迭代算法一定可收斂到網(wǎng)頁真實(shí)排名。3計(jì)算海量網(wǎng)頁排名計(jì)算量非常大,利用稀疏矩陣計(jì)算技巧可簡化計(jì)算,最后谷歌發(fā)展出MapReduce并行計(jì)算工具減少服務(wù)器負(fù)擔(dān)。4佩奇和布林成功關(guān)鍵是把整個(gè)互聯(lián)網(wǎng)當(dāng)做一個(gè)整體對(duì)待,以往的算法只注意了網(wǎng)頁內(nèi)容和查詢語句的相關(guān)性,忽略了網(wǎng)頁之間的關(guān)系。5查詢相關(guān)下載網(wǎng)頁制作索引網(wǎng)頁排名如何計(jì)算出最可能是客戶要查找的網(wǎng)頁?問題本質(zhì)數(shù)學(xué)方法關(guān)鍵詞權(quán)重的概率論計(jì)算(TF-IDF)包含關(guān)鍵詞多的網(wǎng)頁應(yīng)該比少的網(wǎng)頁相關(guān)度高,但是長網(wǎng)頁豈不是占了便宜?所以需要計(jì)算“關(guān)鍵詞的頻率”,也就是關(guān)鍵詞次數(shù)除以網(wǎng)頁的總字?jǐn)?shù)。1如果一個(gè)搜索包括N個(gè)關(guān)鍵詞,那么需要計(jì)算每個(gè)關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的總詞頻(TF)。2你得刪除掉很多無用的虛詞或副詞,也就是不同的關(guān)鍵詞應(yīng)該有不同的權(quán)重,使用最多的權(quán)重是“逆文本頻率指數(shù)(IDF)”,也就是取關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的次數(shù)除以網(wǎng)頁總數(shù)的對(duì)數(shù)。3把每個(gè)關(guān)鍵詞的詞頻和權(quán)重做加權(quán)求和,就可以得到搜索結(jié)果的相關(guān)性。4最后的搜索排名主要由相關(guān)性和網(wǎng)頁排名綜合決定。5附錄書中錦句““數(shù)學(xué)的精彩就在于簡單的模型可以干大事,數(shù)學(xué)的魅力就在于將復(fù)雜的問題簡單化。1““有的科學(xué)家年級(jí)不算老,但是已經(jīng)落伍,大家需要耐心等他們退休讓出位子,科學(xué)才能以更快的速度發(fā)展。因?yàn)椴皇撬腥硕紭芬飧淖冏约旱挠^點(diǎn),無論對(duì)錯(cuò)。2““知道的信息越多,隨機(jī)事件的不確定性就越小。3““首先,小學(xué)生和中學(xué)生其實(shí)沒有必要花那么多時(shí)間讀書,而他們的社會(huì)經(jīng)驗(yàn),生活能力以及在那時(shí)樹立起的志向?qū)椭麄兊囊簧?。其次中學(xué)階段花很多時(shí)間比同伴多讀的課程,在大學(xué)以后用非常短的世界就可以讀完,因?yàn)樵诖髮W(xué)階段,人的理解力要強(qiáng)得多。因此一個(gè)學(xué)生在中小階段建立的那一點(diǎn)點(diǎn)優(yōu)勢在大學(xué)很快就會(huì)喪失殆盡。書本的內(nèi)容可以早學(xué),可以晚學(xué),但是錯(cuò)過了成長的階段卻是無法補(bǔ)回來的。4““一個(gè)人想要在自己的領(lǐng)域做到世界一流,他周圍必須有非常多的一流人物。5““技術(shù)分為術(shù)和道兩種,具體的技術(shù)很容易從獨(dú)門絕技到普及,再到落伍,追求術(shù)的人一輩子工作都很辛苦。6““許多希望我介紹術(shù)的人都是希望走捷徑,但是真正做好一件事沒有捷徑,需要一萬小時(shí)的專業(yè)訓(xùn)練和努力,累積一段時(shí)間才有感覺。7““在工程上簡單實(shí)用的方法是最好。8““先幫用戶解決80%的問題,再慢慢解決剩下的20%的問題。9““美國人總是傾向于用機(jī)器代替人工完成任務(wù)。雖然在短期需要做一些額外的工作,但是從長遠(yuǎn)看可以節(jié)省很多時(shí)間和成本。10““一個(gè)正確的數(shù)學(xué)模型應(yīng)當(dāng)在形式上是簡單的。11““一個(gè)正確的模型可能一開始還不如一個(gè)精雕細(xì)琢過的錯(cuò)誤模型來的準(zhǔn)確,但是,如果我們認(rèn)定大方向是對(duì)的,就應(yīng)該堅(jiān)持下去。12““大量準(zhǔn)確的數(shù)據(jù)對(duì)研發(fā)很重要。13““正確的模型也可能受噪音干擾,而顯得不準(zhǔn)確,這時(shí)不應(yīng)該用一種湊合的方法來彌補(bǔ)它,而是要找到噪音的根源,這也許能通往重大的發(fā)現(xiàn)。14““當(dāng)我們遇到不確定性時(shí),就要保留各種可能性。15““世界上最好的學(xué)者總是可以深入淺出把大道理講給外行聽,而不是故弄玄虛把簡單的問題復(fù)雜化。16謝謝觀看00100101010101000101111011101110111000110001100001000011000011111110010000100001100001111111001011100000011111100011100001100101010001100001110000110000001110000011111110000001000100001100001111111001011100000101110000000111010101000000111100010101010101010101000000000111000001010100010000110000110110100101110110001011010100001110100011000100001110000011110000111010101010101010101111100001000011000010111110110011000010101010101000010100101010101010101010101011110000011100001100000000111001000100001100001111011001011100010010101000110011100000101010000010100001100000000110000001010101010101010110010000110000111011100101010000101000100101010101000101111011101110111000110001100001000011000011111110011110001100001000011000011111110010111111100011100001100101010001100001110000110000001110000011111110000001101010001100001110000110001100000110110000000111010101000000111100010101010101010101000000000111000001010101111000001110000110000000011100100111010100001110100011000100001110000011110000111010101010101010101111101001110000110000000011100100000111001010101000010100101010101010101010101011110000011100001100000000111001001100000000110000001010101010000110101000110011100000101010000010100001100000000110000001010101010101010100101010101010110101010101010110011100100101010101000101111011101110111000110001100001000011000011111110010010101010101011010101010101011111001111100011100001100101010001100001110000110000001110000011111110000001001010101010101101010101010101100011110000000111010101000000111100010101010101010101000000000111000001010110011110000111010101010101010100101011010100001110100011000100001110000011110000111010101010101010101111101000111111100000011010100011000011111010101000010100101010101010101010101011110000011100001100000000111001010100000101000011000000001110101010101000110011100000101010000010100001100000000110000001010101010101010101010000010100101000000001111100000100100101010101000101111011101110111000110001100001000011000011111110010000100001100001111111001011100000011111100011100001100101010001100001110000110000001110000011111110000001000100001100001111111001011100000101110000000111010101000000111100010101010101010101000000
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年上半年安徽宣城旌德招聘勞務(wù)派遣人員11人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年安慶太湖縣事業(yè)單位招考(75人)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年寧夏建設(shè)投資集團(tuán)限公司長期引進(jìn)85人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年頭孢類抗菌藥物項(xiàng)目合作計(jì)劃書
- 浙江鴨2025版高考?xì)v史大三輪復(fù)習(xí)非選擇題專練三人民版
- 高中語文情感美文秋風(fēng)吹組詩
- 江蘇專用版2025版高考語文二輪復(fù)習(xí)題型研訓(xùn)五修辭精練含解析
- 2024江蘇無錫市錫州產(chǎn)城控股集團(tuán)有限公司招聘錄用筆試參考題庫附帶答案詳解
- 2024年安徽民航機(jī)場集團(tuán)有限公司招聘34人筆試參考題庫附帶答案詳解
- 共享單車運(yùn)營承包協(xié)議范本
- 神經(jīng)源性腸道康復(fù)護(hù)理
- 家政人員安全知識(shí)
- 四年級(jí)全一冊《勞動(dòng)與技術(shù)》第一單元活動(dòng)3《學(xué)習(xí)使用家用電器》課件
- S7-200SMART系統(tǒng)手冊(中文)
- 成交量的趨勢拐點(diǎn)-99%精準(zhǔn)的秘密買點(diǎn)
- 跨境車輛代購協(xié)議書
- 《骨髓穿刺術(shù)》課件
- 2025屆湖北省高中名校聯(lián)盟高三上學(xué)期11月第二次聯(lián)合測評(píng)(圓創(chuàng)聯(lián)盟)語文試題
- DB41T2689-2024水利工程施工圖設(shè)計(jì)文件編制規(guī)范
- 生日宴快閃開場模板6
- 責(zé)任護(hù)理組長競選
評(píng)論
0/150
提交評(píng)論