下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)學(xué)之美讀書筆記數(shù)學(xué)之美讀書筆記數(shù)學(xué)之美是一本領(lǐng)域相關(guān)的數(shù)學(xué)概念書,生動形象地講解了關(guān)于數(shù)據(jù)挖掘、文本檢索等方面的基礎(chǔ)知識,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關(guān)鍵是要從中學(xué)到道-解決問題的方法,而不僅僅是術(shù)。書中也啟發(fā)式的引導(dǎo)讀者形成自己解決問題的道。下面記錄一下自己讀這本書的一些感想:第一章文字和語言vs數(shù)字和信息:文字和語言中天然蘊藏著一些數(shù)學(xué)思想,數(shù)學(xué)可能不僅僅的是一門非常理科的知識,也是一種藝術(shù)。另外,遇到一個復(fù)雜的問題時,可能生活中的一些常識,一些簡單的思想會給你帶來解決問題的靈感。第二章自然語言處理-從規(guī)則到統(tǒng)計:試圖模擬人腦處理語言的模式,基于
2、語法規(guī)則,詞性等進行語法分析、語義分析的自然語言處理有著很大的復(fù)雜度,而基于統(tǒng)計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統(tǒng)計的方法經(jīng)歷了20多年,非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的,感謝那些曾經(jīng)奉獻了青春的科學(xué)家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風(fēng)順的,這是自然界的普遍真理吧!第三章統(tǒng)計語言模型:自然語言的處理找到了一種合適的方法一基于統(tǒng)計的模型,概率論的知識開始發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計算量越大,簡單實用就是最好
3、的。對于莫些不由現(xiàn)或由現(xiàn)次數(shù)很少的詞,會有零概率問題,這是就要找到一數(shù)學(xué)方法給它一個很小的概率。以前學(xué)概率論的時候覺的沒什么用,現(xiàn)在開始發(fā)現(xiàn)這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數(shù)學(xué)的魅力就在于將復(fù)雜的問題簡單化。第四章談?wù)勚形姆衷~:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎(chǔ)。從開始的查字典到后來基于統(tǒng)計語言模型的分詞,如今的中文分詞算是一個已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提由針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。第五章隱馬爾科夫模型:隱馬爾科夫模型和概率論里面的
4、馬爾科夫鏈相似,就是該時刻的狀態(tài)僅與前面更幾個時刻的狀態(tài)有關(guān)?;诖罅繑?shù)據(jù)訓(xùn)練由相應(yīng)的隱馬爾科夫模型,就可以解決好多機器學(xué)習(xí)的問題,訓(xùn)練中會涉及到一些經(jīng)典的算法(維特比算法等)。關(guān)于這個模型,沒有實際實現(xiàn)過,所以感覺好陌生,只是知道了些概率論講過的原理而已。第六章信息的度量和作用:信息論給由了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關(guān)的信息。信息嫡的物理含義是對一個信息系統(tǒng)不確定性的度量,這一點與熱力學(xué)中的嫡概念相同,看似不同的學(xué)科之間也會有著很強的相似性。事務(wù)之間是存在聯(lián)系的,要學(xué)會借鑒其他知識
5、。第七章賈里尼克和現(xiàn)代語言處理:賈里尼克是為世界級的大師,不僅在于他的學(xué)術(shù)成就,更在于他的風(fēng)范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關(guān)鍵是他的思想和他的道。賈里克尼教授治學(xué)嚴謹、用心對待自己的學(xué)生,對于學(xué)生的教導(dǎo),教授告訴你最多的是“什么方法不好",這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學(xué)習(xí),最后在辦公桌前過世了。讀了這章我總結(jié)曲的一句話是“思想決定一個人的高度”。在這章中對于少年時的教育,以下幾點值得借鑒:1、少年時期其實沒有必要花那么多時間讀書,他們的社會經(jīng)驗、生活能力以及在那時樹立起的志向?qū)椭麄円簧?、中學(xué)時花大量時間學(xué)
6、會的內(nèi)容,在大學(xué)用非常短的時間就可以讀完,因為在大學(xué)階段,人的理解力要強很多。3、學(xué)習(xí)(和教育)是一個人一輩子的過程。4、書本的內(nèi)容可以早學(xué),也可以晚學(xué),但是錯過了成長階段卻是無法補回來的。第八章簡單之美-布爾代數(shù)和搜索引擎的索引:布爾是19世紀英國的一位中學(xué)教師,但他的公開身份是啤酒商,提生好的思想的人不一定是大師。簡單的建立索引可以根據(jù)一個詞是否在一個網(wǎng)頁中由現(xiàn)而設(shè)置為0和1,為了適應(yīng)索引訪問的速度、附加的信息、更新要快速,改進了索引的建立,但原理上依然簡單,等價于布爾運算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡單的,而不是復(fù)雜和含混的”。做好搜索,最基本的要求是每天分析10-20
7、個不好的搜索結(jié)果,積累一段時間才有感覺。有時候,學(xué)習(xí)、處理問題,可以從不好的方面入手,效果可能更好。第九章圖論和網(wǎng)絡(luò)爬蟲:圖的遍歷分為“廣度優(yōu)先搜索(Breadth-FirstSearch,簡稱BF0”和“深度優(yōu)先搜索(Depth-FirstSearch,簡稱DF0?;ヂ?lián)網(wǎng)上有幾百億的網(wǎng)頁,需要大量的服務(wù)器用來下載網(wǎng)頁,需要協(xié)調(diào)這些服務(wù)器的任務(wù),這就是網(wǎng)絡(luò)設(shè)計和程序設(shè)計的藝術(shù)了。另外對于簡單的網(wǎng)頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲過(如果記錄每個網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數(shù)字即可),避免重復(fù)下載。另外,在圖論由現(xiàn)的很長一段時間
8、里,實際需求的圖只有幾千個節(jié)點,那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯(lián)網(wǎng)的由現(xiàn),圖的遍歷一下子有了用武之地,很多數(shù)學(xué)方法就是這樣,看上去沒有什么用途,等到具體的應(yīng)用由來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數(shù)學(xué)的原因吧。一個系統(tǒng)看似整體簡單,但里面的每個東西都可能是一個復(fù)雜的東西,需要很好的設(shè)計。第十章PageRank-Google的民主表決式網(wǎng)頁排名技術(shù):搜索返回了成千上萬條結(jié)果,如何為搜索結(jié)果排名?這取決與兩組信息:關(guān)于網(wǎng)頁的質(zhì)量信息以及這個查詢和每個網(wǎng)頁的相關(guān)性信息。PageRank算法來衡量一個網(wǎng)頁的質(zhì)量,該算法的思想是如果一個網(wǎng)頁被很多其他網(wǎng)頁
9、所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提由了該算法并用迭代的方法解決了這個問題。PageRank在Google所有的算法中依然是至關(guān)重要的。該算法并不難,可是當(dāng)時只有佩奇和布林想到了,為什么呢?第十一章如何確定網(wǎng)頁和查詢的相關(guān)性:構(gòu)建一個搜索引擎的四個方面:如何自動下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質(zhì)量以及確定一個網(wǎng)頁和莫個查詢的相關(guān)性。搜索關(guān)鍵詞權(quán)重的科學(xué)度量TFIDF,TF衡量一個詞在一個網(wǎng)頁中的權(quán)重,即詞頻。IDF衡量一個詞本身的權(quán)重,對主題的預(yù)測能力。一個查詢和該網(wǎng)頁的相關(guān)性公式由詞頻的簡單求和變成了加權(quán)求和,即TF1*IDF1+TF2*IDF
10、2+.+TFN*IDFNO看似復(fù)雜的搜索引擎,里面的原理竟是這么簡單!第十二章地圖和本地搜索的最基本技術(shù)一一有限狀態(tài)機和動態(tài)規(guī)劃:地址的解析依靠有限狀態(tài)機,當(dāng)用戶輸入的地址不太標(biāo)準或有錯別字時,希望進行模糊匹配,提由了一種基于概率的有限狀態(tài)機。通用的有限狀態(tài)機的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態(tài)規(guī)劃問題可以用來解決兩點間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態(tài)機和動態(tài)規(guī)劃問題需要看相關(guān)的算法講解,才能深入理解,目前對其并未完全理解。第十三章GoogleAK-47第設(shè)計者阿米特辛格博士:辛格堅持選擇簡單方案的
11、一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于由了問題時查錯,而且容易找到今后改進的目標(biāo)。辛格要求對于搜索質(zhì)量的改進方法都要能說清楚理由,說不清楚理由的改進即使看上去有效也不會采用,因為這樣將來可能是個隱患。辛格非常豉勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學(xué)。第十四章余弦定理和新聞的分類:將新聞根據(jù)詞的TF-IDF值組成新聞的特征向量,然后根據(jù)向量之間的余弦距離衡量兩個特征之間的相似度,將新聞自動聚類。另外根據(jù)詞的不同位置,權(quán)重應(yīng)該不同,比如標(biāo)題的詞權(quán)重明顯應(yīng)該大點。大數(shù)據(jù)量的余弦計算也要考慮很多簡化算法。第十五章矩陣運算和文本處理中的兩個分類問題將大量的文本表示成文本和詞匯的
12、矩陣,然后對該矩陣進行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復(fù)雜度在一個數(shù)量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結(jié)果略顯粗糙,實際工作中一般先進行奇異值分解得到粗分類結(jié)果,在利用余弦計算得到比較精確地結(jié)果。我覺得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。第十六章信息指紋及其應(yīng)用:信息指紋可以作為信息的唯一標(biāo)識。有很多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要使用基于加密的偽隨機數(shù)產(chǎn)生器,常用的算法有MD醵者SHA-1等標(biāo)準。信息指紋可以用來判定集合相
13、同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1.8*10次才可能重復(fù)一次,所以重復(fù)的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復(fù)雜度降低了很多很多。啟發(fā)我們有時候要用變通的思想來解決問題。第十七章由電視劇暗算所想到的一一談?wù)劽艽a學(xué)的數(shù)學(xué)原理:RSA1密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊含著簡單但不好理解的數(shù)學(xué)思想。信息論在密碼設(shè)計中的應(yīng)用:當(dāng)密碼之間分布均勻并且統(tǒng)計獨立時,提供的信息最少。均勻分布使得敵人無從統(tǒng)計,而統(tǒng)計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。第十八章閃光的不一定是金子一一談?wù)勊阉饕?/p>
14、擎反作弊問題:把搜索反作弊看成是通信模型,作弊當(dāng)做是加入的噪聲,解決噪聲的方法:從信息源由發(fā),增強排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關(guān)性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時間相關(guān)的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓由來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術(shù)好,而是到它那里作弊的人少。第十九章談?wù)剶?shù)學(xué)模型的重要性:早期的行星運行模型用大圓套小圓的方法,精確地計算由了所有行星運行的軌跡。但其實模型就是簡單的橢圓而已。
15、一個正確的數(shù)學(xué)模型應(yīng)該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應(yīng)該堅持下去;大量準備的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應(yīng)該用一種湊合的修正方法來彌補它,要找到噪聲的根源,這也許能通往重大的發(fā)現(xiàn)。第二十章不要把雞蛋放在一個籃子里一一談?wù)勛畲蟮漳P停簩σ粋€隨機事件預(yù)測時,當(dāng)各種情況概率相等時,信息嫡達到最大,不確定性最大,預(yù)測的風(fēng)險最小。最大嫡模型的訓(xùn)練非常復(fù)雜,需要時查看資料做進一步的理解。第二十一章拼音輸入法的數(shù)學(xué)原理:輸入法經(jīng)歷了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的
16、過程。任何事物的發(fā)展,螺旋式的回歸不是簡單的重復(fù),而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統(tǒng)的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計算理論上每個漢字的平均最短碼長。全拼不僅編碼平均長度較少,而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計語言模型可是實現(xiàn)拼音轉(zhuǎn)漢字的有效算法,而且可以轉(zhuǎn)換為動態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進一步提升的關(guān)鍵就在于建立更好的語言模型??梢愿鶕?jù)每個用戶建立個性化的語言模型。輸入的過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺的的遵循通信的數(shù)學(xué)模型。要
17、做由最有效的輸入法,應(yīng)該自覺使用信息論做指導(dǎo)。第二十二章自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們:將自然語言處理從基于規(guī)則到基于統(tǒng)計,貢獻最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創(chuàng)性任務(wù);另一個是將這個方法發(fā)揚光大的米奇馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學(xué)LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播由去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建甑,給學(xué)生關(guān)鍵的指導(dǎo);寬松的管理方式,培養(yǎng)各有特點的年輕學(xué)者;是一個有著遠見卓識的管理者。他的學(xué)生為人做事風(fēng)格迥異,但都年輕有為,例如追求完美
18、的邁克爾柯林斯和尋求簡單美的艾克爾布萊爾。大師之所以能成為大師,肯定有著一些優(yōu)秀的品質(zhì)和追求。第二十三章布隆過濾器:判斷一個元素是否在一個集合當(dāng)中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進制,將每個元素通過隨機數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最后在建立的那個很長的二進制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在莫些條件下這個概率是很小的,補救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數(shù)學(xué)原理在于完全隨機的數(shù)字其沖突的可能性很小,可以用很少的空間存儲大
19、量的信息,并且由于只進行簡單的算術(shù)運算,因此速度非???。編程珠見中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。第二十四章馬爾科夫鏈的擴展一一貝葉斯網(wǎng)絡(luò):貝葉斯網(wǎng)絡(luò)是馬爾科夫鏈的擴展,由簡單的線性鏈式關(guān)系擴展為網(wǎng)絡(luò)的關(guān)系,但貝葉斯網(wǎng)絡(luò)仍然假設(shè)每一個狀態(tài)只與它直接相連的狀態(tài)相關(guān)。確定貝葉斯網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和各個狀態(tài)之間相關(guān)的概率也需要訓(xùn)練。在詞分類中,可以建立文章、主題和關(guān)鍵詞的貝葉斯網(wǎng)絡(luò),用來得到詞的分類。貝葉斯網(wǎng)絡(luò)的訓(xùn)練包括確定拓撲結(jié)構(gòu)和轉(zhuǎn)移概率,比較復(fù)雜,后者可以參考最大嫡訓(xùn)練的方法。貝葉斯網(wǎng)絡(luò)導(dǎo)生的模型是非常復(fù)雜的。第二十五章條件隨機場和句法分析:句法分析是分析由一
20、個句子的句子結(jié)構(gòu),對于不規(guī)則的句子,對其進行深入的分析是很復(fù)雜的,而淺層的句法分析在很多時候已經(jīng)可以滿足要求了。條件隨機場就是進行淺層句法分析的有效的數(shù)學(xué)模型。條件隨機場與貝葉斯網(wǎng)絡(luò)很像,不用之處在于,條件隨機場是無向圖,而貝葉斯網(wǎng)絡(luò)是有向圖。條件隨機場的訓(xùn)練很復(fù)雜,簡化之后可以參考最大嫡訓(xùn)練的方法。對于條件隨機場的詳細參數(shù)及原理還不理解。第二十六章維特比和他的維特比算法:維特比算法是一個動態(tài)規(guī)劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實現(xiàn)實
21、時的輸由,這看似簡單,但在當(dāng)時確是很了不起的。維特比并不滿足停留在算法本身,他將算法推廣由去,并應(yīng)用到了實際中,創(chuàng)立了高通公司,成為了世界上第二富有的數(shù)學(xué)家。高通公司在第二代移動通信中并不占很強的市場地位,而其利用CDM微術(shù)霸占了3G的市場,可見遠見的洞察力是多么的重要。第二十七章再談文本分類問題一一期望最大化算法:該章講的其實就是K均值聚類問題,設(shè)置原始聚類中心,然后不斷迭代,直至收斂,將每個點分到一個類中。其實隱馬爾科夫模型的訓(xùn)練和最大嫡的訓(xùn)練都是期望最大化算法(EM。首先,根據(jù)現(xiàn)有的模型,計算各個觀測數(shù)據(jù)輸入到模型中的計算結(jié)果,這個過程稱為期望值計算過程,或E過程;接下來,重新計算模型參數(shù),以最大化期望值,這個過程稱為最大化的過程,或M過程。優(yōu)化的目標(biāo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電信弱電工程承包合同模板
- 鐵路運輸用電安全協(xié)議
- 服裝設(shè)計師招聘協(xié)議書
- 產(chǎn)業(yè)園區(qū)合同履行評估案例
- 停車場車位轉(zhuǎn)讓管理規(guī)則合同范本
- 藝術(shù)品交易合同管理辦法
- 農(nóng)業(yè)園區(qū)停車場建設(shè)協(xié)議
- 水表更換水電班組施工合同
- 家電合作合同范例
- 醫(yī)院藥房人員培訓(xùn)課件
- 2024年度Logo設(shè)計及品牌形象重塑合同
- 2024-2030年中國干細胞醫(yī)療行業(yè)趨勢分析及投資戰(zhàn)略研究報告
- 消防安全培訓(xùn)內(nèi)容
- 2024-2030年鋁型材行業(yè)市場深度調(diào)研及前景趨勢與投資戰(zhàn)略研究報告
- 2024-2030年辣椒種植行業(yè)市場深度分析及發(fā)展策略研究報告
- 變電站綠化維護施工方案
- 校園展美 課件 2024-2025學(xué)年人美版(2024)初中美術(shù)七年級上冊
- 初中英語研修方案
- 2024版《糖尿病健康宣教》課件
- 化工廠拆除施工方案
評論
0/150
提交評論