數(shù)學(xué)之美讀書筆記_第1頁
數(shù)學(xué)之美讀書筆記_第2頁
數(shù)學(xué)之美讀書筆記_第3頁
數(shù)學(xué)之美讀書筆記_第4頁
數(shù)學(xué)之美讀書筆記_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第頁《數(shù)學(xué)之美》讀書筆記《數(shù)學(xué)之美》讀書筆記

當(dāng)細(xì)致品讀一部作品后,你心中有什么感想呢?現(xiàn)在就讓我們寫一篇走心的讀書筆記吧。你想好怎么寫讀書筆記了嗎?以下是我為大家收集的《數(shù)學(xué)之美》讀書筆記,僅供參考,大家一起來看看吧。

《數(shù)學(xué)之美》讀書筆記1

最近看了這本《數(shù)學(xué)之美》,不得不感嘆一句,惋惜早已身不在起點(diǎn)。

我讀書的時(shí)候,數(shù)學(xué)成果始終都很好,雖然離開學(xué)校已經(jīng)10多年,自覺當(dāng)時(shí)的學(xué)問還是記得許多,6~7年前再考線性代數(shù)和概率論,還是得到了很高的分?jǐn)?shù)。不過我也和大部分人一樣,覺得數(shù)學(xué)沒有太多用處,特殊是中學(xué)和高校里面學(xué)的,那些三角函數(shù),向量,大數(shù)定律,解析幾何,除了在考試的題目里面用一下,平常又有什么地方可以用呢?

看了《數(shù)學(xué)之美》,驚羨于數(shù)學(xué)的浩瀚和簡潔,說它浩瀚,是因?yàn)樗姆种Шw了科學(xué)的方方面面,是全部科學(xué)的理論基礎(chǔ),說它簡潔,無論多困難的問題,最終總結(jié)的數(shù)學(xué)公式都簡潔到只有區(qū)區(qū)幾個(gè)符號(hào)和字母。

這本書介紹數(shù)學(xué)理論在互聯(lián)網(wǎng)上的運(yùn)用,平常我們在運(yùn)用互聯(lián)網(wǎng)搜尋或者翻譯功能的時(shí)候,時(shí)常會(huì)感嘆電腦對自己的了解和它的聰慧,其實(shí)背后的原理就是一個(gè)個(gè)精致的算法和大量數(shù)據(jù)的訓(xùn)練。那些或者熟識(shí)或者生疏的數(shù)學(xué)學(xué)問(聯(lián)合概率分布,維特比算法,期望最大化,貝葉斯網(wǎng)絡(luò),隱形馬爾可夫鏈,余弦定律,etc),一步步構(gòu)建了我們現(xiàn)在所賴以生存的網(wǎng)上世界。

之所以覺得自己早已身不在起點(diǎn),是因?yàn)樯厦孢@些數(shù)學(xué)學(xué)問,早已經(jīng)不在我的學(xué)問框架之內(nèi),就算曾經(jīng)學(xué)過,也不過是整個(gè)吞棗一樣的強(qiáng)記硬背,沒有領(lǐng)悟過其中的真正意義。而今日想重頭在來學(xué)一次,其實(shí)已經(jīng)不行能了。且不說要花費(fèi)多少的精力和時(shí)間,還須要的是領(lǐng)悟力。而這一些,已經(jīng)不是我可以簡潔付出的。

不像物理、化學(xué)須要困難的試驗(yàn)來驗(yàn)證,許多數(shù)學(xué)的證明,幾乎只要有一顆聰慧的頭腦和多數(shù)的草稿紙,可是光是這顆聰慧的頭腦,就可以阻攔掉許多人。有人說多讀書就會(huì)聰慧,我不否認(rèn),書本的確會(huì)供應(yīng)許多學(xué)問,可是不同的人讀同一本書也會(huì)有不同的收貨,這就限制于每個(gè)人的學(xué)問框架和認(rèn)知水平。就如一個(gè)數(shù)學(xué)功底好過我的人,看這本書,就會(huì)更簡單理解里面的公式和推導(dǎo)出這些公式的其他運(yùn)用點(diǎn),而我,只能站在數(shù)學(xué)的門口,感嘆一句,它真的好美吧。

當(dāng)然,我短暫無法在實(shí)際生活中運(yùn)用這些數(shù)學(xué)公式,可是書中提到的一些方法論,還是很有幫助的

1)一個(gè)產(chǎn)業(yè)的顛覆或者創(chuàng)新,大部分來自于外部的力氣,比如用統(tǒng)計(jì)學(xué)原理做自然語言處理。

2)基礎(chǔ)學(xué)問和基礎(chǔ)數(shù)據(jù)是很重要性,只有足夠多和足夠廣的數(shù)據(jù),才可以供應(yīng)有效的分析,和驗(yàn)證分析方法的好壞。

3)先幫用戶解決80%的問題,在漸漸解決剩下的20%的問題;

4)不要等一個(gè)東西完備了,才發(fā)布;

5)簡潔是美,堅(jiān)持選擇簡潔的做法,這樣會(huì)簡單說明每一個(gè)步驟和方法背后的道理,也便于查錯(cuò)。

6)正確的模型也可能受噪音干擾,而顯得不精確;這時(shí)不應(yīng)當(dāng)用一種湊合的修正方法加以彌補(bǔ),而是要找到噪音的根源,從根本上修正它。

7)一個(gè)人想要在自己的領(lǐng)域做到世界一流,他的四周必需有特別多的一流人物。

《數(shù)學(xué)之美》讀書筆記2

《數(shù)學(xué)之美》,一個(gè)從事多年工作的谷歌探討員眼中的數(shù)學(xué)。令我大飽眼福的是,高校里面的數(shù)學(xué)學(xué)問竟能如此廣泛運(yùn)用到了計(jì)算機(jī)行業(yè)中。

在語音識(shí)別、翻譯,還有密碼學(xué)領(lǐng)域,有著很多基于概率統(tǒng)計(jì)的模型和思想。當(dāng)然,貝葉斯公式是基礎(chǔ),應(yīng)用到隱含馬爾科夫鏈模型,神經(jīng)網(wǎng)絡(luò)模型。

在搜尋中,一些相關(guān)性的計(jì)算,無不用到了概率的學(xué)問。在新聞分類中,用到了一些有關(guān)矩陣特征值、相像對角化的學(xué)問。當(dāng)然,在圖像處理方面,矩陣變換可謂是無處不在。另外,在識(shí)別方面,有一些通信模型,涉及到了信道、誤碼率、信息熵。

最近剛開學(xué)也沒什么事,所以就想隨意找?guī)妆緯匆幌拢詈脛e是那種太艱深晦澀的書。8月份始終到現(xiàn)在,吳軍寫的這本12年5月出版的《數(shù)學(xué)之美》始終盤踞京東、亞馬遜等各大網(wǎng)上商城科技類圖書的榜首,當(dāng)然,還有早些時(shí)候出版的《浪潮之巔》也排在很靠前的位置。心想市場的力氣應(yīng)當(dāng)能幫我挑出好書吧,于是就從圖書館借了一原來,始終到今日晚上把它給看完了。

因此想寫一點(diǎn)東西來總結(jié)、反思一下,反正剛開完班會(huì)也沒什么事干。

寫在前面的建議:假如你不厭煩數(shù)學(xué)的話,劇烈舉薦這本書,網(wǎng)上也可以下到電子版,不過閱讀感覺上還是很不一樣的。

廢話就不多說了,《數(shù)學(xué)之美》其實(shí)是一本科普類的讀物,所面對的是接受過一般高等教化的人,完全不須要在特定領(lǐng)域有很深的造詣就可以看懂,也許懂一點(diǎn)線性代數(shù)、概率統(tǒng)計(jì)、組合數(shù)學(xué)、信息論、計(jì)算機(jī)算法、模式識(shí)別最好(雖然列舉了這么多,其實(shí)有些不懂也沒關(guān)系……),所以尤其適合信科的人看。內(nèi)容大部分是和人工智能、計(jì)算機(jī)相關(guān)的,這并非我所學(xué)的專業(yè),但作者比較擅長將看似困難的原理用簡明的語言表達(dá)出來,所以可讀性還是很好的。

吳軍是清華高校畢業(yè)的,之前任職于Google,后來到了騰訊,這些文章都是發(fā)表在Google黑板報(bào)上的,后來經(jīng)過了重寫,所以網(wǎng)上下載的和書本內(nèi)容有所差異。由于吳軍本人是探討自然語言處理和語音識(shí)別的,所以統(tǒng)計(jì)語言模型的東西可能會(huì)多一點(diǎn),不過我覺得這絲毫不阻礙全書數(shù)學(xué)之美的呈現(xiàn)……感覺收獲還是挺多的,學(xué)問上的有一些,但更多還是思維方式上的。作者舉了許多例子試圖讓人明白許多看似困難的高科技背后,基本原理其實(shí)是出乎意料簡潔的(當(dāng)然,必需承認(rèn)第一個(gè)想到這些方法的人還是特別了不得的……)。比如高精確率的機(jī)器翻譯,看上去似乎是計(jì)算機(jī)能夠理解各國語言,隱藏在背后的卻是許多具有高校理科學(xué)歷的人都特別清晰的統(tǒng)計(jì)模型和概率模型;再比如拼音輸入法的數(shù)學(xué)原理,早期的探討主要集中在縮短平均編碼長度,比如曾經(jīng)流行一時(shí)的五筆輸入法,而現(xiàn)今真正好用的輸入法卻是有許多信息冗余、編碼長度比較長的拼音輸入法,作者從信息論和市場的角度做了簡潔的闡述;又比如新聞的自動(dòng)分類,很多非IT領(lǐng)域的人可能會(huì)認(rèn)為計(jì)算機(jī)可以讀懂新聞并進(jìn)行分類,而事實(shí)上只是特征向量的抽取、多維空間中向量夾角的計(jì)算,特別特別簡潔,但凡學(xué)過一點(diǎn)線性代數(shù)的人肯定是一看就懂的……當(dāng)然,完備的實(shí)現(xiàn)還須要考慮許多細(xì)微環(huán)節(jié)和現(xiàn)實(shí)的狀況,但這并不是這本書所關(guān)注的地方,數(shù)學(xué)之美在于其簡潔而不是繁瑣。

除了對于詳細(xì)信息技術(shù)的剖析之外,作者還花了很大篇幅來講一些杰出人士的成長過程,特殊是把這些人的成長經(jīng)驗(yàn)和中國學(xué)生的成長經(jīng)驗(yàn)作對比。雖然作者并沒有明說,但字里行間多少流露出對于中國高等教化以及許多中國企業(yè)的指責(zé),一是教化的功利性,缺乏寬松的獨(dú)立思索的環(huán)境,即使學(xué)了一堆理論也難有用武之地,自然也就缺乏創(chuàng)新性的成果;二是中國企業(yè)的短視,大部分都不舍得在新框架開發(fā)上投資,而是坐享學(xué)術(shù)界和國外企業(yè)的探討成果。

總結(jié)一下呢,《數(shù)學(xué)之美》事實(shí)上不能帶給你編程實(shí)力的提升,也沒法讓人的數(shù)學(xué)水平有顯著的提升,但它在很大程度上讓你跳出教科書式的繁瑣細(xì)微環(huán)節(jié)的束縛,能夠從更宏觀的角度來思索信息世界背后的數(shù)學(xué)引擎的運(yùn)行原理,讓人明白看似很高級(jí)、困難的東西背后其實(shí)并不如我們所想象的那樣困難,而我們所學(xué)的“枯燥”的數(shù)學(xué)真的可以“四兩撥千斤”,變更億萬人的生活。

《數(shù)學(xué)之美》讀書筆記3

這本書一共3章,主要介紹了這些數(shù)學(xué)方法:統(tǒng)計(jì)方法、統(tǒng)計(jì)語言模型、中文信息處理、隱含馬爾科夫模型、布爾代數(shù)、圖論、網(wǎng)頁排名技術(shù)、信息論、動(dòng)態(tài)規(guī)劃、余弦定理、矩陣運(yùn)算、信息指紋、密碼學(xué)、搜尋技術(shù)、數(shù)學(xué)模型、最大熵模型、拼音輸入法、貝葉斯網(wǎng)絡(luò)、句法分析、維特比算法、各個(gè)擊破算法等。從第一章起先其明白幽默的語言就深深的吸引了我,讓我覺得假如早一點(diǎn)看這本書,或許數(shù)學(xué)之于我就是另一番天地。

第一章里作者從原始人類的通信方式起先入手,人類最早利用聲音進(jìn)行的通信依靠于開篇給出的"編碼—傳輸—解碼"的基本原理,指出原始人的通信方式和今日的通信方式?jīng)]什么不同,這世界上近現(xiàn)代最普遍的原理大部分都在人類發(fā)展的歷史上被無意識(shí)的運(yùn)用著。

第六章信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消退系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關(guān)的信息。信息熵的物理含義是對一個(gè)信息系統(tǒng)不確定性的度量,這一點(diǎn)與熱力學(xué)中的熵概念相同,看似不同的學(xué)科之間也會(huì)有著很強(qiáng)的相像性。事務(wù)之間是存在聯(lián)系的,要學(xué)會(huì)借鑒其他學(xué)問。

這本書里也能找到不少在學(xué)的課程學(xué)問,如高校專業(yè)課里,數(shù)電總是要比模電簡潔不少,而自然界里大部分的信號(hào)都屬于模擬信號(hào)。所謂模擬信號(hào),是指從時(shí)間和數(shù)值兩種維度上看來都是連續(xù)改變的信號(hào)。在實(shí)際電路中,模數(shù)轉(zhuǎn)換是一個(gè)很重要的過程,將預(yù)處理的模擬信號(hào)經(jīng)過模數(shù)變換為數(shù)字信號(hào),然后進(jìn)行數(shù)字信號(hào)處理。而數(shù)字化處理有許多優(yōu)點(diǎn),比如功能強(qiáng)大、抗干擾實(shí)力強(qiáng)、易于傳輸?shù)取?/p>

簡而言之,假如沒有數(shù)學(xué),就沒有數(shù)字信號(hào)處理和傳輸?shù)母拍?,而?shù)字信號(hào)傳輸在當(dāng)下大規(guī)模的集成電路里是必不行少的,這是通信勝利的基本要求。

作者把生活中遇到的困難的問題,以簡潔清楚,直觀的模型或者公式呈現(xiàn)出來。我們可能過于留意生活中的種種奇異現(xiàn)象,往往忽視了追求其理論邏輯的演繹,而這,也是大部分問題的主要根源。

羅素曾經(jīng)說過:"數(shù)學(xué),假如正確地看,不但擁有真理,而且也具有至高的美";愛因斯坦也曾說過:"純數(shù)學(xué)使我們能夠發(fā)覺概念和聯(lián)系這些概念的規(guī)律,這些概念和規(guī)律給了我們理解自然現(xiàn)象的鑰匙。"數(shù)學(xué)在全部科學(xué)領(lǐng)域起著基礎(chǔ)和根本的作用。"哪里有數(shù),哪里就有美"。在這里,我也想把《數(shù)學(xué)之美》真誠舉薦給每一位對自然、科學(xué)、生活有愛好有熱忱的摯友,不管你是從事職業(yè),讀一讀它,會(huì)讓你受益良多。

吳軍老師在《數(shù)學(xué)之美》中提到:"這本書的目的是講道而不是講術(shù)。許多詳細(xì)的搜尋技術(shù)很快會(huì)從獨(dú)門絕技到普及,再到落伍,追求術(shù)的人一輩子工作很辛苦。只有駕馭了搜尋的本質(zhì)和精髓才能恒久游刃有余"?;氐轿覀?nèi)粘5纳钪校氁獙W(xué)習(xí)的東西、技術(shù)太多太多,假如一味地只為去追技術(shù)的腳步,那么我們也會(huì)很累很累。然而基本的原理卻是沒有怎么改變的。只見森林,不見樹木,難免迷失;站在高處向下看,或許我們始終看不究竟,但是站在底處卻是可以望見底的。

《數(shù)學(xué)之美》讀書筆記4

《數(shù)學(xué)之美》是一本事域相關(guān)的數(shù)學(xué)概念書,生動(dòng)形象地講解了關(guān)于數(shù)據(jù)挖掘、文本檢索等方面的基礎(chǔ)學(xué)問,可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關(guān)鍵是要從中學(xué)到道解決問題的方法,而不僅僅是術(shù)。書中也啟發(fā)式的引導(dǎo)讀者形成自己解決問題的道。

下面記錄一下自己讀這本書的一些感想:

第一章《文字和語言vs數(shù)字和信息》:文字和語言中自然隱藏著一些數(shù)學(xué)思想,數(shù)學(xué)可能不僅僅的是一門特別理科的學(xué)問,也是一種藝術(shù)。另外,遇到一個(gè)困難的問題時(shí),可能生活中的一些常識(shí),一些簡潔的思想會(huì)給你帶來解決問題的靈感。

其次章《自然語言處理從規(guī)則到統(tǒng)計(jì)》:試圖模擬人腦處理語言的模式,基于語法規(guī)則,詞性等進(jìn)行語法分析、語義分析的自然語言處理有著很大的困難度,而基于統(tǒng)計(jì)的語言模型很好的解決了自然語言處理的諸多難題。人們相識(shí)這個(gè)過程,找到統(tǒng)計(jì)的方法經(jīng)驗(yàn)了20多年,特別慶幸我們的前輩已經(jīng)幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發(fā)覺真理的過程中是充溢坎坷的,感謝那些曾經(jīng)奉獻(xiàn)了青春的科學(xué)家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不行能一帆風(fēng)順的,這是自然界的普遍真理吧!

第三章《統(tǒng)計(jì)語言模型》:自然語言的處理找到了一種合適的方法基于統(tǒng)計(jì)的模型,概率論的學(xué)問起先發(fā)揮作用。二元模型、三元模型、多元模型,模型元數(shù)越多,計(jì)算量越大,簡潔好用就是最好的。對于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞,會(huì)有零概率問題,這是就要找到一數(shù)學(xué)方法給它一個(gè)很小的概率。以前學(xué)概率論的時(shí)候覺的沒什么用,現(xiàn)在起先發(fā)覺這些學(xué)問可能就是你以后解決問題的利器。最終引用作者本章的最終一句話:數(shù)學(xué)的魅力就在于將困難的問題簡潔化。

第四章《談?wù)勚形姆衷~》:中文分詞是將一句話分成一些詞,這是以后進(jìn)一步處理的基礎(chǔ)。從起先的查字典到后來基于統(tǒng)計(jì)語言模型的分詞,如今的中文分詞算是一個(gè)已經(jīng)解決的問題。然而,針對不同的系統(tǒng)、不同的要求,分詞的粒度和方法也不盡相同,還是針對詳細(xì)的問題,提出針對該問題最好的方法。沒有什么是肯定的,駕馭其中的道才是核心。

第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相像,就是該時(shí)刻的狀態(tài)僅與前面某幾個(gè)時(shí)刻的狀態(tài)有關(guān)?;诖罅繑?shù)據(jù)訓(xùn)練出相應(yīng)的隱馬爾科夫模型,就可以解決好多機(jī)器學(xué)習(xí)的問題,訓(xùn)練中會(huì)涉及到一些經(jīng)典的算法(維特比算法等)。關(guān)于這個(gè)模型,沒有實(shí)際實(shí)現(xiàn)過,所以感覺好生疏,只是知道了些概率論講過的原理而已。

第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消退系統(tǒng)的不確定性,同理自然語言處理的大量問題就是找相關(guān)的信息。信息熵的物理含義是對一個(gè)信息系統(tǒng)不確定性的度量,這一點(diǎn)與熱力學(xué)中的熵概念相同,看似不同的學(xué)科之間也會(huì)有著很強(qiáng)的相像性。事務(wù)之間是存在聯(lián)系的,要學(xué)會(huì)借鑒其他學(xué)問。

第七章《賈里尼克和現(xiàn)代語言處理》:賈里尼克是為世界級(jí)的大師,不僅在于他的學(xué)術(shù)成就,更在于他的風(fēng)范。賈里尼克教授少年坎坷,也并非起先就投身到自然語言方面的探討,關(guān)鍵是他的思想和他的道。賈里克尼教授治學(xué)嚴(yán)謹(jǐn)、專心對待自己的學(xué)生,對于學(xué)生的教育,教授告知你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學(xué)習(xí),最終在辦公桌前過世了。讀了這章我總結(jié)出的一句話是“思想確定一個(gè)人的高度”。

在這章中對于少年時(shí)的教化,以下幾點(diǎn)值得借鑒:

1、少年時(shí)期其實(shí)沒有必要花那么多時(shí)間讀書,他們的社會(huì)閱歷、生活實(shí)力以及在那時(shí)樹立起的志向?qū)椭麄円簧?/p>

2、中學(xué)時(shí)花大量時(shí)間學(xué)會(huì)的內(nèi)容,在高校用特別短的時(shí)間就可以讀完,因?yàn)樵诟咝kA段,人的理解力要強(qiáng)許多。

3、學(xué)習(xí)(和教化)是一個(gè)人一輩子的過程。

4、書本的內(nèi)容可以早學(xué),也可以晚學(xué),但是錯(cuò)過了成長階段卻是無法補(bǔ)回來的。

第八章《簡潔之美布爾代數(shù)和搜尋引擎的索引》:布爾是19世紀(jì)英國的一位中學(xué)老師,但他的公開身份是啤酒商,提出好的思想的人不肯定是大師。簡潔的建立索引可以依據(jù)一個(gè)詞是否在一個(gè)網(wǎng)頁中出現(xiàn)而設(shè)置為0和1,為了適應(yīng)索引訪問的速度、附加的信息、更新要快速,改進(jìn)了索引的建立,但原理上依舊簡潔,等價(jià)于布爾運(yùn)算。牛頓的一句話“(人們)發(fā)覺真理在形式上從來是簡潔的,而不是困難和含混的”。做好搜尋,最基本的要求是每天分析10-20個(gè)不好的搜尋結(jié)果,積累一段時(shí)間才有感覺。有時(shí)候,學(xué)習(xí)、處理問題,可以從不好的方面入手,效果可能更好。

第九章《圖論和網(wǎng)絡(luò)爬蟲》:圖的遍歷分為“廣度優(yōu)先搜尋(Breadth-FirstSearch,簡稱BFS)”和“深度優(yōu)先搜尋(Depth-FirstSearch,簡稱DFS)。互聯(lián)網(wǎng)上有幾百億的網(wǎng)頁,須要大量的服務(wù)器用來下載網(wǎng)頁,須要協(xié)調(diào)這些服務(wù)器的任務(wù),這就是網(wǎng)絡(luò)設(shè)計(jì)和程序設(shè)計(jì)的藝術(shù)了。另外對于簡潔的網(wǎng)頁,沒必要下載。還須要存儲(chǔ)一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲(chǔ)過(假如記錄每個(gè)網(wǎng)頁的url,數(shù)量太多,這里可以用后面提到的信息指紋,只須要一個(gè)許多位的數(shù)字即可),避開重復(fù)下載。另外,在圖論出現(xiàn)的.很長一段時(shí)間里,實(shí)際需求的圖只有幾千個(gè)節(jié)點(diǎn),那時(shí)圖的遍歷很簡潔,人們都沒有怎么特地探討這個(gè)問題,隨著互聯(lián)網(wǎng)的出現(xiàn),圖的遍歷一下子有了用武之地,許多數(shù)學(xué)方法就是這樣,看上去沒有什么用途,等到詳細(xì)的應(yīng)用出來了一下子起先派上大用場了,這可能就是世界上許多人畢生探討數(shù)學(xué)的緣由吧。一個(gè)系統(tǒng)看似整體簡潔,但里面的每個(gè)東西都可能是一個(gè)困難的東西,須要很好的設(shè)計(jì)。

第十章《PageRankGoogle的民主表決式網(wǎng)頁排名技術(shù)》:搜尋返回了成千上萬條結(jié)果,如何為搜尋結(jié)果排名?這取決與兩組信息:關(guān)于網(wǎng)頁的質(zhì)量信息以及這個(gè)查詢和每個(gè)網(wǎng)頁的相關(guān)性信息。PageRank算法來衡量一個(gè)網(wǎng)頁的質(zhì)量,該算法的思想是假如一個(gè)網(wǎng)頁被許多其他網(wǎng)頁所鏈接,說明它收到普遍的承認(rèn)和信任,那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提出了該算法并用迭代的方法解決了這個(gè)問題。PageRank在Google全部的算法中依舊是至關(guān)重要的。該算法并不難,可是當(dāng)時(shí)只有佩奇和布林想到了,為什么呢?

第十一章《如何確定網(wǎng)頁和查詢的相關(guān)性》:構(gòu)建一個(gè)搜尋引擎的四個(gè)方面:如何自動(dòng)下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質(zhì)量以及確定一個(gè)網(wǎng)頁和某個(gè)查詢的相關(guān)性。搜尋關(guān)鍵詞權(quán)重的科學(xué)度量TF—IDF,TF衡量一個(gè)詞在一個(gè)網(wǎng)頁中的權(quán)重,即詞頻。IDF衡量一個(gè)詞本身的權(quán)重,對主題的預(yù)料實(shí)力。一個(gè)查詢和該網(wǎng)頁的相關(guān)性公式由詞頻的簡潔求和變成了加權(quán)求和,即TF1*IDF1+TF2*IDF2+...+TFN*IDFN??此评щy的搜尋引擎,里面的原理竟是這么簡潔!

第十二章《地圖和本地搜尋的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃》:地址的解析依靠有限狀態(tài)機(jī),當(dāng)用戶輸入的地址不太標(biāo)準(zhǔn)或有錯(cuò)別字時(shí),希望進(jìn)行模糊匹配,提出了一種基于概率的有限狀態(tài)機(jī)。通用的有限狀態(tài)機(jī)的程序不是很好寫,要求很高,建議干脆采納開源的代碼。圖論中的動(dòng)態(tài)規(guī)劃問題可以用來解決兩點(diǎn)間的最短路徑問題,可以將一個(gè)“找尋全程最短路途”的問題,分解成一個(gè)個(gè)找尋局部最短路途的小問題。有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃問題須要看相關(guān)的算法講解,才能深化理解,目前對其并未完全理解。

第十三章《GoogleAK-47的設(shè)計(jì)者——阿米特·辛格博士》:辛格堅(jiān)持選擇簡潔方案的一個(gè)緣由是簡單說明每一個(gè)步驟和方法背后的道理,這樣不僅便于出了問題時(shí)查錯(cuò),而且簡單找到今后改進(jìn)的目標(biāo)。辛格要求對于搜尋質(zhì)量的改進(jìn)方法都要能說清晰理由,說不清晰理由的改進(jìn)即使看上去有效也不會(huì)采納,因?yàn)檫@樣將來可能是個(gè)隱患。辛格特別激勵(lì)年輕人要不怕失敗,大膽嘗試。遵循簡潔的哲學(xué)。

第十四章《余弦定理和新聞的分類》:將新聞依據(jù)詞的TF-IDF值組成新聞的特征向量,然后依據(jù)向量之間的余弦距離衡量兩個(gè)特征之間的相像度,將新聞自動(dòng)聚類。另外依據(jù)詞的不同位置,權(quán)重應(yīng)當(dāng)不同,比如標(biāo)題的詞權(quán)重明顯應(yīng)當(dāng)大點(diǎn)。大數(shù)據(jù)量的余弦計(jì)算也要考慮許多簡化算法。

第十五章《矩陣運(yùn)算和文本處理中的兩個(gè)分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進(jìn)行奇異值SVD分解,可以得到隱含在其中的一些信息。計(jì)算余弦相像度的一次迭代時(shí)間和奇異值分解的時(shí)間困難度在一個(gè)數(shù)量級(jí),但計(jì)算余弦相像度須要多次迭代。另外,奇異值分解的一個(gè)問題是存儲(chǔ)量大,而余弦定理的聚類則不須要。奇異值分解得到的結(jié)果略顯粗糙,實(shí)際工作中一般先進(jìn)行奇異值分解得到粗分類結(jié)果,在利用余弦計(jì)算得到比較精確地結(jié)果。我覺得這章講的SVD有些地方不是很清晰,已向吳軍老師請教了,等待回信。

第十六章《信息指紋及其應(yīng)用》:信息指紋可以作為信息的唯一標(biāo)識(shí)。有許多信息指紋的產(chǎn)生方法,互聯(lián)網(wǎng)加密要運(yùn)用基于加密的偽隨機(jī)數(shù)產(chǎn)生器,常用的算法有MD5或者SHA-1等標(biāo)準(zhǔn)。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1.8*10^19次才可能重復(fù)一次,所以重復(fù)的可能性幾乎為0。判定集合是否相同,從簡潔的逐個(gè)比對到利用信息指紋,困難度降低了許多許多。啟發(fā)我們有時(shí)候要用變通的思想來解決問題。

第十七章《由電視劇《暗算》所想到的——談?wù)劽艽a學(xué)的數(shù)學(xué)原理》:RSA加密算法,有兩個(gè)完全不同的鑰匙,一個(gè)用于加密,一個(gè)用于解密。該算法里面蘊(yùn)含著簡潔但不好理解的數(shù)學(xué)思想。信息論在密碼設(shè)計(jì)中的應(yīng)用:當(dāng)密碼之間分布勻稱并且統(tǒng)計(jì)獨(dú)立時(shí),供應(yīng)的信息最少。勻稱分布使得敵人無從統(tǒng)計(jì),而統(tǒng)計(jì)獨(dú)立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。

第十八章《閃光的不肯定是金子——談?wù)勊褜ひ娣醋鞅讍栴}》:把搜尋反作弊看成是通信模型,作弊當(dāng)做是加入的噪聲,解決噪聲的方法:從信息源動(dòng)身,增加排序算法的抗干擾實(shí)力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機(jī)并且前后有相關(guān)性,就可以檢測到并消退。作弊者的方法不行能是隨機(jī)的,且不行能一天換一種方法,及作弊是時(shí)間相關(guān)的。因此在搜集一段時(shí)間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜尋引擎做的,因此,一個(gè)小的搜尋引擎作弊少,并不肯定是它的反作弊技術(shù)好,而是到它那里作弊的人少。

第十九章《談?wù)剶?shù)學(xué)模型的重要性》:早期的行星運(yùn)行模型用大圓套小圓的方法,精確地計(jì)算出了全部行星運(yùn)行的軌跡。但其實(shí)模型就是簡潔的橢圓而已。一個(gè)正確的數(shù)學(xué)模型應(yīng)當(dāng)在形式上是簡潔的;一個(gè)正確的模型可能起先還不如一個(gè)精雕細(xì)琢過的錯(cuò)誤模型來的精確,但是,假如我們認(rèn)定大方向是對的,就應(yīng)當(dāng)堅(jiān)持下去;大量打算的數(shù)據(jù)對研發(fā)很重要;正確的模型可能受到噪聲干擾,而顯得不精確,這是不應(yīng)當(dāng)用一種湊合的修正方法來彌補(bǔ)它,要找到噪聲的根源,這或許能通往重大的發(fā)覺。

其次十章《不要把雞蛋放在一個(gè)籃子里——談?wù)勛畲箪啬P汀罚簩σ粋€(gè)隨機(jī)事務(wù)預(yù)料時(shí),當(dāng)各種狀況概率相等時(shí),信息熵達(dá)到最大,不確定性最大,預(yù)料的風(fēng)險(xiǎn)最小。最大熵模型的訓(xùn)練特別困難,須要時(shí)查看資料做進(jìn)一步的理解。

其次十一章《拼音輸入法的數(shù)學(xué)原理》:輸入法經(jīng)驗(yàn)了以自然音節(jié)編碼,到偏旁筆畫拆字輸入,再回來自然音節(jié)輸入的過程。任何事物的發(fā)展,螺旋式的回來不是簡潔的重復(fù),而是一種升華。輸入法的速度取決于編碼的場地*找尋這個(gè)鍵的時(shí)間。傳統(tǒng)的雙拼,記住編碼太難,找尋每個(gè)鍵的時(shí)間太長,并且增加了編碼上的歧義。依據(jù)香農(nóng)第肯定理可以計(jì)算理論上每個(gè)漢字的平均最短碼長。全拼不僅編碼平均長度較少,而且依據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計(jì)語言模型可是實(shí)現(xiàn)拼音轉(zhuǎn)漢字的有效算法,而且可以轉(zhuǎn)換為動(dòng)態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個(gè)量級(jí),進(jìn)一步提升的關(guān)鍵就在于建立更好的語言模型??梢砸罁?jù)每個(gè)用戶建立特性化的語言模型。輸入的過程本身就是人和計(jì)算機(jī)的通信,好的輸入法會(huì)自覺或者不自覺的的遵循通信的數(shù)學(xué)模型。要做出最有效的輸入法,應(yīng)當(dāng)自覺運(yùn)用信息論做指導(dǎo)。

其次十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》:將自然語言處理從基于規(guī)則到基于統(tǒng)計(jì),貢獻(xiàn)最大的兩個(gè)人,一個(gè)是前面介紹的賈里尼克教授,他是一個(gè)開創(chuàng)性任務(wù);另一個(gè)是將這個(gè)方法發(fā)揚(yáng)光大的米奇·馬庫斯。馬庫斯的貢獻(xiàn)在于建立了造福全世界探討者的賓夕法尼亞高校LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有許多值得敬佩的地方:賜予他的博士探討生自己感愛好的課題的自由,高屋建瓴,給學(xué)生關(guān)鍵的指導(dǎo);寬松的管理方式,培育各有特點(diǎn)的年輕學(xué)者;是一個(gè)有著遠(yuǎn)見卓識(shí)的管理者。他的學(xué)生為人做事風(fēng)格迥異,但都年輕有為,例如追求完備的邁克爾·柯林斯和尋求簡潔美的艾克爾·布萊爾。大師之所以能成為大師,確定有著一些優(yōu)秀的品質(zhì)和追求。

其次十三章《布隆過濾器》:推斷一個(gè)元素是否在一個(gè)集合當(dāng)中時(shí),用到了布隆過濾器,存儲(chǔ)量小而且計(jì)算快速。其原理是:建立一個(gè)很長的二進(jìn)制,將每個(gè)元素通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生一些信息指紋,再將這些信息指紋映射到一些自然數(shù)上,最終在建立的那個(gè)很長的二進(jìn)制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯(cuò)判成集合中的元素,但在某些條件下這個(gè)概率是很小的,補(bǔ)救措施是可以建立一個(gè)小的白名單,存儲(chǔ)那些可能誤判的元素。布隆過濾器背后的數(shù)學(xué)原理在于完全隨機(jī)的數(shù)字其沖突的可能性很小,可以用很少的空間存儲(chǔ)大量的信息,并且由于只進(jìn)行簡潔的算術(shù)運(yùn)算,因此速度特別快?!毒幊讨榄^》中第一章的那個(gè)例子就是布隆過濾器的思想。開闊思維,找尋更好更簡潔的方法。

其次十四章《馬爾科夫鏈的擴(kuò)展——貝葉斯網(wǎng)絡(luò)》:貝葉斯網(wǎng)絡(luò)是馬爾科夫鏈的擴(kuò)展,由簡潔的線性鏈?zhǔn)疥P(guān)系擴(kuò)展為網(wǎng)絡(luò)的關(guān)系,但貝葉斯網(wǎng)絡(luò)仍舊假設(shè)每一個(gè)狀態(tài)只與它干脆相連的狀態(tài)相關(guān)。確定貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和各個(gè)狀態(tài)之間相關(guān)的概率也須要訓(xùn)練。在詞分類中,可以建立文章、主題和關(guān)鍵詞的貝葉斯網(wǎng)絡(luò),用來得到詞的分類。貝葉斯網(wǎng)絡(luò)的訓(xùn)練包括確定拓?fù)浣Y(jié)構(gòu)和轉(zhuǎn)移概率,比較困難,后者可以參考最大熵訓(xùn)練的方法。貝葉斯網(wǎng)絡(luò)導(dǎo)出的模型是特別困難的。

其次十五章《條件隨機(jī)場和句法分析》:句法分析是分析出一個(gè)句子的句子結(jié)構(gòu),對于不規(guī)則的句子,對其進(jìn)行深化的分析是很困難的,而淺層的句法分析在許多時(shí)候已經(jīng)可以滿意要求了。條件隨機(jī)場就是進(jìn)行淺層句法分析的有效的數(shù)學(xué)模型。條件隨機(jī)場與貝葉斯網(wǎng)絡(luò)很像,不用之處在于,條件隨機(jī)場是無向圖,而貝葉斯網(wǎng)絡(luò)是有向圖。條件隨機(jī)場的訓(xùn)練很困難,簡化之后可以參考最大熵訓(xùn)練的方法。對于條件隨機(jī)場的具體參數(shù)及原理還不理解。

其次十六章《維特比和他的維特比算法》:維特比算法是一個(gè)動(dòng)態(tài)規(guī)劃算法,凡是運(yùn)用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采納逐步漸進(jìn)的方法,計(jì)算到每步的最短距離,到下步的最短距離只用接著本步的計(jì)算即可,相比窮舉法,大大縮短了計(jì)算的時(shí)間,并且基本可以實(shí)現(xiàn)實(shí)時(shí)的輸出,這看似簡潔,但在當(dāng)時(shí)確是很了不得的。維特比并不滿意停留在算法本身,他將算法推廣出去,并應(yīng)用到了實(shí)際中,創(chuàng)立了高通公司,成為了世界上其次富有的數(shù)學(xué)家。高通公司在其次代移動(dòng)通信中并不占很強(qiáng)的市場地位,而其利用CDMA技術(shù)霸占了3G的市場,可見遠(yuǎn)見的洞察力是多么的重要。

其次十七章《再談文本分類問題——期望最大化算法》:該章講的其實(shí)就是K均值聚類問題,設(shè)置原始聚類中心,然后不斷迭代,直至收斂,將每個(gè)點(diǎn)分到一個(gè)類中。其實(shí)隱馬爾科夫模型的訓(xùn)練和最大熵的訓(xùn)練都是期望最大化算法(EM)。首先,依據(jù)現(xiàn)有的模型,計(jì)算各個(gè)觀測數(shù)據(jù)輸入到模型中的計(jì)算結(jié)果,這個(gè)過程稱為期望值計(jì)算過程,或E過程;接下來,重新計(jì)算模型參數(shù),以最大化期望值,這個(gè)過程稱為最大化的過程,或M過程。優(yōu)化的目標(biāo)函數(shù)假如是個(gè)凸函數(shù),則肯定有全局最優(yōu)解,若不是凸函數(shù),則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中,應(yīng)當(dāng)考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優(yōu)化目標(biāo)的過程。

其次十八章《邏輯回來和搜尋廣告》:雅虎和百度的競價(jià)排名廣告并不比谷歌的依據(jù)廣告的預(yù)估點(diǎn)擊率來客觀的推送廣告收入多。點(diǎn)擊預(yù)估率有許多影響因素,一種有效的方法是邏輯回來模型,邏輯回來模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型。其訓(xùn)練方法和最大熵模型相像。同樣不是很理解其詳細(xì)內(nèi)涵。

其次十九章《各個(gè)擊破和Google云計(jì)算的基礎(chǔ)》:分而治之,各個(gè)擊破是一個(gè)很好的方法,Google開發(fā)的MapReduce算法就應(yīng)用了該方法。將一個(gè)大任務(wù)分成幾個(gè)小任務(wù),這個(gè)過程叫Map,將小任務(wù)的結(jié)果合并成最終結(jié)果,這個(gè)過程叫Reduce,該過程如何調(diào)度、協(xié)調(diào)就是工程上比較困難的事情了。可見大量用到的、真正有用的方法往往簡潔而又樸實(shí)。

附錄《計(jì)算困難度》:計(jì)算機(jī)中困難度是以O(shè)()來表示的,假如一個(gè)算法的計(jì)算量不超過N的多項(xiàng)式函數(shù),則稱算法為多項(xiàng)式函數(shù)困難度的(P問題),是可以計(jì)算的。若比N的多項(xiàng)式函數(shù)還高,則是非多項(xiàng)式問題,事實(shí)上是不行計(jì)算的。非多項(xiàng)式問題中一種非確定的多項(xiàng)式問題(簡稱NP),是科學(xué)家探討的焦點(diǎn),因?yàn)楝F(xiàn)實(shí)中好多問題都是NP問題。另外還有NP-Complete問題(NP問題可以在多項(xiàng)式時(shí)間內(nèi)規(guī)約到該問題)和NP-Hard問題,對于這兩種問題,須要簡化找到近似解。

整體上,《數(shù)學(xué)之美》這本書讓我了解了許多文本處理,數(shù)據(jù)挖掘相關(guān)的學(xué)問,學(xué)到了許多。其中,簡潔美以及一些科學(xué)家的大師風(fēng)范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!

《數(shù)學(xué)之美》讀書筆記5

我在想,為什么我們要學(xué)習(xí)數(shù)學(xué)?或許這個(gè)問題成年人有一萬個(gè)答案,可是當(dāng)我們第一次走進(jìn)教室,學(xué)習(xí)數(shù)學(xué)的時(shí)候,也許率還是個(gè)孩子,你怎么跟一個(gè)孩子說明為什么要學(xué)習(xí)數(shù)學(xué)呢?我把這個(gè)問題拋給了一個(gè)摯友,他說:“為了提高思維邏輯實(shí)力,這是我初中老師在第一節(jié)數(shù)學(xué)課上告知我們的”?;蛘咭晃?歲的小摯友又會(huì)問:“什么是邏輯實(shí)力呢?”

或許從誕生第一天,我們就始終在被動(dòng)的接收一些東西,父母的勸導(dǎo),老師的傳授,可5歲的孩子還是會(huì)把玩具散落一地,6歲的孩子仍舊會(huì)因?yàn)楦改覆唤o買玩具而嗷嗷大哭,無論你怎么勸導(dǎo)一個(gè)人,怎么勸誡一個(gè)人,他可能仍舊會(huì)犯你認(rèn)為會(huì)出現(xiàn)的錯(cuò)誤。我記得有位教化專家這么說:“你告知寶寶他把玩具弄壞了,就等于丟了10個(gè)棒棒糖”,從今以后這個(gè)寶寶可能會(huì)更加珍惜玩具。這個(gè)方法很簡潔,但是貌似最有效。數(shù)學(xué)是什么?數(shù)學(xué)不就是把困難的東西簡潔化么?

現(xiàn)在我們再回答前面的問題:為什么我要學(xué)習(xí)數(shù)學(xué)?我們可以這么跟5歲的小摯友說:“媽媽給你10元錢,讓你買醬油,醬油7元、棒棒糖1元一個(gè),剩下的錢你可以買幾個(gè)棒棒糖?”或許想吃棒棒糖的就會(huì)苦思冥想一番,或許將來媽媽真的給他10元錢去買醬油,結(jié)果回來就變成了一瓶醬油和3個(gè)棒棒糖?;蛘咴龠^一段時(shí)間,這位小摯友會(huì)選擇6元的醬油,因?yàn)榭梢垣@得4個(gè)棒棒糖了。他這么計(jì)算著:7+3和6+4都可以等于10,那么假如要必需買醬油的狀況下,1+9也可以等于10。我們都知道也有1元的袋裝醬油,于是9個(gè)棒棒糖到手了。任何學(xué)問的魅力都在于自我的發(fā)覺,只有你對它產(chǎn)生了無限的愛好,你就會(huì)不斷的發(fā)覺它的美,《數(shù)學(xué)之美》也可以變成《物理之美》。

有些人會(huì)說,上面的例子是利益驅(qū)動(dòng)型,不是愛好驅(qū)動(dòng)型,對于一個(gè)孩子來說,你能希望他向成人那樣:“我須要的不是物質(zhì)世界,我須要的是精神世界?”5歲寶寶最喜愛做得事情就是在吃和玩上面,請問,成年人不也是如此么?這就是天性。只不過成年人的自控實(shí)力足夠大罷了。

我們回到書本上,這本書是否合適自己?假如沒有專業(yè)的數(shù)學(xué)學(xué)問,很難讀懂。但是它又有著無限的魅力,讓你不自覺的讀下去,為什么?因?yàn)椤皵?shù)學(xué)之美”,雖然大多數(shù)人看不懂里面的公式,但是能夠明白數(shù)學(xué)能解決的問題:概率統(tǒng)計(jì)學(xué)能夠解決自然語言處理、布爾代數(shù)能解決搜尋引擎的問題、有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃能解決地圖問題、向量+特征向量+余弦定理能解決自動(dòng)新聞分類問題、最大熵模型解決金融問題,看著看著我就莫名的產(chǎn)生了一種想要學(xué)習(xí)算法的沖動(dòng),這不就是本書的意義所在么?

《數(shù)學(xué)之美》讀書筆記6

許多人都覺得,數(shù)學(xué)是一個(gè)太高深、太理論的學(xué)科,不接近生活,對我們大多數(shù)人來說平常也根本用不到,所以沒必要去理解數(shù)學(xué)。但事情真的是這樣嗎?

其實(shí)不然,數(shù)學(xué)始終滲透在我們生活的各個(gè)方面,尤其是在今日這個(gè)信息時(shí)代,許多簡潔樸實(shí)的數(shù)學(xué)思想,能發(fā)揮一般人很難想象的巨大作用。比如,計(jì)算機(jī)處理自然語言,用到的最重要工具是統(tǒng)計(jì)學(xué)的思想;計(jì)算機(jī)對新聞內(nèi)容的分類,依靠的是數(shù)學(xué)里的余弦定理;而電子電路的基本邏輯,則來源于僅有0和1兩個(gè)數(shù)字的布爾代數(shù)。

在《數(shù)學(xué)之美》里,吳軍用自己在工作中運(yùn)用數(shù)學(xué)的親身經(jīng)驗(yàn),為我們呈現(xiàn)了數(shù)學(xué)的重要性,以及他對數(shù)學(xué)之美的理解。吳軍是“得到”App專欄《吳軍的谷歌方法論》的主理人。曾先后供職于谷歌和騰訊,是聞名的自然語言處理專家和搜尋專家。同時(shí),他還是位暢銷書作家,除了這本《數(shù)學(xué)之美》以外,還寫過《文明之光》《智能時(shí)代》《浪潮之巔》等多本暢銷書。

《數(shù)學(xué)之美》讀書筆記7

在網(wǎng)上看到有人舉薦吳軍博士的《數(shù)學(xué)之美》,盡管我從事社會(huì)科學(xué)探討,但對數(shù)學(xué)的推崇始終如此,所以買來一讀,我的真實(shí)體驗(yàn)正如吳軍博士在書的后記中所說,把自己“境界提升了一個(gè)層次”。

那么,對我而言,究竟提升了什么境界呢?

首要的確定是思想境界。在未讀這本書之前,我知道對于這個(gè)世界的事務(wù)形成的信息集合,人類只有兩種方式可以表達(dá),一個(gè)是數(shù)字,一個(gè)是語言。整個(gè)實(shí)數(shù)的集合是無窮個(gè),而且每個(gè)數(shù)字都是唯一的;整個(gè)世界中的事務(wù)也是無窮個(gè)的,而且每個(gè)事務(wù)也時(shí)獨(dú)一無二的,這樣數(shù)學(xué)中的數(shù)字集合與世界中的事務(wù)集合就構(gòu)成一個(gè)一一對應(yīng)的關(guān)系,所以探討數(shù)字之間的關(guān)系,事實(shí)上就是在探討世界中事務(wù)之間的關(guān)系。語言中的概念和世界中的事務(wù)之間也是可以構(gòu)成一個(gè)對應(yīng)關(guān)系的,但問題是,語言中概念的集合是有限的,所以它和數(shù)字集合的對應(yīng)明顯只能是部分對應(yīng)。

計(jì)算機(jī)科學(xué)的發(fā)展,人類須要把語言處理成數(shù)字,因?yàn)橛?jì)算機(jī)只能識(shí)別數(shù)字信號(hào),所以“語言的數(shù)字化”成為計(jì)算機(jī)產(chǎn)生以來發(fā)展最快、而且最有創(chuàng)新性的領(lǐng)域,而很多華人科學(xué)家成為了這個(gè)領(lǐng)域的頂尖專家,如李開復(fù),吳軍博士是卓越的科學(xué)家之一。至此我才感到,在計(jì)算機(jī)主導(dǎo)的世界中,信息化就是數(shù)字化,而最難的數(shù)字化、也是最有成就的數(shù)字化,就是對人類自然語言的數(shù)字化,因?yàn)槿祟惖男畔缀?00%是用語言承載、傳播的,計(jì)算機(jī)要與人對話,變成智能化的機(jī)器,首先要解決的就是語言的數(shù)字化問題。但我們在電腦上自如地輸入文字時(shí)、或者拿著手機(jī)通話時(shí),我們跟本沒有意識(shí)到,那些卓越的語言科學(xué)家,早已經(jīng)把我們的語言,轉(zhuǎn)化成數(shù)字信號(hào),通過輸入、處理、解碼的方式,讓我們無障礙地聯(lián)絡(luò)、工作。

我好像感到,語言與數(shù)字的關(guān)系,就是人與自然關(guān)系的接口。套用古希臘畢達(dá)哥拉斯學(xué)派的觀點(diǎn),加上我的理解,即是,數(shù)是萬物的本原,語言是人的本原!

吳軍博士好像也在提升我對方法的相識(shí)境界??茖W(xué)探討的思索方式,習(xí)慣遵循本質(zhì)、規(guī)律、連續(xù)性思維,在語言學(xué)探討的早期,人類為了讓計(jì)算機(jī)識(shí)別語言,采納建立語言規(guī)則和語言規(guī)則數(shù)據(jù)庫的方法,但最終以失敗告終(20世紀(jì)50—70年頭),70年頭后科學(xué)家采納了語言統(tǒng)計(jì)模型,探討取得了突飛猛進(jìn)。語言統(tǒng)計(jì)模型的成功,再一次證明白宇宙量子模型的信念,世界是不連續(xù)的隨機(jī)性的粒子構(gòu)成,人類數(shù)千年文明進(jìn)化出來的語言系統(tǒng),就是動(dòng)態(tài)的隨機(jī)概率事務(wù)。其二,物理思維再也難逃牛頓的經(jīng)典本質(zhì)思維方法,即找尋到百分之百確定性的規(guī)律,而信息論思維是探討如何把握不確定性現(xiàn)象,利用概率統(tǒng)計(jì)是不二法門。其三,語言本質(zhì)上就是信息傳播,只有從通信模型視角才能真正理解計(jì)算機(jī)的功能,對語言的編碼、處理、傳輸、解碼是計(jì)算機(jī)的強(qiáng)項(xiàng),計(jì)算機(jī)是恒久不行能理解語言的意思的。

在《數(shù)學(xué)之美》中,吳軍博士對他的老師、師兄弟、同事的經(jīng)驗(yàn)、掌故進(jìn)行了敘述,讓我們了解到這些世界一流的學(xué)科家、技術(shù)精英們的為人處世品質(zhì)、顯明特性、科學(xué)素養(yǎng)及其管理風(fēng)格。例如賈里尼克對博士生的嚴(yán)酷淘汰,馬庫斯對學(xué)生的寬宏大度,但我感到他們有一樣?xùn)|西是共同的,就是對科學(xué)創(chuàng)建、頂尖人才的識(shí)別和器重,甚至是無條件的包涵。如此為人的境界才是根本,因?yàn)楹甏蟮目茖W(xué)創(chuàng)建終歸是人做出來的,只有崇高的人文精神之下才能造就頂尖的人才、一流的科學(xué)和技術(shù)。

觀國內(nèi)的學(xué)說界,官風(fēng)盛行、人情充斥,與這些一流學(xué)說群對科學(xué)創(chuàng)建的賞識(shí)、對特性人才的包涵,對科學(xué)探究的熱誠,可謂相去甚遠(yuǎn)。

看來,我們只能寄希望于年輕一代,但愿吳博士的《數(shù)學(xué)之美》,能讓我們的學(xué)子們,初步體驗(yàn)到科學(xué)精英們卓越的才智與情懷。

《數(shù)學(xué)之美》讀書筆記8

讀完本書,第一感受:次奧!原來數(shù)學(xué)如此多的原理模型概念都可以用去解決各種IT技術(shù)問題啊。特殊是語言識(shí)別和自然語言處理這類問題完全就是建立在數(shù)學(xué)原理之上的??傊?,這本書就是用特別深化淺出的話去說明如何用數(shù)學(xué)方法去解決計(jì)算機(jī)的各種工程問題。這是一本講道,而不是術(shù)的書。要完全讀懂這本書,我覺得至少須要駕馭這三門課:高等數(shù)學(xué),離散數(shù)學(xué),還有概率論與數(shù)理統(tǒng)計(jì)。唉..我當(dāng)時(shí)數(shù)學(xué)學(xué)得太水了,還掛了高數(shù)啊...有好的概念沒看懂,以后有時(shí)間在好好看吧。假如想搞計(jì)算機(jī)探討的話,數(shù)學(xué)基礎(chǔ)必不行少,別總在埋怨各種數(shù)學(xué)課上的東西一輩子都用不著。

發(fā)覺作者對人類自然發(fā)展的相識(shí)特別深,其從語言,文字,數(shù)學(xué)的產(chǎn)生發(fā)展,信息的傳播記錄得出了這個(gè)結(jié)論:信息的產(chǎn)生傳播接收反饋,和今日最先進(jìn)的通信在原理上沒有任何差別。就算是科學(xué)上最高深的技術(shù),那也是模擬我們生活中的一些基本原理。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論