文本分析模型_第1頁(yè)
文本分析模型_第2頁(yè)
文本分析模型_第3頁(yè)
文本分析模型_第4頁(yè)
文本分析模型_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析·原理與實(shí)踐7、文本分析模型目錄統(tǒng)計(jì)語(yǔ)言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345目錄統(tǒng)計(jì)語(yǔ)言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345統(tǒng)計(jì)語(yǔ)言模型基于規(guī)則的方法判斷這個(gè)句子是否合乎文法、含義是否正確。但文法規(guī)則是十分復(fù)雜的,覆蓋哪怕是20%的真實(shí)語(yǔ)句的文法也至少是幾萬(wàn)條。而且,不斷會(huì)有新的文法規(guī)則產(chǎn)生。就算找到了所有的文法規(guī)則,用計(jì)算機(jī)解析也是非常困難的。如何衡量一個(gè)句子是否合理美聯(lián)儲(chǔ)主席本·伯南克昨天告訴媒體7000億美元的救助資金將借給上百家銀行、保險(xiǎn)公司和汽車(chē)公司。主語(yǔ):美聯(lián)儲(chǔ)主席本·伯南克動(dòng)詞短語(yǔ):昨天告訴媒體7000億美元的救助資金將借給上百家銀行、保險(xiǎn)公司和汽車(chē)公司句號(hào):。統(tǒng)計(jì)語(yǔ)言模型基于統(tǒng)計(jì)的方法一個(gè)句子是否合理,就看看它的可能性大小如何。至于可能性就用概率來(lái)衡量。假設(shè)S是一個(gè)有意義的句子。那么想要得到S出現(xiàn)的概率P(S),我們可以把人類(lèi)有史以來(lái)出現(xiàn)的句子統(tǒng)計(jì)一下。當(dāng)然,這行不通。因此需要有個(gè)模型來(lái)估算它。如何衡量一個(gè)句子是否合理

統(tǒng)計(jì)語(yǔ)言模型基于統(tǒng)計(jì)的方法句子是由詞組成的。設(shè)S由一串特定順序排列的詞w1,w2,…,wn組成。那么有如何衡量一個(gè)句子是否合理利用條件概率的公式,我們可以展開(kāi)得到其中P(w1)表示第一個(gè)詞w1出現(xiàn)的概率;P(w2|w1)是在已知第一個(gè)詞的前提下,第二個(gè)詞出現(xiàn)的概率;以此類(lèi)推。S1:我/想/踢/籃球。S2:我/想/踢/足球。顯然S1更合理,因?yàn)椤疤呋@球”出現(xiàn)的概率小于“踢足球”的概率。統(tǒng)計(jì)語(yǔ)言模型計(jì)算上的困局從計(jì)算上來(lái)看,第一個(gè)詞的條件概率P(w1)很容易算,第二個(gè)詞的條件概率P(w1|w2)還不太麻煩,第三個(gè)詞的條件概率P(w3|w1w2)已經(jīng)非常難算了,而P(wn|w1w2…wn-1)根本無(wú)法估算。馬爾科夫假設(shè)

統(tǒng)計(jì)語(yǔ)言模型馬爾科夫假設(shè)馬爾科夫給了一個(gè)偷懶但頗為有效的方法:假設(shè)任意一個(gè)詞wi出現(xiàn)的概率只與它前面的詞wi-1有關(guān),于是,問(wèn)題就變得簡(jiǎn)單了。馬爾科夫假設(shè)

目錄統(tǒng)計(jì)語(yǔ)言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345中文分詞詞是語(yǔ)義的最小單位我們可以利用統(tǒng)計(jì)語(yǔ)言模型進(jìn)行自然語(yǔ)言處理,而這些模型是建立在詞的基礎(chǔ)上的,因?yàn)樵~是表達(dá)語(yǔ)義的最小單位。中文詞之間無(wú)分界符對(duì)于西方拼音語(yǔ)言,詞之間有明確的分界符。而對(duì)于中、日、韓、泰等語(yǔ)言,詞之間沒(méi)有明確的分界符。因此,首先需要對(duì)句子進(jìn)行分詞,才能做到進(jìn)一步的自然語(yǔ)言處理。為什么要進(jìn)行分詞ChinesespaceofficialswereinvitedtomeetwithNASAofficials.中國(guó)航天官員應(yīng)邀與太空總署官員開(kāi)會(huì)。中國(guó)/航天/官員/應(yīng)邀與/太空/總署/官員/開(kāi)會(huì)。中文分詞查字典的方法從左向右掃描句子,遇到字典中有的詞就標(biāo)識(shí)出來(lái),遇到復(fù)合詞(比如“上海大學(xué)”)就找最長(zhǎng)的詞匹配,遇到不認(rèn)識(shí)的字串就分割成單字詞,于是簡(jiǎn)單的分詞就完成了。最小詞數(shù)的分詞理論在這基礎(chǔ)上發(fā)展了最小詞數(shù)的分詞理論,即一句話應(yīng)該分成數(shù)量最少的詞串。查字典的方法上海大學(xué)有三個(gè)校區(qū)。上海大學(xué)/有/三個(gè)/校區(qū)。中文分詞二義性短語(yǔ)“發(fā)展中國(guó)家”,正確的分割應(yīng)該是“發(fā)展/中/國(guó)家”,而從左向右查字典的辦法會(huì)將它分割成“發(fā)展/中國(guó)/家”,這顯然錯(cuò)了。并非最長(zhǎng)匹配一定是正確的如“北京大學(xué)生”的正確分詞是“北京/大學(xué)生”,而不是“北京大學(xué)/生”。查字典方法的不足正確分詞:發(fā)展/中/國(guó)家錯(cuò)誤分詞:發(fā)展/中國(guó)/家正確分詞:北京/大學(xué)生錯(cuò)誤分詞:北京大學(xué)/生中文分詞1990年前后,郭進(jìn)博士用統(tǒng)計(jì)語(yǔ)言模型成功解決了分詞二義性問(wèn)題,將漢語(yǔ)分詞的錯(cuò)誤率降低了一個(gè)數(shù)量級(jí)。假設(shè)對(duì)于句子S,有三種分詞方法。那么最好的一種分詞方法應(yīng)該保證分完詞后,這個(gè)句子出現(xiàn)的概率最大。一個(gè)實(shí)現(xiàn)的技巧然而,窮舉所有可能的分詞方法并計(jì)算每種可能下句子的概率,那么計(jì)算量是相當(dāng)大的。使用了維特比算法,可以快速地找到最佳分詞方案。使用統(tǒng)計(jì)語(yǔ)言模型

目錄統(tǒng)計(jì)語(yǔ)言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345TF-IDF問(wèn)題想要提取一篇文檔的關(guān)鍵詞。那么如何衡量一個(gè)詞對(duì)一篇文檔的重要程度?詞頻(TermFrequency,TF)詞頻指的是某個(gè)給定的詞在一個(gè)文檔中出現(xiàn)的次數(shù)。使用詞頻可以一定程度上的描述詞對(duì)文檔的重要程度,但有些常見(jiàn)的詞在所有文檔中的出現(xiàn)頻率都很高。如何描述詞的常見(jiàn)程度?詞對(duì)文檔的重要程度

TF-IDF

詞對(duì)文檔的重要程度句子:搜索引擎是人們?cè)诰€獲取信息和知識(shí)的重要工具。IDF:IDF(搜索引擎)>IDF(信息)TF-IDF

TF-IDF的計(jì)算

目錄統(tǒng)計(jì)語(yǔ)言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345PLDA什么是PLDAPLDA是LDA的并行化版本。而LDA是一個(gè)主題模型,是LSA的貝葉斯版本。LSA則是LatentSemanticAnalysis的縮寫(xiě),意為潛在語(yǔ)義分析。那什么是語(yǔ)義,什么又是主題呢?PLDAPLDA=并行化+LDALDA=LSA+貝葉斯LSA:潛在語(yǔ)義分析PLDA如何判斷文檔的相似程度上一節(jié)的TFIDF系數(shù)表明了一個(gè)詞匯對(duì)一個(gè)文檔的重要程度。但僅通過(guò)詞匯判斷兩個(gè)文檔的相似程度,這是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)樵~存在“同義與多義”的問(wèn)題。詞的“同義和多義”現(xiàn)象同義指的是不同詞匯在一定背景下有著相同的意思;多義指的是一個(gè)詞匯在不同的背景下有這不同的意思。文檔—詞匯同義:我今天面試就是去打醬油。今天面試就是隨便參與一下。多義:我今天面試就是去打醬油。中午要吃餃子,下班先去打醬油。PLDA語(yǔ)義維度潛在語(yǔ)義分析(LSA)創(chuàng)新地引入了語(yǔ)義維度。語(yǔ)義維度是文檔集上相同、相關(guān)信息的濃縮表示。假設(shè)詞典為{A1,A2,B1,B2,C1,C2},第一個(gè)文檔的詞序?yàn)椤盇1A2A1A2”,第二個(gè)文檔的詞序?yàn)椤盋1C2B1B2”。這里假設(shè)A1和A2表示話題一,

B1和B2表示話題二,

C1和C2表示話題三。我們可以看出文檔1與話題一有緊密聯(lián)系,文檔2與話題二和話題三有緊密聯(lián)系。如何自動(dòng)學(xué)習(xí)到這一知識(shí)呢?這便是LSA能做的。文檔—語(yǔ)義—詞匯詞典:{A1,A2,B1,B2,C1,C2}

文檔1:A1A2A1A2文檔2:C1C2B1B2PLDA

LSAA

PLDA語(yǔ)義維度T是一個(gè)m×r的詞匯向量矩陣,D是一個(gè)n×r的文檔向量矩陣,而S是一個(gè)r×r的對(duì)角陣。LSA做了降維的近似處理。通過(guò)這一處理,實(shí)際上只保留了S中最大的K個(gè)對(duì)角值(也就是奇異值),進(jìn)而文檔矢量矩陣D和詞匯矢量矩陣T都被縮成了K列。其中詞匯矢量矩陣D的每一列就是一個(gè)主題,而文檔向量矩陣T的每一行就是一個(gè)文檔對(duì)應(yīng)在這K個(gè)主題上的系數(shù)表示。LSATK

PLDA主題—詞匯通過(guò)這樣的表示,可以清晰地看到每個(gè)主題向量可以近似表示成詞匯向量的一個(gè)線性加權(quán)。主題向量中的元素表示該主題內(nèi)對(duì)應(yīng)該詞匯的權(quán)重,一個(gè)詞匯權(quán)重越大,表示在該主題內(nèi)部越具有代表性。LSATK

詞匯主題老師學(xué)生同學(xué)學(xué)習(xí)運(yùn)動(dòng)教育0.70.60.20.40.05PLDA文檔—主題對(duì)于多個(gè)文檔,這K個(gè)主題是共享的,但是線性結(jié)合系數(shù)是文檔特定的。一個(gè)文檔對(duì)應(yīng)著多個(gè)主題的線性加權(quán)。LSADK

哈哈,終于贏了這場(chǎng)球賽,今晚好好休息一下。口頭語(yǔ)(0.1)

足球(0.7) 健康(0.15)PLDALSALSA在映射表示中,引入一個(gè)語(yǔ)義維度,即“文檔—語(yǔ)義—詞”,然后通過(guò)線性代數(shù)的方法來(lái)挖掘詞匯之間的共現(xiàn)關(guān)系,然后提取出語(yǔ)義維度。pLSApLSA是LSA在概率上的一種呈現(xiàn)。在LSA中,我們假設(shè)主題向量是正交的,那么在pLSA中,我們假設(shè)是不同主題變量是獨(dú)立的。pLSA

PLDApLSA的問(wèn)題盡管pLSA采用了概率模型作為刻畫(huà)方法,但是它并沒(méi)有“將概率表示進(jìn)行到底”。形式化地說(shuō),它并不是一個(gè)完整的貝葉斯模型:其中的P(詞匯|主題)和P(主題|文檔)都是根據(jù)數(shù)據(jù)估計(jì)出來(lái)的,都是模型參數(shù),而且沒(méi)有進(jìn)一步對(duì)這些參數(shù)引入先驗(yàn)。2004年,DavidBlei首次提出全貝葉斯版本的pLSA,即LDA。LDA(線性代數(shù))(概率論)pLSA LDAPLDALDA生成一篇文檔選擇一個(gè)主題分布。從主題分布中選擇一個(gè)主題。根據(jù)這個(gè)主題,選擇一個(gè)單詞。這樣進(jìn)行多次,就生成了一篇文檔。狄利克雷分布Dirichlet(狄利克雷)分布是關(guān)于分布的分布。一個(gè)主題,是關(guān)于詞匯的分布。那么主題分布,就是關(guān)于主題的分布,即分布的分布。LDA主題分布:口頭語(yǔ)0.3足球0.1教育0.5健康0.1主題:教育老師0.3學(xué)生0.2同學(xué)0.1學(xué)習(xí)0.1學(xué)校0.3

詞匯:老師PLDALDA的求解對(duì)LDA模型有兩種模型求解方法基于Gibbs采樣的方法?;谧兎址‥M求解。具體的求解過(guò)程以及PLDA的實(shí)現(xiàn),請(qǐng)查看書(shū)中內(nèi)容。LDA目錄統(tǒng)計(jì)語(yǔ)言模型中文分詞TF-IDF權(quán)重PLDAWord2Vec12345Word2Vec如何表示一個(gè)詞在很多算法中,我們需要將詞轉(zhuǎn)化為數(shù)值。當(dāng)然,單個(gè)數(shù)字肯定不足以表示一個(gè)詞,我們常使用一個(gè)向量表示一個(gè)詞。OneHot方法假設(shè)字典中一共有4個(gè)詞。那么向量的長(zhǎng)度為4。每個(gè)向量在僅在詞的對(duì)應(yīng)位置為1,其余為0。如象棋的向量為[1000],棋的向量為[0100]。Word2Vec字典:象棋棋大象水杯

向量象棋 1000棋 0100大象 0010水杯 0001Word2VecOneHot方法的缺點(diǎn)在實(shí)際應(yīng)用中,這種方法有諸多不足。最顯著的就是,維度災(zāi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論