




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章文本數(shù)據(jù)分析6.1文本數(shù)據(jù)預(yù)處理6.2文本特征提取6.3文本數(shù)據(jù)分析應(yīng)用6.4中文NLP開源工具目錄和內(nèi)容文本分析目的語言分析:分析某種語言的語言特性內(nèi)容挖掘:得到文本表達的內(nèi)容信息情感分析:分析作者表達的主觀感情預(yù)測分析:由文本推測真實世界情況研究目的:將文本數(shù)據(jù)為我所用1.高質(zhì)量的信息:
(high-qualityinformation)關(guān)于主題的簡化信息-摘要–幫助理解2.可用的知識:(actionableknowledge)幫助人們決策-某種條件下選擇更好文本數(shù)據(jù)預(yù)處理
Lexiconanalysis詞法分析:確定基本語義單位和每個詞的意思Syntacticanalysis句法分析:確定句子中的各單詞是如何關(guān)聯(lián)的Semanticanalysis語義分析:確定句子或更大語義單位的含義Pragmaticanalysis語用分析:在上下文語境中推斷語言的言語行為Discourseanalysis篇章分析:考慮句子之間的關(guān)聯(lián)語境中分析句子詞法分析-英文分詞和詞干分析英文分詞分詞就是將篇章、段落或者句子分解為最基本的結(jié)構(gòu):詞語。英文是由形式上獨立的單詞組成,單詞與單詞之間通過空格進行劃分。詞干提?。簩⒃~轉(zhuǎn)化為詞干的過程詞干分析:將單詞的復(fù)雜形態(tài)還原為簡單易處理的形態(tài)詞法分析-中文分詞中文分詞中文分詞是中文文本預(yù)處理特有的部分。中文的詞與詞之間是連在一起的將中文文本序列分割成一個個形式上獨立的詞不同粒度分詞粗粒度分詞將詞作為文本預(yù)處理的最小基本單位進行分割。細粒度分詞除了對詞進行分割之外,還分割詞內(nèi)部的語素。詞法分析-詞性標注詞性標注:判斷句子中每個詞的詞性,并加以標注的過程。表示人、事物、地點或抽象概念的名稱等的詞就是名詞;表示動作或狀態(tài)變化等的詞是動詞;用來描述或修飾名詞性成分,表示其性質(zhì)、狀態(tài)、特征或?qū)傩缘脑~為形容詞。中文詞性標簽:北大詞性標注集和賓州詞性標注集。兩者在實詞部分差別不大,差異在虛詞部分。詞法分析-命名實體識別命名實體識別(NamedEntityRecognition,NER)指的是識別文本中的專有名詞,如人名、地名、組織機構(gòu)名、特殊的專有名詞。通常需要識別:文本中的人名、地名、組織機構(gòu)名、時間、日期、百分數(shù)和貨幣這七類實體。人名、地名和組織機構(gòu)名的識別是最難也是最重要的部分。詞法分析-語義組塊標注語義組塊標注用來確定兩個以上的詞所構(gòu)成的短語結(jié)構(gòu),屬于短語級的標注識別名詞短語、動詞短語、介詞短語以及其他類型的短語結(jié)構(gòu)。例如,美國賓大開發(fā)的ChineseTreebank對“研制成功新型藥物”的語義組塊標注結(jié)果為:“研制成功新型藥物”整體上是一個動詞短語(VP)。該動詞短語由一個動結(jié)式復(fù)合詞(VRD)“研制成功”和一個名詞短語(NP)“新型藥物”組成?!把兄瞥晒Α庇蓛蓚€詞組成,普通動詞(VV)“研制”和謂語形容詞(VA)“成功”;“新型藥物”由一個形容詞短語(ADJP)“新型”(本身是一個名詞修飾語)和一個名詞短語(NP)“藥物”(本身是一個普通名詞)組成。句法分析句法分析:基于給定的語法體系推導(dǎo)出句子的語法結(jié)構(gòu)分析句子所包含的語法單元和語法單元之間的關(guān)系將句子轉(zhuǎn)化為一棵結(jié)構(gòu)化的語法樹主要有兩種句法分析方式:短語結(jié)構(gòu)句法分析依存句法分析句法分析-短語結(jié)構(gòu)句法分析短語結(jié)構(gòu)句法分析:考慮句子的句法構(gòu)造層次,按照構(gòu)造層次,逐層進行分析。在分析時,指出每一層的直接組成成分(詞匯、短語、小句、句子等)。例如,“李明參加了講座”這句話的短語結(jié)構(gòu)句法分析結(jié)果為:設(shè)置整個句子的根節(jié)點為S?!袄蠲鲄⒓恿酥v座”由一個名詞短語(NP)“李明”(本身是一個專有名詞)和一個動詞短語(VP)“參加了講座”組成?!皡⒓恿酥v座”由一個普通動詞(VV)“參加”,一個體標記(AS)“了”和一個名詞短語(NP)“講座”(本身是一個普通名詞)組成。句法分析-依存句法分析依存句法的基本假設(shè)是句子結(jié)構(gòu)的本質(zhì)是詞與詞之間的依存關(guān)系。也就是說,句子中的各個成分之間都存在著支配與被支配的關(guān)系。例如,“李明參加了這次講座”這句話的依存句法分析的可視化結(jié)果為:“參加”根節(jié)點直接支配除“這次”之外的其他詞語;“這次”修飾“講座”,因而被“講座”支配。整個句子構(gòu)成了一個三層的樹狀結(jié)構(gòu)。語義分析我們會遇到這樣的情況:
句子1:“浙江大學(xué)錄取了這名考生”;
句子2:“這名考生被浙江大學(xué)錄取了”;
句子3:“浙江大學(xué)把這名考生錄取了”。從句法分析的角度來看,上述三個句子是不同的。然而,這三個句子所表達的語義卻是相同的。因此,單純的句法分析是不夠的,還需要對語義進行分析。語義分析-語義角色標注語義角色標注:指的是以句子的謂語動詞為中心,標注句子中每個語法成分相對于給定謂語動詞的語義角色。部分語義角色語義角色標注符號含義施事Arg0動作的主動發(fā)出者受事Arg1動作的承受者系事Arg1聯(lián)系動詞連接的對象與事Arg2動作的間接承受者時間ArgM-TMP動作行為發(fā)生的時間處所ArgM-LOC動作行為發(fā)生的場所例如,“去年他被浙江大學(xué)錄取”這句話的語義角色標注結(jié)果為: REL:錄取(REL代表句子的謂語動詞) Arg0:浙江大學(xué) Arg1:他
ArgM-TMP:去年
語義分析-語義依存分析語義依存分析:分析句子中各個詞語之間的語義關(guān)系,并將語義關(guān)系以依存結(jié)構(gòu)呈現(xiàn)。例子:“浙江大學(xué)錄取了這名考生”
“浙江大學(xué)把這名考生錄取了”
為與依存句法分析進行對比,同時給出依存句法分析的結(jié)果。(上面為依存句法分析,下面為語義依存分析。)分析案例:詞云WordCloud詞云WordCloud由美國西北大學(xué)新媒體專業(yè)主任里奇·戈登(RichGordon)提出是一種通過可視化來描繪單詞出現(xiàn)在文本數(shù)據(jù)中頻率的方式主要是由隨機分布在詞云圖的單詞或詞語構(gòu)成,出現(xiàn)頻率較高的詞語,以較大的形式呈現(xiàn)。詞云提供了一種觀察熱門話題的方式,可以對“關(guān)鍵詞”予以視覺上突出,一眼就可以領(lǐng)略文本的主旨。Python調(diào)用wordcloud庫制作詞云圖:收集語料:
語料可以是新聞,小說,報道,人物描述,公司描述等,通過某個語料獲取主題。數(shù)據(jù)預(yù)處理:
對爬蟲得到的數(shù)據(jù)去掉空行,對不規(guī)范內(nèi)容進行處理,對于規(guī)范文本直接調(diào)用jieba庫進行分詞。去停止詞:
分詞后需去掉停止詞,停止詞的詞頻很大,影響結(jié)果。統(tǒng)計詞頻:使用wordcloud制作成詞云。詞云分析案例:TIARA可視化方法生成8000多封電子郵件視覺摘要
每一層代表一個主題,由一組關(guān)鍵字描述。此處顯示了總共18個主題中的前8個主題。這些主題關(guān)鍵字隨時間分布,總結(jié)了內(nèi)容隨時間的演變。x軸編碼時間,y軸編碼每個主題的強度。數(shù)據(jù)獲取和預(yù)處理案例豆瓣電影:提供用戶對電影的評論,主頁有電影的鏈接數(shù)據(jù)下載:Python的urllib2庫可以下載一個鏈接所包含的數(shù)據(jù)Python的Beautifulsoup工具包對下載的網(wǎng)頁進行解析數(shù)據(jù)清理:Python的Langdetect工具包幫助識別刪除不需要的語言數(shù)據(jù)開源工具包OpenCC將繁體轉(zhuǎn)化為簡體刪除短評論:根據(jù)文本的詞匯數(shù)決定是否刪除標簽對應(yīng):打分5分制,對應(yīng)正負情感二分制或者三分制文本特征提取關(guān)鍵詞提取文本向量化深度學(xué)習(xí)模型BERT關(guān)鍵詞提取One-Hot和TF-IDFOne-HotOne-Hot模型把語料庫中的所有詞都收集到一個詞典中。每個詞都表示成一個向量,向量的維度是詞典大小當(dāng)前詞在對應(yīng)位置標1,其他為01的位置對應(yīng)該詞在詞典中的位置例如,一個語料庫中有三個文本:文本1:我愛中國。文本2:爸爸媽媽愛我。文本3:爸爸媽媽愛中國。
生成詞典[我,愛,中國,爸爸,媽媽]共有五個詞,
這五個詞的One-Hot向量形式分別為:其對應(yīng)的One-Hot向量如下:“我”
→[10000]“愛”
→[01000]“中國”→[00100]“爸爸”→[00010]“媽媽”→[00001]關(guān)鍵詞提取One-Hot和TF-IDF由One-Hot向量形式構(gòu)成的句子就是一個詞袋模型,二值表示如下:問題:丟失文本中可能多次出現(xiàn)同一個詞的詞頻信息改進:增加詞頻信息變成整型計數(shù)方式(例如,1,3,2,0,0)歸一化:(例如,1/6,1/2,1/3,0,0),避免文本長度不一致的問題得到了文本的TF(TermFrequency)信息詞頻的問題詞頻TF(TermFrequency)代表詞頻:
TF=某個詞在文章中出現(xiàn)的次數(shù)例如:用詞頻TF分析“原子能的應(yīng)用”,分詞:“原子能”,“的”,“應(yīng)用”“的”字的頻率最高,但無用“原子能”比“應(yīng)用”重要一些,給此單詞加權(quán)重衡量權(quán)重的方法就是計算倒文檔頻率(IDF)倒文檔頻率IDF(InverseDocumentFrequency)旨在降低在大多數(shù)文本都會出現(xiàn)的詞的權(quán)重,為那些僅出現(xiàn)在某些文本中的詞賦予更高的權(quán)重IDF=log(語料庫的文檔總數(shù)+1/包含該詞的文檔數(shù))舉例:單詞“的”
在語料庫每個文檔中都出現(xiàn)過,IDF=0,對區(qū)分貢獻為0詞頻-倒文檔頻率:TF-IDF=詞頻TF?倒文檔頻率IDF主要思想:在當(dāng)前文本上詞頻高,其他詞頻低的有區(qū)分度
詞頻-倒文檔頻率TF-IDF(inversedocumentfrequency)詞頻-倒文檔頻率(TF-IDF):TF-IDF=詞頻TF?倒文檔頻率IDF主要思想:在當(dāng)前文本上詞頻高,其他詞頻低的有區(qū)分度
關(guān)鍵詞提取-TextRankTF-IDF算法在大多數(shù)情況下都能取得較好的關(guān)鍵詞提取效果需要一個現(xiàn)成的語料庫來計算逆文本頻率(IDF)TextRank是一種基于圖的文本排序模型,無監(jiān)督的關(guān)鍵詞提取算法通過分析文本自身結(jié)構(gòu)來提取該文本的關(guān)鍵詞TextRank算法的基本思想來源于PageRank算法關(guān)鍵詞提取-主題模型在某些情況下,文檔的主題并沒有顯式地出現(xiàn)在文本中,而是隱含于文本的語義信息中。例如:一篇飲食文化差異的科普文中,通篇介紹了各種飲食文化的特征,但是文中并沒有出現(xiàn)“差異”這個詞。主題模型(TopicModel):用于發(fā)現(xiàn)文檔中隱含“主題”的統(tǒng)計模型。該模型認為每個文檔都對應(yīng)著一個或多個主題,而每個主題也對應(yīng)著一個或多個詞。常用的方法:潛在語義分析(LSA)、潛在語義索引(LSI)和隱含狄利克雷分布(LDA)LSA和LSI主要采用奇異值分解技術(shù)進行計算LDA則使用貝葉斯推斷方法來估計這兩個分布文本向量化Word2vec和Doc2vec隨著機器學(xué)習(xí)在自然語言處理領(lǐng)域的興起,文本數(shù)據(jù)常常被轉(zhuǎn)化為向量來作為機器學(xué)習(xí)算法的輸入,該向量還需要保留文本的語義信息,這個過程被稱為“文本向量化”。文本向量化方法多是基于詞向量化來實現(xiàn)的比如之前提到的詞袋模型和TF-IDFWord2vec是當(dāng)前最受歡迎的詞向量技術(shù)Doc2vec是word2vec技術(shù)的擴展,其目標是創(chuàng)建文檔的向量化表示在提取文檔語義信息的同時,還能獲取文檔中語句的順序信息word2vec
2013年,Google團隊發(fā)表了word2vec工具。核心思想是通過高維向量表示詞語,相近詞語放在相近位置文本中上下文相似的詞,其語義也應(yīng)該相似Word2Vec適合處理序列數(shù)據(jù),序列局部間的數(shù)據(jù)存在很大關(guān)聯(lián)通過Word2Vec可訓(xùn)練語料庫模型,獲得詞向量,保證模型的穩(wěn)定性word2vec工具主要包含兩個模型:1)CBOW:通過上下文預(yù)測當(dāng)前詞
根據(jù)上下文來預(yù)測當(dāng)前詞語的概率2)Skip-gram:通過當(dāng)前次預(yù)測上下文根據(jù)當(dāng)前詞語來預(yù)測上下文的概率兩種高效訓(xùn)練的方法:負采樣(negativesampling)層序softmax(hierarchicalsoftmax)優(yōu)點:word2vec詞向量可以較好地表達不同詞之間的相似和類比關(guān)系EfficientEstimationofWordRepresentationinVectorSpace,2013Word2vec基本思想:利用神經(jīng)網(wǎng)絡(luò)對詞的上下文訓(xùn)練得到詞的向量化表示訓(xùn)練方法:CBOW(通過附近詞預(yù)測中心詞)、Skip-gram(通過中心詞預(yù)測附近的詞):CBOW-用上下文預(yù)測輸入層:上下文單詞的one-hot.{假設(shè)單詞向量空間dim為V,上下文單詞個數(shù)為C}所有one-hot分別乘以共享的輸入權(quán)重矩陣W,就是詞向量(wordembedding)所得的向量相加求平均作為隱層向量,size為1*N.乘以輸出權(quán)重矩陣W'{N*V}得到向量{1*V}激活函數(shù)得到V-dim概率分布,概率最大的index所指單詞為預(yù)測出的中間詞(targetword)與truelabel的one-hot做比較,誤差越小越好需要定義lossfunction(一般為交叉熵代價函數(shù))采用梯度下降算法更新W和W’。輸入層的每個單詞與矩陣W相乘得到的向量的就是詞向量(wordembedding)
Skip-gram的網(wǎng)絡(luò)結(jié)構(gòu)
Skip-gram是預(yù)測一個詞的上下文跟CBOW的原理相似輸入是目標詞,先將目標詞映射為一個隱藏層向量根據(jù)這個向量預(yù)測目標詞上下文兩個詞,因為詞匯表大和樣本不均衡,采用多層softmax或負采樣優(yōu)化。分層softmax:一般神經(jīng)網(wǎng)絡(luò)語言模型在預(yù)測的時候,輸出的是預(yù)測目標詞的概率每次預(yù)測都要用全部數(shù)據(jù)集計算,很大的時間開銷word2vec兩種加快訓(xùn)練速度的方式:一種是Hierarchicalsoftmax另一種是NegativeSampling深度學(xué)習(xí)模型BERTBERT(BidirectionalEncoderRepresentationsfromTransformer)是一種深度雙向的、無監(jiān)督的文本表示模型,由Google研究院在2019年提出。BERT考慮到詞語出現(xiàn)時的上下文。例如,詞語“水分”的word2vec詞向量在“植物需要吸收水分”和“統(tǒng)計數(shù)據(jù)里有水分”是相同的;BERT能夠根據(jù)上下文的不同提供不同的詞向量。BERT基本結(jié)構(gòu)示意圖深度學(xué)習(xí)模型BERT預(yù)訓(xùn)練生成模型。BERT只有Encoder機制。通用的語言模型。BERT使用大量文本數(shù)據(jù)訓(xùn)練出,一般作為各類NLP任務(wù)的預(yù)訓(xùn)練模型訓(xùn)練好BERT后只需要根據(jù)NLP場景進行微調(diào)即能適應(yīng)特定的下游任務(wù)。
問答匹配對于問答匹配任務(wù),判斷一個回答是否和提出的問題相匹配的場景可以加入[CLS]、[SEP]兩個符號進行處理,前者的輸入可以作為整一段文本的語義表示,后者起到對兩段文本進行區(qū)分的作用。該問題可以轉(zhuǎn)化為二分類問題,即判斷回答是否答非所問。
文本分類在文本前插入一個符號并將其以向量的形式輸出,捕捉全篇文檔的整體語義信息。對于句子分類任務(wù),如區(qū)分某個句子是什么類別或者哪個作品中來的,也可以做出類似的微調(diào)??梢杂糜谇楦凶R別問題,如判斷“這是一個美麗的地方”的情感是積極還是消極。微調(diào)的方式是從表征向量中輸出一個類別的標簽(多分類),如“詩歌”,“小說”,“紀實”等,和上面情感識別的任務(wù)類似。主要內(nèi)容:文本數(shù)據(jù)預(yù)處理文本特征提取文本數(shù)據(jù)分析應(yīng)用中文NLP開源工具中文開源工具-哈工大LTP哈工大的語言技術(shù)平臺(LanguageTechnologyPlatform,LTP)是由哈工大社會計算與信息檢索研究中心歷時十年獨立研發(fā)的中文語言處理系統(tǒng)提供了一整套自底向上的豐富而且高效的中文語言處理模塊包括中文分詞、詞性標注、命名實體識別、依存句法分析、語義角色標注等多項中文處理技術(shù)開發(fā)語言為C++,LTP是目前最有影響力的中文處理系統(tǒng)之一,已被數(shù)百家企業(yè)和研究機構(gòu)使用LTP為用戶提供了下列組件:(1)針對單一自然語言處理任務(wù),生成統(tǒng)計機器學(xué)習(xí)模型的工具;(2)針對單一自然語言處理任務(wù),調(diào)用模型進行分析的編程接;(3)使用流水線方式將各個分析工具結(jié)合起來,形成一套統(tǒng)一的中文自然語言處理系統(tǒng);(4)系統(tǒng)可調(diào)用的,用于中文語言處理的模型文件;(5)針對單一自然語言處理任務(wù),基于云端的編程接口;(6)LTP還可通過可視化的圖形輸出,使分析結(jié)果清晰明了。中文開源工具-StanfordNLP斯坦福(Stanford)自然語言處理團隊的研究成果涵蓋關(guān)于多種語言的廣泛而穩(wěn)定的技術(shù)包括指代消解系統(tǒng)、依存解析器、詞性標注器、命名實體識別器以及處理阿拉伯文、中文、法文、德文、西班牙文的算法。提供了一個廣泛應(yīng)用的集成NLP工具包StanfordCoreNLP。該團隊提供的軟件分發(fā)包均由Java開發(fā)完成。從2014年1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 定制家具設(shè)計理念共享協(xié)議
- 2025年度車間承包與智能制造技術(shù)合作合同
- 二零二五年度電子商務(wù)平臺商品居間合同收費標準規(guī)定
- 二零二五年度學(xué)校食堂食品安全知識普及協(xié)議
- 2025年度日租房短租與餐飲服務(wù)合作協(xié)議
- 二零二五年度考古發(fā)掘師徒結(jié)對研究合同
- 二零二五年度股權(quán)代持協(xié)議:風(fēng)險防范與退出機制標準模板
- 二零二五年度保險公司與科技公司風(fēng)險投資合作協(xié)議
- 2025年度鋼筋勞務(wù)施工進度與安全監(jiān)管合同
- HA項目合作居間合同
- 10以內(nèi)連加減口算練習(xí)題完整版205
- 11BS4排水工程華北標圖集
- 四年級上冊道德與法治學(xué)科質(zhì)量分析報告
- 湖北省武漢市漢陽區(qū)2023-2024學(xué)年七年級下學(xué)期期末數(shù)學(xué)試題
- 混合痔疾病查房課件
- DL-T5394-2021電力工程地下金屬構(gòu)筑物防腐技術(shù)導(dǎo)則
- 2024年武漢市東西湖自來水公司招聘筆試參考題庫附帶答案詳解
- 2024年南京旅游職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案
- 湖北省武漢市2024年七年級下學(xué)期期末數(shù)學(xué)試題附答案
- 遼寧省撫順市順城區(qū)2023-2024學(xué)年下學(xué)期八年級物理期中考試題
- 靜脈藥物調(diào)配中心PIVAS靜脈用藥配置中心靜脈藥物配置中心靜脈中心TPN相關(guān)知識
評論
0/150
提交評論