




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025/2/27傳統(tǒng)的自然語言理解是對文本進(jìn)行較低層次的理解,主要進(jìn)行基于詞、語法和語義信息的分析,并通過詞在句子中出現(xiàn)的次序發(fā)現(xiàn)有意義的信息。文本高層次理解的對象可以是僅包含簡單句子的單個(gè)文本也可以是多個(gè)文本組成的文本集,但是現(xiàn)有的技術(shù)手段雖然基本上解決了單個(gè)句子的分析問題,但是還很難覆蓋所有的語言現(xiàn)象,特別是對整個(gè)段落或篇章的理解還無從下手。將數(shù)據(jù)挖掘的成果用于分析以自然語言描述的文本,這種方法被稱為文本挖掘(TextMining)或文本知識發(fā)現(xiàn)(KnowledgeDiscoveryinText).一、文本挖掘的定義?TheInstituteofBusinessIntelligence,HFUT2/862025/2/27文本挖掘:文檔本身是半結(jié)構(gòu)化的或非結(jié)構(gòu)化的,無確定形式并且缺乏機(jī)器可理解的語義;數(shù)據(jù)挖掘:其對象以數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)為主,并利用關(guān)系表等存儲結(jié)構(gòu)來發(fā)現(xiàn)知識因此,數(shù)據(jù)挖掘的技術(shù)不適用于文本挖掘,或至少需要預(yù)處理。二、文本挖掘與數(shù)據(jù)挖掘的區(qū)別:?TheInstituteofBusinessIntelligence,HFUT3/862025/2/27文本挖掘(textmining):是指抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識,并且利用這些知識更好地組織信息的過程。Textdatamining、knowledgediscoveryfromtextualdatabases一、文本挖掘的定義?TheInstituteofBusinessIntelligence,HFUT4/862025/2/27特征抽取特征選擇文本分類文本聚類模型評價(jià)文本挖掘的過程?TheInstituteofBusinessIntelligence,HFUT5/862025/2/27文本挖掘的過程?TheInstituteofBusinessIntelligence,HFUT6/86特征的建立特征集的縮減學(xué)習(xí)與知識模式的提取知識模式模式質(zhì)量的評價(jià)文檔集文本挖掘的一般處理過程2025/2/27三、文本挖掘的關(guān)鍵技術(shù)?TheInstituteofBusinessIntelligence,HFUT7/86文本預(yù)處理文本分類文本聚類文本自動摘要文本的向量空間表示文本特征提取文本相似度2025/2/27文本是以文字串形式表示的數(shù)據(jù)文件。文本分析過程即通過文本分析,從中找出一些特征以便將來使用。文本分析包括語種識別、特征提取、文本聚類和文本分類等。為什么要進(jìn)行文本分析??TheInstituteofBusinessIntelligence,HFUT8/862025/2/27從文本中抽取出的特征詞進(jìn)行量化來表示文本信息。將它們從一個(gè)無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識別處理的信息,即對文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。
使計(jì)算機(jī)能夠通過對這種模型的計(jì)算和操作來實(shí)現(xiàn)對文本的識別。?TheInstituteofBusinessIntelligence,HFUT9/86為什么要進(jìn)行文本分析?2025/2/27文本表示是指用文本的特征信息集合來代表原來的文本。目前,在信息處理領(lǐng)域,文本的表示方法主要是采用向量空間模型(VectorSpaceModel,VSM)。向量是既有大小又有方向的量。?TheInstituteofBusinessIntelligence,HFUT10/86三、文本挖掘的關(guān)鍵技術(shù)文本預(yù)處理文本的向量空間表示2025/2/27向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3……Wn),其中Wi為第i個(gè)特征項(xiàng)的權(quán)重。特征項(xiàng)一般選用字、詞或詞組。因此要將文本表示為向量空間中的一個(gè)向量,就首先將文本分詞,用這些詞作為向量的維數(shù)來表示文本。最初的向量表示完全是0、1的形式。但這種形式無法體現(xiàn)詞在文本中的作用程度,故0、1逐漸被更精確的詞頻代替。?TheInstituteofBusinessIntelligence,HFUT11/86三、文本挖掘的關(guān)鍵技術(shù)文本預(yù)處理2025/2/27語種識別工具能自動發(fā)現(xiàn)文本使用的語種。這類工具應(yīng)用文本內(nèi)容的一些線索來識別語種。通常用機(jī)器領(lǐng)域里的算法,利用相應(yīng)語種的訓(xùn)練文本進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)識別的目的。?TheInstituteofBusinessIntelligence,HFUT12/86三、文本挖掘的關(guān)鍵技術(shù)語種識別2025/2/27用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng),或文本的元數(shù)據(jù)。在中文文本中可以采用字、詞或短語作為表示文本的特征項(xiàng)。特征提取主要是使用自動的提取過程,識別文本中詞項(xiàng)的意義。?TheInstituteofBusinessIntelligence,HFUT13/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2025/2/27分類:描述性特征:文本的名稱、日期、大小、類型等。語義性特征:文本的作者、標(biāo)題、機(jī)構(gòu)、內(nèi)容等。?TheInstituteofBusinessIntelligence,HFUT14/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2025/2/27特征提取對掌握該文本的內(nèi)容很重要,是一種強(qiáng)有力的文本挖掘工具。在一篇文本中,標(biāo)題是該文本的高度概括,文本中的特征,如人命、地名、組織名等是文本中的主體信息。?TheInstituteofBusinessIntelligence,HFUT15/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2025/2/27特征是概念的外在表現(xiàn)形式,特征提取是識別潛在概念結(jié)構(gòu)的重要基礎(chǔ)。利用自動標(biāo)引技術(shù)可以對文本進(jìn)行特征標(biāo)引。對漢語文本進(jìn)行特征抽取時(shí),需要先對文本進(jìn)行分詞處理。?TheInstituteofBusinessIntelligence,HFUT16/86三、文本挖掘的關(guān)鍵技術(shù)特征提取2025/2/27?TheInstituteofBusinessIntelligence,HFUT17/86分詞實(shí)例和平民主和平、民主和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平2025/2/27?TheInstituteofBusinessIntelligence,HFUT18/86文本表示詞頻矩陣行對應(yīng)關(guān)鍵詞t,列對應(yīng)文檔d向量將每一個(gè)文檔視為空間向量v向量值反映單詞t與文檔d的關(guān)聯(lián)度矩陣元素可以是詞頻,也可以是布爾型。表示文檔詞頻的詞頻矩陣d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116352025/2/27?TheInstituteofBusinessIntelligence,HFUT19/86中文特征詞(Term)的粒度Character,字:中Word,詞:中國Phrase,短語:中國人民銀行Concept,概念同義詞:開心高興興奮相關(guān)詞cluster,wordcluster:蔡赟/傅海峰N-gram,N元組:中國國人人民民銀銀行某種規(guī)律性模式:比如某個(gè)window中出現(xiàn)的固定模式2025/2/27?TheInstituteofBusinessIntelligence,HFUT20/86中文分詞方法最大匹配法(MaximumMatchingmethod,MM法):選取包含6-8個(gè)漢字的符號串作為最大符號串,把最大符號串與詞典中的單詞條目相匹配,如果不能匹配,就削掉一個(gè)漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞為止。匹配的方向是從右向左。逆向最大匹配法(ReverseMaximummethod,RMM法):匹配方向與MM法相反,是從左向右。實(shí)驗(yàn)表明:對于漢語來說,逆向最大匹配法比最大匹配法更有效。2025/2/27?TheInstituteofBusinessIntelligence,HFUT21/86中文分詞方法雙向匹配法(Bi-directionMatchingmethod,BM法):比較MM法與RMM法的分詞結(jié)果,從而決定正確的分詞。最佳匹配法(OptimumMatchingmethod,OM法):將詞典中的單詞按它們在文本中的出現(xiàn)頻度的大小排列,高頻度的單詞排在前,頻度低的單詞排在后,從而提高匹配的速度。聯(lián)想-回溯法(Association-Backtrackingmethod,AB法):采用聯(lián)想和回溯的機(jī)制來進(jìn)行匹配。
2025/2/27首先,要建立一個(gè)以介詞、冠詞、連詞等無實(shí)質(zhì)意義的單詞組成的停用詞表(stopwords),然后,利用創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。?TheInstituteofBusinessIntelligence,HFUT22/86西文分詞方法2025/2/27一般采用keyword,無需分詞,單詞之間有空格分開。stopwords:指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。例如在英文中常用的停用詞有the,a,it等;在中文中常見的有“是”,“的”,“地”等。索引詞(標(biāo)引詞,關(guān)鍵祠):可以用于指代文檔內(nèi)容的預(yù)選詞語,一般為名詞或名詞詞組。?TheInstituteofBusinessIntelligence,HFUT23/86西文分詞方法2025/2/27?TheInstituteofBusinessIntelligence,HFUT24/86AdogischasingaboyontheplaygroundDetNounAuxVerbDetNounPrepDetNounNounPhraseComplexVerbNounPhraseNounPhrasePrepPhraseVerbPhraseVerbPhraseSentenceDog(d1).Boy(b1).Playground(p1).Chasing(d1,b1,p1).語義分析詞匯分析(詞性標(biāo)注)語法分析Apersonsayingthismayberemindinganotherpersontogetthedogback…語用分析(語言行為)Scared(x)ifChasing(_,x,_).+Scared(b1)推理、推斷2025/2/27?TheInstituteofBusinessIntelligence,HFUT25/862025/2/27?TheInstituteofBusinessIntelligence,HFUT26/86標(biāo)引源數(shù)據(jù)庫一條待標(biāo)引的記錄英語單詞遇空分詞停用詞表存儲剔除去除重復(fù)關(guān)鍵詞詞頻統(tǒng)計(jì),保留高頻詞利用詞表確定標(biāo)引詞或直接選擇關(guān)鍵詞標(biāo)引西文文本標(biāo)引流程圖2025/2/27利用計(jì)算機(jī)抽取西文關(guān)鍵詞,首先要建立一個(gè)以介詞、冠詞、連詞等無實(shí)質(zhì)意義的單詞組成的停用詞表,然后利用創(chuàng)建的停用詞表,從被標(biāo)引的文本中篩去停用詞,抽取關(guān)鍵詞。(1)從文本中取出一個(gè)單詞:西文中每兩個(gè)單詞間有空格間隔,可通過空格取詞。(2)確定候選關(guān)鍵詞:利用取出的詞去搜索停用詞表,如是停用詞則舍去;否則,則作為候選詞。?TheInstituteofBusinessIntelligence,HFUT27/86抽取關(guān)鍵詞的方法與過程以西文文本為例2025/2/27(3)分析候選關(guān)鍵詞:對于重復(fù)的候選關(guān)鍵詞,刪除重復(fù)詞,同時(shí)累計(jì)詞頻。如果標(biāo)引對象是全文,還可以根據(jù)位置給候選關(guān)鍵詞賦予權(quán)重,例如,權(quán)值最高的位置是標(biāo)題,其次是文摘、首尾段、首尾句、其他位置,然后計(jì)算每個(gè)被取出詞的權(quán)值之和,并將它們按權(quán)值從大到小排序,根據(jù)排序結(jié)果決定所取出的詞是否作為標(biāo)引詞。?TheInstituteofBusinessIntelligence,HFUT28/86抽取關(guān)鍵詞的方法與過程以西文文本為例2025/2/27(4)確定標(biāo)引詞:如果標(biāo)引對象是標(biāo)題,只需判斷所取出的候選詞是否重復(fù),去重后,這些詞可以全部作為標(biāo)引詞。如果標(biāo)引對象是文摘或全文,抽出的候選關(guān)鍵詞會很多,需要對它們進(jìn)行進(jìn)一步篩選,具體的方法:根據(jù)詞頻統(tǒng)計(jì)的結(jié)果,去除低頻詞,將高頻詞作為標(biāo)引備用詞,然后根據(jù)系統(tǒng)規(guī)定的標(biāo)引詞的數(shù)量,最終確定標(biāo)引詞。?TheInstituteofBusinessIntelligence,HFUT29/86抽取關(guān)鍵詞的方法與過程以西文文本為例2025/2/27文本聚類是把一個(gè)文本集合分成幾組的過程。對于文本標(biāo)題中的關(guān)鍵詞的相似匹配是對文本進(jìn)行聚類的一種簡單方法。?TheInstituteofBusinessIntelligence,HFUT30/86三、文本挖掘的過程文本聚類2025/2/27分類工具是把文本集合中的文本分配到已經(jīng)存在的類別中,即,已存的“主題”中。將文本分類到各文本類中,一般需要一個(gè)算法。這些算法包括決策樹分類器、近郊算法和休眠專家算法等。文本分類通過自動組織,把文本分到相應(yīng)的主題中,能夠使文本數(shù)據(jù)庫更易于瀏覽和查詢。?TheInstituteofBusinessIntelligence,HFUT31/86三、文本挖掘的過程文本分類2025/2/27?TheInstituteofBusinessIntelligence,HFUT32/86三、文本挖掘的過程文本分類定義:給定分類體系,將文本分到某個(gè)或者某幾個(gè)類別中。分類體系一般人工構(gòu)造政治、體育、軍事中美關(guān)系、恐怖事件分類系統(tǒng)可以是層次結(jié)構(gòu),如yahoo!分類模式2類問題,屬于或不屬于(binary)多類問題,多個(gè)類別(multi-class),可拆分成2類問題一個(gè)文本可以屬于多類(multi-label)這里講的分類主要基于內(nèi)容很多分類體系:Reuters分類體系、中圖分類2025/2/27?TheInstituteofBusinessIntelligence,HFUT33/86三、文本挖掘的過程自動文本分類方法Rocchio方法Na?veBayeskNN方法決策樹方法decisiontreeDecisionRuleClassifierTheWidrow-HoffClassifier神經(jīng)網(wǎng)絡(luò)方法NeuralNetworks支持向量機(jī)SVM基于投票的方法(votingmethod)2025/2/27?TheInstituteofBusinessIntelligence,HFUT34/86三、文本挖掘的過程系統(tǒng)結(jié)構(gòu)標(biāo)注工具機(jī)器學(xué)習(xí)工具模型數(shù)據(jù)標(biāo)注的樣本分類工具類別預(yù)處理預(yù)處理訓(xùn)練數(shù)據(jù)文本新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 居間服務(wù)合同居間服務(wù)合同
- 三農(nóng)公共服務(wù)體系搭建作業(yè)指導(dǎo)書
- 工作流程優(yōu)化實(shí)施情況表
- 公建房屋租賃合同
- 人合作協(xié)議書合同
- 產(chǎn)品認(rèn)證合同協(xié)議書
- 三農(nóng)領(lǐng)域創(chuàng)業(yè)指導(dǎo)與支持方案集錦
- 房地產(chǎn)銷售聯(lián)合代理合同
- 2025年蘭州貨運(yùn)上崗證考試
- 2025年珠海b2貨運(yùn)資格證模擬考試
- 家校共育之道
- DeepSeek入門寶典培訓(xùn)課件
- 西安2025年陜西西安音樂學(xué)院專職輔導(dǎo)員招聘2人筆試歷年參考題庫附帶答案詳解
- 《作文中間技巧》課件
- 廣東省2025年中考物理仿真模擬卷(深圳)附答案
- 2025屆八省聯(lián)考 新高考適應(yīng)性聯(lián)考英語試題(原卷版)
- 新蘇教版一年級下冊數(shù)學(xué)第1單元第3課時(shí)《8、7加幾》作業(yè)
- 2024年山東電力高等??茖W(xué)校高職單招職業(yè)技能測驗(yàn)歷年參考題庫(頻考版)含答案解析
- 《平面廣告賞析》課件
- 人教鄂教版六年級下冊科學(xué)全冊知識點(diǎn)
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設(shè)計(jì)規(guī)范
評論
0/150
提交評論