基于主題的關鍵詞提取方法對比研究(上)剖析_第1頁
基于主題的關鍵詞提取方法對比研究(上)剖析_第2頁
基于主題的關鍵詞提取方法對比研究(上)剖析_第3頁
基于主題的關鍵詞提取方法對比研究(上)剖析_第4頁
基于主題的關鍵詞提取方法對比研究(上)剖析_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于主題的關鍵詞提取方法對比研究- - I-摘要關鍵詞提供了文檔的概要信息,在信息檢索、文本聚類和分類系統中受到了越來越多的應用,關鍵詞的提取算法也受到了越來越多的重視。傳統的方法主要依靠詞匯的統計信息進行關鍵詞提取,本文在回顧關鍵詞提取的算方法的基礎上,從文檔主題的角度,綜述了基于主題的關鍵詞提取的三種算法-潛在語義分析(LSA)、概率潛在語義分析(PLSA)、隱含狄利克雷分布(LDA)。LSA方法將文檔從稀疏的高維詞匯空間映射到一個低維的向量空間,主要通過奇異值分解SVD的方式來求解。PLSA方法它用概率的方法來表示LSA,在文檔和詞匯之間引入一個潛在語義層(即主題層)LDA的基本思想是:

2、利用概率推導等方式可以將單個文檔表示為這些潛在主題的集合,對于主題而言,它又可以看成是若干詞匯的概率分布。為了驗證這三種方法的性能的優(yōu)越與否,將理論與實踐結合,本文通過實驗將三種基于主題的關鍵詞提取算法與TF-IDF方法進行對比,對實驗結果進行總結歸納;實驗證明,這三種方法無論是從召回率上還是從準確率上都優(yōu)于TF-IDF方法,能夠有效推薦關鍵詞。關鍵詞:關鍵詞提?。籐SA;PLSA;LDAResearchonAlgorithmsofTopicBasedKeywordExtractionAbstractKeywordsprovidesemanticmetadataproducinganoverv

3、iewofthecontentofadocument.Theyarewidelyusedininformationretrieval,textclusteringandclassificationsystem.Asaresult,peoplepayalotofattentiontokeywordextractionalgorithm.Traditionalmethodsforkeywordextractionsimplyrankkeywordsaccordingtothestatisticalinformationofwords.Afterreviewingsomemethodsofkeywo

4、rdextraction,thisarticlesummarizesthreetopicbasedmethodsofkeywordextractionwhichareLatentSemanticAnalysis(LSA),ProbabilityLatentSemanticAnalysis(PLSA),LatentDirichletAllocation(LDA).LSAmapsthedocumentfromsparsehighdimensionspacetoalowdimensionalvectorspace,mainlythroughthesingularvaluedecomposition(

5、SVD).PLSAbringsinalatentsemanticlayerwhichiscalledthemelayerbetweendocumentsandwords.ItexplainsLSAinaprobabilisticway.ThebasicideaofLDAis:documentcanberegardedasthecombinationofseveralpotentialthemes.Asingledocumentcanbedescribedasthecollectionoftheunderlyingthemeinaprobabilisticway.Toprovewhetherth

6、etopicbasedkeywordextractionalgorithmsareefficient,thisarticlecombinestheorywithpractice.Afterexperiment,itcomparesthesethreealgorithmswiththetraditionalTF-IDFalgorithm.Itprovesthatboththerecallandtheprecisiongetimproved.Thethreetopicbasedkeywordextractionalgorithmdosewellinkeywordextraction.KeyWord

7、s:keywordextraction;LSA;PLSA;LDA基于主題的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究緒論1.1研究的背景和意義1.1.1研究背景隨著網絡信息量的激增,人們對信息質量的需求不斷地提升,促使信息的組織和獲取方式發(fā)生了極大的變化也面臨著極大的挑戰(zhàn)。信息量的劇增,信息內容的豐富多樣、信息結構的復雜多變,信息傳遞的速度加快;用戶范圍寬廣,需求多樣化,處理信息的方式透明化、易用化等這些成為新型互聯網環(huán)境下的主要特點1。2012年1月16日,中國互聯網絡信息中心(CNNIC)發(fā)布第29次中國互聯網絡發(fā)展狀況統計報告(下簡稱報告)。報告顯示,截至2011年12月底,

8、中國網民規(guī)模突破5億,達到5.13億,全年新增網民5580萬(見下圖1.1)。隨著網絡表達和傳遞信息的渠道和形式不斷豐富,傳播方式更具互動性、自主性、多樣性,這也促使網絡媒體的發(fā)展更加活躍,而各類網絡資源使用情況也在不斷增長。網站有“新浪”、“搜狐”等。門戶網站的主要特色在于提供及時滾動的分類新聞,以此來滿足不同興趣愛好的資訊瀏覽者的瀏覽需求。信息總量的增長速度呈現指數上升,對于浩渺無窮的網頁,如果不能有效地組織和分類,很難吸引用戶的眼球;而分類組織有序,重點主題突出的門戶網站才是用戶的首選。信息環(huán)境的這一巨變確實為用戶提供了海量的信息,但同時卻使得用戶辨別和選擇適合自己的信息帶來了很大的困難

9、。因此,在保證及時性的同時,如何按照用戶興趣來分類組織新聞信息并以快速、醒目的方式(如關鍵詞、標簽)表示出來,最大限度地吸引用戶眼球,是門戶網站需要考慮的重要問題。信息迅速發(fā)展的速度與用戶獲取信息的能力不匹敵,人們面臨著眾多的信息資源無從下手,很難找到和他們的需求最相關的信息,用戶不得不通過瀏覽大量的網頁來查找所需信息。當人們在瀏覽信息時,一些內容很有價值而標題卻不夠醒目的信息易于被忽略。此外,僅僅從檢索到的模糊的概括,人們很難確定是否是自己所需的資訊。因此,解決這些問題的有效方法就是給出資源內容的關鍵詞。在最為理想的情況下,關鍵詞應該是人為給出的。如今,我們已經進入了Web2.0時代,相對于

10、web1.0,Web2.0則更注重用戶的交互作用,用戶既是網站內容的瀏覽者,也是網站內容的制造者。每一個用戶不再僅僅是互聯網的讀者,同時也成為互聯網的作者;不再僅僅是在互聯網上沖浪,同時也成為波浪制造者,從而更加人性化!許多網站給用戶提供了進行標簽的功能,使用戶能夠對他們感興趣的資源進行標注,包括:圖片、視頻、文章等,因此社會標簽(socialtags)應運而生。廣義上來說,社會標簽也是關鍵詞的一種。文檔關鍵詞法制節(jié)目策劃書電視新聞標簽:舂天浪謾櫻花古城襄陽鳳杲奮花畔畔羊攝影:磯香飛雪,櫻花時節(jié).當戚片的粉紅隹花朵肆慕盛開時的無烈,更在于它怒敝后紛給翱落時的那種;i食枝頭;浪漫的櫻花天道上到處

11、是前來觀賞的游人;行;真可謂是接肘摩肩、貉繹不絕.一眼望去,櫻7片片花祈緩緩輒落*獨自漫歩在這花雨之中,真可11關鍵詞作為對文章內容的簡要概括2,它可以幫助用戶通過一種有意義的方式來對信息進行分類。關鍵詞可以幫助提高搜索結果的質量,通過篩選得出特定關鍵詞,可以輔助人們快速了解文章的主要內容,節(jié)省瀏覽的時間。此外,關鍵詞在信息檢索、自動摘要、文本聚類和主題搜索領域中也起了很大的作用。然而,當前互聯網上的眾多新聞網頁沒有提供關鍵詞,人工編輯關鍵詞不僅耗費時間而且還具有很強的主觀性。因此,使用人工智能的方法對網頁、文本等進行關鍵詞的自動提取成為一個重要的而又有意義的研究課題。收錄比文莒的文輯法制電視

12、節(jié)目策劃書創(chuàng)建者:kexiongyu收藏呈:1優(yōu)秀電視類文章創(chuàng)逹者::藍ji皿菱收藏量:0(a)(b)圖1.2關鍵詞的示例如上圖1.2所示,圖(a)為百度文庫某篇文章上的關鍵字;圖(b)為新浪博客中作者為自己的博文添加的標簽。百度文庫中的關鍵詞有5個,而新浪博客中的標簽有9個,這些關鍵詞都很好地體現了文章的主題。1.1.2研究的意義文本的關鍵詞提取是文本挖掘的有效方法之一,其目的都是為了能提高文本信息檢索的效率和準確率,既是對文本集知識的獲取,也是對文本集的處理。對文本集進關鍵詞提取研究有重要的意義,其研究意義主要有以下幾點:(1)關鍵詞提取是文本信息管理的基礎以文本作為信息的載體是Inter

13、net上信息資源的主要形式,在海量的文本信息中,要快速準確的找到自己所需要的信息是相當困難的。因此,解決這個問題是人們迫切需要的。對于大量的文本信息,構建一個清晰的框架結構和簡要的文本內容說明對于文本集的存儲和管理是非常必要的。對于文本信息基本處理的學術研究和應用在近些年來非?;钴S,如數字圖書館、搜索引擎、電子商務和微博等,雖然文本挖掘技術在這些領域中對取得了相當大的進展,但仍然存在一些問題有待于解決,如處理過程需要人為的幫助,缺少對文本主題內容的描述,處理結果不是十分的令人滿意等。所以,對文本進行聚類和關鍵詞提取作為文本挖掘的基礎性工作就顯得格外重要。(2)關鍵詞提取是對信息檢索的有效手段信

14、息檢索是指從海量的信息集合中尋找用戶需要的相關信息的一種重要手段。為了能使用戶在最短的時間內從海量的文本信息中找到真正有用的信息,就需要自動化的工具來提高信息檢索的效率。對于大量雜亂無章的文本進行關鍵詞提取,檢索范圍有所減小,搜索的準確率相應會有所提高。對于搜索引擎返回的結果按照主題進行聚類,推薦給用戶比較感興趣的相關文本,有助于用戶更合理的利用文本信息。信息檢索主要是通過關鍵詞進行檢索,關鍵詞能夠反映文本的主要內容。用戶根據文本的關鍵詞進行索引查找相關文本信息,可以快速篩選過濾掉大量無關文本,大大降低了文本索引的工作量。對于文本搜索引擎技術,文本的關鍵詞提取始終是基礎性的關鍵技術。(3)關鍵

15、詞提取可以減少文本處理的人為因素和工作量文本關鍵詞是對文本主題的簡要概括,有助于用戶更快的了解文本信息,有助于文本的自動摘要生成、文本聚類、文本分類、文本索引等文本處理工作。對于一些沒有文本關鍵詞的文本信息,無法簡單的表達文本的主題,而且在用戶使用、信息檢索等方面都很不方便。自動生成文本的關鍵詞,降低了手工選擇關鍵詞的人為主觀因素,同時也減少了人力的工作量,提高了工作效率。綜上所述,關鍵詞給新時代網絡用戶提供了極大的便捷,是新時代人們進行檢索資源、管理資源的重要途徑,因此進行關鍵詞算法的研究成為了的研究的重點,本文就是在此背景下,研究基于主題的關鍵詞提取的方法。1.2國內外研究現狀隨著Inte

16、rnet的發(fā)展,人為給出文檔的關鍵詞是不現實的,所以,高性能的關鍵詞自動提取算法的研究是十分重要的。迄今為止,關鍵詞自動提取吸引了不少國內外學者的關注和研究,其理論成果主要包括基于統計信息的方法、機器學習方法、基于結構的方法、基于語言分析和基于復雜網絡分析方法五大類。其中應用最為廣泛的是基于統計信息的關鍵詞提取方法,具備簡潔易懂、通用性強等優(yōu)勢。從Luhn于1957年進行自動標引后開始,到目前為止,自動標引研究經歷了50多年的發(fā)展歷程。一直到20世紀90年代初,關于關鍵詞自動抽取的研究一直沒有停止過。20世紀90年代初到90年代末,自動標引研究漸漸減少,主要有以下原因:(1)全文索引逐漸被人采

17、用,并且基本上能滿足用戶需要;(2)傳統的自動標引方法的效率到了極限。20世紀90年代末一直到現在,關鍵詞自動抽取的研究逐漸深入,產生該現象的主要原因有:(l)全文索引的功能越來越難以滿足實際需求,用戶需要更加精確地結果;(2)互聯網的很多服務,例如自動摘要、文檔分類與聚類、文本分析、主題檢索等都要依賴于關鍵詞自動抽取的結果,只有更好的解決關鍵詞抽取基礎問題才能從根本上提高信息服務質量。在文本關鍵詞提取方面,國外起步較早,發(fā)展較快,取得的成果很多。文獻2提出了基于遺傳算法的關鍵詞提取算法,系統Extractor目前發(fā)展穩(wěn)步,取得可觀的收益。文獻3利用樸素貝葉斯技術訓練特征值,通過預測模型對文本

18、進行關鍵詞提取。文獻4提出了一種利用復雜網絡理論自動生成文本摘要的方法,能夠很好的發(fā)現文本特征。下圖通過表格展示了一些重要的、典型的、里程碑的工作:近年來隨著復雜網絡這一學科的迅速發(fā)展,基于復雜網絡的文本關鍵詞提取算法被眾多學者所研究,如張敏等5提出了一種利用BC方法的關鍵詞自動提取算法,通過計算網絡中節(jié)點的中心度提取文本關鍵詞;任克強等6提出基于帶權語言網絡的網頁關鍵詞抽取算法,結合了節(jié)點介數和緊密度指標提取網頁中關鍵詞;趙鵬等7提出了一種基于復雜網絡特征的中文文檔關鍵詞抽取算法,綜合考慮語言網絡中節(jié)點的度和聚類系數對文本的關鍵詞進行抽取。總結以上三個算法,文獻5和文獻6的算法計算節(jié)點的權值

19、都與最短路徑相關,只考慮節(jié)點在整個網絡信息流動的影響,而忽略了節(jié)點在局部小世界中的影響程度;而文獻7中節(jié)點的度和聚類系數都是考慮節(jié)點在局部小世界中的重要程度,而忽略了節(jié)點在整個網絡中的影響程度。1.3研究內容及論文組成1.3.1研究內容本文主要研究的主要內容是,是基于主題的關鍵詞提取方法對比研究。關鍵詞提取主要解決的是對于一個新的文檔,通過合適的算法來找出最合適關鍵詞,以期望達到對網絡資源的各個方面屬性進行有效闡述目的,并且給用戶提供最準確的信息。這有助于為用戶的個性化搜索提供有效數據源,為網絡資源共享、學習提供理論和方法指導。本文主要研究的主要內容是,是基于主題的關鍵詞提取研究。本文的主要的

20、研究對象是文檔集合,將從以下幾個方面進行闡述:(1)在學習和歸納國內外關于關鍵詞提取的文獻的基礎上,對關鍵詞提取目前取得的進展進行分類總結;(2)針對關鍵詞提取所面臨的挑戰(zhàn),結合現有國內外文獻對于這些方面的研究進行分析綜合,對于主題挖掘領域內的LSA、LDA與PLSA進行了詳細的分析研究,學習他們的特點及處理方法;(3)在上述闡述的模型的基礎之上,通過實驗對上述三個算法的有效性與傳統的TF-IDF算法進行驗證對比。1.3.2論文組成本篇論文由5章組成,理論結合實踐,其結構如下:第1章:緒論主要介紹了論文的研究背景、研究意義和國內外研究現狀,并闡述了本篇論文的總體框架。第2章:關鍵詞提取的概述本

21、章主要介紹了文本關鍵詞的概念以及關鍵詞提取的主要理論及經典算法,并提出了基于主題的關鍵詞提取算法的必要性。第3章:基于主題的關鍵詞提取算法本章分別介紹了:基于主題的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究 #基于LSA的關鍵詞提取方法的分析與研究詳細闡述了隱含語義算法的相關理論,在此基礎上構建了資源-標簽的權重矩陣,并將該矩陣通過隱含語義分析進行處理。基于PLSA的關鍵詞提取方法的分析與研究一詳細闡述了概率潛在語義的基本思想,進一步挖掘網絡資源內在的語義空間,并應用EM算法進行不斷循環(huán)直至達到最優(yōu)。基于LDA的關鍵詞提取方法的分析與研究闡述了隱狄利克雷分配算法的基本思想,建立全概

22、率生成模型,通過變分推理等方法求得最優(yōu)解。第4章:模型應用及分析通過實驗對三種方法和傳統的提取關鍵詞算法進行研究對比,總結三種基于主題的關鍵詞提取方法相對于傳統的提取主題的關鍵詞提取算法的性能優(yōu)劣。第5章:總結與展望總結本文研究所做的主要內容,分析研究中現存在的問題,并確定下一步需要改進的研究方向。基于主題的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究關鍵詞提取相關理論概述2.1關鍵詞的概念關鍵詞是用以表示文章主題內容、信息、款目的單詞或術語,是反映文章內容的名詞性術語;是從文章題名、摘要、層次標題和征文中提取出來的、對文章內容具有實質性意義的詞或詞組;是表達文獻主題概念的自然語言詞

23、匯。從形式上看,關鍵詞或概念是出現在文章標題、摘要、正文中的詞匯,是作者本人的詞匯或專有名詞;從內容上看,關鍵詞或概念應當具有特定的意義,反映特定概念的實詞或詞組,可以是各門專業(yè)的術語,例如:計算機、網絡、汽車、自然語言理解、信息系統等,也可以是專有名詞(包括人名、地名、組織機構名稱等),例如:北京、上海、伊拉克、布什、人民報社等;從作用上看它能夠表達文章的主題內容。從用戶進行搜索的角度來看關鍵詞,就是用戶輸入搜索框中的文字,也就是用戶命令搜索引擎尋找的東西。所以關鍵詞的內容可以是:人名、網站、新聞、小說、軟件、游戲、星座、工作、購物、論文等。關鍵詞,可以是任何中文、英文、數字,或中文英文數字

24、的混合體。關鍵詞,可以是一個,也可以是兩個、三個甚至更多,輸入多個關鍵詞搜索,可以獲得更精確更豐富的搜索結果。例如,在百度搜索引擎中搜索“北京暫住證”,可以找到幾萬篇資料。而搜索“北京暫住證”,則只有嚴格含有北京暫住證連續(xù)5個字的網頁才能被找出來,不但找到的資料只有幾百篇,資料的準確性也比前者差得多。關鍵詞質量的高低和文章的各個要點的內容是息息相關的。因此要有效地提取關鍵詞,就要全面理解文章的內容和文中各詞語的確切詞義。文章不單單是詞語的集合,表層之下潛藏著由眾多詞語共同表達的文章主題。對文中詞語的理解不能是孤立的,應該將在語義上具有相似或者在文章中緊密關聯的詞語聯系在一起,簡單的說對文章主題

25、的理解就是聯系文中主題凝聚的詞語的過程。因此本文希望通過對文章主題信息的理解,對文章結構的表達來提高關鍵詞提取的質量。關鍵詞自動提取,就是自動地選擇一個小特征項集來描述單個文檔的內容。關鍵詞提取是文本分類、聚類、信息檢索和自動摘要生成等技術的基礎。典型的文本關鍵詞提取方法是將文本的特征詞提取出來后,根據某種規(guī)則計算各特征詞的權重,按照特征詞的權重確定能夠反映文本主題內容的關鍵詞。2.2關鍵詞提取的方法總結現有的文本關鍵詞提取方法具體描述如下(1)基于語言分析的方法基于主題的關鍵詞提取方法對比研究基于主題的關鍵詞提取方法對比研究- - 基于語言分析方法的基本思想是:對文本進行取詞、分詞,結合語義

26、詞典衡量特征詞的重要程度。Hulth通過短語識別、Chunk識別等語法分析方法提取文本的關鍵詞8。該方法優(yōu)點是比較簡單,需要的基礎資源少,實現簡單,關鍵詞提取準確。該方法的缺點是對語義詞典的依賴性較強,面臨語義詞典的建立和語義詞典的維護問題9,同時需要考慮詞語的語義語法等,考慮詞語數量的增大和更新,這些都會影響該方法提取的準確性10,11。(2)基于統計的方法基于統計方法的基本思想是:利用統計的方法提取文本的關鍵詞,需要考慮關鍵詞文本中出現的位置,該方法是一種無監(jiān)督的關鍵詞提取方法,執(zhí)行起來比較簡單12?;诮y計的文本關鍵詞提取方法主要包括基于詞頻的文本關鍵詞提取方法13,基于TF-IDF的文

27、本關鍵詞提取方法14,基于詞的同現信息的文本關鍵詞提取方法15,基于Pat-tree的文本關鍵詞提取方法16,以及利用上述方法的結合方法等17?;诮y計的關鍵詞提取方法的優(yōu)點:能夠高效地識別未登錄詞;無需人工構造詞典;需要的基礎資源少,對語言資源的依賴性弱;不受語言類型與句型的限制?;趧訖C的關鍵詞提取方法的缺點:計算量大;提取結果會有意義不完整的字符串,導致準確率不高;低頻詞不能被提取出來;需要大量的原始文本。(3)基于結構的方法基于結構方法的基本思想是:根據關鍵詞主要來源于文本的固定位置,因而從文本的相應的位置和文本的標題中提取文本的關鍵詞18,從文本的摘要中提取文本的關鍵詞19,從htm

28、l文件的標簽處提取關鍵詞20等。(4)基于機器學習的方法20世紀70年代,Salton將機器學習的技術應用到文本關鍵詞提取研究中回】。該方法的主要是將文本的關鍵詞提取問題看為分類問題,通過訓練文本集獲得文本集模型,對文本進行關鍵詞提取。典型的模型有最大熵模型22、貝葉斯模型23、SVM模型24、決策樹模型25等。還有將關鍵短語抽取問題轉化為序列標記問題,并利用條件隨機場(ConditionalRandomField,CRF)進行關鍵詞提?。?)基于復雜網絡的方法近幾年來,基于復雜網絡的文本關鍵詞提取研究受到了廣泛的關注,該方法根據特征詞之間的聯系,構建一個復雜網絡,通過驗證復雜網絡的小世界特征

29、,根據復雜網絡相關理論衡量關鍵詞的權重,提取文本的關鍵詞。但該方法存在沒有解決網絡連通性問題,計算量大等問題。2.3基于主題的關鍵詞提取關鍵詞自動提取,就是自動地選擇一個小特征項集來描述單個文檔的內容。以上,我們介紹了關鍵詞提取的相關方法,在這些算法中,我們發(fā)現同一篇文檔中的同一個詞在不同的地方或許有著不同的意思,比如說,“mouse”能夠表示老鼠或者是鼠標的意思,同樣,不同的詞能夠表示相同的意思,比如說同義詞。這些現象產生的原因在于詞匯層面(代表意思的詞)和概念層面(意思本身)的差別,這樣將會導致關鍵詞提取的不準確。所以,我們往往需要參照上下文的主題意思,來進行詞義的猜測,從而來進行關鍵詞提取。一篇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論