關(guān)鍵詞抽取方法研究PPT課件_第1頁(yè)
關(guān)鍵詞抽取方法研究PPT課件_第2頁(yè)
關(guān)鍵詞抽取方法研究PPT課件_第3頁(yè)
關(guān)鍵詞抽取方法研究PPT課件_第4頁(yè)
關(guān)鍵詞抽取方法研究PPT課件_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)鍵詞抽取方法研究,劉知遠(yuǎn)(清華大學(xué))2020年6月1日,1,.,報(bào)告摘要,關(guān)鍵詞抽取簡(jiǎn)介關(guān)鍵詞抽取方法關(guān)鍵詞抽取的應(yīng)用展望,2,.,問題描述,關(guān)鍵詞自動(dòng)抽取AutomaticKeyphraseExtraction定義:自動(dòng)從文檔中抽取關(guān)鍵詞作為文檔摘要特點(diǎn):多個(gè)詞或短語(yǔ)一般來(lái)自文檔內(nèi)容,3,.,關(guān)鍵詞抽取的典型應(yīng)用場(chǎng)景,4,.,關(guān)鍵詞標(biāo)注方式,5,.,關(guān)鍵詞標(biāo)注方法,6,.,有監(jiān)督方法,轉(zhuǎn)化為二分類問題判斷某個(gè)候選關(guān)鍵詞是否為關(guān)鍵詞Frank1999采用樸素貝葉斯分類器Turney2000采用C4.5決策樹分類器轉(zhuǎn)化為多分類多標(biāo)簽問題傳統(tǒng)文本分類方法受限詞表作為候選關(guān)鍵詞集合(分類標(biāo)簽),7,.,無(wú)監(jiān)督方法,詞頻基于TFIDF及其變形對(duì)候選關(guān)鍵詞進(jìn)行排序圖方法Rada2004:PageRankTextRankHuang2006:復(fù)雜網(wǎng)絡(luò)統(tǒng)計(jì)性質(zhì)LitvakandLast2007:HITS,8,.,詞頻方法,Term-frequencyinversedocument-frequency(TFIDF)TF:theimportanceofthetermwithinthedocumentIDF:theinformativenessoftheterminthedocumentset,9,.,TextRank,10,.,文獻(xiàn)綜述-無(wú)監(jiān)督方法小結(jié),11,.,研究問題,關(guān)鍵詞應(yīng)當(dāng)具備以下特點(diǎn)相關(guān)性,可讀性,覆蓋性關(guān)鍵詞與文檔主題保持一致性如何在關(guān)鍵詞抽取中考慮對(duì)文檔主題的覆蓋性一個(gè)文檔往往有多個(gè)主題現(xiàn)有方法沒有提供機(jī)制對(duì)主題進(jìn)行較好覆蓋如何解決文檔與關(guān)鍵詞間的詞匯差異問題許多關(guān)鍵詞在文檔中頻度較低、甚至沒有出現(xiàn)“machinetransliteration”vs“machinetranslation”“iPad”vs“Apple”,12,.,研究思路,對(duì)文檔主題結(jié)構(gòu)進(jìn)行建模,并用于提高關(guān)鍵詞抽取的覆蓋性利用文檔內(nèi)部信息構(gòu)造文檔主題利用文檔外部信息構(gòu)造文檔主題結(jié)合文檔內(nèi)部、外部信息利用無(wú)標(biāo)注文檔集中的文檔與關(guān)鍵詞的主題一致性,彌合文檔與關(guān)鍵詞的詞匯差異,13,.,研究?jī)?nèi)容,通過(guò)文檔詞聚類構(gòu)建主題進(jìn)行關(guān)鍵詞抽取利用隱含主題構(gòu)建主題進(jìn)行關(guān)鍵詞抽取綜合利用隱含主題和文檔結(jié)構(gòu)進(jìn)行關(guān)鍵詞抽取利用機(jī)器翻譯彌合詞匯差異進(jìn)行關(guān)鍵詞抽取關(guān)鍵詞抽取的典型應(yīng)用,14,.,通過(guò)文檔詞聚類構(gòu)建主題進(jìn)行關(guān)鍵詞抽取,15,.,研究動(dòng)機(jī)與方法,動(dòng)機(jī):利用文檔內(nèi)部信息對(duì)文檔主題進(jìn)行建模方法在文檔中選取候選關(guān)鍵詞計(jì)算候選關(guān)鍵詞之間的語(yǔ)義相似度對(duì)文檔中的詞進(jìn)行聚類在每個(gè)聚類中選取聚類中心(exemplar)擴(kuò)展出關(guān)鍵詞,16,.,算法細(xì)節(jié),候選關(guān)鍵詞相似度度量基于同現(xiàn)關(guān)系的相似度基于維基百科的相似度Cosine,Euclid,PMI,NGD聚類方法選取層次聚類(hierarchicalclustering)譜聚類(spectralclustering)消息傳遞聚類(AffinityPropagation),17,.,實(shí)驗(yàn)結(jié)果,數(shù)據(jù)集合:論文摘要參數(shù)影響,18,.,實(shí)驗(yàn)結(jié)果,與其他算法的比較舉例,19,.,小結(jié),提出了利用聚類對(duì)文檔內(nèi)部主題結(jié)構(gòu)建模的關(guān)鍵詞抽取算法對(duì)比了不同的相似度度量算法、聚類算法較好地實(shí)現(xiàn)推薦關(guān)鍵詞的覆蓋性問題不同聚類個(gè)數(shù)較大地影響關(guān)鍵詞抽取效果,ZhiyuanLiu,PengLi,YabinZheng,MaosongSun.ClusteringtoFindExemplarTermsforKeyphraseExtraction.TheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),2009.,20,.,通過(guò)隱含主題模型構(gòu)建主題進(jìn)行關(guān)鍵詞抽取,21,.,隱含主題模型,對(duì)文檔主題進(jìn)行建模的無(wú)監(jiān)督學(xué)習(xí)模型由用戶指定隱含主題個(gè)數(shù)根據(jù)大規(guī)模文檔集合中學(xué)習(xí)每個(gè)主題是在詞上的分布每個(gè)詞和文檔都可以表示為主題上的分布常見隱含主題模型LatentSemanticAnalysis(LSA/LSI)ProbabilisticLSA(pLSA)LatentDirichletallocation(LDA),22,.,隱含主題模型示例,23,.,利用隱含主題模型進(jìn)行關(guān)鍵詞抽取,24,.,LDA學(xué)習(xí)算法,GibbsSampling,其他位置上的詞w的主題分布,該文檔其他位置上詞的主題分布,25,.,隱含主題模型的并行研究,26,.,PLDA+算法,機(jī)器分為兩種功能:一部分機(jī)器用于維護(hù)訓(xùn)練文檔一部分機(jī)器用于維護(hù)主題模型,27,.,PLDA+算法,28,.,實(shí)驗(yàn)效果-維基百科(20萬(wàn)詞匯),29,.,在線學(xué)習(xí)-OnlineLDA,基本思想整個(gè)數(shù)據(jù)集合上的大循環(huán)每個(gè)文檔上的小循環(huán)每次只在一個(gè)很小的集合上學(xué)習(xí)并更新模型不再返回去看舊的數(shù)據(jù)特點(diǎn)快速有利于Web隨時(shí)間變化較快的數(shù)據(jù)NIPS2010OnlineLearningforLatentDirichletAllocationDeterministicSingle-PassAlgorithmforLDA,30,.,小結(jié),通過(guò)并行或者在線學(xué)習(xí)可以有效加速LDA學(xué)習(xí)將在下部分一并展示利用隱含主題模型進(jìn)行關(guān)鍵詞抽取的效果,ZhiyuanLiu,YuzhouZhang,EdwardY.Chang,MaosongSun.PLDA+:ParallelLatentDirichletAllocationwithDataPlacementandPipelineProcessing.ACMTransactionsonIntelligentSystemsandTechnology(ACMTIST),2010.,31,.,綜合利用隱含主題模型和文檔結(jié)構(gòu)進(jìn)行關(guān)鍵詞抽取,32,.,研究思路,前述工作LDA:利用隱含主題模型發(fā)現(xiàn)文檔主題TextRank:利用文檔內(nèi)部結(jié)構(gòu)信息綜合考慮文檔主題和內(nèi)部結(jié)構(gòu)進(jìn)行關(guān)鍵詞抽取Topical-PageRank(TPR),33,.,研究方法,34,.,研究方法,35,.,研究方法,36,.,(a)Topicon“Terrorism”,(b)Topicon“Israel”,(c)Topicon“U.S.”,(d)TPRResult,示例,37,.,實(shí)驗(yàn),38,.,參數(shù)影響,39,.,參數(shù)影響,40,.,不同偏好參數(shù)設(shè)置的影響,41,.,與其他方法比較,42,.,與其他方法比較,43,.,與其他方法比較,44,.,小結(jié),LDA通過(guò)文檔主題進(jìn)行關(guān)鍵詞抽取,因此取得較TFIDF、TextRank較優(yōu)的結(jié)果TPR綜合了TextRank和LDA的優(yōu)點(diǎn),在兩個(gè)數(shù)據(jù)集合上都表現(xiàn)出了它的優(yōu)勢(shì)由于TPR可以按照主題推薦關(guān)鍵詞,因此可以用于文檔可視化,也可以用來(lái)進(jìn)行查詢導(dǎo)向(queryfocused)的關(guān)鍵詞抽取,ZhiyuanLiu,WenyiHuang,YabinZheng,MaosongSun.AutomaticKeyphraseExtractionviaTopicDecomposition.TheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),2010.,45,.,利用機(jī)器翻譯模型進(jìn)行關(guān)鍵詞抽取,46,.,研究問題,文檔和關(guān)鍵詞都是對(duì)同一事物的描述主題一致,詞匯差異詞匯差異的表現(xiàn)很多關(guān)鍵詞在文檔中出現(xiàn)次數(shù)不高有的關(guān)鍵詞在文檔中根本沒有出現(xiàn)(尤其是短文本)問題TFIDF、TextRank及其擴(kuò)展、LDA等方法均沒有很好解決詞匯差異問題,47,.,相關(guān)工作,TextRank的擴(kuò)展ExpandRank在構(gòu)建詞網(wǎng)時(shí),同時(shí)考慮文檔的近鄰文檔從“文檔層次(documentlevel)”利用外部信息容易引入噪音LDA通過(guò)主題分布的相似度來(lái)對(duì)候選關(guān)鍵詞排序從“主題層次(topiclevel)”利用外部信息由于主題一般是粗粒度的傾向于推薦普通詞容易發(fā)生主題漂移,48,.,研究思路,在“詞匯層次(wordlevel)”利用外部信息文檔和關(guān)鍵詞是對(duì)同一事物的描述關(guān)鍵詞抽取問題翻譯問題,翻譯,49,.,研究方法,50,.,研究方法-構(gòu)建翻譯對(duì)集合,將文檔標(biāo)題或摘要看作近似用關(guān)鍵詞語(yǔ)言寫成大部分文檔有標(biāo)題或摘要信息將標(biāo)題/摘要與文檔正文形成翻譯對(duì)問題摘要、文檔往往較長(zhǎng)直接使用詞對(duì)齊算法效率較低、效果較差沒有標(biāo)題/摘要的時(shí)候怎么辦,51,.,研究方法-構(gòu)建翻譯對(duì)集合,52,.,研究方法-構(gòu)建翻譯對(duì)集合,當(dāng)沒有標(biāo)題或摘要,從文檔正文中選擇重要的句子來(lái)與正文構(gòu)成翻譯對(duì)選擇文檔第一句話選擇與文檔最相關(guān)的一句話,53,.,實(shí)驗(yàn)設(shè)置,句子對(duì)齊算法采用IBMModel-1的工具GIZA+在13,702篇中文新聞上進(jìn)行試驗(yàn),54,.,實(shí)驗(yàn)結(jié)果,55,.,實(shí)驗(yàn)結(jié)果,56,.,57,.,實(shí)驗(yàn)結(jié)果-抽取重要句子構(gòu)建翻譯對(duì),58,.,實(shí)驗(yàn)結(jié)果-關(guān)鍵詞生成(keywordGeneration),在測(cè)試時(shí),只能夠根據(jù)新聞標(biāo)題產(chǎn)生關(guān)鍵詞,59,.,實(shí)驗(yàn)結(jié)果-關(guān)鍵詞生成舉例,文檔題目:“以軍方稱伊朗能造核彈可能據(jù)此對(duì)伊朗動(dòng)武”,60,.,小結(jié),機(jī)器翻譯技術(shù)可以有效解決詞匯差異問題推薦更符合文檔主題的關(guān)鍵詞甚至能夠勝任關(guān)鍵詞生成任務(wù)標(biāo)題/摘要與文檔能夠構(gòu)建高質(zhì)量的翻譯對(duì)對(duì)于新聞文檔而言,正文第一句也可以用來(lái)構(gòu)建高質(zhì)量翻譯對(duì),ZhiyuanLiu,XinxiongChen,MaosongSun.ASimpleWordTriggerMethodforSocialTagSuggestion.EMNLP11ZhiyuanLiu,XinxiongChen,YabinZheng,MaosongSun.AutomaticKeyphraseExtractionbyBridgingVocabularyGap.CoNLL11,61,.,典型應(yīng)用:微博關(guān)鍵詞抽取,62,.,應(yīng)用簡(jiǎn)介,以新浪微博為平臺(tái)利用關(guān)鍵詞抽取技術(shù)獲取用戶發(fā)表微博的關(guān)鍵詞應(yīng)用前景發(fā)現(xiàn)和建模用戶興趣為用戶之間鏈接賦予更豐富信息推薦用戶感興趣的產(chǎn)品、信息和好友等具有廣闊的商業(yè)前景,63,.,64,.,應(yīng)用界面,65,.,關(guān)鍵詞抽取舉例-我的微博關(guān)鍵詞,66,.,關(guān)鍵詞抽取舉例-馬少平老師的微博關(guān)鍵詞,67,.,關(guān)鍵詞抽取舉例-MSRA的微博關(guān)鍵詞,68,.,應(yīng)用使用情況-統(tǒng)計(jì)概覽(5.25-9.29),小結(jié),系統(tǒng)受到了微博用戶的普遍認(rèn)可微博關(guān)鍵詞抽取系統(tǒng)驗(yàn)證了本文對(duì)于基于文檔主題結(jié)構(gòu)關(guān)鍵詞抽取研究的有效性不足:交互機(jī)制,69,.,研究總結(jié),利用文檔主題結(jié)構(gòu)對(duì)關(guān)鍵詞抽取覆蓋度的作用進(jìn)行了深入研究通過(guò)文檔內(nèi)詞聚類構(gòu)建文檔主題通過(guò)隱含主題模型構(gòu)建文檔主題綜合

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論