![自動(dòng)文本摘要_第1頁(yè)](http://file4.renrendoc.com/view11/M01/23/2A/wKhkGWWfOpuAeoojAAFSRa0mS4U832.jpg)
![自動(dòng)文本摘要_第2頁(yè)](http://file4.renrendoc.com/view11/M01/23/2A/wKhkGWWfOpuAeoojAAFSRa0mS4U8322.jpg)
![自動(dòng)文本摘要_第3頁(yè)](http://file4.renrendoc.com/view11/M01/23/2A/wKhkGWWfOpuAeoojAAFSRa0mS4U8323.jpg)
![自動(dòng)文本摘要_第4頁(yè)](http://file4.renrendoc.com/view11/M01/23/2A/wKhkGWWfOpuAeoojAAFSRa0mS4U8324.jpg)
![自動(dòng)文本摘要_第5頁(yè)](http://file4.renrendoc.com/view11/M01/23/2A/wKhkGWWfOpuAeoojAAFSRa0mS4U8325.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
自動(dòng)文本摘要AutomaticTextSummarization1Introduction摘要的定義:
atextthatisproducedfromoneormoretexts,thatconveysimportantinformationintheoriginaltext(s),andthatisnolongerthanhalfoftheoriginaltext(s)andusuallysignificantlylessthanthat.三個(gè)重點(diǎn):1.摘要可能是由單文檔或多文檔得出的2.摘要必須保存有重要信息3.摘要要盡可能的簡(jiǎn)潔2Introduction四個(gè)重要的單詞extraction提取找到重要部分逐字產(chǎn)生abstraction抽象化以另一種方式產(chǎn)生重要資源fusion融合把抽取的東西連貫在一起compression壓縮去掉不重要的部分3IntroductionSingle-DocumentSummarizationMulti-DocumentSummarizationOtherApproachestoSummarizationEvaluation4Single-DocumentSummarizationEarlyWork 詞語(yǔ)頻率倒排(盧恩) 句子位置(巴克辛德) 提示詞和文檔骨架(埃德蒙遜)5Single-DocumentSummarizationmachinelearningmethods特征獨(dú)立的:樸素貝葉斯方法非特征獨(dú)立的:隱式馬爾科夫模型對(duì)數(shù)線性模型近期出現(xiàn)的神經(jīng)網(wǎng)絡(luò)和第三方特征6Single-DocumentSummarization樸素貝葉斯方法正態(tài)分布7Single-DocumentSummarization隱式馬爾科夫模型三個(gè)特征:句子位置術(shù)語(yǔ)數(shù)量句子術(shù)語(yǔ)和文檔術(shù)語(yǔ)的相似度8Multi-DocumentSummarization背景20世紀(jì)90年代中期新聞?lì)I(lǐng)域比單文檔摘要更多的要求發(fā)展過程很糾結(jié)9Multi-DocumentSummarization1. 抽象和信息聚合
(AbstractionandInformationFusion)SUMMONS -內(nèi)容管理器 -語(yǔ)言生成器依賴樹(dependencytrees)Dependencytreerepresentingthesentence"McVeigh,27,waschargedwiththebombing"10Multi-DocumentSummarization2. 標(biāo)題驅(qū)動(dòng)摘要和MMR
(Topic-drivenSummarizationandMMR)MMR——maximalmarginalrelevance它可能是適用于多項(xiàng)任務(wù),包括從文本檢索到主題驅(qū)動(dòng)的總結(jié)。Q——查詢/用戶配置文件 R——被搜索引擎檢索到的文件S——集合 Di——可選文檔adifferentuserwithdifferentinformationneedsmayrequireatotallydifferentsummary
ofthesamedocument.11Multi-DocumentSummarization3. 圖形擴(kuò)展激活(GraphSpreadingActivation)12Multi-DocumentSummarization4. 基于質(zhì)心的摘要(Centroid-basedSummarization) 不同于以往的系統(tǒng) 易于擴(kuò)展和域的獨(dú)立第一階段 將描述同樣的事件的新聞組合到一起 聚類算法
第二階段質(zhì)心值Ci 正值PiThefirst-sentenceoverlap(Fi),definedastheinnerproductbetweenthewordoccurrencevectorofsentenceiandthatofthefirstsentenceofthedocument.最終得分13Multi-DocumentSummarization5. 多語(yǔ)種多文檔摘要(MultilingualMulti-documentSummarization)現(xiàn)在還處于起步階段SimFinder20一個(gè)基于聚類的文本的工具通過各種句法和詞法的功能使用對(duì)數(shù)線性回歸的相似性模型14OtherApproachestoSummarization簡(jiǎn)介Thissectiondescribesbrieflysomeunconventionalapproachesthat,ratherthanaimingtobuildfullsummarizationsystems,investigatesomedetailsthatunderliethesummarizationprocess,andthatweconjecturetohavearoletoplayinfutureresearchonthisfield.15OtherApproachestoSummarizationShortSummaries簡(jiǎn)短的摘要SentenceCompression語(yǔ)句壓縮Sequentialdocumentrepresentation
順序的文件表示16OtherApproachestoSummarizationShortSummaries簡(jiǎn)短的摘要17OtherApproachestoSummarizationWitbrockandMittal(1999)提取總結(jié)(extractivesummarization)18OtherApproachestoSummarizationheadlinestylesummaries標(biāo)題式的摘要19OtherApproachestoSummarizationReutersandtheAssociatedPress,publiclyavailableattheLDC2120OtherApproachestoSummarizationForcontentselection,themodellearnedatranslationmodelbetweenadocumentanditssummary(Brownetal.,1993).21OtherApproachestoSummarization“翻譯模型”22OtherApproachestoSummarizationtheauthorsassumedthattheprobabilityofawordappearinginasummaryisindependentofitsstructure23OtherApproachestoSummarization維特比算法維特比算法是一種動(dòng)態(tài)規(guī)劃算法用于尋找最有可能產(chǎn)生觀測(cè)事件序列的-維特比路徑-隱含狀態(tài)序列,特別是在馬爾可夫信息源上下文和隱馬爾可夫模型中。術(shù)語(yǔ)“維特比路徑”和“維特比算法”也被用于尋找觀察結(jié)果最有可能解釋相關(guān)的動(dòng)態(tài)規(guī)劃算法。例如在統(tǒng)計(jì)句法分析中動(dòng)態(tài)規(guī)劃算法可以被用于發(fā)現(xiàn)最可能的上下文無(wú)關(guān)的派生(解析)的字符串,有時(shí)被稱為“維比特分析”。維特比算法由安德魯·維特比(AndrewViterbi)于1967年提出,用于在數(shù)字通信鏈路中解卷積以消除噪音。此算法被廣泛應(yīng)用于CDMA和GSM數(shù)字蜂窩網(wǎng)絡(luò)、撥號(hào)調(diào)制解調(diào)器、衛(wèi)星、深空通信和802.11無(wú)線網(wǎng)絡(luò)中解卷積碼?,F(xiàn)今也被常常用于語(yǔ)音識(shí)別、關(guān)鍵字識(shí)別、計(jì)算語(yǔ)言學(xué)和生物信息學(xué)中。例如在語(yǔ)音(語(yǔ)音識(shí)別)中,聲音信號(hào)做為觀察到的事件序列,而文本字符串,被看作是隱含的產(chǎn)生聲音信號(hào)的原因,因此可對(duì)聲音信號(hào)應(yīng)用維特比算法尋找最有可能的文本字符串。24OtherApproachestoSummarization馬爾可夫猜想每個(gè)數(shù)只在樹上出現(xiàn)一次(即沒有正整數(shù)z使得(a,b,z),(c,d,z)都是方程的解,其中a,b,c,d是兩兩相異的正整數(shù),且a>b>z,c>d>z)。25OtherApproachestoSummarizationThesurfacerealizationmodelusedwasabigram
model.Viterbibeamsearchwasusedtoefficientlyfindanear-optimalsummary.TheMarkovassumptionwasviolatedbyusingbacktrackingateverystatetostronglydiscouragepathsthatrepeatedterms,sincebigramsthatstartrepeatingoftenseemtopathologicallyoverwhelmthesearchotherwise.26Evaluationdifficulttask:
(1)
moredifficultyinsummarycontent
(2)
theabsenceofastandardevaluationmetric
(3)
manualevaluationistooexpensive27Evaluation1HumanandAutomaticEvaluation
DUC-2001:DocumentUnderstandingConference2001
SEE:SummaryEvaluationEnvironment
MU:modelunit
SU:systemunit28Evaluationthehumanmarkingsforoverlappingunits,unstableinter-humanagreement,lowusingautomaticmetricsNAMS29EvaluationNAMnn-gram:achievebestcorrelationwithhuman
judgement30Evaluation2ROUGE
Recall-OrientedUnderstudyforGistingEvaluation
ROUGE-N,n-gramrecall31Evaluation
closelyrelatedtoBLEU
usefulinmultiplereferencesummaries:32Evaluation
otherROUGE
ROUGE-W
applyinLCS:longestcommonsubsequences
thelongertheLCSbetweentwosummarysentences,themoresimilartheyare.33Evaluation
ROUGE-S
gappyversionofROUGE-N,skipbigram34Evaluation
summary
performedverywellontheDUC-2001andDUC-2002datasets
anopenresearchtopic35Evaluation3Information-theoreticEvaluationofSummaries
information-theoreticmethod
Jensen-Shannondivergence
suitboththesingle-documentandthemulti-documentsummarization36Evaluatio
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 金融服務(wù)居間合同委托書
- 物業(yè)服務(wù)外包合同
- 鍋爐購(gòu)銷合同書
- 車輛租賃保險(xiǎn)服務(wù)合同
- 語(yǔ)言編程及算法操作手冊(cè)
- 水產(chǎn)養(yǎng)殖與漁業(yè)技術(shù)作業(yè)指導(dǎo)書
- 軟件外包業(yè)軟件開發(fā)與項(xiàng)目管理流程優(yōu)化研究
- 綠色農(nóng)業(yè)生產(chǎn)技術(shù)方案
- 保姆雇傭勞動(dòng)合同書
- 新夫妻離婚協(xié)議書參考樣板
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則
- 每個(gè)孩子都能像花兒一樣開放
- 單店爆破促銷活動(dòng)模式精編文檔
- YS/T 34.1-2011高純砷化學(xué)分析方法電感耦合等離子體質(zhì)譜法(ICP-MS)測(cè)定高純砷中雜質(zhì)含量
- LY/T 2016-2012陸生野生動(dòng)物廊道設(shè)計(jì)技術(shù)規(guī)程
- 松下panasonic-視覺說明書pv200培訓(xùn)
- 單縣煙草專賣局QC課題多維度降低行政處罰文書出錯(cuò)率
- 毫針刺法(全)教學(xué)課件
- 金風(fēng)科技-風(fēng)電產(chǎn)業(yè)集團(tuán)-供應(yīng)商現(xiàn)場(chǎng)作業(yè)基礎(chǔ)安全考試附答案
- 人工智能機(jī)器人科學(xué)小報(bào)手抄報(bào)簡(jiǎn)報(bào)
- 三年級(jí)下冊(cè)美術(shù)課件-第1課 燈彩輝映|浙美版 (共19張PPT)
評(píng)論
0/150
提交評(píng)論