挖掘技術(shù)textmining以提供文獻(xiàn)內(nèi)容梗概為目的不加評(píng)論和補(bǔ)充_第1頁(yè)
挖掘技術(shù)textmining以提供文獻(xiàn)內(nèi)容梗概為目的不加評(píng)論和補(bǔ)充_第2頁(yè)
挖掘技術(shù)textmining以提供文獻(xiàn)內(nèi)容梗概為目的不加評(píng)論和補(bǔ)充_第3頁(yè)
挖掘技術(shù)textmining以提供文獻(xiàn)內(nèi)容梗概為目的不加評(píng)論和補(bǔ)充_第4頁(yè)
挖掘技術(shù)textmining以提供文獻(xiàn)內(nèi)容梗概為目的不加評(píng)論和補(bǔ)充_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1 Anexpressofacertain withoutanyexnationsandcomment.It'sunnecessarytoknowwhowritesthesummary.(ANSI)Aconciseandaccurateexpressofthewithoutanyex nationandcomment.Asummaryisindependentontheauthorofthesummary.(ISO214-1976(E))2 性/指示性 以性的形式表述文獻(xiàn)中信息價(jià)值較高的部分,而以指示性的形式表述其余部分的。 3SummaryClassifiedbyuser'sGenericSummarizationUser-querySummarizationClassifiedbytext ClassifiedbySummarizationBasedonExtractionSummarizationBasedonUnderstandingClassifiedbyneedSupervisedSummarizationUnsupervisedSummarization4 5ABriefHistoryofDUC,holdbyNIST,fromByMarkT.MayburyandInderjeetMani6 Vivisimo公司 78內(nèi)部評(píng)價(jià)方法(IntrinsicMethods):在提供參考的前提下,以參考為基準(zhǔn)評(píng)價(jià)系統(tǒng)的質(zhì)量。通常情況下,系統(tǒng)摘要與參考越吻合,其質(zhì)量越高。外部評(píng)價(jià)方法(ExtrinsicMethods):不需要提供參考,利用文檔代替原文檔夠提高應(yīng)用性能的被認(rèn)為是質(zhì)量好的摘9Evaluation-- 得與目標(biāo) (coselectionrate)。 Evaluation-- “?!薄埃骸薄埃弧薄?!”“?”;為使專(zhuān)家與機(jī)械具有可比性,只專(zhuān)家和機(jī)械的句子都按照在原文 n

RecallNhm/ PrecisionNhm ? UnderstandingConference(DUC)isaseriesofsummarizationevaluationsthathavebeenconductedbytheNationalInstituteofStandardsandTechnology(NIST)since2001.Itsgoalistofurtherprogressinautomatictextsummarizationandenableresearcherstoparticipateinlarge-scaleexperimentsinboththedevelopmentandevaluationofsummarizationSince2008, DUChasmovedtotheTextysisConference(TAC)QuestionAnswering;RecognizingSummarizationKeyword ymostEasytoHardtoread,poorrepresentationofSentenceExtractkeySummariesoftendon’treadNaturallanguageunderstanding/HardtodoSomethingbetweenthelasttwo SummarizationWebThisis

inText

Content:weight=Sumoftopicterms’weights;Length:weight/=Position:weight*=positionConten;Stigmawords;Stigma:Conten;Stigmawords;Redundancy:weight*=&Repair e.g:Edmundson的 詞(Bonus [Luhn,1958]:能夠指示文章 實(shí)詞的個(gè)數(shù)來(lái)計(jì)算句子的權(quán)值。[V.A.Oswald]主張句子的權(quán)值應(yīng)按其所含 ANES(AutormaticNewsExtractionSystem)作所謂的目次性,這也很受歡統(tǒng)計(jì)表明:大部分科技文獻(xiàn)的標(biāo)題都能基本反映葉句,刪句留主干句的方 (如氣象預(yù)報(bào)等)。 基于理解的自動(dòng)常包含語(yǔ)法分析、語(yǔ)義分析、信息提取和生成,作者應(yīng)屬于此。分層的,理解比低層理解更為手工人員在編制時(shí)并不一定通結(jié)束語(yǔ)及其論題句,以發(fā)現(xiàn)其,再挑選句子并修飾稍加組織生成。文獻(xiàn),不同用戶(hù)點(diǎn)和觀察角度可能不同,的結(jié)果應(yīng)當(dāng)不同。SentenceSentenceRepresenteachsentenceasafeatureComputescorebasedonPresentinorderinwhichtheyoccurinPostprocessingtomakesummarymoreEliminateredundantDeletesubordinateclauses,SentenceImportance-- [G. Sentence 冗余性消除 ? ? A Sigir95paperonsummarization A TrainablesentenceProposedalgorithmisappliedtoitsowndescription(thepaper)FeatureFixed-phraseCertainphrasesindicatesummary,e.g.“inParagraphParagraphinitial/finalmorelikelytobeThematicwordRepetitionisanindicatorofUppercasewordUppercaseoftenindicatesnamedentities.Sentencelengthcut-Summarysentenceshouldbe>5Hand-labelsentencesintrainingset(good/badsummarysentences)Trainclassifiertodistinguishgood/badsummarysentencesModelused:Na?veCanranksentencesaccordingtoscoreandshowtopntouser. EvaluationofBaseline(choosefirstnsentences):Overallperformance(42-44%)notveryHowever,thereismorethanoneClusteringbasedClustering Sentences 及MMRQuery-SpecificAgenericsummarymakesnoassumptionaboutthereader’sinterests.Query-specificsummariesarespecializedforasingleinformationneed,thequery.Summarizationismucheasierifwehaveadescriptionofwhattheuserwants.Recallfromlast -typeexcerpts–simplyshowincontextMMR le ????? -??1- i 術(shù)和IGR(InformationGainRatio)技術(shù)結(jié)合起來(lái),稱(chēng)為MMI-MS MMRArgmax[Sim1(Di,Q)-(1-)maxSim2(Di,DjDiR\ DMMI-MSArgmax[Imp(Si)-(1-)maxSimj(Si,SjSiSS\ IGR_sum(w,D) CCset(D

gain_r(w,C(alMarginalRelevance 關(guān)方法:MMR-SS(SemanticSimilaritybased alMarginal time-sequence(D

mintime p x2D

*[Pjw

Q(A,B)

i 2x2y2 i

;TypesofMDSingle trackedoveralongtimeElizabethTaylor’sboutwith GiveextraweighttoMayneedto eMultipleeventsofasimilarMarathonrunnersandMorebroadbrush,ignoreAnissuewithrelatedGunIdentifykeyconceptsandselects

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論