文本相似度計(jì)算_第1頁(yè)
文本相似度計(jì)算_第2頁(yè)
文本相似度計(jì)算_第3頁(yè)
文本相似度計(jì)算_第4頁(yè)
文本相似度計(jì)算_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 文本相似度計(jì)算系統(tǒng)摘要在中文信息處理中,文本相似度的計(jì)算廣泛應(yīng)用于信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)、文本挖掘等領(lǐng)域,是一個(gè)非?;A(chǔ)而關(guān)鍵的問(wèn)題,長(zhǎng)期以來(lái)一直是人們研究的熱點(diǎn)和難點(diǎn)。本次畢設(shè)的設(shè)計(jì)目標(biāo)就是用兩種方法來(lái)實(shí)現(xiàn)文本相似度的計(jì)算。本文采用傳統(tǒng)的設(shè)計(jì)方法,第一種是余弦算法。余弦算法是一種易于理解且結(jié)果易于觀察的算法。通過(guò)余弦算法可以快捷的計(jì)算出文本間相似度,并通過(guò)余弦算法的結(jié)果(0、1之間)判斷出相似度的大小。由于余弦計(jì)算是在空間向量模型的基礎(chǔ)上,所以說(shuō)要想用余弦算法來(lái)完成本次系統(tǒng),那么必須要將文本轉(zhuǎn)化成空間向量模型。而完成空間向量模型的轉(zhuǎn)換則要用到加權(quán)。在空間向量模型實(shí)現(xiàn)之前,必須要進(jìn)

2、行文本的去停用詞處理和特征選擇的處理。第二種算法是BM25算法,本文將采用最基礎(chǔ)的循環(huán)來(lái)完成,目的是觀察余弦算法中使用倒排索引效率是否提高有多大提高。本次文本相似度計(jì)算系統(tǒng)的主要工作是去除停用詞、文本特征選擇、加權(quán),在加權(quán)之后用余弦算法計(jì)算文本的相似度。在文本特征選擇之后用BM25計(jì)算相似度。由于為了使系統(tǒng)的效率提高,在程序設(shè)計(jì)中應(yīng)用了大量的容器知識(shí)以及內(nèi)積、倒排算法。關(guān)鍵詞:文本相似度;余弦;BM25;容器TextSimilarityAlgorithmResearchAbstractInChineseinformationprocessing,textsimilaritycomputatio

3、niswidelyusedintheareaofinformationretrieval,machinetranslation,automaticquestionanswering,textminingandetcItisaveryessentialandimportantissuethatpeoplestudyasahotspotanddifficultyforalongtimeCurrently,mosttextsimilarityalgorithmsarebasedonvectorspacemodel(VSM)However,thesemethodswillcauseproblemsof

4、highdimensionandsparsenessMoreover,thesemethodsdonoteffectivelysolvenaturallanguageproblemsexistedintextdataThesenaturallanguageproblemsaresynonymandpolysemeTheseproblemssidturbtheefficiencyandaccuracyoftextsimilarityalgorithmsandmaketheperformanceoftextsimilaritycomputationdeclineThispaperusesanewt

5、houghtwhichgetssemanticsimiralitycomputationintotraditionaltextsimilaritycomputationtoprovetheperformanceoftextsimilarityalgorithmsThispaperdeeplydiscussestheexistingtextsimilarityalgorithmsandsamentictextcomputationandgivesaChinesetextsimilarityalgorithmwhichisbasedonsemanticsimilarityThereisanonli

6、neinformationmanagementsystemwhichisusedtomanagestudentsgraduatedesignpapersThosepapersaleusedtocalculatesimilaritybythatthealgorithmtovalidatethatalgorithmThistextsimilaritycomputingsystemsmainjobistostopwordremoval,textfeatureselection,weighting,afterweightingusingcosinealgorithmtocalculatethesimi

7、larityofthetext.AfterthetextfeatureselectioncalculationofsimilaritywiththeBM25.Becauseinorderforthesystemsefficiency,knowledgeapplicationinprogrammingalotofcontainersaswellastheinnerproduct,theinversionalgorithmKEYWORDS:Textsimilarity;cosine;BM25;container目錄1緒論錯(cuò)誤!未定義書(shū)簽1.1開(kāi)發(fā)背景錯(cuò)誤!未定義書(shū)簽1.2課題研究意義錯(cuò)誤!未定義書(shū)

8、簽1.3本課題要解決的問(wèn)題錯(cuò)誤!未定義書(shū)簽2研究方法錯(cuò)誤!未定義書(shū)簽2.1根據(jù)研究的側(cè)重點(diǎn)闡述相關(guān)的研究方法錯(cuò)誤!未定義書(shū)簽2.2歷史以及研究現(xiàn)狀錯(cuò)誤!未定義書(shū)簽3關(guān)鍵問(wèn)題及分析(一)(余弦)錯(cuò)誤!未定義書(shū)簽3.1研究設(shè)計(jì)中的關(guān)鍵問(wèn)題錯(cuò)誤!未定義書(shū)簽3.2具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)錯(cuò)誤!未定義書(shū)簽3.2.1容器錯(cuò)誤!未定義書(shū)簽3.2.2倒排錯(cuò)誤!未定義書(shū)簽3.2.3內(nèi)積錯(cuò)誤!未定義書(shū)簽3.2.4算法錯(cuò)誤!未定義書(shū)簽3.3本章小結(jié)錯(cuò)誤!未定義書(shū)簽4關(guān)鍵問(wèn)題及分析(二)(BM25)錯(cuò)誤!未定義書(shū)簽4.1研究設(shè)計(jì)中的關(guān)鍵問(wèn)題錯(cuò)誤!未定義書(shū)簽4.2具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)錯(cuò)誤!未定義書(shū)簽。4.2.1容器

9、錯(cuò)誤!未定義書(shū)簽4.2.2算法錯(cuò)誤!未定義書(shū)簽4.3本章小結(jié)錯(cuò)誤!未定義書(shū)簽5系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)錯(cuò)誤!未定義書(shū)簽5.1設(shè)計(jì)實(shí)現(xiàn)的策略和關(guān)鍵技術(shù)描述錯(cuò)誤!未定義書(shū)簽5.2分模塊詳述系統(tǒng)各部分的實(shí)現(xiàn)方法錯(cuò)誤!未定義書(shū)簽5.2.1文檔載入模塊錯(cuò)誤!未定義書(shū)簽5.2.2去除停用詞模塊錯(cuò)誤!未定義書(shū)簽5.2.3特征選擇模塊錯(cuò)誤!未定義書(shū)簽5.2.4加權(quán)模塊錯(cuò)誤!未定義書(shū)簽5.2.5余弦計(jì)算模塊錯(cuò)誤!未定義書(shū)簽5.2.6BM25計(jì)算模塊錯(cuò)誤!未定義書(shū)簽5.2.7相似度顯示模塊錯(cuò)誤!未定義書(shū)簽5.2.8相似度導(dǎo)出模塊錯(cuò)誤!未定義書(shū)簽5.3程序流程錯(cuò)誤!未定義書(shū)簽5.4界面設(shè)計(jì)錯(cuò)誤!未定義書(shū)簽5.5測(cè)試環(huán)境與測(cè)試

10、條件錯(cuò)誤!未定義書(shū)簽5.6實(shí)例測(cè)試(表格)錯(cuò)誤!未定義書(shū)簽5.7性能分析錯(cuò)誤!未定義書(shū)簽6結(jié)論與展望錯(cuò)誤!未定義書(shū)簽參考文獻(xiàn)錯(cuò)誤!未定義書(shū)簽致謝錯(cuò)誤!未定義書(shū)簽1緒論隨著計(jì)算機(jī)的廣泛應(yīng)用和Intemet的普及,各類信息都在急速地膨脹。信息量的增長(zhǎng)給人們帶來(lái)了方便,同時(shí)也帶來(lái)了信息過(guò)量的問(wèn)題。面對(duì)海量信息,人們?cè)絹?lái)越希望能夠在數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策和企業(yè)管理,帶來(lái)經(jīng)濟(jì)效益或社會(huì)效益。在現(xiàn)實(shí)世界中,文本是最重要的信息載體。因此對(duì)文本文檔的處理和分析成為當(dāng)今數(shù)據(jù)挖掘和信息檢索技術(shù)的熱點(diǎn)之一。處理和研究文本文檔的技術(shù)有很多,其中重要的一個(gè)技術(shù)就是文本相似度,它在文本聚類、Web智能檢索

11、、問(wèn)答系統(tǒng)、網(wǎng)頁(yè)去重、自然語(yǔ)言處理等很多領(lǐng)域中有著重要的應(yīng)用,文本相似度是這些應(yīng)用的關(guān)鍵。本次目標(biāo)就是做出文本相似度的計(jì)算工具,用兩種算法來(lái)計(jì)算文本間的相似度。11開(kāi)發(fā)背景:文本相似度有著比較廣泛的應(yīng)用,典型的應(yīng)用有:(1)信息智能檢索:搜索引擎對(duì)用戶輸入關(guān)鍵字的反應(yīng)是列出所有與該關(guān)鍵字相匹配的網(wǎng)頁(yè)。這些網(wǎng)頁(yè)的數(shù)量之大,往往要以十萬(wàn)百萬(wàn)來(lái)計(jì)量,而且對(duì)于某一關(guān)鍵字檢索出來(lái)的網(wǎng)頁(yè)有可能對(duì)應(yīng)于不同的主題。這些各種主題的網(wǎng)頁(yè)有些沒(méi)有相關(guān)性,有些內(nèi)容很相似。這種各類主題雜亂在一起的搜索結(jié)果和冗余頁(yè)面給用戶找到自己感興趣的信息帶來(lái)極大的不便。如果利用文本相似度技術(shù),對(duì)搜索結(jié)果進(jìn)行進(jìn)一步的處理,在搜索結(jié)果中

12、將相似度很高的信息分為不同類別,或者去掉相似度很高的重復(fù)的信息,為用戶提供一個(gè)清晰的導(dǎo)航。這將大大的有利于用戶發(fā)現(xiàn)自己感興趣的信息,提高信息檢索的質(zhì)量。(2)自動(dòng)問(wèn)答系統(tǒng):在這種系統(tǒng)中,問(wèn)題是多種多樣,且非常巨大的,有些問(wèn)題是非常相似的,如果用人工來(lái)回答,將耗費(fèi)大量的時(shí)間和人力,如果在這種系統(tǒng)中應(yīng)用文本相似度技術(shù),將相似度很高的問(wèn)題歸為一類,使系統(tǒng)對(duì)這類問(wèn)題自動(dòng)做出答復(fù),將節(jié)省大量的時(shí)間。(3)文本查重:在某些領(lǐng)域,考慮到隱私性和獨(dú)創(chuàng)性,要求文本不能重復(fù)出現(xiàn),那么應(yīng)用文本相似度技術(shù),對(duì)這類文本進(jìn)行相似度的計(jì)算,就可以看出哪些文本多次出現(xiàn)。因此,研究文本相似度的算法具有重要的實(shí)際價(jià)值。12課題研

13、究意義文本相似度計(jì)算系統(tǒng)是自然語(yǔ)言處理的一部分,可以計(jì)算一個(gè)文本中不同詞條的相似度,可以計(jì)算倆個(gè)文本間的相似度也可以進(jìn)行批處理,對(duì)多個(gè)文本之間進(jìn)行兩兩計(jì)算,并輸出文本間相似度的最后結(jié)果。文本相似度除了簡(jiǎn)單的計(jì)算相似度外,還可以在其基礎(chǔ)上進(jìn)一步發(fā)展,成為其他的功能軟件。其中最主要的體現(xiàn)就是檢索工具與信息挖掘,例如:語(yǔ)義檢索、招聘信息檢索等。在這些軟件中,文本相似度計(jì)算系統(tǒng)起到了決定性的作用。文本相似度計(jì)算系統(tǒng)中的去除停用詞功能、文本特征選擇以及加權(quán)功能還可以單個(gè)的拿出,作為單獨(dú)的一個(gè)程序或者成為其他系統(tǒng)的一部分。13本課題要解決的問(wèn)題文本相似度計(jì)算系統(tǒng)包括去除停用詞、文本特征選擇、加權(quán)、余弦算法

14、、BM25算法。在去除停用詞中,主要的問(wèn)題就是選詞范圍和set容器的使用。由于給出的詞語(yǔ)前面是有詞性的,所以在選詞的時(shí)候要注意將詞性去掉。這樣才能得到準(zhǔn)確的結(jié)果。雖然去除停用詞這一功能十分的簡(jiǎn)單。但是由于它是第一個(gè)功能,所以一定要保持它的正確性。文本的特征選擇目的是選出那些重要但是又不是每行都有的詞,并且輸出該詞語(yǔ)的特征量。所以在特征選擇這一項(xiàng),我在程序中做了三個(gè)模塊,選出那些特征為一的特殊詞語(yǔ),并且刪除。由于BM25計(jì)算方法是在特征選擇之后進(jìn)行的,所以在這一部分還特別為BM25就算出了不為一的文本等。加權(quán)是在文本特征選擇之后,是為余弦做準(zhǔn)備。通過(guò)加權(quán)可以得到文本的空間向量模型,由于該結(jié)果為全

15、數(shù)字,所以要十分的主要加權(quán)的準(zhǔn)確性。余弦算法作為該程序的兩個(gè)算法之一,是該程序的靈魂所在,在余弦算法中除了VC基本知識(shí)、容器之外還用到了倒排索引和內(nèi)積。余弦算法也是該程序的難點(diǎn)之一。BM25算法是一種很陌生的算法,很多人都可能是第一次聽(tīng)過(guò),BM25算法具有準(zhǔn)確這一特點(diǎn),是一種十分專業(yè)的算法。BM25算法中只用到了循環(huán),目的是驗(yàn)證倒排索引、內(nèi)積等方法可以提高多少效率。2研究方法21根據(jù)研究的側(cè)重點(diǎn)闡述相關(guān)的研究方法目前較為常用的相似度計(jì)算方法有許多,例如本次程序要用到的余弦相似度就算方法和BM25相似度計(jì)算方法。除此之外內(nèi)積相似度計(jì)算方法,SMART相似度計(jì)算方法、PivotedNormalis

16、ation相似度計(jì)算方法、Log-linear相似度計(jì)算方法等。但是由于相似度的用途、方法等原因,很多方法都是不常見(jiàn)的。余弦算法作為大家熟知的計(jì)算方法而被廣泛的應(yīng)用。在本次程序中,主要的流程就是將語(yǔ)料去除停用詞,之后進(jìn)行文本的特征選擇,將特征項(xiàng)為一的和特征項(xiàng)與文本數(shù)相同的去掉。接下來(lái)進(jìn)行文本加權(quán),將語(yǔ)料變?yōu)橐粋€(gè)空間向量模型。最后通過(guò)內(nèi)積與倒排索引按照余弦公式最終計(jì)算出文本間的相似度大小。BM25算法是一種嚴(yán)謹(jǐn)?shù)挠?jì)算方法,在此次項(xiàng)目中,進(jìn)行特征選擇之后就可以開(kāi)始進(jìn)行計(jì)算了。BM25比余弦好的地方在于其不用經(jīng)過(guò)加權(quán)形成空間向量模型,但是它在公式中也有一部類似加權(quán)的計(jì)算步驟。22歷史以及研究現(xiàn)狀目前

17、,國(guó)內(nèi)外很多學(xué)者在研究文本相似度計(jì)算問(wèn)題,并提出了一些解決方案和技術(shù),在這些技術(shù)中,Salton等人(1975)提出的向量空間模型(VSM)是最常用的方法。Salton等人(1975)的觀點(diǎn)是,向量空間模型VSM的基本思想是把文檔簡(jiǎn)化為以特征項(xiàng)的權(quán)重為分量的向量表示,它假設(shè)詞與詞間不相關(guān),用向量來(lái)表示文本,從而簡(jiǎn)化了文本中的關(guān)鍵詞之間的復(fù)雜關(guān)系,文檔用十分簡(jiǎn)單的向量表示,使得模型具備了可計(jì)算性。這種機(jī)制通過(guò)為文檔中的索引項(xiàng)分配權(quán)重來(lái)實(shí)現(xiàn)。權(quán)重應(yīng)該能體現(xiàn)關(guān)鍵詞的重要程度,是對(duì)整個(gè)文檔的描述能力,和區(qū)別其他文檔的區(qū)分能力的量化。特征項(xiàng)的權(quán)重計(jì)算一般利用統(tǒng)計(jì)的方法獲得,通常使用詞頻來(lái)表示。基于向量的

18、文本相似度計(jì)算方法是最常用的文本相似度計(jì)算方法,該方法將要比較相似度的文本根據(jù)文本中的詞語(yǔ)將文本映射為n維空間向量,然后通過(guò)比較向量間的關(guān)系來(lái)確定文本間的相似度,其中最為常用的方法是計(jì)算向量間的余弦系數(shù)。Frakes等人(1992)的觀點(diǎn)是,向量空間模型的最大優(yōu)點(diǎn)在于它在知識(shí)表示方法上的巨大優(yōu)勢(shì),在該模型中,文本內(nèi)容被形式化為多維空間中的一個(gè)點(diǎn),通過(guò)向量的形式給出,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中向量的運(yùn)算。潘有能(2002),魯松(2000)等人的觀點(diǎn)是,向量的權(quán)重計(jì)算可以通過(guò)簡(jiǎn)單的頻數(shù)統(tǒng)計(jì)來(lái)完成,使問(wèn)題的復(fù)雜性大為降低。向量空間模型的缺點(diǎn)在于關(guān)鍵詞之間的線性無(wú)關(guān)的假說(shuō)前提。在自然語(yǔ)義中,

19、詞或短語(yǔ)間存在十分密切的聯(lián)系,很難滿足假定的條件,因此對(duì)計(jì)算結(jié)果的可靠性造成一定的影響。此外,將復(fù)雜的語(yǔ)義關(guān)系歸結(jié)為簡(jiǎn)單的向量結(jié)構(gòu),丟失了許多有價(jià)值的線索。因此,引進(jìn)改進(jìn)技術(shù)以獲取深層語(yǔ)義結(jié)構(gòu)是有必要的。同時(shí)權(quán)值計(jì)算是相似度計(jì)算里面關(guān)鍵的部分,如何定義最準(zhǔn)確的權(quán)值也是向量空間模型要考慮的一大問(wèn)題。此外其他學(xué)者在文本相似度計(jì)算方法上也提出了不同的見(jiàn)解,如哥倫比亞大學(xué)的CarbonellJ.等人(1998)提出的最大邊緣相關(guān)的方法MMR(MaximalMarginalRelevance)方法。Lambms等人(1994)提出同時(shí)依據(jù)句子的表層結(jié)構(gòu)和內(nèi)容計(jì)算相似度的方法。在計(jì)算相似度時(shí),系統(tǒng)使用了兩

20、級(jí)動(dòng)態(tài)規(guī)劃技術(shù),應(yīng)用動(dòng)態(tài)規(guī)劃算法允許在兩個(gè)長(zhǎng)度不同的句子之間計(jì)算語(yǔ)句相似度。Nirenburg等人(1993)提出了兩種串匹配的方法,即更規(guī)范的“切塊+匹配+重組”方法和整句級(jí)匹配的方法,這兩種方法所采用的相似度衡量機(jī)制都是詞組合法。該系統(tǒng)的相似度計(jì)算采用罰分制,兩個(gè)句子匹配所得到的總罰分值由句子中每個(gè)對(duì)應(yīng)單詞對(duì)的比較所得的罰分組合而成。其它方法還有根據(jù)Ricardo(2005)所提到的Belkin和Croft于1992年提出的概率型。Lee(2005)、Lipika(2006)、0ng(2006)和Blaz(2006)等人的觀點(diǎn)是,一個(gè)類別主要是以用機(jī)器學(xué)習(xí)的方法,比如聚類分析和模糊邏輯去構(gòu)

21、造文本的本體模型,然后用這些模型,根據(jù)Navigli(2005)、Sugumaran(2005)等人的觀點(diǎn),對(duì)文本進(jìn)行處理。但是,這些方法需要分析整個(gè)文檔語(yǔ)料庫(kù)去構(gòu)造一個(gè)好的本體模型,而且文本處理的好壞取決于構(gòu)造本體模型的良好程度。在語(yǔ)料分析中,一些項(xiàng)在文本中很少出現(xiàn),因?yàn)樗麄兊某霈F(xiàn)頻率很低,而往往被忽視。然而,根據(jù)信息理論,這些少見(jiàn)的項(xiàng)卻對(duì)文本處理來(lái)說(shuō)是有價(jià)值的。忽視他們?cè)跇?gòu)建本體模型的時(shí)候可能會(huì)影響文本處理的性能。這些基于本體的方法也沒(méi)有完全能和LSI抗衡。3關(guān)鍵問(wèn)題及分析(一)(余弦)研究設(shè)計(jì)中的關(guān)鍵問(wèn)題余弦:關(guān)鍵問(wèn)題是先要明確余弦的相關(guān)定義,理解公式每個(gè)地方代表了什么,之后理解相關(guān)定義

22、的內(nèi)容,最后結(jié)合C+中的容器知識(shí)解決問(wèn)題。去除停用詞預(yù)處理:在計(jì)算余弦算法之前,必須要有預(yù)處理的過(guò)程,其中包括去除停用詞和特征選擇。去除停用詞主要就是按照停用詞表中的詞語(yǔ)將語(yǔ)料中不常見(jiàn)的符號(hào),標(biāo)點(diǎn)級(jí)亂碼去掉。在去除停用詞中除了用到基本的輸入輸出流,還用到了set容器。set容器重要作用在本次去除停用詞過(guò)程中存儲(chǔ)“哈工大停用詞表”,在用循環(huán)輸入“三類語(yǔ)料”,如果在set容器中就去掉,不在就輸出。set容器是容器中最常用也是最基礎(chǔ)的知識(shí),下面具體介紹了set容器的基本操作。set容器:定義一個(gè)元素為整數(shù)的集合a,可以用seta;基本操作:對(duì)集合a中元素的有插入元素:a.insert(1);刪除元素

23、(如果存在):a.erase(1);判斷元素是否屬于集合:if(a.find(1)!=a.end()特征選擇:特征選擇的目的:特征選擇也屬于預(yù)處理中的一部分,其最終的目的是將文本中只在一行出現(xiàn)的詞語(yǔ)和在每行都出現(xiàn)的詞語(yǔ)去掉。特征選擇的實(shí)現(xiàn)方法:在特征選擇中用到了set、map、multimap三中容器。首先用set容器來(lái)存放去停用詞后的文本。在這里set起到的功能與去除停用詞中功能是一樣的。map是STL的一個(gè)關(guān)聯(lián)容器,它提供一對(duì)一(其中第一個(gè)可以稱為關(guān)鍵字,每個(gè)關(guān)鍵字只能在map中出現(xiàn)一次,第二個(gè)可能稱為該關(guān)鍵字的值)的數(shù)據(jù)處理能力,由于這個(gè)特性map內(nèi)部的實(shí)現(xiàn)自建一顆紅黑樹(shù)(一種非嚴(yán)格意義

24、上的平衡二叉樹(shù)),這顆樹(shù)具有對(duì)數(shù)據(jù)自動(dòng)排序的功能。由于map容器排序的特性,得到得特征排序的很亂的,所以用到了multimap。Multimap所起到的作用就是一個(gè)排序的作用,他使得最終結(jié)果按特征選擇的值來(lái)排序,為后面的去除做一個(gè)準(zhǔn)備。在進(jìn)行文本的特征選擇之后要像去除停用詞一樣去除特征為1的和特征數(shù)等于文本行數(shù)的特征。因?yàn)樘卣鳛?的表示特征過(guò)小,只在一行出現(xiàn),對(duì)文本的影響不大。而特征數(shù)過(guò)大的與文本行數(shù)相等的說(shuō)明每一行都出現(xiàn)了,不具有代表行。加權(quán):由于用余弦來(lái)計(jì)算相似度,所以引入了空間模型的概念。G.Salton提出的向量空間模型(VSM)有較好的計(jì)算性和可操作性,是近年來(lái)應(yīng)用較多且效果較好的一

25、種模型,向量空間模型最早成功應(yīng)用于信息檢索領(lǐng)域,后來(lái)又在文本分類領(lǐng)域得到了廣泛的運(yùn)用。向量空間模型的假設(shè)是,一份文檔所屬的類別僅與某些特定的詞或詞組在該文檔中出現(xiàn)的頻數(shù)有關(guān),而與這些單詞或詞組在該文檔中出現(xiàn)的位置或順序無(wú)關(guān)。也就是說(shuō),如果將構(gòu)成文本的各種詞義單位(如單詞i、詞組)統(tǒng)稱為“詞項(xiàng)”以及詞頻在文本中出現(xiàn)的頻數(shù)稱為“詞頻”,那么一份文檔中蘊(yùn)含的各個(gè)詞項(xiàng)的詞頻信息足以用來(lái)對(duì)其進(jìn)行正確的分類。在向量空間模型中的文本被形式化為n維空間中的向量:其中略利為第i個(gè)特征的權(quán)重。向量空間模型:向量空間模型重簡(jiǎn)單方面說(shuō)就是一個(gè)完全由向量所組成的文本,由于余弦算法是按照向量的夾角來(lái)計(jì)算的,所以必須通過(guò)加

26、權(quán)來(lái)計(jì)算出每個(gè)詞語(yǔ)的權(quán)重。加權(quán)公式:IDF(q)logN其中N為文本的總行數(shù),n為出現(xiàn)該詞語(yǔ)的總行in(q)i數(shù)。具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)容器本系統(tǒng)主要運(yùn)用的map容器和vector容器的相關(guān)知識(shí)。下面先介紹map容器相關(guān)的知識(shí):map容器:Map是STL的一個(gè)關(guān)聯(lián)容器,它提供一對(duì)一(其中第一個(gè)可以稱為關(guān)鍵字,每個(gè)關(guān)鍵字只能在map中出現(xiàn)一次,第二個(gè)可能稱為該關(guān)鍵字的值)的數(shù)據(jù)處理能力,由于這個(gè)特性,它完成有可能在我們處理一對(duì)一數(shù)據(jù)的時(shí)候,在編程上提供快速通道。這里說(shuō)下map內(nèi)部數(shù)據(jù)的組織,map內(nèi)部自建一顆紅黑樹(shù)(一種非嚴(yán)格意義上的平衡二叉樹(shù)),這顆樹(shù)具有對(duì)數(shù)據(jù)自動(dòng)排序的功能,所以在map內(nèi)

27、部所有的數(shù)據(jù)都是有序的,后邊我們會(huì)見(jiàn)識(shí)到有序的好處。下面舉例說(shuō)明什么是一對(duì)一的數(shù)據(jù)映射。比如一個(gè)班級(jí)中,每個(gè)學(xué)生的學(xué)號(hào)跟他的姓名就存在著一一映射的關(guān)系,這個(gè)模型用map可能輕易描述,很明顯學(xué)號(hào)用int描述,姓名用字符串描述。Vector容器的相關(guān)知識(shí)如下:vector是C+標(biāo)準(zhǔn)模板庫(kù)中的部分內(nèi)容,它是一個(gè)多功能的,能夠操作多種數(shù)據(jù)結(jié)構(gòu)和算法的模板類和函數(shù)庫(kù)。vector是一個(gè)容器,它能夠存放各種類型的對(duì)象,簡(jiǎn)單地說(shuō),vector是一個(gè)能夠存放任意類型的動(dòng)態(tài)數(shù)組,可以動(dòng)態(tài)改變大小。倒排索引倒排索引的概念:這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來(lái)確定屬性值

28、,而是由屬性值來(lái)確定記錄的位置,因而稱為倒排索引(invertedindex)。帶有倒排索引的文件我們稱為倒排索引文件,簡(jiǎn)稱倒排文件倒排的應(yīng)用:倒排的目的是為了使計(jì)算的方法簡(jiǎn)便,使程序的效率提高。倒排就是用mapint,mapdp這樣一個(gè)大的復(fù)合容器來(lái)將結(jié)果顯示為3列。for(mapint,map:iteratori=dp.begin();i!=dp.end();i+)for(map:iteratorj=i-second.begin();j!=i-second.end();j+)writefirstfirstsecondn;這樣就將文件成一個(gè)3列的輸出,為后面的內(nèi)積計(jì)算做了一個(gè)鋪墊。內(nèi)積內(nèi)積(

29、innerproduct),又稱數(shù)量積(scalarproduct)、點(diǎn)積(dotproduct)他是一種矢量運(yùn)算,但其結(jié)果為某一數(shù)值,并非向量。設(shè)矢量A二al,a2,.an,B二bl,b2.bn則矢量A和B的內(nèi)積表示為:AB=alXbl+a2Xb2+anXbnAB=|A|X|B|Xcos0|A|=(al2+a22+.+an2)(1/2);|B|=(b12+b22+.+bn2)(1/2).其中,|A|和|B|分別是向量A和B的模,是0向量A和向量B的夾角(0e0,n)。若B為單位向量,即|B|=1時(shí),AB=|A|Xcos0,表示向量A在B方向的投影長(zhǎng)度。向量A為單位向量時(shí)同理。算法初看余弦相似

30、度的公式,不明所以的人一定會(huì)對(duì)復(fù)雜的數(shù)學(xué)符號(hào)感到頭疼,其實(shí)大可不必,下面我摘錄了一個(gè)比較通俗易懂的余弦相似度的解釋:在向量空間模型中,文本泛指各種機(jī)器可讀的記錄。用D(Document)表示,特征項(xiàng)(Term,用t表示)是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語(yǔ)言單位,主要是由詞或者短語(yǔ)構(gòu)成,文本可以用特征項(xiàng)集表示為D(T1,T2,Tn),其中Tk是特征項(xiàng),1二k二N。例如一篇文檔中有a、b、c、d四個(gè)特征項(xiàng),那么這篇文檔就可以表示為D(a,b,c,d)。對(duì)含有n個(gè)特征項(xiàng)的文本而言,通常會(huì)給每個(gè)特征項(xiàng)賦予一定的權(quán)重表示其重要程度。即D=D(T1,W1;T2,W2;,Tn,Wn),簡(jiǎn)記為D=

31、D(W1,W2,Wn),我們把它叫做文本D的向量表示。其中Wk是Tk的權(quán)重,1二k=N。在上面那個(gè)例子中,假設(shè)a、b、c、d的權(quán)重分別為30,20,20,10,那么該文本的向量表示為D(30,20,20,10)。在向量空間模型中,兩個(gè)文本D1和D2之間的內(nèi)容相關(guān)度Sim(Dl,D2)常用向量之間夾角的余弦值表示,公式為:珀門(mén).花V丘1出1其中,Wlk、W2k分別表示文本D1和D2第K個(gè)特征項(xiàng)的權(quán)值,1=k=No在自動(dòng)歸類中,我們可以利用類似的方法來(lái)計(jì)算待歸類文檔和某類目的相關(guān)度。例如文本D1的特征項(xiàng)為a,b,c,d,權(quán)值分別為30,20,20,10,類目Cl的特征項(xiàng)為a,c,d,e,權(quán)值分別為

32、40,30,20,10,貝UD1的向量表示為D1(30,20,20,10,0),C1的向量表示為C1(40,0,30,20,10),則根據(jù)上式計(jì)算出來(lái)的文本D1與類目C1相關(guān)度是0.86那么0.86具體是怎么推導(dǎo)出來(lái)的呢?在數(shù)學(xué)當(dāng)中,n維向量是Vv1,v2,v3,.,vn他的模:|v|=sqrt(v1*v1+v2*v2+.+vn*vn)兩個(gè)向量的點(diǎn)擊m*n=n1*m1+n2*m2+nn*mn相似度=(m*n)/(|m|*|n|)物理意義就是兩個(gè)向量的空間夾角的余弦數(shù)值下面是代入公式的過(guò)程:d1*c1=30*40+20*0+20*30+10*20+0*10=2000|d1|=sqrt(30*30

33、+20*20+20*20+10*10+0*0)=sqrt(1800)|c1|=sqrt(40*40+0*0+30*30+20*20+10*10)=sqrt(3000)相似度=d1*c1/(|d1|*|c1|)=2000/sqrt(1800*3000)=0.860663.3本章小結(jié)本章主要介紹了余弦相似度的具體算法,余弦計(jì)算前去除停用詞、文本特征選擇、加權(quán)和如何利用C+中的容器來(lái)書(shū)寫(xiě)程序描述這個(gè)算法。對(duì)于一個(gè)給定的算法,我們主要的精力是研究如何用程序來(lái)實(shí)現(xiàn)這個(gè)算法,我個(gè)人覺(jué)得這個(gè)有些南轅北轍的味道,我們應(yīng)該從最深處理解算法的精髓,能寫(xiě)出算法的人是大師,而用程序?qū)崿F(xiàn)算法的人只是一個(gè)程序員,由于個(gè)人

34、的原因,本人的數(shù)學(xué)功底有些差,但是我會(huì)再以后的道路上努力彌補(bǔ)自己的不足,完善自我。4關(guān)鍵問(wèn)題及分析(三)(BM25)研究設(shè)計(jì)中的關(guān)鍵問(wèn)題本章節(jié)主要面對(duì)的問(wèn)題是1.BM25的數(shù)學(xué)公式是什么?2.BM25公式的主要的參數(shù)是什么意思?3.用程序?qū)崿F(xiàn)BM25的算法用到哪些相關(guān)的知識(shí)?具體實(shí)現(xiàn)中采用的關(guān)鍵技術(shù)4.2.1容器本章主要用到了map容器和vector容器。解釋map容器:Map是STL的一個(gè)關(guān)聯(lián)容器,它提供一對(duì)一(其中第一個(gè)可以稱為關(guān)鍵字,每個(gè)關(guān)鍵字只能在map中出現(xiàn)一次,第二個(gè)可能稱為該關(guān)鍵字的值)的數(shù)據(jù)處理能力,由于這個(gè)特性,它完成有可能在我們處理一對(duì)一數(shù)據(jù)的時(shí)候,在編程上提供快速通道。這

35、里說(shuō)下map內(nèi)部數(shù)據(jù)的組織,map內(nèi)部自建一顆紅黑樹(shù)(一種非嚴(yán)格意義上的平衡二叉樹(shù)),這顆樹(shù)具有對(duì)數(shù)據(jù)自動(dòng)排序的功能,在map內(nèi)部所有的數(shù)據(jù)都是有序的。Vector容器的相關(guān)知識(shí)如下:vector是C+標(biāo)準(zhǔn)模板庫(kù)中的部分內(nèi)容,它是一個(gè)多功能的,能夠操作多種數(shù)據(jù)結(jié)構(gòu)和算法的模板類和函數(shù)庫(kù)。vector是一個(gè)容器,它能夠存放各種類型的對(duì)象,簡(jiǎn)單地說(shuō),vector是一個(gè)能夠存放任意類型的動(dòng)態(tài)數(shù)組,可以動(dòng)態(tài)改變大小。算法BM25通常用于信息檢索的領(lǐng)域,它是一種用于排序跟搜索關(guān)鍵詞相關(guān)的文本的一種排序的函數(shù),最早在1970年,由S.E.Robertson等提出的,基于概率檢索的框架(probabilis

36、ticretrievalframework)發(fā)展。BM25是一個(gè)bag-of-words的檢索函數(shù),綜合了特征在文本中的詞頻、以及在語(yǔ)料中的文檔頻度、平衡了文檔的長(zhǎng)度等特征。這個(gè)函數(shù)有很多變種,其中應(yīng)用最普遍的計(jì)算方法,如公式(5.2所示:score(D,Q)=蘭i=iIDF(q)-if(q,D)-(k+1)if(q,D)+k-(1-b+b-iDL)i1avgdl5.2)其中Q是用來(lái)計(jì)算的檢索的query的向量Q=q,qn,n代表向量Q的關(guān)鍵詞的個(gè)數(shù);D是語(yǔ)料中的一個(gè)樣本向量D=W1,-Wm,M代表向量D特征個(gè)數(shù);f(qi,D)是檢索詞qi的在樣本D中的出現(xiàn)的次數(shù);1D|表示文檔D的長(zhǎng)度(指文

37、檔中詞語(yǔ)的個(gè)數(shù),包括重復(fù)的詞語(yǔ));avgdl是Q中的query檢索到的全部樣本的平均長(zhǎng)度。匕和b是自由參數(shù),通常情況下,ki取值為2.0,b取值為0.75。IDF(qi)5.3)是文檔頻度的倒數(shù),是檢索詞qi的權(quán)重,計(jì)算如公式(5.3)所示:IDF(q)=log“-叫+0.5in(q)+0.5i其中N是整個(gè)數(shù)據(jù)集上的文檔總數(shù),n(qi)是指包含檢索詞qi的文檔數(shù)。在實(shí)際計(jì)算中,耐值有可能是負(fù)數(shù),使得的BM25值也有可能是負(fù)數(shù),由于BM25公式中IDF(q.)偏重于未出現(xiàn)檢索詞qi和出現(xiàn)索引詞qi的樣本數(shù)的比重,對(duì)于DF值較高的索引詞,未出現(xiàn)索引詞qi的文檔個(gè)數(shù)有小于DF值,取log之后IDF(

38、qi)的值變?yōu)樨?fù)值。在本文的實(shí)驗(yàn)中去掉了BM25值為負(fù)數(shù)的樣本。4.3本章小結(jié)BM25算法計(jì)算相比余弦算法過(guò)程要簡(jiǎn)單的多,但是我只是運(yùn)用了一個(gè)循環(huán)的方法,目的是看用“倒排”的效率,結(jié)果“不看不知道,一看下一跳”。結(jié)果不是差了一點(diǎn)半點(diǎn)啊。使用“倒排”的效率大大提高。關(guān)于BM25算法的結(jié)果,個(gè)人表示沒(méi)有余弦好理解,因?yàn)樗慕Y(jié)果是無(wú)規(guī)律且大小相差很多,非專業(yè)人員(我)無(wú)法用BM25來(lái)看出相似度到底有多少,而余弦的結(jié)果是01之間的,可以一目了然的看到兩篇文本的相似度是多少。通過(guò)了BM25的實(shí)現(xiàn),使我的數(shù)學(xué)有了提高,而且更加深入的了解到了如何編算法,以前總感覺(jué)算法是很難實(shí)現(xiàn)的,但是現(xiàn)在感覺(jué)已將給了公式,

39、這樣邏輯就很明了了。相信下次我會(huì)編的更好。5系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)本章從系統(tǒng)的實(shí)現(xiàn)過(guò)程,各模塊的功能、各模塊間的關(guān)系、界面設(shè)計(jì)及測(cè)試等幾個(gè)方面闡釋了系統(tǒng)的具體實(shí)現(xiàn)。5.1設(shè)計(jì)實(shí)現(xiàn)的策略和關(guān)鍵技術(shù)描述在上邊的講解里提出了關(guān)于本程序的相關(guān)模塊,在這一節(jié)里將對(duì)每個(gè)模塊進(jìn)行詳細(xì)講解,并對(duì)其實(shí)現(xiàn)方法進(jìn)行描述。通過(guò)設(shè)計(jì)方案可以確定出本程序主要分為如下模塊:文檔載入模塊、去除停用詞模塊、加權(quán)模塊、特征選擇模塊、余弦算法模塊、BM25算法模塊、相似度顯示模塊,相似度導(dǎo)出模塊。分模塊詳述系統(tǒng)各部分的實(shí)現(xiàn)方法5.2.1文檔載入模塊獲取文件的信息可包括兩個(gè)方面,一個(gè)是獲取原文本文檔(三類語(yǔ)料.txt)中的翻譯信息,一個(gè)是獲

40、取停用詞表(哈工大停用詞表txt)中的信息。下面分別對(duì)獲取文本文檔中的原文信息和獲取停用詞表中的信息進(jìn)行詳細(xì)的介紹。1)獲取文本文檔(三類語(yǔ)料.txt)中的翻譯信息文本文件(txt)文件的格式相對(duì)比較簡(jiǎn)單,本程序用C+語(yǔ)言讀取文本文件的方法讀取原文的信息。用了C+語(yǔ)言中的getline方法讀取文件信息,之后用C+語(yǔ)言中的istringstream函數(shù)進(jìn)行分詞操作。原文格式如下:濟(jì)濟(jì)沢丘濟(jì)濟(jì)一經(jīng)經(jīng)弓經(jīng)經(jīng).定菜合產(chǎn)發(fā)賓決蔬綜生快怦院、的隔加陶彩食源制心報(bào)匡糧資及中本.,竹料為.:加大監(jiān)管力度確尿用藥歪全本報(bào)評(píng)論員最近:中西部地區(qū)外商投資優(yōu)勢(shì)產(chǎn)業(yè)目錄山西省1尿鮮和加工2.林木營(yíng)造及林木良種引進(jìn)3.3

41、.民族特需產(chǎn)品、工藝美術(shù)、包裝及容器材:圧紀(jì)云在黑龍江考察時(shí)強(qiáng)調(diào)堅(jiān)持以經(jīng)濟(jì)建設(shè):武警黑龍江省森林愿隊(duì)調(diào)集官兵投農(nóng)撲.火戰(zhàn)斗2)獲取文本文檔(哈工大停用詞表.txt)中的翻譯信息獲取停用的操作相對(duì)來(lái)說(shuō)簡(jiǎn)單了些,因?yàn)槊總€(gè)停用詞獨(dú)占一行,用C+語(yǔ)言的讀一行文件的操作即可,此處就不做詳述了。去除停用詞模塊去除停用詞的目的是去除停用詞表中的詞語(yǔ),因?yàn)橐粋€(gè)剛剛分好詞的文本會(huì)有許多不重要的詞或符號(hào)。去除停用詞的操作是一個(gè)非常常見(jiàn)的教科書(shū)程序,而且在我的印象中還做過(guò)相關(guān)課設(shè),去除停用詞的方法主要就是一個(gè)循環(huán),但是由于這次要去除的詞是在一個(gè)文本中,所以要用到一個(gè)set容器。特征選擇模塊特征選擇模塊的最終目的一共

42、有兩個(gè),一個(gè)是輸出每個(gè)詞的特征,即在文本中有多少行含有該詞。另一個(gè)目的就是去除特征為一的詞語(yǔ)和特征等于該文本的總行數(shù)的詞語(yǔ),因?yàn)槌绦虻淖罱K目的是比較相似度,特征為一的就表示該詞不是一個(gè)由代表性的詞語(yǔ),而特征數(shù)與總行數(shù)相等則說(shuō)明了有無(wú)該詞對(duì)相似度的結(jié)果是沒(méi)有影響的。所以我們對(duì)原文做了如下特征選擇的操作,去除每篇文章都出現(xiàn)的單詞或者有且僅有只在一篇文章中出現(xiàn)的單詞。5.2.4加權(quán)模塊對(duì)權(quán)值的解釋:權(quán)值就是指這個(gè)指標(biāo)在整個(gè)分析過(guò)程中所占的重要程度,比如你買(mǎi)輛車你對(duì)車的屬性有幾方面認(rèn)識(shí)假定只有3個(gè)方面質(zhì)量?jī)r(jià)格舒適程度你認(rèn)為這個(gè)質(zhì)量對(duì)你最重要你賦權(quán)值為0.5價(jià)格其次重要賦值0.3舒適程度適當(dāng)考慮并賦值0

43、.2OK我們可以以此為標(biāo)準(zhǔn)來(lái)評(píng)判你看中了車A給它三方面打分質(zhì)量90價(jià)格80舒適80車B質(zhì)量80價(jià)格90舒適80然后你把這些分?jǐn)?shù)乘以相應(yīng)的權(quán)值可以有A的得分90*0.5+80*0.3+80*0.2=85B的得分80*0.5+90*0.3+80*0.2=83故A車對(duì)你是較好的選擇權(quán)值就是這樣在問(wèn)題分析中起到重要作用一般的權(quán)值累加為1實(shí)際上這只是習(xí)慣不為1而為任意正數(shù)都沒(méi)有關(guān)系我們?cè)诖颂幱昧巳缦碌募訖?quán)公式:(寫(xiě)公式)下面是對(duì)公式的通俗解釋(摘錄自維基百科):有很多不同的數(shù)學(xué)公式可以用來(lái)計(jì)算TF-IDF。這邊的例子以上述的數(shù)學(xué)公式來(lái)計(jì)算。詞頻(TF)是一詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)。假如一篇文件

44、的總詞語(yǔ)數(shù)是100個(gè),而詞語(yǔ)“母?!背霈F(xiàn)了3次,那么“母?!币辉~在該文件中的詞頻就是0.03(3/100)。一個(gè)計(jì)算文件頻率(DF)的方法是測(cè)定有多少份文件出現(xiàn)過(guò)“母?!币辉~,然后除以文件集里包含的文件總數(shù)。所以,如果“母?!币辉~在1,000份文件出現(xiàn)過(guò),而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是4(ln(10,000,000/1,000)。最后的TF-IDF的分?jǐn)?shù)為0.12(0.03*4)。5.2.5余弦計(jì)算模塊此處利用了余弦公式求解了預(yù)先相似度的值,公式如下:和向量余弦的計(jì)算方法是文本相似度計(jì)算中最常見(jiàn)的一種方法,標(biāo)記為cosine。用向量空間模型表示文本Di和文本D2,兩

45、個(gè)向量的余弦計(jì)算,如公式6.1)所示:小r、d-dcos(D,D)=i212|d|dII125.1)工(weigh(d,t)-weightd,t)1i2ii=0weigh(d,t)2-eigh(d,t)21i2ji=0其中k表示樣本Di和樣本D2兩個(gè)向量的共現(xiàn)特征的個(gè)數(shù),n、m分別表示向量Di和D2的向量的維數(shù)。此處求的的余弦的相似度在01之間。5.2.6BM25計(jì)算模塊BM25是一個(gè)bag-of-words的檢索函數(shù),綜合了特征在文本中的詞頻、以及在語(yǔ)料中的文檔頻度、平衡了文檔的長(zhǎng)度等特征。這個(gè)函數(shù)有很多變種,其中應(yīng)用最普遍的計(jì)算方法,如公式(5.2)所示:score(D,Q)二蘭IDF(q

46、)-ii=1f(q,D)(k+1)i1f(q,D)+k(1-b+b1D)i1avgdl5.2)其中Q是用來(lái)計(jì)算的檢索的query的向量Q=q,,q,n代表向量Q的關(guān)鍵詞1n的個(gè)數(shù);D是語(yǔ)料中的一個(gè)樣本向量D=w.w,M代表向量D特征個(gè)數(shù);1,Mf(q,D)是檢索詞q的在樣本D中的出現(xiàn)的次數(shù);IDI表示文檔D的長(zhǎng)度(指文檔ii中詞語(yǔ)的個(gè)數(shù),包括重復(fù)的詞語(yǔ));avgdi是Q中的query檢索到的全部樣本的平均長(zhǎng)度。k和b是自由參數(shù),通常情況下,k取值為2.0,b取值為0.75。IDF(q)11i是文檔頻度的倒數(shù),是檢索詞q的權(quán)重。iIDF(q)=log叫+0.5in(q)+0.5i其中N是整個(gè)數(shù)據(jù)

47、集上的文檔總數(shù),叫是指包含檢索詞qi的文檔數(shù)。本模塊利用BM25算法對(duì)輸入的文章進(jìn)行比對(duì),并將生成的相似度結(jié)果顯示在ClistCtrl控件上。5.2.7相似度顯示模塊本模塊的主要作用是將兩篇文檔的余弦(BM25)的相似度結(jié)果顯示在ClistCtrl控件中,使用戶能方便快速的看到兩篇文章的余弦(BM25)相似度對(duì)比的結(jié)果。5.2.8相似度導(dǎo)出模塊本模塊主要做的是,將兩篇文章的余弦相似度的結(jié)果保存在文本文檔中。保存格式如下圖所示:1:111:20-02193341:30-14845二和第二篇文章的相似度之比以第二行為例:,1:20廿193己表示第一篇文章0.0219334OS1:50-136715

48、5.3程序流程(50-219212本系統(tǒng)的主要流程如下圖所示:69842581:80-1051圖1.1系統(tǒng)總的流程圖界面設(shè)計(jì)本程序的主要功能是文本相似度的計(jì)算,為了方便用戶操作,本系統(tǒng)將所有用戶需要的功能都放在了程序的顯著位置即界面的上方,并以按鈕的形式和用戶交換。下圖為用戶的主界面部分:圖1.2主界面圖當(dāng)用戶按下“打開(kāi)語(yǔ)料”按鈕時(shí)系統(tǒng)將彈出Windows文件管理工具菜單如圖所示:打開(kāi)三類語(yǔ)料操作圖中選擇打開(kāi)的是文本文檔(*.txt)。選擇三類語(yǔ)料這個(gè)文本文件,之后點(diǎn)擊打開(kāi)”按鈕。打開(kāi)停用詞的操作上步操作打開(kāi)了“三類語(yǔ)料”,之后點(diǎn)擊“打開(kāi)停用詞”按鈕,系統(tǒng)同樣會(huì)彈出Windows文件管理工具菜

49、單,如圖所示:選擇停用詞的操作選擇“哈工大停用詞表.txt”,點(diǎn)擊“打開(kāi)”按鈕。界面如下圖所示:待輸入算法前的界面之后就可以選擇計(jì)算文本相似度的算法了,如果選擇想選擇余弦算法的話,點(diǎn)擊“余弦”按鈕。之后系統(tǒng)會(huì)在后臺(tái)計(jì)算余弦的相似度,并在下半部分的表格中顯示出來(lái)。顯示結(jié)果如下圖所示:EM251去停用詞1特征為一余弦序號(hào)對(duì)比行1冠比毎I卷弦駆5相似度A0111.0000001120.021933LSII2130.1484903140.0131334150.136T155160.2192126170.0698437180.10510081y0.22419191100.05723310210.02193311221.00000012230.063175V特征枷一去特征選擇加權(quán)顯示余弦相似度的界面第一列的序號(hào)代表比較的次序,第二列表示的對(duì)比行一所在的行數(shù),第三列表示的對(duì)比行二所在的行數(shù),第四列表示二、三列所表示的文件的余弦相似度。同樣,如果想選擇BM25算法的話,可以點(diǎn)擊“BM2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論