【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)的論文檢索系統(tǒng)

上傳人：O*** IP屬地：四川上傳時(shí)間：2017-04-17 格式：DOC 頁數(shù)：32 大?。?35.50KB 積分：20 舉報(bào) 版權(quán)申訴

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第2頁

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第3頁

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第4頁

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第5頁

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本科生畢業(yè)論文題目 :基于臺(tái) 的論文檢索系統(tǒng) 名：學(xué) 號(hào)：院系：信息科學(xué)技術(shù)學(xué)院專業(yè)：計(jì)算機(jī)科學(xué)與技術(shù)系指導(dǎo)教師：副教授二一七年四月十七日摘要：本文基于天網(wǎng)實(shí)驗(yàn)室的索引擎平臺(tái)，500 多篇論文為數(shù)據(jù)，搭建成一個(gè)論文搜索系統(tǒng)，最終目的是通過論文之間的引用關(guān)系，獲得其他引用這篇論文的作者對(duì)這篇論文的評(píng)價(jià)，形成一個(gè)小的評(píng)價(jià)段落，以及而使得我們能夠從專業(yè)級(jí)的角度獲得這篇論文的內(nèi)容以及優(yōu)劣。我們首先面抓取了文章之間的引用關(guān)系，然后通過一個(gè)算法獲得對(duì)一篇文章評(píng)價(jià)的候選句子集，根據(jù)這些句子的重要程度進(jìn)行排序，獲得一個(gè)評(píng)價(jià)短文。并且構(gòu)建了一個(gè)語言模型，通過這些候選句子集對(duì)原文的句子進(jìn)行評(píng)分，取得分最高的幾個(gè)句子，獲得原文基于影響的概括。關(guān)鍵詞搜索引擎 , 論文評(píng)價(jià) , 語言模型 , 法 , 基于影響的概括 3 n on 500 in of we a of is to of on We on a we a we in 4 目錄第 1章引言 . 5 . 5 . 2 . 2 . 2 . 3 臺(tái)搭建搜索平臺(tái) . 3 . 3 第 2章數(shù)據(jù)的收集 . 5 . 5 . 6 . 7 第 3章生成評(píng)論集 . 10 . 10 . 11 第 4章建立模型并生成基于影響的概括 . 13 我們所有的數(shù) 據(jù) . 13 . 13 . 14 . 15 第 5章搭建搜索引擎 . 16 . 16 . 17 . 18 . 19 . 19 . 20 . 21 第 6章實(shí)驗(yàn)結(jié)果與分析 . 22 . 22 . 22 第 7章后續(xù)工作 . 26 第 8章致謝 . 27 參考文獻(xiàn) . 28 5 第 1 章引言究背景如今，全世界范圍內(nèi)學(xué)術(shù)活動(dòng)日益積極，所產(chǎn)生的論文也在不斷增多，因此，如何搜索到自己所需要的論文，以及自動(dòng)獲取一些關(guān)于論文的信息，是客觀需要的。學(xué)術(shù)檢索，絕不簡(jiǎn)簡(jiǎn)單單的檢索出所要查找的論文，這樣就和普通的通用搜索引擎如術(shù)檢索，應(yīng)該更側(cè)重于深層次的內(nèi)容挖掘。例如，可以通過一篇論文所引用的文章以及所屬領(lǐng)域，尋找出這個(gè)文章所在領(lǐng)域的主要論文，這對(duì)了解一篇論文的背景知識(shí)以及理解一個(gè)領(lǐng)域的發(fā)展非常重要。在 et 2007, 005 中提到了文獻(xiàn)檢索現(xiàn)在主要的發(fā)展方向，有以下幾點(diǎn)：是從語言模型的角度，讓人們更加準(zhǔn)確的找到所需要的論文。及一些較權(quán)威的作者，幫助讀者了解相關(guān)知識(shí)。 3.從度，挖掘出一些知識(shí)，最常見的，就是通過一篇論文的被引用次數(shù)確定它的排名以及影響力。我們知道，國外的生在第一年的學(xué)習(xí) 之后都是要通過試的，考試的形式一般是先讀幾十篇論文，然后根據(jù)這些論文的內(nèi)容進(jìn)行答辯。這時(shí)候，他們往往很想知道別人是如何評(píng)價(jià)這篇論文的，這篇論文有什么優(yōu)點(diǎn)和缺點(diǎn)，有什么后續(xù)的研究等等。這就像我們準(zhǔn)備去一個(gè)地方旅游，不僅需要該景點(diǎn)本身的介紹（有點(diǎn)類似于摘要），往往更想知道去過這個(gè)地方的人都是如何評(píng)價(jià)這些地方的。通過對(duì)這篇論文的評(píng)價(jià)，我們可以從更專業(yè)并且更加廣闊的角度獲得這篇論文的一些信息，并且可以知道在這篇論文工作之后可以做哪些事情。基于上面的觀點(diǎn)，我們就準(zhǔn) 備做出這樣一個(gè)知識(shí)提取系統(tǒng)，通過這個(gè)系統(tǒng)，可以自動(dòng)獲得別人對(duì)這篇論文的評(píng)價(jià) 999 ，以及論文中的一些較有影響力的信息，從而幫助人們更好的理解這篇論文。整體流程如圖表 1所示。在 008中，作者利用法建立了一個(gè)模型，生成了一篇論文基于影響的概括，但是它并沒有強(qiáng)調(diào)評(píng)論的重要性（這里的評(píng)論，是指別的作者對(duì)它引用的一篇文章的評(píng)論），它只講評(píng)論當(dāng)成一個(gè)中間狀態(tài)，當(dāng)成一個(gè)求得基于影響的概括的手段。實(shí)際上，這些評(píng)論和最終經(jīng)過法形成的概括是同等重要的，有時(shí)候，它甚至比后者更加清晰易懂。本文相對(duì)于 008的優(yōu)點(diǎn)是，賦予評(píng)論以及概括同等重要的意義，并且形成了一個(gè)實(shí)際的系統(tǒng)供人使用，而不僅僅是用于研究。 2 作內(nèi)容取所需要的論文數(shù)據(jù) 要進(jìn)行論文搜索，首先需要一批實(shí)驗(yàn)數(shù)據(jù)，我是從抓取下來的。之所以選擇從這上面抓取，是因?yàn)槲覀儾粌H需要論文的需要從中自動(dòng)提取摘要、引用等信息，而這本身就應(yīng)該是一個(gè)挺復(fù)雜的算法了，而且不是我們工作的目的，而上述網(wǎng)站已經(jīng)人工的將論文的摘要、引用信息提取了出來，并且對(duì)于每一個(gè)引用還有相應(yīng)的鏈接，因此會(huì)節(jié)省我們抓取數(shù)據(jù)所要花費(fèi)的工作量。最終我們將抓取的數(shù)據(jù)存儲(chǔ)在得一篇論文的評(píng)價(jià)并較好的顯示出來我們這個(gè)系統(tǒng)的主要工作是通過別的論文對(duì)原論文的評(píng) 論，來獲得一些不能直接從原論文中獲得的信息，因此，最基礎(chǔ)的，就是如何獲得這些評(píng) 論。關(guān)于這一點(diǎn)，我們通過上面的數(shù)據(jù)收集工作，會(huì)獲得一個(gè)論文之間的引用圖，然后通過引用的倒置，能夠獲得引用一篇論文的所有文章，然后，通過一個(gè)算法，可以從這些文章中提取出對(duì)原文進(jìn)行評(píng)價(jià)的句子。最終，為了便于使用者觀看，還需要對(duì)這些句子進(jìn)行一些整理，進(jìn)行排序、整理成一個(gè)段落出來。論文 1 正文引用 1 引用 2 論文 2 正文引用 1 引用 2 源論文句子 1 句子 2 句子 3 句子 4 . 引用評(píng)論引用評(píng)論評(píng)論基于影響的概括圖表 1 論文檢索和挖掘系統(tǒng)框架 3 得一篇論文基于影響的總結(jié)段落在獲得對(duì)原文進(jìn)行評(píng) 論的句子之后，將原文劃分成一個(gè)一個(gè)的句子，我們利用了法（參看 et 2009的），對(duì)這些句子進(jìn)行打分，這里分?jǐn)?shù)的高低，代表了原文中每一個(gè)句子影響程度的高低，顯然，影響越大的句子，在別的文章中提及的越多，其分?jǐn)?shù)就越高。最后，我們?nèi)∫欢〝?shù)量得分最高的句子，組成一個(gè)段落，這個(gè)段落是對(duì)原文的一個(gè)概括，而且會(huì)獲摘要所不能獲得的一些信息。于臺(tái)搭建搜索平臺(tái) 我們基于索引擎平臺(tái)搭建成了一個(gè)關(guān)于全文搜索系統(tǒng)。預(yù)處理，建立索引，檢索，前臺(tái)四部分組成。由于我們的數(shù)據(jù)是論文，并且已經(jīng)轉(zhuǎn)化為了處理這一部就略去了，需要繼承一個(gè)建立索引的類，并且修改一些前臺(tái)的接口就可以了，這樣就搭建成了一個(gè)論文搜索系統(tǒng)。這一過程也體現(xiàn)出了中包括預(yù)處理、索引、檢索、語言模型、排序、壓縮等等所有的模塊都可以自己選擇或者自己重新定義來完成。驗(yàn)的意義我們?cè)谧x一篇論文之前，一般能簡(jiǎn)單的看到它的摘要、作者等信息。而在讀完一篇論文之后，我們能獲得什么信息呢？主要有以下幾種： 1) 這篇文章做了什么事情，這可以從摘要中獲得。 2) 這篇文章中涉及到的核心算法，這個(gè)只有在細(xì)致的讀完了這篇文章之后才能理解，應(yīng)該是沒法依靠輔助來獲得的。 3) 這篇文章哪些部分比較重要，哪些部分比較好，哪些部分需要改正，我們可以從哪些方向進(jìn)行擴(kuò)展。對(duì)于第三點(diǎn)，如果完全自己理解，可能會(huì)比較困難，而且對(duì)讀者自己的要求也比較高，可能要讀了很多這方面的背景知識(shí)、后續(xù)論文等等才可能獲得，而通過我們做的這個(gè)系統(tǒng)，就可以幫助大家更簡(jiǎn)單的獲得一些從文章中不能直接獲得的信息。一般來說，作者如果想從自己的角度歸納本文的大體內(nèi)容，通過閱讀摘要，我們可以看到作者寫這篇文章大體做了什么。但是文章中很有可能有一些作者沒有發(fā)現(xiàn)，或者作者當(dāng)前沒有重視但是以后被別人發(fā)掘出來很重要的意義。通過將那些對(duì)文章進(jìn)行引用的句子，與本文建模，對(duì)原文中的句子進(jìn)行排序，從而獲得文章中一些有特殊意義，影響較大的句子，這樣，我們可以獲得文章中最重要的 4 信息，而這些重要信息和摘要的區(qū)別就是，它們不是作者提出來的，而是別的作者在讀了這篇文章以及其他的文章，經(jīng)過很多思考之后，總結(jié)出來的這篇文章最重要的地方。此外，別的文章中對(duì)原文進(jìn)行評(píng)論的句子 et 2004，本身就是很重要的信息，可以讓我們知道原文都做了哪些后續(xù)工作，或者哪些部分比較好，哪些部分需要改正。簡(jiǎn)單來說，我們這個(gè)系統(tǒng)的意義，就是通過數(shù)據(jù)挖掘的方法，獲得一些直接從原論文很難發(fā)現(xiàn)的信息，并且結(jié)合統(tǒng)，以搜索引擎的方式呈現(xiàn)出來，便于大家檢索查找。 5 第 2 章數(shù)據(jù)的收集我們這個(gè)系統(tǒng)的目的是為了方便讀者理解論文，因此除了需要基本的論文的需要提取發(fā)表期刊、作者、摘要、被引用次數(shù)，引用文章這些信息。其中，發(fā)表期刊、作者以及被引用次數(shù)是用來在后面獲得及行排序的時(shí)候加權(quán)用的，顯而易見，較好的期刊，較有名的作者，引用次數(shù)較高的文章，它做出的評(píng)價(jià)應(yīng)該要重要一些（當(dāng)然，這里只是預(yù)留著為以后的擴(kuò)展用，而我們的系統(tǒng)實(shí)際上并沒有用到作者的知名度信息）。當(dāng)然，其中最重要的是提取引用的信息。我們的目標(biāo)是通過獲得每篇文章所引用過的文章，建立一個(gè)映射表，然后將映射表倒置過來，從而獲得每篇文章被哪些文章引用過。何提取數(shù) 據(jù) 首先，是如何提取文章的摘要等各種信息了。本來我是準(zhǔn)備直接從文章中提取的，隨著工作的深入，發(fā)現(xiàn)這樣做有很多的缺點(diǎn)，首先，從本身就可以當(dāng)做一個(gè)畢業(yè)設(shè)計(jì)來做了，會(huì)消耗大量的時(shí)間，但卻不一定能夠達(dá)到工作的目的；其次，最重要的是，在每一篇文章里，者，文章名，發(fā)表期刊，年份）的形式表現(xiàn)出來的，例如： G. H. J. J. M. . A PI 15:93 100, 2003. 而我們存儲(chǔ)每篇文章的時(shí)候，是以期刊作為文件夾，以文章標(biāo)題作文文件名來存儲(chǔ)的，例如這篇論文，以下面的形式存儲(chǔ)的。因此，我們需要從上面的那句話中提取會(huì)議名以及文章名，才能獲得文章之間的引用關(guān)系，建立一個(gè) 。這之中即使是相差一個(gè)空格都不行，會(huì)直接導(dǎo)致整個(gè)系統(tǒng)的失敗。于是，我們想出了一個(gè)簡(jiǎn)單的辦法?？梢钥吹?，在，每 6 一篇論文的格式都是規(guī)整的，從上面可以很容易的提取出摘要、文章名、期刊等信息，可以下載到的文件；更重要的是，對(duì)于論文的引用信息，在該網(wǎng)頁上給出了一個(gè)超鏈接，點(diǎn)擊之后就可以進(jìn)入引用的文章的信息。因此，可以利用遞歸的方法，進(jìn)入引用的文章，從中提取出會(huì)議名以及文章名，這樣，每篇文章的引用就可以形成上面的格式，并且是完全正確的，方便我們建立引用映射表。接著，要設(shè)定遞歸的種子以及遞歸的層數(shù)。因?yàn)槲覀兊膶?shí)驗(yàn)所需要的數(shù)據(jù)最好是在一個(gè)領(lǐng)域里面的相同方向的論文，并且需要引用關(guān)系較緊密的，以便于后續(xù)的工作，因此，這里采用于每一篇文章遞歸三層。如果遞歸四層，就會(huì)太多了。假設(shè)一篇文章有十個(gè)引用，那么遞歸四層，就會(huì)導(dǎo)致每從議中抓取一篇文章，就需要抓取 1000 篇相應(yīng)的其他文章，這個(gè)數(shù)量實(shí)在是太大了；如果遞歸兩層，就會(huì)導(dǎo)致每篇文章只能抓取其引用的文章，這樣引用的層次較淺，很有可能導(dǎo)致最后引用倒置時(shí)，每一篇文章只被一兩篇文章引用，這樣不利于我們的實(shí)驗(yàn) 。最后，我們需要將是利用具來實(shí)現(xiàn)的。這個(gè)工具不支持對(duì)文件夾的遞歸操作，因此，我用了一個(gè)腳本，通過遞歸操作，可以將一個(gè) 面的所有按照原來的相對(duì)路徑存在面。據(jù)抓取的過程確定好抓取數(shù)據(jù)的大體方法，下面開始正式抓取數(shù)據(jù)。所用的工具比較簡(jiǎn)單，就是利用的具，下載網(wǎng)頁并進(jìn)行分析。另外我們這里利用了第三方庫種正則表達(dá)式非常適合從網(wǎng)頁中進(jìn)行模式匹配并且提取出數(shù)據(jù)。有了前面的兩項(xiàng)工具，我們只需要分析好網(wǎng)頁的模式，盡量正確的提取數(shù)據(jù)既可以了。需要注意的是，由于網(wǎng)頁并不是完全規(guī)整的，因此，有時(shí)候，對(duì)于同一個(gè)數(shù)據(jù)，往往要寫多種匹配的公式才可以，這其中，最麻煩的當(dāng)屬提取引用部分了（我們不僅要提取引用，還要提取這個(gè)引用對(duì)應(yīng)得而遞歸進(jìn)入提取它的論文名）。以提取作者信息為例： u 我們需要從上面的公式中提取出作者名，需要以下幾步： (1) 利用式寫一個(gè)正則表達(dá)式匹配上面的文本 7 s*(s* , 其中引號(hào)中的內(nèi)容為匹配的正則表達(dá)式，注意其中的一對(duì)小括號(hào)，其中的內(nèi)容就是我們需要提取的信息 (2) 利用數(shù)，將結(jié)果存入面這樣，文章中所有匹配上面正則表達(dá)式的字符串，其中的作者信息（即上面括號(hào)中的內(nèi)容），都會(huì)存在還需要注意的一點(diǎn)就是，由于網(wǎng)頁的不規(guī)整性，所以要排除一些錯(cuò)誤的情況。還有一些文章，確實(shí)沒有摘要、引用或者其他信息（這些文章多出現(xiàn)在引用鏈的頂層，主要是一些書籍等參考資料，所以也比較正常），遇到這些情況我們就不抓取下來了。據(jù)的存儲(chǔ)及解析在將數(shù)據(jù)從網(wǎng)頁下載下來之后，需要存儲(chǔ)起來。首先，對(duì)于能存在文件系統(tǒng)里，按正常的方式存儲(chǔ) 。對(duì)于其他的信息，這里選擇存儲(chǔ)在B（簡(jiǎn)記為里面。的優(yōu) 點(diǎn)是可移動(dòng)性，不用像且讀取數(shù)據(jù)時(shí)較快。對(duì)于每一篇文章的基本信息照表格 1中的形式存入表格 1 一個(gè)整數(shù) 符流 ,存儲(chǔ)元數(shù)據(jù)信息，按如下格式： *8 *得這些基本信息之后，我們還要根據(jù)這些元信息，陸續(xù) 建立一些，用于存儲(chǔ)其他信息，如表格 2：表格 2 文件名論文篇論文的全部文本內(nèi) 容論文于存儲(chǔ) 一篇論文所引用的所有文章論文于存儲(chǔ) 一篇論文被哪些文章所引用論文儲(chǔ)最終要顯示在頁面上的文章的評(píng) 價(jià) 論文儲(chǔ)最終要顯示在頁面上的基于影響的文章的概括其中通過將式轉(zhuǎn)化為后獲得的。從上面的元數(shù)據(jù)中，我們可以獲得每篇論文所引用的論文的名稱，這樣，我們可以通過這些名稱，來獲得這個(gè)論文所引用的所有論文的且存儲(chǔ)到數(shù)據(jù)庫中。獲得其進(jìn)行倒置，就可以獲得這里之所以選擇因?yàn)樗幸韵逻@些優(yōu)點(diǎn)：嵌入式（它直接鏈接到應(yīng)用程序中，與應(yīng)用程序運(yùn)行于同樣的地址空間中，因此，無論是在網(wǎng)絡(luò)上不同計(jì)算機(jī)之間還是在同一臺(tái)計(jì)算機(jī)的不同進(jìn)程之間，數(shù)據(jù)庫操作并不要求進(jìn)程間通訊。中包括 C、 C+、有的數(shù)據(jù)庫操作都在程序庫內(nèi)部發(fā)生。對(duì)于我們這個(gè)系統(tǒng)，后臺(tái)程序是由 C+完成，而前臺(tái)程序是由成，他們都會(huì)共同訪問一些文件，通過存儲(chǔ)在解決了不同語言之間兼容的問題。輕便靈活（它可以運(yùn)行于幾乎所有的作系統(tǒng)以及多種嵌入式實(shí)時(shí)操作系統(tǒng)之下。它并不 9 需要搭建一個(gè)數(shù)據(jù)庫服務(wù)器，以用戶、服務(wù)器形式訪問數(shù)據(jù)庫，而是以函數(shù)調(diào)用的形式。一旦端用戶一般根本感覺不到有一個(gè)數(shù)據(jù)庫系統(tǒng)存在。這樣提高了我們的系統(tǒng)的實(shí)用性，當(dāng)用戶需要自己搭建一個(gè)我們的論文系統(tǒng)時(shí)，不用再去搭建數(shù)據(jù)庫服務(wù)器，進(jìn)行各種繁瑣的配置。 10 第 3 章生成評(píng)論集上面的工作完成之后，我們獲得了所有的基本信息，其中，最重要的，獲得了，該表的一篇論文 A 的引用 A 的所有論文下面我們就要結(jié)合前面獲得的數(shù)據(jù)，包括論文的文本、元數(shù)據(jù)，來獲得一篇論文的評(píng)論集。得評(píng)價(jià)的候選句子集通過，我們可以獲得一個(gè)集合 2,.，其中 A 進(jìn)行了引用。我們相信，如果進(jìn)行了引用，那么進(jìn)行了評(píng)價(jià)。一般有以下幾種情況： 1) 的論文名 2) 的作者名 3) 在果么通常在文章中會(huì)利用 k來對(duì) 4) 對(duì)于 (3)的情況，有時(shí)候并不只是對(duì) 能文章中的一句話代表的是好幾篇文章的工作概括，因此會(huì)出現(xiàn)“ i,k,j”這種類型的符號(hào)來對(duì) 且出現(xiàn)的概率很高。 5) 如果進(jìn)行了評(píng)論，那么通常它的前一句話和后一句話也會(huì)出現(xiàn)評(píng)價(jià)的信息通過上面的 5 點(diǎn)，我們就可以獲得了對(duì) A 進(jìn)行評(píng)價(jià)的句子，從而獲得了一個(gè)候選句子集，里面的每一句話都不同程度的對(duì) 。 11 圖表 2 如圖表 2 所示流程，具體實(shí)現(xiàn)的時(shí)候，先要將句子進(jìn)行劃分為一個(gè)句子序列 .，然后遍歷這個(gè)句子序列，對(duì)于每一個(gè)句子，按照上面的前四條規(guī)則進(jìn)行評(píng)判，如果滿足其中任意一條，則這個(gè)句子是候選句子集合中的一個(gè)，并將其前后兩個(gè)句子也合到一起，添加的候選句子集合中。最終，得到對(duì) e1,e2,.，這里面可能會(huì)有一些評(píng)價(jià)來自同一篇論文。得評(píng)論段落獲得了候選句子集之后，我們需要對(duì)其進(jìn)行適當(dāng)?shù)呐判?，從中選出較好的幾個(gè)句子，最終顯示在頁面上。由于不同的人，對(duì)這篇論文的評(píng)價(jià)可能也不太一樣，因此，就不能簡(jiǎn)單的按照這些評(píng)價(jià)句子與原文的相似度來進(jìn)行打分排序了，因?yàn)檫@樣會(huì)造成和原文觀點(diǎn)相近的評(píng)分較高，不是我們希望獲得的結(jié)果。實(shí)際上，有時(shí)候越是和原文的觀點(diǎn)不同，反而可能越重要，它可能是對(duì)這篇文章的批判，也有可能是原文的作者在寫有發(fā)現(xiàn)的一些問題，這對(duì)我們尋找后續(xù)工作時(shí)可能會(huì)非常重要。我們?cè)谔崛?shù)據(jù)的同時(shí)，會(huì)獲得每一篇文章的表這篇文章被引用的次數(shù)，一般，一個(gè)較好的文章，被引用的次數(shù)也應(yīng)當(dāng)比較多，因此，對(duì)于每一個(gè)評(píng)價(jià)，根據(jù)它所在文章的被引用次數(shù)進(jìn)行排序，可以獲得較為專業(yè)， 12 也較為合理的結(jié)果。同時(shí)，需要注意的是，如果一個(gè)篇論文的被引用次數(shù)很高，而且它又有兩段評(píng)論原文的句子時(shí)，那么這兩段會(huì)一起出現(xiàn)在最終的結(jié)果里，在這里我們就需要對(duì)結(jié)果進(jìn)行調(diào)整，保證在權(quán)重相同的情況下，盡可能選擇盡量不同的文章的評(píng)論。 13 第 4 章建立模型并生成基于影響的概括通過獲得了對(duì)源論文的評(píng)論集合，下面就可以與源論文建立模型來獲得基于影響的概括。所謂基于影響的概括，簡(jiǎn)單來說，就是某句話與評(píng)論之間的關(guān)系越緊密，那么這句話的影響力就越大。最終將影響力最大的幾個(gè)句子合在一起，就形成了基于影響的概括。模之前我們所有的數(shù) 據(jù) 在建模之前，我們先來看看我們已經(jīng)獲得了哪些數(shù)據(jù)： (1)所有論文集合 D，以及成一個(gè)單詞表 V，并且可以統(tǒng)計(jì)出每個(gè)單詞 (w,D) (2)對(duì)于一篇論文 d，將其劃分為多個(gè)句子 (3)已經(jīng)獲得了這篇論文進(jìn)行評(píng)論的所有句子 , 把他們的集合成為 C（下面，我們就可以參照對(duì) 里的打分，主要是基于詞頻以及相似度來做的。模算法首先，為任何一個(gè)句子打分的公式 s)如下：從信息理論的觀點(diǎn)，其中 ( | )即為以被解釋為通過句子示基于影響的段落，需要從文章中刪除的信息量。顯然，其值越小，也越能代表文章以及其他文章對(duì)它的評(píng)價(jià)的意思（因?yàn)樗灰獎(jiǎng)h除較少的信息）可以看出，公式中最重要的是求出 )|( 和 )|( 。 c o r e)|(l o g)|()|(l o g)|()|()( 14 對(duì)于公式（ 1），其中， ),( 示一個(gè)單詞 w 在句子 )|( s為平滑參數(shù)。我們假設(shè)s為 |s|的 (1)式可以看成是可見，示與這個(gè)句子的關(guān)系則較少。s等于 |s|時(shí)，表示二者一樣，各占 1/2。我在這里將。對(duì)于公式 (2)，其中 ),( 示一個(gè)單詞 w 在當(dāng)前要求的這篇論文中出現(xiàn)的次數(shù)，而 )|( 示單詞中出現(xiàn)的概率。C為平滑參數(shù)。我們?nèi)匀患僭O(shè)s|的 (2)式可以看成可見，示這個(gè)單詞的關(guān)系越大，而時(shí)，則與論文本身關(guān)系較大?？梢钥闯?，極端的情況，當(dāng) 時(shí)，則我們獲得的那些評(píng)價(jià)都沒有關(guān)系了，因此獲得的句子實(shí)際上對(duì)其他論文也沒有什么影響了。因此，對(duì)于本實(shí)驗(yàn)，應(yīng)當(dāng)將法的實(shí)現(xiàn) 具體實(shí)現(xiàn)算法時(shí)，會(huì)出現(xiàn)一些問題：我們假設(shè)一篇論文可以劃分成 1000 個(gè)句子，每個(gè)句子有 20 個(gè)不同單詞，我們總共有 2000篇論文，那就有 4億個(gè)單詞。那么，對(duì)于每一個(gè)句子 s，我們?cè)谶M(jìn)行上面的算法時(shí)，需要進(jìn)行如下一步這就需要對(duì)這 4 億個(gè)單詞進(jìn)行遍歷一遍，并且分別計(jì)算括號(hào)中的那一步。而每篇論文有 1000個(gè)句子，就相當(dāng)于要計(jì)算 4000 億次，這個(gè)計(jì)算量對(duì)我們來說太龐大了，因此，我在這里選取了一個(gè)簡(jiǎn)便一點(diǎn)的方法，就是在上面的一步時(shí)，并不是對(duì)整個(gè)單詞空間進(jìn)行計(jì)算，而只是對(duì)論文中出現(xiàn)的所有單詞進(jìn)行遍歷計(jì)算打分。可以看出，對(duì)于一個(gè)既不在 d 中又不在 C 中的單詞， )|( = 此，上面的公式只是理論的公式，具體應(yīng)用時(shí)，只需要對(duì) 中出現(xiàn)的單詞進(jìn)行計(jì)算即可，這就節(jié)省了大量的計(jì)算量。整個(gè)流程如圖表 3，需 )|(1 )|( )|(1 )|( )|(l o g)|()|(l o g)|( sI )1(| )|(),()|(s )2(| )|(),()|(d 15 要用到圖表 2 中的前三步算法獲得的評(píng)論列表。這里之所以不用圖表 2 的最終結(jié)果，是因?yàn)槲覀冃枰嗟男畔?，信息越多，獲得的概括越具有影響力。圖表得基于影響的概括通過上面的模型，可以對(duì) 后根據(jù)所得分?jǐn)?shù)進(jìn)行從大到小排序。這里因?yàn)槊科撐闹挥?1000 左右的句子，數(shù)量級(jí)并不是很大，就自己寫了一個(gè)簡(jiǎn)單的冒泡排序算法來排序。之后，選擇其中得分最高的合在一起，就獲得了原文基于影響的概括了。從整個(gè)建模的過程中也可以看出，所謂基于影響，就是通過那些對(duì) A 進(jìn)行評(píng)價(jià)的句子集 C，分別獲得這些句子的相似程度，與其相似程度最高的，證明這個(gè)句子被其他作者提及的最多，影響最大。而這個(gè)概括與摘要的區(qū)別就是，影響較大的句子，可能原來的作者并沒有想到，因此在摘要中并沒有提及（正所謂無心插柳柳成蔭）；而摘要中提及的部分，影響可能反而沒有那么大。圖表 3 16 第 5 章搭建搜索引擎本章內(nèi)容主要介紹如何利用索引擎平臺(tái)來搭建我們的論文檢索系統(tǒng)。通過這段內(nèi)容，我們可以了解到用的基本過程，最終我們會(huì)發(fā)現(xiàn)，如果想搭建其他方向的搜索引擎，使用構(gòu)簡(jiǎn) 介統(tǒng)，全稱是是網(wǎng)絡(luò)實(shí)驗(yàn)室搜索引擎組耗時(shí)一年多在一個(gè)國家 863項(xiàng)目支持下開發(fā)的，其目的是建立一個(gè)搜索引擎平臺(tái)，將搜索引擎的各個(gè)部分模塊化，使得這個(gè)搜索引擎不只針對(duì)專一的某一個(gè)領(lǐng)域，而是可以針對(duì)各個(gè)領(lǐng)域。其功能有點(diǎn)類似于其不同的是編寫的。以下幾大的模塊，見表格 3。表格 3 1）于對(duì)網(wǎng)頁進(jìn)行去噪、消重以及編碼轉(zhuǎn)換等處理，如果是針對(duì) 這一步驟就可以省略了。（ 2）索引模塊，用于將需要檢索的部分建立倒排索引。具體（ 3）可以利用于每一個(gè)詞，去倒排索引里面查找包含它的文檔頁中為從而完成檢索。（ 4）前臺(tái)模塊，完成一個(gè)類似于天網(wǎng)搜索引擎的前臺(tái)界面。除了顯示結(jié)果之外，還進(jìn)行摘要處理。這個(gè)地方需要注意的就是與分有一定的結(jié)合，會(huì)在后面提到。除了以上 4個(gè)大的模塊之外

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)的論文檢索系統(tǒng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔