【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺(tái)的論文檢索系統(tǒng)_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本科生畢業(yè)論文 題目 :基于 臺(tái) 的 論文檢索系統(tǒng) 名: 學(xué) 號(hào): 院 系: 信息科學(xué)技術(shù)學(xué)院 專 業(yè): 計(jì)算機(jī)科學(xué)與技術(shù)系 指導(dǎo)教師: 副教授 二一七年四月十七日 摘要: 本文基于天網(wǎng)實(shí)驗(yàn)室的 索引擎平臺(tái),500 多篇論文為數(shù)據(jù),搭建成一個(gè)論文搜索系統(tǒng),最終目的是通過論文之間的引用關(guān)系,獲得其他引用這篇論文的作者對(duì)這篇論文的評(píng)價(jià),形 成一個(gè)小的評(píng)價(jià)段落,以及 而使得我們能夠從專業(yè)級(jí)的角度獲得這篇論文的內(nèi)容以及優(yōu)劣。 我們首先 面抓取了文章之間的引 用關(guān)系,然后通過一個(gè)算法獲得對(duì)一篇文章評(píng)價(jià)的候選句子集,根據(jù)這些句子的重要程度進(jìn)行排序,獲得一個(gè)評(píng)價(jià)短文。并且構(gòu)建了一個(gè)語言模型,通過這些候選句子集對(duì)原文的句子進(jìn)行評(píng)分,取得分最高的幾個(gè)句子,獲得原文基于影響的概括。 關(guān)鍵詞 搜索引擎 , 論文評(píng)價(jià) , 語言模型 , 法 , 基于影響的概括 3 n on 500 in of we a of is to of on We on a we a we in 4 目錄 第 1章 引言 . 5 . 5 . 2 . 2 . 2 . 3 臺(tái)搭建搜索平臺(tái) . 3 . 3 第 2章 數(shù)據(jù)的收集 . 5 . 5 . 6 . 7 第 3章 生成評(píng)論集 . 10 . 10 . 11 第 4章 建立模型并生成基于影響的概括 . 13 我們所有的數(shù) 據(jù) . 13 . 13 . 14 . 15 第 5章 搭建搜索引擎 . 16 . 16 . 17 . 18 . 19 . 19 . 20 . 21 第 6章 實(shí)驗(yàn)結(jié)果與分析 . 22 . 22 . 22 第 7章 后續(xù)工作 . 26 第 8章 致謝 . 27 參考文獻(xiàn) . 28 5 第 1 章 引言 究 背景 如今,全世界范圍內(nèi)學(xué)術(shù)活動(dòng)日益積極,所產(chǎn)生的論文也在不斷增多,因此,如何搜索到自己所需要的論文,以及自動(dòng)獲取一些關(guān)于論文的信息,是客觀需要的。 學(xué)術(shù)檢索,絕不簡(jiǎn)簡(jiǎn)單單的檢索出所要查找的論文,這樣就和普通的通用搜索引擎如 術(shù)檢索, 應(yīng)該 更側(cè)重于深層次的內(nèi)容挖掘 。 例如,可以通過一篇論文所引用的文章以及所屬領(lǐng)域 ,尋找出這個(gè)文章所在領(lǐng)域的主要論文,這對(duì)了解一篇論文的背景知識(shí)以及理解一個(gè)領(lǐng)域的發(fā)展非常重要。 在 et 2007, 005 中提到了文獻(xiàn)檢索現(xiàn)在主要 的發(fā)展方向, 有以下幾點(diǎn): 是從語言模型的角度,讓人們更加準(zhǔn)確的找到所需要的論文。 及一些較權(quán)威的作者,幫助讀者了解相關(guān)知識(shí)。 3.從 度,挖掘出一些知識(shí),最常見的,就是通過一篇論文的被引用次數(shù)確定它的排名以及影響力。 我們知道,國外的 生在第一年 的學(xué)習(xí) 之后都是要通過 試的,考試的形式一般是 先讀幾十篇論文,然后根據(jù)這些論文的內(nèi)容進(jìn)行答辯。這時(shí)候,他們 往往很想知道別人是如何評(píng)價(jià)這篇論文的,這篇論 文有什么優(yōu)點(diǎn)和缺點(diǎn),有什么后續(xù)的研究等等。這就像我們準(zhǔn)備去一個(gè)地方旅游,不僅需要該景點(diǎn)本身的介紹(有點(diǎn)類似于摘要),往往更想知道去過這個(gè)地方的人都是如何評(píng)價(jià)這些地方的。通過對(duì)這篇論文的評(píng)價(jià),我們可以從更專業(yè)并且更加廣闊的角度獲得這篇論文的一些信息,并且可以知道 在 這篇論文 工作 之后可以做哪些事情。 基于上面的觀點(diǎn),我們就準(zhǔn) 備做出這樣一個(gè)知識(shí)提取系統(tǒng),通過這個(gè)系統(tǒng),可以自動(dòng)獲得別人對(duì)這篇論文的評(píng)價(jià) 999 , 以及論文中的一些較有影響力的信息,從而幫助人們更好的理解這篇論文。 整 體 流程如 圖表 1所示 。 在 008中,作者利用 法建立了一個(gè)模型,生成了一篇論文基于影響的概括,但是它并沒有強(qiáng)調(diào)評(píng)論的重要性( 這里 的評(píng)論,是指別的作者對(duì)它引用的一篇文章的評(píng)論),它只講評(píng)論當(dāng)成一個(gè)中間狀態(tài),當(dāng)成一個(gè)求得基于影響的概括的手段。實(shí)際上,這些評(píng)論和最終經(jīng)過 法形成的概括是同等重要的,有時(shí)候,它甚至比后者更加清晰易懂。本文相對(duì)于 008的優(yōu)點(diǎn)是,賦予 評(píng)論以及概括同等重要 的意義 ,并且形成了一個(gè)實(shí)際的系統(tǒng)供人使用,而不僅僅是用于研究。 2 作 內(nèi)容 取所需要的論文數(shù)據(jù) 要進(jìn)行論文搜索,首先需要一批實(shí)驗(yàn)數(shù)據(jù),我是從 抓取下來的。之所以選擇從這上面抓取,是因?yàn)槲覀儾粌H需要論文的 需要從中自動(dòng)提取摘要、引用等信息,而這本身就應(yīng)該是一個(gè)挺復(fù)雜的算法了,而且不是我們工作的目的,而上述網(wǎng)站已經(jīng)人工的將論文的摘要、引用信息提取了出來,并且對(duì)于每一個(gè)引用還有相應(yīng)的鏈接,因此會(huì)節(jié)省我們抓取數(shù)據(jù)所要 花費(fèi)的工作量。最終 我們 將抓取的數(shù)據(jù)存儲(chǔ)在 得一篇論文的評(píng)價(jià)并較好的顯示出來 我們這個(gè)系統(tǒng)的主要工作是通過別的論文對(duì)原論文的評(píng) 論 ,來獲得一些不 能直接從原論文中獲得的信息,因此,最基礎(chǔ)的,就是如何獲得這些評(píng) 論 。關(guān)于這一點(diǎn),我們通過上面的數(shù)據(jù)收集工作,會(huì)獲得一個(gè)論文之間的引用圖,然后通過引用的倒置,能夠獲得引用一篇論文的所有文章,然后,通過一個(gè)算法,可以從這些文章中提取出對(duì)原文進(jìn)行評(píng)價(jià)的句子。最終,為了便于使用者觀看,還需要對(duì)這些句子進(jìn)行一些整理,進(jìn)行排序、整理成一個(gè)段落出來 。 論文 1 正文 引用 1 引用 2 論文 2 正文 引用 1 引用 2 源論文 句子 1 句子 2 句子 3 句子 4 . 引用 評(píng)論 引用 評(píng)論 評(píng)論 基于影響的概括 圖表 1 論文檢索和挖掘系統(tǒng)框架 3 得一篇論文基于影響的總結(jié)段落 在獲得對(duì)原文進(jìn)行評(píng) 論 的句子之后,將原文劃分成一個(gè)一個(gè)的句子,我們利用了 法 (參看 et 2009的 ) ,對(duì)這些句子進(jìn)行打分,這里分?jǐn)?shù)的高低,代表了原文中每一個(gè)句子影響程度的高低,顯然,影響越大的句子,在別的文章中提及的越多,其分?jǐn)?shù)就越高。最后,我們?nèi)∫欢〝?shù)量得分最高的句子,組成一個(gè)段落,這個(gè)段落是對(duì)原文的一個(gè)概括,而且會(huì)獲摘要所不能獲得的一些信息 。 于 臺(tái)搭建搜索平臺(tái) 我們基于 索引擎平臺(tái)搭建成了一個(gè)關(guān)于 全文搜索系統(tǒng)。 預(yù)處理, 建立 索引,檢索,前臺(tái)四部分組成。由于我們的數(shù)據(jù)是論文,并且已經(jīng)轉(zhuǎn)化為了 處理這一部就 略去 了,需要繼承一個(gè)建立索引的類,并且修改一些前臺(tái)的接口就可以了,這樣就搭建成了一個(gè)論文搜索系統(tǒng)。這一過程也體現(xiàn)出了 中包括預(yù)處理、索引、檢索、語言模型、排序、壓縮等等所有的模塊都可以自己選擇或者自己重新定義來完成。 驗(yàn)的意義 我們?cè)谧x一篇論文之前,一般能簡(jiǎn)單的看到它的摘要、作者等信息。而在讀完一篇論文之后,我們能獲得什么信息呢?主要有以下幾種: 1) 這篇文章做了什么事情,這可以從摘要中獲得。 2) 這 篇文章中涉及到 的 核心算法,這個(gè)只有在細(xì)致的讀完了這篇文章之后才能理解,應(yīng)該是沒法依靠輔助來獲得的。 3) 這篇文章哪些部分比較重要,哪些部分比較好,哪些部分需要改正,我們可以從哪些方向進(jìn)行擴(kuò)展 。 對(duì)于第三點(diǎn),如果完全自己理解 ,可能會(huì)比較困難,而且對(duì)讀者自己的要求也比較高,可能要讀了很多 這方面的背景知識(shí)、后續(xù)論文等等才可能獲得,而通過我們做的這個(gè)系統(tǒng),就可以幫助大家更簡(jiǎn)單的獲得一些從文章中不能直接獲得的 信息 。 一般來說,作者 如果 想 從自己的角度歸納 本文的大體內(nèi)容,通過 閱讀 摘要,我們可以看到作者寫這篇文章大體做了什么。 但是文章中很有可能有一些作者沒有發(fā)現(xiàn),或者作者當(dāng)前沒有重視但是以后被別人發(fā)掘出來很重要的意義。通過將那些對(duì)文章進(jìn)行引用的句子,與本文建模,對(duì)原文中的句子進(jìn)行排序,從而獲得文章中一些有特殊意義,影響較大的句子,這樣,我們可以獲得文章中最重要的 4 信息,而這些重要信息和摘要的區(qū)別就是,它們不是作者提出來的,而是別的作者在讀了這篇文章以及其他的文章,經(jīng)過很多思考之后,總結(jié)出來的這篇文章最重要的地方 。 此外,別的文章中對(duì)原文進(jìn)行評(píng)論的句子 et 2004,本身就是很重要的信息,可以讓我們知道原文都做了 哪 些后續(xù)工作,或者 哪 些部分比較好,哪些部分需要改正 。 簡(jiǎn)單來說 ,我們這個(gè)系統(tǒng)的意義,就是通過數(shù)據(jù)挖掘的方法,獲得一些直接從原論文很難發(fā)現(xiàn)的信息,并且結(jié)合 統(tǒng),以搜索引擎的方式呈現(xiàn)出來,便于大家檢索查找 。 5 第 2 章 數(shù)據(jù)的收集 我們這個(gè)系統(tǒng)的目的是為了方便讀者理解論文,因此除了需要基本的論文的需要提取發(fā)表期 刊、作者、摘要、被 引 用次數(shù),引用文章這些信息。其中,發(fā)表期刊、作者以及被引用次數(shù)是用來在后面獲得 及行排序的時(shí)候加權(quán)用的,顯而易見,較好的期刊,較有名的作者,引用次數(shù)較高的文章,它做出的評(píng)價(jià)應(yīng)該要重要一些(當(dāng)然,這里只是預(yù)留著為以后的擴(kuò)展用,而我們的系統(tǒng)實(shí)際上并沒有用到作者的知名度信息)。當(dāng)然,其中最重要的是提取引用的信息。我們的目標(biāo)是通過獲得每篇文章所引用過的文章,建立 一個(gè)映射表,然后將映射表倒置過來,從而獲得每篇文章被哪些文章 引用 過 。 何提 取數(shù) 據(jù) 首先,是如何提取文章的摘要等各種信息了。本來我是準(zhǔn)備直接從文章中提取的,隨著工作的深入,發(fā)現(xiàn)這樣做有很多的缺點(diǎn),首先,從 本身就可以當(dāng)做一個(gè)畢業(yè)設(shè)計(jì)來做了,會(huì)消耗大量的時(shí)間,但卻不一定能夠達(dá)到工作的目的;其次,最重要的是,在每一篇文章里, 者,文章名,發(fā)表期刊,年份)的形式表現(xiàn)出來的,例如 : G. H. J. J. M. . A PI 15:93 100, 2003. 而 我 們存儲(chǔ)每篇文章的時(shí)候, 是以期刊作為文件夾,以文章 標(biāo)題 作文文件名來存儲(chǔ)的,例如這篇論文,以下面的形式存儲(chǔ)的 。 因此,我們需要從上面的那句話中提取會(huì)議名以及文章名,才能獲得文章之間的引用關(guān)系,建立一個(gè) 。 這之中 即使 是相差一個(gè)空格都不行,會(huì)直接導(dǎo)致整個(gè)系統(tǒng)的失敗 。 于是,我們想出了一個(gè)簡(jiǎn)單的辦法??梢钥吹?,在 ,每 6 一篇論文的格式都是規(guī)整的,從上面可以很容易的提取出摘要、文章名、期刊等信息,可以下載到 的文件;更重要的是,對(duì)于論文的引用信息,在該網(wǎng)頁上 給 出了一個(gè)超鏈接,點(diǎn)擊之后就可以進(jìn)入引用的文章 的信息。因此,可以利用遞歸的方法,進(jìn)入引用的文章,從中提取出會(huì)議名以及文章名,這樣,每篇文章的引用就可以形成上面的格式,并且是完全正確的,方便我們建立引用映射表 。 接著,要設(shè)定遞歸的種子以及遞歸的層數(shù)。因?yàn)槲覀兊膶?shí)驗(yàn)所需要的數(shù)據(jù)最好是在一個(gè)領(lǐng)域里面的 相同 方向的論文,并且需要引用關(guān)系較緊密的,以便于后續(xù)的工作,因此,這里采用 于每一篇文章遞歸三層。如果遞歸四層,就會(huì)太多了。假設(shè)一篇文章 有 十個(gè)引用,那么遞歸四層,就會(huì)導(dǎo)致 每 從 議中抓取一篇文章,就需要抓取 1000 篇相應(yīng)的其他文 章,這個(gè)數(shù)量實(shí)在是太大了;如果遞歸兩層,就會(huì)導(dǎo)致每篇文章只能抓取其引用的文章,這樣引用的層次較淺,很有可能導(dǎo)致最后引用倒置時(shí),每一篇文章只被一兩篇文章引用,這樣不利于我們的實(shí)驗(yàn) 。 最后,我們需要將 是利用 具來實(shí)現(xiàn)的 。 這個(gè)工具不支持對(duì)文件夾的遞歸操作,因此,我用 了一個(gè)腳本,通過遞歸操作,可以將一個(gè) 面的所有 按照原來的相對(duì)路徑存在 面 。 據(jù)抓取的過 程 確定 好 抓取數(shù)據(jù)的大 體方法,下面開始正式抓取數(shù)據(jù)。所用的工具比較簡(jiǎn)單,就是利用 的 具, 下載 網(wǎng)頁 并 進(jìn)行分析。另外我們這里利用了第三方庫 種正則表達(dá)式非常適合從網(wǎng)頁中進(jìn)行模式匹配并且提取出數(shù)據(jù)。有了前面的兩項(xiàng)工具,我們只需要分析好網(wǎng)頁的模式,盡量正確的提取數(shù)據(jù)既可以了 。 需要注意的是,由于網(wǎng)頁并不是完全規(guī)整的,因此,有時(shí)候,對(duì)于同一個(gè)數(shù)據(jù),往往要寫多種匹配的公式才可以,這其中,最麻煩的當(dāng)屬提取引用部分了(我們不僅要提取引用,還要提取這個(gè)引用對(duì)應(yīng)得 而遞歸進(jìn)入提取它的論文名) 。 以 提取作者信息為例 : u 我們需要從上面 的 公式中提取出作者名,需要以下幾步: (1) 利用 式寫一個(gè)正則表達(dá)式匹配上面的文本 7 s*(s* , 其中引號(hào)中的內(nèi)容為匹配的正則表達(dá)式,注意其中的一對(duì)小括號(hào),其中的內(nèi)容就是我們需要提取的信息 (2) 利用 數(shù),將結(jié)果存入 面 這樣,文章中所有匹配上面正則表達(dá)式的字符串,其中的作者信息(即上面括號(hào)中的內(nèi)容),都會(huì)存在 還需要注意的一點(diǎn)就是,由于網(wǎng)頁 的不規(guī)整性 ,所以要排除一些錯(cuò)誤的情況。還有一些文章,確實(shí)沒有摘要、引用或者其他信息(這些文章多出現(xiàn)在引用鏈的頂層,主要是一些書籍等參考資料,所以也比較正常),遇到這些情況我們就不抓取下來了 。 據(jù)的存儲(chǔ)及解 析 在將數(shù)據(jù)從網(wǎng)頁下載下來之后,需要存儲(chǔ)起來。首先,對(duì)于 能存在文件系統(tǒng)里,按正常的方式存儲(chǔ) 。對(duì)于其他的信息,這里選擇存儲(chǔ)在B(簡(jiǎn)記為 里面。 的 優(yōu) 點(diǎn)是可移動(dòng)性,不用 像 且讀取數(shù)據(jù)時(shí)較快。對(duì)于每一篇文章的基本信息 照 表格 1中的 形式存入 表格 1 一個(gè)整數(shù) 符流 ,存儲(chǔ)元數(shù)據(jù)信息,按如 下格式: *8 *得這些基本信息之后,我們還要 根據(jù)這些元信息,陸續(xù) 建立一些 ,用于存儲(chǔ)其他信息, 如 表格 2: 表格 2 文件名 論文 篇論文的全部文本內(nèi) 容 論文 于存儲(chǔ) 一 篇 論文 所引用的所有文 章 論文 于存儲(chǔ) 一 篇論文被哪些文章所引 用 論 文 儲(chǔ)最終要顯示在頁面上的文章的評(píng) 價(jià) 論文 儲(chǔ)最終要顯示在頁面上的基于影響的文章的概括 其中 通過將 式轉(zhuǎn)化為 后獲得的。 從上面的元數(shù)據(jù)中,我們可以獲得每 篇 論文所引用的論文的名稱,這樣,我們可以通過這些名稱,來獲得這個(gè)論文所引用的所有論文的 且存儲(chǔ)到數(shù)據(jù)庫中 。獲得 其進(jìn)行倒置,就可以獲得 這 里之所以選擇 因?yàn)樗幸韵逻@些優(yōu)點(diǎn): 嵌入式( 它直接鏈接到應(yīng)用程序中,與應(yīng)用程序運(yùn)行于同樣的地址空間中,因此,無論是在網(wǎng)絡(luò)上不同計(jì)算機(jī)之間還是在同一臺(tái)計(jì)算機(jī)的不同進(jìn)程之間,數(shù)據(jù)庫操作并不要求進(jìn)程間通訊。 中包括 C、 C+、 有的數(shù)據(jù)庫操作都在程序庫內(nèi)部發(fā)生。 對(duì)于我們這個(gè)系統(tǒng),后臺(tái)程序是由 C+完成,而前臺(tái)程序是由 成,他們都會(huì)共同訪問一些文件,通過存儲(chǔ)在 解決了不同語言之間兼容的問題。 輕便靈活( 它可以運(yùn)行于幾乎所有的 作系統(tǒng)以及多種嵌入式實(shí)時(shí)操作系統(tǒng)之下。 它并不 9 需要搭建一個(gè)數(shù)據(jù)庫服務(wù)器,以用戶、服務(wù)器形式訪問數(shù)據(jù)庫,而是以函數(shù)調(diào)用的形式。 一旦 端用戶一般根本感覺不到有一個(gè)數(shù)據(jù)庫系統(tǒng)存在。 這樣提高了我們的系統(tǒng)的實(shí)用性,當(dāng)用戶需要自己搭建一個(gè)我們的論文系統(tǒng)時(shí),不用再去搭建數(shù)據(jù)庫服務(wù)器,進(jìn)行各種繁瑣的配置。 10 第 3 章 生成 評(píng)論集 上面的 工作完成 之后,我們獲得了所 有 的 基本信息,其中,最重要的,獲得了 ,該表的 一篇論文 A 的 引用 A 的所有論文 下面我們就要結(jié)合前面獲得的數(shù)據(jù),包括論文的文本、元數(shù)據(jù),來獲得一篇論文的評(píng)論集 。 得評(píng)價(jià)的候選句子 集 通過 ,我們可以獲得一個(gè)集合 2,.,其中 A 進(jìn)行了引用。我們相信,如果 進(jìn)行了引用,那么 進(jìn)行了評(píng)價(jià)。一般有以下幾種情況 : 1) 的論文 名 2) 的作者 名 3) 在 果 么通常在文章中會(huì)利用 k來對(duì) 4) 對(duì)于 (3)的情況,有時(shí)候并不只是對(duì) 能文章中的一句話代表的是好幾篇文章的工作概括,因此會(huì)出現(xiàn)“ i,k,j”這種類型的符號(hào)來對(duì) 且出現(xiàn)的概率很高 。 5) 如果 進(jìn)行了評(píng)論,那么通常它的前一句話和后一句話也會(huì)出現(xiàn)評(píng)價(jià)的信 息 通過上面的 5 點(diǎn),我們就可以獲得了 對(duì) A 進(jìn)行評(píng)價(jià)的句子,從而獲得了一個(gè)候選句子集,里面的每一句話都不同程度的對(duì) 。 11 圖表 2 如 圖表 2 所示流程, 具體實(shí)現(xiàn)的時(shí)候,先要將 句子進(jìn)行劃分為一個(gè)句子序列 .,然后遍歷這個(gè)句子序列,對(duì)于每一個(gè)句子,按照上面的前 四 條規(guī)則進(jìn)行評(píng)判,如果滿足其中任意一條,則這個(gè)句子是候選句子集合中的一個(gè),并將其前后兩個(gè)句子也合到一起,添加的候選句子集合中 。 最終,得到對(duì) e1,e2,.,這里面可能會(huì)有一些評(píng)價(jià)來自同一篇論文 。 得評(píng)論段落 獲得了候選句子集之后,我們需要 對(duì)其進(jìn)行適當(dāng)?shù)呐判?,從中選出較好的幾個(gè)句子,最終顯示在頁面上。由于不同的人,對(duì)這篇論文的評(píng)價(jià)可能也不太一樣,因此,就不能簡(jiǎn)單的按照這些評(píng)價(jià)句子與原文的相似度來進(jìn)行打分排序了,因?yàn)檫@樣會(huì)造成和原文觀點(diǎn)相近的評(píng)分較高,不是我們希望獲得的結(jié)果。實(shí)際上,有時(shí)候越是和原文的觀點(diǎn)不同,反而可能越重要,它可能是對(duì)這篇文章的批判,也有可能是原文的作者在寫 有發(fā)現(xiàn)的一些問題,這對(duì)我們尋找后續(xù)工作時(shí)可能會(huì)非常重 要 。 我們?cè)谔崛?shù)據(jù)的同時(shí),會(huì)獲得每一篇文章的 表這篇文章被引用的次數(shù),一般 ,一個(gè)較好的文章,被引用的次數(shù)也應(yīng)當(dāng)比較多,因此,對(duì)于每一個(gè)評(píng)價(jià),根據(jù)它所在文章的被引用次數(shù)進(jìn)行排序,可以獲得較為專業(yè), 12 也較為合理的結(jié)果 。 同時(shí),需要注意的是,如果一個(gè)篇論文的被引用次數(shù)很高,而且它又有兩段評(píng)論原文的句子時(shí),那么這兩段會(huì)一起出現(xiàn)在最終的結(jié)果里,在這里我們就需要對(duì)結(jié)果進(jìn)行調(diào)整,保證在權(quán)重相同的情況下,盡可能選擇盡量不同的文章的評(píng)論 。 13 第 4 章 建 立 模 型并 生成 基于影響的概括 通過獲得了對(duì)源論文的評(píng)論集合,下面就可以與源論文建立模型來獲得基于影響的概括。所謂基于影響的概括,簡(jiǎn)單來說,就 是某句話與評(píng)論之間的關(guān)系越緊密,那么這句話的影響力就越大。最終將影響力最大的幾個(gè)句子合在一起,就形成了基于影響的概括。 模之前我們所有的數(shù) 據(jù) 在建模之前,我們先來看看我們已經(jīng)獲得了哪些數(shù)據(jù): (1)所有論文集合 D,以及 成一個(gè)單詞表 V,并且可以統(tǒng)計(jì)出每個(gè)單詞 (w,D) (2)對(duì)于一篇論文 d,將其劃分為多個(gè)句子 (3)已經(jīng)獲得了這 篇 論文進(jìn)行評(píng)論的所有句子 , 把他們的集合成為 C( 下面,我們就可以參照 對(duì) 里的打分,主要是基于詞頻以及相似度來做的。 模算 法 首先,為任何一個(gè)句子打分的公式 s)如下: 從信息理論的觀點(diǎn),其中 ( | )即為 以被解釋為通過句子 示 基于影響的段落, 需要從文章中刪除的信息量。顯然,其值越小,也越能代表文章以及其他文章對(duì)它的評(píng)價(jià)的意思(因?yàn)樗灰獎(jiǎng)h除較少的信息) 可以看出,公 式中最重要的是求出 )|( 和 )|( 。 c o r e)|(l o g)|()|(l o g)|()|()( 14 對(duì)于公式( 1), 其中, ),( 示一個(gè)單詞 w 在句子 )|( s為平滑參數(shù)。我們假設(shè)s為 |s|的 (1)式可以看成 是 可見, 示 與這個(gè)句子的關(guān)系則較少。s等于 |s|時(shí),表示二者一樣,各占 1/2。我在這里將 。 對(duì)于公式 (2),其中 ),( 示一個(gè)單詞 w 在當(dāng)前要求的這篇論文中出現(xiàn)的次數(shù),而 )|( 示單詞 中出現(xiàn)的概率。C為平滑參數(shù)。我們?nèi)匀患僭O(shè)s|的 (2)式可以看成 可見, 示這個(gè)單詞 的關(guān)系越大,而 時(shí),則與論文本身關(guān)系較大??梢钥闯?,極端的情況,當(dāng) 時(shí),則 我們獲得的那些評(píng)價(jià)都沒有關(guān)系了,因此獲得的句子實(shí)際上對(duì)其他論文也沒有什么影響了。因此,對(duì)于本實(shí)驗(yàn),應(yīng)當(dāng)將 法的實(shí)現(xiàn) 具體實(shí)現(xiàn)算法時(shí),會(huì)出現(xiàn)一些問題:我們假設(shè)一篇論文可以劃分成 1000 個(gè)句子,每個(gè)句子有 20 個(gè)不同單詞,我們總共有 2000篇論文,那就有 4億個(gè)單詞。那么, 對(duì)于每一個(gè)句子 s,我們?cè)谶M(jìn)行上面的算法時(shí),需要進(jìn)行如下一步 這就需要對(duì)這 4 億個(gè)單詞進(jìn)行遍歷一遍,并且分別計(jì)算括號(hào)中的那一步。而每篇論文有 1000個(gè)句子,就相當(dāng)于要計(jì)算 4000 億次 , 這個(gè)計(jì)算量對(duì)我們來說太龐大了,因此,我在這里選取了一個(gè)簡(jiǎn)便一點(diǎn)的方法,就是在上面的一步時(shí),并不是對(duì)整個(gè)單詞空間進(jìn)行計(jì)算,而只是對(duì)論文 中出現(xiàn)的所有單詞進(jìn)行遍歷計(jì)算打分。 可以看出,對(duì)于一個(gè)既不在 d 中又不在 C 中的單詞 , )|( = 此,上面的公式只是理 論的公式,具體應(yīng)用時(shí),只需要對(duì) 中出現(xiàn)的單詞進(jìn)行計(jì)算即可,這就節(jié)省了大量的計(jì)算量。 整個(gè)流程如 圖表 3,需 )|(1 )|( )|(1 )|( )|(l o g)|()|(l o g)|( sI )1(| )|(),()|(s )2(| )|(),()|(d 15 要用到 圖表 2 中的前三 步 算法獲得的評(píng)論列表。這里之所以不用 圖表 2 的最終結(jié)果,是因?yàn)槲覀冃枰嗟男畔?,信息越多,獲得的概括越具有影響力。 圖表 得基于影響的概 括 通過上面的模型,可以對(duì) 后 根據(jù)所得分?jǐn)?shù)進(jìn)行從 大 到小排序。這里因?yàn)槊科撐闹挥?1000 左右的句子,數(shù)量級(jí)并不是很大,就自己寫了一個(gè)簡(jiǎn)單的冒泡排序 算法來排序。之后, 選擇其中得分最高的 合在一起,就獲得了原文基于影響的概括了。從整個(gè)建模的過程中也可以看出,所謂基于影響,就是通過 那 些對(duì) A 進(jìn)行評(píng)價(jià)的句子集 C,分別獲得 這些句子的相似程度,與其相似程度最高的,證明這個(gè)句子被其他 作者提及的最多,影響最大。而這個(gè)概括與摘要的區(qū)別就是,影響較大的句子,可能原來的作者并沒有想到,因此在摘要中并沒有提及(正所謂無心插柳柳成蔭);而摘要中提及的部分,影響可能反而沒有那么大 。 圖表 3 16 第 5 章 搭建搜索引擎 本 章 內(nèi)容主要介紹如何利用 索引擎平臺(tái)來搭建我們的論文檢索系統(tǒng)。通過這段內(nèi)容,我們可以了解到 用的基本過程,最終我們會(huì)發(fā)現(xiàn),如果想搭建其他方向的搜索引擎,使用 構(gòu)簡(jiǎn) 介 統(tǒng),全稱是 是網(wǎng)絡(luò)實(shí)驗(yàn)室搜索引擎組耗時(shí)一年多 在 一個(gè)國家 863項(xiàng)目 支持下開發(fā)的 ,其目的是建立一個(gè)搜索引擎平臺(tái),將搜索引擎的各個(gè)部分模塊化,使得這個(gè)搜索引擎不 只 針對(duì)專一的某一個(gè)領(lǐng)域,而是可以針對(duì)各個(gè)領(lǐng)域。其功能有點(diǎn)類似于 其不同的是 編寫的。 以下幾大的模塊 ,見 表格 3。 表格 3 1) 于對(duì)網(wǎng)頁進(jìn)行去噪、消重以及編碼轉(zhuǎn)換等處理,如果是 針 對(duì) 這一步驟就可以省略了。 ( 2) 索引模塊,用于將需要檢索的部分建立倒排索引。具體 ( 3) 可以利用 于每一個(gè)詞,去倒排索引里面查找包含它的文檔 頁中為 從而完成檢索。 ( 4) 前臺(tái)模塊,完成一個(gè)類似于天網(wǎng)搜索引擎的前臺(tái)界面。除了 顯示 結(jié)果之外,還進(jìn)行摘要處理。這 個(gè)地方需要 注意 的就是與 分有一定的結(jié)合,會(huì)在后面提到。 除了以上 4個(gè)大的模塊之外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論