下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、南京理工大學(xué)泰州科技院課程論文課程名稱: 信息組織、存儲(chǔ)與檢索論文題目: 自動(dòng)文摘技術(shù)的研究 班 級(jí): 11信管 學(xué) 號(hào): 1109120102 姓 名: 戴慧嫻 指導(dǎo)教師: 汪雪蔚 2014 年1 月6日自動(dòng)文摘技術(shù)的研究(南京理工大學(xué)泰州科技學(xué)院 11信管 1109120102 戴慧嫻)【摘要】隨著互聯(lián)網(wǎng)的快速發(fā)展,搜索引擎的應(yīng)用已經(jīng)變得非常廣泛,Web是一個(gè)巨大的信息資源庫(kù),提供了各種各樣的信息服務(wù),如何有效的從Web獲取所需信息變得越來(lái)越重要。為此,在Web這樣的分布式環(huán)境中找到有價(jià)值的信息,并從中提取出知識(shí)內(nèi)容已經(jīng)成為目前信息檢索、數(shù)據(jù)挖掘重要課題。用戶不僅希望得到相關(guān)的Web頁(yè)面外
2、,還希望檢索到的頁(yè)面具有高質(zhì)量,即找到權(quán)威頁(yè)面。網(wǎng)頁(yè)的超鏈接是一個(gè)重要的研究途徑,鏈接分析(即Web結(jié)構(gòu)挖掘)的引入和應(yīng)用為這些問(wèn)題的解決提供了一條嶄新的思路。HTIS是一種應(yīng)用廣泛的基于鏈接分析的權(quán)威資源提取算法,具有很高的研究?jī)r(jià)值。本文在簡(jiǎn)要介紹Web鏈接分析技術(shù)的基礎(chǔ)上,深入分析了HITS算法的優(yōu)缺點(diǎn),通過(guò)對(duì)HITS主要缺點(diǎn)主題漂移的分析研究,通過(guò)對(duì)搜索引擎的算法設(shè)計(jì)思想及原理的了解,將更加有助于提供高我們的信息檢索能力【關(guān)鍵詞】HITS算法,搜索引擎,權(quán)威網(wǎng)頁(yè),中心網(wǎng)頁(yè);概述數(shù)據(jù)的預(yù)處理是對(duì)Web上的數(shù)據(jù)檢索后進(jìn)行的數(shù)據(jù)預(yù)處理, 為數(shù)據(jù)挖掘模塊提供挖掘所需要的數(shù)據(jù)。確定挖掘主題后,可使
3、用Google的Web API, 利用JBuilder實(shí)現(xiàn)對(duì)Google的巨大Web索引的搜索。但是, 用戶的一個(gè)查詢請(qǐng)求往往會(huì)檢索出龐大的結(jié)果集, 而用戶所需要的只是其中很小一部分, 面對(duì)如此多的結(jié)果, 用戶仍然不知所措。所以必須用HITS算法來(lái)確定權(quán)威Web頁(yè)面, 這樣就可以有效地去除無(wú)效網(wǎng)頁(yè)。一.HITS (Hyperlink-Induced Topic Search)算法的提出基于商業(yè)或競(jìng)爭(zhēng)因素考慮,很少有WEB網(wǎng)頁(yè)指向其競(jìng)爭(zhēng)領(lǐng)域的權(quán)威網(wǎng)頁(yè)(“Microsoft” 和 “Netscape”都是瀏覽器的權(quán)威主頁(yè),但并不互指),權(quán)威網(wǎng)頁(yè)很少具有顯式的描述(如Google主頁(yè)不會(huì)明確給出WE
4、B搜索引擎之類的描述信息),PageRank算法中對(duì)于向外鏈接的權(quán)值貢獻(xiàn)是平均的,HITS算法考慮了不同鏈接的重要性。二.HITS算法基本思想Kleinberg于1998年提出HITS算法:l Authority 頁(yè)面(權(quán)威頁(yè)面):是指與某個(gè)領(lǐng)域或者某個(gè)話題相關(guān)的高質(zhì)量網(wǎng)頁(yè);l Hub頁(yè)面(樞紐頁(yè)面):指的是包含了很多指向高質(zhì)量“Authority”頁(yè)面鏈接的網(wǎng)頁(yè)。HITS算法對(duì)web的鏈接結(jié)構(gòu)進(jìn)行挖掘,從而發(fā)現(xiàn)相關(guān)的web communities,包括Authorities和Hubs。Authorities是那些與給定查詢主題的上下文最為相關(guān)并具有權(quán)威性的網(wǎng)頁(yè);而Hubs則是那些本身的內(nèi)容雖
5、然未必具有權(quán)威性、但卻包含了多個(gè)指向Authorities的超鏈接的網(wǎng)頁(yè)。對(duì)于大部分主題來(lái)說(shuō),最為有力的Authorities,其相互之間往往不存在任何鏈接,因此它們常常只被一些作為它們之間的中間層的、相對(duì)而言不怎么有名的Hubs網(wǎng)頁(yè)所鏈接。對(duì)這兩種類型的網(wǎng)頁(yè)的提取可以通過(guò)循環(huán)執(zhí)行以下操作來(lái)完成:一根集合(root set)將查詢q提交給基于關(guān)鍵字查詢的檢索系統(tǒng),從返回結(jié)果頁(yè)面的集合總?cè)∏皀個(gè)網(wǎng)頁(yè)作為根集合,記為root,則root滿足:1. root中的網(wǎng)頁(yè)數(shù)量較少;2. root中的網(wǎng)頁(yè)是與查詢q相關(guān)的網(wǎng)頁(yè) ;3. root中的網(wǎng)頁(yè)包含較多的權(quán)威(Authority)網(wǎng)頁(yè); 二擴(kuò)展集合ba
6、se在根集root的基礎(chǔ)上,凡是與根集內(nèi)網(wǎng)頁(yè)有直接鏈接指向關(guān)系的網(wǎng)頁(yè)都被擴(kuò)充到集合base。三計(jì)算擴(kuò)展集base中所有頁(yè)面的Hub值(中心度)和Authority值(權(quán)威度)1. 網(wǎng)頁(yè)i的Authority值a (i) = h (i) ;2. 網(wǎng)頁(yè)i的Hub值h (i) = a (i) ;3. 對(duì)a (i)、h (i)進(jìn)行規(guī)范化處理:a (i) = a (i)/|a(i)| ;h (i) = h (i)/ |h(i)| ;4. 不斷重復(fù),若權(quán)值沒有明顯變化,則結(jié)束計(jì)算;四輸出排序結(jié)果:將頁(yè)面根據(jù)Authority權(quán)值得分由高到低排序,取權(quán)值最高的若干頁(yè)面作為響應(yīng)用戶查詢的搜索結(jié)果輸出。基本思想
7、:一個(gè)好的” Authority”頁(yè)面會(huì)被很多好的” Hub ”頁(yè)面指向;一個(gè)好的” Hub”頁(yè)面會(huì)指向很多好的” Authority”頁(yè)面;合起來(lái)趨向于形成如圖:AuthoritiesHubs 三HITS算法中存在的問(wèn)題HITS算法雖然在某些查詢主題下能夠較為準(zhǔn)確地提取出權(quán)威網(wǎng)頁(yè), 但仍存在在一些場(chǎng)合中會(huì)使得算法發(fā)生嚴(yán)重的“主題漂移”的現(xiàn)象 (authorities集中到一些鏈接稠密的非相關(guān)網(wǎng)頁(yè)的現(xiàn)象被稱為“主題漂移”問(wèn)題)。該現(xiàn)象的出現(xiàn)說(shuō)明在傳統(tǒng)HITS算法中仍存在一些缺點(diǎn), 這就要求對(duì)傳統(tǒng)HITS算法進(jìn)行改進(jìn), 以使其具有更為廣泛的適用性, 提高權(quán)威頁(yè)面搜索的效率。四 HITS算法的改進(jìn)
8、迭代過(guò)程中盡量向根集投影:仔細(xì)觀察HITS算法的第(4)步和第(5)步, 便會(huì)發(fā)現(xiàn)傳統(tǒng)的HITS算法之所以會(huì)出現(xiàn)“主題漂移”現(xiàn)象, 就是因?yàn)樗鼜闹魈卣飨蛄恐兴崛〉臋?quán)威網(wǎng)頁(yè)組, 雖然其內(nèi)部鏈接關(guān)系最為稠密, 但是該組網(wǎng)頁(yè)與根集的關(guān)系卻最小, 即和原查詢主題的關(guān)聯(lián)程度非常小。也就是說(shuō)傳統(tǒng)的HITS算法是基于權(quán)威值迭代的算法, 如果根集中存在著與主題不相關(guān)的一組稠密網(wǎng)頁(yè)相連接的網(wǎng)頁(yè), 那么, 那組內(nèi)部鏈接稠密的網(wǎng)頁(yè)就會(huì)使得該組網(wǎng)頁(yè)的權(quán)值在HITS算法的運(yùn)行過(guò)程中不公平地迅速增加, 使得結(jié)果不可避免地向該組網(wǎng)頁(yè)集中。為了避免這種情形的發(fā)生, 就應(yīng)該考慮從其它非主特征向量中提取不同的、雖然內(nèi)部鏈接并不是最為稠密、但與根集關(guān)系卻更為密切的權(quán)威網(wǎng)頁(yè)組。五 結(jié)束語(yǔ)HITS算法是web結(jié)構(gòu)挖掘中的重要算法之一,針對(duì)該算法存在的一些問(wèn)題,許多學(xué)者提出了各種改進(jìn)算法,且這些改進(jìn)算法還在不斷研究發(fā)展中。通過(guò)改進(jìn)的HITS算法%可以獲得高的查詢精確度,當(dāng)然,也可能增加了算法的復(fù)雜度。如何改進(jìn)HITS算法,使其具有較高查準(zhǔn)率和查全率,同時(shí)又能降低算法的復(fù)雜度,這應(yīng)是HITS算法研究的方向。參考文獻(xiàn):【1】 陳次白,丁晟春等.信息檢索與存儲(chǔ)技術(shù)(第二版).北京:國(guó)防工業(yè)出版社.2008【2】 黃如花.網(wǎng)絡(luò)信息的檢索與利用.武漢:武漢大學(xué)出版
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度出國(guó)勞務(wù)中介服務(wù)收費(fèi)標(biāo)準(zhǔn)規(guī)范合同8篇
- 2024跨界藝術(shù)品交易平臺(tái)服務(wù)合同
- 2025年地鐵合同解約申請(qǐng)書
- 二零二五年度智能廁所清潔運(yùn)營(yíng)管理合同3篇
- 2025年航空器租賃服務(wù)航空器導(dǎo)航服務(wù)合同
- 二零二五年度社區(qū)文化活動(dòng)中心運(yùn)營(yíng)管理承包合同3篇
- 二零二五壁畫藝術(shù)作品租賃與展覽合同3篇
- 2025年廣告代言合同簽署
- 2025年農(nóng)業(yè)中介服務(wù)合作協(xié)議
- 二零二五版苗圃土地租賃與農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)應(yīng)用合同3篇
- 2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試卷(新題型:19題)(基礎(chǔ)篇)(含答案)
- 下運(yùn)動(dòng)神經(jīng)元損害綜合征疾病演示課件
- 北師大版三年級(jí)數(shù)學(xué)(上冊(cè))看圖列式計(jì)算(完整版)
- 2023中考地理真題(含解析)
- 麻醉藥品、精神藥品月檢查記錄表
- 浙江省寧波市海曙區(qū)2022學(xué)年第一學(xué)期九年級(jí)期末測(cè)試科學(xué)試題卷(含答案和答題卡)
- 高考英語(yǔ)詞匯3500電子版
- 建院新聞社成立策劃書
- JJF 1101-2019環(huán)境試驗(yàn)設(shè)備溫度、濕度參數(shù)校準(zhǔn)規(guī)范
- GB/T 25000.51-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評(píng)價(jià)(SQuaRE)第51部分:就緒可用軟件產(chǎn)品(RUSP)的質(zhì)量要求和測(cè)試細(xì)則
- 外科學(xué)試題庫(kù)及答案(共1000題)
評(píng)論
0/150
提交評(píng)論