




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、實(shí)現(xiàn)了基于分類的統(tǒng)計(jì)學(xué)習(xí)功能的元搜索引擎邱志歡譚 天 候?yàn)t瀟劉益成 趙 陽2004-12-25的設(shè)計(jì)與實(shí)現(xiàn)1Outline項(xiàng)目背景初始構(gòu)想具體實(shí)現(xiàn)搜索引擎選取模塊抓取模塊歸并與排序模塊用戶界面部分各模塊接合總結(jié)2項(xiàng)目背景大量的搜索引擎充斥著Web!通用搜索引擎(Google、天網(wǎng))專用搜索引擎(CiteSeer、百度MP3)對(duì)于綜合性能,專用SE不如通用SE對(duì)于專門性能,通用SE不如專用SE通用SE也各有其特色而且,用戶不可能知道太多的SE!解決方法元搜索引擎(MetaSearch)!3初始構(gòu)想基于一篇論文:SavvySearch: A Meta-Search Engine that Lear
2、ns which Search Engines to Query (1997), Adele E. Howe, Daniel Dreilinger, AI Magazine累積用戶行為資料,對(duì)不同搜索引擎賦予不同的優(yōu)先級(jí)根據(jù)網(wǎng)絡(luò)環(huán)境和性能要求調(diào)整使用的搜索引擎數(shù)據(jù)我們的新想法:對(duì)于不同類型的搜索內(nèi)容有不同的優(yōu)先排序,以發(fā)揮專用搜索引擎的優(yōu)勢(shì)!4初始構(gòu)思與分工5具體實(shí)現(xiàn)切詞部分已經(jīng)基本掌握的情況下,發(fā)現(xiàn)找不到好的分類源碼,于是把切詞和分類部分都放棄了,改為由用戶在界面上選擇類別(Sohu的16個(gè)大類,可多選)其他幾模塊抓取部分(hxx)搜索引擎選取部分(qzh)歸并、排序部分(lyc & zy)
3、界面部分(tt)系統(tǒng)整合(lyc & tt)6搜索引擎選取部分網(wǎng)絡(luò)資源是有限的,但是,由于元搜索的特性,用戶每次提交的關(guān)鍵字都會(huì)被發(fā)送到多個(gè)搜索引擎進(jìn)行處理,如果不加以適當(dāng)控制的話,系統(tǒng)對(duì)網(wǎng)絡(luò)資源的消耗就會(huì)非常大。因而,系統(tǒng)需要從搜索引擎列表中選擇出最有可能返回有用結(jié)果的少數(shù)幾個(gè)來為用戶服務(wù)。這樣,系統(tǒng)就面對(duì)著兩個(gè)關(guān)鍵的問題:選多少個(gè)和怎樣選。 7選多少個(gè)?和可用資源相關(guān)兩種可用資源:網(wǎng)絡(luò)資源和本地資源網(wǎng)絡(luò)資源:維護(hù)表格,里面記錄最近的網(wǎng)絡(luò)資源狀況本地資源:系統(tǒng)可以根據(jù)OS提供的API獲得內(nèi)存使用量和CPU占用率令并發(fā)度的最小值為2,最大值為6。如果系統(tǒng)探測(cè)到最近一段時(shí)間可用資源很充足時(shí),就將
4、這個(gè)值加2,反之減2。 8怎樣選?使用TFIDF和線性分類器的思想,構(gòu)造選擇算法類別集合為C1,Cm,搜索引擎集合為S1,Sn,類別Ci和搜索引擎Sj之間的相關(guān)度為CFij;CFij=0CFij初值為一個(gè)常數(shù),每當(dāng)用戶作一次反饋時(shí),就將相應(yīng)的CFij值加上一個(gè)增量,每當(dāng)搜索引擎返回0個(gè)結(jié)果時(shí),就將相應(yīng)的CFij值減去一個(gè)增量。9怎樣選?(2)公式10怎樣選?(3)這樣,對(duì)于任意給出的類別集合Ci,其中I是類別的下標(biāo)集合,搜索引擎Sj和它之間的排序權(quán)值 其中, punish(j)是搜索引擎最近返回結(jié)果數(shù)量和響應(yīng)時(shí)間的一個(gè)函數(shù),返回結(jié)果數(shù)量越少,響應(yīng)時(shí)間越長(zhǎng),它的值就越大于是,對(duì)于一個(gè)類別集合,我
5、們就可以求出每一個(gè)搜索引擎的排序權(quán)值,然后選取排序權(quán)值最大的幾個(gè)搜索引擎為用戶服務(wù)即可。 11抓取部分一波三折:w3c庫課程http庫自寫代碼修改后的課程http庫向搜索引擎提交結(jié)果取得頁面提取搜索結(jié)果提交查詢時(shí)的中文需做編碼轉(zhuǎn)換各個(gè)搜索引擎的結(jié)果格式很不同,不能統(tǒng)一處理,只好分別編寫類處理。發(fā)現(xiàn)各搜索引擎有共用的操作和網(wǎng)絡(luò)通信方式,因此提取出基類SearchEngine,提供統(tǒng)一接口12抓取部分(續(xù))提取結(jié)果需要一定的語法分析技術(shù),比較繁瑣,代碼量大需要翻頁、判斷是否查看所有結(jié)果最后實(shí)現(xiàn)了五個(gè)搜索引擎的抓?。禾炀W(wǎng)、百度、中搜、搜狗、易搜(Google和CiteSeer需要代理,編程麻煩!Po
6、or CERNET?。┛梢苑奖愕奶砑有碌乃阉饕妫挥绊懫渌K13歸并與排序部分歸并:多個(gè)搜索引擎返回的結(jié)果可能存在重復(fù),需要消重方法:判斷其超鏈接,相同則去重,同時(shí)記錄重復(fù)狀況使用STL里的map來做,key=url,value=返回結(jié)果結(jié)構(gòu)體排序:對(duì)于每個(gè)搜索引擎返回的結(jié)果根據(jù)選取部分的參數(shù)進(jìn)行調(diào)整、重排,最后返回給界面部分14Rank算法百度天網(wǎng)中搜易搜搜狗類別.2.1類別.1.2類別.2.3類別.1.2類別5.1.2選取部分得到的權(quán)值矩陣(例)百度天網(wǎng)中搜易搜搜狗類別1.125.325類別2.
7、311.222類別22.222.333類別4.143.286類別5.421.211.053.105.21115Rank算法(2)某個(gè)搜索引擎返回的結(jié)果ranksingle=1,n根據(jù)Measuring Search Engine Quality (2001), David Hawking, Nick Craswell, Peter Bailey, Information Retrieval,n增大,Pn緩慢下降為實(shí)現(xiàn)簡(jiǎn)單,令prob(ranksingle)=0.95(ranksingle-1)對(duì)于用戶選擇類別集,取該搜索引擎
8、的對(duì)應(yīng)的幾個(gè)類的權(quán)值,取算術(shù)平均為basevalue16Rank算法(3)Metasrank(ranksingle)= prob(ranksingle)*basevalue插入到map中,送給界面。由于map采用唯一key值,為處理有metasrank相等的情況,用一個(gè)vector類型作為value,相同rank值的結(jié)果放在一個(gè)vector里對(duì)于多個(gè)搜索引擎重復(fù)出現(xiàn)的超鏈接,將其rank值相加(值得討論!)17界面部分使用Apache和C+CGI比較CGICC、freeGGI、RudeCGIParser等幾個(gè)CGI庫。選定了用Rude CGI Parser庫,學(xué)習(xí)并熟悉使用(消耗了大量時(shí)間?。┯肅GI庫寫了用戶界面和支持代碼,實(shí)現(xiàn)了具體算法和實(shí)現(xiàn)環(huán)境無關(guān)獲取用戶查詢?cè)~和選擇類型,返回結(jié)果,截獲用戶對(duì)超鏈接點(diǎn)擊行為,發(fā)送給學(xué)習(xí)模塊作為系統(tǒng)的入口和出口,串接起其他部分18系統(tǒng)整合在抓取主函數(shù)上做修改從CGI得到用戶查詢和類別從SE選擇模塊得到要使用的搜索引擎發(fā)送給各搜索引擎進(jìn)行搜索,得到結(jié)果集對(duì)結(jié)果進(jìn)行歸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 可行性研究咨詢服務(wù)合同
- 綠色經(jīng)濟(jì)指標(biāo)統(tǒng)計(jì)表
- 長(zhǎng)城墻施工方案
- 別墅煙囪施工方案
- 照壁施工方案
- 防疫工程應(yīng)急施工方案
- 貴州生態(tài)園林綠化施工方案
- 橫裝外墻彩鋼板施工方案
- 麗水公路標(biāo)志桿施工方案
- 平頂山深基坑降水施工方案
- 第二章-醫(yī)用X線機(jī)概述課件
- 2023年高考語文全國(guó)甲卷作文深度解析及范文 課件31張
- 水電解質(zhì)紊亂酸堿平衡
- 肝膽腸排毒演示文稿
- 地面貼磚工藝施工規(guī)范及驗(yàn)收標(biāo)準(zhǔn)
- 教師組織生活談心談話記錄內(nèi)容范文(5篇)
- 高壓電工安全技術(shù)實(shí)操K13考試題庫(含答案)
- 小學(xué)數(shù)學(xué)三年級(jí)口算、豎式、脫式、應(yīng)用題(各280道)
- GB/T 38315-2019社會(huì)單位滅火和應(yīng)急疏散預(yù)案編制及實(shí)施導(dǎo)則
- GB/T 1929-1991木材物理力學(xué)試材鋸解及試樣截取方法
- GB/T 19266-2008地理標(biāo)志產(chǎn)品五常大米
評(píng)論
0/150
提交評(píng)論