搜索引擎的未來_第1頁(yè)
搜索引擎的未來_第2頁(yè)
搜索引擎的未來_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索引擎的未來

1.大數(shù)據(jù)及視頻點(diǎn)的分析技術(shù)在信息過載和信息爆炸的時(shí)代,網(wǎng)絡(luò)中的信息和資源迅速增長(zhǎng)。通過快速、準(zhǔn)確地搜索大量信息來解決這個(gè)問題。本文提出了一種新型的Web檢索服務(wù)模式,它區(qū)別于百度,Google等傳統(tǒng)通用檢索服務(wù),這些搜索給不同用戶的都是按照檢索規(guī)則提供的一致結(jié)果,有的還包含有大量廣告,這是一對(duì)多的“廣播”服務(wù)模式。信息來源與信息選擇權(quán)在服務(wù)商,檢索與信息獲取的過程和內(nèi)容沒有考慮信息接收者的個(gè)體差異與信息需求的差異。而本文充分讓用戶參與到信息檢索服務(wù)中來,更注重用戶的個(gè)性化和信息需求的動(dòng)態(tài)性,根據(jù)用戶的搜索歷史記錄,收藏與評(píng)分記錄,分析用戶的興趣點(diǎn)與關(guān)注點(diǎn),主動(dòng)向用戶推送有價(jià)值的信息,這是一對(duì)一的“點(diǎn)播”服務(wù)模式。本文采用面向領(lǐng)域的垂直搜索技術(shù),針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求,構(gòu)建垂直搜索引擎系統(tǒng)。垂直搜索引擎在信息獲取時(shí)可以設(shè)定規(guī)則從有限個(gè)主題相關(guān)網(wǎng)站中提取信息。通過建立領(lǐng)域相關(guān)主題詞庫(kù),從內(nèi)容繁雜的頁(yè)面中提取有價(jià)值的關(guān)鍵信息,經(jīng)過系統(tǒng)整合成標(biāo)準(zhǔn)文檔,作為垂直搜索引擎檢索源。這樣的檢索源針對(duì)性強(qiáng)、結(jié)構(gòu)清晰,內(nèi)容精煉,能有效提高檢索速度與檢索準(zhǔn)確率。2.用戶信息上傳能力(1)垂直搜索技術(shù)垂直搜索面向某一特定的專業(yè)領(lǐng)域,避免了通用搜索引擎搜索出的大量無關(guān)信息,提高了查詢效率,使用戶能夠更迅速地查詢到自己所需的信息。通過垂直搜索引擎,能夠把具有相同興趣點(diǎn)的人們集中在一個(gè)“社區(qū)”內(nèi),提高了協(xié)同過濾時(shí)的數(shù)據(jù)密度,在一定程度上避免了稀疏性問題,提高定位鄰居用戶集的效率。因此,垂直搜索與協(xié)同過濾相結(jié)合的策略,能有效提高用戶興趣分析與預(yù)測(cè)的準(zhǔn)確率,顯著提高信息推送效果。(2)協(xié)同過濾協(xié)同過濾技術(shù)的核心思想是用戶會(huì)傾向于利用具有相似意向的用戶群的產(chǎn)品,在智能搜索引擎中起著重要作用。本文統(tǒng)計(jì)用戶的搜索歷史記錄,利用向量模型,將歷史檢索關(guān)鍵詞和關(guān)鍵詞出現(xiàn)的頻率建立成空間上的n維向量。定義用戶i和用戶j之間的統(tǒng)計(jì)響亮為Vi和Vj,兩者的相似性通過向量間的余弦夾角度量,余弦值越大表明兩用戶的相似程度越高。Vi和Vj的相似性Sim(i,j)為:(3)檢索與排序結(jié)果排序的好壞是檢驗(yàn)搜索引擎有效性的重要標(biāo)準(zhǔn),大部分(88%)互聯(lián)網(wǎng)用戶僅關(guān)注搜索引擎結(jié)果前三頁(yè)的內(nèi)容,如果前三頁(yè)沒有滿意的結(jié)果,立刻變換關(guān)鍵詞或者更換搜索引擎重新進(jìn)行檢索。用戶輸入查詢語(yǔ)句,利用中文分詞方法,將查詢語(yǔ)句分解成關(guān)鍵詞,并計(jì)算關(guān)鍵詞詞頻。首先計(jì)算出用戶查詢q和文檔的相關(guān)程度Similarity(q,d)。搜索相關(guān)度的評(píng)分公式:得到用戶檢索語(yǔ)句與文檔的相關(guān)程度之后,綜合目標(biāo)用戶對(duì)于該文檔的興趣,以及Web用戶群體對(duì)于該文檔的平均評(píng)分與收藏次數(shù),根據(jù)層次分析法,得到最終評(píng)分通過公式4得到的搜索結(jié)果相比起通用搜索引擎,將更加符合用戶本身的興趣,同時(shí)發(fā)揮Web用戶群體的作用。得到普遍公認(rèn)的優(yōu)秀文檔排名靠前,排名靠前的文檔得到更多用戶的關(guān)注與評(píng)價(jià),形成良性循環(huán),優(yōu)秀的文檔能在Web中迅速傳播。3.垂直搜索是基于信息披露的領(lǐng)域設(shè)計(jì)的體系結(jié)構(gòu):經(jīng)過前文中對(duì)個(gè)性化服務(wù)和垂直搜索技術(shù)的分析,本文設(shè)計(jì)的搜索引擎系統(tǒng)體系結(jié)構(gòu)圖如下所示。4.實(shí)驗(yàn)4.1操作系統(tǒng)監(jiān)控Web服務(wù)器(1臺(tái)):酷睿2雙核CPU,4GB內(nèi)存,Windows7操作系統(tǒng),Tomcat6.0服務(wù)器。數(shù)據(jù)服務(wù)器(4臺(tái)):酷睿2雙核CPU,2GB內(nèi)存,500GB硬盤,Windows7操作系統(tǒng)。數(shù)據(jù)采集與分析服務(wù)器(1臺(tái)):酷睿2雙核CPU,4GB內(nèi)存,Windows7操作系統(tǒng)。4.2實(shí)驗(yàn)數(shù)據(jù)4.3用戶群學(xué)習(xí)行為能較好反映用戶興趣在用戶檢索次數(shù)和評(píng)分次數(shù)達(dá)到一定數(shù)量的情況下(人均檢索100次,人均評(píng)分300次,平均每個(gè)產(chǎn)品被打分1次),推送和搜索結(jié)果的準(zhǔn)確是較高的(平均準(zhǔn)確率分別達(dá)到82.5和88%),能較好地反映用戶的興趣。基于用戶興趣和用戶評(píng)價(jià)的結(jié)果排序能較好使得搜索結(jié)果符合用戶期望。同時(shí),垂直搜索技術(shù)使得系統(tǒng)用戶群的興趣點(diǎn)相對(duì)集中,在一定程度上能夠緩解協(xié)同過濾稀疏性問題,提高推送的準(zhǔn)確率。實(shí)踐表明,通過用戶搜索歷史記錄判斷興趣相似的用戶群方法在性能和功能上是有效可行的。本文設(shè)計(jì)和實(shí)現(xiàn)的數(shù)碼產(chǎn)品垂直搜索引擎的方案是切實(shí)可行的,系統(tǒng)基本達(dá)到了預(yù)期的設(shè)計(jì)目標(biāo)。5.互聯(lián)網(wǎng)統(tǒng)一控制模式設(shè)計(jì)在各領(lǐng)域的應(yīng)用實(shí)例本文著眼于解決目前信息檢索中的困難,提出了一種基于信息推送、垂直搜索思想的Web檢索“點(diǎn)播”服務(wù)模式,并著重分析討論了垂直搜索,協(xié)同過濾,檢索結(jié)果排序等關(guān)鍵問題。以數(shù)碼產(chǎn)品領(lǐng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論