搜索引擎學(xué)習(xí)課件-2-3-_第1頁
搜索引擎學(xué)習(xí)課件-2-3-_第2頁
搜索引擎學(xué)習(xí)課件-2-3-_第3頁
搜索引擎學(xué)習(xí)課件-2-3-_第4頁
搜索引擎學(xué)習(xí)課件-2-3-_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、2.3 中文分詞和排序算法介紹2.3.1 中文分詞:中文本身存在著很大的歧義性,同樣一句話,不同的斷句,表達的意思就不一樣。這對于計算機去做機器分析,就帶來了巨大的困難。下面的中文斷句,來自百度廣告宣傳片:我知道你不知道我知道你不知道我知道你不知道2.3 中文分詞和排序算法介紹2.3.1 中文分詞:2.3 中文分詞和排序算法介紹2.3.1 中文分詞:另外中文的具體含義,還必須放在具體的前后語言環(huán)境中去分析。比如說:乒乓球拍賣完了我去學(xué)校商店,發(fā)現(xiàn)乒乓 球拍 賣 完 了在今天的慈善拍賣會上,世界冠軍們奪冠時的乒乓球 拍賣 完 了 2.3 中文分詞和排序算法介紹2.3.1 中文分詞:中文分詞,在具

2、體的算法實現(xiàn)上分為三種:1.字符串匹配(正序、逆序、最少切分、最大切分等)2.基于理解(詞法,句法等方式處理)3.基于統(tǒng)計在中文搜索引擎中,目前基本上是這三種算法混合使用。第二種的算法實現(xiàn)起來過于復(fù)雜,所以以第一種和第三種算法為主。中文分詞,在具體的算法實現(xiàn)上分為三種:2.3 中文分詞和排序算法介紹語言本身也是在不停的進化和發(fā)展的,新的詞語層出不窮,一些老的詞語漸漸被棄用。作為中文分詞的基礎(chǔ)詞庫,其新詞補充和老詞刪除就是非常重要的工作?!俺壟暋?、“超女”、“李宇春”、“八榮八恥”、“非典”,當(dāng)這些新詞的出現(xiàn)時,搜索引擎需要快速捕捉到,并且馬上把其添加到分詞系統(tǒng)中去。如何判斷那些詞是新詞,這

3、就全部倚靠算法來實現(xiàn)。新詞捕捉主要來源于新聞和網(wǎng)絡(luò)BBS論壇,主要機制是依靠統(tǒng)計程序,統(tǒng)計上升速度最高的詞。另外作為搜索引擎公司,對眾多用戶的搜索詞進行“用戶行為”分析,也能提高其“新詞補充”效果。2.3 中文分詞和排序算法介紹語言本身也是在不停的進化和發(fā)展2.3 中文分詞和排序算法介紹2.3.2 排序算法:搜索引擎的排序算法(ranking algorithm),決定了各個網(wǎng)頁、圖片、MP3等數(shù)據(jù)的重要性排列順序,也決定了最終用戶查詢到的數(shù)據(jù)排序。搜索引擎的排序算法是人工智能的完滿體現(xiàn),它是對百億級數(shù)據(jù)進行重要性分析的數(shù)學(xué)實現(xiàn)?!?PageRank”是Google公司在排序算法上的專利技術(shù),

4、也是Google能從眾多搜索引擎公司中脫穎而出的最核心技術(shù),作為其搜索服務(wù)能夠超過其他競爭對手最有力的武器。 2.3 中文分詞和排序算法介紹2.3.2 排序算法:2.3 中文分詞和排序算法介紹不同搜索引擎公司排序算法的優(yōu)劣,直接決定了廣大搜索引擎用戶對搜索服務(wù)的選擇,在互聯(lián)網(wǎng)上,一個普通用戶更換搜索服務(wù)只需要5秒鐘,所以排序算法就成為了各個搜索引擎公司最核心機密。另外,每個搜索引擎公司也必須不停地改進其排序算法。2.3 中文分詞和排序算法介紹2.3 中文分詞和排序算法介紹 排序算法部分參考指標(biāo):指標(biāo)加分減分網(wǎng)站硬件指標(biāo)網(wǎng)站網(wǎng)絡(luò)好,系統(tǒng)穩(wěn)定網(wǎng)站系統(tǒng)不穩(wěn)定,網(wǎng)絡(luò)不好網(wǎng)站包含網(wǎng)頁數(shù)總網(wǎng)頁數(shù)目多總網(wǎng)頁

5、數(shù)目少網(wǎng)頁大小網(wǎng)頁大小適中網(wǎng)頁多大或過小其他網(wǎng)頁鏈到本網(wǎng)頁數(shù)目多數(shù)目少網(wǎng)頁內(nèi)URL數(shù)數(shù)目適中過多或過少網(wǎng)頁相關(guān)性URL連接網(wǎng)頁是相關(guān)內(nèi)容URL連接網(wǎng)頁不是相關(guān)內(nèi)容網(wǎng)頁更新/生成日期日期近的日期遠(yuǎn)的網(wǎng)頁類型靜態(tài)網(wǎng)頁動態(tài)網(wǎng)頁網(wǎng)頁內(nèi)樣式網(wǎng)頁設(shè)計樣式中等網(wǎng)頁設(shè)計樣式過于復(fù)雜或簡單網(wǎng)頁具體內(nèi)容分詞后,各個詞權(quán)重總和高分詞后,各個詞權(quán)重總和低用戶訪問行為點擊多的網(wǎng)頁點擊少的網(wǎng)頁2.3 中文分詞和排序算法介紹 排序算法部分參考指標(biāo):指標(biāo)2.3 中文分詞和排序算法介紹排序算法雖然解決了網(wǎng)頁排序的問題,但是有時候有些搜索結(jié)果還是很難讓用戶滿意。為此,搜索引擎排序算法一項重要改進:“聚類”,就被引進來提高排序效果

6、。 “聚類”方法,是把網(wǎng)頁分類成各種不同類型,比如說:分類為“體育”、“娛樂”、“軍事”、“旅游”、“金融”、“政治”、“汽車”、“房產(chǎn)”等。針對每一種分類,各自有一套專用的排序算法。當(dāng)查詢詞為“高爾夫”時,查詢結(jié)果為“體育”+“汽車”,排序算法為通用算法;但當(dāng)查詢詞為“高爾夫 伍茲”時,其分類就能確定為“體育”,其排序算法就采用“體育”類別的算法。2.3 中文分詞和排序算法介紹排序算法雖然解決了網(wǎng)頁排序的2.3 中文分詞和排序算法介紹排序算法是決定了各個網(wǎng)頁的排序,但是對于一些特殊情況,也需要“人工干預(yù)”,畢竟一個通用算法并不能解決所有問題。比如說:查詢詞為“北理”,其實含義是“北京理工大學(xué)

7、”。在Google的搜索結(jié)果中,第一個就是“北京理工大學(xué)”,但在“北京理工大學(xué)”網(wǎng)頁中根本找不到“北理”兩個字。以下是搜索結(jié)果:北京理工大學(xué)以工為主,包含理工、管理、法律、外語的多科性全國重點大學(xué)。/ - 42k - 類似網(wǎng)頁 “人工干預(yù)”是排序算法,非常重要的一個補充,大大改進了搜索結(jié)果。搜索引擎公司的競價排名和滾動排名,也都是“人工干預(yù)”的范疇。2.3 中文分詞和排序算法介紹排序算法是決定了各個網(wǎng)頁的排2.3 中文分詞和排序算法介紹GOOGLE的PageRank技術(shù)PageRank 技術(shù)是Google 檢索結(jié)果的一種排序算法, 中文通常譯為頁面級別或頁面等級, 根據(jù)這個算法, Google

8、 認(rèn)為每個網(wǎng)頁都有一個反映其重要性的值, 值越高表明其頁面級別越高, 即網(wǎng)頁越重要; 網(wǎng)頁的質(zhì)量和重要性也可以通過其它網(wǎng)頁對其超文本鏈接的數(shù)量來衡量, 具體來說, 假如網(wǎng)頁A 有一個指向網(wǎng)頁B 的鏈接, 則意味著網(wǎng)頁A 認(rèn)為網(wǎng)頁B 是重要的。Google 根據(jù)網(wǎng)頁被鏈接的數(shù)量來評定其重要性。假如有10 個網(wǎng)頁指向網(wǎng)頁A , 而指向網(wǎng)頁B 的鏈接卻只有2 個, 則說明網(wǎng)頁A 比網(wǎng)頁B更加重要。2.3 中文分詞和排序算法介紹GOOGLE的PageRankGOOGLE的PageRank技術(shù)事實上, 在實際計算網(wǎng)頁的PageRank 值時, Google 還考慮到網(wǎng)頁A 的所有鏈入網(wǎng)頁(鏈接到某網(wǎng)頁的

9、其它網(wǎng)頁稱為該網(wǎng)頁的鏈入網(wǎng)頁) 對它的推薦能力(即由于它們對網(wǎng)頁A的鏈接, 使人們認(rèn)為網(wǎng)頁A 的重要程度) 和推薦程度(即它們認(rèn)為網(wǎng)頁A 的重要程度)。一個網(wǎng)頁本身的PageRank 值越高, 則它對其鏈出網(wǎng)頁(從某個網(wǎng)頁鏈出的網(wǎng)頁稱為該網(wǎng)頁的鏈出網(wǎng)頁) 的推薦能力就越大; 一個網(wǎng)頁的鏈出網(wǎng)頁越少, 那么它對其中一個鏈出網(wǎng)頁的推薦程度就越高。GOOGLE的PageRank技術(shù)我們可以用以下公式來簡要表達Google 關(guān)于網(wǎng)頁PageRank 值的計算:PR (A ) = (1- d) + d(PR (T1)/C (T1) + .+ PR (Tn)/C (Tn) 其中,PR (A ) 是指網(wǎng)頁A

10、 的PageRank 值;T1, T2, ., Tn 是網(wǎng)頁A 的鏈入網(wǎng)頁;PR (T i) 是指網(wǎng)頁T i 的PageRank 值( i= 1, 2, .n) ;C (T i) 是指網(wǎng)頁T i 的鏈出網(wǎng)頁的數(shù)量( i= 1, 2, .n) ;d 是一個衰減因子, 0 d 1, 通常取值為0. 85。搜索引擎學(xué)習(xí)課件-2-3-(1)可見, 一個網(wǎng)頁的PageRank 值, 主要取決于以下三個因素:(1) 該網(wǎng)頁的鏈入數(shù)量;(2) 該網(wǎng)頁的鏈入網(wǎng)頁本身的PageRank 值;(3) 該網(wǎng)頁的鏈入網(wǎng)頁本身的鏈出數(shù)量。顯然, 根據(jù)以上公式, 一個網(wǎng)頁的鏈入數(shù)量越多、這些鏈入網(wǎng)頁的PageRank 值越高、這些鏈入網(wǎng)頁本身的鏈出數(shù)量越少, 則該網(wǎng)頁的PageRank 值越高??梢? 一個網(wǎng)頁的PageRank 值, 主要取決于以下三個GOOGLE的超文本匹配分析技術(shù)(Hype

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論