搜索引擎學(xué)習(xí)課件-2-3-

上傳人：q*** IP屬地：貴州上傳時間：2022-10-09 格式：PPTX 頁數(shù)：14 大?。?0.69KB 積分：22 舉報 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、2.3 中文分詞和排序算法介紹2.3.1 中文分詞：中文本身存在著很大的歧義性，同樣一句話，不同的斷句，表達的意思就不一樣。這對于計算機去做機器分析，就帶來了巨大的困難。下面的中文斷句，來自百度廣告宣傳片:我知道你不知道我知道你不知道我知道你不知道2.3 中文分詞和排序算法介紹2.3.1 中文分詞：2.3 中文分詞和排序算法介紹2.3.1 中文分詞：另外中文的具體含義，還必須放在具體的前后語言環(huán)境中去分析。比如說：乒乓球拍賣完了我去學(xué)校商店，發(fā)現(xiàn)乒乓球拍賣完了在今天的慈善拍賣會上，世界冠軍們奪冠時的乒乓球拍賣完了 2.3 中文分詞和排序算法介紹2.3.1 中文分詞：中文分詞，在具

2、體的算法實現(xiàn)上分為三種：1.字符串匹配(正序、逆序、最少切分、最大切分等)2.基于理解（詞法，句法等方式處理）3.基于統(tǒng)計在中文搜索引擎中，目前基本上是這三種算法混合使用。第二種的算法實現(xiàn)起來過于復(fù)雜，所以以第一種和第三種算法為主。中文分詞，在具體的算法實現(xiàn)上分為三種：2.3 中文分詞和排序算法介紹語言本身也是在不停的進化和發(fā)展的，新的詞語層出不窮，一些老的詞語漸漸被棄用。作為中文分詞的基礎(chǔ)詞庫，其新詞補充和老詞刪除就是非常重要的工作?！俺壟暋?、“超女”、“李宇春”、“八榮八恥”、“非典”，當(dāng)這些新詞的出現(xiàn)時，搜索引擎需要快速捕捉到，并且馬上把其添加到分詞系統(tǒng)中去。如何判斷那些詞是新詞，這

3、就全部倚靠算法來實現(xiàn)。新詞捕捉主要來源于新聞和網(wǎng)絡(luò)BBS論壇，主要機制是依靠統(tǒng)計程序，統(tǒng)計上升速度最高的詞。另外作為搜索引擎公司，對眾多用戶的搜索詞進行“用戶行為”分析，也能提高其“新詞補充”效果。2.3 中文分詞和排序算法介紹語言本身也是在不停的進化和發(fā)展2.3 中文分詞和排序算法介紹2.3.2 排序算法：搜索引擎的排序算法（ranking algorithm），決定了各個網(wǎng)頁、圖片、MP3等數(shù)據(jù)的重要性排列順序，也決定了最終用戶查詢到的數(shù)據(jù)排序。搜索引擎的排序算法是人工智能的完滿體現(xiàn)，它是對百億級數(shù)據(jù)進行重要性分析的數(shù)學(xué)實現(xiàn)?！?PageRank”是Google公司在排序算法上的專利技術(shù)，

4、也是Google能從眾多搜索引擎公司中脫穎而出的最核心技術(shù)，作為其搜索服務(wù)能夠超過其他競爭對手最有力的武器。 2.3 中文分詞和排序算法介紹2.3.2 排序算法：2.3 中文分詞和排序算法介紹不同搜索引擎公司排序算法的優(yōu)劣，直接決定了廣大搜索引擎用戶對搜索服務(wù)的選擇，在互聯(lián)網(wǎng)上，一個普通用戶更換搜索服務(wù)只需要5秒鐘，所以排序算法就成為了各個搜索引擎公司最核心機密。另外，每個搜索引擎公司也必須不停地改進其排序算法。2.3 中文分詞和排序算法介紹2.3 中文分詞和排序算法介紹排序算法部分參考指標(biāo)：指標(biāo)加分減分網(wǎng)站硬件指標(biāo)網(wǎng)站網(wǎng)絡(luò)好，系統(tǒng)穩(wěn)定網(wǎng)站系統(tǒng)不穩(wěn)定，網(wǎng)絡(luò)不好網(wǎng)站包含網(wǎng)頁數(shù)總網(wǎng)頁數(shù)目多總網(wǎng)頁

5、數(shù)目少網(wǎng)頁大小網(wǎng)頁大小適中網(wǎng)頁多大或過小其他網(wǎng)頁鏈到本網(wǎng)頁數(shù)目多數(shù)目少網(wǎng)頁內(nèi)URL數(shù)數(shù)目適中過多或過少網(wǎng)頁相關(guān)性URL連接網(wǎng)頁是相關(guān)內(nèi)容URL連接網(wǎng)頁不是相關(guān)內(nèi)容網(wǎng)頁更新/生成日期日期近的日期遠(yuǎn)的網(wǎng)頁類型靜態(tài)網(wǎng)頁動態(tài)網(wǎng)頁網(wǎng)頁內(nèi)樣式網(wǎng)頁設(shè)計樣式中等網(wǎng)頁設(shè)計樣式過于復(fù)雜或簡單網(wǎng)頁具體內(nèi)容分詞后，各個詞權(quán)重總和高分詞后，各個詞權(quán)重總和低用戶訪問行為點擊多的網(wǎng)頁點擊少的網(wǎng)頁2.3 中文分詞和排序算法介紹排序算法部分參考指標(biāo)：指標(biāo)2.3 中文分詞和排序算法介紹排序算法雖然解決了網(wǎng)頁排序的問題，但是有時候有些搜索結(jié)果還是很難讓用戶滿意。為此，搜索引擎排序算法一項重要改進：“聚類”，就被引進來提高排序效果

6、。 “聚類”方法，是把網(wǎng)頁分類成各種不同類型，比如說：分類為“體育”、“娛樂”、“軍事”、“旅游”、“金融”、“政治”、“汽車”、“房產(chǎn)”等。針對每一種分類，各自有一套專用的排序算法。當(dāng)查詢詞為“高爾夫”時，查詢結(jié)果為“體育”+“汽車”，排序算法為通用算法；但當(dāng)查詢詞為“高爾夫伍茲”時，其分類就能確定為“體育”，其排序算法就采用“體育”類別的算法。2.3 中文分詞和排序算法介紹排序算法雖然解決了網(wǎng)頁排序的2.3 中文分詞和排序算法介紹排序算法是決定了各個網(wǎng)頁的排序，但是對于一些特殊情況，也需要“人工干預(yù)”，畢竟一個通用算法并不能解決所有問題。比如說：查詢詞為“北理”，其實含義是“北京理工大學(xué)

7、”。在Google的搜索結(jié)果中，第一個就是“北京理工大學(xué)”，但在“北京理工大學(xué)”網(wǎng)頁中根本找不到“北理”兩個字。以下是搜索結(jié)果：北京理工大學(xué)以工為主，包含理工、管理、法律、外語的多科性全國重點大學(xué)。/ - 42k - 類似網(wǎng)頁 “人工干預(yù)”是排序算法，非常重要的一個補充，大大改進了搜索結(jié)果。搜索引擎公司的競價排名和滾動排名，也都是“人工干預(yù)”的范疇。2.3 中文分詞和排序算法介紹排序算法是決定了各個網(wǎng)頁的排2.3 中文分詞和排序算法介紹GOOGLE的PageRank技術(shù)PageRank 技術(shù)是Google 檢索結(jié)果的一種排序算法, 中文通常譯為頁面級別或頁面等級, 根據(jù)這個算法, Google

8、認(rèn)為每個網(wǎng)頁都有一個反映其重要性的值, 值越高表明其頁面級別越高, 即網(wǎng)頁越重要; 網(wǎng)頁的質(zhì)量和重要性也可以通過其它網(wǎng)頁對其超文本鏈接的數(shù)量來衡量, 具體來說, 假如網(wǎng)頁A 有一個指向網(wǎng)頁B 的鏈接, 則意味著網(wǎng)頁A 認(rèn)為網(wǎng)頁B 是重要的。Google 根據(jù)網(wǎng)頁被鏈接的數(shù)量來評定其重要性。假如有10 個網(wǎng)頁指向網(wǎng)頁A , 而指向網(wǎng)頁B 的鏈接卻只有2 個, 則說明網(wǎng)頁A 比網(wǎng)頁B更加重要。2.3 中文分詞和排序算法介紹GOOGLE的PageRankGOOGLE的PageRank技術(shù)事實上, 在實際計算網(wǎng)頁的PageRank 值時, Google 還考慮到網(wǎng)頁A 的所有鏈入網(wǎng)頁(鏈接到某網(wǎng)頁的

9、其它網(wǎng)頁稱為該網(wǎng)頁的鏈入網(wǎng)頁) 對它的推薦能力(即由于它們對網(wǎng)頁A的鏈接, 使人們認(rèn)為網(wǎng)頁A 的重要程度) 和推薦程度(即它們認(rèn)為網(wǎng)頁A 的重要程度)。一個網(wǎng)頁本身的PageRank 值越高, 則它對其鏈出網(wǎng)頁(從某個網(wǎng)頁鏈出的網(wǎng)頁稱為該網(wǎng)頁的鏈出網(wǎng)頁) 的推薦能力就越大; 一個網(wǎng)頁的鏈出網(wǎng)頁越少, 那么它對其中一個鏈出網(wǎng)頁的推薦程度就越高。GOOGLE的PageRank技術(shù)我們可以用以下公式來簡要表達Google 關(guān)于網(wǎng)頁PageRank 值的計算:PR (A ) = (1- d) + d(PR (T1)/C (T1) + .+ PR (Tn)/C (Tn) 其中,PR (A ) 是指網(wǎng)頁A

10、的PageRank 值;T1, T2, ., Tn 是網(wǎng)頁A 的鏈入網(wǎng)頁;PR (T i) 是指網(wǎng)頁T i 的PageRank 值( i= 1, 2, .n) ;C (T i) 是指網(wǎng)頁T i 的鏈出網(wǎng)頁的數(shù)量( i= 1, 2, .n) ;d 是一個衰減因子, 0 d 1, 通常取值為0. 85。搜索引擎學(xué)習(xí)課件-2-3-(1)可見, 一個網(wǎng)頁的PageRank 值, 主要取決于以下三個因素:(1) 該網(wǎng)頁的鏈入數(shù)量;(2) 該網(wǎng)頁的鏈入網(wǎng)頁本身的PageRank 值;(3) 該網(wǎng)頁的鏈入網(wǎng)頁本身的鏈出數(shù)量。顯然, 根據(jù)以上公式, 一個網(wǎng)頁的鏈入數(shù)量越多、這些鏈入網(wǎng)頁的PageRank 值越高、這些鏈入網(wǎng)頁本身的鏈出數(shù)量越少, 則該網(wǎng)頁的PageRank 值越高?？梢? 一個網(wǎng)頁的PageRank 值, 主要取決于以下三個GOOGLE的超文本匹配分析技術(shù)(Hype

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎學(xué)習(xí)課件-2-3-

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎學(xué)習(xí)課件-2-3-

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔