版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、2.3 中文分詞和排序算法介紹2.3.1 中文分詞:中文本身存在著很大的歧義性,同樣一句話,不同的斷句,表達的意思就不一樣。這對于計算機去做機器分析,就帶來了巨大的困難。下面的中文斷句,來自百度廣告宣傳片:我知道你不知道我知道你不知道我知道你不知道2.3 中文分詞和排序算法介紹2.3.1 中文分詞:2.3 中文分詞和排序算法介紹2.3.1 中文分詞:另外中文的具體含義,還必須放在具體的前后語言環(huán)境中去分析。比如說:乒乓球拍賣完了我去學(xué)校商店,發(fā)現(xiàn)乒乓 球拍 賣 完 了在今天的慈善拍賣會上,世界冠軍們奪冠時的乒乓球 拍賣 完 了 2.3 中文分詞和排序算法介紹2.3.1 中文分詞:中文分詞,在具
2、體的算法實現(xiàn)上分為三種:1.字符串匹配(正序、逆序、最少切分、最大切分等)2.基于理解(詞法,句法等方式處理)3.基于統(tǒng)計在中文搜索引擎中,目前基本上是這三種算法混合使用。第二種的算法實現(xiàn)起來過于復(fù)雜,所以以第一種和第三種算法為主。中文分詞,在具體的算法實現(xiàn)上分為三種:2.3 中文分詞和排序算法介紹語言本身也是在不停的進化和發(fā)展的,新的詞語層出不窮,一些老的詞語漸漸被棄用。作為中文分詞的基礎(chǔ)詞庫,其新詞補充和老詞刪除就是非常重要的工作?!俺壟暋?、“超女”、“李宇春”、“八榮八恥”、“非典”,當(dāng)這些新詞的出現(xiàn)時,搜索引擎需要快速捕捉到,并且馬上把其添加到分詞系統(tǒng)中去。如何判斷那些詞是新詞,這
3、就全部倚靠算法來實現(xiàn)。新詞捕捉主要來源于新聞和網(wǎng)絡(luò)BBS論壇,主要機制是依靠統(tǒng)計程序,統(tǒng)計上升速度最高的詞。另外作為搜索引擎公司,對眾多用戶的搜索詞進行“用戶行為”分析,也能提高其“新詞補充”效果。2.3 中文分詞和排序算法介紹語言本身也是在不停的進化和發(fā)展2.3 中文分詞和排序算法介紹2.3.2 排序算法:搜索引擎的排序算法(ranking algorithm),決定了各個網(wǎng)頁、圖片、MP3等數(shù)據(jù)的重要性排列順序,也決定了最終用戶查詢到的數(shù)據(jù)排序。搜索引擎的排序算法是人工智能的完滿體現(xiàn),它是對百億級數(shù)據(jù)進行重要性分析的數(shù)學(xué)實現(xiàn)?!?PageRank”是Google公司在排序算法上的專利技術(shù),
4、也是Google能從眾多搜索引擎公司中脫穎而出的最核心技術(shù),作為其搜索服務(wù)能夠超過其他競爭對手最有力的武器。 2.3 中文分詞和排序算法介紹2.3.2 排序算法:2.3 中文分詞和排序算法介紹不同搜索引擎公司排序算法的優(yōu)劣,直接決定了廣大搜索引擎用戶對搜索服務(wù)的選擇,在互聯(lián)網(wǎng)上,一個普通用戶更換搜索服務(wù)只需要5秒鐘,所以排序算法就成為了各個搜索引擎公司最核心機密。另外,每個搜索引擎公司也必須不停地改進其排序算法。2.3 中文分詞和排序算法介紹2.3 中文分詞和排序算法介紹 排序算法部分參考指標(biāo):指標(biāo)加分減分網(wǎng)站硬件指標(biāo)網(wǎng)站網(wǎng)絡(luò)好,系統(tǒng)穩(wěn)定網(wǎng)站系統(tǒng)不穩(wěn)定,網(wǎng)絡(luò)不好網(wǎng)站包含網(wǎng)頁數(shù)總網(wǎng)頁數(shù)目多總網(wǎng)頁
5、數(shù)目少網(wǎng)頁大小網(wǎng)頁大小適中網(wǎng)頁多大或過小其他網(wǎng)頁鏈到本網(wǎng)頁數(shù)目多數(shù)目少網(wǎng)頁內(nèi)URL數(shù)數(shù)目適中過多或過少網(wǎng)頁相關(guān)性URL連接網(wǎng)頁是相關(guān)內(nèi)容URL連接網(wǎng)頁不是相關(guān)內(nèi)容網(wǎng)頁更新/生成日期日期近的日期遠(yuǎn)的網(wǎng)頁類型靜態(tài)網(wǎng)頁動態(tài)網(wǎng)頁網(wǎng)頁內(nèi)樣式網(wǎng)頁設(shè)計樣式中等網(wǎng)頁設(shè)計樣式過于復(fù)雜或簡單網(wǎng)頁具體內(nèi)容分詞后,各個詞權(quán)重總和高分詞后,各個詞權(quán)重總和低用戶訪問行為點擊多的網(wǎng)頁點擊少的網(wǎng)頁2.3 中文分詞和排序算法介紹 排序算法部分參考指標(biāo):指標(biāo)2.3 中文分詞和排序算法介紹排序算法雖然解決了網(wǎng)頁排序的問題,但是有時候有些搜索結(jié)果還是很難讓用戶滿意。為此,搜索引擎排序算法一項重要改進:“聚類”,就被引進來提高排序效果
6、。 “聚類”方法,是把網(wǎng)頁分類成各種不同類型,比如說:分類為“體育”、“娛樂”、“軍事”、“旅游”、“金融”、“政治”、“汽車”、“房產(chǎn)”等。針對每一種分類,各自有一套專用的排序算法。當(dāng)查詢詞為“高爾夫”時,查詢結(jié)果為“體育”+“汽車”,排序算法為通用算法;但當(dāng)查詢詞為“高爾夫 伍茲”時,其分類就能確定為“體育”,其排序算法就采用“體育”類別的算法。2.3 中文分詞和排序算法介紹排序算法雖然解決了網(wǎng)頁排序的2.3 中文分詞和排序算法介紹排序算法是決定了各個網(wǎng)頁的排序,但是對于一些特殊情況,也需要“人工干預(yù)”,畢竟一個通用算法并不能解決所有問題。比如說:查詢詞為“北理”,其實含義是“北京理工大學(xué)
7、”。在Google的搜索結(jié)果中,第一個就是“北京理工大學(xué)”,但在“北京理工大學(xué)”網(wǎng)頁中根本找不到“北理”兩個字。以下是搜索結(jié)果:北京理工大學(xué)以工為主,包含理工、管理、法律、外語的多科性全國重點大學(xué)。/ - 42k - 類似網(wǎng)頁 “人工干預(yù)”是排序算法,非常重要的一個補充,大大改進了搜索結(jié)果。搜索引擎公司的競價排名和滾動排名,也都是“人工干預(yù)”的范疇。2.3 中文分詞和排序算法介紹排序算法是決定了各個網(wǎng)頁的排2.3 中文分詞和排序算法介紹GOOGLE的PageRank技術(shù)PageRank 技術(shù)是Google 檢索結(jié)果的一種排序算法, 中文通常譯為頁面級別或頁面等級, 根據(jù)這個算法, Google
8、 認(rèn)為每個網(wǎng)頁都有一個反映其重要性的值, 值越高表明其頁面級別越高, 即網(wǎng)頁越重要; 網(wǎng)頁的質(zhì)量和重要性也可以通過其它網(wǎng)頁對其超文本鏈接的數(shù)量來衡量, 具體來說, 假如網(wǎng)頁A 有一個指向網(wǎng)頁B 的鏈接, 則意味著網(wǎng)頁A 認(rèn)為網(wǎng)頁B 是重要的。Google 根據(jù)網(wǎng)頁被鏈接的數(shù)量來評定其重要性。假如有10 個網(wǎng)頁指向網(wǎng)頁A , 而指向網(wǎng)頁B 的鏈接卻只有2 個, 則說明網(wǎng)頁A 比網(wǎng)頁B更加重要。2.3 中文分詞和排序算法介紹GOOGLE的PageRankGOOGLE的PageRank技術(shù)事實上, 在實際計算網(wǎng)頁的PageRank 值時, Google 還考慮到網(wǎng)頁A 的所有鏈入網(wǎng)頁(鏈接到某網(wǎng)頁的
9、其它網(wǎng)頁稱為該網(wǎng)頁的鏈入網(wǎng)頁) 對它的推薦能力(即由于它們對網(wǎng)頁A的鏈接, 使人們認(rèn)為網(wǎng)頁A 的重要程度) 和推薦程度(即它們認(rèn)為網(wǎng)頁A 的重要程度)。一個網(wǎng)頁本身的PageRank 值越高, 則它對其鏈出網(wǎng)頁(從某個網(wǎng)頁鏈出的網(wǎng)頁稱為該網(wǎng)頁的鏈出網(wǎng)頁) 的推薦能力就越大; 一個網(wǎng)頁的鏈出網(wǎng)頁越少, 那么它對其中一個鏈出網(wǎng)頁的推薦程度就越高。GOOGLE的PageRank技術(shù)我們可以用以下公式來簡要表達Google 關(guān)于網(wǎng)頁PageRank 值的計算:PR (A ) = (1- d) + d(PR (T1)/C (T1) + .+ PR (Tn)/C (Tn) 其中,PR (A ) 是指網(wǎng)頁A
10、 的PageRank 值;T1, T2, ., Tn 是網(wǎng)頁A 的鏈入網(wǎng)頁;PR (T i) 是指網(wǎng)頁T i 的PageRank 值( i= 1, 2, .n) ;C (T i) 是指網(wǎng)頁T i 的鏈出網(wǎng)頁的數(shù)量( i= 1, 2, .n) ;d 是一個衰減因子, 0 d 1, 通常取值為0. 85。搜索引擎學(xué)習(xí)課件-2-3-(1)可見, 一個網(wǎng)頁的PageRank 值, 主要取決于以下三個因素:(1) 該網(wǎng)頁的鏈入數(shù)量;(2) 該網(wǎng)頁的鏈入網(wǎng)頁本身的PageRank 值;(3) 該網(wǎng)頁的鏈入網(wǎng)頁本身的鏈出數(shù)量。顯然, 根據(jù)以上公式, 一個網(wǎng)頁的鏈入數(shù)量越多、這些鏈入網(wǎng)頁的PageRank 值越高、這些鏈入網(wǎng)頁本身的鏈出數(shù)量越少, 則該網(wǎng)頁的PageRank 值越高??梢? 一個網(wǎng)頁的PageRank 值, 主要取決于以下三個GOOGLE的超文本匹配分析技術(shù)(Hype
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度WPS文檔租賃合同費用結(jié)算及支付方式調(diào)整3篇
- 職業(yè)健身教練課程設(shè)計
- 二零二五年度農(nóng)業(yè)產(chǎn)業(yè)化公司入股合同書3篇
- 2024年物業(yè)協(xié)議終止補充協(xié)議書版B版
- 液壓轉(zhuǎn)向器的課程設(shè)計
- 礦山電工課程設(shè)計
- 幼兒單腳站立課程設(shè)計
- 2024年規(guī)范化勞務(wù)外包協(xié)議樣本版B版
- 2024涉外貨物買賣合同涉及的稅收和保險問題
- 二零二五年度黨建與企業(yè)職工心理健康合作協(xié)議3篇
- 精選天津高三生物知識點
- JGJ107-2016鋼筋機械連接技術(shù)規(guī)程培訓(xùn)宣貫
- 國際商務(wù)單證員考證總復(fù)習(xí)
- 公共事業(yè)管理概論(婁成武版)各章知識點歸納
- 機電設(shè)備安裝作業(yè)指導(dǎo)書
- 申克轉(zhuǎn)子秤安裝圖片指引ppt課件
- 山東昌樂二中“271高效課堂”教學(xué)模式
- 金朝的水利與社會經(jīng)濟
- 工程竣工保修期滿移交書
- 急診科烏頭堿中毒課件
- 高等數(shù)學(xué)同濟大學(xué)第7版 課后習(xí)題答案解析完整版
評論
0/150
提交評論