seo學(xué)習(xí)中文搜索引擎技術(shù)_第1頁
seo學(xué)習(xí)中文搜索引擎技術(shù)_第2頁
seo學(xué)習(xí)中文搜索引擎技術(shù)_第3頁
seo學(xué)習(xí)中文搜索引擎技術(shù)_第4頁
seo學(xué)習(xí)中文搜索引擎技術(shù)_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第八章 中文搜索引擎技術(shù)第一節(jié) 中文分詞技術(shù) 分詞技術(shù)簡述百度分詞技術(shù) 分詞中的難題與發(fā)展第二節(jié) 拼寫檢查錯誤提示 第三節(jié)相關(guān)提示功能分析 第四節(jié) CACHE結(jié)構(gòu) CACHE的實(shí)現(xiàn)原理 三級CACHE的設(shè)計(jì) 一.什么是中文分詞 把中文的漢字序列切分成有意義的詞。二.分詞技術(shù)簡述 例:我/是/一個/學(xué)生 1.基于字符串匹配的分詞方法 按照一定的策略將待分析的漢字串與一個機(jī)器詞庫中的詞條進(jìn)行匹配。 常用分詞方法:正向最大匹配法(由左到右的方向)例:我 /有意/ 見/ 分歧反向最大匹配法 例:我 /有/意見/分歧統(tǒng)計(jì)結(jié)果表明:單純使用正向最大匹配的錯誤率為1/169,單純使用反向最大匹配的錯誤率為1

2、/245。逆向匹配的切分精度略高于正向匹配。2.基于統(tǒng)計(jì)的分詞方法 相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。 用于系統(tǒng)自動識別新詞。 3.基于理解的分詞方法 在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。三.百度分詞技術(shù)分析 1.最大分詞詞長:小于等于3個中文字不切割對于大于等于4個漢字的詞將被分詞。2.分詞算法:查詢:“工地方向?qū)А闭蜃畲笃ヅ? 工地/方向/導(dǎo)反向最大匹配: 工/地方/向?qū)О俣炔捎谜蜃畲笃ヅ渌惴ú樵? 鄧小平安定軍山正向最大匹配: 鄧小平/安定/軍/山百度分詞:鄧小平/安/定軍山結(jié)論:百度識別人名、影視、戲劇名等專用詞,專用詞庫分詞時優(yōu)先

3、。 查詢:何潤東西南北(“何潤東”、“東西南北”兩個詞)正向最大匹配: 何潤東/西/南北歸納: 首先用專有詞典采用最大正向匹配分詞,切分出部分結(jié)果; 剩余沒有切分交給普通詞典,同樣采取正向最大匹配分詞。 四.分詞中的難題 1.歧義識別 這個門把手壞了 把手是個詞 ;請把手拿開 把手不是一個詞; 元帥任命了一名中將 中將是個詞;產(chǎn)量三年中將增長兩倍 中將不再是詞。 真歧義 乒乓球拍賣完了可以切分成乒乓 球拍 賣 完 了、也可切分成乒乓球 拍賣 完 了。2.新詞識別 就是那些在字典中沒收錄過,但又確實(shí)能稱為詞的那些詞。 聽說溫家寶物非常多吳官正在吉林考察 收錄人名本身是一項(xiàng)巨大的工程 過多專用人名

4、的收錄很容易出現(xiàn)問題 五.最新進(jìn)展 設(shè)計(jì)目標(biāo): 1.無長度限制2.歧義包容:將出現(xiàn)歧義的 各種可能性都包含進(jìn)去, 作為分詞的參考。方案:將關(guān)系數(shù)據(jù)庫的詞按 字打散,并存放到層次 數(shù)據(jù)庫中。 特色:分詞長度限制,詞的 長度變成了樹的高度, 每一次的匹配變成了樹 的遍歷。感冒感冒解痛散感冒解痛顆粒感冒解痛靈茶 等都能匹配一.實(shí)例分析百度維持著一個同音詞詞典,多音字不區(qū)分 百度的中文糾錯和拼音檢索使用的機(jī)制相同。百度是將分詞詞典里面每個詞條利用拼音標(biāo)注程序標(biāo)注成拼音。查詢:羅華世界有風(fēng)軍 詞長不限,專用詞全部標(biāo)注二.錯誤提示流程利用拼音標(biāo)注程序?qū)τ脩糨斎脒M(jìn)行拼音標(biāo)注 用戶輸入查分詞詞典 不做拼寫檢查

5、 匹配在同音詞詞典里面掃描 不匹配不做提示 不匹配匹配輸出權(quán)重比較大的幾個提示結(jié)果拼音提示流程一.如何獲得用戶的查詢信息 可對搜索引擎用戶查詢?nèi)罩?LOG)文件做查詢歸類。 二.如何選擇提示詞 對于用戶查詢進(jìn)行分詞,然后對于分詞后的結(jié)果來進(jìn)行相似性計(jì)算。 “娛樂新聞報(bào)道”和“新聞娛樂報(bào)道”的相關(guān)提示完全一樣。三.如何計(jì)算相似性并排序輸出 為什么增加的是“娛樂報(bào)道”和“新聞報(bào)道”的相關(guān)提示呢?設(shè)每個單詞都有一個權(quán)重值IDF(word)log(N/DF(word) 注:N為百度收錄的網(wǎng)頁總數(shù),設(shè)為10億; DF(word) 是包含單詞word的網(wǎng)頁數(shù)目 得: IDF(娛樂)=log(10/0.32

6、5)=1.488 IDF(新聞)=log(10/0.563)=1.249 IDF(報(bào)道)= log(10/0.172)=1.764 權(quán)重是報(bào)道娛樂新聞IDF(娛樂,新聞,報(bào)道) = IDF(娛樂) + IDF(娛樂) + IDF(娛樂) =4.501IDF(娛樂,新聞,報(bào)道) IDF(娛樂,報(bào)道)IDF(新聞,報(bào)道)查詢權(quán)重相同,則按照用戶查詢次數(shù)由高到低排序輸出。娛樂,新聞,報(bào)道娛樂,報(bào)道新聞,報(bào)道研究表明用戶的查詢有30%-40%是重復(fù)的。一.一級Cache的設(shè)計(jì) 1.百度的一級Cache 提交一個古怪的查詢,只要是兩次提交同樣的查詢,第二次返回時間總是0.001秒,證明Cache的存在。2.Cache的實(shí)現(xiàn)哈希(Hash)表 什么是哈希表 不經(jīng)過任何比較,一次存取便能得到所查記錄。在記錄的存儲位置和它的關(guān)鍵字之間建立一個對應(yīng)關(guān)系 哈希函數(shù)的構(gòu)造方法 例:除留余數(shù)法 H(key)=key MOD p 如:在長度為11的哈希表中已填有關(guān)鍵字為17,60,29的記錄(哈希函數(shù) H(key)=key MOD11) 處理沖突的方法 為該關(guān)鍵字的記錄找到另一個“空”的哈希地址。 例:開放定址法 Hi=(H(key)+di) MOD m (m=空間大小)di=1,2,m-1稱線性探測再散

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論