seo學(xué)習(xí)中文搜索引擎技術(shù)

上傳人：麻*** IP屬地：四川上傳時間：2022-07-10 格式：PPTX 頁數(shù)：18 大?。?38.68KB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第八章中文搜索引擎技術(shù)第一節(jié) 中文分詞技術(shù) 分詞技術(shù)簡述百度分詞技術(shù) 分詞中的難題與發(fā)展第二節(jié) 拼寫檢查錯誤提示第三節(jié)相關(guān)提示功能分析第四節(jié) CACHE結(jié)構(gòu) CACHE的實(shí)現(xiàn)原理三級CACHE的設(shè)計(jì) 一.什么是中文分詞把中文的漢字序列切分成有意義的詞。二.分詞技術(shù)簡述例：我/是/一個/學(xué)生 1.基于字符串匹配的分詞方法按照一定的策略將待分析的漢字串與一個機(jī)器詞庫中的詞條進(jìn)行匹配。常用分詞方法：正向最大匹配法（由左到右的方向）例：我 /有意/ 見/ 分歧反向最大匹配法例：我 /有/意見/分歧統(tǒng)計(jì)結(jié)果表明:單純使用正向最大匹配的錯誤率為1/169，單純使用反向最大匹配的錯誤率為1

2、/245。逆向匹配的切分精度略高于正向匹配。2.基于統(tǒng)計(jì)的分詞方法相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個詞。用于系統(tǒng)自動識別新詞。 3.基于理解的分詞方法在分詞的同時進(jìn)行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。三.百度分詞技術(shù)分析 1.最大分詞詞長：小于等于3個中文字不切割對于大于等于4個漢字的詞將被分詞。2.分詞算法：查詢:“工地方向?qū)А闭蜃畲笃ヅ? 工地/方向/導(dǎo)反向最大匹配: 工/地方/向?qū)О俣炔捎谜蜃畲笃ヅ渌惴ú樵? 鄧小平安定軍山正向最大匹配: 鄧小平/安定/軍/山百度分詞：鄧小平/安/定軍山結(jié)論：百度識別人名、影視、戲劇名等專用詞，專用詞庫分詞時優(yōu)先

3、。查詢:何潤東西南北(“何潤東”、“東西南北”兩個詞)正向最大匹配: 何潤東/西/南北歸納: 首先用專有詞典采用最大正向匹配分詞，切分出部分結(jié)果；剩余沒有切分交給普通詞典，同樣采取正向最大匹配分詞。四.分詞中的難題 1.歧義識別這個門把手壞了把手是個詞；請把手拿開把手不是一個詞；元帥任命了一名中將中將是個詞；產(chǎn)量三年中將增長兩倍中將不再是詞。真歧義乒乓球拍賣完了可以切分成乒乓球拍賣完了、也可切分成乒乓球拍賣完了。2.新詞識別就是那些在字典中沒收錄過，但又確實(shí)能稱為詞的那些詞。聽說溫家寶物非常多吳官正在吉林考察收錄人名本身是一項(xiàng)巨大的工程過多專用人名

4、的收錄很容易出現(xiàn)問題五.最新進(jìn)展設(shè)計(jì)目標(biāo): 1.無長度限制2.歧義包容:將出現(xiàn)歧義的各種可能性都包含進(jìn)去，作為分詞的參考。方案：將關(guān)系數(shù)據(jù)庫的詞按字打散，并存放到層次數(shù)據(jù)庫中。特色：分詞長度限制，詞的長度變成了樹的高度，每一次的匹配變成了樹的遍歷。感冒感冒解痛散感冒解痛顆粒感冒解痛靈茶等都能匹配一.實(shí)例分析百度維持著一個同音詞詞典,多音字不區(qū)分百度的中文糾錯和拼音檢索使用的機(jī)制相同。百度是將分詞詞典里面每個詞條利用拼音標(biāo)注程序標(biāo)注成拼音。查詢：羅華世界有風(fēng)軍詞長不限，專用詞全部標(biāo)注二.錯誤提示流程利用拼音標(biāo)注程序?qū)τ脩糨斎脒M(jìn)行拼音標(biāo)注用戶輸入查分詞詞典不做拼寫檢查

5、匹配在同音詞詞典里面掃描不匹配不做提示不匹配匹配輸出權(quán)重比較大的幾個提示結(jié)果拼音提示流程一.如何獲得用戶的查詢信息可對搜索引擎用戶查詢?nèi)罩?LOG)文件做查詢歸類。二.如何選擇提示詞對于用戶查詢進(jìn)行分詞，然后對于分詞后的結(jié)果來進(jìn)行相似性計(jì)算。 “娛樂新聞報(bào)道”和“新聞娛樂報(bào)道”的相關(guān)提示完全一樣。三.如何計(jì)算相似性并排序輸出為什么增加的是“娛樂報(bào)道”和“新聞報(bào)道”的相關(guān)提示呢？設(shè)每個單詞都有一個權(quán)重值IDF(word)log(N/DF(word) 注：N為百度收錄的網(wǎng)頁總數(shù)，設(shè)為10億； DF(word) 是包含單詞word的網(wǎng)頁數(shù)目得： IDF(娛樂)=log(10/0.32

6、5)=1.488 IDF(新聞)=log(10/0.563)=1.249 IDF(報(bào)道)= log(10/0.172)=1.764 權(quán)重是報(bào)道娛樂新聞IDF(娛樂,新聞,報(bào)道) = IDF(娛樂) + IDF(娛樂) + IDF(娛樂) =4.501IDF(娛樂,新聞,報(bào)道) IDF(娛樂,報(bào)道)IDF(新聞,報(bào)道)查詢權(quán)重相同，則按照用戶查詢次數(shù)由高到低排序輸出。娛樂,新聞,報(bào)道娛樂,報(bào)道新聞,報(bào)道研究表明用戶的查詢有30%-40%是重復(fù)的。一.一級Cache的設(shè)計(jì) 1.百度的一級Cache 提交一個古怪的查詢，只要是兩次提交同樣的查詢，第二次返回時間總是0.001秒,證明Cache的存在。2.Cache的實(shí)現(xiàn)哈希(Hash)表什么是哈希表不經(jīng)過任何比較，一次存取便能得到所查記錄。在記錄的存儲位置和它的關(guān)鍵字之間建立一個對應(yīng)關(guān)系哈希函數(shù)的構(gòu)造方法例：除留余數(shù)法 H(key)=key MOD p 如:在長度為11的哈希表中已填有關(guān)鍵字為17，60，29的記錄(哈希函數(shù) H(key)=key MOD11) 處理沖突的方法為該關(guān)鍵字的記錄找到另一個“空”的哈希地址。例：開放定址法 Hi=(H(key)+di) MOD m (m=空間大小)di=1,2,m-1稱線性探測再散

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

seo學(xué)習(xí)中文搜索引擎技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

seo學(xué)習(xí)中文搜索引擎技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔