中文分詞切詞超詳細分析_第1頁
中文分詞切詞超詳細分析_第2頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

3/3中文分詞切詞超詳細分析前面我們講個搜索引擎如何搜集網(wǎng)頁,今天說下第二個過程網(wǎng)頁預(yù)處理,其中中文分詞就顯得尤其重要,下面就詳細講解一下搜索引擎是怎么進行網(wǎng)頁預(yù)處理的:

網(wǎng)頁預(yù)處理的第一步就是為原始網(wǎng)頁建立索引,有了索引就可以為搜索引擎提供網(wǎng)頁快照功能;接下來針對索引網(wǎng)頁庫進行網(wǎng)頁切分,將每一篇網(wǎng)頁轉(zhuǎn)化為一組詞的集合;最后將網(wǎng)頁到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁的映射,形成倒排文件(包括倒排表和索引詞表),同時將網(wǎng)頁中包含的不重復(fù)的索引詞匯聚成索引詞表。如下圖所示:

一個原始網(wǎng)頁庫由若干個記錄組成,每個記錄包括記錄頭部信息(HEAD)和數(shù)據(jù)(DATA),每個數(shù)據(jù)由網(wǎng)頁頭信息(header),網(wǎng)頁內(nèi)容信息(content)組成。索引網(wǎng)頁庫的任務(wù)就是完成給定一個URL,在原始網(wǎng)頁庫中定位到該URL所指向的記錄。

如下圖所示:

對索引網(wǎng)頁庫信息進行預(yù)處理包括網(wǎng)頁分析和建立倒排文件索引兩個部分。中文自動分詞是網(wǎng)頁分析的前提。文檔由被稱作特征項的索引詞(詞或者字)組成,網(wǎng)頁分析是將一個文檔表示為特征項的過程。在對中文文本進行自動分析前,先將整句切割成小的詞匯單元,即中文分詞(或中文切詞)。切詞軟件中使用的基本詞典包括詞條及其對應(yīng)詞頻。

自動分詞的基本方法有兩種:基于字符串匹配的分詞方法和基于統(tǒng)計的分詞方法。

1)基于字符串匹配的分詞方法

這種方法又稱為機械分詞方法,它是按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。

按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大或最長匹配,和最小或最短匹配;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下:

?正向最大匹配;

?逆向最大匹配;

?最少切分(使每一句中切出的詞數(shù)最小)。

還可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。

對于機械分詞方法,可模型化表示為ASM(d,a,m),即AutomaticSegmentationModel。其中,

d:匹配方向,+表示正向,-表示逆向;

a:每次匹配失敗后增加或減少字串長度(字符數(shù)),+為增字,-為減字;

m:最大或最小匹配標志,+為最大匹配,-為最小匹配。

例如,ASM(+,-,+)就是正向減字最大匹配法(MaximumMatchbasedapproach,MM),ASM(-,-,+)就是逆向減字最大匹配法(簡記為RMM方法)。

2)基于統(tǒng)計的分詞方法

從形式上看,詞是穩(wěn)定的字的組合,因此上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。

可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。

互現(xiàn)信息體現(xiàn)類漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。

實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。

正向減字最大匹配法

這是主要的中文切詞方法,正向減字最大匹配法切分的過程是從自然語言的中文語句中提取出設(shè)定的長度字串,與詞典比較,如果在詞典中,就算一個有意義的詞串,并用分隔符分隔輸出,否則縮短字串,在詞典中重新查找(詞典是預(yù)先定義好的)。

算法要求為:

輸入:中文詞典,待切分的文本d,d中有若干被標點符號分割(我們可以利用標點符號協(xié)助搜索引擎準確分詞)的句子s1,設(shè)定的最大詞長MaxLen。

輸出:每個句子s1被切為若干長度不超過MaxLen的字符串,并用分隔符分開,記為s2,所有s2的連接構(gòu)成d切分之后的文本。

該中文分詞的算法思想是:事先將網(wǎng)頁預(yù)處理成每行是一個句子的純文本格式。從d

中逐句提取,對于每個句子s1從左向右以MaxLen為界選出候選字串w,如果w在詞典中,處理下一個長為MaxLen的候選字段;否則,將w最右邊一個字去掉,繼續(xù)與詞典比較;s1切分完之后,構(gòu)成詞的字符串或者此時w已經(jīng)為單字,用分隔符隔開輸出給s2。從s1中減去w,繼續(xù)處理后續(xù)的字串。s1處理結(jié)束,取T中的下一個句子賦給s1,重復(fù)前述步驟,直到整篇文本d都切分完畢。其中MaxLen是一個經(jīng)驗值,通常設(shè)為8個字節(jié)(即4個漢字),MaxLen過小,長詞會被切斷;過長,又會導(dǎo)致切分效率低。

除了上述從左到右切分一遍句子,還從右到左切分一遍,對于兩遍切分結(jié)果不同的字符串,用回溯法重新處理。例如“學歷史知識”順向掃描的結(jié)果是:“學歷/史/知識/”,通過查詞典知道“史”不在詞典中,于是進行回溯,將“學歷”的尾字“歷”取出與后面的“史”組成“歷史”,再查詞典,看“學”,“歷史”是否在詞典中,如果在,就將分詞結(jié)果調(diào)整為:“學/歷史/知識/”。

為網(wǎng)頁建立全文索引是網(wǎng)頁預(yù)處理的核心部分,包括分析網(wǎng)頁和建立倒排文件。二者是順序進行,先分析網(wǎng)頁,后建立倒排文件(也稱為反向索引)。如下圖所示:

分析網(wǎng)頁過程包括提取正文信息(指過濾網(wǎng)頁標簽,scripts,css,java,

embeddedobjects,comments等信息)和把正文信息切分為索引詞兩個階段。形成的結(jié)果是文檔號到索引詞的對應(yīng)關(guān)系表。每條記錄中包括文檔編號,索引詞編號,索引詞在文檔中的位置信息,“索引詞載體信息”(這些信息標識類文檔中索引詞的字體和大小等信息,或稱載體信息)。

得到網(wǎng)頁正文信息,調(diào)用切詞模塊,獲得正向索引。每一個網(wǎng)頁由兩行信息組成,第一行是文檔編號,第二行是使用切分模塊將文檔正文信息劃分成索引詞后的集合。

如上圖所示,創(chuàng)建倒排索引包括建立正向索引和反向索引。分析完網(wǎng)頁后,得到以網(wǎng)頁編號為主鍵的正向索引表。然后將相同索引詞對應(yīng)的數(shù)據(jù)合并到一起,就得到了以索引詞為主鍵的最終的倒排文件索引,即反向索引.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論