自然語言理解-詞法_第1頁
自然語言理解-詞法_第2頁
自然語言理解-詞法_第3頁
自然語言理解-詞法_第4頁
自然語言理解-詞法_第5頁
已閱讀5頁,還剩98頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、詞法分析語言根據(jù)詞的形態(tài)結(jié)構(gòu)分類n分析型語言n沒有專門表示語法意義的附加成分n漢語,藏語n黏著型語言n詞內(nèi)有專門表示語法意義的附加成分n芬蘭語,日語n曲折性語言n用詞的形態(tài)變化表示語法關(guān)系n英語,德語,法語什么是詞?n詞是語言中最小的能獨(dú)立運(yùn)用的單位,是信息處理的基本單位。n界定詞的困難所在n單字詞與語素之間的劃界n詞與短語之間的劃界n漢語自動(dòng)分詞n把沒有明顯分界標(biāo)志的字串自動(dòng)切分為詞串 背 景漢語的特點(diǎn): 漢語是大字符集的語言 英語有26個(gè)字母,而常用的漢字就有六七千個(gè),總數(shù)超過五萬 書面漢語的詞與詞之間沒有明確的分隔標(biāo)記 背 景 漢語中兼類現(xiàn)象嚴(yán)重 例如:“和”根據(jù)現(xiàn)代漢語詞典可以有五種讀

2、音,六種詞性,以及十六種不同的詞義 印歐語系多有形態(tài)變化,而漢語缺少形態(tài)變化 例如:復(fù)數(shù)、單數(shù),過去、現(xiàn)在,陰性、陽性等等漢語詞法分析所面臨的問題n分詞詞表分詞詞表n重疊詞、詞綴重疊詞、詞綴n分詞和理解,孰先孰后?分詞和理解,孰先孰后? n歧義切分字段歧義切分字段 n專有名詞的專有名詞的識(shí)別識(shí)別 分詞詞表分詞詞表 漢語詞的抽象定義(既“詞是什么”)與具體判定(既“什么是詞”)問題,語言學(xué)界并未完全解決 詞表對(duì)自動(dòng)分詞而言,是最基礎(chǔ)的“構(gòu)件” 分詞詞表分詞詞表 信息處理用現(xiàn)代漢語分詞規(guī)范 迄今也沒有一個(gè)公認(rèn)的、具有權(quán)威性的詞表,這是分詞問題所面臨的第一個(gè)困難漢語雙字形容詞的重疊形式 漢語單字形容

3、詞的重疊形式漢語雙字動(dòng)詞的重疊形式漢語單字動(dòng)詞的重疊形式漢語其他詞類的重疊形式 n名詞n哥哥,人人n山山水水,是是非非,方方面面,頭頭腦腦n數(shù)詞n一一做了回答,兩兩結(jié)伴而來n量詞n個(gè)個(gè)都是好樣的,回回考滿分n副詞n常常,僅僅,的的確確漢語重疊詞的特點(diǎn)n漢語詞能否重疊具有很強(qiáng)的個(gè)性特點(diǎn)n研究研究n工作工作n有些詞重疊后詞性發(fā)生了變化n形容詞重疊后一般成為狀態(tài)詞n個(gè)別量詞重疊后可以成為其他詞性n回回:副詞n個(gè)個(gè):名詞漢語詞綴n前綴n老鷹、老虎、老三、老王n超豪華、超標(biāo)準(zhǔn)、超高速n非黨員n后綴n骨頭、磚頭、甜頭、苦頭、盼頭、想頭n桌子、椅子、孩子、票子、房子n文學(xué)家、指揮家、藝術(shù)家n科學(xué)性、可能性、

4、學(xué)術(shù)性n碗兒、花兒、玩兒、份兒、片兒 分詞和理解,孰先孰后?分詞和理解,孰先孰后? 計(jì)算機(jī)分詞仍然面臨知識(shí)短缺的大問題 計(jì)算機(jī)大概永遠(yuǎn)做不到像人那樣先理解后分詞 不可企求百分之百的正確切分,這是自動(dòng)分詞所面臨的第二個(gè)困難漢語切分歧義n例子n公路局處理解放大道路面積水問題。n南京市長江大橋說: 歧義切分字段歧義切分字段 定義定義1.11.1 交集型歧義:交集型歧義:字串ABC,其中漢字字串A、B、C的長度均大于零,該字串可以切分為AB/C或A/BC,則稱該字串為交集型歧義字串。例如:出現(xiàn)在出現(xiàn)/ 在(切分1)出現(xiàn)在出/現(xiàn)在(切分2) 歧義切分字段歧義切分字段 定義定義1.21.2組合型歧義:組合

5、型歧義:字串AB,其中漢字字串A、B的長度均大于零,該字串可以切分成AB或A/B,則稱該字串為組合型歧義字串。例如: 馬上馬/上(切分1)馬上馬上 (切分2) 歧義切分字段歧義切分字段 n混合型歧義:由交集型歧義和組合型歧義自身嵌套或兩者交叉組合而產(chǎn)生的歧義n人才能:這樣的人才能經(jīng)受住考驗(yàn)。n人才能:這樣的人才能經(jīng)受住考驗(yàn)。n人才能:這樣的人才能經(jīng)受住考驗(yàn)。 真歧義和偽歧義n真歧義n確實(shí)能在真實(shí)語料中發(fā)現(xiàn)多種切分形式n比如“應(yīng)用于”、“地面積”n偽歧義n雖然有多種切分可能性,但在真實(shí)語料中往往取其中一種切分形式n比如“挨批評(píng)”、“市政府”交集型歧義字段的鏈長n鏈長:交集型歧義字段中含有交集字段

6、的個(gè)數(shù),稱為鏈長。n鏈長為1:和尚未n鏈長為2:結(jié)合成分n鏈長為3:為人民工作n鏈長為4:中國產(chǎn)品質(zhì)量結(jié)合成分子時(shí)n鏈長為6:努力學(xué)習(xí)語法規(guī)則n鏈長為7:治理解放大道路面積水真實(shí)語料中歧義字段的分布 漢語真實(shí)文本中的分詞歧義情況 n材料一:孫茂松等1999n一個(gè)1億字真實(shí)漢語語料庫中抽取出的前4,619個(gè)高頻交集型歧義切分覆蓋了該語料庫中全部交集型歧義切分的59.20%,其中4279個(gè)屬偽歧義(占92.63%,如“和軟件”、“充分發(fā)揮”、“情不自禁地”),覆蓋率高達(dá)53.35%。n材料二:劉開瑛2000,第4章n78248個(gè)交集型歧義字段中,n偽歧義:94% n真歧義:6% 漢語真實(shí)文本中的分

7、詞歧義情況(續(xù)) n分詞歧義的四個(gè)層級(jí)(何克抗等1991, 50883字語料)n詞法歧義:84.1% (“用方塊圖形式加以描述”)n句法歧義:10.8% (“他一陣風(fēng)似的跑了”)n語義歧義:3.4% (“學(xué)生會(huì)寫文章”)n語用歧義:1.7% (“美國會(huì)采取措施制裁伊拉克”)分詞模型 句子侯選切分集切分歧義之解決結(jié)果待切分生成解空間在解空間中求解切分階段一階段二 歧義切分字段歧義切分字段分詞模型 階段一階段一生成解空間 根據(jù)分詞詞表及其某種切分原則,找出輸入句子的侯選切分集合,以供下一階段處理 n 最大匹配法是極端之一,給出唯一侯選(侯選即解)分詞模型 n 全切分法是另一個(gè)極端,給出輸入句子的所

8、有可能切分形式,可實(shí)現(xiàn)無盲點(diǎn)分析,代價(jià)是解空間膨脹太大,又會(huì)造成許多不必要的干擾 關(guān)鍵:能否在保證無切分盲點(diǎn)的前提下,給出盡可能小的解空間分詞模型階段二階段二在解空間中求解解決切分歧義的策略,大致有三: 基于規(guī)則基于規(guī)則 基于詞頻基于詞頻 基于隱基于隱MarkovMarkov模型模型 階段二階段二:在解空間中求解 基于規(guī)則基于規(guī)則 這類研究吸取了人工智能及專家系統(tǒng)的思想基于規(guī)則基于規(guī)則 主要困擾是: n 囿于目前漢語parser的能力,任何期望倚重parser作為解決歧義切分之手段的設(shè)想尚缺乏現(xiàn)實(shí)的基礎(chǔ); n 由于無法實(shí)現(xiàn)parsing,分詞系統(tǒng)所能利用的句法、語義規(guī)則必然是局部的,基本上僅涉

9、及若干毗鄰詞之間的線性關(guān)系,可靠性不強(qiáng),難以建立完整、有效、無矛盾的體系。 階段二階段二:在解空間中求解 基于詞頻基于詞頻 基于詞頻的排歧問題可抽象為求有向圖兩點(diǎn)間最優(yōu)路徑問題。較最大匹配法,可望將切分精確率提高約1%?;谠~頻基于詞頻 本質(zhì)上這是一個(gè)關(guān)于詞的零階Markov模型(也稱作unigram),存在明顯缺陷:其表現(xiàn)不依賴于上下文而變化。例如:字段“只是”,或一律作為一個(gè)詞被切出來,或一律被切成“只/是”(完全取決于“只”“是”和“只是”的詞頻階段二階段二:在解空間中求解 基于隱Markov模型 語法知識(shí)以統(tǒng)計(jì)形式量化在標(biāo)記的概率轉(zhuǎn)移矩陣中 n 表示簡潔、均勻,處理靈活、一致,避免了采

10、用規(guī)則系統(tǒng)的某些弊端; 基于隱Markov模型 n 統(tǒng)計(jì)數(shù)據(jù)從不受任何限制的實(shí)際語料中獲得,可有效提高分析系統(tǒng)的能力及覆蓋面,并且分詞結(jié)果能隨時(shí)反饋到統(tǒng)計(jì)數(shù)據(jù)中,使系統(tǒng)有一定的自學(xué)習(xí)功能。模型的求解仍可歸結(jié)為有向圖兩點(diǎn)最優(yōu)路徑問題基于隱Markov模型 關(guān)鍵:以隱Markov模型為主要手段解決切分歧義,是一種最有希望的方案,但“單打一”恐怕不能完全奏效,必須集成多種手段(方法)。專有名詞專有名詞的識(shí)別 許多分詞算法都是在完備詞表的假設(shè)下設(shè)計(jì)的,這一假設(shè)并不成立。 新詞不斷涌現(xiàn),而且專有名詞雖然不新,但不可能盡收。專有名詞專有名詞的識(shí)別 一般說來,專有名詞包括: 中國人名 中國地名 譯名 組織機(jī)

11、構(gòu)名 事件名 時(shí)間數(shù)量名 商標(biāo)名專有名詞專有名詞的識(shí)別 陳陳/nhf /nhf 平平/nhs/nhs 為/vl 北京大學(xué)北京大學(xué)/ni/ni 中國經(jīng)濟(jì)研究中國經(jīng)濟(jì)研究中心中心/ni/ni 經(jīng)濟(jì)學(xué)/n 教授/n ,/w 中心/n 副/f 主任/n (/w 主管/v 科研/j )/w 。/w 1968/m 年/nt 獲/v 中國科技大學(xué)中國科技大學(xué)/ni/ni 物理系/n 學(xué)士/n 學(xué)位/n ,/w 1987/m 年/nt 獲/v 美國美國/ns/ns 德克薩斯大學(xué)德克薩斯大學(xué)/ni/ni 物理學(xué)/n 博士/n 學(xué)位/n 。/w n “陳平” 人名 n “美國美國” 地名 n “北京大學(xué)北京大學(xué)”

12、、“中國科技大學(xué)中國科技大學(xué)” 、“中國經(jīng)濟(jì)研究中心中國經(jīng)濟(jì)研究中心” 及 “德克薩斯德克薩斯大學(xué)大學(xué)” 屬于組織機(jī)構(gòu)名專有名詞專有名詞的識(shí)別 不同的語料,專名所占的比例也不同。 對(duì)455萬字的人民日?qǐng)?bào)語料統(tǒng)計(jì)的結(jié)果顯示:專名占5.74%,其中,中國人名占2.55%,地名占2.55%,外國譯名占0.73%,如果不予處理,會(huì)對(duì)切分精確率造成比歧義字段更大的影響。 研 究 進(jìn) 展中文詞語的分析過程: 預(yù)處理過程的詞語粗切分 切分排歧與未登錄詞識(shí)別 詞性標(biāo)注在實(shí)際的系統(tǒng)中,這三個(gè)過程可能相互交叉,反復(fù)融合,也可能不存在明顯的先后次序 研 究 進(jìn) 展主要的漢語自動(dòng)分詞系統(tǒng)有:北航的CDWS系統(tǒng),國內(nèi)公

13、開的第一個(gè)實(shí)用性漢字分詞系統(tǒng),采用的自動(dòng)分詞方法為最大匹配法,輔助以詞尾字構(gòu)詞檢錯(cuò)技術(shù),使用知識(shí)庫進(jìn)行糾錯(cuò)。北航的CASS系統(tǒng),它使用的自動(dòng)分詞方法是正向增字最大匹配法,使用知識(shí)庫處理歧義字段。 研 究 進(jìn) 展山西大學(xué)的ABWS分詞系統(tǒng),使用“兩次掃描聯(lián)想回溯”法,利用聯(lián)想-回溯來有效地解決歧義組合結(jié)構(gòu)的切分,同時(shí)兼有自動(dòng)檢錯(cuò)和糾錯(cuò)的功能。其分詞子系統(tǒng)較好地利用了語言學(xué)中的詞法知識(shí)、句法知識(shí),并具有調(diào)用分詞規(guī)則切分歧義字段和回收生詞等功能。北師大的自動(dòng)分詞專家系統(tǒng),首次將專家系統(tǒng)方法引入到分詞系統(tǒng)中。 研 究 進(jìn) 展 清華大學(xué)SEG分詞系統(tǒng),此系統(tǒng)提供了帶回溯的正向、反向、雙向最大匹配法和全切

14、分-評(píng)價(jià)切分算法,由用戶來選擇合適的切分算法。其特點(diǎn)則是帶修剪的全切分-評(píng)價(jià)算法。 清華大學(xué)SEGTAG系統(tǒng),該系統(tǒng)對(duì)詞典中的每一個(gè)重要的詞都加上了切分標(biāo)志,即標(biāo)志“ck”或“qk” 。通過這兩種標(biāo)志并使用幾條規(guī)則來實(shí)現(xiàn)有限的全切分。為了獲得切分結(jié)果,系統(tǒng)采用在有向圖DAG上搜索最佳路徑的方法,所運(yùn)用的搜索算法有兩種,即“動(dòng)態(tài)規(guī)劃”和“全切分搜索+葉子評(píng)價(jià)”,使用了詞頻、詞類頻度、詞類共現(xiàn)頻度等統(tǒng)計(jì)信息。 研 究 進(jìn) 展 中科院計(jì)算所的詞語分析系統(tǒng)ICTCLAS,采用N-最短路徑方法進(jìn)行詞語粗分(概率統(tǒng)計(jì)),然后用HMM的方法進(jìn)行分詞和標(biāo)注的一體化處理。 國家語委文字所應(yīng)用句法分析技術(shù)的漢語自

15、動(dòng)分詞,此分詞模型考慮了句法分析在自動(dòng)分詞系統(tǒng)中的作用,以更好地解決切分歧義。切詞過程考慮到了所有的切分可能,并運(yùn)用漢語句法等信息從各種切分可能中選擇出合理的切分結(jié)果。 研 究 進(jìn) 展 復(fù)旦分詞系統(tǒng),首先,使用正向最小匹配和逆向最大匹配對(duì)文本進(jìn)行雙向掃描,如果兩種掃描結(jié)果相同,則認(rèn)為切分正確,否則就判別其為歧義字段,使用構(gòu)詞規(guī)則和詞頻統(tǒng)計(jì)信息來進(jìn)行排歧。 哈工大的統(tǒng)計(jì)分詞系統(tǒng),是一種典型的運(yùn)用統(tǒng)計(jì)方法的純切詞系統(tǒng),它試圖將串頻統(tǒng)計(jì)和詞匹配結(jié)合起來。 研 究 進(jìn) 展 杭州大學(xué)改進(jìn)的MM分詞系統(tǒng),其實(shí)質(zhì)為MM+規(guī)則。 微軟研究院多國語言處理平臺(tái)NLPWin中的中文詞語分析詞系統(tǒng),采用了切詞-句法分

16、析一體化的方法,使用語法規(guī)則并以概率模型作導(dǎo)向來進(jìn)行排歧。 北京大學(xué)計(jì)算語言學(xué)研究所的漢語切分與標(biāo)注系統(tǒng),把分詞和詞類標(biāo)注結(jié)合起來,采用基于規(guī)則的標(biāo)注排歧與基于語料庫統(tǒng)計(jì)模型的排歧相結(jié)合的處理方法。 研 究 進(jìn) 展 北大計(jì)算語言漢語文本分析系統(tǒng),該系統(tǒng)中采用了一種綜合性歧義切分處理方法,其要點(diǎn)有: n 把漢語基本詞典中所有的歧義詞標(biāo)記出來; n 把所有的歧義字段分為兩類:簡單歧義字段和復(fù)雜歧義字段; n 在切分時(shí),如果匹配出來的詞不是歧義詞,則可以安全地切分出來; 研 究 進(jìn) 展 n 當(dāng)匹配出歧義詞時(shí),根據(jù)詞條的歧義信息(歧義偏移值)判斷當(dāng)前歧義字段的類別:如果是簡單歧義,則使用一條非常簡單的

17、規(guī)則即可全部得解,即優(yōu)先切出非歧義詞; n 如果是復(fù)雜歧義字段,則調(diào)用一個(gè)“偵歧”過程,進(jìn)一步判斷歧義字段的類型是“歧義詞+歧義詞”還是“連續(xù)型歧義字段”;考察詞條的“歧義觸發(fā)信息”和“歧義消隱信息”,即可解決所有局部(直接上下文)的歧義; n 通過淺層句法分析及其同步的語義檢查(義類代碼及配價(jià)項(xiàng)的檢查),消解句子級(jí)歧義。一個(gè)具體系統(tǒng)Raw textpretreatmetFormattedtextFull SegmentArc SetSegmentSelectedarc setPosSelected &tagged arcsetSegmented& taggedtextPost

18、treatmentDictionary前處理Raw textpretreatmetFormattedtextFull SegmentArc SetSegmentSelectedarc setPosSelected &tagged arcsetSegmented& taggedtextPosttreatmentDictionary在前處理中解決的問題n文本的一致性n文本中的控制詞文本的一致性n中文編碼 GB:中文詞 、GB 標(biāo)點(diǎn)、GB字符。 ASCII: ASCII 標(biāo)點(diǎn) 、ASCII字符.n同一文本中會(huì)出現(xiàn)GB和ASCII例n魯 迅 說 : “ 世 上 本 沒 有 路 ! ”n

19、魯 迅 說 : 世 上 本 沒 有 路 ! n魯 迅 說 : “ 世 上 本 沒 有 路 ! ”例n魯 迅 說 : “ 世 上 本 沒 有 路 ! ”nC2B3 D1B8 A3BA A1B0 B0CB B5CA C0C9 B1BE C3BB D3D0 C2B7 A3A1 A1B1n魯 迅 說 : 世 上 本 沒 有 路 ! nC2B3 D1B8 A3BA 3A 22 B5CA C0C9 B1BE C3BB D3D0 C2B7 21 22n魯 迅 說 : “ 世 上 本 沒 有 路 ! ”nC2B3 D1B8 A3BA 3A B0CB B5CA C0C9 B1BE C3BB D3D0 C2B7

20、21 A1B1GB、ASCII混用問題n數(shù)據(jù)結(jié)構(gòu)GB two bytesASCII one byten系統(tǒng)必須正確識(shí)別,不然就會(huì)出現(xiàn)亂碼。解決方法n將ASCII擴(kuò)展到兩個(gè)字節(jié)n魯 迅 說 : “ 世 上 本 沒 有 路 ! ”nC2B3 D1B8 A3BA A1B0 B0CB B5CA C0C9 B1BE C3BB D3D0 C2B7 A3A1 A1B1n魯 迅 說 : 世 上 本 沒 有 路 ! nC2B3 D1B8 A3BA 003A 0022 B5CA C0C9 B1BE C3BB D3D0 C2B7 0021 0022n魯 迅 說 : “ 世 上 本 沒 有 路 ! ”nC2B3 D1

21、B8 A3BA 003A B0CB B5CA C0C9 B1BE C3BB D3D0 C2B7 0021 A1B1控制詞問題n控制此并不影響人的理解,但影響系統(tǒng)的識(shí)別這就是人們常說的鷸蚌相爭的故事。 這就是人們常說的鷸蚌相 爭的故事。怎樣做?n“鷸蚌相爭” 是詞組(成語)。n“鷸蚌相爭”還是成語嗎?系統(tǒng)必須刪除“”才能處理文本。解決方法n刪除所有控制詞(空格、回車、制表符)。n為便于人的閱讀,在段落之間保留控制詞。分詞Raw textpretreatmetFormattedtextFull SegmentArc SetSegmentSelectedarc setPosSelected &

22、;tagged arcsetSegmented& taggedtextPosttreatmentDictionary全切分 n切分將一個(gè)字符串分為幾部分n普通全切分長度為N的字符串有2n-1個(gè)全切分結(jié)果例:太平洋保險(xiǎn)保太平 n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n。n。n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平普通全切分是無用的n2n-1 個(gè)結(jié)果中絕大多數(shù)是沒有用的n需要重新定義全切分重定義切分n切分 n將一個(gè)字符串分為幾個(gè)人類能理解的部分n太平洋 保險(xiǎn) 保太 平n假設(shè)這些部分是詞典中的詞在 2n-1 個(gè)

23、結(jié)果中選擇n每一部分要么是詞典中的詞,n要么長度為一選擇結(jié)果n太平洋保險(xiǎn)保太平n太平 洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平 洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平 洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平n太平 洋保險(xiǎn)保太平n太平洋保險(xiǎn)保太平全切分問題n怎樣生成結(jié)果n怎樣壓縮時(shí)間和空間的復(fù)雜度弧n系統(tǒng)使用戶來表示一個(gè)切分部分nArc 是相應(yīng)的數(shù)據(jù)結(jié)構(gòu).typedef struct tagArcWWunsigned int uBegin;unsigned int uEnd;WordItem*uCode;UINTuCatThis;ArcWW;Member

24、of ArcnuBegin:弧的起點(diǎn)nuEnd:弧的終點(diǎn)nuCode:該切分單位在詞典中的位置nuCatThis:詞性,在標(biāo)注部分填入使用弧n太平洋 保險(xiǎn) 保 太平n弧表示為:n太平洋 保險(xiǎn) 保 太平n0 1 2 3 4 5 6 7 8在數(shù)據(jù)結(jié)構(gòu)中uBeginuEnduCode03355668太平太平洋保保險(xiǎn)全切分的弧表示uBeginuEnduCode03太平洋02太平01太12平23洋35保險(xiǎn)34保45險(xiǎn)56保68太平67太78平問題轉(zhuǎn)換n對(duì)于一個(gè)字符串作全切分n得到包含所有切分單位的弧集詞表結(jié)構(gòu)Index太WordMax match itemTag InfoTag InfoTag Info

25、太/a: 0.12350: 0.3435太平太a: 0.0342ad: 0.0320: 0.0543太平洋太平n: 0.01240: 0.0324最大匹配項(xiàng)n為了提高效率,我們引入了最大匹配項(xiàng)的概念。n太平洋保險(xiǎn)保太平n太平洋n太平n太(紅色的是最大匹配項(xiàng))詞典詞的最大匹配項(xiàng)n詞典詞的最大匹配項(xiàng)是詞典中的詞。n最大匹配項(xiàng)是詞的最大真前綴。n不然的話最大匹配項(xiàng)為空。字符串S的最大匹配詞n字符串S的最大匹配詞是詞典中的詞n最大匹配詞是S的最大前綴。n不然的話,最大匹配詞是S的第一個(gè)詞。分詞n全切分生成所有可能的切分結(jié)果n切分的結(jié)果是其中之一。n生成正確的切分結(jié)果 = 在全切分結(jié)果中選擇正確的一個(gè)切

26、分n全切分的工作 = 列舉所有的歧義l切分=消歧 = 在全切分結(jié)果中選擇正確的那一個(gè)= 選擇不同的切分算法= 使用不同的切分策略切分n全切分生成一個(gè)弧集n不同的弧的組合表示不同的切分結(jié)果太平洋保險(xiǎn)保太平最大正向n選擇策略:自左到右都選擇最長的候選項(xiàng) n太平洋保險(xiǎn)保太平 最大正向n最大正向算法中弧的定義:n第一條最大正向弧的 uBegin 是 0.n第n+1條弧的uBegin是第n條弧的uEnd.n最大正向弧是在所有uBegin相同的弧中uEnd最大的那條。最小正向n最小正向算法中弧的定義:n第一條最小正向弧的 uBegin 是 0.n第n+1條弧的uBegin是第n條弧的uEnd.n最大正向弧

27、是在所有uBegin相同的弧中uEnd最小的那條。切分靜止點(diǎn)(SSP)nSSP在每一個(gè)切分路徑中都存在于兩條弧之間。太平洋保險(xiǎn)保太平0 1 2 3 4 5 6 7 8切分靜止點(diǎn)(SSP)n全切分的結(jié)果是從字串頭到尾。n一些算法需要自尾到頭的信息最大逆向n選擇策略:自右向左每次選擇最長的候選項(xiàng)。n太平洋保險(xiǎn)保太平最大逆向n最大逆向算法的弧定義:n在兩個(gè)SSP中的弧集稱為切分靜態(tài)弧集 Segment Static Arc Set(SSAS).n在一個(gè)SSAS中,第一條最大逆向弧的uEnd是尾SSP。 n第n+1條弧的uEnd 是第n條弧的uBegin。n在一個(gè)SSAS中,最后一條最大逆向弧的uBe

28、gin是頭SSP。n最大逆向弧是所有有相同的uEnd的弧中uBegin最小的那條。最小逆向nChoice policy:自右向左選擇最小的候選項(xiàng) n太平洋保險(xiǎn)保太平最小逆向n最小逆向算法弧的定義:n在兩個(gè)SSP中的弧集稱為切分靜態(tài)弧集 Segment Static Arc Set(SSAS).n在一個(gè)SSAS中,第一條最小逆向弧的uEnd是尾SSP。 n第n+1條弧的uEnd 是第n條弧的uBegin。n在一個(gè)SSAS中,最后一條最小逆向弧的uBegin是頭SSP。n最小逆向弧是所有有相同的uEnd的弧中uBegin最大的那條。最大概率n令S=C1C2Cn-1Cn=(C1.Cx1)(Cx1+1

29、Cx2)(Cxm-1.Cxm) =W1W2.Wmn根據(jù)貝葉斯公式,P(W|C)=P(W)P(C|W)/P(C)nP(C)是確定值, P(C|W)是給定詞串情況下字串出現(xiàn)的概率,可以認(rèn)為是1。n所以, P(W|C)P(W)最大概率n最大概率算法弧的定義:n在兩個(gè)SSP中的弧集稱為切分靜態(tài)弧集 Segment Static Arc Set(SSAS).n在一個(gè)SSAS中,第一條最大概率弧的uEnd是尾SSP。 n第n+1條弧的uEnd 是第n條弧的uBegin。n在一個(gè)SSAS中,最后一條最大概率弧的uBegin是頭SSP。n最大概率弧集是每條弧概率之積最大的那個(gè)弧集。最短路徑n選擇策略:選擇含弧

30、最少的結(jié)果n太平洋保險(xiǎn)保太平n4 arcs, the smallest num of an arc chain.最短路徑n最短路徑算法的弧定義:n在兩個(gè)SSP中的弧集稱為切分靜態(tài)弧集 Segment Static Arc Set(SSAS).n在一個(gè)SSAS中,第一條最短路徑弧的uEnd是尾SSP。 n第n+1條弧的uEnd 是第n條弧的uBegin。n在一個(gè)SSAS中,最后一條最短路徑弧的uBegin是頭SSP。n最短路徑弧集是擁有弧數(shù)最少的弧集。屈折語的詞法分析n詞:n詞根n詞綴n詞尾n詞法分析的工作:識(shí)別n屈折變化。如take, took, takesn派生變化。如morphology morphologicaln復(fù)合變化屈折語的詞法分析技術(shù)n描述性的詞法分析n過程性的詞法分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論