(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于領(lǐng)域語料庫的中文自動(dòng)分詞系統(tǒng)的研究.pdf_第1頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于領(lǐng)域語料庫的中文自動(dòng)分詞系統(tǒng)的研究.pdf_第2頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于領(lǐng)域語料庫的中文自動(dòng)分詞系統(tǒng)的研究.pdf_第3頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于領(lǐng)域語料庫的中文自動(dòng)分詞系統(tǒng)的研究.pdf_第4頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于領(lǐng)域語料庫的中文自動(dòng)分詞系統(tǒng)的研究.pdf_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

論文題目:基于領(lǐng)域語料庫的中文自動(dòng)分詞系統(tǒng)的研究 專業(yè):計(jì)算機(jī)應(yīng)用技術(shù) 碩士生:杜璞( 簽名) 趑 指導(dǎo)老師:張小艷( 簽名) 盤:i ! 壁 摘要 中文自動(dòng)分詞是中文信息處理中的一個(gè)重要環(huán)節(jié),長(zhǎng)期以來一直是人們研究的熱點(diǎn) 和難點(diǎn)。在中文信息處理中,分詞廣泛應(yīng)用于信息檢索、機(jī)器翻譯、自動(dòng)問答系統(tǒng)、文 本挖掘等領(lǐng)域。計(jì)算機(jī)對(duì)于中文的處理相對(duì)于西文的處理存在更大的難度,集中體現(xiàn)在 對(duì)文本分詞的處理上。本文介紹了中文自動(dòng)分詞現(xiàn)狀和存在的困難,以及目前常用的一 些切分算法,在對(duì)常用的中文分詞算法分析比較的基礎(chǔ)上,采用基于詞典的正向減字最 大匹配算法;建立了具有三級(jí)索引的首字h a s h 表的詞典結(jié)構(gòu),該結(jié)構(gòu)與改進(jìn)的正向最 大匹配法形成統(tǒng)一;在歧義處理方面,本文采用了統(tǒng)計(jì)和規(guī)則相結(jié)合的歧義消除策略實(shí) 現(xiàn)了通用語料的交集型歧義、組合型歧義以及專業(yè)語料的組合型歧義的識(shí)別和消除。 本文對(duì)詞典文件進(jìn)行了重組,通過計(jì)算首字偏移量的方法建立索引表,并根據(jù)詞長(zhǎng) 由長(zhǎng)到短的順序形成詞語鏈,進(jìn)一步縮小了匹配范圍、減少了匹配次數(shù);對(duì)正向減字最 大匹配算法進(jìn)行了改進(jìn),其匹配算法的時(shí)間復(fù)雜度是o ( n ) ,n 為詞表中以某字為首字的 平均詞的個(gè)數(shù)。實(shí)驗(yàn)顯示,相比其它的算法,有效的提高了切分速度。 作者對(duì)分詞詞典的建立方式、分詞步驟及歧義字段的處理提出了新的改進(jìn)方法,提 高了分詞的完整性和準(zhǔn)確性,并在v a 由6 0 集成開發(fā)環(huán)境中實(shí)現(xiàn)了完整的基于計(jì)算機(jī) 領(lǐng)域語料庫的中文自動(dòng)分詞系統(tǒng)。最后分析比較了現(xiàn)有的中文分詞算法和本文所描述的 分詞算法在分詞效率和精度的差異,并以有針對(duì)性的文本為例進(jìn)行了測(cè)試,對(duì)所用方法 進(jìn)行了驗(yàn)證。這一課題的研究及其成果對(duì)于中文信息處理中的多種領(lǐng)域的分詞和歧義處 理,都將具有一定的參考價(jià)值和良好的應(yīng)用前景。 關(guān)鍵詞:中文分詞;最大匹配法;歧義字段 研究類型:應(yīng)用研究 s u b j e c t :t h er e s e a r c ho fa u t o m a t i cc h i n e s ew o r ds e g m e n t a t i o ns y s t e m b a s e do dd o m a i nc o r p u s s p e c i a l t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e:d up u i n s t r u c t o r :z h a n gx i a o y a n a b s t r a c t ( s i g n a t r e ) 墜! ! ( s i g n a t u i 叻壟弩莖塑塑 a u t o m a t i cc h i n e s ew o r ds e g m e n t a t i o ni sak e yi s s u eo fc h i n e s ei n f o r m a t i o np r o c e s s i n g , w h i c hi s a l w a y sah o t a n dd i f f i c u l t p o i n _ t i nc h i n e s ei n f o r m a t i o np i o c 鸛s i n 舀w o r d s e g m e n t a t i o ni sw i d e l yu s e di n l h ea 慨o fi n f o r m a t i o nr e t r i e v a l , m a c h i n et r a n s l a t i o n , a u t o m a t i cq u e s t i o n - a n s w e r i n g , a n dt e x tm i n i n 舀e t c i t sm o r ed i f f i c u l tf o rc o m p u t e r st o p r o c e s sc h i n e s et h a nt ow e s t e r nl e t t e r si nt h e 弘o s s i n go f w o r ds e g m e n t a t i o n i nt h i sp a p e r , a c t u a ls t a t e sa n dd i f f i c u l t i e so fw o r ds e g m e n t a t i o n 躺i n t r o d u c e d , i n c l u d i n gw i d e - u s e d s e g m e n t a t i o na l g o r i t h m s b a s e do nt h ec o m p a r i s o n sw i t ht h ea l g o r i t h m s , m a x i m u mm a t c h m g m e t h o db a s e do nd i c t i o n a r yi sa d o p t e di nt h ep a p e r ;, a n dt h ed i c t i o n a r y ss t r u c t u r ei sak i n do f t h r e e - l e v e lh a s hi n d e xt a b l eb a s e do nc a p i t a lw o r d s a tt h ea s p e c to fa m b i g u i t y , t h e e l i m i n a t i n gs t r a t e g yt h a tc o m b m es t a t i s t i cw i t hr u l ei sa d o p t e dt or e a l i z et h ei d e n t i f i c a t i o na n d e l i m i n a t i o no f m i x e da n dc o m b m c da m b i g u i t yi nt h ec o m m o nc o r p u sa n dm i x e da m b i g u i t yi n t h ed o m a i no n e s t h em e t h o dt h a tc o m b i n a t i o no fd i c t i o n a r y ss t r u c t u r ei nw h i c hc i e a t e si n d e xt a b l eb y c o m p i | l i n gc a p i t a lw o r db i a s e dv a l u e l i n kt h ew o r dw i t hd e c r e a s i n go r d e rs h o r t e nt h er a n g eo f m a t c h , a n dr e d u c ot h et i m e so fm a t c h t h e 婦c o m p l e xd e g r e eo ft h ei m p r o v e dh 缸d d m m n m a t c h i n gm e t h o di so ( n ) ,w h i c hnr e p r e s e n t st h ea v e r a g en u m b e r so f o n e c a p i t a lw o r d i ti s s h o w ni nt h ee x p e r i m e n tt h a tt h ea l g o r i t h me f f e c t i v e l ye n h 硒c e st h es p e e do f s e g m e n t a t i o n an e wm e t h o dw h i c hc a ni m p r o v et h ei n t e g r a l i t ya n da c c u r a c yo fw o r ds e g m e n t a t i o ni s p u tf o r w a r dt oi m p r o v et h ec o n s t n l c t i o no f t h ew o r ds e g m e n t a t i o nd i c t i o n a r y , t h es t e p so f w o r ds e g m e n t a t i o na n dt h ep r o c e s so ft h ea m b i g u i t y t h e no nt h eb a s i so fa n a l y s i sa n d c o n t r a s to fe x i s t i n gc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h m sa n di nw h i c hm e n t i o n e di nt h i s p a p e rw i t ht h ed i f f e r e n c eo nt h ea s p e c t so fw o r ds e g m e n t a t i o ne f f i c i e n c ya n d 越a m l c y , e x a m p l e sa i m a tt h a t 峨t e s t e dt ov a l i d a t et h em e t h o dt h a tu s e d t h er e s e a r c ha n di t so u t c o m e w i l lh a v ev a l u a b l er e f e r e n c ea n dg o o da p p l i c a b l ep r o s p e c tt ot h ew o r ds e g m e n t a t i o na n d a m t “g m t yp r o c e s s i n gi nm a n yd o m a i n so f c h i n e s ei n f o r m a t i o np r o c e s s i n g k e y w o r d s :c h i n e s es e g m e n t a t i o nm a x i m u mm a s h i n gm e t h o d a m b i g u i t y 壓要料技大學(xué) 學(xué)位論文獨(dú)創(chuàng)性說明 本人鄭重聲明:所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及 其取得研究成果。盡我所知。除了文中加以標(biāo)注和致謝的地方外,論文中不包含 其他人或集體已經(jīng)公開發(fā)表或撰寫過的研究成果,也不包含為獲得西安科技大學(xué) 或其他教育機(jī)構(gòu)的學(xué)位或證書所使用過的材料。與我一同工作的同志對(duì)本研究所 做的任何貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。 - 扛 學(xué)位論文作者簽名:枷覆日期:岬占,3 學(xué)位論文知識(shí)產(chǎn)權(quán)聲明書 本人完全了解學(xué)校有關(guān)保護(hù)知識(shí)產(chǎn)權(quán)的規(guī)定,即:研究生在校攻讀學(xué)位期間 論文工作的知識(shí)產(chǎn)權(quán)單位屬于西安科技大學(xué)。學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或 機(jī)構(gòu)送交論文的復(fù)印件和電子版。本人允許論文被查閱和借閱。學(xué)??梢詫⒈緦W(xué) 位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描 等復(fù)制手段保存和匯編本學(xué)位論文。同時(shí)本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課 題再撰寫的文章一律注明作者單位為西安科技大學(xué)。 保密論文待解密后適用本聲明。 學(xué)位論文作者簽名:粑喪 指導(dǎo)教師簽名:獄、i 、絕 卅年占月多1 3 1 緒論 1 1 本文研究的背景和意義 1 緒論 1 1 1 研究背景 人類步入2 l 世紀(jì)以來,隨著國(guó)際互聯(lián)網(wǎng)的迅猛發(fā)展、不斷普及,網(wǎng)絡(luò)信息急劇膨 脹,國(guó)際交流和合作日益頻繁以及地球村的形成,全球化經(jīng)濟(jì)的不斷發(fā)展,信息技術(shù)己 成為社會(huì)發(fā)展最重要的推動(dòng)因素:海量的文本信息對(duì)使用計(jì)算機(jī)高效智能地處理自然語 言信息提出了越來越迫切的需求。因此自然語言處理成為當(dāng)前計(jì)算機(jī)領(lǐng)域的一個(gè)研究熱 點(diǎn)。 語言作為交流工具,在人類活動(dòng)中有著舉足輕重的作用。因此,人們?cè)诖罅渴褂糜?jì) 算機(jī)來替代自己的工作的同時(shí),也期待計(jì)算機(jī)在自然語言的處理上能接近甚至達(dá)到人工 的水平。中文自動(dòng)分詞之所以成為中文信息處理中的一個(gè)重要環(huán)節(jié),是由漢語本身的特 點(diǎn)所決定的。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而漢語與英 語等其他語言不同,漢語是以字而不是詞作為語言的基本構(gòu)造單位的,即句子中所有的 字連起來才能描述一個(gè)意思。漢語獨(dú)有的書寫特點(diǎn),使得中文信息處理必須經(jīng)過分詞這 樣一層基本處理階段,才能進(jìn)入上層的句法和語義階段的處理。否則,在句法和語義的 分詞階段計(jì)算機(jī)要直接面對(duì)一系列的獨(dú)立漢字組成的漢字串,這樣就丟棄了漢語當(dāng)中能 夠作為相對(duì)獨(dú)立的成分并具有相對(duì)獨(dú)立意義的詞中的重要信息,從而加大了上層的復(fù)雜 度,有時(shí)甚至根本無法繼續(xù)進(jìn)行或者形成完全錯(cuò)誤的分析結(jié)果。另一方面,分詞技術(shù)對(duì) 于面向不同目標(biāo)的實(shí)用化的中文產(chǎn)品,比如拼音智能輸入,中文校對(duì),語音識(shí)別,語音 合成,中文信息檢索以及機(jī)器翻譯等,都有著不同程度的支持,分詞的正確性直接或間 接的決定了所支持的應(yīng)用系統(tǒng)的實(shí)用程度和實(shí)際性能。所以在現(xiàn)階段,分詞仍然是計(jì)算 機(jī)中文信息處理的基礎(chǔ)和不可逾越的階段。對(duì)分詞技術(shù)深入透徹的研究和對(duì)分詞精確度 的進(jìn)一步提高,都是對(duì)現(xiàn)代中文信息處理和現(xiàn)代智能化中文產(chǎn)品的卓有成效的貢獻(xiàn)。 從處理過程來看,中文自動(dòng)分詞過程可以看作是一個(gè)用計(jì)算機(jī)自動(dòng)識(shí)別文本字符流 中的詞并在詞與詞之間加入明顯切分標(biāo)記的過程。從應(yīng)用需求來看,自動(dòng)分詞的主要目 的是確定自然語言處理的基本分析單位,為進(jìn)一步開展自動(dòng)分析做好前期準(zhǔn)備工作。因 此可以說中文自動(dòng)分詞是中文信息處理的一項(xiàng)重要的基礎(chǔ)性工作,許多中文信息處理項(xiàng) 目都涉及到了分詞問題,如機(jī)器翻譯、中文文獻(xiàn)、自動(dòng)文摘、自動(dòng)分類、中文文獻(xiàn)庫全 文檢索等。最近的二十年,隨著語言學(xué)理論的發(fā)展、計(jì)算機(jī)技術(shù)的進(jìn)步以及統(tǒng)計(jì)學(xué)和機(jī) 器學(xué)習(xí)方法在自然語言理解領(lǐng)域的廣泛應(yīng)用,人們對(duì)中文自動(dòng)分詞本身的應(yīng)用背景、目 西安科技大學(xué)碩士學(xué)位論文 標(biāo)等也有了更加準(zhǔn)確的認(rèn)識(shí),自動(dòng)分詞技術(shù)也在此背景下取得了長(zhǎng)足的發(fā)展,基于專家 系統(tǒng)、基于神經(jīng)網(wǎng)絡(luò)等新的自動(dòng)分詞方法也都是在這一時(shí)期出現(xiàn),一些自動(dòng)分詞系統(tǒng)的 完善也使這項(xiàng)技術(shù)從實(shí)驗(yàn)室走向市場(chǎng)的時(shí)機(jī)日趨成熟。 1 1 2 研究意義 中文分詞是自然語言理解的基礎(chǔ),是中文信息處理的第一步,廣泛應(yīng)用于搜索,智 能答疑、遠(yuǎn)程教育中的在線答題、機(jī)器閱卷等系統(tǒng)。對(duì)拼音智能輸入,中文校對(duì),語音 識(shí)別,語音合成,中文信息檢索以及機(jī)器翻譯等都有著不同程度的支持。分詞的正確性 直接或間接的決定了所支持的應(yīng)用系統(tǒng)的使用程度和實(shí)際性能。 ( 1 ) 機(jī)器翻譯 是指用計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)不同語言之間的轉(zhuǎn)換。當(dāng)前,機(jī)器翻譯軟件可以在i n t e r n e t 上即時(shí)翻譯下載的外文資料【l 】。機(jī)器翻譯一般要經(jīng)過分析和生成兩個(gè)步驟。在這里,最 關(guān)鍵的還是對(duì)源語詞語的分析。由于中文自動(dòng)分詞是一個(gè)難題,當(dāng)漢語作為源語時(shí),分 詞就是源語分析工作的基礎(chǔ)。因此,分詞使機(jī)器翻譯不可缺少的一個(gè)環(huán)節(jié)。目前國(guó)內(nèi)外 關(guān)于機(jī)器翻譯研究已取得了豐富的研究成果,并已經(jīng)進(jìn)入了實(shí)用性應(yīng)用階段。但要實(shí)現(xiàn) 全自動(dòng)高質(zhì)量的機(jī)器翻譯仍是一個(gè)長(zhǎng)遠(yuǎn)目標(biāo),需要多個(gè)領(lǐng)域的學(xué)者專家們長(zhǎng)期不懈的努 力和追求。 ( 2 ) 自動(dòng)標(biāo)引 自動(dòng)標(biāo)引就是用機(jī)器抽取或賦予索引詞。索引詞就是文獻(xiàn)主題相符的或密切相關(guān)的 詞語,也就是文獻(xiàn)的關(guān)鍵詞或主題詞。所以,中文文本自動(dòng)標(biāo)引中離不開詞語這個(gè)基本 單位。以自動(dòng)分詞為基礎(chǔ),專家學(xué)者們研制出了多種自動(dòng)標(biāo)引系統(tǒng),歸結(jié)起來有:詞典 切分標(biāo)引法、單漢字標(biāo)引法、機(jī)助標(biāo)引法、統(tǒng)計(jì)標(biāo)引法、邏輯推理法、語法語義分析標(biāo) 引法、自動(dòng)標(biāo)引專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)分詞標(biāo)引法等。這些自動(dòng)標(biāo)引方法可以分為三類, 即統(tǒng)計(jì)法、語言法和人工智能法。 ( 3 ) 自動(dòng)摘錄 文獻(xiàn)文本分析是自動(dòng)摘錄中一項(xiàng)核心技術(shù)。文本分析的目的是為了選擇摘錄對(duì)象, 分析的結(jié)果通常表現(xiàn)為句子的權(quán)位或代表性分值,分析的手段也是以詞語為基礎(chǔ),才能 進(jìn)一步去研究各種詞法、句法以及語義的關(guān)系和規(guī)則。我國(guó)在自動(dòng)摘錄研究方面取得了 一系列可喜的成績(jī),自動(dòng)摘錄理論和方法研究成果不斷涌現(xiàn),針對(duì)漢語自身特點(diǎn)而開發(fā) 的中文自動(dòng)摘錄系統(tǒng)也開始由實(shí)驗(yàn)走向應(yīng)用。 ( 4 ) 自動(dòng)分類 是指利用計(jì)算機(jī)對(duì)一批實(shí)體或?qū)ο筮M(jìn)行分類,包括建立分類體系及其自動(dòng)更新。自 動(dòng)分類系統(tǒng)是信息處理的重要研究方向之一文本分類涉及到文本特征集的構(gòu)建,而對(duì) 漢語來講,文本的特征集主要由一些具有較大權(quán)值的詞語構(gòu)成,因此自動(dòng)分詞是文本分 2 i 緒論 類首先要解決的問題,直接影響到文本分類的結(jié)果。 ( 5 ) 信息檢索 是指用戶從包含各種信息的文檔集中查找所需要的信息或知識(shí)的過程,包括信息的 存儲(chǔ)、組織、標(biāo)線、查詢、存取等方面。自動(dòng)分詞與信息檢索的結(jié)合實(shí)現(xiàn)自然語言檢索 的一個(gè)重要方面,自動(dòng)分詞是實(shí)現(xiàn)基于自然語言理解的智能檢索的前提,是貫穿于信息 檢索系統(tǒng)整體流程中不可缺少的處理步驟【2 l 。國(guó)內(nèi)流行的主要是全文檢索系統(tǒng),一般都 是按詞檢索,它內(nèi)嵌中文自動(dòng)分詞系統(tǒng),具有比按字檢索高得多的查準(zhǔn)率和空間利用率。 ( 6 ) 搜索引擎研究 中文搜索引擎的重點(diǎn)在于中文關(guān)鍵信息的提取,其中的難點(diǎn)就是中文自動(dòng)分詞1 3 。 隨著因特網(wǎng)在我國(guó)的發(fā)展和普及,中文搜索引擎研究有了重大突破。在短期內(nèi)就涌現(xiàn)出 了許多重要的中文搜索引擎,并得到了廣泛應(yīng)用。目前,已開發(fā)并投入使用的中文搜索 引擎已達(dá)上百種,并且數(shù)量仍在不斷增加,質(zhì)量也不斷提高。但是,中文搜索引擎研究 開發(fā)仍然存在大量的問題,如在信息組織、檢索速度、檢準(zhǔn)率和檢全率等方面還有較大 的發(fā)展空間。今后,中文搜索引擎的研究方向應(yīng)是將中文自動(dòng)分詞、信息檢索、自然語 言理解和人工智能等與搜索引擎研究相結(jié)合。 1 2 中文自動(dòng)分詞的研究現(xiàn)狀及發(fā)展趨勢(shì) 1 2 i 研究現(xiàn)狀 自從8 0 年代初中文信息處理領(lǐng)域提出自動(dòng)分詞以來,有關(guān)方面的眾多專家、學(xué)者 為之付出了不懈的努力。自動(dòng)分詞研究的全面興起,取得了一些重要的進(jìn)展和一些實(shí)用 性的成果。由于不同的人對(duì)分詞有不同的看法,為提高分詞結(jié)果的一致性,1 9 8 7 年至 1 9 9 2 年北京航空航天大學(xué)、北京師范大學(xué)等1 3 個(gè)科研單位聯(lián)合制訂了信息處理用現(xiàn) 代漢語分詞規(guī)范( g b l 3 7 1 5 ) ,用來規(guī)范和統(tǒng)一人們的分詞行為。該規(guī)范從信息處理的 實(shí)際出發(fā),根據(jù)現(xiàn)代漢語的特點(diǎn)和規(guī)律,制訂了一系列具體規(guī)則,為現(xiàn)代漢語信息處理 提供了一套適用、實(shí)用、科學(xué)、系統(tǒng)的分詞原則。 近l o 年來,語言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者們,在中文自動(dòng)分詞的 研究與實(shí)踐上進(jìn)行了大量的研究,找到了許多解決中文分詞的方法。目前公開報(bào)道過的 分詞方法主要有三種類型:基于詞典的方法、基于統(tǒng)計(jì)的方法和基于理解的方法。這三 種方法代表著分詞方法的三個(gè)不同方向。 基于詞典的分詞過程依賴于機(jī)器詞典進(jìn)行,該詞典中不涉及太多的詞法、語義、句 法知識(shí)等關(guān)于語言自身的信息,主要是個(gè)詞庫。詞庫中詞條的數(shù)目、詞條的選擇直接影 響到最后的分詞效果。趙曾貽1 4 】提出了一種改進(jìn)的最大匹配分詞算法,分詞字典支持詞 首字h a s h 查找和標(biāo)準(zhǔn)的不限詞條長(zhǎng)度的二分查找。李振星【5 l 提出了全二分最大匹配快 3 西安科技大學(xué)碩士學(xué)位論文 速分詞算法,采用首字h a s h 和完全二分查找,分詞詞典存放于內(nèi)存中,不用進(jìn)行喲 操作。李向陽 6 1 構(gòu)建了h a s h 算法的詞典結(jié)構(gòu),實(shí)現(xiàn)了h a s h 高速分詞算法。鄒海山【7 】等 在現(xiàn)有分詞技術(shù)的基礎(chǔ)上,提出了一種基于詞典的正向最大匹配和逆向最大匹配相結(jié)合 的中文分詞方案。陳桂林嘲等首先介紹了一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu),它支持首 字h a s h 和標(biāo)準(zhǔn)的二分查找,且不限詞條長(zhǎng)度,然后提出一種改進(jìn)的快速分詞算法。郭 輝【9 】等在對(duì)現(xiàn)有的最大匹配分詞方法進(jìn)行研究的基礎(chǔ)上,提出一種改進(jìn)的m m 算法。 基于統(tǒng)計(jì)的分詞方法的基本思想是:找出輸入字串的所有可能切分結(jié)果,對(duì)每種切 分結(jié)果利用能夠反映語言特征的統(tǒng)計(jì)數(shù)據(jù)( 語言模型) 計(jì)算它的出現(xiàn)概率,從結(jié)果中選取 概率最大的一種。概率的計(jì)算方法依賴于所建立的語言模型。基于統(tǒng)計(jì)的分詞算法參數(shù) 值( 詞頻、詞性信息等) 可以從語料庫中通過訓(xùn)練獲得。隨著大規(guī)模語料庫的建立,這種 方法得到越來越廣泛的使用。費(fèi)洪曉l l 川等提出了基于詞頻統(tǒng)計(jì)的中文分詞方法,系統(tǒng)采 用了互信息、n 元統(tǒng)計(jì)模型和t - 測(cè)試,并對(duì)這三種原理的處理結(jié)果進(jìn)行了比較,以分析 各種統(tǒng)計(jì)原理的統(tǒng)計(jì)特點(diǎn),以及各自所適合的應(yīng)用場(chǎng)合。劉群【1 1 l 提出了一種基于n - 最 短路徑方法的中文詞語粗分模型,在兼顧高召回率和高效率的基礎(chǔ)上引入了詞頻的統(tǒng)計(jì) 數(shù)據(jù),對(duì)原有模型進(jìn)行改進(jìn),建立了更實(shí)用的統(tǒng)計(jì)模型。 基于理解的分詞方法,又稱為人工智能的分詞方法。是指模擬人的思維,采用詞法、 句法及語用等各種語義知識(shí)進(jìn)行有條件的切分人工智能和專家系統(tǒng)的迅速發(fā)展,使得 許多人工智能領(lǐng)域的計(jì)算手段應(yīng)用到書面漢語的自動(dòng)分詞中來,于是產(chǎn)生了專家系統(tǒng)分 詞法和基于神經(jīng)網(wǎng)絡(luò)分詞法北京師大在3 8 6 微機(jī)上研制成功的自動(dòng)分詞專家系統(tǒng),試 分了1 5 萬字語料,切分精度達(dá)到9 9 ,切分速度為2 0 0 字,秒左右。這種方式的不足之 處在于其串行處理機(jī)制,學(xué)習(xí)能力低,對(duì)于外界最新的信息反映滯后。華南理工大學(xué)的 徐秉錚、賀前華等人提出了基于精神網(wǎng)絡(luò)的一種分詞方法,這一方法是以模擬人腦運(yùn)行, 分布處理和建立數(shù)值計(jì)算模型工作的,是一種以非線性并行處理為主流的非邏輯的信息 處理方式。它將分詞知識(shí)所分散隱式的方法存入神經(jīng)網(wǎng)絡(luò)內(nèi)部,通過自學(xué)習(xí)和訓(xùn)練修改 內(nèi)部權(quán)值,以達(dá)到正確的分詞結(jié)果。該方法最大特點(diǎn)是知識(shí)獲取快,這也是神經(jīng)網(wǎng)絡(luò)方 法的一大特點(diǎn),并行、分布性和聯(lián)接性的網(wǎng)絡(luò)結(jié)構(gòu)為人工神經(jīng)網(wǎng)絡(luò)的知識(shí)獲取提供了良 好的環(huán)境,并通過樣本學(xué)習(xí)和訓(xùn)練來自我更新。 從目前看,任何一種單一方法都無法完善解決漢語的分詞問題。由于人類的分詞行 為也往往是在多種方法作用之下完成的,因此在一個(gè)系統(tǒng)中將多種方案結(jié)合使用優(yōu)勢(shì)互 補(bǔ),將是漢語分詞的必然趨勢(shì)。對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來說,單獨(dú)依靠某一種算法 都不可能實(shí)現(xiàn),需要綜合不同的算法。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種 初分手段,再利用各種其他的語言信息來進(jìn)一步提高切分的準(zhǔn)確率,提高對(duì)歧義字段和 未登錄詞的識(shí)別和處理。我國(guó)的海量科技所采用的分詞算法就是這種“復(fù)方”分詞法。 p a h n e r 【刪提出了一種可訓(xùn)練的基于規(guī)則的分詞算法,其核心部分是基于轉(zhuǎn)換的學(xué)習(xí)機(jī) 4 1 緒論 制。k o k 1 3 1 首先利用文本的統(tǒng)計(jì)信息給出可能性最大的詞語邊界,然后分析存在于句子 中的語法和語義關(guān)系。趙偉【1 4 】提出了一種規(guī)則與統(tǒng)計(jì)相結(jié)合的中文分詞方法,該方法建 立在一個(gè)標(biāo)注好了的語料庫的基礎(chǔ)之上,可以很好的解決交集型歧義。 r 應(yīng)該說目前在分詞領(lǐng)域的研究進(jìn)展已經(jīng)有了一定突破,但是這些分詞方法在面對(duì)語 言現(xiàn)象不斷變化時(shí),顯得適應(yīng)性很差,所以還需要繼續(xù)對(duì)分詞方法作進(jìn)一步的研究,以 期能形成更加完善的分詞方法。 1 2 2 存在的問題 我國(guó)對(duì)中文自動(dòng)分詞的研究已有2 0 多年,雖然取得了很大的成就,但是目前中文 自動(dòng)分詞研究主要存在下面幾個(gè)問題。 ( 1 ) 分詞規(guī)范的難點(diǎn)一分詞單位的確認(rèn) 中文自動(dòng)分詞的首要困難是詞的概念不清,書面漢語是字的序列,詞之間沒有間隔 標(biāo)記,使得詞的界定缺乏自然標(biāo)準(zhǔn)。“詞”這個(gè)概念一直是漢語語言學(xué)界糾纏不清而又揮 之不去的問題,迄今也拿不出一個(gè)公認(rèn)的、具有權(quán)威性的詞表來。主要困難出在兩個(gè)方 面,一方面是單字詞與語素之間的劃界;另一方面是詞與短語( 詞組) 的劃界。對(duì)漢語詞 認(rèn)識(shí)上的差異,會(huì)給自動(dòng)分詞造成困難。漢語的詞匯平面構(gòu)成了現(xiàn)階段中文信息處理應(yīng) 用領(lǐng)域的主要支撐平臺(tái),擺在我們面前的,不單純是學(xué)術(shù)問題,也是一項(xiàng)頗具規(guī)模的語 言工程,它涉及到許多方面l l 習(xí) 核心詞表問題:分詞需要有一個(gè)核心( 通用、與領(lǐng)域無關(guān)) 的詞表,凡在該詞表中的 詞,分詞時(shí)就應(yīng)該切分出來。對(duì)于哪些詞應(yīng)當(dāng)收進(jìn)核心詞表,目前尚無合理的可操作理 論和標(biāo)準(zhǔn)。 詞的變形結(jié)構(gòu)問題:漢語中動(dòng)詞和形容詞有些可以產(chǎn)生變形結(jié)構(gòu),如“打牌”、“開 心”、“看見”、“相信”,可能變形成“打打牌”、“開開心”、“沒看見”、“相不相信”等。可 以切分成“打打牌”,但“開開 d ”就不合理?!翱礇]看見”說得過去,“相,不相信”就說不 過去。又如大量的離合詞“打架”、“睡覺 等可以合理地變形為“打了一場(chǎng)架”、“睡了一個(gè) 覺”,對(duì)這些變形結(jié)構(gòu)的切分缺少可操作而又合理的規(guī)范。 詞綴問題:語素“者”在現(xiàn)代漢語中單用是沒有意義的,因此“作者”、“成功者”、“開 發(fā)者”內(nèi)部不能切開。依據(jù)這個(gè)標(biāo)準(zhǔn),“做出了巨大個(gè)人財(cái)產(chǎn)和精神犧牲者”、“克服許多 困難而最終獲得成功者”,這樣復(fù)雜的結(jié)構(gòu)與詞的定義相矛盾。 ( 2 ) 服務(wù)目的的不同造成對(duì)分詞單位認(rèn)識(shí)上的差異 人們逐漸認(rèn)識(shí)到,中文自動(dòng)分詞僅僅是中文信息處理任務(wù)的手段,并不是最終目標(biāo), 因此我們更應(yīng)關(guān)注自動(dòng)分詞系統(tǒng)在實(shí)際應(yīng)用中的效果。近十年來,人們發(fā)現(xiàn)分詞系統(tǒng)的 通用性、適應(yīng)性普遍不足。一般研制自動(dòng)分詞軟件系統(tǒng)一定要滿足某種需要,由于服務(wù) 的目的不同,可能會(huì)有不同類型的分詞系統(tǒng)。其分詞結(jié)果很難采用統(tǒng)一的通用的分詞標(biāo) 5 西安科技大學(xué)碩士學(xué)位論文 準(zhǔn)來評(píng)價(jià)。許多中文處理系統(tǒng)根據(jù)服務(wù)的目的編制適合自己需要的分詞系統(tǒng)。既然分詞 單位界定的大小不同,必然造成統(tǒng)一評(píng)價(jià)分詞系統(tǒng)的困難。 ( 3 ) 面向領(lǐng)域語料庫的分詞方法 目前的自動(dòng)分詞方法主要是針對(duì)新聞報(bào)紙等的語料,對(duì)于各種專業(yè)領(lǐng)域語料是否適 用,是否需要尋找另外的方法來對(duì)專業(yè)術(shù)語進(jìn)行切分,這些問題還有待進(jìn)一步研究。 “) 漢語語料庫的建設(shè) 嚴(yán)格的講,在世界范圍內(nèi),還沒有一個(gè)真正經(jīng)得起各方面推敲并形成一定影響的大 型中文分詞語料庫,分詞質(zhì)量遠(yuǎn)不能達(dá)到人們期望或者想象的水準(zhǔn)。 ( 5 ) 分詞與理解的先后 計(jì)算機(jī)無法像人在閱讀漢語文章時(shí)那樣邊理解邊分詞,而只能是先分詞后理解,因 為計(jì)算機(jī)理解文本的前提是識(shí)別出詞、獲得詞的各項(xiàng)信息。這就是邏輯上的兩難:分詞 要以理解為前提,而理解又是以分詞為前提。由于計(jì)算機(jī)只能在對(duì)輸入文本尚無理解的 條件下進(jìn)行分詞,那么任何分詞系統(tǒng)都不可能企求百分之百的切分正確率。 1 2 3 發(fā)展趨勢(shì) 中文自動(dòng)分詞是一個(gè)綜合性的難題,涉及到眾多的學(xué)科和研究領(lǐng)域,需要多個(gè)學(xué)科 的研究成果作為基礎(chǔ)。但是隨著科學(xué)技術(shù)的快速發(fā)展,中文自動(dòng)分詞也并非遙不可及。 根據(jù)目前中文自動(dòng)分詞的研究現(xiàn)狀和困難,以及相關(guān)學(xué)科的發(fā)展情況,中文自動(dòng)分詞有 望在以下幾個(gè)方面取得進(jìn)展1 1 6 l 。 。 ( 1 ) 漢語詞的規(guī)范研究 由于漢語詞的規(guī)范是中文自動(dòng)分詞的基礎(chǔ),沒有統(tǒng)一和明確的漢語詞的定義,沒有 規(guī)范的漢語分詞詞表,中文自動(dòng)分詞就無從談起。在漢語語言學(xué)家和計(jì)算機(jī)中文信息處 理研究專家們的共同努力下,目前,我國(guó)漢語詞的規(guī)范研究和漢語分詞規(guī)范詞表的制定 已經(jīng)有了較大的突破。信息處理用現(xiàn)代漢語分詞詞表的制定及不斷完善,說明我國(guó) 在漢語自動(dòng)分詞詞表方面取得了重大研究成果,這為漢語自動(dòng)分詞的研究鋪平了道路。 ( 2 ) 切分詞典設(shè)計(jì) 就目前普遍使用的微機(jī)環(huán)境而言,首先必須解決切分詞典的設(shè)計(jì)問題,研究壓縮技 術(shù)以及詞典的代碼化,以減少系統(tǒng)的空間開銷。其次,抽詞標(biāo)引算法技術(shù)的研究應(yīng)更注 重實(shí)際應(yīng)用的研究,以提高切分的正確率,解決歧義、交集型字符串等問題。再次,為 適應(yīng)當(dāng)今社會(huì)、經(jīng)濟(jì)和科學(xué)技術(shù)的高速發(fā)展,新概念、新詞匯層出不窮的狀況,自動(dòng)分 詞系統(tǒng)必須具有增加新詞的能力。 ( 3 ) 中文自動(dòng)分析研究 機(jī)械分詞難以解決復(fù)雜的漢語組詞的關(guān)系,因此今后應(yīng)注重對(duì)漢語句法和語義的自 動(dòng)分析研究,并將其應(yīng)用到中文文本自動(dòng)分詞與標(biāo)引領(lǐng)域。應(yīng)引入知識(shí)分詞的技術(shù)和方 6 1 緒論 i i 一 法,采用知識(shí)分詞語義分析進(jìn)行文本標(biāo)引專家系統(tǒng)的研究。此外,應(yīng)從自然語言理解角 度出發(fā),采用不同層次的處理方法。具體地說,從語義、語法、知識(shí)庫、語境相關(guān)分析 等語言學(xué)角度出發(fā),進(jìn)行知識(shí)分詞的理論性研究,以推動(dòng)整個(gè)自動(dòng)標(biāo)引技術(shù)研究的迅速 發(fā)展。 ( 4 ) 漢語詞自動(dòng)切分歧義處理 隨著分詞研究的突破,分詞歧義處理研究也取得了重大進(jìn)展。以前的消歧方法大體 可分為兩類:規(guī)則方法與統(tǒng)計(jì)方法,此外,還可以人工干預(yù)分詞,人工分詞與計(jì)算機(jī)自 動(dòng)分詞結(jié)合。在遇到計(jì)算機(jī)解決不了的歧義時(shí),借助于人工干預(yù)來完成。為了有效地消 除歧義字段,還可以在上述方法的基礎(chǔ)上建立分詞歧義知識(shí)庫或規(guī)則庫。隨著計(jì)算機(jī)技 術(shù)和漢語言研究的發(fā)展,漢語詞自動(dòng)切分歧義處理將會(huì)有更大的突破。 ( 5 ) 神經(jīng)網(wǎng)絡(luò)分詞方法 神經(jīng)網(wǎng)絡(luò)分詞方法是未來漢語自動(dòng)標(biāo)引技術(shù)發(fā)展的必然。由于人們目前采用的規(guī)則 推理與狀態(tài)轉(zhuǎn)移機(jī)理不能完全表達(dá)人腦思維的機(jī)制;對(duì)復(fù)雜、模糊的語義信息的處理, 仍顯得無能為力;分詞知識(shí)庫的構(gòu)造,詞典中信息的選擇,具有很大的人力因素;同時(shí), 系統(tǒng)本身的字學(xué)習(xí)與再學(xué)習(xí)缺乏有效手段,所以自然語言處理中的語法、語義研究的進(jìn) 一步發(fā)展必然要走向神經(jīng)網(wǎng)絡(luò)的分詞與理解系統(tǒng)。 ( 6 ) 漢語詞自動(dòng)切分應(yīng)用研究 目前,中文自動(dòng)分詞主要在信息檢索、自動(dòng)標(biāo)引、自動(dòng)文摘、機(jī)器翻譯、語言文字 研究、搜索引擎研究、自然語言理解和中文信息處理等方面的應(yīng)用都取得了可喜的成績(jī)。 隨著漢語自動(dòng)分詞技術(shù)的進(jìn)展,這一研究成果將會(huì)被應(yīng)用到廣泛的研究領(lǐng)域,如詞頻統(tǒng) 計(jì)、內(nèi)容分析、概念分析、認(rèn)知心理學(xué)和漢語語言學(xué)等方面。 1 3 研究的目的和研究?jī)?nèi)容 1 3 1 研究目的 本論文的研究目的是開發(fā)一個(gè)實(shí)用的基于計(jì)算機(jī)領(lǐng)域的現(xiàn)代中文自動(dòng)分詞系統(tǒng),以 較高的詞典查找效率保證良好的切分精度和切分速度,使該分詞系統(tǒng)為下一步的研究做 好基礎(chǔ)性工作。 1 3 2 研究的主要內(nèi)容 近期相關(guān)文獻(xiàn)及研究工作表明,中文自動(dòng)分詞雖然已經(jīng)達(dá)到實(shí)用階段,但仍然有相 當(dāng)數(shù)量的誤差率嚴(yán)重影響更深層次的中文信息處理研究。分詞正確率的提高越來越困 難,每提高一點(diǎn)就要付出巨大的代價(jià),做更多的研究工作。實(shí)踐也表明,中文自動(dòng)分詞 研究的每一次進(jìn)步,都會(huì)極大地推動(dòng)中文信息處理智能化的大大發(fā)展。 7 西安科技大學(xué)碩士學(xué)位論文 本文研究了索引字典的結(jié)構(gòu)、分詞匹配算法和歧義識(shí)別及其消除,在此基礎(chǔ)上設(shè)計(jì) 并實(shí)現(xiàn)了基于計(jì)算機(jī)領(lǐng)域語料庫的自動(dòng)分詞系統(tǒng)。該系統(tǒng)具有較高的分詞正確率,專業(yè) 性較強(qiáng),易于擴(kuò)充和維護(hù)系統(tǒng)在對(duì)詞典組織、分詞核心算法和歧義字段的處理上各有 側(cè)重。主要研究了詞典的建立,如何利用該詞典進(jìn)行分詞,并結(jié)合特定領(lǐng)域說明這種方 法的高效性和可行性,并對(duì)歧義字段根據(jù)通用語料和專業(yè)語料的特點(diǎn)有傾向性的進(jìn)行歧 義消解。關(guān)于未登錄詞,限于篇幅和特定領(lǐng)域,本文并沒有涉及。 論文完成了以下幾個(gè)方面的研究工作 研究了近十幾年來的中外相關(guān)文獻(xiàn),對(duì)自動(dòng)分詞的研究現(xiàn)狀進(jìn)行了總結(jié),并對(duì) 其發(fā)展趨勢(shì)進(jìn)行概括。對(duì)中文分詞算法進(jìn)行歸納及比較,在此基礎(chǔ)上對(duì)現(xiàn)有分詞方法的 局限進(jìn)行了分析,并引出了自動(dòng)分詞方面的難點(diǎn)。通過對(duì)典型的自動(dòng)分詞系統(tǒng)的分析, 對(duì)分詞系統(tǒng)的目標(biāo)及評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行了概括。 設(shè)計(jì)中文分詞系統(tǒng)的模塊,對(duì)分詞系統(tǒng)的模塊及各模塊的功能進(jìn)行了確定。 建立基于首字索引表的詞典機(jī)制,在原有詞典不變的基礎(chǔ)上,利用漢字內(nèi)碼的 特點(diǎn),對(duì)字典按首字及字段由長(zhǎng)到短的順序進(jìn)行詞典結(jié)構(gòu)的重新組織,以縮小匹配范圍, 減少匹配次數(shù),提高檢索效率。針對(duì)計(jì)算機(jī)領(lǐng)域,設(shè)置了專門的專業(yè)詞典來增強(qiáng)對(duì)專業(yè) 領(lǐng)域詞語的識(shí)別率,并設(shè)計(jì)了專門的切分手段,采用了通用詞典和專業(yè)詞典相結(jié)合的雙 詞典機(jī)制。 , 基于機(jī)械的分詞技術(shù),設(shè)計(jì)了一種改進(jìn)的正向減字最大匹配算法,使詞典結(jié)構(gòu) 與分詞算法充分結(jié)合,并采取“先專業(yè)詞后通用詞”的切分策略。 歧義的識(shí)別和消除采用了通用詞匯和專業(yè)詞匯區(qū)別對(duì)待的策略,有側(cè)重的進(jìn)行 歧義處理。對(duì)于通用詞匯主要側(cè)重處理交集型歧義字段,采用回退一字的方法識(shí)別出交 集型歧義字段;在歧義消除階段,主要利用詞頻信息,對(duì)歧義字段中可能的切分結(jié)果中 的詞進(jìn)行詞頻商的計(jì)算,以詞頻大的為最終歧義消除結(jié)果。對(duì)于專業(yè)詞匯主要處理組合 型歧義字段,此處的處理以專業(yè)詞典的最大切分結(jié)果作為最終歧義消除結(jié)果。 s 2 中文自動(dòng)分詞概述 2 1 中文分詞算法 2 中文自動(dòng)分詞概述 中文自動(dòng)分詞是中文信息處理的基礎(chǔ)環(huán)節(jié)和重要瓶頸,是學(xué)者們關(guān)注的熱點(diǎn)研究問 題。迄今為止,學(xué)者們已經(jīng)提出了雙向最大匹配、逐詞遍歷、設(shè)立切分標(biāo)志、最佳匹配、 詞頻統(tǒng)計(jì)、鄰接約束、動(dòng)態(tài)規(guī)劃的最小代價(jià)路徑、專家系統(tǒng)、最少分詞、神經(jīng)元網(wǎng)絡(luò)等 多種分詞方法。不同分詞方法模擬了人類分詞行為的不同側(cè)面,服務(wù)于不同用途的中文 信息處理系統(tǒng)??偟膩碚f,這些方法都是三個(gè)基本方法的擴(kuò)展、延伸和改進(jìn)。這三個(gè)基 本方法分別是:基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于理解的分詞方法,它 們分別代表了目前分詞方法的三大發(fā)展方向。 2 1 1 基于詞典的分詞方法 基于詞典的分詞方法,也稱為機(jī)械分詞方法。之所以稱為“機(jī)械”,是因?yàn)樗那蟹?過程是依賴于機(jī)器詞典進(jìn)行。其基本思想是:按一定的策略將待分析的漢字串與一個(gè)“充 分大的 機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功( 識(shí)別出 一個(gè)詞) 。 基于詞典的分詞方法的三個(gè)要素為分詞詞典、文本掃描順序和匹配原則。根據(jù)文本 的掃描順序分為正向掃描、逆向掃描和雙向掃描;根據(jù)匹配原則分為最大匹配、最小匹 配、逐詞匹配和最佳匹配;根據(jù)匹配不成功時(shí)重新切取的策略,機(jī)械匹配法又分為增字 法和減字法;根據(jù)與詞性標(biāo)注過程是否相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注 相結(jié)合的一體化方法。 ( 1 ) 正向最大匹配法 通常簡(jiǎn)稱為m m 法。其基本思想為:設(shè)d 為詞典,m a x 表示d 中的最大詞長(zhǎng),m 為 待切分的字串。m m 法是每次從蚶中取長(zhǎng)度為m a x 的子串與d 中的詞進(jìn)行匹配。若成功, 則該子串為詞,指針后移m a x + 漢字后繼續(xù)匹配,否則子串逐次減一進(jìn)行匹配。m m 法 設(shè)計(jì)思想簡(jiǎn)單,易于機(jī)器實(shí)現(xiàn),時(shí)間復(fù)雜度也比較低。但也有一些不足之處;最大詞長(zhǎng) m a x 難以確定;漢語詞匯是無窮的,詞庫再大也容不下所有詞匯;m m 法每次從長(zhǎng)到短 對(duì)子字串進(jìn)行匹配,這實(shí)際上否認(rèn)了“詞中含詞”這一語言現(xiàn)象,出錯(cuò)率高,拒分現(xiàn)象嚴(yán) 重。m m 方法一般不單獨(dú)使用,而是作為一種基本的機(jī)械切分方法同其他方法配合使用。 ( 2 ) 逆向最大匹配法 簡(jiǎn)稱為r m m 法。r m m 法的基本原理與m m 法相同,不同的是分詞的掃描方向,它 是從右至左取子串進(jìn)行匹配。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1 1 6 9 , 9 西安科技大學(xué)碩士學(xué)位論文 單純使用逆向最大匹配的錯(cuò)誤率為1 2 4 5 ,顯然r m m 法在切分的準(zhǔn)確率上比m m 法有很 大提高。 ( 3 ) 雙向匹配法 從最大匹配法出發(fā)導(dǎo)出了“雙向最大匹配法”,即m m + r m m ,即對(duì)同一個(gè)字符串分 別按照m m 方法和r m m 方法進(jìn)行切分處理,如果能夠得到相同的切分結(jié)果,則認(rèn)為切分 成功。否則要做進(jìn)一步的分析處理,這時(shí)或者采用上下文信息,根據(jù)切分歧義規(guī)則庫進(jìn) 行捧歧,或者進(jìn)行人工干預(yù),選取一種認(rèn)為切分正確的結(jié)果s u a m s 和b e n j a m i n k t ( 1 9 9 5 ) 1 1 注意到:漢語文本中9 0 左右的句子,m m 和r m m 的切分完全重合且正確, 9 左右的句子m m 和r m m 切分不同,但其中必有一個(gè)是正確的( 歧義檢測(cè)成功) 。這正是 雙向最大匹配法在實(shí)用中文信息處理系統(tǒng)中得以廣泛使用的原因所在i l q 。 雙向匹配法的缺陷有:算法復(fù)雜度提高。為了使切詞詞典支持正向和逆向兩種順序 的匹配和搜索,詞典的結(jié)構(gòu)要比一般的詞典結(jié)構(gòu)要復(fù)雜一些;并不是所有的交集型歧義 和組合型歧義都可以通過雙向匹配方法找到。例如字符串“語言學(xué)起來很難”和“原子結(jié) 合成分子時(shí)”,m m 和r m m 得到相同的分詞結(jié)果,但都存在切分歧義。 ( 4 ) 最少切分法,也稱為最短路徑法 通過查詢?cè)~典,找出字符串中存在的所有詞,構(gòu)造有向無環(huán)圖。采用層進(jìn)式最短路 徑法來得到最后的切分結(jié)果。由于大多數(shù)漢字均可構(gòu)成單字詞,所以按最小匹配法分詞 的結(jié)果往往因分得太細(xì)而不合要求。 ( 5 ) 最佳匹配方法 簡(jiǎn)稱為o m 法。o m 方法是現(xiàn)代漢語( 張志公主編) 中提出來的,分為正向最佳匹 配法和逆向最佳匹配法。最佳匹配法的出發(fā)點(diǎn),是在詞典中按詞頻的大小順序摔列詞條, 以求縮短分詞詞典的檢索時(shí)間,達(dá)到最佳效果,從而降低分詞的時(shí)間復(fù)雜度,加快分詞 速度。實(shí)質(zhì)上,這種分詞方法是預(yù)先對(duì)分詞詞典進(jìn)行處理,而不是一種純粹意義的分詞 方法。o m 方法的分詞詞典每條詞前面必須有指明長(zhǎng)度的數(shù)據(jù)項(xiàng),所以o m 方法的空間復(fù) 雜度稍有增加。o m 方法雖然降低了分詞的時(shí)間復(fù)雜度,但是并沒有提高分詞精度。 ( 6 ) 改進(jìn)的方法 改進(jìn)的方法主要有特征詞掃描法,高頻優(yōu)先法,擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)( a t n ) 法、約束矩陣 法、分詞句法一體化方法等。特征詞掃描法是對(duì)機(jī)械分詞方法所作的一種改進(jìn),即改 進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分。其基本思想是在待分析字符串中識(shí)別和切分出 一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),將原字符串分為較小的串,然后再進(jìn)行機(jī) 械分詞,從而減少匹配的錯(cuò)誤率。實(shí)際上這是一種“分而治之”的方法。目前,特征詞掃 描法主要是作為預(yù)處理階段的一種方法。高頻優(yōu)先是通過詞頻統(tǒng)計(jì),確定優(yōu)先處理兩字 詞、其次三字詞的處理順序。a t n 法主要用來組織用于漢語的動(dòng)態(tài)機(jī)器詞典,解決歧義 問題。約束矩陣方法建立語法、語義約束矩陣,利用了相鄰詞匯之間的約束關(guān)系來進(jìn)行 1 0 2 中文自動(dòng)分詞概迷 分詞。分詞句法一體化方法則是在分詞的同時(shí)進(jìn)行句法分析,利用句法信息來處理歧 義現(xiàn)象。前兩種方法主要是利用漢語的成詞規(guī)律來改善機(jī)械分詞的精度和效率,而后三 種方法均在不同程度上使用語法、語義、句法等信息來排除歧義,提高精度,我們一般 將它們成為基于語義的分詞。 對(duì)于機(jī)械分詞方法,可以建立一個(gè)一般的模型,形式地表示為a s m ( d , a , m ) 。其中, d :匹配方向 + l 表示正向,1 表示逆向; , 出每次匹配失敗后增加減少字串長(zhǎng)度( 字符數(shù)) + l 為增字,1 為減字; m :最大,最小匹配標(biāo)志 + l 為最大匹配,1 為最小匹配。 例如,a s m ( + ,- ,+ ) 就是正向減字最大匹配法,a s m ( - ,+ ) 就是逆向減字最大匹配法( 即 逆向最大匹配法) ,等等。對(duì)于現(xiàn)代漢語來說,只有m = + l 是實(shí)用的方法。用這種模型可 以對(duì)各種方法的復(fù)雜度進(jìn)行比較,假設(shè)在詞表的查詢過程都使用順序查找和相同的首字 索引查找方法,則在不記首字索引查找次數(shù)和詞典讀入內(nèi)存時(shí)間的情況下,對(duì)于典型的 詞頻分布,減字匹配a s m ( d ,m ) 的復(fù)雜度約為1 2 3 次,增字匹配a s m ( d ,+ 問的復(fù)雜度 約為1 0 6 1 2 a 。 機(jī)械分詞法的優(yōu)點(diǎn)是其方法簡(jiǎn)潔,易于實(shí)現(xiàn),在工程上得到了廣泛的應(yīng)用。其缺點(diǎn) 是;匹配速度慢;存在交集型和組合型歧義切分問題;詞本身沒有一個(gè)標(biāo)準(zhǔn)的定義,沒 有統(tǒng)一標(biāo)準(zhǔn)的詞集;不同詞典產(chǎn)生的歧義也不同;對(duì)詞典中沒有的詞無法正確切分;需 要人工維護(hù)詞典;適用范圍有限等。單純采用這種方法時(shí)切分精度較低,并不能滿足中 文信息處理的要求,正向和逆向最大匹配存在切分盲點(diǎn),雙向最大匹配雖綜合了單向匹 配的優(yōu)點(diǎn),能處理絕大部分交集型歧義,但不能達(dá)到切分組合歧義的處理能力,因此, 將這種機(jī)械匹配的方法和其他切分方法相結(jié)合是現(xiàn)在比較常用的思路,既充分利用機(jī)械 分詞速度快,實(shí)現(xiàn)簡(jiǎn)單的優(yōu)點(diǎn),又克服了它切分精度低的不足,提高分詞質(zhì)量。 2 1 2 基于統(tǒng)計(jì)的分詞方法 由于漢語詞定義的模糊性,有些學(xué)者利用統(tǒng)計(jì)方法,通過對(duì)大規(guī)模真實(shí)文本的統(tǒng)計(jì), 讓計(jì)算機(jī)自己判斷什么是詞,這就產(chǎn)生了基于統(tǒng)計(jì)的分詞方法,又稱為無詞典分詞。這 類方法分詞的依據(jù)和主要思想是:從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相 鄰的字共現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰出現(xiàn)的頻率或概率能夠 較好的反映成詞的可信度。通過對(duì)語料中相鄰共現(xiàn)的各個(gè)字的組合頻度進(jìn)行統(tǒng)計(jì),計(jì)算它 們的互現(xiàn)信息?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè) 閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì), 西安科技大學(xué)碩士學(xué)位論文 切分出所有可能的詞,然后利用統(tǒng)計(jì)和決策的算法確定最優(yōu)的切分結(jié)果。 基于統(tǒng)計(jì)的分詞方法優(yōu)點(diǎn)在于無需額外構(gòu)造詞典;需要的基礎(chǔ)資源少,對(duì)語言資源 的依賴性弱;能夠有效地自動(dòng)排除歧義,能夠識(shí)別新詞、怪詞,解決了基于字典的分詞 方法的弊病,這是統(tǒng)計(jì)方法會(huì)被廣泛使用的最主要的原因。但這種方法也有一定的局限 性,計(jì)算量大;需要大量原始文檔;會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組, 例如這一j 、之一j 、r 有的j 、我的j 、許多的j 等,并且對(duì)常用詞的識(shí)別精 度差,時(shí)空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典進(jìn)行串匹配分 詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞 切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的 優(yōu)點(diǎn)。 2 1 3 基于理解的分詞方法 人工智能分詞技術(shù)的關(guān)鍵是如何在分詞過程中引入有用的詞法、句法及語用等各種 語義知識(shí)進(jìn)行有條件的切分。人工智能是對(duì)信息進(jìn)行智能化處理的一種模式,主要有兩 種處理方式:一種是基于心理學(xué)的符號(hào)處理方法。模擬人腦的功能,構(gòu)造推理網(wǎng)絡(luò),經(jīng) 過符號(hào)轉(zhuǎn)換,從而可以進(jìn)行解釋性處理。一種是基于生理學(xué)的模擬方法。神經(jīng)網(wǎng)絡(luò)旨在 模擬人腦神經(jīng)系統(tǒng)機(jī)構(gòu)的運(yùn)作機(jī)制來實(shí)現(xiàn)一定的功能。以上兩種思路是近年來人工智能 領(lǐng)域研究的熱點(diǎn)問題,應(yīng)用到分詞方法上,產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法。 ( 1 ) 專家系統(tǒng)分詞法 從模擬人腦功能出發(fā),將分詞過程看作是知識(shí)推理的過程,構(gòu)造推理網(wǎng)絡(luò),將分詞 所需的漢語詞法、句法、語義知識(shí)分離出來,把知識(shí)表示、知識(shí)庫結(jié)構(gòu)與維護(hù)作為考慮 的中心。在分詞時(shí),將待分詞或已分詞看

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論