文本自動對準技術(shù)在中西文本校中的對比研究_第1頁
文本自動對準技術(shù)在中西文本校中的對比研究_第2頁
文本自動對準技術(shù)在中西文本校中的對比研究_第3頁
文本自動對準技術(shù)在中西文本校中的對比研究_第4頁
文本自動對準技術(shù)在中西文本校中的對比研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

文本自動對準技術(shù)在中西文本校中的對比研究

1英語拼接檢查系統(tǒng)的研究自動文本校正是自然處理的主要應(yīng)用之一。早在20世紀60年代,國外就開展了英文文本的自動校對研究;IBMThomasJ.Watson研究中心首先于1960年在IBM/360和IBM/370用UNIX實現(xiàn)了一個TYPO英文拼寫檢查器;1971年,斯坦福大學(xué)的RalphGorin在DEC-10機上實現(xiàn)了一個英文拼寫檢查程序Spell。多年來,隨著計算機技術(shù)的不斷發(fā)展,新的輸入技術(shù)不斷涌現(xiàn),如OCR識別、語音識別。開展拼寫錯誤校對的研究更加迫切,這方面的研究也在不斷取得進展,部分成果已經(jīng)商品化,目前流行的一些文字處理軟件(如Word,Wordpefect等)也都嵌入了英文拼寫檢查功能。國際互聯(lián)網(wǎng)上還能見到ExpertEase公司推出的DealProof,Newton公司推出的Proofread等英文單詞拼寫檢查系統(tǒng)。國內(nèi)在中文文本校對方面的研究始于20世紀90年代初期,但發(fā)展速度較快。目前有許多科技公司和高等院?;蜓芯繖C構(gòu)都投入了一定的人力和財力開展這方面的研究[15,16,17,18,19,20,21,22,23,24,25,26,27],并取得了一些較好的成果,且有部分成果已經(jīng)商品化,如黑馬校對系統(tǒng)、金山校對系統(tǒng)、工智校對通等。本文就文本自動校對技術(shù)的國內(nèi)外發(fā)展狀況進行了研究。2常見錯誤類型分析2.1ocr在電子文件中的應(yīng)用目前,常見的文字錄入技術(shù)和方法主要有鍵盤錄入、語音識別、OCR識別、手寫識別。其中由于鍵盤錄入和OCR識別速度快、準確率高,成為文字錄入的主要手段。對于中文來說,由于字符集太大,人們研究了許多種輸入法間接將漢字送入計算機。目前比較流行且影響較大的輸入法有五筆字型輸入法、微軟拼音輸入法、智能狂拼輸入法、智能ABC等。OCR識別也是一種常用的輸入技術(shù),但這種輸入技術(shù)主要用于書寫比較工整的手寫稿或印刷稿輸入,速度極快,目前字跡清晰的印刷稿的識別正確率已在98%以上,手寫體的識別正確率還比較低,識別后處理或校對的任務(wù)也比較繁重。除了原稿中的錯誤外,電子文本中的錯誤主要來自輸入過程。尤其對中文來說,文中的錯誤還和所使用的輸入法密切相關(guān),因此,有必要對這些輸入法產(chǎn)生的錯誤及形式進行分析。2.2編碼語法錯誤在應(yīng)用鍵盤錄入英文字符時,常見的錯誤有以下幾種:非詞錯誤、真詞錯誤和句法語義錯誤。非詞錯誤是指文本中那些被詞邊界分隔出的字符串,根本就不是詞典中的詞。如下面的輸入錯誤:them→tehm,the→thr,partition→patition,study→studdy等就是非詞錯誤,造成這種錯誤的原因是由于指法錯誤或粗心造成的,這些錯誤可以概括為替換錯誤、易位錯誤、丟失錯誤和插入錯誤等。真詞錯誤是由于輸入人員的粗心或指法錯誤所形成的字符串,雖不是想要的單詞,但卻是在詞典中能夠查到的真正的單詞。如在輸入from時由于發(fā)生了易位錯誤,使from變成了form,而form是詞典中的詞;若在輸入employer時由于字符r和e相鄰,很可能將r輸成e就得到employee,得到的字符串是詞典中的單詞,但詞義相反。真詞錯誤往往會導(dǎo)致所輸入的詞與上下文搭配不當(dāng),不是當(dāng)前語境中所需要的詞,如“IcomeformBeijing”中的“form”應(yīng)為“from”。句法語義錯誤往往是由于真詞錯誤造成的,或由于原稿本身存在語法錯誤,或輸入時丟失了某個單詞甚至串行或丟失一整行。通常人們將“非詞錯誤”稱為單詞錯誤,而將“真詞錯誤”稱為上下文相關(guān)的文本錯誤。在應(yīng)用鍵盤錄入漢字時,由于漢字數(shù)量遠遠大于鍵盤上鍵的數(shù)量,所以必須采用編碼輸入法。常用的編碼輸入法有五筆字型輸入法和拼音輸入法(包括全拼、雙拼、智能ABC、智能狂拼等)。與英文不同,漢語輸入不會發(fā)生非字錯誤,能輸入到計算機中的字必在漢字庫中,因此,漢語文本中只會出現(xiàn)由于替換、易位、丟失、插入而導(dǎo)致的上下文相關(guān)錯誤或句法語義錯誤。使用五筆字型法輸入文字時產(chǎn)生的錯字往往與原字形相似,或者它們的編碼相近,如由于手型不規(guī)范將d,f,g,h弄錯,導(dǎo)致將“居(nd)”輸成“導(dǎo)(nf)”;而使用各種拼音法產(chǎn)生的錯誤,其音相同或相似,如“計算機用戶”輸成“計算機擁護”。2.3誤識字群和編碼在應(yīng)用OCR技術(shù)輸入文字時,常見的錯誤主要有拒識和誤識兩種情況。由于識別系統(tǒng)識別的字數(shù)有限,對一些生僻字會拒識,如“校讎學(xué)”被識別為“校X學(xué)”。而對于那些形近或形似的英文字符或漢字則容易產(chǎn)生誤識,如英文字母“D”被識別為“O”,字母“l(fā)”被識別為數(shù)字“1”,“已經(jīng)”被識別為“己經(jīng)”,“孔子曰”被識別為“孔子日”等。除了輸入過程中造成的錯誤以外,還有一種錯誤就是在文稿形成過程中由于寫作人員的疏忽和大意造成的原稿錯誤,如寫錯別字、搭配不當(dāng)、結(jié)構(gòu)殘缺和標點符號錯誤等?!跋衿北蛔髡邔憺椤跋笃?“為人類做出貢獻”被寫為“為人類作出貢獻”等。3錯誤檢測和中文文本匹配方法3.1不同類型的n元串檢查法英文文本中單詞錯誤的檢測發(fā)現(xiàn)方法目前主要有兩種,即N-gram分析法和查詞典法。一般情況下,N-gram錯誤檢測技術(shù)對輸入串中的每一個n元串(n一般取2或3)在事先編輯好的一個N-gram表中進行查找,看它是否在表中存在或它的出現(xiàn)頻次,那些不存在或出現(xiàn)頻次非常低的n元串被認為是可能的拼寫錯誤,如“shj”或“het”就是錯誤的三元串。N-gram分析法通常需要一個詞典或大規(guī)模的文本語料以便事先編輯N-gram表。查詞典法主要是檢查所輸入的n元串是否在詞典或可接受的詞表中,如果不在詞典中,則將該輸入串標志為一個拼寫錯誤的詞。由于基于查詞典法的校對系統(tǒng)查錯精度高,因此,是目前較為流行的錯誤檢測技術(shù)??紤]到存取速度,當(dāng)詞典規(guī)模較大時,為了提高查錯速度,有效的詞典查找算法也是人們研究的重點。單詞錯誤的糾錯方法已經(jīng)有很多研究,主要有誤拼詞典法、詞形距離法、最小編輯距離法、相似鍵法、骨架鍵法、N-gram法、基于規(guī)則的技術(shù)、詞典及神經(jīng)網(wǎng)絡(luò)技術(shù)。(1)查調(diào)詞匯后誤拼接字收集大規(guī)模真實文本中拼寫出錯的英文單詞并給出相應(yīng)的正確拼寫,建造一個無歧義的誤拼字典。在進行英文單詞拼寫檢查時,查找誤拼字典,如命中,則說明該單詞拼寫有誤,該詞的正確拼寫字段為糾錯建議。該方法的特點是偵錯和糾錯一體化,效率高。但英文拼寫錯誤具有隨機性,很難保證誤拼字典的無歧義性和全面性,因此查準率低、校對效果差。(2)相似的似然性函數(shù)這是一種基于最大相似度和最小串間距離的英文校對法。其核心思想是構(gòu)造單詞的似然性函數(shù),如該單詞在詞典中,則單詞拼寫正確;否則,按照似然性函數(shù),在詞典中找到一個與誤拼單詞最相似的詞作為糾錯候選詞。該方法的特點是節(jié)省存儲空間,能反映一定的常見拼寫錯誤統(tǒng)計規(guī)律,是一種模糊校對法。(3)個詞串轉(zhuǎn)換編輯操作通過計算誤拼字符串與詞典中某個詞間的最小編輯距離來確定糾錯候選詞。所謂最小編輯距離是指將一個詞串轉(zhuǎn)換為另一個詞串所需的最少的編輯操作次數(shù)(編輯操作是指插入、刪除、易位和替換等)。還有人提出了反向最小編輯距離法,這種方法首先對每個可能的單個錯誤進行交換排列,生成一個候選集,然后,通過查詞典看哪些是有效的單詞,并將這些有效的單詞作為誤拼串的糾錯建議。(4)生成相似的字符相似鍵技術(shù)是將每個字符串與一個鍵相對應(yīng),使那些拼寫相似的字符串具有相同或相似的鍵,當(dāng)計算出某個誤拼字符串的鍵值之后,它將給出一個指針,指向所有與該誤拼字符串相似的單詞,并將它們作為給誤拼字符串的糾錯建議。(5)錯誤詞匯的加害通過構(gòu)建骨架鍵詞典,在英文單詞出現(xiàn)錯誤時,先抽取出該錯誤單詞的骨架鍵,然后再去查骨架鍵詞典,將詞典中與該單詞具有相同骨架鍵的正確單詞作為該單詞的糾錯建議。(6)詞匯與詞匯間的轉(zhuǎn)移概率基于n元文法,通過對大規(guī)模英文文本的統(tǒng)計得到單詞與單詞間的轉(zhuǎn)移概率矩陣。當(dāng)檢測到某英文單詞不在詞典中時,查轉(zhuǎn)移概率矩陣,取轉(zhuǎn)移概率大于某給定閾值的單詞為糾錯建議。(7)錯誤變換利用規(guī)則的形式將通常的拼寫錯誤模式進行表示,這些規(guī)則可用來將拼寫錯誤變換為有效的單詞。對于一個誤拼字符串,應(yīng)用所有合適的規(guī)則從詞典中找到一些與之對應(yīng)的單詞作為結(jié)果,并對每個結(jié)果根據(jù)事先賦予生成它的規(guī)則的概率估計計算一個數(shù)值,根據(jù)這個數(shù)值對所有候選結(jié)果排序。3.2基于表面信息的文本錯誤對策上下文相關(guān)的文本錯誤即真詞錯誤,其校對要比單詞拼寫錯誤校對困難得多。上下文相關(guān)的拼寫校對不僅要修正那些“經(jīng)典”的拼寫錯誤類型,比如同音詞錯誤(如peace與piece)和字母排序錯誤(如form與from),而且還要修正那些常見的語法錯誤(如among與between)和詞邊界混淆的錯誤(如maybe與maybe)。因為真詞錯誤的出錯字符串是詞典中的正確詞,所以針對單詞拼寫錯誤的校對方法在這里不一定適用,要對這類錯誤進行校對,必須使用上下文信息來判定哪些詞在文本中出現(xiàn)是不合理的,這些詞可能就是潛在的錯誤。上下文相關(guān)錯誤的校對較之單詞誤拼的校對要困難得多,它與自然語言理解的研究緊密相連。受自然語言理解技術(shù)進展的影響,文本錯誤的校對技術(shù)目前還沒有大的突破?,F(xiàn)有的基于上下文的文本錯誤校對方法有三類:①利用文本的特征,如字形特征、詞性特征或上下文特征;②利用概率統(tǒng)計特性進行上下文接續(xù)關(guān)系的分析;③利用規(guī)則或語言學(xué)知識,如語法規(guī)則、詞搭配規(guī)則等。(1)前后的關(guān)聯(lián)特征可以將文本的校對過程描述為詞排歧過程。若稱待校對的詞為目標詞,則建立混淆集C={W1,…,Wn},其中的每個詞Wi均與文本中的目標詞容易發(fā)生混淆或歧義。如假設(shè)C={from,form},如果在文本中出現(xiàn)from或form時,就將它看作是一個from與form之間的歧義,校對的任務(wù)就是根據(jù)上下文決定哪個詞是我們想要的詞。上下文相關(guān)的校對問題由語句和語句中要被校正的詞構(gòu)成,Bayesian方法和基于Winnow的方法都是將這樣的問題表示成有效特征表,每一個有效特征表示目標詞的上下文中有一個特殊的語言學(xué)模式存在。目前常使用的特征有兩種類型:上下文的詞和詞的搭配。上下文詞特征用來檢查在目標詞周圍的±k個詞的范圍內(nèi)是否有特殊詞存在;詞搭配則用來檢測在目標詞的周圍l個相鄰詞和/或詞性標注的狀態(tài)。如假設(shè)目標詞的混淆集為{weather,whether},若置k=10,l=2,目標詞的可用特征包括:①目標詞前后10個詞范圍內(nèi)的cloudy;②當(dāng)前詞后為to+動詞。特征①就預(yù)示著當(dāng)前詞應(yīng)為weather;而②則用來檢查詞搭配,它表明當(dāng)前詞后緊接著一個“to+動詞”的結(jié)構(gòu),表明當(dāng)前詞應(yīng)取whether(如Idon’tknowwhethertolaughorcry)。在這種方法中,主要要解決的問題包括混淆集的求取;目標詞所在上下文中特征的表示,即如何將語句的初始文本表示轉(zhuǎn)換為有效特征?;谠~語同現(xiàn)與搭配特征的校對方法有很多種,較好的有Bayesian方法和基于Winnow方法。各種N-gram模型,如長距離N-gram、觸發(fā)對N-gram等模型,都可以利用目標詞上下文中的詞同現(xiàn)特征或搭配特征,采用最大似然估計法、互信息、相關(guān)度等方法檢測文本中的錯誤,并通過相鄰詞間的轉(zhuǎn)移概率確定糾錯候選詞,實現(xiàn)對目標詞的校正。(2)識或規(guī)則的技術(shù)這種技術(shù)利用語言學(xué)家的語言學(xué)知識或句法語義規(guī)則去糾正文本中出現(xiàn)的錯誤。在基于語言學(xué)知識或規(guī)則的技術(shù)中,隨著分析過程的進展,系統(tǒng)將依據(jù)句法、語義和篇章結(jié)構(gòu)知識,建立一個它希望在下一個位置看到的詞的列表,如果輸入字符串的下一字符不在所期望的字符列表中,則系統(tǒng)就認為檢測到了一個錯誤,并從其期望詞表中選擇一個詞作為對其進行修正的候選詞。4錯誤類型與中國文本的檢測技術(shù)4.1非字錯誤產(chǎn)生的原因大多數(shù)西文都是表音文字,而漢語是表意文字,它們之間有著很多的不同:①文本結(jié)構(gòu)不同。英語文本中詞與詞之間有空格,而漢語文本無空格。②詞結(jié)構(gòu)不同。英語的詞有形態(tài)變化(時、數(shù)、量),而漢語缺少形態(tài)變化且漢語詞類與句法成分之間不存在某種簡單的對應(yīng)關(guān)系。③字符進入計算機的方式不同。英文單詞進入計算機是按字母一個個地錄入,而中文字符進入計算機只能借助漢字編碼。這種輸入過程不可能產(chǎn)生拼寫錯誤,即顯示在計算機屏幕上的每個漢字都必須是漢字編碼字符集中的一個單字,絕不會是缺一點少一捺的錯字。因此,中文輸入不會產(chǎn)生“非字錯誤”,只能產(chǎn)生別字錯誤,這些錯誤往往與要輸入的字或詞音同、音近或形近。④字符集規(guī)模的差異。英文的字符集是26個字母加標點符號,而漢語字符集則是一個包含了超過6763個漢字符的大字符集,這將導(dǎo)致在應(yīng)用語言模型時參數(shù)計算的極大困難。正是由于漢語和西文的差異,導(dǎo)致漢語文本的處理要比西文文本復(fù)雜得多。由于漢語沒有“非字錯誤”,因此,其校對只能是基于上下文的相關(guān)性來實現(xiàn)。漢語處理中的主要難點,如文本的切分、標注的歧義處理以及未登錄詞的識別等,也會反映到中文文本自動校對技術(shù)的研究當(dāng)中,直接影響著中文文本校對時所進行的語法、語義分析的質(zhì)量,進而影響召回率與查準率。4.2漢語文本查錯/糾錯分析的技術(shù)與技術(shù)國內(nèi)在文本自動校對方面的研究主要是針對漢語文本開展的。因為中文文本校對主要面向的是含有錯誤的文本,因此,漢語自然語言理解的研究也就成了計算機中文文本自動校對的基礎(chǔ)。由于漢語與英語本質(zhì)上的不同,在對中文文本進行查錯/糾錯分析時,必須要基于自然語言的理解技術(shù),通過研究上下文間的依存關(guān)系才能實現(xiàn),這顯然是比較復(fù)雜和困難的,某些適于英文單詞校對的技術(shù)和方法對漢語文本并不太適用。目前,國內(nèi)有不少單位開展了中文文本校對理論和技術(shù)的研究,除了微軟亞洲研究院、IBM中國研究中心、哈爾濱工業(yè)大學(xué)、清華大學(xué)、東北大學(xué)、北京師范大學(xué)、北京工業(yè)大學(xué)、山西大學(xué)等科研院所外,一些有實力的高新技術(shù)公司,如北京黑馬電子新技術(shù)公司、北大方正公司、金山公司等都開展了中文文本校對軟件的研究與開發(fā)。4.2.1局部語言特征就目前現(xiàn)有的與中文校對相關(guān)的文獻來看,國內(nèi)在自動文本查錯方面主要采用三種方法:①利用文本上下文的字、詞和詞性等局部語言特征,包括詞性特征、同現(xiàn)特征或相互依存特征,甚至包括字形特征等;②利用轉(zhuǎn)移概率對相鄰詞間的接續(xù)關(guān)系進行分析;③利用規(guī)則或語言學(xué)知識,如語法規(guī)則、詞搭配規(guī)則等。其實,這些方法之間沒有嚴格的界限,甚至一般是混合使用的。(1)提取句子的獲取微軟中國研究院設(shè)計實現(xiàn)了一個基于多特征的中文自動校對方法,它綜合考慮了漢語文本中字、詞和詞性的局部語言特征以及長距離的語言特征,并采用Winnow方法進行特征學(xué)習(xí),利用這些上下文特征對目標詞混淆集中的詞進行選擇。其主要難點是如何將目標語句轉(zhuǎn)換為多元有效特征以及混淆集的獲取。哈爾濱工業(yè)大學(xué)將對被校對的句子中的每個字詞尋找其可能的候選,構(gòu)成句子的字詞候選矩陣,在此基礎(chǔ)上,利用語言本身所具有的結(jié)構(gòu)特征與統(tǒng)計特征,從候選矩陣中選出句子的最佳字詞候選序列,將其與原句對照,找出錯誤的字詞,并以第一候選加以改正。語言結(jié)構(gòu)特征的獲取則應(yīng)用t元規(guī)則對字詞候選矩陣中的字詞進行捆綁與剪枝,形成語言結(jié)構(gòu)元素,并將其構(gòu)成元素格子圖,然后借助文本統(tǒng)計特征,應(yīng)用Markov模型從語言結(jié)構(gòu)元素格子圖中尋找一條最佳的元素路徑,即為從候選矩陣中尋找的待校對語句的最佳句子。該方法的關(guān)鍵是候選矩陣構(gòu)造以及語言結(jié)構(gòu)特征的獲取,由于候選矩陣中只選擇了同音字,因而,目前僅適于校對拼音輸入法形成的文本。其主要難點在于特征的統(tǒng)一表示與格子圖中的有效候選路徑的求取。(2)自動識別給編碼錯誤北京師范大學(xué)利用校正文法規(guī)則對文稿進行校對,若句子滿足校正文法規(guī)則,則根據(jù)規(guī)則把相應(yīng)字詞標記錯誤,但有限的規(guī)則很難覆蓋大量難以預(yù)料的錯誤現(xiàn)象,查錯能力有限。哈爾濱工業(yè)大學(xué)則以小句為單位,對漢語句子進行三遍掃描,通過自動分詞、自動識別生詞、用短語規(guī)則將單字詞散串合成短語,逐步把正確的字符串捆扎起來,將不能捆綁的剩余單字符串判定為錯誤。其不足之處是有限的短語捆扎規(guī)則難以覆蓋大量的語言現(xiàn)象,短語的捆扎缺乏定量的判斷依據(jù),查錯算法只能查出單字(串)錯誤,不能查出多字詞的替換錯誤,比如“用戶社會主義制度”這樣的錯誤就無法查出。吳巖等人還提出了一種詞匹配和語法分析相結(jié)合的校對方法。采用規(guī)則與統(tǒng)計相結(jié)合的方法,不使用大規(guī)模語料庫,通過逆向最大匹配和局部語料統(tǒng)計算法發(fā)現(xiàn)散串,并對散串進行詞匹配和語法分析處理,進而發(fā)現(xiàn)候選錯誤字串,由人機交互的方法對錯誤串進行自動校正,取得了較高的查錯率。(3)基于混合文本空間字轉(zhuǎn)移概率的自動查錯算法張照煌提出一種利用綜合近似字集替換,并用統(tǒng)計語言模型評分的方法,其基本思想是以事先整理好字形、字音、字義或輸入碼相近字的綜合近似字集替換待校對句子中的每個漢字,產(chǎn)生許多候選字符串(或許多路徑),利用統(tǒng)計語言模型對各候選字符串評分,將評分最高的字符串與待校對文本中的句子進行對照,即可發(fā)現(xiàn)錯誤之所在并提供相對應(yīng)的正確字。該方法的難點是如何整理綜合近似字集,且若近似字集較大的話,計算量是非常大的;其不足之處是只能校對所謂的別字錯誤,對多字、漏字、易位等錯誤難以發(fā)現(xiàn)。東北大學(xué)提出了一種混合文本校對方法HMCTC,采用模式匹配方法進行最長匹配分詞,發(fā)現(xiàn)長詞錯誤;然后根據(jù)類三元語法,將與前后相鄰詞同現(xiàn)頻率乘積小于一定閾值的詞標記為錯誤;最后對詞進行語法屬性標注,在不可能的語法標注序列字詞處作錯誤標記。其缺點是基于詞語同現(xiàn)頻率的查錯判據(jù)受限于訓(xùn)練語料的大小和語料選取的領(lǐng)域,且詞語同現(xiàn)頻率數(shù)據(jù)的獲取需要大規(guī)模經(jīng)過切分的熟語料,而這樣的熟語料是難以獲得的。清華大學(xué)利用語料庫統(tǒng)計知識指導(dǎo)文本校對,以句為單位,把句子看作字段和詞段,對字段計算字段平均字頻、字段平均轉(zhuǎn)移概率;對詞段計算詞間字轉(zhuǎn)移概率、詞性轉(zhuǎn)移概率,將轉(zhuǎn)移概率作為查錯判據(jù),把轉(zhuǎn)移概率小于閾值的字或詞作為查出的錯誤。其中,查錯判據(jù)是自動查錯研究的核心,仍有待于進一步研究。北京工業(yè)大學(xué)計算機學(xué)院在對大規(guī)模語料庫的統(tǒng)計分析基礎(chǔ)上,構(gòu)建了二字結(jié)構(gòu)工程并引入人名、地名辨識規(guī)則,利用詞語類間的接續(xù)關(guān)系進行查錯,對人名、地名誤報率低。4.2.2自動糾錯研究自動糾錯是文本自動校對的一個重要組成部分,它為自動查錯時偵測出的錯誤字符串提供修改建議,輔助用戶改正錯誤。修改建議的有效性是衡量自動糾錯性能的主要指標,它有兩點要求:①提供的修改建議中應(yīng)該含有正確或合理的建議;②正確或合理的修改建議應(yīng)盡可能排列在所有建議的前面。因此,糾錯修改建議的產(chǎn)生算法及排序算法是自動糾錯研究的兩個核心課題。由于中文文本自動校對理論和技術(shù)尚不太成熟,自動糾錯研究的論述還不多見。東北大學(xué)采用模式匹配方法對長詞進行糾錯處理,但沒有充分利用出錯字符串的特征,算法計算量大。IBM中國研究中心提出一種替換字表結(jié)合主詞典,通過加字和換字對偵測出來的錯誤字符串提供修改建議的糾錯算法,但該算法的糾錯建議局限于替換字表,沒有考慮上下文啟發(fā)信息,主要考慮對錯字這種錯誤類型進行糾錯,對漏字、多字、易位、多字替換、英文單詞拼寫等錯誤類型的糾錯能力較弱。山西大學(xué)提出了一種基于似然匹配的糾錯建議候選集產(chǎn)生算法,對漏字、多字、易位、多字替換等錯誤類型的糾錯能力有了較大的提高。5.重視語言學(xué)研究經(jīng)過多年的研究,已有一些商品化的文本自動校對軟件在出版印刷界得到一定程度的應(yīng)用,如黑馬校對系統(tǒng)、方正金山校對系統(tǒng)等。但與機器翻譯一樣,文本自動校對技術(shù)是建立在自然語言理解技術(shù)的基礎(chǔ)之上的,是一個難度很大的研究課題,系統(tǒng)的錯誤召回率和準確率都比較低(召回率小于70%,準確率小于40%),糾錯建議的有效率或首選正確率也很低,與用戶的要求還有較大差距,故其技術(shù)還有待進一步研究。造成中文文本自動校對技術(shù)召回率和準確率較低的原因有如下幾點:①中文文本中的錯誤都是“真字錯誤”,針對英文比較有效的單詞查錯和糾錯技術(shù)在中文中不太適用;②目前基于上下文的自動查錯技術(shù)主要還是字詞級的水平,使用的查錯語言模型是字詞級的簡單統(tǒng)計模型(如Bigram或Trigram),利用的語言學(xué)知識不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論