統(tǒng)計基礎(chǔ)上中文地址位置解析方法深究_第1頁
統(tǒng)計基礎(chǔ)上中文地址位置解析方法深究_第2頁
統(tǒng)計基礎(chǔ)上中文地址位置解析方法深究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

為獲得中文自然地點描繪語句中的地點信息,提出一種不依靠于字典的中文地點分詞方法。第一依據(jù)地點語料庫中字串共現(xiàn)的統(tǒng)計規(guī)律統(tǒng)計詞頻,而后對地名地點串進行正則表達式預(yù)辦理,再對地點串進行全切分辦理。經(jīng)過互信息和信息熵獲得最優(yōu)粗分結(jié)果,經(jīng)過置信度對粗分結(jié)果進行過濾獲得最優(yōu)分詞結(jié)果。實驗結(jié)果表示,該方法在不依靠字典的狀況下能有效實現(xiàn)對地名地點串的拆分,正確率和召回率分別達到了80.03%和89.28%。重點詞:中文分詞,地名地點分詞,中文地點地點互聯(lián)網(wǎng)是信息流傳溝通的重要平臺。網(wǎng)絡(luò)空間中存在海量的中文地點數(shù)據(jù),包含著豐富的空間信息??墒桥c傳統(tǒng)的地理信息或數(shù)據(jù)對比,文本中的地理信息是非結(jié)構(gòu)化的,只有在形式化辦理后才能進行剖析和發(fā)掘。文本中的空間信息形式包含中文地點分詞、空間關(guān)系提取、事件提取等。地名地點分詞作為空間信息形式化最基礎(chǔ)的工作,其正確性將直接影響到后續(xù)工作的有效性和正確性。地名地點分詞是中文分詞在地名地點中的應(yīng)用,它將地名地點串拆分紅若干地理因素[1]。中文分詞算法大概分為3類:鑒于詞庫的分詞算法、鑒于統(tǒng)計的分詞算法、鑒于理解的分詞算法[2]。鑒于詞庫的方法將待剖析的漢字串與一個“充分大的”機器字典中的詞條進行般配,若在字典中找到某個字符串則般配成功。這種方法簡單、分詞效率較高。但漢語語言現(xiàn)象復(fù)雜豐富,字典的齊備性、規(guī)則的一致性等問題使其難以適應(yīng)開放的大規(guī)模文安分詞辦理。鑒于統(tǒng)計的方法將相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞。因為這些信息是經(jīng)過真切語料獲得的,因此鑒于統(tǒng)計的分詞方法擁有較好的適用性。鑒于理解的方法是試圖經(jīng)過計算機模擬人對文字的理解過程來進行分詞,但當(dāng)前尚不可熟,實質(zhì)應(yīng)用中沒法直接使用該算法。中文地點分析方面,文件[3]第一創(chuàng)立一個切合地點分級模型的地名庫,并在此基礎(chǔ)上經(jīng)過地點串的拆分和般配達成地點標(biāo)準化編碼工作,這種方法的困難在于需要人工保護基礎(chǔ)地點庫。文件[4]在中文地點編碼研究中采納分段、組合、優(yōu)先規(guī)則,對中文地點進行分段般配。這些規(guī)則在必定程度上減少了地點因素的般配次數(shù),但因為采納數(shù)據(jù)庫查問方式,使算法整體般配速率不好。文件[5]應(yīng)用自然語言辦理中的中文分詞和語義推理原理(HMM模型)對非結(jié)構(gòu)化中文地點進行辦理,該方法弊端是依靠于訓(xùn)練語料,先期需要進行大批的地點訓(xùn)練操作。因為我國地點名稱多而凌亂,并且地點名稱不停在更新,人工建立一個標(biāo)準的涵蓋各級地點的工作量特別大。所以,本文針對地名地點串,提出一種鑒于統(tǒng)計的中文地點分詞方法:第一統(tǒng)計語料庫詞頻,而后對地名地點串進行正則表達式預(yù)辦理,再對地點串進行全切分處理,經(jīng)過互信息和信息熵獲得最優(yōu)粗分結(jié)果,最后經(jīng)過置信度對粗分結(jié)果進行過濾,獲得最優(yōu)結(jié)果。該方法地點辨別率高,對原始地點結(jié)構(gòu)和部分地點元素缺失不敏感,不需要人工構(gòu)建一個海量地點庫。鑒于統(tǒng)計的中文地點分析方法本文提出了鑒于無字典的中文地點分詞方法。第一對互聯(lián)網(wǎng)上爬取的30萬條地點數(shù)據(jù)組成的語料庫詞頻、相鄰詞語之間的互信息、詞語的信息熵進行統(tǒng)計,而后對地名地點串進行正則表達式預(yù)辦理,提拿出“數(shù)字+號”這種描繪方式以及一些標(biāo)點符號;再對剩下的地點串進行全切分辦理,獲得全部的分詞方案,而后經(jīng)過互信息和信息熵計算選擇弧度花銷最小的分詞方案;最后經(jīng)過置信度對該分詞方案進行過濾獲得最優(yōu)結(jié)果。1.1統(tǒng)計詞頻詞是最小的能夠獨立活動的存心義的語言成分[6],是相鄰的字與字組成的穩(wěn)固組合。在語料庫中,相鄰的字同時出現(xiàn)的頻次越高,就越有可能組成一個詞。所以字與字相鄰共現(xiàn)的頻次或概率能夠較好地反應(yīng)成詞的可信度。本文對互聯(lián)網(wǎng)上爬取的30多萬條地點文本進行統(tǒng)計辦理。在沒有地名字典的狀況下,隨意長度的字串都有可能組成一個地理因素。一個最長的地理因素長度為8(如新疆維吾爾自治區(qū)),所以將字符串的最大長度設(shè)為8,統(tǒng)計語料庫中隨意長度(最大為8)字符串的詞頻。在地名地點串比方“武漢市洪山區(qū)珞瑜路312號”中,312在計算機中是3個字符,而在人們認知的地點數(shù)據(jù)中312是一個整體,所以在預(yù)辦理時將連續(xù)的數(shù)字認定為一個字符。哈希查找方法是效率較高的查問算法,所以將統(tǒng)計好的詞頻采納哈希結(jié)構(gòu)儲存。1.2結(jié)構(gòu)切分詞圖給定一此中文地點字符串S,對S進行全切分辦理,那么就有2l-1種切分方法。此中,l是地點字符串S的長度,S的全切分會合為W={Wi},1≤i≤2l-1,Wi代表一種切分方法。把切分的字符串看作節(jié)點,把字符串的切分地點看作弧段,就能夠?qū)⒌攸c語句的全切分會合表示為圖,稱為地點語句的切分詞圖。1.3設(shè)定弧段花銷中文信息辦理中,統(tǒng)計方法主要應(yīng)用于自動抽詞或未登錄詞辨別,比方串頻、互信息、信息熵、查驗值、有關(guān)度等統(tǒng)計量可用于定量判斷候選詞的界限[7],此中最常用的是互信息和信息熵。互信息胸懷兩個對象之間的互相性。互信息往常用來權(quán)衡兩個信號的互相依靠程度,并可用來權(quán)衡詞語的內(nèi)部聯(lián)合密切程度?;バ畔⒃酱螅f明詞語的內(nèi)部聯(lián)合密切度越大,它們組成詞語的可能性越大?;バ畔⒃叫。M成詞語的可能性越小。其計算公式為:MI(x,y)=log2p(x,y)p(x)p(y)(1)此中:p(xy)是字符串xy在語料庫中毗鄰出現(xiàn)的概率,p(x)是x在語料庫出現(xiàn)的概率;p(y)是y在語料庫中出現(xiàn)的概率。當(dāng)MI(x,y)大于必定閾值時,表示字符串xy是一個詞;當(dāng)MI(x,y)小于必定閾值時,字符串xy不會聯(lián)合成詞。信息熵是用來權(quán)衡一個隨機變量出現(xiàn)的希望值,一個變量的信息熵越大,它出現(xiàn)的各樣狀況就越多,不確立性就越大,正確預(yù)計其值的可能性也越小。字符串左右搭配越豐富,選擇越多。在自然語言辦理中,分別利用左信息熵和右信息熵來判斷字符串的界限。一個字符串的左信息熵指該字符串與它相鄰的左毗鄰字串會合的信息熵之和,用來表示該字符串的左毗鄰字的不確立性。左信息熵越大,說明該字符串的左毗鄰字越不確立,該字符串成為某一個詞語左界限的可能性越大。相反,左信息熵越小,該字符串的左毗鄰字越確立,它成為某一個詞語左界限的可能性就越小。同理,右信息熵能夠確立詞語的右界限。上式中,w表示該字符串,aw表示該字符串和左毗鄰字的組合形式,wb表示該字符串和右毗鄰字的組合形式。本文依據(jù)互信息和信息熵原理將其轉(zhuǎn)變?yōu)榍蟹衷~圖中弧段的開支。一條弧段相鄰字符串之間的互信息越大,越不合適作為詞的界限,弧段開支越大;其連結(jié)左右字串的信息熵越大,越合適作為詞的界限,該弧段開支越小。所以,能夠定義以下弧段花銷計算公式:c(A,B)=MI(a,b)ER(A)EL(B)(4)A、B表示弧段連結(jié)的左右字串,

a、b表示左字串最右邊的字和右字串最左邊的字。1.4置信度過濾在地點語句中,因為地理因素存在層級關(guān)系,上述計算方式簡單產(chǎn)生數(shù)據(jù)稀少問題,不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論