版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、面向綜合語言知識(shí)庫建設(shè)的漢語詞義消歧與標(biāo)注語言模型研究 docin/sundae_meng內(nèi)容提要一、 緒 論二、 國(guó)內(nèi)外研究現(xiàn)狀分析三、 詞語義項(xiàng)的表征及其可計(jì)算性四、 基于多知識(shí)源的知識(shí)提取與融合五、 面向漢語詞義排歧與標(biāo)注的語言模型六、 標(biāo)注語料的一致性保證與正確性評(píng)價(jià)七、 面向真實(shí)文本的漢語詞義標(biāo)注實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)八、 結(jié) 束 語docin/sundae_meng一、國(guó)內(nèi)外研究現(xiàn)狀基于規(guī)則的詞義消歧方法基于詞典知識(shí)的詞義消歧方法有指導(dǎo)的統(tǒng)計(jì)詞義消歧方法無指導(dǎo)的統(tǒng)計(jì)詞義消歧方法現(xiàn)有研究存在的問題與改進(jìn)策略偽詞法-可解決訓(xùn)練語料不足的問題少數(shù)幾個(gè)詞-只適于對(duì)消歧算法的研究docin/s
2、undae_meng二、我們的目標(biāo)、優(yōu)勢(shì)及對(duì)策 研究的目標(biāo)與內(nèi)容目標(biāo):建設(shè)高質(zhì)量的大規(guī)模漢語綜合語言知識(shí)庫內(nèi)容:漢語語料庫建設(shè)過程中漢語詞義消歧與標(biāo)注的基本方法和關(guān)鍵技術(shù)。 所具有的優(yōu)勢(shì)人員優(yōu)勢(shì):文理交叉;資源優(yōu)勢(shì):世界上最大的標(biāo)注語料庫,語法信息詞典等docin/sundae_meng二、我們的目標(biāo)、優(yōu)勢(shì)及對(duì)策 擬解決的問題知識(shí)源的選擇;基于多知識(shí)源的知識(shí)提取與融合;基于知識(shí)的詞義消歧模型與算法;模型的評(píng)價(jià)與一致性檢驗(yàn)方法 研究方法與技術(shù)路線開發(fā)試驗(yàn)平臺(tái)用于模型與算法的實(shí)驗(yàn)研究;采用同形標(biāo)注與義項(xiàng)標(biāo)注兩步走戰(zhàn)略;docin/sundae_meng內(nèi)容提要一、 緒 論二、 國(guó)內(nèi)外研究現(xiàn)狀分析三
3、、 詞語義項(xiàng)的表征及其可計(jì)算性四、 基于多知識(shí)源的知識(shí)提取與融合五、 面向漢語詞義排歧與標(biāo)注的語言模型六、 標(biāo)注語料的一致性保證與正確性評(píng)價(jià)七、 面向真實(shí)文本的漢語詞義標(biāo)注實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)八、 結(jié) 束 語docin/sundae_meng題引意義訓(xùn)釋表征方式及其可計(jì)算性義原表征方式及其可計(jì)算性概念依存關(guān)系表征方式及其可計(jì)算性由可計(jì)算性看表征方式對(duì)詞義消歧的作用結(jié)論三、詞義的表征及其可計(jì)算性 docin/sundae_meng三、詞義的表征及其可計(jì)算性 3.1 題引 W-i S1 S2 W-1 W Sk W+1 Sn W+i語料消歧S1S2SkSn W詞典描述自然語言處理中的多義詞問題 多義
4、詞在信息檢索、機(jī)器翻譯、文本校對(duì)等領(lǐng)域都會(huì)引起歧義,它的表征方法直接關(guān)系到詞義消歧的可計(jì)算性和可實(shí)現(xiàn)性。多義詞:同一個(gè)詞形(word form)表達(dá)了多個(gè)不同的意義。docin/sundae_meng 知識(shí)表示是機(jī)器學(xué)習(xí)的關(guān)鍵,如何表征和獲取詞義消歧知識(shí),是自然語言處理研究的任務(wù)之一。 如何在詞典中實(shí)現(xiàn)詞語的多個(gè)義項(xiàng)的表征?傳統(tǒng)辭書的釋義方式意義訓(xùn)釋語義原語描述語言義原表征概念依存關(guān)系概念依存關(guān)系表征 它們的可計(jì)算性如何? 三、詞義的表征及其可計(jì)算性 3.1題引docin/sundae_meng題引意義訓(xùn)釋表征方式及其可計(jì)算性義原表征方式及其可計(jì)算性概念依存關(guān)系表征方式及其可計(jì)算性由可計(jì)算性看
5、表征方式對(duì)詞義消歧的作用結(jié)論三、詞義的表征及其可計(jì)算性 docin/sundae_meng三、詞義的表征及其可計(jì)算性 3.2意義訓(xùn)釋表征方式及其可計(jì)算性3.2.1 表征形式以自然語言形式定義和解釋詞語意義【儀表】 人的外表 測(cè)定溫度、氣壓、電量、血壓等的儀器問題: 自然語言本身的模糊性、歧義性,造成多義詞解釋的遞歸性。引發(fā)歧義膨脹docin/sundae_meng三、詞義的表征及其可計(jì)算性 3.2意義訓(xùn)釋表征方式及其可計(jì)算性docin/sundae_meng3.2.2 可計(jì)算性及其應(yīng)用在詞義消歧中的應(yīng)用:20世紀(jì)80年代是一種流行知識(shí)資源。 詞義消歧:Lesk(1986)應(yīng)用Oxford Ad
6、vanced learners Dictionary釋義辭典進(jìn)行詞義消歧??捎?jì)算性:比較弱所采用的方法各個(gè)義項(xiàng)的釋義部分與其所在上下文詞語間的覆蓋度,確定它在該上下文中的適當(dāng)意義。但釋義部分簡(jiǎn)明時(shí),與上下文的覆蓋度為0; 通過同義詞擴(kuò)充增大上下文的窗口,增大覆蓋度。但僅應(yīng)用這種釋義詞典不好進(jìn)行同義詞的計(jì)算。三、詞義的表征及其可計(jì)算性 意義訓(xùn)釋表征方式及其可計(jì)算性docin/sundae_meng題引意義訓(xùn)釋表征方式及其可計(jì)算性義原表征方式及其可計(jì)算性概念依存關(guān)系表征方式及其可計(jì)算性由可計(jì)算性看表征方式對(duì)詞義消歧的作用結(jié)論三、詞義的表征及其可計(jì)算性 docin/sundae_meng3.3.1
7、表征方式知網(wǎng)采用義原來表示概念義原:最基本的、不易于再分割的、意義最小的語義單位。 空間變換:將數(shù)量非常大(6萬多個(gè)概念)的概念空間,映射到維數(shù)有限的義原空間。從而使文本內(nèi)容的計(jì)算可實(shí)現(xiàn)化。多義詞的表示示例如下:三、詞義的表征及其可計(jì)算性 3.3義原表征方式及其可計(jì)算性docin/sundae_meng【儀表】 NO.=096060 W_C=儀表 G_C= E_C= W_E=bearing G_E=N E_E= DEF=attribute|屬性,bearing|儀態(tài),&human|人 NO.=096061 W_C=儀表 G_C=N E_C= W_E=meter G_E=N E_E= DEF=t
8、ool|用具,*measure|測(cè)量三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng采用知識(shí)詞典描述語言(KDML)對(duì)概念進(jìn)行定義描述公式: “義原順序特殊符號(hào)分隔符”包括1500個(gè)左右的“義原”,符號(hào)(*,%,$,#,&)和標(biāo)點(diǎn)(=,)。特點(diǎn)概念定義形式化,描述復(fù)雜度低,一致性好。便于計(jì)算。是一個(gè)能描述概念及概念屬性之間關(guān)系的語義網(wǎng)絡(luò)。便于推理。 三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng3.3.2 可計(jì)算性及其實(shí)現(xiàn)義原空間+概念描述的公式化=很強(qiáng)的可計(jì)算性。面向不同的應(yīng)用其可計(jì)算性的實(shí)現(xiàn)方法不同機(jī)器翻譯:詞語
9、相似度的計(jì)算信息檢索:詞語相似度的計(jì)算句法結(jié)構(gòu)消歧:詞語間的關(guān)聯(lián)度計(jì)算 詞義消歧:詞語間的關(guān)聯(lián)度計(jì)算 自動(dòng)問答系統(tǒng):語義推理計(jì)算 三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng相似度、相關(guān)度等的計(jì)算在知網(wǎng)中,對(duì)描述概念的義原表達(dá)式的不同理解和運(yùn)用,會(huì)形成不同的相似度、關(guān)聯(lián)度或推理求解的計(jì)算方法。詞語相似度的計(jì)算 語義表達(dá)式分解成四個(gè)部分: (1)第一基本義原描述式; (2)輔助基本義原描述式; (3)關(guān)系義原描述式; (4)符號(hào)義原描述式。三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng計(jì)算以上四部分的相似度,并分別
10、記為:sim1(C1,C2), sim2(C1,C2), sim3(C1,C2) ,sim4(C1,C2) 則詞C1和C2的總體相似度可計(jì)算如下:其中,i(1i4)是可調(diào)節(jié)的參數(shù),且有:1+2+3+4=1,1234。反映了Sim1到Sim4對(duì)于總體相似度所起到的作用依次遞減。 三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng由于義原根據(jù)上下位關(guān)系可以構(gòu)成一個(gè)樹狀的義原層次結(jié)構(gòu),所以,可采用語義距離相似度的計(jì)算辦法,近似計(jì)算兩個(gè)基本義原的相似度sim1(C1,C2) : 式中,p1和p2分別表示兩個(gè)概念的第一基本義原,d為兩個(gè)義原在樹狀義原層次結(jié)構(gòu)中的路徑距
11、離,為一個(gè)可調(diào)節(jié)的參數(shù),表示兩個(gè)義原的相似度為0.5時(shí),其在義原層次結(jié)構(gòu)樹中的路徑距離,是為計(jì)算參數(shù)d而做的標(biāo)定和補(bǔ)充。三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng詞語相關(guān)度的計(jì)算 反映的是兩個(gè)詞語互相關(guān)聯(lián)的程度,可以用這兩個(gè)詞語在同一個(gè)語境中共現(xiàn)的可能性來衡量。 一般情況下,兩個(gè)詞語的相似度高,其相關(guān)度也較高,但兩個(gè)詞的相關(guān)度高,其相似度卻未必高。 知網(wǎng)中的義原分為6大類,每一類都是樹狀結(jié)構(gòu),各類之間又通過解釋義原相互聯(lián)系,義原樹中的上下位關(guān)系構(gòu)成了義原的相似度,義原與解釋義原的關(guān)系形成了義原的關(guān)聯(lián)度。 三、詞義的表征及其可計(jì)算性 義原表征方式及其可
12、計(jì)算性docin/sundae_meng兩個(gè)義原的關(guān)聯(lián)度可按下式計(jì)算: 式中,pi和pj分別表示兩個(gè)概念的第一基本義原;D為橫向關(guān)聯(lián)影響深度,即某一義原向上第幾層的解釋義原對(duì)其特征的影響,D取一個(gè)合適的值,如果超過這個(gè)深度,則認(rèn)為其沒有影響。d(pi,pj)為義原pi出現(xiàn)在義原pj的解釋義原中出現(xiàn)的向上數(shù)的層數(shù)。 三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng許云等經(jīng)過考慮實(shí)例影響因素,同時(shí)考慮詞語義項(xiàng)的相似度和相關(guān)度,給出了下面計(jì)算詞匯相關(guān)度的計(jì)算公式: 式中1+2+3=1。第一部分考慮了兩個(gè)概念的相似度,第二部分考慮了兩個(gè)概念的相關(guān)度,第三部分則是實(shí)
13、例影響因素,它是通過知網(wǎng)中的概念(詞語義項(xiàng))描述實(shí)例中的信息進(jìn)一步提高語義相關(guān)計(jì)算的合理性,計(jì)算公式如下: 三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_mengExamp(C1,C2)=max Sim(Cei,Cj) (1i,j2,ij) 利用義原同現(xiàn)實(shí)現(xiàn)詞義消歧 在詞義消歧中,直接通過計(jì)算多義詞所在語句的義原同現(xiàn)概率,并經(jīng)過互信息的選擇來確定多義詞的詞義,這種思路比上面的計(jì)算相似度的方法要簡(jiǎn)單。 這里,Cei為第i個(gè)義項(xiàng)的實(shí)例單詞集合中的任一個(gè)詞的義項(xiàng)。三、詞義的表征及其可計(jì)算性 義原表征方式及其可計(jì)算性docin/sundae_meng題引意義訓(xùn)釋表征方式
14、及其可計(jì)算性義原表征方式及其可計(jì)算性概念依存關(guān)系表征方式及其可計(jì)算性由可計(jì)算性看表征方式對(duì)詞義消歧的作用結(jié)論三、詞義的表征及其可計(jì)算性 docin/sundae_meng3.4.1 表征方式人腦對(duì)詞語的組織與普通詞典不同上下位關(guān)系動(dòng)物飛禽走獸天鵝雞山雞家雞人腦:按詞義信息來組織詞語,可建立起各種概念間的依存關(guān)系,便于推理 普通詞典:按照字母順序來 組織詞語 三、詞義的表征及其可計(jì)算性 3.4 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng 概念之間的依存關(guān)系(或語義關(guān)系)可以有很多種,是對(duì)現(xiàn)實(shí)世界中各種事物間關(guān)系的反映:同義關(guān)系反義關(guān)系上下位關(guān)系部分整體關(guān)系時(shí)間關(guān)系位置關(guān)系
15、相近關(guān)系三、詞義的表征及其可計(jì)算性 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng 希望將詞語按人腦的形式組織成機(jī)讀詞典,便于自然語言處理的應(yīng)用,便于推理、計(jì)算。WordNet - Princeton大學(xué) FrameNet -California大學(xué)Berkeley分校 MindNet -Microsoft CCD -北京大學(xué) 三、詞義的表征及其可計(jì)算性 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng目標(biāo): 概念形式化、具體化,通過詞匯意義對(duì)其進(jìn)行計(jì)算和操作,建立起概念之間的多種語義聯(lián)系和推理,增強(qiáng)機(jī)器可計(jì)算性,實(shí)現(xiàn)自動(dòng)語義推理 三、詞義的表征及其可計(jì)算
16、性 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng3.4.2 可計(jì)算性及其實(shí)現(xiàn)可計(jì)算性的體現(xiàn)Wordnet或CCD被組織成一種樹形圖。可計(jì)算性的實(shí)現(xiàn)主要通過概念間的層次關(guān)系樹來實(shí)現(xiàn)。樹中的每個(gè)節(jié)點(diǎn)代表一個(gè)概念,兩個(gè)節(jié)點(diǎn)之間的路徑長(zhǎng)度可被用來表示兩個(gè)概念的語義距離。通過語義距離實(shí)現(xiàn)詞語相似度的計(jì)算。不同的應(yīng)用需求其可計(jì)算性的體現(xiàn)方法不一樣。三、詞義的表征及其可計(jì)算性 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng詞語相似度的計(jì)算方法根據(jù)WordNet中詞節(jié)點(diǎn)間上下位關(guān)系構(gòu)成的最短路徑實(shí)現(xiàn)計(jì)算 根據(jù)兩個(gè)詞的公共祖先節(jié)點(diǎn)的最大信息量來衡量?jī)蓚€(gè)詞的語義相似度;
17、除了利用WordNet節(jié)點(diǎn)間的路徑長(zhǎng)度外,還考慮概念層次樹的深度 利用WordNet節(jié)點(diǎn)間的路徑長(zhǎng)度和節(jié)點(diǎn)所在的區(qū)域密度,考慮了WordNet中概念描述粗細(xì)程度不均勻的因素利用wordnet的同義詞集、屬類詞和意義解釋三個(gè)集合中抽取出候選同義詞的詞匯語義特征,兩概念的相似度可通過計(jì)算其在三個(gè)不同意義特征空間中的距離來得到。 三、詞義的表征及其可計(jì)算性 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng一種利用語義距離計(jì)算詞語相似度的方法 設(shè)s1,s2為詞語w1和w2在wordnet中對(duì)應(yīng)的詞義,考慮wordnet中概念結(jié)點(diǎn)間的路徑長(zhǎng)度以及各概念在樹中的深度,則詞語w1和w2間的
18、語義距離SD可按下式計(jì)算式中,ca表示詞語w1和w2之義項(xiàng)s1,s2在wordnet中的共同祖先概念節(jié)點(diǎn),Dis函數(shù)表示兩個(gè)概念在wordnet中位置之間的路徑長(zhǎng)度。 三、詞義的表征及其可計(jì)算性 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng根據(jù)詞義間的距離可計(jì)算兩個(gè)詞語的相似度如下 可以看出,兩詞語的語義距離愈大,其相似度愈小。當(dāng)兩個(gè)詞語的語義距離為0時(shí),其相似度為1,這時(shí)兩個(gè)詞為絕對(duì)相似。 三、詞義的表征及其可計(jì)算性 概念依存關(guān)系表征方式及其可計(jì)算性docin/sundae_meng題引意義訓(xùn)釋表征方式及其可計(jì)算性義原表征方式及其可計(jì)算性概念依存關(guān)系表征方式及其可計(jì)算性
19、結(jié)構(gòu)性詞典由可計(jì)算性看表征方式對(duì)詞義消歧的作用結(jié)論三、詞義的表征及其可計(jì)算性 docin/sundae_meng三、詞義的表征及其可計(jì)算性 結(jié)構(gòu)性詞典語法信息詞典、語義詞典是一種結(jié)構(gòu)性詞典。結(jié)構(gòu)性詞典中蘊(yùn)含了豐富的語法和語義信息,便于采用數(shù)據(jù)挖掘算法實(shí)現(xiàn)。易于采集的知識(shí),使其應(yīng)用詞義消其具有很好的作用。docin/sundae_meng題引意義訓(xùn)釋表征方式及其可計(jì)算性義原表征方式及其可計(jì)算性概念依存關(guān)系表征方式及其可計(jì)算性結(jié)構(gòu)性詞典由可計(jì)算性看表征方式對(duì)詞義消歧的作用結(jié)論三、詞義的表征及其可計(jì)算性 docin/sundae_meng人是依據(jù)上下文語境知識(shí)來消解詞語的歧義。1) 他因病毒感染而發(fā)
20、燒。2)這臺(tái)機(jī)器由于感染病毒而癱瘓。1)生活是生命的現(xiàn)在進(jìn)行式,把握當(dāng)下,因?yàn)楝F(xiàn)在 就是未來!2)緊緊把握方向盤。三、詞義的表征及其可計(jì)算性 3.5由可計(jì)算性看詞義表征方式在詞義消歧中的作用docin/sundae_meng計(jì)算機(jī)是怎樣消解歧義的? 設(shè)詞語 W 有 N 個(gè)詞義,在特定的上下文環(huán)境C 中只有 S是正確的詞義,每個(gè)詞義 Sk 和上下文 C 存在關(guān)系 R(Sk|C),詞義消歧就是尋求同C關(guān)系最強(qiáng)的詞義S:計(jì)算機(jī)是依據(jù)上下文知識(shí)來消歧的。三、詞義的表征及其可計(jì)算性 由可計(jì)算性看詞義表征方式在詞義消歧中的作用docin/sundae_meng就詞義消歧來講,僅應(yīng)用普通的釋義辭典,采用le
21、sk的方法效果是不會(huì)很好的 余曉峰利用知網(wǎng)中的語義原語,通過詞語相似度計(jì)算實(shí)現(xiàn)詞義消歧試驗(yàn)取多義詞上下文前后各一個(gè)實(shí)詞計(jì)算相似度時(shí),詞義消歧正確率為37.3%;取句中除多義詞以外的所有實(shí)詞參與相似度計(jì)算時(shí),詞義消歧正確率為42.06%。張國(guó)清利用知網(wǎng)的義原表達(dá)式,計(jì)算多義詞各義項(xiàng)的義原與其上下文中其它詞的義原同現(xiàn)概率,再利用互信息來實(shí)現(xiàn)多義詞歧義消解,取得了71%的消歧正確率。 三、詞義的表征及其可計(jì)算性 由可計(jì)算性看詞義表征方式在詞義消歧中的作用docin/sundae_meng基于wordnet的詞義消歧計(jì)算的文章不是很多,朱靖波等在詞義消歧研究中,應(yīng)用wordnet進(jìn)行詞語相似度計(jì)算,對(duì)
22、詞義消歧模型進(jìn)行數(shù)據(jù)平滑,以提高詞義消歧的正確率。 =我們做什么?統(tǒng)計(jì)方法的缺點(diǎn):沒有充分利用語句中的詞義信息;數(shù)據(jù)稀疏問題 我們的研究:將統(tǒng)計(jì)語言模型和語法信息詞典、語義詞典、Hotnet等資源相結(jié)合,建立基于多種知識(shí)資源的詞義消歧與標(biāo)注模型 三、詞義的表征及其可計(jì)算性 由可計(jì)算性看詞義表征方式在詞義消歧中的作用docin/sundae_meng題引意義訓(xùn)釋表征方式及其可計(jì)算性義原表征方式及其可計(jì)算性概念依存關(guān)系表征方式及其可計(jì)算性由可計(jì)算性看表征方式對(duì)詞義消歧的作用小結(jié)三、詞義的表征及其可計(jì)算性 docin/sundae_meng普通釋義辭典可計(jì)算性弱Wordnet,CCD通過樹形層次結(jié)構(gòu)
23、使詞典有了較強(qiáng)的可計(jì)算性。它可應(yīng)用于推理、相似度計(jì)算等。Hontnet由于將概念空間映射到有限的義原空間,并使用義原表達(dá)式表示概念,使得其可計(jì)算性大大增強(qiáng),其在機(jī)器翻譯、詞義消歧、信息檢索等領(lǐng)域都可得到應(yīng)用。也可應(yīng)用于推理計(jì)算等。結(jié)構(gòu)性詞典:如語法信息詞典、語義詞典其中包括了易于通過數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的知識(shí),具有較強(qiáng)的可計(jì)算性,在詞義消歧中會(huì)有很好的作用。三、詞義的表征及其可計(jì)算性 3.6小結(jié)docin/sundae_meng內(nèi)容提要一、 緒 論二、 國(guó)內(nèi)外研究現(xiàn)狀分析三、 詞語義項(xiàng)的表征及其可計(jì)算性四、 基于多知識(shí)源的知識(shí)提取與融合五、 面向漢語詞義排歧與標(biāo)注的語言模型六、 標(biāo)注語料的一致性保
24、證與正確性評(píng)價(jià)七、 面向真實(shí)文本的漢語詞義標(biāo)注實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)八、 結(jié) 束 語docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合4.1 知識(shí)源的選擇資源種類:詞典與語料庫選擇原則:可計(jì)算性訓(xùn)練語料,語法信息詞典,語義詞典,知網(wǎng)4.2 訓(xùn)練語料的加工和處理語料粗加工利用“同形”輔助校對(duì)軟件在大規(guī)模的語料中進(jìn)行標(biāo)注的校對(duì),問題:校對(duì)效率低:語料規(guī)模很大,校對(duì)時(shí)就像大海撈針,效率不高;標(biāo)注的一致性得不到保證?;诹x項(xiàng)聚類的對(duì)齊校對(duì)工具docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合4.3 基于大規(guī)模語料的統(tǒng)計(jì)詞義消歧知識(shí)提取訓(xùn)練語料中的詞義消歧知識(shí) (1)什么是
25、上下文(2)面向詞義消歧的上下文選擇:局部上下文、話題上下文和領(lǐng)域上下文 本文:以句號(hào)(。)、逗號(hào)(,)、問號(hào)(?)、感嘆號(hào)(?。?、冒號(hào)(:)、分號(hào)(;)作為分界符號(hào) (3)上下文中的特征信息: 顯性信息 半顯性信息 隱性信息 docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合上下文中特征信息的提取 顯性特征信息的提取:詞袋方法;特征模板的方法半顯性特征信息的提?。合噜徆铂F(xiàn)和距離共現(xiàn)信息 特征模板方法隱性特征信息:句法特征、語義特征采用人工輔助方法(1)統(tǒng)計(jì)特征模板的設(shè)計(jì)docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合特征模板的數(shù)量可以不止一個(gè),因此應(yīng)用特征模
26、板選擇特征是一個(gè)二重循環(huán)(2)特征的提取與選擇 (a)將候選特征集中的所有特征都作為建模特征;(b)從候選特征集中選擇那些在訓(xùn)練語料中出現(xiàn)一定頻次的特征;(c)從候選特征集中選擇滿足一定互信息要求的特征;(d)利用增量式特征選擇法從候選特征集中選擇特征。 docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合4.4基于漢語語法信息詞典的消歧知識(shí)提取 現(xiàn)代漢語語法信息詞典中的詞義消歧知識(shí) 詞法信息 句法信息 語義信息 照應(yīng)信息 語法信息詞典中的詞義消歧知識(shí)提取 多義詞屬性信息的提取與篩選 從屬性信息中獲取消歧規(guī)則 docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合4.
27、5基于現(xiàn)代漢語語義詞典的消歧知識(shí)提取 現(xiàn)代漢語語義詞典中詞義消歧知識(shí) 現(xiàn)代漢語語義詞典的語義分類是在詞的語法分類基礎(chǔ)上進(jìn)行的,并且只對(duì)名詞、動(dòng)詞、形容詞等實(shí)詞進(jìn)行語義分類描述。為動(dòng)詞、名詞、形容詞等詞類設(shè)置的屬性字段能夠反映詞語不同義項(xiàng)之間的區(qū)別性特征,這些特征為計(jì)算機(jī)詞義消歧提供了必要的知識(shí)資源詞義消歧知識(shí)在語義詞典中的體現(xiàn)方式: (1)“語義類”給出了詞語所屬的語義類別,是詞義區(qū)分的重要屬性。 (2)“兼類”為詞語的同形異類提供了消歧知識(shí)。 docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合(3)“word、Ecat”字段給出了詞語對(duì)應(yīng)的英語譯詞或短語,多意詞往往對(duì)應(yīng)著多個(gè)
28、譯詞,這些不同的譯詞可以提供詞義消歧知識(shí)。(4)“配價(jià)數(shù)”是動(dòng)詞、名詞庫中的屬性字段,指明了動(dòng)詞能夠支配的名詞性成分的個(gè)數(shù),名詞庫中,配價(jià)數(shù)則指明了支配性名詞要求語義上受其支配的從屬名詞與之共現(xiàn)數(shù)量,配價(jià)數(shù)不同,則動(dòng)詞或名詞的義項(xiàng)就不同。 (5)“主體、客體、與事”是動(dòng)詞庫中的三個(gè)屬性字段,描述了動(dòng)詞對(duì)論元的語義選擇限制,對(duì)論元的不同選擇限制可區(qū)別出動(dòng)詞的不同義項(xiàng) 語義詞典中的知識(shí)提取 語義屬性的提取與篩選 從屬性信息中獲取消歧規(guī)則 docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合4.6知網(wǎng)中的詞義消歧知識(shí)提取 知網(wǎng)的組成中英雙語知識(shí)詞典;義原分類源文件;知網(wǎng)管理工具;相似度
29、和相關(guān)度計(jì)算工具;知網(wǎng)說明文件。 知網(wǎng)中的語義知識(shí)表述(中英雙語知識(shí)詞典)下面是關(guān)于“材料”的一個(gè)義項(xiàng)的表達(dá)信息:No.=009406 W_C材料 G_CN E_C唱歌的,上大學(xué)的W_Emakings G_E=N E_E= DEF=attribute|屬性,quality|質(zhì)量,human|人docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合 DEF是對(duì)詞語的一個(gè)概念的定義,以語義表達(dá)式的形式給出,是知網(wǎng)的核心 概念特征的提取 編寫一個(gè)接口函數(shù),從知網(wǎng)英漢雙語知識(shí)詞典中的DEF 字段中,將定義每個(gè)概念的主要特征、次要特征等抽取出來,并進(jìn)行適當(dāng)?shù)暮Y選。相似度和相關(guān)度計(jì)算程序應(yīng)用接
30、口,通過計(jì)算多義詞所在上下文中的詞與訓(xùn)練語料多義詞實(shí)例的上下文中詞的距離,將與待標(biāo)注多義詞所在上下文最相近的訓(xùn)練語料實(shí)例中的詞語義項(xiàng)作為標(biāo)注義項(xiàng),多目標(biāo)多義詞進(jìn)行標(biāo)注。docin/sundae_meng四、基于多知識(shí)源的知識(shí)提取與融合4.7多源知識(shí)的融合基于隱最大熵模型的知識(shí)融合局部詞匯信息建模語法結(jié)構(gòu)建模 語義信息建模應(yīng)用最大熵原理將各種模型進(jìn)行疊加 基于人工輔助的規(guī)則融合 將來各異構(gòu)知識(shí)資源的知識(shí),采用簡(jiǎn)單的加權(quán)規(guī)則方法進(jìn)行融合,并用于詞義消歧試驗(yàn),解決了數(shù)據(jù)稀疏等影響語言建模質(zhì)量的問題,取得了一些較好的試驗(yàn)結(jié)果。docin/sundae_meng內(nèi)容提要一、 緒 論二、 國(guó)內(nèi)外研究現(xiàn)狀分
31、析三、 詞語義項(xiàng)的表征及其可計(jì)算性四、 基于多知識(shí)源的知識(shí)提取與融合五、 面向漢語詞義排歧與標(biāo)注的語言模型六、 標(biāo)注語料的一致性保證與正確性評(píng)價(jià)七、 面向真實(shí)文本的漢語詞義標(biāo)注實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)八、 結(jié) 束 語docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型5.1 基于統(tǒng)計(jì)與規(guī)則相結(jié)合的詞義排歧模型 1.利用統(tǒng)計(jì)方法獲取上下文特征 上下文特征的提取范圍 距離越近,詞之間聯(lián)系越緊密 ? 以逗號(hào)隔開的整句為多義詞提取窗口,不要求多義詞左右窗口寬 度相等,再輔助以特征詞在窗口中出現(xiàn)的頻次,就可以將可區(qū)分的關(guān)鍵特征提取出來。 逗號(hào)隔開的句子隔開的句子足以包含詞義消歧的信息,若窗
32、口的選取太小,所包含的信息不夠充分,若以句號(hào)為單位,又顯得過大,跨越逗號(hào)后的句子中的詞語與多義詞的聯(lián)系相對(duì)較弱,且會(huì)造成多義詞上下文候選特征的大量增加,給有效特征的篩選增加了很大的難度docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型 特征篩選算法 For j=1 to q do 1. 求取與詞Wsj的同現(xiàn)實(shí)詞集合Asj; 2. 求取Asj(j=1q)的可區(qū)分性特征,即把q個(gè)不同義項(xiàng)中的相同特征刪除; 3. 統(tǒng)計(jì)各義項(xiàng)中每個(gè)特征出現(xiàn)頻次; 4. 計(jì)算多義詞每個(gè)義項(xiàng)與各特征互信息或共現(xiàn)概率; 5.設(shè)置兩個(gè)閾值,一個(gè)是特征出現(xiàn)在多義詞Wsj的上下文中的總次數(shù)的閾值1,一個(gè)是互信
33、息的選擇特征的閾值2; 6. 將滿足條件的多義詞的每個(gè)義項(xiàng)的特征取出; end for 針對(duì)那些義項(xiàng)分布不均的多義詞,主要針對(duì)分布比較少的義項(xiàng)編制規(guī)則。 docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型2. 數(shù)據(jù)稀疏的處理 從統(tǒng)計(jì)語料中獲得了400多個(gè)詞的同形消歧特征,還有300多個(gè)詞是人民日?qǐng)?bào)同形標(biāo)注語料中沒有出現(xiàn)的,對(duì)于這部分多義詞,我們從語法信息詞典中的語法屬性字段來獲取。對(duì)于備注字段所提供的示例,將其中的多義詞上下文抽取出來,作為手工編寫規(guī)則的知識(shí)源。 工具:語法信息詞典屬性字段提取程序例【是】 有凡是意思。 B3 B3:是有利于群眾的事情他都干/是北大學(xué)生他都感
34、到親切我們順著這些例子做適當(dāng)擴(kuò)展,對(duì)B3這個(gè)義項(xiàng)可以得到這樣的搭配: 是都; 是就;是總; 是毒;docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型3. 利用上下文特征人工編制詞義消歧規(guī)則 利用詞形信息編制規(guī)則 利用詞性信息編制規(guī)則 利用詞形+詞性信息編制規(guī)則利用語義信息編制規(guī)則 4.實(shí)驗(yàn)結(jié)果 利用已標(biāo)注好的人民日?qǐng)?bào)2000年3個(gè)月已標(biāo)注“同形”的人民日?qǐng)?bào)語料為訓(xùn)練語料,我們進(jìn)行了多義詞上下文特征的提取,并經(jīng)過人工篩選獲得有用的消歧特征,編寫了大量的同形標(biāo)注規(guī)則,經(jīng)封閉測(cè)試,正確率達(dá)到99.3%。 docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型5.2
35、 基于最大熵方法的詞義標(biāo)注語言模型1.最大熵模型 假設(shè)a 是某個(gè)事件,b 是事件a 發(fā)生的環(huán)境(或稱上下文),我們想知道a 和b 的聯(lián)合概率,記為p(a ,b)。更一般地,設(shè)所有可能發(fā)生的事件組成的集合為A,所有環(huán)境組成的集合是B,我們想知道,對(duì)于任意給定的aA , bB, 概率p(a , b)是多少。就是需要建立聯(lián)合最大熵模型。若要計(jì)算在 b 的條件下,事件 a 發(fā)生的概率,即概率p(a | b),則是需要建立條件最大熵模型。 建立條件最大熵模型,p需要滿足兩個(gè)條件: (1) 語言模型p概率分布應(yīng)與訓(xùn)練樣本中的統(tǒng)計(jì)概率分布相吻合。 (2) p應(yīng)為使得條件熵最大的p*,因這時(shí)模型為分布最均勻的
36、模型; docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型 條件1條件2docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型可以證明,滿足上述要求的解具有如下Gibbs分布形式: docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型2.模型參數(shù)計(jì)算及說明 模型參數(shù)求取算法 采用GIS算法計(jì)算參數(shù)值j,GIS算法要求對(duì)訓(xùn)練集中的每個(gè)實(shí)例,對(duì)實(shí)例中的任何(a,b) AB,特征函數(shù)之和為常數(shù),即對(duì)每個(gè)實(shí)例均滿足如果這個(gè)條件不能滿足,則根據(jù)訓(xùn)練集選擇C,C為在訓(xùn)練集所有實(shí)例中根據(jù)上式等號(hào)左邊算得的最大值。還需要增加一個(gè)修正特征(correctio
37、n feature)fl,其中l(wèi)=k+1,(其中C為一常數(shù))docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型GIS算法:設(shè)共有n個(gè)特征函數(shù),Epi表示特征函數(shù)fi的模型期望,Ei表示特征函數(shù)fi的樣本期望。1、 初始化:1.n=02、 計(jì)算特征函數(shù)的訓(xùn)練語料樣本期望:sum=0, E 1.n=0for each b for each afor each i such that fi(a,b)0 E i +=fi(a,b);sum+=fi(a,b);endfor endforendforfor each i E i= E i/sumendfor3、 計(jì)算特征函數(shù)的模型期望:
38、Ep1.n=0for each b z=0docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型 for each asuma=0for each i such that fi(a,b)0 suma+= i* fi(a,b)endforz+=exp(suma) endfor for each afor each i such that fi(a,b)0 Epi+= fi(a,b)* (b)*exp(suma)/zendfor endforendfor4、 修正:for each i i+=1/C*ln(Epi/Ei)endfor5、 若滿足終止,則結(jié)束,否則執(zhí)行第3步終止條件為
39、:達(dá)到確定的循環(huán)次數(shù)(如100次),或者對(duì)數(shù)似然(L(p)的變化小到可以忽略時(shí)。docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型 模型參數(shù)說明 有關(guān)模型參數(shù)的意義及說明,參見報(bào)告全文3.程序?qū)崿F(xiàn)程序用Delphi7編寫,最大熵詞義標(biāo)注軟件實(shí)現(xiàn)流程圖如下:機(jī)器學(xué)習(xí)部分是生成模型參數(shù)文件,包括特征提取和訓(xùn)練參數(shù)。訓(xùn)練參數(shù)時(shí)調(diào)用了修改過的OpenNLP MaxEnt項(xiàng)目提供的原java程序。特征提?。焊鶕?jù)特征模板進(jìn)行特征提取,生成用于訓(xùn)練參數(shù)的文件.訓(xùn)練參數(shù):根據(jù)特征模板進(jìn)行參數(shù)訓(xùn)練,生成參數(shù)i的值存文件中。詞義標(biāo)注部分根據(jù)選定的特征模板,讀取參數(shù)i的值,對(duì)特定的上下文b,計(jì)算
40、屬于各類a的概率p(a|b),選擇概率最大的類,用相應(yīng)的標(biāo)記進(jìn)行詞義標(biāo)注。 docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型新標(biāo)注好的語料結(jié)果評(píng)測(cè)訓(xùn)練語料(已標(biāo)注)可供訓(xùn)練參數(shù)的文件特征提取模型參數(shù)文件訓(xùn)練參數(shù)特征提取上下文特征詞義標(biāo)注機(jī)器輔助人工校對(duì)評(píng)測(cè)結(jié)果特征篩選選特征模板選特征模板測(cè)試語料(未標(biāo)注)測(cè)試語料(已標(biāo)注)機(jī)器學(xué)習(xí)詞義標(biāo)注docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型4. 實(shí)驗(yàn)結(jié)果 封閉測(cè)試 對(duì)2000年1月份的人民日?qǐng)?bào)詞義標(biāo)注語料去除義項(xiàng)標(biāo)注后,進(jìn)行了義項(xiàng)標(biāo)注的測(cè)試,對(duì)幾種特征模板及特征篩選方法的最大熵模型算法和基于統(tǒng)計(jì)與規(guī)則相結(jié)
41、合的詞義消歧模型與算法的實(shí)驗(yàn)結(jié)果與分析如下:docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型表5-1 詞義標(biāo)注封閉測(cè)試評(píng)測(cè)表實(shí)驗(yàn)序號(hào)所用模型是否對(duì)特征篩選及方法特征模板標(biāo)注結(jié)果特征類型窗口大小是否考慮位置不正確總標(biāo)注數(shù)正確率1最大熵不篩選詞形整句否275615390.99552最大熵不篩選詞形3否5477615390.91103最大熵不篩選詞形2否5620615390.90874最大熵篩選頻率=2詞形整句否1740615390.97175最大熵篩選頻率=2詞形3否8161615390.86746最大熵篩選互信息0.6詞形3否7844615390.87257規(guī)納學(xué)習(xí)篩選人工
42、詞形整句否8888615380.8556docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型詞義標(biāo)注封閉測(cè)試評(píng)測(cè)結(jié)果分析:1.實(shí)驗(yàn)1的正確率是最高的,選用了最大熵模型,對(duì)特征不進(jìn)行 篩選,特征類型為詞形,窗口大小為整句,沒有考慮位置特征。2.實(shí)驗(yàn)1、2、3除窗口大小不同外實(shí)驗(yàn)條件均是相同的,得出的正確率隨窗口大小的減小而減小。這說明了隨著特征選取的減少,標(biāo)注結(jié)果的正確率就降低。實(shí)驗(yàn)4、5也說明了這一點(diǎn)。3.實(shí)驗(yàn)4除對(duì)特征按頻率做了一定的篩選外,與實(shí)驗(yàn)1的條件均相同,從正確率來看,對(duì)特征的篩選并沒有提高標(biāo)注的正確率,這說明特征篩選方法還不是很好。實(shí)驗(yàn)2、5也說明了這一點(diǎn)。doc
43、in/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型詞義標(biāo)注封閉測(cè)試評(píng)測(cè)結(jié)果分析:4.實(shí)驗(yàn)2、5、6除是否對(duì)特征篩選及方法外實(shí)驗(yàn)條件均相同,實(shí)驗(yàn)2對(duì)特征未做篩選,實(shí)驗(yàn)5按頻率,實(shí)驗(yàn)6按互信息對(duì)做特征做了一定的篩選,從實(shí)驗(yàn)正確率看,兩種特征篩選方法沒有提高標(biāo)注的正確率,也說明特征篩選方法還不是很好。5. 實(shí)驗(yàn)7是按統(tǒng)計(jì)和規(guī)則相結(jié)合的方法進(jìn)行詞義標(biāo)注的,由于在人工選一些特征時(shí)有一定的主觀性,對(duì)在語料中的特征不一定考慮得很周全,正確率也不是很高。docin/sundae_meng五、面向漢語詞義排歧與標(biāo)注的語言模型開放測(cè)試 目前,開放測(cè)試語料準(zhǔn)備不全,有待進(jìn)一步測(cè)試5. 小結(jié)我們的目的:
44、建立面向大規(guī)模文本標(biāo)注的詞義標(biāo)注系統(tǒng)。統(tǒng)計(jì)與規(guī)則相結(jié)合的模型:自動(dòng)特征提取與統(tǒng)計(jì)程序與人的智能相結(jié)合,從多種知識(shí)源中提取知識(shí),詞義消歧的效果是比較好的.最大熵詞義消歧模型:采用三種特征選擇策略構(gòu)造24種模板,對(duì)詞義標(biāo)注的最大熵模型進(jìn)行了仔細(xì)的剖析,對(duì)模型的參數(shù)意義及應(yīng)用方法作了實(shí)踐性試驗(yàn)與探索,并對(duì)語法信息詞典中的800多個(gè)多義詞進(jìn)行模型參數(shù)的計(jì)算,可用于大規(guī)模語料的標(biāo)注。docin/sundae_meng內(nèi)容提要一、 緒 論二、 國(guó)內(nèi)外研究現(xiàn)狀分析三、 詞語義項(xiàng)的表征及其可計(jì)算性四、 基于多知識(shí)源的知識(shí)提取與融合五、 面向漢語詞義排歧與標(biāo)注的語言模型六、 標(biāo)注語料的一致性保證與正確性評(píng)價(jià)七、
45、 面向真實(shí)文本的漢語詞義標(biāo)注實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)八、 結(jié) 束 語docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)6.1 標(biāo)注正確性與一致性的關(guān)系 正確性:指對(duì)于某個(gè)多義詞其所標(biāo)注的義項(xiàng)與其上下文適應(yīng)的程度。一致性:指同一個(gè)多義詞在相同或相似的上下文環(huán)境中,其標(biāo)注的義項(xiàng)標(biāo)記是否一致。 大規(guī)模訓(xùn)練語料中獲取多義詞出現(xiàn)的全部上下文,并利用這些上下文與當(dāng)前待標(biāo)注的多義詞所在的上下文進(jìn)行相似性比較,將語料中與當(dāng)前多義詞有相似上下文的義項(xiàng)標(biāo)給當(dāng)前多義詞。docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)6.1 標(biāo)注正確性與一致性的關(guān)系 一致性的實(shí)現(xiàn)則是在對(duì)多義詞的
46、義項(xiàng)進(jìn)行選擇時(shí),保證當(dāng)前語句的上下文和前文中已經(jīng)為多義詞標(biāo)注了相應(yīng)義項(xiàng)的語句上下文相同或相似。 因此,從統(tǒng)計(jì)方法角度看,不管是正確性還是一致性,都要求計(jì)算上下文的相似性,只是比較的對(duì)象不同罷了,只要有語句相似性計(jì)算的好辦法,利用訓(xùn)練語料建立的語言模型,如果在標(biāo)注語料時(shí)具有較高的正確性,則自然會(huì)對(duì)具有相似上下文的兩個(gè)語句中的多義詞標(biāo)注出相同的義項(xiàng),一致性會(huì)自然提高,因此從這個(gè)角度看,保證詞義標(biāo)注的正確性會(huì)更重要。docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)6.2 語料庫建設(shè)中的詞義標(biāo)注一致性校對(duì)工具 原有標(biāo)注校對(duì)工具 對(duì)原有標(biāo)注校對(duì)工具的補(bǔ)充 思想:將同一個(gè)多義詞在語料
47、中的所有語句抽取出來,并通過聚類算法將“同形”或“義項(xiàng)”標(biāo)注相同的語句排列在一起,并將相同的義項(xiàng)對(duì)齊,這樣,在對(duì)詞義標(biāo)注語料庫進(jìn)行校對(duì)時(shí),就只需對(duì)漢語多義詞的語句進(jìn)行比對(duì),看標(biāo)注相同的多義詞所在的上下文是否相同或相似,如果發(fā)現(xiàn)有異同或差異較大,就要對(duì)多義詞所標(biāo)注的義項(xiàng)進(jìn)行修改,以保證它的正確性和一致性。docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)6.3 詞義標(biāo)注
48、模型與算法的評(píng)價(jià)方法 語言模型測(cè)試標(biāo)注語料的建立評(píng)價(jià)性能方法與指標(biāo)docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)6.4面向SENSEVAL-2019的評(píng)測(cè)語料格式轉(zhuǎn)換 今年北大計(jì)算語言技術(shù)研究所接受了為SENSEVAL2019準(zhǔn)備中英雙語詞義消歧評(píng)測(cè)語料的任務(wù),需要將語料格式從TXT文本格式轉(zhuǎn)換成XML格式語料。目前完成了一個(gè)將人民日?qǐng)?bào)語料轉(zhuǎn)換為XML格式的軟件工具,該軟件具有如下功能: 1.對(duì)文本格式語料中的日期格式一致性的進(jìn)行檢查。 2. 對(duì)組織機(jī)構(gòu)名幫定括號(hào)的檢查docin/sundae_meng六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)docin/sundae_men
49、g六、標(biāo)注語料的一致性保證與正確性評(píng)價(jià)docin/sundae_meng內(nèi)容提要一、 緒 論二、 國(guó)內(nèi)外研究現(xiàn)狀分析三、 詞語義項(xiàng)的表征及其可計(jì)算性四、 基于多知識(shí)源的知識(shí)提取與融合五、 面向漢語詞義排歧與標(biāo)注的語言模型六、 標(biāo)注語料的一致性保證與正確性評(píng)價(jià)七、 面向真實(shí)文本的漢語詞義標(biāo)注實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)八、 結(jié) 束 語docin/sundae_meng七、漢語詞義自動(dòng)標(biāo)注研究實(shí)驗(yàn)軟件平臺(tái) 7.1 系統(tǒng)原理與結(jié)構(gòu)設(shè)計(jì) 詞義排歧實(shí)驗(yàn)系統(tǒng)主要由知識(shí)獲取模塊、詞義排歧與標(biāo)注模塊和模型與算法評(píng)價(jià)模塊等構(gòu)成。各模塊之間相互關(guān)聯(lián),便于建立和實(shí)驗(yàn)各種詞義排歧與標(biāo)注的語言模型與算法。一旦模型與算法確定,該
50、系統(tǒng)即是一個(gè)漢語詞義自動(dòng)標(biāo)注與排歧系統(tǒng)。 該系統(tǒng)的結(jié)構(gòu)如下圖所示 docin/sundae_mengdocin/sundae_meng七、漢語詞義自動(dòng)標(biāo)注研究實(shí)驗(yàn)軟件平臺(tái) 7.2 知識(shí)獲取模塊 知識(shí)源:人民日?qǐng)?bào)標(biāo)注語料、現(xiàn)代漢語語法信息詞典、現(xiàn)代漢語語義詞典、知網(wǎng)實(shí)例抽取單元按詞抽取實(shí)例語句單元自動(dòng)聚類按詞之義項(xiàng)抽取實(shí)例語句單元特征模板設(shè)計(jì)單元特征模板的主要功能是定義上下文中某些特定位置的語言成分或信息對(duì)當(dāng)前詞的出現(xiàn)概率是否有影響。特征模板一般包括詞語的位置參數(shù)和語法屬性信息參數(shù)docin/sundae_meng七、漢語詞義自動(dòng)標(biāo)注研究實(shí)驗(yàn)軟件平臺(tái) 特征提取與選擇單元特征提取單元 按照特征模板
51、的要求,在訓(xùn)練語料中的多義詞上下文中選擇特征, 并將其提取出來,本模塊的輸入?yún)?shù)來自特征設(shè)計(jì)模塊,目前我們的特征提取參數(shù)主要包括兩類:docin/sundae_meng七、漢語詞義自動(dòng)標(biāo)注研究實(shí)驗(yàn)軟件平臺(tái) 特征的種類:包括詞形、詞性、詞形+詞性; 上下文窗口的大?。喊ǘ嗔x詞左右各取1個(gè)詞、2個(gè)詞、3個(gè)詞和整句。 是否考慮位置信息:是、否 模板數(shù)量: 342=24種特征選擇單元(1)將候選特征集中的所有特征都作為建模特征;(2)從候選特征集中選擇那些在訓(xùn)練語料中出現(xiàn)一定頻次的特征;(3)利用互信息從候選特征及中選擇特征(4)利用增量式特征選擇法從候選特征集中選擇特征。docin/sundae_
52、meng七、漢語詞義自動(dòng)標(biāo)注研究實(shí)驗(yàn)軟件平臺(tái) 本模塊得到的結(jié)果 (1) 多義詞上下文特征(帶位置信息特征數(shù)量在各位置上的頻次) (2) 多義詞的詞袋特征(不帶位置信息在詞袋中出現(xiàn)的總頻次)docin/sundae_meng七、漢語詞義自動(dòng)標(biāo)注研究實(shí)驗(yàn)軟件平臺(tái) 7.3詞義排歧與標(biāo)注語言模型構(gòu)建模塊 利用已獲得的多義詞上下文特征知識(shí)建立語言模型,主要是如何應(yīng)用知識(shí)獲取所得到的上下文特征信息。 本模塊由兩單元構(gòu)成:詞義標(biāo)注;多義詞詞義排歧詞義標(biāo)注單元策略:對(duì)于單義詞,可直接查語義詞典進(jìn)行標(biāo)注,對(duì)于多義詞,如果不同義項(xiàng)之間的詞性標(biāo)注不同,也可以該詞的詞性來對(duì)其進(jìn)行義項(xiàng)標(biāo)注。對(duì)于那些不易區(qū)分的同形同類詞,則要調(diào)用多義詞詞義排歧模塊。 docin/sundae_meng七、漢語詞義自動(dòng)標(biāo)注研究實(shí)驗(yàn)軟件平臺(tái) 算法:1. 打開待標(biāo)注文件rfile,并初始化文件指針(resetfile);2. if eof(rfile) then goto 9;3. 讀下一個(gè)切分單位到segunit;4. if 遇見回車換行符 then 將當(dāng)前標(biāo)注過的語句數(shù)組sentarr寫入輸出文件wfile;5. 析取segunit中的漢字到currword與詞性標(biāo)記到curpos
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國(guó)氯代環(huán)己烷行業(yè)發(fā)展趨勢(shì)及需求規(guī)模預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)比賽電子記分牌行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告(2024-2030版)
- 中國(guó)建筑工程承包行業(yè)市場(chǎng)深度調(diào)研及競(jìng)爭(zhēng)格局與投資研究報(bào)告(2024-2030版)
- 中國(guó)工業(yè)蒸汽行業(yè)經(jīng)營(yíng)狀況及未來前景預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)雙層鍋市場(chǎng)深度調(diào)查與未來前景趨勢(shì)研究研究報(bào)告(2024-2030版)版
- 中國(guó)醫(yī)用X線數(shù)字化儀行業(yè)發(fā)展態(tài)勢(shì)及投資前景展望研究報(bào)告(2024-2030版)
- 中國(guó)專項(xiàng)化學(xué)用品行業(yè)現(xiàn)狀態(tài)勢(shì)與需求前景預(yù)測(cè)研究報(bào)告(2024-2030版)
- 2024-2030年鼻噴霧劑瓶行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 福建省福州市長(zhǎng)樂高級(jí)中學(xué)2025屆高一物理第一學(xué)期期中調(diào)研模擬試題含解析
- 2025屆云南省楚雄州大姚縣大姚一中物理高一第一學(xué)期期末綜合測(cè)試模擬試題含解析
- 土壓平衡頂管施工工藝工法(給排水管道施工,附施工圖)
- 高分子物理教案(Word)
- 鹽堿地改良項(xiàng)目建議書范文
- 現(xiàn)代密碼學(xué)清華大學(xué)楊波著部分習(xí)題答案
- 房地產(chǎn)組織架構(gòu)圖
- 停線管理規(guī)定
- 《我和小姐姐克拉拉》閱讀題及答案(一)
- 大型展會(huì)對(duì)城市會(huì)展業(yè)發(fā)展影響文獻(xiàn)綜述會(huì)展專業(yè)
- 鄉(xiāng)鎮(zhèn)結(jié)核病防治工作職責(zé)
- 機(jī)組啟動(dòng)試運(yùn)行工作報(bào)告
- 禮儀隊(duì)工作計(jì)劃三篇
評(píng)論
0/150
提交評(píng)論