![(電路與系統(tǒng)專(zhuān)業(yè)論文)特定領(lǐng)域文本的語(yǔ)段分析和單詞的語(yǔ)義聚類(lèi)研究[電路與系統(tǒng)專(zhuān)業(yè)優(yōu)秀論文].pdf_第1頁(yè)](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed51.gif)
![(電路與系統(tǒng)專(zhuān)業(yè)論文)特定領(lǐng)域文本的語(yǔ)段分析和單詞的語(yǔ)義聚類(lèi)研究[電路與系統(tǒng)專(zhuān)業(yè)優(yōu)秀論文].pdf_第2頁(yè)](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed52.gif)
![(電路與系統(tǒng)專(zhuān)業(yè)論文)特定領(lǐng)域文本的語(yǔ)段分析和單詞的語(yǔ)義聚類(lèi)研究[電路與系統(tǒng)專(zhuān)業(yè)優(yōu)秀論文].pdf_第3頁(yè)](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed53.gif)
![(電路與系統(tǒng)專(zhuān)業(yè)論文)特定領(lǐng)域文本的語(yǔ)段分析和單詞的語(yǔ)義聚類(lèi)研究[電路與系統(tǒng)專(zhuān)業(yè)優(yōu)秀論文].pdf_第4頁(yè)](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed54.gif)
![(電路與系統(tǒng)專(zhuān)業(yè)論文)特定領(lǐng)域文本的語(yǔ)段分析和單詞的語(yǔ)義聚類(lèi)研究[電路與系統(tǒng)專(zhuān)業(yè)優(yōu)秀論文].pdf_第5頁(yè)](http://file.renrendoc.com/FileRoot1/2019-12/13/292f7b70-87f3-4890-9cdd-506fbd9a2ed5/292f7b70-87f3-4890-9cdd-506fbd9a2ed55.gif)
已閱讀5頁(yè),還剩54頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
特定領(lǐng)域文本的語(yǔ)段分析和單詞的語(yǔ)義分類(lèi)研究 摘要 、y 隨著語(yǔ)法分析和對(duì)話(huà)系統(tǒng)研究的逐步深入,自然語(yǔ)古處理系統(tǒng)實(shí)州化面臨的又一 爪1 要問(wèn)題足特定領(lǐng)域語(yǔ)義語(yǔ)法的提取。 j 的聚類(lèi)足提取語(yǔ)法模板的前提。為t 達(dá)到我們希望的聚類(lèi)效果,需要對(duì)特定 壩j 或的殳小進(jìn)行刨f 的語(yǔ)段分析和單詞的語(yǔ)義分類(lèi)。 晰段分析避免x u j 了完仝而深入的分析,大夫減少了分析中的歧義,得到比較穩(wěn) 地n j 卅r 標(biāo)注和語(yǔ)段結(jié)構(gòu)。單詞的語(yǔ)義分類(lèi)根據(jù)使_ l 的領(lǐng)域特點(diǎn),從上下丈的信息中 9t f l j 4 m 單詞之問(wèn)的同義關(guān)系,將單詞歸類(lèi)。通過(guò)調(diào)整語(yǔ)段的中心詞和語(yǔ)義類(lèi)在句了聚 炎- ,的權(quán)幣,給 u 了聚類(lèi)以約束,將得到改善的聚類(lèi)效果0 丫 小遷以語(yǔ)段分析和函義分類(lèi)這兩項(xiàng)技術(shù)為主線(xiàn),i - d t 統(tǒng)i l 理淪為依據(jù),以l j 浯指令 q 、的f j j 聚炎y , s h ;j t d 背景,對(duì)特,定領(lǐng)域的丈水分析進(jìn)行了研究鄧木義的組織結(jié)構(gòu)如 篇章通過(guò),典例介紹旬了的語(yǔ)段分析和單詞的語(yǔ)義分類(lèi)在特定域語(yǔ)義模板提取中 門(mén)作川,說(shuō)明了研究的動(dòng)t ) l s n j :4 j t 背景。 旃一章簡(jiǎn)耍i 、j 論有關(guān)的研究1 :作介紹在p o s 標(biāo)注、不完全分析和單詞的語(yǔ)義分 炎力1 m 的研究成果,并提出本文在這三個(gè)問(wèn)題上采j _ j 的主要方法。 訛二章進(jìn)一步討論p o s 標(biāo)注和句了語(yǔ)段分析的理論基礎(chǔ),提出_ l j m a r k o v 模型進(jìn) “h 堝j q 、洼,川分段的h m m 進(jìn)行語(yǔ)段分折,給出標(biāo)注和分段的實(shí)驗(yàn)結(jié)果并考察對(duì) u j 聚炎1 0 效果。 吼舊章i 、j 論單詞語(yǔ)義分類(lèi)的統(tǒng)計(jì)理論基礎(chǔ),提出h 聚類(lèi)的方法進(jìn)行單詞的分類(lèi)。 j 血j ,丈,愉選擇作為分類(lèi)依據(jù)的上f 義信息和聚類(lèi)中的初始化和迭代方法,并州分類(lèi)的 ,- ,糶進(jìn)步改善句r 聚類(lèi)的效果。 、 訛f l 犖總結(jié)仝艾,提出今后的t 作葦點(diǎn)。礦 ? 父鍵字:j 聚類(lèi)p o s 標(biāo)注語(yǔ)段分析單詞語(yǔ)義分類(lèi) , t h es t u d yo n c h u n k p a r s i n go ft e x t s a n d s e m a n t i c c l a s s i f i c a t i o no fw o r d s f o ra s p e c i f i cd o m a i n a bs t r a c t w i t ht h er e s e a r c ho n s y n t a c t i cp a r s i n ga n d t h ea p p l i c a t i o no fn a t u r a ll a n g u a g ep r o c e s s i n g d o m a i n d i a l o gs y s t e m si np l a c e ,t h em a i np r o b l e mi n i ss e m a n t i cg r a m m a r e x t r a c t i o nf o ras p e c i f i c u “。p r e m l s 。t o re x t r a c t i n gg r a m m a r t e m p l a t e si ss e n t e n c e sg r o u p i n g i no r d e rt oa c h i e v e 圳1 。f o - yg r o u p i n gr e s u l t s ,w em u s ti m p l e m e n tc h u n kp a r s i n go ft e x t s a n ds e m a n t i c c l a s s i f i c a t i o no f w o r d sf o ras p e c i f i cd o m a i n ( 1 1 “kp a r s m ga v o i d sc o m p l e t ea n d i n - d e p t ha n a l y s i so fs e n t e n c e s ,s oi tg r e a t l yr e d u c e s “n a l y s l sa m b i g u i t ya n dp r o d u c e sr o b u s tp o s t a g g i n ga n dc h u n ks t r u c t u r e s w o r d ss e m a n t i c 6 l a s s l h c a t i o nb a s e si t s f o u n d a t i o no n w o r d s s p e c i a lu s a g ei n ad o m a i n ,a n di n d u c e s 8 yj n y m o u sr e l a t i o n s h i pa m o n gw o r d s w ec a ng i v er e s t r i c t i o n st o s e n t e n c e sg r o u p i n gb v :“i j u s t i n gt h ew e i g h t so f c h u n kh e a d sa n ds e m a n t i cc l a s s e st og e ti m p r o v e d g r o u p i n g r e s u l t s 1 1 1t h i sp a p e rw e p r e s e n tas t u d yo nt e x ta n a l y s i sf o ras p e c i f i cd o m a i no u rd i s c u s s i o nl s ?!?。e d ( 1 1c h u n k p a r s i n ga n ds e m a n t i cc l a s s i f i c a t i o nt e e h n i q u e st h i sf o c u si sd e v e l o p e di n il 1c o n t e x to f s p o k e nc o m m a n d sg r o u p i n gt h et h e s i si ss t r u c t u r e da sf o i l o w s : i n c h a p t e r 1 ,a ne x a m p l ei s p r e s e n t e dt oe x p l a i nt h ee f f e c t so fc h u n kp a r s i n ga n d 8 e m a n t l ec l a s s i f i c a t i o n o ns e n t e n c e s g r o u p i n g w e s h o wo u r r e s e a r c hm o t i v a t i o na n d b a c k g r o u n da sw e l l i nc h a p t e r2 ,w eb r i e f l yd i s c u s st h er e l a t e dw o r k so np o s t a g g i n g ,p a r t i a lp a r s i n ga n d s e m a n t i cc l a s s i f i c a t i o na n d p r o p o s e o u rs o l u t i o n s i nc h a p t e r3 ,w ed i s c u s st h et h e o r yf o u n d a t i o n sf o rp o s t a g g i n ga n dp a r t i a lp a r s i n ga m a t k o vm o d e la n da s e g m e n t a lh m ma r ep r o p o s e df o rt h e mr e s p e c t i v e l yw ep r e s e n t c x p m l i n a e n t r e s u l t sa n di l l u s t r a t et h e i re f f e c t so ns e n t e n c e s g r o u p i n g ii 1 c h a p t e l 4 b a s e do no u rs t u d yo nt h es t a t i s t i c a lf o u n d a t i o n sf o rs e m a n t i cc l a s s i f i c a t i o n , ( 一a d o p tc l u s t e r i n gm e t h o d se x p e i m e n t sa r ei m p l e m e n t e df o r s e l e c t i n gs u i t a b l ec o n t e x t i n l b lm a t i o na sw e l la si n i t i a t i o na n di t e r a t i o n f o r m u l as e n t e n c e s g r o u p i n g a r ef u r t h e r i l n p t o v e db yu s i n gc l a s s i f i c a t i o nr e s u l t s i i ;二,。二:。磊齜壺矗涵薔。黥。 1 1 c h a p t e r5 c o n c l u s i o n sa n dt u t u r ew o r ka r eg i v e n k e 3 、0 1 d s :s e n t e n c e sg r o u p i n gp a r t - o f _ s p e e c ht a g g i n g c h u n k p a r s i n g s e m a n t i ce l a s s i f i c a t i o no f w o r d s i i l l 。;。罐d 融i 濺矗l 函添,j , , 第一章緒論 f 1 然晤i j j :坐( n a t u r a ll a n g u a g ep r o c e s s i n g ,簡(jiǎn)稱(chēng)n l p ) 足最近2 0 年中一項(xiàng)蓬勃發(fā) f 0 j 術(shù)n 雖然仃不少特殊的問(wèn)題還沒(méi)有觶決,限定f 某些領(lǐng)域的實(shí)川系統(tǒng)已經(jīng)取得 j 令人數(shù)舞的成功。但是由十這些系統(tǒng)的領(lǐng)域特殊性比較強(qiáng),在改變心川方向時(shí)就會(huì) 。牛難。 塬閃之足,雖然自然語(yǔ)南的語(yǔ)法( s y n t a x ) 足相對(duì)穩(wěn)定的,荇個(gè)心州領(lǐng)域的語(yǔ)義 ( s e m a n t i c s ) l l 多多少少宵差異,骨各自的描述對(duì)象、概念和對(duì)象之間的特殊關(guān)系,獲 得這些語(yǔ)義信息足理解自然語(yǔ)古的前提。過(guò)去很長(zhǎng)一段時(shí)間內(nèi),研究者們必須通過(guò)手 l m i 1 1 、維某個(gè)領(lǐng)域的語(yǔ)古姚則才能丌發(fā)和轉(zhuǎn)換所謂的基十知識(shí)( k n o w l e d g e ,b a s e d l 的 n i 。p 系統(tǒng)?,F(xiàn)在,我們希卑能夠刖一種人t 輔助的自動(dòng)方法獲取特定領(lǐng)域的語(yǔ)義知 虬總,r 吾義語(yǔ)法模板,方使系統(tǒng)的丌發(fā)和、v 心。一般來(lái)說(shuō),語(yǔ)義模板提取的系統(tǒng)流 h 自i 、,其中虛線(xiàn)以上的部分足本文研究的甫點(diǎn): t r a i n i n g 丁怔翠 0 f i gi j t h ef l o wc h a r to f as e m a n t i ct e m p l a t e se x t r a c t i o ns y s t e m 圖1 1 語(yǔ)義模板提取的系統(tǒng)流程圖 以個(gè)j 衄_ l j 實(shí)例束進(jìn)一步說(shuō)明這個(gè)問(wèn)題。在語(yǔ)膏識(shí)別的研究中,有一項(xiàng)研究專(zhuān)門(mén) 刈疑個(gè)領(lǐng)域的指令進(jìn)行識(shí)別。封j 果能夠從識(shí)別的結(jié)果中提取這一領(lǐng)域的語(yǔ)南特征,包 m 。州m h 義和句式特征,就a j 以總結(jié)出特殊的語(yǔ)南模板。當(dāng)肯新的指令輸入時(shí),町 “ t 矗正、_ ,盛。碡i “j。如鋤鼢蓮幽若輔畦誼稚硝遵札。+ 軍 以睜鐘機(jī)根據(jù)模板自動(dòng)提取其中的囪州信息,其峴訃算機(jī)指令的【j 語(yǔ)化。下面是關(guān) 1 程安排( c a l e n d ”) 的一些特殊指令, | )c u r r e n ts c h e d u l e t o d ay sc a l e n d a r a i ,p 0 l n t m e n tf o rn e x tt h u r s d a y 8 0 8 ss c h e d u l et o m o r r o w l ? t ) l i k et 0s e em ya p p o n t m e n t s 8 r | n gu pa n a p p 0 i n t m e n tc a r d l :) s p l a ym ys c h e d u l ef o r1 0 d a y v | e wd e c e m 8 e rt h l r t l e t h q m | a y a l a 8 l e a t t e o l f l o c kt o d a y a m ib u s ya t t w o a m | f r e ef o rl u n ( ? h | ) ( ) | h a v ea n y f r e et l m et o d a y c r e a t e a n a p p o i n t m e n t f o rw e d n e s d a y a t n i n e p m s e tu p a n a p p o i n t m e n t a b o u t s p e e c h c o r p u s c r e a t en e w a p p o i n t m e n t n e wa p p o i n t m e n tw i t h 1 9 av es h u l t zt o d aya to n e 、( h e d u l eam e e h n gw l 丁hm i k e ( r a n d a l l 第一紺 u 了足關(guān)十口程查看( c a l e n d a rv i e w ) 的,第二組足關(guān)于口程查詢(xún)( c a l e n d ” ( e 1 y ) i q j , j ,第= 紕足關(guān)十口程創(chuàng)建( c a l e n d a rc r e a t i o n ) 的。根據(jù)這些分組的句了口j 以寫(xiě) nlf 義7 己關(guān)語(yǔ)法( c o n t e x t f r e eg r a m m a r ,簡(jiǎn)稱(chēng)c f g ) + 。 | ) “1 【 i e n t i u r v i e w = o p t o p q o p t = o p t o p t 尊、| 1 9 ) l v m c = ? h o wm e 、# d a t a t i m ep r e p 2a t = l e tm es e e , t i m - m e = d i s p l a y f l ;i 2 c a l e n d a r = t a s kl i s t s = a p p o i n t m e n t 2j i ( j :| m q u 唧 = f o p q o p q f r e e t i m e j n d o p t o p t j f r e e t i m e l n d o p t = i 、# ,1 j ( e t i m e q = d oih a v e o p q i f r e e o p t t i m e j 一、c a l e l a l a l c i c a g e = b u s y 2n o t o p t ) f l e e o p t o p t o p t o p t o p t o p t o p t o p t o p t 一d a l a t i n l t ( a l e m l a r ( 1 r e a l e 2 o p t o p t l o f t ( ,。e a t c s c h e d u l e ”、 | 。p 1 1 e l y = f i , r # s i d ! i e c + ,p r q ) 2a b o u t = 1w a n tt o = 1 n e e d t o = w i t h = 南r ”。h 中足c f g 語(yǔ)法的名稱(chēng),= 后面是語(yǔ)法的內(nèi)容。 # 中足某個(gè)槽( s l o t ) 的z 稱(chēng),= 后面足這個(gè)槽中口j 能填充的內(nèi)容。 o p t j 表示后面的槽是口j j 龜?shù)?,沒(méi)有標(biāo)志 f | ( 州 默認(rèn)足必須的。 ,j j i ic f g 語(yǔ)法后,我們就u j 以將其中某個(gè)槽( s l o t ) 中的內(nèi)容與某一個(gè)動(dòng)作( a c t i o n ) 聯(lián) ; ,堪水,t - l “i 在c a l e n d a r 的數(shù)掘庫(kù)中搜索并顯示與 中的 對(duì) j 妙n 。奠 i t ,。艾現(xiàn)指令的l j 語(yǔ)化。在輸入新的句rh , i ,也a j 以川這些語(yǔ)法對(duì)句了進(jìn)行分 折,甜硎i 某個(gè)槽的信,固,填寫(xiě)到數(shù)據(jù)庫(kù)中,方便以后的查詢(xún)和修改。 花。與c f g 之前,何一個(gè)很葦要的步驟就是將輸入的上j 了象上面那樣分好組,這就 j t f - jj 的聚類(lèi)( s e n t e n c e sg r o u p i n g ) 。一般來(lái)說(shuō),句了聚類(lèi)主要根據(jù)編輯距離( e d i t 1 ) s t a n c e ) ,編輯操作主耍有插入、刪除和替換。計(jì)算出一個(gè)句了經(jīng)過(guò)多少步編輯操作 川u :i j :| | i ”個(gè)刨了后,我們口j - 以h = 下面的公式訓(xùn)算它們之間的編輯距離: 吐q|dls!nnc?:numbersofedito p e r a t i o n s t o t a ll e n g t ho ft w os e n t e n c e s 然j l i 根據(jù)事先確定的門(mén)限,兩兩比較句r 的距離,將編輯距離在門(mén)限以上的句了 0 i 入。由十這種方法不涉及刨了和單詞的語(yǔ)義知識(shí),僅僅依賴(lài)它并不能完全得到 找們希蠼的聚類(lèi)結(jié)果會(huì)產(chǎn)生聚類(lèi)過(guò)度或聚類(lèi)不充分的問(wèn)題。下面_ l j 些例了來(lái)說(shuō) 。 i 。;矗; 矗i 赫2 溆 ,j d i v d a ya p p o i n t m e n t s a f t e rw e d n e s d a y c r e a t ea na p p o i n t m e n t f o rw e d n e s d a y m o r n i n g m a k ea na p p o i n t m e n t f o rw e d n e s d a yq # e r n o o n c a n c e la na p p o i n t m e n t j o rw e d n e s d a yh r e r w o o n 2 )c r e a t eah i g h l yi m p o r t a n ta p p o i n t m e n t f o rw e d n e s d a y ,dl i k et os c h e d u l et h er e c u r r i n gt a s k sf o rw e d n e s d a y 1w a n tt os e tu pb u s i n e s sc a l e n d a rf o rw e d n e s d a y 第一小是聚類(lèi)過(guò)度的例了。這四個(gè)句了的編輯距離很小,被聚在一個(gè)組中,但實(shí) 1 、卜t :t fj 屬十不同的語(yǔ)義范疇,j 虹該分丌。第二組是聚類(lèi)不充分的例了。句了的編輯 離比較夫,被分在不同的組里,但。史際l :都屬十c a l e n d a rv i e w 的c f g ,心該聚在 一,世。 為了解決上述的兩個(gè)問(wèn)題,我們需要對(duì)句r 進(jìn)行預(yù)處理,以保證比較好的聚類(lèi)效 糶,為j 減少由十名詞和動(dòng)詞的修飾成分帶柬的編輯距離,口j 以將句了在短語(yǔ)一層分 九* 段( 【、h u n k ) ,如第二組的句了日j 劃分為 ( i 。c a t ef “h i g h l yi m p o r t a n ta p p o i n t m e n t n p j f o rw e d n e s d a y p p j 1 11 dl i k et os c h e d u l e ? y p | t h er e c u r r i n gt a s k s n p f o rw e d n e s d a y f p p l f 1w a n tt os e tu p v p b u s i n e s sc a l e n d a r ? n p lo j rw e d n e s d a y p p 】 填巾, 7 n p l0 b rw e d n e s d a y f p p j h j dl i k et o i v p j t h er e c u r r i n g ( c a l e n d a r n p f o rw e d n e s d a y 腰巧 hw a n tt o i v p b u s i n e s s ( c a l e n d a r n p j f o rw e d n e s d a y 強(qiáng)p j 經(jīng)過(guò)這兩步處理后,我們合理地調(diào)整了句了的距離,改善了句了聚類(lèi)的結(jié)果。 以上j t l 一爻例說(shuō)明了句了的語(yǔ)段分析和單詞的語(yǔ)義分類(lèi)對(duì)十句了聚類(lèi)及模板提取所 ,5 _ j v , j k 助作川。這足我們研究的動(dòng)機(jī)。事實(shí)上,這兩個(gè)問(wèn)題都足n l p 研究中的熱點(diǎn) 1 - i l 難點(diǎn),囪若廣闊的研究背景和廣泛的使j u 前景。我們將研究限定在一個(gè)特殊的領(lǐng) 域,億i j 低難度的同h 、1 提高了編果的。史川性,并且采州的。史驗(yàn)方法和得出的結(jié)論不受 4 a j 蘊(yùn)溘a 氳 翻。藏。 j = _ j 他j t j 領(lǐng)域的限制,口j 以方便地心j 4 j 列其余類(lèi)型的義本。f 面的幾個(gè)章節(jié)將進(jìn)一步討 淪例宄i 門(mén)背景和具體的1 史驗(yàn)方法,并給出。丈驗(yàn)的結(jié)果及分析。 5 。# 。盤(pán)玨k 盤(pán)k j 。謄。 第二章研究背景 z i j 4 :蓽中將討淪與語(yǔ)段分析有關(guān)的p o s 標(biāo)注、不究仝分析以及語(yǔ)義分類(lèi)的研究背 2 1 p o s 標(biāo)注( p a r t o f - s p e e c ht a g g i n g ) p o s 標(biāo)注足語(yǔ)段分析的第一步,通常就是指對(duì)單詞的詞性標(biāo)注。在n l p 系統(tǒng)中, p o s 標(biāo)注經(jīng)常足分析的基礎(chǔ),在后續(xù)的語(yǔ)法分析、語(yǔ)義消歧等步驟中都要州到標(biāo)注的 糶。十,】、注的首耍| i 提是一個(gè)合適的標(biāo)注符弓集。日| j i ,在n l p 領(lǐng)域中被普遍接受且 j 泛他川的標(biāo)注集肯8 9 個(gè),其中比較審要的是b r o w n 大學(xué)川十b r o w n 語(yǔ)料庫(kù) ( b r o w nc o r p u s ) 的符號(hào)集( b r o w nc o r p u st a g s e t ) g r 8 1 、l a n c a s t e r 大學(xué)州十l a n c a s t e r - ( ) s i n b e r g e n 語(yǔ)料庫(kù)( l a n c a s t e r 。o s l o b e r g e nc o r p u s ,即l o b ) 的符弓集【j e 8 6 和 p e n n s y l v a n i a 大學(xué) 于p e n n 樹(shù)庫(kù)( p e n n ,t r e e b a n k ) 的符弓集 s a n 9 0 】。由十p e n n t r e e b a n k u 益得到廣泛使川,其對(duì)應(yīng)的符號(hào)集何成為標(biāo)準(zhǔn)的趨勢(shì)。我們?cè)诟戒? 中列 i j i 紅 1l jh ;中的詞性符弓。 ,i j 以川多種方法進(jìn)行句了的p o s 標(biāo)注: t j 先,口j 以使川機(jī)讀字典( m a c h i n e r e a d a b l ed i c t i o n a r y ) 。字典中包含單詞所有口j 能 l jp o s 標(biāo)注,通過(guò)直接查找就口j 以得到單詞對(duì)f 、v 的詞性。這種方法的速度很快, i 一個(gè)明顯的問(wèn)題就是歧義問(wèn)題( a m b i g u i t y ) 。一個(gè)單詞往往宵多個(gè)詞性,在特定 n ji :f 丈中,j 衄該選擇哪一個(gè)比較合適呢? 儀僅依賴(lài)字典是無(wú)法消除歧義的。 j l 次,口j 以人丁總結(jié)某個(gè)領(lǐng)域特定的字典。這種字典比通用的字典單詞量少,能 夠體現(xiàn)單詞在該領(lǐng)域的圳法,大大減少歧義現(xiàn)象。但歧義問(wèn)題并沒(méi)有完全消失, l mn 人1 一總結(jié)字典的t 作爪力很人,在心川領(lǐng)域變化時(shí),跡要葦復(fù)這個(gè)枯燥的過(guò) “。 i j 最通川的方法足州概率的方法,根據(jù)單詞的上下丈標(biāo)注詞性。在此之前,需 - 攫圳練的語(yǔ)料建立詞性標(biāo)注的上下義模型。大部分的p o s 標(biāo)注系統(tǒng)采h 4 這種方法 【c h u 8 8 b r i 9 2 k u p 9 2 s c h g s p n 9 3 。主要采_ l j 的技術(shù)囪m a r k o v 模型,h m m 和 f 。引一轉(zhuǎn)換( t r a n s t b r m a t i o n b a s e d ) 學(xué)習(xí)的方法。 2 1 1m a r k o v 模型 j k 們n 0p o s 標(biāo)注就采州這種方法。詳細(xì)的推導(dǎo)將在下一章給出。一般柬說(shuō), m a r k o v 模型的訓(xùn)練需耍大量的經(jīng)過(guò)標(biāo)注的浯利。標(biāo)注語(yǔ)料足一項(xiàng)費(fèi)時(shí)費(fèi)力的下作,對(duì) j :j t 的壩域,耍獲得大量的標(biāo)注語(yǔ)料就更加制難,岡此限制了這種方法的j 峨_ l 。我 i 的其騙i 采川一種半自動(dòng)的方法進(jìn)行改進(jìn)。先州手t 標(biāo)注部分語(yǔ)料,進(jìn)行模型的訓(xùn) 練川i ) i l 練后的模型標(biāo)注剩余的一部分語(yǔ)荊,并川手t 糾正其中的錯(cuò)誤,再新訓(xùn)練模 小,t 1 7 短標(biāo)注、糾正和訓(xùn)練的過(guò)程,口j 以比較方便地扶得大量語(yǔ)荊。當(dāng)語(yǔ)料達(dá)到一定 舊坡醚、1 ,模型的訓(xùn)l 練也就同時(shí)完成。實(shí)際上,在 d b 8 6 和 b r l 9 2 】中都采_ l l = | 了類(lèi)似的 6 “、m 越纛。h 曲。 2 1 2h m m 模型 h m m 方法j 。j 以川沒(méi)有經(jīng)過(guò)標(biāo)注的語(yǔ)利訓(xùn)練系統(tǒng)的模型。之所以稱(chēng)為“h i d d e n m a lk o v m o d e l s ”,址由十“與標(biāo)注過(guò)的浯荊不同,此時(shí)i 訓(xùn)練義木中的詞性符弓足不u j 址| j l j ” k u p 9 2 。h m m 的訓(xùn)練代價(jià)很大,通常川b a u m w e l c h 算法 b a u 7 2 ( 又稱(chēng)為 f o a w a r d - b a c k w a r d 筇法) 來(lái)提高訓(xùn)練的效率。 k u p 9 2 使川h m m 提高了標(biāo)注的準(zhǔn)確 心,玎他川 ;種療法提高系統(tǒng)的穩(wěn)健度,比, t t j 酬等價(jià)類(lèi)來(lái)減少模型中的參數(shù),使川 【卟殳川 j u 綴信息對(duì)在訓(xùn)練集中沒(méi)囪出現(xiàn)的單詞( u n k n o w nw o r d s ) 的詞性進(jìn)行預(yù)測(cè), 7 j 1 7 :0 。在使j hb r o w n 語(yǔ)料庫(kù)的。典驗(yàn)中,他報(bào)告了接近9 6 的標(biāo)注準(zhǔn)確度。英困 1 一a n c a s t e r 大學(xué)的( :l a w s 系統(tǒng)f g l s s i g l 9 7 也足用h m m 方法實(shí)現(xiàn)的,準(zhǔn)確度達(dá)到 ) 6 9 7 ,j 在線(xiàn)標(biāo)注d e m o 的u r l 為 h l t p :w w w c o m pl a n c sa cu k l c o m p u t i n g l r e s e a r c h u c r e l c l a w s 2 1 3 基于轉(zhuǎn)換( t r a n s f o r m a t i o n b a s e d ) 的方法 j j 一轉(zhuǎn)換的算法何兩個(gè)關(guān)鍵的組成:變換姚| l ! | j 和學(xué)習(xí)算泫。變換舭則包括兩個(gè)部 分:變 誕發(fā)生的環(huán)境和對(duì)j h 的變換規(guī)則。學(xué)習(xí)算法選擇最優(yōu)的變換規(guī)則及其使川的順 n 這利z 算法先對(duì)語(yǔ)料進(jìn)行粗略的標(biāo)注,比如將每個(gè)單詞都標(biāo)成它在字典中出現(xiàn)頻率 h ? “的i , i j 性然后通過(guò)與準(zhǔn)確標(biāo)注的語(yǔ)料庫(kù)進(jìn)行對(duì)比,總結(jié)在何種環(huán)境下使川哪個(gè)規(guī) 刪;吖懷汴計(jì)氓降到最低就川這條規(guī)則對(duì)語(yǔ)利中的所有對(duì)j 衄這種環(huán)境的標(biāo)注進(jìn)行修 i h 返” :1 l p 的替代必然引進(jìn)另外的錯(cuò)誤,u j 能將原來(lái)正確的標(biāo)注改成錯(cuò)誤的。繼續(xù) j 名個(gè)對(duì)l 匕、總結(jié)和改正的過(guò)程,保證每條規(guī)則的引進(jìn)使語(yǔ)料中的錯(cuò)誤盡口j 能地降低, h “i ,池結(jié)變換舭則集以及規(guī)則的使川順序。這樣總結(jié)出來(lái)的規(guī)則不受使_ l f 領(lǐng)域和詞 一r 婚j 必的限制,并且口j 以被推廣到n l p 研究的其余領(lǐng)域。在e r i cb r i l l 將該方法州十 i d 悱 ,j ;沌后【b r i 9 2 b r i 9 4 ,它又被州十語(yǔ)法分析 b r i 9 3 a 和介詞短語(yǔ)從屬消歧 f i 1 9 3 b 1 。 j 正自其余的一些方法,比如 b f 9 2 】的基十決策樹(shù)( d e c l s i o nt r e e ) 的方法等。在 c c 9 3 ,_ = | | i ( r 9 3 巾指出,絕大部分p o s 系統(tǒng)的準(zhǔn)確率都超過(guò)9 5 。 2 2 不完全分析( p a r t i a lp a r s i n g ) 4 i 充個(gè)分析址扶得語(yǔ)段一個(gè)幣耍途徑。n l p 中的分析足指識(shí)別出上j 了中的成分, 如心滑、分句和修飾成分等,以使十信息的提取。晤法分析足理搿犁文本的前提。為了 止脫屯懿l f i j 穩(wěn)健的語(yǔ)法分析,最訓(xùn)的方法是h j 盡口j 能全面的語(yǔ)法規(guī)則來(lái)分析句了,從 f 一舊l j n 0 兒種分析結(jié)果中選擇一個(gè)晶符合語(yǔ)義的。系統(tǒng)丌發(fā)的過(guò)程就是不斷添加新規(guī)則 州州原術(shù)f 門(mén)語(yǔ)法脫則進(jìn)行修改的繁瑣過(guò)程。但一方面,語(yǔ)壽現(xiàn)象千變?nèi)f化,很難找到 個(gè),i :4 寮的講法集能夠覆蓋所仃的語(yǔ)古胤0 1 l j 。m a g e n n a n m a 9 9 4 指出至少需要十,十的 7 。t 五盆矗i * 自女。女:,、 州m j 才能外發(fā)出具囪 艮高穩(wěn)健度的基于規(guī)則的分析系統(tǒng)。微軟研究院的n l p w i n 系統(tǒng) ,圳l j j 卜j l r 的時(shí)間才完成,總結(jié)了十幾萬(wàn)條規(guī)則,并且還在不斷修改中:另方 | f l ,i i i j 使不斷地往語(yǔ)法集中添加新規(guī)則,規(guī)則之間的包含和抵觸關(guān)系也會(huì)使語(yǔ)法分析 汁1 j :歧y i l i 大量增加而) 己法進(jìn)行。一種折中的方法就是只識(shí)別出句了中最基木的短語(yǔ) ,- w j 。返種分析通常只產(chǎn)生一個(gè)結(jié)果。雖然它的結(jié)果不如全面分析精確,但我們a j 以 從t j 得劍許多肯_ l j 的信息。這種方法通常被稱(chēng)為不完仝分析,短語(yǔ)分析( p h r a s a l p a r s i n g ) ,半分析( s e m i 。p a r s i n g ) ,或淺層分析( s h a l l o wp a r s i n g ) 。 最苫名的兩個(gè)不完全分析的方法是h i n d l e 的f 1 d d l t c h ( h d 8 3j 和a b n e y 的語(yǔ)段分析 ( p a r s i n gb yc h u n k s ) 【a b n 9 1 】。 f i d d i t c h 系統(tǒng)關(guān)注的足句了的最主要成分,如句了的結(jié)束標(biāo)志、主語(yǔ)和表語(yǔ)等。無(wú) 濁“舢正舊i 生的單詞或短語(yǔ)被跳過(guò),繼續(xù)分析剩余的部分。這大大提高了分析的速度和 刈j 呲義州j i 錯(cuò)談的容忍程度。h i n d l e 認(rèn)為這些主要成分足以提供對(duì)史章的正確理 斛。 ( 、k 9 1 】利h j 這種方法來(lái)分析句了的主語(yǔ)一動(dòng)詞一賓語(yǔ)的關(guān)系,并計(jì)述說(shuō),雖然。史 聆,1 i 糶仃比較多的錯(cuò)誤,但提供了自然語(yǔ)古使州中的許多姚律,特別是使_ l j 主語(yǔ)一動(dòng) i i j _ 一兵i 呂的搭配傾向性。 a b n e y 使川的足一個(gè)稱(chēng)為f i n i t e - s t a t ec a s c a d e s 的系統(tǒng)結(jié)構(gòu)。這是一個(gè)有層次的分 析樂(lè)統(tǒng),根據(jù)一系列自邛r 的轉(zhuǎn)換規(guī)則對(duì)句了進(jìn)行由低層到高層的分析。 4 i j e 個(gè)分析足一項(xiàng)很付刖的n l p 技術(shù)。比蚶帚復(fù)使圳不完全分析口j 以得到更精確 ,二祭的講法分析、為信息榆索( i n f o r m a t i o nr e t r i e v a l ) 提供術(shù)語(yǔ)和復(fù)合詞拙取以及為信息 j 灶呶( 1 n l 、0 1 m a t i o ne x t r a c t i o n ) 中提供關(guān)鍵語(yǔ)境分析,等等。 2 3 語(yǔ)義分類(lèi)( s e m a n t i cc l a s s i f i c a t i o n ) i 占義分類(lèi)足將晤料庫(kù)中的單詞按照在某一個(gè)領(lǐng)域的心途進(jìn)行歸類(lèi)的過(guò)程。比直, 花( a l e n d a r 域中,動(dòng)詞口j 能的語(yǔ)義類(lèi)為s h c e d u l e ,d e l e t e ,v i e w 等等,名詞口j 能 的m 義類(lèi)為c a l e n d a r ,t i m e ,l o c a t i o n 等等。 t 、f l 洲的講義分類(lèi)類(lèi)口j 以角牟決介詞的從屬,動(dòng)詞的賓語(yǔ)等這些語(yǔ)法分析上的歧義。 f 7 r “j 刪究肯的結(jié)果 p s 9 3 】【r e s 9 3 a l 9 2 】中得到_ 許多自_ l j 的語(yǔ)義類(lèi)。一個(gè)不受領(lǐng)域 限制的單洲分類(lèi)系統(tǒng)口j 以幫助對(duì)義本的理解,并且口j 以方便地在各種領(lǐng)域的文本中使 川,提高了n l p 系統(tǒng)的轉(zhuǎn)換性。 i 7 t 義分類(lèi)通常囪兩種方法:從己分類(lèi)的字典( t a x o n o m i e s ) q 6 得到單詞的分類(lèi),或 州彤先計(jì)的方法從語(yǔ)料中直接提取。 2 3 1 使用分類(lèi)字典的方法 j 咀他川字典中的分類(lèi)來(lái)區(qū)分語(yǔ)義類(lèi),比如1 一些電r 字典和專(zhuān)門(mén)領(lǐng)域的術(shù)語(yǔ)字 業(yè)。返j _ ! 寧典通常由手丁產(chǎn)生的,需要耗費(fèi)大量的勞力。 w o r d n e t 足最成功的英文分類(lèi)字典 m r 9 0 j ,其中的分類(lèi)信息已經(jīng)被廣泛十處理 然沿j 丈本。i r e s 9 3 只使州w o r d n e t 中的同義( s y n o n y m y ) 和統(tǒng)領(lǐng)( h y p o n y m y ) 關(guān)系 8 。女二贏(yíng)鑫蠡逝。 就鉗劃比較恰當(dāng)?shù)恼Z(yǔ)義分類(lèi)。他還_ l j 詞類(lèi)的信息解決介詞的從屬等語(yǔ)法分析上的歧義 川題?!綽 m 9 4 】的。史驗(yàn)也證明詞的分類(lèi)信息f j 助于觶決數(shù)據(jù)的稀疏問(wèn)題。 似足這些分類(lèi)字典不能為特定領(lǐng)域的單詞提供足夠的分類(lèi)依據(jù),而且字典本身 的此義現(xiàn)緣也很?chē)?yán)幣,w o r d n e t 中甲均每個(gè)單詞仃4 7 6 個(gè)義項(xiàng)。對(duì)十某個(gè)領(lǐng)域向壽, 必壩從這些復(fù)雜的分類(lèi)中選擇適合十本領(lǐng)域的詞義。最,m 幣的問(wèn)題足大量的手t 勞動(dòng) n :j 需。嬰他得這些字典很難從一個(gè)領(lǐng)域移植到其他領(lǐng)域,特別是一些技術(shù)領(lǐng)域囪專(zhuān)川的 _ l f 分類(lèi)字貝無(wú)法覆蓋,還足必須從訓(xùn)練集中贏(yíng)接捉取。 2 3 2 統(tǒng)計(jì)的分類(lèi)方法 統(tǒng)足n 1 。p 研究的葦要手段,也足語(yǔ)義分類(lèi)的何效方法。它的優(yōu)點(diǎn)足通_ l j 型強(qiáng), 小、乏他川t 壩域的限制,不需要大量的人i + f 預(yù),l , 以從語(yǔ)利中直接提取領(lǐng)域的專(zhuān)川詞 f _ :缺j j i 足需要大量的語(yǔ)料,結(jié)果不如川分類(lèi)字典精確。 紫炎( ( l u s t e r i n g ) 算法足語(yǔ)義分類(lèi)的常h j 統(tǒng)訓(xùn)方法。它將某個(gè)集合的兀素按照其特 , 1 13 且i r 分炎。容易與聚類(lèi)混淆的個(gè)算法足分類(lèi)( c l a s s i f i c a t i o n ) 。盤(pán)果事先已經(jīng)知道元 采的炎) j 1 j ,研究的f 1 的足歸納這些類(lèi)別的特征,以便將新的元素歸入適當(dāng)?shù)念?lèi)中,這 j | ;! j 術(shù)就稱(chēng)為分類(lèi)。分類(lèi)是宵指導(dǎo)的學(xué)習(xí)過(guò)程( s u p e r v i s e dl e a r n i n g ) ,岡為已知的類(lèi)別 俯,! 、將j 日導(dǎo)分類(lèi)的過(guò)程。另外一種情況足已經(jīng)有原始的數(shù)據(jù),但不知道將會(huì)得到的類(lèi) 坡h 幣類(lèi)j 唑,必須從數(shù)據(jù)中直接學(xué)習(xí),這項(xiàng)技術(shù)就稱(chēng)為聚類(lèi),又u 【| 做自動(dòng)數(shù)據(jù)分類(lèi)。 這址個(gè)兀指導(dǎo)的學(xué)習(xí)過(guò)程( u n s u p e r v l s e dl e a r n i n g ) ,沒(méi)有現(xiàn)成的分類(lèi)信息提供分類(lèi)結(jié) 糶的預(yù)測(cè)。嚴(yán)格地說(shuō),我們的語(yǔ)義分類(lèi)并不是一個(gè)分類(lèi)過(guò)程,m 是_ 【 聚類(lèi)的方法實(shí)現(xiàn) 分炎。 聚炎鵯法川以人致分為兩類(lèi): 分削的療法( p a r t i t i o n i n gm e t h o d s ) 將緊類(lèi)對(duì)緣分割成j 工不包含的集合,每個(gè)集合中至少包含一個(gè)元素,每個(gè)元素只 j ,r 。個(gè)儇介。 從次的方法( h i e r a r c h i c a lm e t h o d s ) j f 類(lèi)似樹(shù)狀的分類(lèi)結(jié)構(gòu)。所肯的兀素在樹(shù)根處屬十一個(gè)大集合,然后沿樹(shù)枝逐 m ”,最j 。j 樹(shù)根處就是一個(gè)個(gè)t f l 獨(dú)的幾素。按照樹(shù)的生長(zhǎng)方向不同,口j 以分為“聚 q 二的,( a g g l o m e r a t i v e ) “分裂的”( d i v i s i v e ) 聚類(lèi)。如果聚類(lèi)從單個(gè)元素丌始,逐漸合 i :兒求,這種,j 濁就稱(chēng)為“聚集”聚類(lèi)。如果聚類(lèi)從樹(shù)根丌始,逐漸將元素集合分 裂分列最后單個(gè)的葉了元素,這就是“分裂”聚類(lèi)。 化小彩情況下,某些元素不只屬j 二一個(gè)類(lèi),而足以某種概率分布屬于不同的類(lèi)。 仃j i4 = 【| l w m 下,聚類(lèi)結(jié)果的輸出口j 能足這樣的“客體x 以7 8 的口j 能性屬于類(lèi)a ,以 i 8 f 1 j | :簪屬十類(lèi)c ,以4 的概率屬于類(lèi)d ”。這種聚類(lèi)稱(chēng)為軟聚類(lèi)( s o f tc l u s t e r s ) 。 j i2 ,果聚類(lèi)瞬法將每個(gè)詞歸入唯一的一個(gè)類(lèi),這種聚類(lèi)就稱(chēng)為餒聚類(lèi)( h 8 r d 9 勰測(cè)。躐,。一:氨晶。囊涵交醢越& i 蕊堍二。;。 乃j 進(jìn)行聚類(lèi),j 必須發(fā)現(xiàn)元素之間囪區(qū)別性的特征值。對(duì)于英文的單詞分類(lèi),特 7 r 1 f l t ) ;v ;i 能夠體現(xiàn)單詞之間語(yǔ)義區(qū)別。n l p 研究者們采用了許多方法柬體現(xiàn)語(yǔ)南的特 札f tj t j 合理的方法進(jìn)行聚類(lèi)。 b d 9 2 和 m c m 9 4 都使_ l 互信息( m u t u a li n f o r m a t i o n ) 來(lái)比較單詞之間的相似度, 川奠僂算法。吹現(xiàn)局部最優(yōu)的分類(lèi)?;バ畔⒗鸰 l j 隨機(jī)變量的分布柬衡量它們之間的關(guān)聯(lián) j _ j t ,”;f 1 更新下: m ( x ,】,) = p ( x ,y ) l o g 如粱互信息的值足比較大的正數(shù),表示酶?jìng)€(gè)變量共同出現(xiàn)的頻率很高,為負(fù)數(shù), 走小它們之問(wèn)j 沒(méi)仃很強(qiáng)的關(guān)聯(lián)。 b d 9 2 和 m c m 9 4 都使h 貪婪算法,使詞類(lèi)之間的甲 j 0 f 一一息最大。雖然他們實(shí)現(xiàn)的都只是局部最優(yōu),結(jié)采已經(jīng)很令人鼓舞了。下面足他 們i1 爻驗(yàn)得硎的一些詞類(lèi)。 f i g 2 1s o m er e s u l t so f b r o w n sa n dm c m a h o n se x p e r i m e n t s 圖2 1b r o w n 和m c m a h o n 的靚分艾驗(yàn)結(jié)果
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥學(xué)研究熱點(diǎn)與執(zhí)業(yè)藥師試題及答案
- 2025年經(jīng)濟(jì)法概論答題技巧試題及答案
- 執(zhí)業(yè)護(hù)士考試護(hù)理倫理實(shí)踐案例試題及答案
- 挑戰(zhàn)自我的行政管理試題及答案
- 行政法學(xué)核心知識(shí)試題及答案
- 衛(wèi)生資格考試改革新動(dòng)向試題及答案
- 提升服務(wù)質(zhì)量的護(hù)師試題及答案
- 2025年執(zhí)業(yè)藥師考試綜合測(cè)試試題及答案
- 行政管理專(zhuān)業(yè)的語(yǔ)文應(yīng)用方法試題及答案
- 新疆博樂(lè)市高級(jí)中學(xué)高一上學(xué)期期中考試語(yǔ)文試卷
- 兒科專(zhuān)業(yè)課 17-腎病綜合征學(xué)習(xí)課件
- 中國(guó)健美協(xié)會(huì)cbba(高級(jí))健身教練證考試復(fù)習(xí)題庫(kù)(含答案)
- 2025年廣東乳源瑤族自治縣明源國(guó)有資產(chǎn)經(jīng)營(yíng)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 檢驗(yàn)檢測(cè)機(jī)構(gòu)程序文件培訓(xùn)考核試卷
- 腫瘤專(zhuān)科護(hù)士進(jìn)修學(xué)習(xí)匯報(bào)
- 護(hù)理科研課題撰寫(xiě)
- 新能源項(xiàng)目糾紛法律適用與案例解析-筆記
- 安全生產(chǎn)合規(guī)性審核
- 鼓樂(lè)鏗鏘 課件-2024-2025學(xué)年高中音樂(lè)人音版(2019)必修 音樂(lè)鑒賞
- 腎衰竭病歷范文
- 骨質(zhì)疏松用藥治療
評(píng)論
0/150
提交評(píng)論