中文文本自動(dòng)分詞與標(biāo)注漢語(yǔ)詞義自動(dòng)標(biāo)注技術(shù)課件_第1頁(yè)
中文文本自動(dòng)分詞與標(biāo)注漢語(yǔ)詞義自動(dòng)標(biāo)注技術(shù)課件_第2頁(yè)
中文文本自動(dòng)分詞與標(biāo)注漢語(yǔ)詞義自動(dòng)標(biāo)注技術(shù)課件_第3頁(yè)
中文文本自動(dòng)分詞與標(biāo)注漢語(yǔ)詞義自動(dòng)標(biāo)注技術(shù)課件_第4頁(yè)
中文文本自動(dòng)分詞與標(biāo)注漢語(yǔ)詞義自動(dòng)標(biāo)注技術(shù)課件_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文文本自動(dòng)分詞與標(biāo)注

第8章漢語(yǔ)詞義自動(dòng)標(biāo)註技術(shù)報(bào)告人:劉謦儀(J94922018)12/3/20231綱要詞義標(biāo)注詞義排歧詞義自動(dòng)標(biāo)注與詞義自動(dòng)排歧語(yǔ)言的編碼漢字字義組合結(jié)構(gòu)基於字義排歧的模型自組織的漢語(yǔ)詞義排歧方法結(jié)語(yǔ)12/3/20232詞義標(biāo)注對(duì)文本中的每個(gè)詞根據(jù)其所屬之上下文給出它的語(yǔ)義編碼指用非文字的東西來(lái)表示文字消息的內(nèi)容,用圖畫(huà)、樂(lè)譜等都可以進(jìn)行語(yǔ)義編碼。詞典釋義文本中的某個(gè)「義項(xiàng)號(hào)」義類(lèi)詞典中相映的「義類(lèi)編碼」12/3/20233詞義排歧處理一詞多義現(xiàn)象例:大學(xué)是教育機(jī)構(gòu)是一本古書(shū),博士既是官名,又是博學(xué)多才的人,又是師傅,還是一種學(xué)位的名稱(chēng)。使用詞義標(biāo)注文本可提高檢索時(shí)的查全率和查準(zhǔn)率。有利於選擇可以恰當(dāng)表達(dá)語(yǔ)句中詞的目標(biāo)詞,以提高翻譯的準(zhǔn)確性。建立基於語(yǔ)義類(lèi)的語(yǔ)言模型,為語(yǔ)音識(shí)別、手寫(xiě)體識(shí)別和音字轉(zhuǎn)換提供幫助。12/3/20234詞義自動(dòng)標(biāo)注

(WordSenseTagging)也稱(chēng)為詞義自動(dòng)排歧(WordSenseDisambiguation)計(jì)算機(jī)運(yùn)用邏輯運(yùn)算與推理機(jī)制,對(duì)出現(xiàn)在一定上下文中詞語(yǔ)的語(yǔ)義進(jìn)行正確的判斷,自動(dòng)確定其正確的義項(xiàng)並加以標(biāo)注的過(guò)程。多義詞排歧主要依據(jù)該多義詞出現(xiàn)的上下文,排歧的過(guò)程就是建立他們之間的聯(lián)繫過(guò)程,這種聯(lián)繫則是詞語(yǔ)間的語(yǔ)義聯(lián)繫。常見(jiàn)方法人工智能法、基於詞典的方法、基於語(yǔ)料庫(kù)的方法12/3/20235語(yǔ)言的編碼分為語(yǔ)音編碼和語(yǔ)義編碼兩大類(lèi)語(yǔ)音編碼:用符號(hào)代表語(yǔ)音,一種語(yǔ)言區(qū)別於其他語(yǔ)言的根本區(qū)別就是其不同的語(yǔ)音音素編碼。就英語(yǔ)而言有英音,美音,澳音,新西蘭音等。語(yǔ)義編碼:是用符號(hào)代表語(yǔ)義,關(guān)注的是語(yǔ)言所能表達(dá)的意義,每種語(yǔ)言都有自己的語(yǔ)義系統(tǒng)。漢語(yǔ)和英語(yǔ)屬於不同的語(yǔ)系,前者屬於漢藏語(yǔ)系,後者屬於印歐語(yǔ)系。12/3/20236語(yǔ)言的編碼漢語(yǔ)語(yǔ)義編碼的基本符號(hào)是“字”

漢語(yǔ)的語(yǔ)義主要附著在“字”上。字義排歧是詞義標(biāo)注之突破點(diǎn)。濃縮形音義,多為形聲字,表音亦表意,望文生義,如:吠。大量同音字、同音詞語(yǔ),化成書(shū)面多可消除歧義。單字多義項(xiàng)者占53.6%(如「打」字之義項(xiàng)數(shù)為26);詞組/合成詞多義項(xiàng)者僅占0.46%。12/3/20237漢字字義組合結(jié)構(gòu)向心性字組Vs.離心性字組冰山,青山,火山,高山(核心字在後)Vs.山峰,山城,山溝,山村(核心字在前)並列字組Vs.主從字組關(guān)閉,左右,上下,陰陽(yáng)(二字相同相近相反)Vs.火車(chē),汽車(chē),黑板,白版(前字從,後字主)合義(國(guó)+務(wù)→國(guó)務(wù))33%、加義(景+物→可供觀賞的景緻和事務(wù))56.7%、同義(聲+音→聲;音)、偏義(厚+度→厚≠度;容+易→易≠容)、轉(zhuǎn)義(目+光=眼睛+光線→見(jiàn)識(shí))少量字義推大量詞義成為可能!12/3/20238基於字義排歧的模型資源:三臺(tái)機(jī)器+兩部詞典MRD-1讀入<現(xiàn)代漢語(yǔ)通用字典>MRD-2讀入<同義詞詞林>MTD由MDR-1透過(guò)機(jī)器自動(dòng)生成以字義定詞義的語(yǔ)義標(biāo)注方式準(zhǔn)確率在80%以上遭遇困難處二字詞之多義詞排歧單字本身意義抽象、廣泛、模糊,成詞時(shí)描述也困難如何將詞義間之關(guān)係建構(gòu)成完整的意念表達(dá)仍須努力12/3/20239基於字義排歧的模型-MRD1說(shuō)明MRD-1讀入<現(xiàn)代漢語(yǔ)通用辭典>,用來(lái)作為標(biāo)注每個(gè)漢字的義項(xiàng)號(hào)?!按?da3)”在MRD-1中有25個(gè)義項(xiàng),分別為打-B01:毆打,攻打;打-B02:用手或器具撞擊物體;打-B03:做,從事;打-B04:表示身體上的某些動(dòng)作;……打-B25:器皿,蛋類(lèi)因撞擊而破碎?!按?da2)”在MRD-1中記為打-A01:量詞,12個(gè)叫一打。12/3/202310基於字義排歧的模型-MRD2說(shuō)明MRD-2讀入<同義詞詞林>,編排方式以詞義為主兼顧詞類(lèi)詞,多義詞則分別收入不同詞群以12個(gè)語(yǔ)義場(chǎng)(人,物,時(shí)間,空間,抽象事物,性質(zhì),動(dòng)作,心理,活動(dòng)狀態(tài),關(guān)聯(lián),助詞)之不同層次與大小來(lái)分類(lèi)。各語(yǔ)義場(chǎng)間互相有著同義(好看Vs.華麗)、反義(善良Vs.兇惡)、類(lèi)義(大雨Vs.暴雨)、聯(lián)義(同情Vs.同情心;哭Vs.淚人兒)等語(yǔ)義關(guān)係。同一個(gè)語(yǔ)義場(chǎng)包含”1.同義;2.反義;3.類(lèi)義”三種語(yǔ)義關(guān)係跨語(yǔ)義場(chǎng)就是聯(lián)義12/3/202311基於字義排歧的模型-MTD說(shuō)明MTD由MDR-1透過(guò)機(jī)器自動(dòng)生成詞組之義項(xiàng)代碼,如”打-B02鼓-A01”打-B01:毆打,攻打→打倒∣打擊∣打架∣…∣打手打-B02:用手或器具撞擊物體→打鼓∣打火∣…∣敲鑼打鼓鼓-A01:打擊樂(lè)器→鼓板∣鼓槌∣打鼓∣…∣重振旗鼓鼓-A02:發(fā)動(dòng),激起→鼓動(dòng)∣鼓舞∣…∣鼓足幹勁12/3/202312自組織的漢語(yǔ)詞義排歧方法-步驟1以<現(xiàn)代漢語(yǔ)辭海>提供的搭配實(shí)例作為多義詞的初始搭配知識(shí)庫(kù),無(wú)需人工標(biāo)注初始語(yǔ)料,用適當(dāng)?shù)慕y(tǒng)計(jì)和自組織方法做訓(xùn)練並自動(dòng)擴(kuò)大搭配集。在初始搭配知識(shí)庫(kù)中,每個(gè)條目的包含訊息可描述為多義詞義項(xiàng)號(hào)搭配類(lèi)別(L/R)搭配示例12/3/202313自組織的漢語(yǔ)詞義排歧方法-步驟2在學(xué)習(xí)過(guò)程中逐漸增大上下文窗口長(zhǎng)度來(lái)保證高可靠性。選擇上下文的訊息時(shí)應(yīng)儘量選取與當(dāng)前詞存在語(yǔ)法有關(guān)係的那些詞,濾掉上下文中多數(shù)與其不存在語(yǔ)法關(guān)係的詞。在給定的多義詞上下文內(nèi),尋找與初始搭配庫(kù)匹配的搭配實(shí)例,若匹配成功則標(biāo)上對(duì)應(yīng)的義項(xiàng)標(biāo)記。初始標(biāo)注時(shí)限定上下文窗口長(zhǎng)度為2,表選擇該詞的前後兩個(gè)詞。12/3/202314自組織的漢語(yǔ)詞義排歧方法-步驟3透過(guò)建立搭配統(tǒng)計(jì)表來(lái)實(shí)現(xiàn)多元詞義歧義的排歧按一定原則從與料庫(kù)中取得排歧過(guò)程中需要的各種可能搭配和統(tǒng)計(jì)數(shù)據(jù)。每個(gè)條目包含的訊息可描述為:註:頻次表示在本次標(biāo)注語(yǔ)料中該搭配出現(xiàn)的次數(shù)多義詞義項(xiàng)號(hào)搭配類(lèi)別(L/R)頻次根據(jù)統(tǒng)計(jì)數(shù)據(jù)自動(dòng)調(diào)整學(xué)習(xí)進(jìn)度,逐漸增加上下窗口長(zhǎng)度來(lái)學(xué)到儘可能多的搭配。12/3/202315結(jié)語(yǔ)任何詞義消歧系統(tǒng)都離不開(kāi)詞義消歧時(shí)所用知識(shí)的資料源,詞義消

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論