基于樹核函數(shù)的人物關(guān)系抽取研究市公開課金獎(jiǎng)市賽課一等獎(jiǎng)?wù)n件_第1頁
基于樹核函數(shù)的人物關(guān)系抽取研究市公開課金獎(jiǎng)市賽課一等獎(jiǎng)?wù)n件_第2頁
基于樹核函數(shù)的人物關(guān)系抽取研究市公開課金獎(jiǎng)市賽課一等獎(jiǎng)?wù)n件_第3頁
基于樹核函數(shù)的人物關(guān)系抽取研究市公開課金獎(jiǎng)市賽課一等獎(jiǎng)?wù)n件_第4頁
基于樹核函數(shù)的人物關(guān)系抽取研究市公開課金獎(jiǎng)市賽課一等獎(jiǎng)?wù)n件_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于樹核函數(shù)人物關(guān)系抽取研究

彭成錢龍華周國棟匯報(bào)人:彭成蘇州大學(xué)自然語言處理試驗(yàn)室/第1頁第1頁提綱引言相關(guān)工作研究動(dòng)機(jī)我們辦法試驗(yàn)結(jié)果與分析下一步工作第2頁第2頁引言人物關(guān)系抽取

人物關(guān)系抽取是實(shí)體關(guān)系抽取一個(gè)主要分支,旨在抽取人名實(shí)體之間各種社會關(guān)系。

比如,關(guān)系實(shí)例“朱镕基會見克雷蒂安”中,存在著社會交互關(guān)系(CONTACT)。研究意義 WEB給我們提供了一個(gè)巨大信息庫,其中隱藏著大量用戶感興趣實(shí)體及其互相關(guān)系。

人物關(guān)系抽取技術(shù)對社會網(wǎng)絡(luò)構(gòu)建、問答系統(tǒng)等均含有主要意義。第3頁第3頁相關(guān)工作基于共現(xiàn)辦法:Kautz等(1997):ReferralWeb.Mika():Flink.基于機(jī)器學(xué)習(xí)辦法:Matsuo等():基于決議樹C4.5分類器。姚從磊等():基于模擬退火算法。Jing等():基于命名實(shí)體辨認(rèn)、關(guān)系檢測、事件檢測。Elson等():基于角色名稱辨認(rèn)和對話檢測。Agarwal等():基于社會交互事件檢測。第4頁第4頁研究動(dòng)機(jī)存在問題:當(dāng)前針對人物關(guān)系抽取研究普通只涉及特定領(lǐng)域或是依賴于大規(guī)模網(wǎng)頁共現(xiàn)關(guān)系。通常情況下,人物關(guān)系類型比較單一。既有條件:伴隨基于核函數(shù)廣泛采用,實(shí)體關(guān)系抽取技術(shù)得到快速發(fā)展并日臻成熟。能否利用樹核函數(shù)從新聞?lì)I(lǐng)域文本中抽取豐富人物關(guān)系?如何提升其抽取性能?第5頁第5頁人物關(guān)系抽取辦法人物關(guān)系定義靜態(tài)人物關(guān)系:ACE語料原有定義PER-SOC關(guān)系(Business,Family,Lasting-Personal)。動(dòng)態(tài)人物關(guān)系:重新定義ACECONTACT事件(Meet,Phone-Write)為交互關(guān)系。基于樹核函數(shù)人物關(guān)系抽取辦法結(jié)構(gòu)化信息結(jié)構(gòu)《同義詞詞林》語義信息融合重采樣技術(shù)應(yīng)用第6頁第6頁結(jié)構(gòu)化信息結(jié)構(gòu)刪除實(shí)體并列結(jié)構(gòu)(RMV_ENTITY_CC)

當(dāng)連接兩個(gè)實(shí)體節(jié)點(diǎn)路徑中出現(xiàn)并列結(jié)構(gòu)時(shí),能夠刪除其中一個(gè)并列部分。刪除NP并列結(jié)構(gòu)(RMV_NP_CC_NP)

當(dāng)連接兩個(gè)NP節(jié)點(diǎn)路徑中出現(xiàn)并列結(jié)構(gòu)時(shí),保留最短路徑所通過那個(gè)并列部分?;謴?fù)右側(cè)動(dòng)詞(EXT_RIGHT_VERB)

擴(kuò)展第二個(gè)實(shí)體到最低公共節(jié)點(diǎn)之間出現(xiàn)動(dòng)詞短語結(jié)構(gòu)。第7頁第7頁結(jié)構(gòu)化信息結(jié)構(gòu)(續(xù))第8頁第8頁語義信息融合語義信息對實(shí)體間語義關(guān)系抽取含有主要指導(dǎo)作用,我們在句法樹中加入了兩個(gè)實(shí)體詞匯在《同義詞詞林》語義編碼信息。第9頁第9頁重采樣技術(shù)應(yīng)用第10頁第10頁試驗(yàn)試驗(yàn)設(shè)置人物關(guān)系語料庫包括關(guān)系正例880個(gè),關(guān)系負(fù)例18599個(gè)。人物關(guān)系類型主要為PER-SOC類和CONTACT類。本文試驗(yàn)采用五倍交叉驗(yàn)證策略。選擇SVM作為分類器,采用開源工具為支持卷積樹核函數(shù)SVMLightTK工具包。評估原則采用慣用準(zhǔn)確率(P),召回率(R)和F1指標(biāo)(F1)。本文采用近似隨機(jī)技術(shù)進(jìn)行明顯性測試,并分別使用雙下劃線、單下劃線和無下劃線表示p≤0.01、0.01<p≤0.05和p>0.05,即差別非常明顯、明顯和不明顯。第11頁第11頁試驗(yàn)結(jié)果——裁剪特性影響裁剪規(guī)則PER-SOCContactTotalPRF1PRF1PRF1SPT(baseline)80.738.952.375.810.518.478.831.845.3+RMV_ENTITY_CC80.939.552.979.611.519.979.932.546.1(80.9)(39.5)(52.9)(79.6)(11.5)(19.9)(79.9)(32.5)(46.1)+RMV_NP_CC_NP82.439.853.581.718.229.681.634.348.3(81.5)(38.4)(52.0)(83.3)(21.0)(33.5)(81.3)(34.0)(47.8)+EXT_RIGHT_VERB81.839.653.381.221.533.981.035.048.8(80.9)(38.3)(52.8)(62.0)(11.0)(18.6)(75.9)(32.6)(45.5)結(jié)論:1.三種裁剪策略對總體性能提升明顯。2.Contact類型F1值明顯低于PER-SOC類型,同時(shí),其性能提升幅度不小于PER-SOC類型。第12頁第12頁試驗(yàn)結(jié)果——語義信息影響詞林類別PER-SOCContactTotalPRF1PRF1PRF1SPT-OPT(baseline)81.839.653.381.221.533.981.035.048.8SPT-OPT+CL_B81.938.151.881.823.536.281.234.348.1SPT-OPT+CL_M78.741.654.379.422.534.978.236.749.9SPT-OPT+CL_S81.441.054.481.122.935.680.536.450.1SPT-OPT+CL_WG81.942.755.982.423.536.481.337.751.4SPT-OPT+CL_AWG81.542.956.381.724.437.581.538.151.8結(jié)論:1.伴隨語義信息顆粒度逐步提升,F(xiàn)1總體性能不斷增長。2.

F1值提升均起源于召回率大幅提升。第13頁第13頁試驗(yàn)結(jié)果——重采樣技術(shù)影響POS:NEGPER-SOCContactTotalPRF1PRF1PRF11:127.967.439.528.252.636.628.863.339.51:241.859.048.839.446.442.641.455.447.41:349.656.752.848.244.045.949.253.251.11:457.053.154.858.442.148.957.250.153.31:561.851.555.954.638.244.759.848.053.11:663.550.556.161.037.346.262.646.953.51:767.749.056.765.832.043.066.744.553.31:872.447.957.568.431.743.370.744.254.41:971.646.456.266.832.043.270.041.752.41:1071.946.756.568.527.338.970.741.752.41:1174.245.956.670.429.741.572.741.652.81:12(baseline)81.542.956.381.724.437.581.538.151.8欠采樣對人物關(guān)系抽取影響第14頁第14頁試驗(yàn)結(jié)果——重采樣技術(shù)影響過采樣對人物關(guān)系抽取影響POS:NEGPER-SOCContactTotalPRF1PRF1PRF11:12(baseline)81.542.956.381.724.437.581.538.151.82:1278.643.255.571.029.741.876.339.852.23:1277.945.357.272.034.046.175.842.354.34:1275.046.156.964.836.346.472.143.654.25:1274.646.156.865.936.346.871.943.554.16:1274.746.557.264.035.945.871.743.854.37:1274.846.557.264.435.946.371.943.854.48:1274.846.857.764.636.846.871.944.354.79:1274.746.857.764.636.846.871.944.354.710:1274.746.857.764.636.846.871.944.354.711:1274.746.857.764.636.846.871.944.354.712:1274.746.857.764.636.846.871.944.354.7結(jié)論:1.欠采樣和過采樣性能基本上都高于完全樣本訓(xùn)練時(shí)F1值。2.過采樣性能普遍高于欠采樣,且在一定百分比范圍內(nèi)維持基本不變。3.無論對于欠采樣還是過采樣,Cont

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論