下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、摘要:針對(duì)維基百科中旅游領(lǐng)域詞條的結(jié)構(gòu)特點(diǎn),本文提出利用結(jié)構(gòu)特點(diǎn)自動(dòng)獲 取特定結(jié)構(gòu)的領(lǐng)域命名實(shí)體和層次結(jié)構(gòu)。首先,我們利用維基百科的結(jié)構(gòu)特點(diǎn) 抽取候選領(lǐng)域命名實(shí)體,并利用條件隨機(jī)場(chǎng)抽取剩余實(shí)體;其次,利用維基百 科的層次結(jié)構(gòu)構(gòu)建層次結(jié)構(gòu);然后,使用模式對(duì)層次結(jié)構(gòu)中的實(shí)體對(duì)進(jìn)行驗(yàn) 證,并利用模式匹配已獲取的候選實(shí)體對(duì)來(lái)補(bǔ)充層次結(jié)構(gòu);最后,使用特征和 支持向量機(jī)相結(jié)合獲取剩余語(yǔ)料中的領(lǐng)域命名實(shí)體上下位關(guān)系對(duì),并添加到層 次結(jié)構(gòu)中對(duì)其進(jìn)行補(bǔ)充。關(guān)鍵詞:條件隨機(jī)場(chǎng);模式匹配;支持向量機(jī)中圖分類號(hào):tp391.1 文獻(xiàn)標(biāo)識(shí)碼:a 文章編號(hào): 1006-4311( 2016) 18-0160-040引言由
2、于維基百科頁(yè)面有著良好的結(jié)構(gòu)和可信度,有全面準(zhǔn)確的信息,由網(wǎng)友 共同完成 1,內(nèi)容包括地理、社會(huì)、科學(xué)、歷史及教育等多個(gè)領(lǐng)域,由多種語(yǔ) 言編寫,所以無(wú)論在國(guó)內(nèi)還是國(guó)外,它一直被當(dāng)做信息抽取、知識(shí)庫(kù)和知識(shí)圖 譜構(gòu)建的重要數(shù)據(jù)來(lái)源。并且專家曾針對(duì)維基百科和大英百科全書(shū)做了 42 項(xiàng)比 較測(cè)試 1,發(fā)現(xiàn)維基百科僅有 4處不準(zhǔn)確的地方,而大英百科全書(shū)也出現(xiàn)了 3 處不準(zhǔn)確的地方 2,所以維基百科的質(zhì)量很有保障。在自然語(yǔ)言處理領(lǐng)域,它 有很多應(yīng)用,如:實(shí)體消歧,實(shí)體識(shí)別和關(guān)系抽取等。下面我們針對(duì)維基百科在關(guān)系抽取領(lǐng) 域的應(yīng)用和處理方法,基于中文和英文兩方面進(jìn)行介紹。在中文方面,李斌等人 6先利用維基百科
3、中的超鏈接進(jìn)行實(shí)體識(shí)別,然后 用向量空間模型表示實(shí)體的特征,最后計(jì)算待測(cè)實(shí)體對(duì)與訓(xùn)練實(shí)體對(duì)的相似度1/ 6 得到待測(cè)實(shí)體對(duì)的類別。張葦如等人 7使用知網(wǎng)到維基百科的實(shí)體映射來(lái)抽取 關(guān)系實(shí)例,然后在顯著性和關(guān)鍵詞假設(shè)的基礎(chǔ)上,基于關(guān)鍵詞選擇、關(guān)鍵詞過(guò) 濾和編輯距離的泛化構(gòu)建模式,并利用模式聚類提升抽取性能。針對(duì)以上研究的優(yōu)缺點(diǎn),本文將利用維基百科中超鏈接和領(lǐng)域命名實(shí)體結(jié) 構(gòu)特征進(jìn)行實(shí)體識(shí)別,并基于層次結(jié)構(gòu)進(jìn)行上下位關(guān)系抽取。1 領(lǐng)域命名實(shí)體抽取1.1 抽取頁(yè)面中的領(lǐng)域命名實(shí)體通過(guò)觀察維基百科的 l 頁(yè)面我們發(fā)現(xiàn): 通常內(nèi)部鏈接和外部鏈接中的名詞短語(yǔ)都是一個(gè)領(lǐng)域命名實(shí)體,并且根 據(jù) l 頁(yè)面源代碼
4、的語(yǔ)法我們可以直接抽取這些名詞短語(yǔ)(如圖 1 所示,藍(lán)色和紅 色的都是詞條,可以作為領(lǐng)域命名實(shí)體); 分類( category)框中名詞短語(yǔ) 通常也是領(lǐng)域命名實(shí)體,我們同樣抽取這些名詞短語(yǔ); 通過(guò)觀察研究我們可 以看出:特別是針對(duì)旅游領(lǐng)域,當(dāng)一個(gè)無(wú)序列表下面的內(nèi)容的形式是每行只有一個(gè) 名詞短語(yǔ)的時(shí)候(如圖 2 所示),這個(gè)名詞短語(yǔ)往往是一個(gè)領(lǐng)域命名實(shí)體,我 們可以在 l 中通過(guò)源代碼的特殊縮進(jìn)抽取這類名詞短語(yǔ)。以上獲取的名詞短語(yǔ), 我們都將它當(dāng)做候選領(lǐng)域命名實(shí)體。1.2 利用 crf 抽取頁(yè)面中的領(lǐng)域命名實(shí)體我們利用已獲取的領(lǐng)域命名實(shí)體,對(duì)包含待識(shí)別領(lǐng)域命名實(shí)體的句子進(jìn)行 標(biāo)注,并使用 crf
5、 對(duì)剩余語(yǔ)料中的領(lǐng)域命名實(shí)體進(jìn)行識(shí)別,識(shí)別方法和文獻(xiàn) 8 中 一樣,本文不再贅述。2 構(gòu)建并完善層次結(jié)構(gòu)中的上下位關(guān)系實(shí)體對(duì)2.1 構(gòu)建層次結(jié)構(gòu)在 2.1 中我們提到,構(gòu)建的層次結(jié)構(gòu)中很多實(shí)體對(duì)不具有 上下位關(guān)系,為了過(guò)濾掉這些非上下位關(guān)系,我們先在當(dāng)前頁(yè)面對(duì)每個(gè)實(shí)體對(duì) 進(jìn)行搜索,并對(duì)返回的結(jié)果進(jìn)行模式匹配。2/ 6如果匹配不成功,則在搜索引擎中搜索,并對(duì)搜索結(jié)果進(jìn)行模式匹配。如 果實(shí)體對(duì)模式匹配成功,我們將保留這對(duì)實(shí)體對(duì)。如果實(shí)體對(duì)模式匹配失敗, 我們將過(guò)濾掉這對(duì)實(shí)體對(duì)。此處用到的模式利用 bootstrapping 方法獲取,如表 1所示。其中,輸入的種子集是具有上下位關(guān)系的實(shí)體對(duì)。2.3
6、 擴(kuò)充層次結(jié)構(gòu)對(duì) 1.1 和1.2 中得到的實(shí)體對(duì),我們同樣先在當(dāng)前實(shí)體對(duì)所在的維基百科頁(yè)面搜索, 并對(duì)返回的結(jié)果進(jìn)行模式匹配。如果模式匹配不成功,我們?cè)谒阉饕嬷兴?索,并對(duì)返回的結(jié)果進(jìn)行模式匹配。如果模式匹配成功,我們利用當(dāng)前的實(shí)體 對(duì)對(duì)當(dāng)前層次結(jié)構(gòu)進(jìn)行擴(kuò)充。如果模式匹配不成功,我們將不考慮這對(duì)實(shí)體 對(duì)。3 利用支持向量機(jī)完善上下位關(guān)系本文將領(lǐng)域命名實(shí)體間的關(guān)系分為兩類:上下位關(guān)系和其他關(guān)系。本文選取一些能識(shí)別出實(shí)體對(duì)間上下位關(guān)系的特 征集,將其和實(shí)體對(duì)的類別組成特征向量,并把這些特征向量轉(zhuǎn)變成svm 能識(shí)別的數(shù)值特征向量。我們所爬取的語(yǔ)料一部分作為訓(xùn)練數(shù)據(jù),一部分作為測(cè)試 數(shù)據(jù),把訓(xùn)練數(shù)
7、據(jù)輸入 svm 得到上下位關(guān)系實(shí)體對(duì)識(shí)別模型,然后把測(cè)試數(shù)據(jù) 輸入基于 svm 的上下位關(guān)系實(shí)體對(duì)識(shí)別模型,從而驗(yàn)證本文得到的上下位關(guān)系 實(shí)體對(duì)識(shí)別模型的識(shí)別效果。本文使用基于特征向量的方法來(lái)進(jìn)行分類,所以特征的選擇直接關(guān)系著分 類的結(jié)果。下面將對(duì)需要用到的特征進(jìn)行說(shuō)明。需要驗(yàn)證關(guān)系的兩個(gè)實(shí)體對(duì)稱為一個(gè)實(shí)例,實(shí)體又稱為變?cè)?。我們?e1 和 e2表示關(guān)系中的兩個(gè)變?cè)?he1和 he2表示 e1和 e2的中心詞。3.1 詞特征選取和規(guī)則標(biāo)記通過(guò)對(duì)漢語(yǔ)的了解可知,當(dāng)我們研究?jī)蓚€(gè)實(shí)體間的關(guān)系時(shí),往往實(shí)體的語(yǔ) 境(上下文信息,也就是在實(shí)體前后的詞語(yǔ))能幫助我們判斷實(shí)體關(guān)系。因 此,我們把這些信息抽
8、取出來(lái)作為其中一個(gè)特征。根據(jù)他們的位置,我們可以 把這類特征分為 4 種:3/ 6e1 和 e2之間沒(méi)有詞語(yǔ), e1 和 e2之間的詞語(yǔ), e1 前面的詞語(yǔ), e2 后面的詞語(yǔ)。另外,實(shí)體的中心詞能表達(dá)更重要的信息,所以一般也將中 心詞作為特征。下面我們舉例說(shuō)明本文標(biāo)注,以 “普米族是瀘沽湖的世居民族 ” 為例,其中實(shí)體為 “普米族 ”和“瀘沽湖”,特征標(biāo)記規(guī)則如表 2 所示。3.2 詞性特征選取和規(guī)則標(biāo)記 只加入詞特征的話,在特征分析的時(shí)候只能分析出相同的詞的同類關(guān)系, 而不能分析出同類詞性的詞的同類關(guān)系,所以我們還要加入詞性特征對(duì)訓(xùn)練語(yǔ) 料進(jìn)行分析。例句的詞性標(biāo)注為:普米族 /nz 是/v
9、 瀘沽湖/ns 的/u 世/n 居/v 民族/n 。詞性特征標(biāo)記規(guī)則如表 3 所示。3.3 知網(wǎng)概念特征選取和規(guī)則標(biāo)記 利用知網(wǎng)可以得到詞語(yǔ)在知網(wǎng)中對(duì)應(yīng)的概念,可以把對(duì)應(yīng)的概念描述當(dāng)做 在知網(wǎng)中的概念信息特征返回值。知網(wǎng)中概念信息特征返回值如表4 所示。4 實(shí)驗(yàn)與分析4.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理本文使用實(shí)驗(yàn)室自主開(kāi)發(fā)的網(wǎng)絡(luò)爬蟲(chóng),對(duì)維基百科中旅游相關(guān)詞條進(jìn)行爬 取,本文使用爬取的 984 個(gè)詞條的語(yǔ)料進(jìn)行實(shí)驗(yàn)分析。其中的總實(shí)體對(duì)的數(shù)量 的劃分標(biāo)準(zhǔn)是把一個(gè)句子中的每?jī)蓚€(gè)實(shí)體當(dāng)做一個(gè)實(shí)體對(duì)進(jìn)行試驗(yàn)分析。另 外,我們將語(yǔ)料分為兩部分,其中當(dāng)作訓(xùn)練語(yǔ)料,剩下的當(dāng)做測(cè)試語(yǔ)料。本文實(shí)驗(yàn)使用 libsvm 工具包
10、,實(shí)驗(yàn)步驟如下:第一步:從維基百科爬取旅游領(lǐng)域詞條的 l 頁(yè)面作為語(yǔ)料;第二步:通過(guò)分析 l 頁(yè)面獲取候選領(lǐng)域命名實(shí)體,并使用條件隨機(jī)場(chǎng)抽取剩余語(yǔ)料中 的領(lǐng)域命名實(shí)體;第三步:通過(guò)分析 l 頁(yè)面獲取實(shí)體對(duì)的層次結(jié)構(gòu);第四步:4/ 6利用模式對(duì)已有層次結(jié)構(gòu)進(jìn)行驗(yàn)證,并利用模式匹配候選領(lǐng)域命名實(shí)體, 在層次結(jié)構(gòu)中添加模式匹配成功的實(shí)體對(duì);第五步:使用支持向量機(jī)抽取剩余語(yǔ)料中的實(shí)體上下位關(guān)系。4.2 評(píng)價(jià)標(biāo)準(zhǔn)為了評(píng)估本文所用方法的效果,用準(zhǔn)確率( p),召回率( r)和 f 值來(lái)評(píng)估 領(lǐng)域上下位關(guān)系實(shí)體對(duì)的抽取結(jié)果。 a 代表所用方法正確識(shí)別的具有上下位關(guān)系 的領(lǐng)域命名實(shí)體對(duì)的總數(shù), b 代表所用方
11、法標(biāo)注為具有上下位關(guān)系的領(lǐng)域命名實(shí) 體對(duì)總數(shù)目, c 代表語(yǔ)料庫(kù)中具有上下位關(guān)系的領(lǐng)域命名實(shí)體對(duì)的總數(shù)。p= 100%(1)r= 100%(2)f= 100%(3)根據(jù)以往經(jīng)驗(yàn)發(fā)現(xiàn),當(dāng)用不同語(yǔ)料進(jìn)行訓(xùn)練和測(cè)試的時(shí)候,實(shí)驗(yàn)結(jié)果會(huì)有 不同。為了使實(shí)驗(yàn)結(jié)果更有代表性,本文隨機(jī)分配訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行 20 次試驗(yàn),取其平均值作為實(shí)驗(yàn)結(jié)果。4.3 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析為了驗(yàn)證本文提出的基于維基百科抽取領(lǐng)域命名實(shí)體和具有上下位關(guān)系領(lǐng) 域命名實(shí)體對(duì)的方法的效果,我們?cè)O(shè)計(jì)了 2 組實(shí)驗(yàn)對(duì)本文中每個(gè)方法進(jìn)行驗(yàn) 證。實(shí)驗(yàn)一是對(duì)本文提出的半結(jié)構(gòu)化文本中抽取領(lǐng)域命名實(shí)體的方法的結(jié)果展 示和對(duì)比。實(shí)驗(yàn)二是對(duì)抽取具有上
12、下位關(guān)系的領(lǐng)域命名實(shí)體對(duì)的實(shí)驗(yàn)結(jié)果進(jìn)行 對(duì)比。實(shí)驗(yàn)一:5/ 6為了驗(yàn)證領(lǐng)域命名實(shí)體的抽取效果,我們先利用1.1 中提到的領(lǐng)域命名實(shí)體的結(jié)構(gòu)特征進(jìn)行領(lǐng)域命名實(shí)體抽取,然后使用1.2 中提到的構(gòu)建條件隨機(jī)場(chǎng)領(lǐng)域命名實(shí)體抽取模型對(duì)領(lǐng)域命名實(shí)體進(jìn)行抽 取。抽取結(jié)果如表 5 所示。表 5 展示了領(lǐng)域命名實(shí)體的抽取結(jié)果。從上面的實(shí)驗(yàn)結(jié)果我們可以看出, 利用維基百科的結(jié)構(gòu)信息能很好的抽取頁(yè)面中的領(lǐng)域命名實(shí)體,利用條件隨機(jī) 場(chǎng)領(lǐng)域命名實(shí)體抽取的方法能幫助抽取剩余語(yǔ)料中的領(lǐng)域命名實(shí)體。實(shí)驗(yàn)二:為了驗(yàn)證領(lǐng)域命名實(shí)體上下位關(guān)系實(shí)體對(duì)的抽取效果,我們先使用2.1 中的方法抽取層次結(jié)構(gòu)中的實(shí)體對(duì),然后利用模式匹配的方法過(guò)濾層次 結(jié)構(gòu)中的實(shí)體對(duì)并抽取剩余語(yǔ)料中的上下位關(guān)系領(lǐng)域命名實(shí)體對(duì),最后我們用 支持向量機(jī)領(lǐng)域命名實(shí)體上下位關(guān)系抽取模型抽取剩余句子中的上下位關(guān)系領(lǐng) 域命名實(shí)體對(duì)。實(shí)驗(yàn)結(jié)果如表 6 所示。表 6 展示了上下位關(guān)系領(lǐng)域命名實(shí)體對(duì)的抽取結(jié)果。實(shí)驗(yàn)結(jié)果表明,利用 維基百科的結(jié)構(gòu)信息可以幫助層次結(jié)構(gòu)的初步構(gòu)建,基于模式匹配的過(guò)濾和補(bǔ) 充能幫助更好的識(shí)別上下位關(guān)系實(shí)體對(duì),利用特征和支持向量機(jī)相結(jié)合的方法 能更好的抽取剩余語(yǔ)料中的上下位關(guān)系實(shí)體對(duì)。5 總結(jié)本文為了利用現(xiàn)有資源更有效的抽取維基百科半結(jié)構(gòu)化文本中的領(lǐng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人房產(chǎn)測(cè)繪服務(wù)合同標(biāo)準(zhǔn)范本
- 2025年個(gè)人貨運(yùn)車輛運(yùn)輸服務(wù)合同范本下載2篇
- 2025公路工程技術(shù)服務(wù)合同
- 2025合同模板公司股權(quán)分配原則范本
- 2025合同模板客戶名簿處理制度范本
- 二零二五年度出租車公司車輛保險(xiǎn)合同7篇
- 2025印刷品合同樣本范文
- 2025年度車間生產(chǎn)責(zé)任承包合同(含技術(shù)創(chuàng)新)規(guī)范范本4篇
- 2025工廠租房合同
- 2025年度別墅交易合同書(shū)(附庭院景觀設(shè)計(jì))3篇
- 三年級(jí)數(shù)學(xué)(上)計(jì)算題專項(xiàng)練習(xí)附答案
- 中醫(yī)診療方案腎病科
- 2025年安慶港華燃?xì)庀薰菊衅腹ぷ魅藛T14人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 人教版(2025新版)七年級(jí)下冊(cè)數(shù)學(xué)第七章 相交線與平行線 單元測(cè)試卷(含答案)
- 玩具有害物質(zhì)風(fēng)險(xiǎn)評(píng)估-洞察分析
- 2024年河南省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 企業(yè)合規(guī)管理實(shí)務(wù)
- T-CHSA 020-2023 上頜骨缺損手術(shù)功能修復(fù)重建的專家共識(shí)
- Hypermesh lsdyna轉(zhuǎn)動(dòng)副連接課件完整版
- 小學(xué)六年級(jí)數(shù)學(xué)計(jì)算題100道(含答案)
評(píng)論
0/150
提交評(píng)論