知識圖譜構建方法研究_第1頁
知識圖譜構建方法研究_第2頁
知識圖譜構建方法研究_第3頁
知識圖譜構建方法研究_第4頁
知識圖譜構建方法研究_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于多數(shù)據(jù)源的知識圖譜構建方法研究摘要:針對多數(shù)據(jù)源的融合應用,構建了基于多數(shù)據(jù)源的知識圖譜。首先,對不同領域內的數(shù)據(jù)源構建相應本體庫,并將不同本體庫通過數(shù)據(jù)融合映射到全局本體庫,然后,利用實體對齊和實體鏈接方法進行知識獲取和融合,最后,搭建知識圖譜應用平臺,提供查詢和統(tǒng)計等操作。在實體對齊方面,利用傳統(tǒng)的基于相似性傳播實體對齊方法,獲得良好的實體對齊效果;在實體鏈接方面,提出了基于約束嵌入轉換的預測推理方法,實驗結果表明,在預測準確率上取得較好的結果。0 引言在大數(shù)據(jù)時代背景下,隨著海量數(shù)據(jù)的出現(xiàn)以及多數(shù)據(jù)源融合交叉應用,傳統(tǒng)的數(shù)據(jù)管理模式以及查詢方式受到一定的制約。近年來,知識圖譜(Kno

2、wledge Graph)1作為一種新的知識表示方法和數(shù)據(jù)管理模式,在自然語言處理、問題回答、信息檢索等領域有著重要的應用。知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系;其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互聯(lián)結,構成網(wǎng)狀的知識結構2。隨著谷歌知識圖譜的發(fā)布,知識圖譜的構建與應用研究引起了學術界和工業(yè)界的廣泛關注。在國內,知識圖譜的構建與研究已經(jīng)起步,相應取得許多重要的研究成果。如:搜狗的知立方、百度知心;復旦大學GDM實驗室設計了一種面向圖書閱讀領域的中文知識圖譜3;金貴陽等4利用知識圖譜和語義網(wǎng)技術,提出構

3、建企業(yè)知識圖譜的方法,并應用于鋼鐵企業(yè)信息集成,提高了企業(yè)信息查詢的效率;胡芳槐5在博士論文中研究了基于多數(shù)據(jù)源的中文知識圖譜構建方法,涉及到本體層構建、實體層的學習等,同時構建行業(yè)領域知識圖譜的應用平臺;王巍巍等6構建了雙語影視知識圖譜,包括影視本體庫的構建、實體的鏈接、實體匹配等,并搭建了應用平臺與開放數(shù)據(jù)訪問接口;鄂世嘉等7提出了一種端到端基于中文百科數(shù)據(jù)的中文知識圖譜自動化構建方案,并開發(fā)面向用戶的中文知識圖譜系統(tǒng)?,F(xiàn)有的行業(yè)領域知識圖譜通常采用手工構建方式,缺乏統(tǒng)一的構建方法,且這類知識庫目標是特定行業(yè)領域,因此,其描述范圍極為有限。針對這些問題,提出了將不同領域知識庫進行融合成一個

4、知識圖譜,旨在構建語義一致、結構一致的多數(shù)據(jù)融合知識圖譜,實現(xiàn)對不同領域內的知識進行查詢和展示,從而提高了數(shù)據(jù)查詢效率。本文提出一個多數(shù)據(jù)源融合的知識圖譜構建流程,并對關鍵技術進行研究,包括數(shù)據(jù)源的獲取、領域本體庫的構建、全局本體庫的構建、實體對齊、實體鏈接以及應用平臺的搭建。文中利用某地區(qū)的醫(yī)院醫(yī)療保健數(shù)據(jù)、空氣污染監(jiān)測數(shù)據(jù)和環(huán)境監(jiān)測數(shù)據(jù),構建了多數(shù)據(jù)融合的知識圖譜。1 知識圖譜構建過程知識圖譜構建是知識圖譜得以應用發(fā)展的前提,涉及實體抽取和實體及實體之間關系的建立,同時還需要很好地組織和存儲抽取的實體與關系信息,使其能夠被迅速的訪問和操作8。知識圖譜構建過程通??梢苑殖蓛刹剑褐R圖譜本體層

5、構建和實體層的學習5。本體層構建通常包含術語抽取、同義詞抽取、概念抽取、分類關系抽取、公理和規(guī)則學習;實體層學習則包含實體學習、實體數(shù)據(jù)填充、實體對齊和實體鏈接等。知識圖譜的構建方法通常有自頂向下和自底向上兩種2。所謂自頂向下的方法是指先構建知識圖譜的本體,即從行業(yè)領域、百科類網(wǎng)站及其它等高質量的數(shù)據(jù)源中,提取本體和模式信息,添加到知識庫中;而自底向上的方法是指從實體層開始,借助于一定的技術手段,對實體進行歸納組織、實體對齊和實體鏈接等,并提取出具有較高置信度的新模式,經(jīng)人工審核后,加入到知識圖譜中。然而,在實際的構建過程中,并不是兩種方法孤立單獨進行著,而是兩種方法交替結合的過程。本文在構建

6、多數(shù)據(jù)源的知識圖譜時采用兩種方法的結合,首先采用自頂向下的方式來構建本體庫,然后采用自底向上的方式進行提取知識來擴展知識圖譜。圖1 多數(shù)據(jù)融合的知識圖譜構建過程Fig.1 Knowledge graph based data fusion model本文基于多種數(shù)據(jù)源的融合技術,構建相應的知識圖譜,具體過程如圖1所示。圖1中是從多種不同的數(shù)據(jù)源,如各個領域中的結構化、半結構化和非結構化數(shù)據(jù),構建相應的領域本體庫,然后將它們映射為全局本體庫,接著對這些領域知識圖譜通過知識獲取和數(shù)據(jù)融合構造知識圖譜,最后通過搭建相應的應用平臺,方便對知識圖譜進行查詢與更新。2 多數(shù)據(jù)源融合的知識圖譜構建為了能充分

7、利用不同領域內的知識,實現(xiàn)不同領域內數(shù)據(jù)快速查詢,本文在融合多種數(shù)據(jù)源的情況下,構建了多數(shù)據(jù)源的知識圖譜。首先對不同領域內構建不同領域的本體庫,然后將不同領域的本體經(jīng)過映射成全局本體庫,接著對各個領域的知識庫進行實體對齊和實體鏈接,豐富和拓展所構造多數(shù)據(jù)融合的知識圖譜。2.1數(shù)據(jù)源用于構建知識圖譜的本體庫數(shù)據(jù)源可以來源于結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),以及現(xiàn)有的一些通用知識圖譜庫等。本文用于構建本體庫的數(shù)據(jù)源如表1所示。1)結構化數(shù)據(jù)。其主要是指關系數(shù)據(jù)庫中的表、excel表以及其它具有結構的數(shù)據(jù)。2)半結構化數(shù)據(jù)。其主要指介于結構化數(shù)據(jù)和無結構化數(shù)據(jù)之間,通常的XML、HTML等相關

8、網(wǎng)頁屬于半結構化數(shù)據(jù)。半結構化數(shù)據(jù)主要來源于維基百科、百度百科等。3)無結構化數(shù)據(jù)。其主要指純文本資料、圖像和聲音等數(shù)據(jù)。2.2本體庫構建本體(ontology)是對概念進行建模的規(guī)范,是描述客觀世界的抽象模型,以形式化方式對概念及其之間的聯(lián)系給出明確的定義2。本體定義了知識圖譜中的數(shù)據(jù)模式,因而,本體構建研究的成果能在很大程度上輔助知識圖譜的構建5。針對不同的應用領域和不同的需求,本體構建的方法也有所不同。本文利用OWL(Web Ontology Language)從多種數(shù)據(jù)源中構建相應的領域本體庫,然后通過映射成全局本體庫。1)領域本體庫構建本文領域本體庫構建其主要數(shù)據(jù)源是來自于環(huán)境監(jiān)測數(shù)

9、據(jù)庫、空氣污染檢測數(shù)據(jù)庫和醫(yī)療健保數(shù)據(jù)庫。除此之外,也利用相關領域的網(wǎng)站數(shù)據(jù)等。下面重點介紹從關系數(shù)據(jù)庫中獲取領域本體庫的過程,如圖2所示。首先,領域內的關系數(shù)據(jù)庫是針對特定領域而創(chuàng)建的,該數(shù)據(jù)庫包含了領域內的表達方法和具體應用的詳細信息,因此,可以從領域的關系數(shù)據(jù)庫中抽取出關系模式,分析關系數(shù)據(jù)庫中表的信息和字段信息,建立相應的概念模型。其次,由于關系模式包括表與字段之間的關系,以及表與表之間的聯(lián)系,而本體庫則是包括概念與概念之間的關系、概念與屬性間的聯(lián)系。因此,要利用一定的規(guī)則將關系模式映射為本體模型。本文設計了一系列轉換規(guī)則,如:將關系模式中的表名轉換為本體中的概念名;表與表間的關系轉換

10、為本體中的概念與概念的關系;將關系模式中的字段名轉換為本體的屬性名等。通過上述的轉換規(guī)則,可以獲得領域本體模型。最后,對領域本體模型進行評估和校驗。該部分重點是對所構造的領域本體模型進行檢驗,查看是否滿足本體庫的構建原則,本體模型中的術語是否正確,本體模型中的概念及其關系是否完整等。通過對本體模型評估后,可以建立領域內的本體庫。關系數(shù)據(jù)庫可具有完整的數(shù)據(jù)模式,包含完整的表結構和完整性約束條件。因此可以將數(shù)據(jù)庫中的關系名轉換為本體中的概念,部分字段名轉換為本體中的屬性,示例如下:將字段名轉換為屬性名的OWL語言:.將關系名轉換為本體概念的OWL語言:.另外,為了擴充和完善領域本體庫,需要對非關系

11、型的數(shù)據(jù)進行采集和填充。本文對行業(yè)領域內的半結構化數(shù)據(jù)進行結構化處理,對相應百科網(wǎng)站通過網(wǎng)頁爬蟲技術獲取相應的知識,并將半結構化數(shù)據(jù)轉換成結構化數(shù)據(jù),最后利用上述關系數(shù)據(jù)轉換成本體的規(guī)則進行轉換。2)全局本體庫構建為了能便于構建多數(shù)據(jù)融合的知識圖譜,需要將多個領域內的本體庫進行融合,構建全局本體庫。其過程如圖3所示。在上述構建的領域本體庫基礎上,通過相似性檢測和沖突解決等規(guī)則,將多個領域的本體庫融合在一起組成了全局本體庫。其步驟如下:首先,由于不同領域內的本體庫進行知識融合,對存在著一些相同或相似的概念和屬性等,采用了相似性檢測規(guī)則對這些不同領域內的本體進行檢測。如:語義相似性檢測、概念相似性

12、檢測、屬性相似性檢測、數(shù)據(jù)格式相似性檢測等。通過這些相似性檢測后,能將不同領域內的相同或相似本體進行統(tǒng)一,但并不能解決它們之間的沖突。圖2 從關系數(shù)據(jù)中構造領域本體庫過程Fig.2 The structure of ontology construction from relational database圖3 全局本體庫構建過程Fig.3 The process of global ontology construction 其次,采用沖突解決規(guī)則對上面存在著相似概念或屬性等進行解決。通過沖突解決規(guī)則可以消除概念的歧義,剔除冗余和錯誤概念,從而保證全局本體庫的質量。主要是對上述中存在著相近或

13、相似的概念或屬性進行消除,使其達到統(tǒng)一,并合并為全局本體。最后,將剩余的領域本體經(jīng)過沖突解決和實體消岐等處理,映射到全局本體庫,與上面經(jīng)過處理后各個領域本體庫相結合,從而實現(xiàn)全局本體的構建。2.3實體對齊實體對齊(entity alignment)9也稱為實體匹配或實體解析,是判斷相同或不同數(shù)據(jù)集中的2個實體是否指向真實世界同一對象的過程。實體對齊目的是:發(fā)現(xiàn)在不同知識庫中具有不同實體名稱,但卻代表著現(xiàn)實世界中同一事物的實體,將這些實體進行合并,且用具有唯一標識對該實體進行標識,最后將該實體添加到相應的知識圖譜中。針對不同知識庫的實體對齊過程如圖4所示9。即在給定不同的知識庫,通過先驗對齊數(shù)據(jù)

14、以及調整參數(shù)和相關外部資料的作用下,進行實體匹配的算法計算,最終得到實體間的對齊結果。雖然在構建全局本體庫時,針對不同領域內本體庫的實體做了實體消岐處理,然而,這里的實體對齊是為了豐富和拓展知識圖譜,從現(xiàn)有的通用知識圖譜及其相關的資料中,利用實體對齊方法,提取實體及實體間的關系來填充知識圖譜?,F(xiàn)階段有關實體對齊的算法較多9, 10,常用的有:基于傳統(tǒng)概率模型的實體對齊方法、基于機器學習的實體對齊方法、基于相似性傳播實體對齊方法、基于LDA模型的實體對齊方法、基于CRF模型的實體對齊方法、基于Markov邏輯網(wǎng)的實體對齊方法等。圖4 不同知識庫實體對齊過程Fig.4 Process of ent

15、ity alignment of different knowledge bases 本文采用基于相似性傳播實體對齊方法9-11,該算法將實體對齊問題看成是一個全局匹配評分目標函數(shù)的優(yōu)化問題進行建模,屬于二元分類問題,可通過貪婪優(yōu)化算法求得其近似解10?;具^程如下:(1)對于開放鏈接數(shù)據(jù)及行業(yè)領域的百科數(shù)據(jù)中實體,進行提取得到了實體的同義名稱集合;(2)通過實體對齊的方法,將這些實體與上述構建的知識圖譜中的實體進行匹配,把結果作為實體合并的候選實體集;(3)將這些候選實體集中的實體,通過比對它們的上層概念,如果具有相同的上層概念,則將它們合并為一個實體。2.4實體鏈接實體鏈接(entity

16、linking)12, 13是指對于從文本中抽取得到的實體對象,將其鏈接到知識圖譜中對應的正確實體對象的操作14。而實體鏈接預測是指在給定的知識圖譜中,預測出缺失的實體間的關系,從而豐富和拓展知識圖譜。其基本思想是首先根據(jù)給定三元組的頭(尾)實體和關系,從知識圖譜中或其它相關文本數(shù)據(jù),選出一組候選實體對象,然后通過實體鏈接預測算法,計算出正確的尾(頭)實體,并將得到的三元組添加到相應的知識圖譜中?,F(xiàn)階段有關知識圖譜實體鏈接預測算法較多8, 15-17。常用的有:基于向量嵌入轉換算法、基于張量分解算法、基于路徑推理算法、結合文本推理算法等。在前期工作研究基礎上8,提出了基于約束向量嵌入轉換算法,

17、獲得較好的實體鏈接預測結果,算法流程圖如圖5所示。其基本思想是:將知識圖譜中的實體和關系,通過嵌入(embedding)方式投影到低維向量空間,并在向量空間中通過向量平移轉換操作,計算頭、尾實體及關系在向量空間中的損失函數(shù)值,實現(xiàn)頭尾實體的關系鏈接。而基于約束嵌入轉換算法,是在原有向量嵌入轉換算法的基礎上18,增加了關系語義約束條件,使得所預測出實體間的關系要滿足關系的語義類型。如:對于關系“出生于”,其頭實體通常是人或動物,而尾實體通常是時間或地點。圖5 基于約束向量嵌入轉換算法流程圖Fig.5 The figure of embedding translation based on con

18、straint4結論本文提出一種基于多數(shù)據(jù)融合的知識圖譜構建過程,并對整個過程中所涉及的方法加以描述,旨在構建語義一致、結構一致的多數(shù)據(jù)融合知識圖譜。首先通過構建不同領域內的本體庫,將不同領域的本體庫,通過數(shù)據(jù)融合和映射技術構建全局本體庫,實現(xiàn)各種數(shù)據(jù)源語義關系一致的知識圖譜。在實體對齊方面,提出了基于相似性傳播實體對齊方法,獲得良好的實體對齊效果;在實體鏈接方面,基于前期研究工作基礎上,提出了基于約束嵌入轉換的預測推理方法。參考文獻:1Pujara J, Miao H, Getoor L, et al. Knowledge Graph IdentificationC. Internation

19、al Semantic Web Conference. Springer Berlin Heidelberg, 2013: 542-557.2劉嶠, 李楊, 段宏, 等. 知識圖譜構建技術綜述J. 計算機研究與發(fā)展, 2016, 53(3): 582-600.3肖仰華, 張可尊, 汪衛(wèi). 一種面向圖書的閱讀領域知識圖譜構建方法: 中國, CN103488724A P. 2014.01.01.4金貴陽, 呂福在, 項占琴. 基于知識圖譜和語義網(wǎng)技術的企業(yè)信息集成方法J. 東南大學學報(自然科學版), 2014, 44(2): 250-255.5胡芳槐. 基于多種數(shù)據(jù)源的中文知識圖譜構建方法研究D

20、. 上海: 華東理工大學, 2015.6王巍巍, 王志剛, 潘亮銘, 等. 雙語影視知識圖譜的構建研究J. 北京大學學報(自然科學版), 2016, 52(1): 25-34.7鄂世嘉, 林培裕, 向陽. 自動化構建的中文知識圖譜系統(tǒng)J. 計算機應用, 2016, 36(4): 992-996.8吳運兵, 楊帆, 賴國華, 等. 知識圖譜學習和推理研究進展J. 小型微型計算機系統(tǒng), 2016, 37(9): 2007-2013.9莊嚴,李國良,馮建華. 知識庫實體對齊技術綜述J. 計算機研究與發(fā)展, 2016, 53(1): 165-192.10徐增林, 盛泳潘, 賀麗榮, 等. 知識圖譜技術

21、綜述J. 電子科技大學學報, 2016, 45(4): 589-606.11Lacoste-Julien S, Palla K, Davies A, et al. SIGMa: simple greedy matching for aligning large knowledge basesC. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. New York. ACM, 2013: 572-580.12劉嶠, 鐘云, 李楊, 等. 基于圖的中文集成實體鏈接算法J. 計算機研究與發(fā)展, 2016, 53(2): 270-283.13Shen W, Wang J, Han J. Entity linking with a knowledge base: Issues, techniques, and solutionsJ. Knowledge and Data Engineering&IEEE Transactions on, 2015, 27(2): 443-460.14Li Y,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論