下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1):垂直知識圖譜的構(gòu)建與應(yīng)研究章錄基本信息題:垂直知識圖譜的構(gòu)建與應(yīng)研究作者:阮彤 王夢婕 王昊奮 胡芳槐關(guān)鍵詞:知識獲取、知識融合、語義搜索、輔助開、關(guān)系發(fā)現(xiàn)DOI:10.13266/j.issn.2095-5472.2016.027引:阮彤,王夢婕,王昊奮,等垂直知識圖譜的構(gòu)建與應(yīng)研究J/OL.知識管理論壇,2016,1(3): 226-234摘要:的/意義:提出構(gòu)建法:數(shù)據(jù)驅(qū)動的增量式知識圖譜;構(gòu)建垂直知識圖譜法/過程:知識圖譜的形式化定義提出構(gòu)建法研究構(gòu)建的細(xì)節(jié)與難點(diǎn)結(jié)果/結(jié)論:本法具有可性名詞記錄:名詞開放鏈接數(shù)據(jù)戶成內(nèi)容信息框Relational Database to RDFW
2、rapperD2RRDF封裝器遠(yuǎn)程監(jiān)督Distant SupervisionResource Definition Framework資源描述框架、引本篇是我涉及知識圖譜領(lǐng)域的第篇獻(xiàn),在原來之前對知識圖譜沒有任何了解。閱讀之后發(fā)現(xiàn)本篇確實(shí)適合初學(xué)者。先告訴我們什么是知識圖譜:種描述真實(shí)世界客觀存在的實(shí)體、概念及它們之間的關(guān)聯(lián)關(guān)系的語義絡(luò)。(歌提出來的)知識圖譜的分類:通知識圖譜:不向特定領(lǐng)域,強(qiáng)調(diào)知識的度垂直知識圖譜(業(yè)知識圖譜),向特定領(lǐng)域,基于業(yè)數(shù)據(jù)構(gòu)建,強(qiáng)調(diào)知識的深度兩類知識圖譜的構(gòu)建現(xiàn)狀:通知識圖譜:相對成熟,如歌知識圖譜、百度“ 知”、搜狗“ 知” 等商知識圖譜垂直知識圖譜:構(gòu)建,缺
3、乏統(tǒng)的構(gòu)建法第章引部分思維導(dǎo)圖如下:、知識圖譜的形式化定義知識圖譜G = 模式圖Gs + 數(shù)據(jù)圖Gd + 者關(guān)系R,即G=。模式圖Gs = Ns 類結(jié)點(diǎn)集合,即知識圖譜中的概念Es 屬性邊集合 ,即對應(yīng)概念之間的語義關(guān)系數(shù)據(jù)圖Gd = Nd 結(jié)點(diǎn)集包含實(shí)例結(jié)點(diǎn)和字符串結(jié)點(diǎn)Ed 邊連接兩個(gè)結(jié)點(diǎn)表?xiàng)l三元組事實(shí)關(guān)系Rrdf:type,表數(shù)據(jù)圖中的實(shí)例與所屬概念之間的關(guān)系知識圖譜的定義例如下圖所:另外,知識圖譜的技術(shù)優(yōu)勢:易于修改數(shù)據(jù)模式,具有良好的動態(tài)可擴(kuò)充性,可進(jìn)增量式的數(shù)據(jù)模式設(shè)計(jì)語義互操作特性和“鏈接數(shù)據(jù)”原則使得不同來源的數(shù)據(jù)集成更為便可逐漸要求內(nèi)容供應(yīng)商提供持可于開發(fā)語義檢索、動問答等應(yīng)第
4、章形式化定義部分思維導(dǎo)圖如下:三、相關(guān)作通知識圖譜:底向上早期通過構(gòu)建,此后基于維基百科構(gòu)建,近年來基于開放域知識抽取構(gòu)建。使增量迭代的法從量的頁數(shù)據(jù)中學(xué)習(xí)質(zhì)量三元組來構(gòu)建知識圖譜。垂直知識圖譜:頂向下+底向上需要預(yù)先構(gòu)建模式圖,本法:數(shù)據(jù)驅(qū)動的增量式知識圖譜,將百科知識作為類重要的知識源,同時(shí)將增量迭代法于本類型的知識抽取。模式圖:頂向下數(shù)據(jù)圖:底向上法的好處:保障數(shù)據(jù)抽取的質(zhì)量本章思維導(dǎo)圖如下:四、垂直知識圖譜的構(gòu)建總體流程頂向下和底向上相結(jié)合的式。頂向下:通過本體編輯器或構(gòu)建的法預(yù)先構(gòu)建垂直知識圖譜的模式圖,進(jìn)構(gòu)建數(shù)據(jù)圖;底向上:在構(gòu)建數(shù)據(jù)圖時(shí),利多種抽取技術(shù)獲得知識源中的實(shí)體、屬性和關(guān)
5、系,并將這些置信度的抽取結(jié)果合并到知識圖譜中。知識來源的分類:結(jié)構(gòu)化知識:量的鏈接開放數(shù)據(jù)和存放在關(guān)系數(shù)據(jù)庫中的領(lǐng)域知識半結(jié)構(gòu)化知識:維基百科、百度百科等百科站提供的信息框(Infobox)和不同領(lǐng)域下的垂直站點(diǎn)包含的量表格和列表數(shù)據(jù)結(jié)構(gòu)化知識:絡(luò)數(shù)據(jù)中量的純本內(nèi)容,知識覆蓋度最,但抽取難度最步驟:知識來源知識獲取知識融合知識圖譜構(gòu)建,再進(jìn)不斷地增量迭代來豐富所構(gòu)建的知識圖譜。(這構(gòu)建過程稱為:數(shù)據(jù)驅(qū)動的增量式知識圖譜構(gòu)建)。流程如下圖所:4.2 知識獲取知識獲取階段需要從知識源中獲取實(shí)體、同義詞關(guān)系、“ 屬性-值” 關(guān)系以構(gòu)建數(shù)據(jù)圖Gd,同時(shí)需要獲取實(shí)體類型以構(gòu)建關(guān)系R。本知識獲取的法:多策
6、略學(xué)習(xí)。多策略學(xué)習(xí)是指利不同知識源之間的冗余信息,使較易抽取的信息來輔助抽取那些不易抽取的信息。結(jié)構(gòu)化知識、半結(jié)構(gòu)化知識:易抽取的信息結(jié)構(gòu)化知識:難抽取的信息抽取法如下圖所:D2R,封裝器在這插圖描述D2R:Relational Database to RDF,對于結(jié)構(gòu)化知識中的關(guān)系數(shù)據(jù)庫數(shù)據(jù),可以通過D2R映射的法將其轉(zhuǎn)化成知識圖譜中的鏈接數(shù)據(jù)。封裝器(Wrapper):向某具有特殊結(jié)構(gòu)的數(shù)據(jù)源的信息抽取法。遠(yuǎn)程監(jiān)督(Distant Supervision):遠(yuǎn)程監(jiān)督是種基于假設(shè)“ 如果兩個(gè)實(shí)體存在某種關(guān)系,那么任何包含這對實(shí)體的句都很有可能表達(dá)相同的關(guān)系”、利已知的實(shí)體關(guān)系對動標(biāo)注本的法。
7、知識融合知識獲取階段得到的僅僅是個(gè)個(gè)孤的抽取圖譜,我們需要將這些抽取結(jié)果集成到知識圖譜中,以進(jìn)知識融合。但是有個(gè)問題需要解決:數(shù)據(jù)沖突。包括:個(gè)短語對應(yīng)多個(gè)實(shí)體;實(shí)體屬性名不致;實(shí)體屬性缺失;實(shí)體屬性值不致;實(shí)體屬性值對多映射等。知識融合階段主要對數(shù)據(jù)進(jìn)實(shí)體匹配和模式對齊。實(shí)體匹配旨在發(fā)現(xiàn)具有不同標(biāo)識但代表真實(shí)世界中同對象的那些實(shí)體,并將這些實(shí)體合并為個(gè)具有全局唯標(biāo)識的實(shí)體對象添加到知識圖譜中。前采的法:聚類,關(guān)鍵在于定義合適的相似度度量。般要參考實(shí)體的以下特征:字符相似,具有相同描述的實(shí)體可能代表同實(shí)體;屬性相似,具有相同屬性-值關(guān)系的實(shí)體可能代表同對象;結(jié)構(gòu)相似,具有相同的相鄰實(shí)體可能指向
8、同個(gè)對象。模式對齊主要包括實(shí)體屬性和屬性值的整合。實(shí)體屬性的整合可以考慮的特征有:屬性的同義詞、屬性兩端的實(shí)體類型、屬性在抽取過程中對應(yīng)的模式等。當(dāng)融合來不同知識源的數(shù)據(jù)出現(xiàn)數(shù)據(jù)沖突時(shí),還可以考慮知識源的可靠性以及不同信息在各知識源中出現(xiàn)的頻度等因素。本對搜索引擎提供的知識卡進(jìn)合并,提供了種在線知識融合的思路:該案先提出種基于概率的實(shí)體評分算法找與知識卡最相關(guān)的維基百科詞條,由此合并代表同實(shí)體的不同知識卡。然后,將維基百科的信息框與DBpedia 本體的映射關(guān)系作為訓(xùn)練數(shù)據(jù),設(shè)計(jì)四維特征訓(xùn)練出屬性對齊模型。最后使相似度閾值對屬性值進(jìn)去重與合并,形成值簇。(這我不是太理解QAQ)本章思維導(dǎo)圖如下
9、:五、垂直知識圖譜的例研究中醫(yī)藥知識圖譜對于中醫(yī)藥知識圖譜數(shù)據(jù)圖的構(gòu)建,本分別使D2R 映射法從曙光醫(yī)院的關(guān)系數(shù)據(jù)庫中抽取藥品信息;構(gòu)造MicrosoftOffice 軟件的封裝器,從“98 版證名分類標(biāo)準(zhǔn)” 等國家標(biāo)準(zhǔn)以及曙光醫(yī)院以Microsoft Word 格式存儲的臨床知識庫中抽取疾病、藥等信息;利模式和遠(yuǎn)程監(jiān)督結(jié)合的法迭代地學(xué)習(xí)百科和中醫(yī)藥站下的純本知識。由于從多個(gè)數(shù)據(jù)源中抽取數(shù)據(jù),不同的數(shù)據(jù)源之間會存在重復(fù)或沖突。本對數(shù)據(jù)源的可信度進(jìn)評分,基于數(shù)據(jù)來源以及數(shù)據(jù)在不同來源中出現(xiàn)的次數(shù),對數(shù)據(jù)項(xiàng)進(jìn)排序,以解決數(shù)據(jù)沖突問題。途:進(jìn)中醫(yī)藥相關(guān)的然語問答,中醫(yī)藥輔助開海洋知識圖譜海洋知識圖譜主要包括魚類知識、海洋經(jīng)濟(jì)知識和海島知識。海洋經(jīng)濟(jì)知識由領(lǐng)域?qū)<沂占⒋鎯υ贛icrosoftWord 檔中,本使Microsoft Word 封裝器將其轉(zhuǎn)化映射成海洋知識圖。海島知識源于海洋數(shù)字圖書館提供的關(guān)系數(shù)據(jù)庫,使D2R 映射具D2RQ19完成數(shù)據(jù)轉(zhuǎn)化,形成海島知識圖。為了構(gòu)建魚類知識圖的模式圖,本利HTML 封裝器從fishdb 和FishBase 中抽取概念和上下位關(guān)系,從百科頁中抽取概念的屬性,并利多策略學(xué)習(xí)法從以上數(shù)據(jù)源中迭代地抽取同義詞關(guān)系。5.3企業(yè)知識圖譜先,領(lǐng)域?qū)<覙?gòu)建業(yè)知識圖譜模式圖,包含物、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年砂漿銷售合同范本范本
- 2025鋼結(jié)構(gòu)安裝勞務(wù)分包合同范本
- 合同封面圖片(2025年)
- 標(biāo)準(zhǔn)個(gè)人購房合同范本
- 個(gè)人合作協(xié)議合同范本2
- 2025公務(wù)員公共基礎(chǔ)知識考點(diǎn)解析合同法之履行抗辯權(quán)
- 2024年國際物流運(yùn)輸保險(xiǎn)合同樣本3篇
- 2024年版技術(shù)培訓(xùn)合同具體條款
- 2024年獨(dú)家版:影視作品制作與發(fā)行合同
- 2024年度單位物業(yè)管理與服務(wù)市場推廣合同3篇
- 《關(guān)于加強(qiáng)和改進(jìn)新時(shí)代師德師風(fēng)建設(shè)的意見》培訓(xùn)課件
- 頻譜儀N9020A常用功能使用指南
- 天津高考英語詞匯3500
- 2023年智慧電廠垃圾焚燒發(fā)電廠解決方案
- 人資法務(wù)技能指導(dǎo)【紅皮書完整版】
- 三年級下冊數(shù)學(xué)教案-6練習(xí)五-北師大版
- 清潔驗(yàn)證管理規(guī)程
- 建設(shè)工程質(zhì)量檢測作業(yè)指導(dǎo)書+儀器設(shè)備操作規(guī)程2021版
- 醫(yī)院食堂食品留樣銷毀記錄表
- 急診急救藥品用法作用一覽表
- 項(xiàng)目施工周報(bào)模板
評論
0/150
提交評論