知識圖譜完整版本_第1頁
知識圖譜完整版本_第2頁
知識圖譜完整版本_第3頁
知識圖譜完整版本_第4頁
知識圖譜完整版本_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

知識圖譜劉莞玲PART0什么是知識圖譜?PART0什么是知識圖譜知識圖譜(MappingKnowledgeDomain)也被稱為科學(xué)知識圖譜,在圖書情報界稱為知識域可視化或知識領(lǐng)域映射地圖,是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。具體來說,知識圖譜是通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。它把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制而顯示出來,揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律。PART0什么是知識圖譜PART0什么是中文知識圖譜本質(zhì)介紹知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)。其結(jié)點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關(guān)系。中文知識圖譜中文知識圖譜(Chinese

KnowledgeGraph),最早起源于GoogleKnowledgeGraph

。中文知識圖譜的直接推動力來自于一系列實際應(yīng)用,包括語義搜索、機(jī)器問答、情報檢索、電子閱讀、在線學(xué)習(xí)等等。百度

、搜狗

以及復(fù)旦大學(xué)GDM實驗室相繼推出了其中文知識圖譜。知識圖譜應(yīng)用允許用戶搜索搜索引擎知道的所有事物,人物或者地方,包括地標(biāo),名人,城市,球隊,建筑,地理特征,電影,天體,藝術(shù)作品等等,而且能夠顯示關(guān)于你的查詢的實時信息。它是邁向下一代搜索業(yè)務(wù)關(guān)鍵的第一步,使得搜索智能化,根據(jù)用戶的意圖給出用戶想要的結(jié)果。PARTIGoogleKnowledgeGraph?PARTIGoogleKnowledgeGraphGoogle知識圖譜Google知識圖譜(也稱Google知識圖)是Google的一個知識庫,其使用語義檢索從多種來源收集信息,以提高Google搜索的質(zhì)量。知識圖譜2012年加入Google搜索,2012年5月16日正式發(fā)布,知識圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的關(guān)于主題的信息。其目標(biāo)是,用戶將能夠使用此功能提供的信息來解決他們查詢的問題,而不必導(dǎo)航到其他網(wǎng)站并自己匯總信息。為什么需要構(gòu)建中文知識圖譜?PARTIIPARTII為什么需要構(gòu)建中文知識圖譜PARTIII為什么需要構(gòu)建中文知識圖譜原因:互聯(lián)網(wǎng)上擁有豐富的資源。但是,大多數(shù)的資源都只能被人理解,而機(jī)器無法理解,如何讓機(jī)器像人一樣理解文本?現(xiàn)有知識圖譜對中文支持不夠為此,我們需要構(gòu)建一個海量的中文知識圖譜,幫助機(jī)器理解文本知識圖譜方法研究PARTIIIPARTIII中文知識圖譜研究框架PARTIII中文知識圖譜研究方法分布式爬蟲互聯(lián)網(wǎng)上存在著豐富的資源,選擇合適的資源以及相應(yīng)的爬取策略至關(guān)重要;單臺電腦已經(jīng)無法支持大規(guī)模的網(wǎng)頁爬取;網(wǎng)站可能存在著限制訪問次數(shù)、訪問出錯等問題。因此,提出了多任務(wù)、容錯、平衡、可設(shè)置優(yōu)先級、多樣性的分布式爬蟲策略知識抽取數(shù)據(jù)來源豐富,包括百科全書類網(wǎng)站、地理位置信息(POI)網(wǎng)站、輸入法詞庫、搜索引擎語料庫、音樂視頻小說等門戶網(wǎng)站、電子商務(wù)網(wǎng)站等從數(shù)據(jù)源中抽取出高質(zhì)量的實體/概念集。包括實體抽取、實體映射(不同詞表達(dá)相同含義)、關(guān)系抽取以及實體質(zhì)量評估。PARTIII中文知識圖譜研究方法知識集成采用迭代的方式對不同來源的數(shù)據(jù)進(jìn)行集成,將相同實體/概念的內(nèi)容進(jìn)行融合,特別是多義詞之間的融合。具體方法包括:首先找到明顯相同的實體/概念對,根據(jù)其屬性、分類以及相關(guān)詞,擴(kuò)充找到更多的相同實體/概念對。依次循環(huán),直至不能找到新的實體/概念對。圖數(shù)據(jù)管理系統(tǒng)基于開源的Hadoop分布式文件系統(tǒng)與分布式數(shù)據(jù)庫,作為大數(shù)據(jù)存儲的基礎(chǔ)所有的操作都建立在HBase之上(HBase是一個開源的非關(guān)系型分布式數(shù)據(jù)庫(NoSQL),它參考了谷歌的BigTable建模,實現(xiàn)的編程語言為Java。它是Apache軟件基金會的Hadoop項目的一部分,運行于HDFS文件系統(tǒng)之上,為Hadoop提供類似于BigTable規(guī)模的服務(wù)。因此,它可以容錯地存儲海量稀疏的數(shù)據(jù)。)中文知識圖譜的應(yīng)用?PARTIVPARTIV中文知識圖譜的應(yīng)用百度知識圖譜此前用戶在百度搜索某些公眾人物的關(guān)鍵詞時,會出現(xiàn)該人物相關(guān)的資料,搜索結(jié)果以“百科全書”式的方式顯示。而如今不只是搜索熱門人物,當(dāng)用戶搜索地名、學(xué)科名或者流行的“事實“時,百度在左邊的搜索結(jié)果里會給出常規(guī)的搜索結(jié)果,而搜索結(jié)果的右邊則展示跟關(guān)鍵詞相關(guān)的百度百科內(nèi)容,以及相關(guān)的搜索鏈接。PARTIV中文知識圖譜的應(yīng)用搜狗知立方搜狗在其官方微博中宣稱:為了讓用戶獲取信息更簡單,搜狗搜索發(fā)布全新的知識庫搜索引擎――“知立方”。這是國內(nèi)搜索引擎行業(yè)中首家知識庫搜索產(chǎn)品。比如搜索“張學(xué)友的電影”,搜狗搜索會在結(jié)果上方顯示張學(xué)友的所有參演過的影片,右側(cè)則展示張學(xué)友的人物關(guān)系、電視劇、專輯等相關(guān)信息,幫助用戶更加立體和全面的了解張學(xué)友。PARTIV中文知識圖譜的應(yīng)用復(fù)旦GDM中文知識圖譜文本化展示輸入一個關(guān)鍵字后,搜索引擎能夠準(zhǔn)備的知道用戶搜索的關(guān)鍵字含義,并給出相關(guān)的知識說明提供知識查詢、問題查詢、別名搜索、知識源合并等功能圖形化展示為了更好的理解知識,采用了圖形化引擎進(jìn)行展示,更好的表現(xiàn)了語義之間的關(guān)系同時,將相關(guān)詞進(jìn)行聚類,分成若干類,按類展示,并為每個類標(biāo)注類標(biāo)簽,這樣能更加清楚、直觀的理解實體PARTIV中文知識圖譜的應(yīng)用復(fù)旦GDM中文知識圖譜深度閱讀運用知識圖譜,對電子書中出現(xiàn)地詞語進(jìn)行精確、全面解釋,挖掘詞語背后的知識,改善閱讀體驗輿情分析運用知識圖譜,對微博進(jìn)行數(shù)據(jù)挖掘分析傾聽民意,改善民生研究成果已被解放日報、新民晚報等報紙刊登報道,并被多家網(wǎng)絡(luò)媒體轉(zhuǎn)載知識圖譜主要研究什么?PARTVPARTV知識圖譜主要研究什么?知識圖譜主要包含知識庫構(gòu)建,用戶查詢理解,數(shù)據(jù)檢索以及結(jié)果的可視化展現(xiàn)四個主要的過程。知識庫的構(gòu)建:主要通過將網(wǎng)頁中的各種異構(gòu)的實體信息,通過收集、解析、清理、歸一化、合并等步驟建立起實體以及實體屬性的集合。用戶查詢理解:是將用戶輸入的自然語言解析成查詢知識庫的SPARQL語句。數(shù)據(jù)檢索是通過SPARQL語句將知識庫中用戶需要的實體及屬性信息檢索出來。云服務(wù)在數(shù)據(jù)檢索時的平均響應(yīng)時間達(dá)到了幾十毫秒的量級。結(jié)果可視化是對檢索出來的數(shù)據(jù)進(jìn)行富媒體的展現(xiàn),用戶可以對需要的展現(xiàn)樣式進(jìn)行定制和個性化。知識圖譜構(gòu)建PARTVIPARTVI知識圖譜構(gòu)建知識圖譜的規(guī)模Google知識圖譜到目前為止包含了5億個實體和35億條事實(形如實體-屬性-值,和實體-關(guān)系-實體)。其知識圖譜是面向全球的,因此包含了實體和相關(guān)事實的多語言描述。不過相比占主導(dǎo)的英語外,僅包含其他語言(如中文)的知識圖譜的規(guī)模則小了很多。知識圖譜的數(shù)據(jù)來源知識圖譜通過收集來自百科類站點和各種垂直站點的結(jié)構(gòu)化數(shù)據(jù)來覆蓋大部分常識性知識。(質(zhì)量高但更新慢)另一方面,知識圖譜通過從各種半結(jié)構(gòu)化數(shù)據(jù)(形如HTML表格)抽取相關(guān)實體的屬性-值對來豐富實體的描述。此外,通過搜索日志發(fā)現(xiàn)新的實體或新的實體屬性從而不斷擴(kuò)展知識圖譜的覆蓋率。相比高質(zhì)量的常識性知識,通過數(shù)據(jù)挖掘抽取得到的知識數(shù)據(jù)更大,更能反映當(dāng)前用戶的查詢需求并能及時發(fā)現(xiàn)最新的實體或事實,但其質(zhì)量相對較差,存在一定的錯誤。這些知識利用互聯(lián)網(wǎng)的冗余性在后續(xù)的挖掘中通過投票或其他聚合算法來評估其置信度,并通過人工審核加入到知識圖譜中。PARTVI項目實踐從抽取圖譜到知識圖譜(知識圖譜挖掘)實體對齊(方法:聚類,關(guān)鍵在于定義合適的相似度度量。為了解決大規(guī)模實體對齊存在的效率問題,各種基于數(shù)據(jù)劃分或分割的算法被提出)。知識圖譜schema構(gòu)建(模式層構(gòu)建:Google

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論