知識圖譜完整版本

上傳人：1*** IP屬地：北京上傳時間：2024-03-03 格式：PPTX 頁數(shù)：25 大小：4.79MB 積分：1.2 舉報 版權(quán)申訴

已閱讀5頁，還剩20頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

知識圖譜劉莞玲PART0什么是知識圖譜？PART0什么是知識圖譜知識圖譜(MappingKnowledgeDomain）也被稱為科學(xué)知識圖譜，在圖書情報界稱為知識域可視化或知識領(lǐng)域映射地圖，是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形，用可視化技術(shù)描述知識資源及其載體，挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。具體來說，知識圖譜是通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合，并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。它把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制而顯示出來，揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律。PART0什么是知識圖譜PART0什么是中文知識圖譜本質(zhì)介紹知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)。其結(jié)點代表實體（entity）或者概念（concept），邊代表實體/概念之間的各種語義關(guān)系。中文知識圖譜中文知識圖譜（Chinese

KnowledgeGraph），最早起源于GoogleKnowledgeGraph

。中文知識圖譜的直接推動力來自于一系列實際應(yīng)用，包括語義搜索、機(jī)器問答、情報檢索、電子閱讀、在線學(xué)習(xí)等等。百度

、搜狗

以及復(fù)旦大學(xué)GDM實驗室相繼推出了其中文知識圖譜。知識圖譜應(yīng)用允許用戶搜索搜索引擎知道的所有事物，人物或者地方，包括地標(biāo)，名人，城市，球隊，建筑，地理特征，電影，天體，藝術(shù)作品等等，而且能夠顯示關(guān)于你的查詢的實時信息。它是邁向下一代搜索業(yè)務(wù)關(guān)鍵的第一步，使得搜索智能化，根據(jù)用戶的意圖給出用戶想要的結(jié)果。PARTIGoogleKnowledgeGraph？PARTIGoogleKnowledgeGraphGoogle知識圖譜Google知識圖譜（也稱Google知識圖）是Google的一個知識庫，其使用語義檢索從多種來源收集信息，以提高Google搜索的質(zhì)量。知識圖譜2012年加入Google搜索，2012年5月16日正式發(fā)布，知識圖譜除了顯示其他網(wǎng)站的鏈接列表，還提供結(jié)構(gòu)化及詳細(xì)的關(guān)于主題的信息。其目標(biāo)是，用戶將能夠使用此功能提供的信息來解決他們查詢的問題，而不必導(dǎo)航到其他網(wǎng)站并自己匯總信息。為什么需要構(gòu)建中文知識圖譜？PARTIIPARTII為什么需要構(gòu)建中文知識圖譜PARTIII為什么需要構(gòu)建中文知識圖譜原因：互聯(lián)網(wǎng)上擁有豐富的資源。但是，大多數(shù)的資源都只能被人理解，而機(jī)器無法理解，如何讓機(jī)器像人一樣理解文本？現(xiàn)有知識圖譜對中文支持不夠為此，我們需要構(gòu)建一個海量的中文知識圖譜，幫助機(jī)器理解文本知識圖譜方法研究PARTIIIPARTIII中文知識圖譜研究框架PARTIII中文知識圖譜研究方法分布式爬蟲互聯(lián)網(wǎng)上存在著豐富的資源，選擇合適的資源以及相應(yīng)的爬取策略至關(guān)重要；單臺電腦已經(jīng)無法支持大規(guī)模的網(wǎng)頁爬?。痪W(wǎng)站可能存在著限制訪問次數(shù)、訪問出錯等問題。因此，提出了多任務(wù)、容錯、平衡、可設(shè)置優(yōu)先級、多樣性的分布式爬蟲策略知識抽取數(shù)據(jù)來源豐富，包括百科全書類網(wǎng)站、地理位置信息（POI）網(wǎng)站、輸入法詞庫、搜索引擎語料庫、音樂視頻小說等門戶網(wǎng)站、電子商務(wù)網(wǎng)站等從數(shù)據(jù)源中抽取出高質(zhì)量的實體/概念集。包括實體抽取、實體映射（不同詞表達(dá)相同含義）、關(guān)系抽取以及實體質(zhì)量評估。PARTIII中文知識圖譜研究方法知識集成采用迭代的方式對不同來源的數(shù)據(jù)進(jìn)行集成，將相同實體/概念的內(nèi)容進(jìn)行融合，特別是多義詞之間的融合。具體方法包括：首先找到明顯相同的實體/概念對，根據(jù)其屬性、分類以及相關(guān)詞，擴(kuò)充找到更多的相同實體/概念對。依次循環(huán)，直至不能找到新的實體/概念對。圖數(shù)據(jù)管理系統(tǒng)基于開源的Hadoop分布式文件系統(tǒng)與分布式數(shù)據(jù)庫，作為大數(shù)據(jù)存儲的基礎(chǔ)所有的操作都建立在HBase之上（HBase是一個開源的非關(guān)系型分布式數(shù)據(jù)庫（NoSQL），它參考了谷歌的BigTable建模，實現(xiàn)的編程語言為Java。它是Apache軟件基金會的Hadoop項目的一部分，運行于HDFS文件系統(tǒng)之上，為Hadoop提供類似于BigTable規(guī)模的服務(wù)。因此，它可以容錯地存儲海量稀疏的數(shù)據(jù)。）中文知識圖譜的應(yīng)用？PARTIVPARTIV中文知識圖譜的應(yīng)用百度知識圖譜此前用戶在百度搜索某些公眾人物的關(guān)鍵詞時，會出現(xiàn)該人物相關(guān)的資料，搜索結(jié)果以“百科全書”式的方式顯示。而如今不只是搜索熱門人物，當(dāng)用戶搜索地名、學(xué)科名或者流行的“事實“時，百度在左邊的搜索結(jié)果里會給出常規(guī)的搜索結(jié)果，而搜索結(jié)果的右邊則展示跟關(guān)鍵詞相關(guān)的百度百科內(nèi)容，以及相關(guān)的搜索鏈接。PARTIV中文知識圖譜的應(yīng)用搜狗知立方搜狗在其官方微博中宣稱：為了讓用戶獲取信息更簡單，搜狗搜索發(fā)布全新的知識庫搜索引擎――“知立方”。這是國內(nèi)搜索引擎行業(yè)中首家知識庫搜索產(chǎn)品。比如搜索“張學(xué)友的電影”，搜狗搜索會在結(jié)果上方顯示張學(xué)友的所有參演過的影片，右側(cè)則展示張學(xué)友的人物關(guān)系、電視劇、專輯等相關(guān)信息，幫助用戶更加立體和全面的了解張學(xué)友。PARTIV中文知識圖譜的應(yīng)用復(fù)旦GDM中文知識圖譜文本化展示輸入一個關(guān)鍵字后，搜索引擎能夠準(zhǔn)備的知道用戶搜索的關(guān)鍵字含義，并給出相關(guān)的知識說明提供知識查詢、問題查詢、別名搜索、知識源合并等功能圖形化展示為了更好的理解知識，采用了圖形化引擎進(jìn)行展示，更好的表現(xiàn)了語義之間的關(guān)系同時，將相關(guān)詞進(jìn)行聚類，分成若干類，按類展示，并為每個類標(biāo)注類標(biāo)簽，這樣能更加清楚、直觀的理解實體PARTIV中文知識圖譜的應(yīng)用復(fù)旦GDM中文知識圖譜深度閱讀運用知識圖譜，對電子書中出現(xiàn)地詞語進(jìn)行精確、全面解釋，挖掘詞語背后的知識，改善閱讀體驗輿情分析運用知識圖譜，對微博進(jìn)行數(shù)據(jù)挖掘分析傾聽民意，改善民生研究成果已被解放日報、新民晚報等報紙刊登報道，并被多家網(wǎng)絡(luò)媒體轉(zhuǎn)載知識圖譜主要研究什么？PARTVPARTV知識圖譜主要研究什么？知識圖譜主要包含知識庫構(gòu)建，用戶查詢理解，數(shù)據(jù)檢索以及結(jié)果的可視化展現(xiàn)四個主要的過程。知識庫的構(gòu)建：主要通過將網(wǎng)頁中的各種異構(gòu)的實體信息，通過收集、解析、清理、歸一化、合并等步驟建立起實體以及實體屬性的集合。用戶查詢理解:是將用戶輸入的自然語言解析成查詢知識庫的SPARQL語句。數(shù)據(jù)檢索是通過SPARQL語句將知識庫中用戶需要的實體及屬性信息檢索出來。云服務(wù)在數(shù)據(jù)檢索時的平均響應(yīng)時間達(dá)到了幾十毫秒的量級。結(jié)果可視化是對檢索出來的數(shù)據(jù)進(jìn)行富媒體的展現(xiàn)，用戶可以對需要的展現(xiàn)樣式進(jìn)行定制和個性化。知識圖譜構(gòu)建PARTVIPARTVI知識圖譜構(gòu)建知識圖譜的規(guī)模Google知識圖譜到目前為止包含了5億個實體和35億條事實（形如實體-屬性-值，和實體-關(guān)系-實體）。其知識圖譜是面向全球的，因此包含了實體和相關(guān)事實的多語言描述。不過相比占主導(dǎo)的英語外，僅包含其他語言（如中文）的知識圖譜的規(guī)模則小了很多。知識圖譜的數(shù)據(jù)來源知識圖譜通過收集來自百科類站點和各種垂直站點的結(jié)構(gòu)化數(shù)據(jù)來覆蓋大部分常識性知識。（質(zhì)量高但更新慢）另一方面，知識圖譜通過從各種半結(jié)構(gòu)化數(shù)據(jù)（形如HTML表格）抽取相關(guān)實體的屬性-值對來豐富實體的描述。此外，通過搜索日志發(fā)現(xiàn)新的實體或新的實體屬性從而不斷擴(kuò)展知識圖譜的覆蓋率。相比高質(zhì)量的常識性知識，通過數(shù)據(jù)挖掘抽取得到的知識數(shù)據(jù)更大，更能反映當(dāng)前用戶的查詢需求并能及時發(fā)現(xiàn)最新的實體或事實，但其質(zhì)量相對較差，存在一定的錯誤。這些知識利用互聯(lián)網(wǎng)的冗余性在后續(xù)的挖掘中通過投票或其他聚合算法來評估其置信度，并通過人工審核加入到知識圖譜中。PARTVI項目實踐從抽取圖譜到知識圖譜（知識圖譜挖掘）實體對齊（方法：聚類，關(guān)鍵在于定義合適的相似度度量。為了解決大規(guī)模實體對齊存在的效率問題，各種基于數(shù)據(jù)劃分或分割的算法被提出）。知識圖譜schema構(gòu)建（模式層構(gòu)建：Google

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

知識圖譜完整版本

文檔簡介

溫馨提示

最新文檔

評論

知識圖譜完整版本

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔