




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
知識(shí)圖譜劉莞玲PART0什么是知識(shí)圖譜?PART0什么是知識(shí)圖譜知識(shí)圖譜(MappingKnowledgeDomain)也被稱為科學(xué)知識(shí)圖譜,在圖書情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。具體來說,知識(shí)圖譜是通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。它把復(fù)雜的知識(shí)領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制而顯示出來,揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律。PART0什么是知識(shí)圖譜PART0什么是中文知識(shí)圖譜本質(zhì)介紹知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò)。其結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系。中文知識(shí)圖譜中文知識(shí)圖譜(Chinese
KnowledgeGraph),最早起源于GoogleKnowledgeGraph
。中文知識(shí)圖譜的直接推動(dòng)力來自于一系列實(shí)際應(yīng)用,包括語(yǔ)義搜索、機(jī)器問答、情報(bào)檢索、電子閱讀、在線學(xué)習(xí)等等。百度
、搜狗
以及復(fù)旦大學(xué)GDM實(shí)驗(yàn)室相繼推出了其中文知識(shí)圖譜。知識(shí)圖譜應(yīng)用允許用戶搜索搜索引擎知道的所有事物,人物或者地方,包括地標(biāo),名人,城市,球隊(duì),建筑,地理特征,電影,天體,藝術(shù)作品等等,而且能夠顯示關(guān)于你的查詢的實(shí)時(shí)信息。它是邁向下一代搜索業(yè)務(wù)關(guān)鍵的第一步,使得搜索智能化,根據(jù)用戶的意圖給出用戶想要的結(jié)果。PARTIGoogleKnowledgeGraph?PARTIGoogleKnowledgeGraphGoogle知識(shí)圖譜Google知識(shí)圖譜(也稱Google知識(shí)圖)是Google的一個(gè)知識(shí)庫(kù),其使用語(yǔ)義檢索從多種來源收集信息,以提高Google搜索的質(zhì)量。知識(shí)圖譜2012年加入Google搜索,2012年5月16日正式發(fā)布,知識(shí)圖譜除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的關(guān)于主題的信息。其目標(biāo)是,用戶將能夠使用此功能提供的信息來解決他們查詢的問題,而不必導(dǎo)航到其他網(wǎng)站并自己匯總信息。為什么需要構(gòu)建中文知識(shí)圖譜?PARTIIPARTII為什么需要構(gòu)建中文知識(shí)圖譜PARTIII為什么需要構(gòu)建中文知識(shí)圖譜原因:互聯(lián)網(wǎng)上擁有豐富的資源。但是,大多數(shù)的資源都只能被人理解,而機(jī)器無法理解,如何讓機(jī)器像人一樣理解文本?現(xiàn)有知識(shí)圖譜對(duì)中文支持不夠?yàn)榇?,我們需要?gòu)建一個(gè)海量的中文知識(shí)圖譜,幫助機(jī)器理解文本知識(shí)圖譜方法研究PARTIIIPARTIII中文知識(shí)圖譜研究框架PARTIII中文知識(shí)圖譜研究方法分布式爬蟲互聯(lián)網(wǎng)上存在著豐富的資源,選擇合適的資源以及相應(yīng)的爬取策略至關(guān)重要;單臺(tái)電腦已經(jīng)無法支持大規(guī)模的網(wǎng)頁(yè)爬??;網(wǎng)站可能存在著限制訪問次數(shù)、訪問出錯(cuò)等問題。因此,提出了多任務(wù)、容錯(cuò)、平衡、可設(shè)置優(yōu)先級(jí)、多樣性的分布式爬蟲策略知識(shí)抽取數(shù)據(jù)來源豐富,包括百科全書類網(wǎng)站、地理位置信息(POI)網(wǎng)站、輸入法詞庫(kù)、搜索引擎語(yǔ)料庫(kù)、音樂視頻小說等門戶網(wǎng)站、電子商務(wù)網(wǎng)站等從數(shù)據(jù)源中抽取出高質(zhì)量的實(shí)體/概念集。包括實(shí)體抽取、實(shí)體映射(不同詞表達(dá)相同含義)、關(guān)系抽取以及實(shí)體質(zhì)量評(píng)估。PARTIII中文知識(shí)圖譜研究方法知識(shí)集成采用迭代的方式對(duì)不同來源的數(shù)據(jù)進(jìn)行集成,將相同實(shí)體/概念的內(nèi)容進(jìn)行融合,特別是多義詞之間的融合。具體方法包括:首先找到明顯相同的實(shí)體/概念對(duì),根據(jù)其屬性、分類以及相關(guān)詞,擴(kuò)充找到更多的相同實(shí)體/概念對(duì)。依次循環(huán),直至不能找到新的實(shí)體/概念對(duì)。圖數(shù)據(jù)管理系統(tǒng)基于開源的Hadoop分布式文件系統(tǒng)與分布式數(shù)據(jù)庫(kù),作為大數(shù)據(jù)存儲(chǔ)的基礎(chǔ)所有的操作都建立在HBase之上(HBase是一個(gè)開源的非關(guān)系型分布式數(shù)據(jù)庫(kù)(NoSQL),它參考了谷歌的BigTable建模,實(shí)現(xiàn)的編程語(yǔ)言為Java。它是Apache軟件基金會(huì)的Hadoop項(xiàng)目的一部分,運(yùn)行于HDFS文件系統(tǒng)之上,為Hadoop提供類似于BigTable規(guī)模的服務(wù)。因此,它可以容錯(cuò)地存儲(chǔ)海量稀疏的數(shù)據(jù)。)中文知識(shí)圖譜的應(yīng)用?PARTIVPARTIV中文知識(shí)圖譜的應(yīng)用百度知識(shí)圖譜此前用戶在百度搜索某些公眾人物的關(guān)鍵詞時(shí),會(huì)出現(xiàn)該人物相關(guān)的資料,搜索結(jié)果以“百科全書”式的方式顯示。而如今不只是搜索熱門人物,當(dāng)用戶搜索地名、學(xué)科名或者流行的“事實(shí)“時(shí),百度在左邊的搜索結(jié)果里會(huì)給出常規(guī)的搜索結(jié)果,而搜索結(jié)果的右邊則展示跟關(guān)鍵詞相關(guān)的百度百科內(nèi)容,以及相關(guān)的搜索鏈接。PARTIV中文知識(shí)圖譜的應(yīng)用搜狗知立方搜狗在其官方微博中宣稱:為了讓用戶獲取信息更簡(jiǎn)單,搜狗搜索發(fā)布全新的知識(shí)庫(kù)搜索引擎――“知立方”。這是國(guó)內(nèi)搜索引擎行業(yè)中首家知識(shí)庫(kù)搜索產(chǎn)品。比如搜索“張學(xué)友的電影”,搜狗搜索會(huì)在結(jié)果上方顯示張學(xué)友的所有參演過的影片,右側(cè)則展示張學(xué)友的人物關(guān)系、電視劇、專輯等相關(guān)信息,幫助用戶更加立體和全面的了解張學(xué)友。PARTIV中文知識(shí)圖譜的應(yīng)用復(fù)旦GDM中文知識(shí)圖譜文本化展示輸入一個(gè)關(guān)鍵字后,搜索引擎能夠準(zhǔn)備的知道用戶搜索的關(guān)鍵字含義,并給出相關(guān)的知識(shí)說明提供知識(shí)查詢、問題查詢、別名搜索、知識(shí)源合并等功能圖形化展示為了更好的理解知識(shí),采用了圖形化引擎進(jìn)行展示,更好的表現(xiàn)了語(yǔ)義之間的關(guān)系同時(shí),將相關(guān)詞進(jìn)行聚類,分成若干類,按類展示,并為每個(gè)類標(biāo)注類標(biāo)簽,這樣能更加清楚、直觀的理解實(shí)體PARTIV中文知識(shí)圖譜的應(yīng)用復(fù)旦GDM中文知識(shí)圖譜深度閱讀運(yùn)用知識(shí)圖譜,對(duì)電子書中出現(xiàn)地詞語(yǔ)進(jìn)行精確、全面解釋,挖掘詞語(yǔ)背后的知識(shí),改善閱讀體驗(yàn)輿情分析運(yùn)用知識(shí)圖譜,對(duì)微博進(jìn)行數(shù)據(jù)挖掘分析傾聽民意,改善民生研究成果已被解放日?qǐng)?bào)、新民晚報(bào)等報(bào)紙刊登報(bào)道,并被多家網(wǎng)絡(luò)媒體轉(zhuǎn)載知識(shí)圖譜主要研究什么?PARTVPARTV知識(shí)圖譜主要研究什么?知識(shí)圖譜主要包含知識(shí)庫(kù)構(gòu)建,用戶查詢理解,數(shù)據(jù)檢索以及結(jié)果的可視化展現(xiàn)四個(gè)主要的過程。知識(shí)庫(kù)的構(gòu)建:主要通過將網(wǎng)頁(yè)中的各種異構(gòu)的實(shí)體信息,通過收集、解析、清理、歸一化、合并等步驟建立起實(shí)體以及實(shí)體屬性的集合。用戶查詢理解:是將用戶輸入的自然語(yǔ)言解析成查詢知識(shí)庫(kù)的SPARQL語(yǔ)句。數(shù)據(jù)檢索是通過SPARQL語(yǔ)句將知識(shí)庫(kù)中用戶需要的實(shí)體及屬性信息檢索出來。云服務(wù)在數(shù)據(jù)檢索時(shí)的平均響應(yīng)時(shí)間達(dá)到了幾十毫秒的量級(jí)。結(jié)果可視化是對(duì)檢索出來的數(shù)據(jù)進(jìn)行富媒體的展現(xiàn),用戶可以對(duì)需要的展現(xiàn)樣式進(jìn)行定制和個(gè)性化。知識(shí)圖譜構(gòu)建PARTVIPARTVI知識(shí)圖譜構(gòu)建知識(shí)圖譜的規(guī)模Google知識(shí)圖譜到目前為止包含了5億個(gè)實(shí)體和35億條事實(shí)(形如實(shí)體-屬性-值,和實(shí)體-關(guān)系-實(shí)體)。其知識(shí)圖譜是面向全球的,因此包含了實(shí)體和相關(guān)事實(shí)的多語(yǔ)言描述。不過相比占主導(dǎo)的英語(yǔ)外,僅包含其他語(yǔ)言(如中文)的知識(shí)圖譜的規(guī)模則小了很多。知識(shí)圖譜的數(shù)據(jù)來源知識(shí)圖譜通過收集來自百科類站點(diǎn)和各種垂直站點(diǎn)的結(jié)構(gòu)化數(shù)據(jù)來覆蓋大部分常識(shí)性知識(shí)。(質(zhì)量高但更新慢)另一方面,知識(shí)圖譜通過從各種半結(jié)構(gòu)化數(shù)據(jù)(形如HTML表格)抽取相關(guān)實(shí)體的屬性-值對(duì)來豐富實(shí)體的描述。此外,通過搜索日志發(fā)現(xiàn)新的實(shí)體或新的實(shí)體屬性從而不斷擴(kuò)展知識(shí)圖譜的覆蓋率。相比高質(zhì)量的常識(shí)性知識(shí),通過數(shù)據(jù)挖掘抽取得到的知識(shí)數(shù)據(jù)更大,更能反映當(dāng)前用戶的查詢需求并能及時(shí)發(fā)現(xiàn)最新的實(shí)體或事實(shí),但其質(zhì)量相對(duì)較差,存在一定的錯(cuò)誤。這些知識(shí)利用互聯(lián)網(wǎng)的冗余性在后續(xù)的挖掘中通過投票或其他聚合算法來評(píng)估其置信度,并通過人工審核加入到知識(shí)圖譜中。PARTVI項(xiàng)目實(shí)踐從抽取圖譜到知識(shí)圖譜(知識(shí)圖譜挖掘)實(shí)體對(duì)齊(方法:聚類,關(guān)鍵在于定義合適的相似度度量。為了解決大規(guī)模實(shí)體對(duì)齊存在的效率問題,各種基于數(shù)據(jù)劃分或分割的算法被提出)。知識(shí)圖譜schema構(gòu)建(模式層構(gòu)建:Google
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 寵物救生與急救操作考核試卷
- 模具超聲波無損檢測(cè)技術(shù)考核試卷
- 核電站設(shè)計(jì)與建設(shè)中的質(zhì)量監(jiān)督與驗(yàn)收標(biāo)準(zhǔn)考核試卷
- 漆器工藝品目標(biāo)消費(fèi)群體研究考核試卷
- 竹材采運(yùn)信息化與大數(shù)據(jù)分析考核試卷
- 電磁場(chǎng)掃描與探測(cè)教具考核試卷
- 租賃店鋪的社區(qū)關(guān)系維護(hù)考核試卷
- 煤炭行業(yè)人才培養(yǎng)與引進(jìn)考核試卷
- 科爾沁藝術(shù)職業(yè)學(xué)院《文化產(chǎn)業(yè)管理概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧財(cái)貿(mào)學(xué)院《藝術(shù)市場(chǎng)營(yíng)銷與實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 第十七章 勾股定理 -利用勾股定理求最短路徑問題(教案)-2023-2024學(xué)年人教版數(shù)學(xué)八年級(jí)下冊(cè)
- 2024年社區(qū)工作者面試題庫(kù)與答案
- 銷售人員工資方案底薪+提成+獎(jiǎng)金
- DB34∕T 3221-2018 火災(zāi)高危單位消防安全評(píng)估規(guī)程
- 地震監(jiān)測(cè)設(shè)備維護(hù)保養(yǎng)手冊(cè)
- 上海市市轄區(qū)(2024年-2025年小學(xué)四年級(jí)語(yǔ)文)統(tǒng)編版期中考試((上下)學(xué)期)試卷及答案
- 【部編版道德與法治六年級(jí)下冊(cè)】全冊(cè)測(cè)試卷(含答案)
- 專業(yè)勞務(wù)派遣服務(wù)行業(yè)發(fā)展方向及匹配能力建設(shè)研究報(bào)告
- 2024北京西城區(qū)初三一模語(yǔ)文試卷和答案
- GB/T 44252.1-2024物聯(lián)網(wǎng)運(yùn)動(dòng)健康監(jiān)測(cè)設(shè)備第1部分:數(shù)據(jù)分類和描述
- ISO∕IEC 23894-2023 信息技術(shù) -人工智能 - 風(fēng)險(xiǎn)管理指南(雷澤佳譯-2024)
評(píng)論
0/150
提交評(píng)論