2021知識(shí)圖譜技術(shù)與應(yīng)用_第1頁(yè)
2021知識(shí)圖譜技術(shù)與應(yīng)用_第2頁(yè)
2021知識(shí)圖譜技術(shù)與應(yīng)用_第3頁(yè)
2021知識(shí)圖譜技術(shù)與應(yīng)用_第4頁(yè)
2021知識(shí)圖譜技術(shù)與應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩89頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2021知識(shí)圖譜技術(shù)與應(yīng)用目錄第一章知識(shí)圖譜概述第一節(jié)什么是知識(shí)圖譜一、知識(shí)圖譜的定義二、對(duì)知識(shí)圖譜定義的解讀三、知識(shí)圖譜的通用表示一、起源:科學(xué)知識(shí)圖譜二、發(fā)展:知識(shí)庫(kù)三、形成:知識(shí)圖譜一、邏輯架構(gòu)二、技術(shù)架構(gòu)譜的特點(diǎn)一、與早期語(yǔ)義二、與早期知識(shí)庫(kù)的比較三、與的應(yīng)用一、知識(shí)圖譜應(yīng)用于搜索——查詢理解二、知識(shí)圖譜應(yīng)用于回答——自動(dòng)問(wèn)答三、知識(shí)圖譜應(yīng)用于查閱——文檔表示第六節(jié)知識(shí)圖譜的重要意義二、升級(jí)傳統(tǒng)行業(yè)三、改善社會(huì)治理一、經(jīng)典的通用知識(shí)圖譜二、經(jīng)典的行業(yè)知識(shí)圖譜三、基于互聯(lián)網(wǎng)搜索的知識(shí)圖譜四、中文開(kāi)放知識(shí)圖譜聯(lián)盟第二章通用知識(shí)圖譜的技術(shù)要素第一節(jié)知識(shí)表示與建模一、知識(shí)抽取二、知識(shí)挖掘一、知識(shí)存儲(chǔ)二、知識(shí)融合一、知識(shí)檢索二、知識(shí)推理第三章行業(yè)知識(shí)圖譜的應(yīng)用場(chǎng)景第一節(jié)行業(yè)知識(shí)圖譜的特點(diǎn)第二節(jié)公安行業(yè)一、行業(yè)應(yīng)用背景二、解決方案二、應(yīng)用場(chǎng)景二、解決方案三、應(yīng)用價(jià)值二、電信反欺詐一、工業(yè)知識(shí)圖譜構(gòu)建二、工業(yè)知識(shí)圖譜應(yīng)用場(chǎng)景一、與機(jī)器學(xué)習(xí)相互滲透融合二、向更多行業(yè)滲透三、從學(xué)術(shù)界轉(zhuǎn)移到產(chǎn)業(yè)界一、知識(shí)獲取效率較低三、知識(shí)推理應(yīng)用進(jìn)展緩慢四、缺乏高質(zhì)量知識(shí)庫(kù)六、商業(yè)模式面臨阻礙第五章知識(shí)圖譜實(shí)戰(zhàn)案例一、痛點(diǎn)難點(diǎn)“虛擬生命一、痛點(diǎn)難點(diǎn)一、痛點(diǎn)難點(diǎn)一、痛點(diǎn)難點(diǎn)Pajek一、Pajek軟件概述二、Pajek三、PajekCiteSpace一、CiteSpace軟件概述二、CiteSpace三、CiteSpaceUCINET一、UCINET軟件概述二、UCINET的主要特點(diǎn)三、UCINET的主要分析方法第四節(jié)Gephi一、Gephi軟件概述二、GephiVOSviewer一、VOSviewer軟件概述二、VOSviewer三、VOSviewerVantagePoint一、VantagePoint軟件概述二、VantagePointSci2一、Sci2軟件概述二、Sci2SciMAT一、SciMAT軟件概述二、SciMAT第一章知識(shí)圖譜概述在互聯(lián)網(wǎng)時(shí)代,信息量呈爆炸式增長(zhǎng),這給人們有效地獲取信息和知識(shí)帶來(lái)了巨大的挑戰(zhàn)。知識(shí)圖譜(KnowledgeGraph,KG)以其強(qiáng)大的語(yǔ)義處理功能和快速分析能力,迅速成為互聯(lián)網(wǎng)用戶信賴的,可以快速、準(zhǔn)確地獲取信息資源的智能化搜索工具。特別是隨著人工智能的逐步發(fā)展與應(yīng)用,知識(shí)圖譜已成為一門關(guān)鍵技術(shù),被廣泛應(yīng)用于智能問(wèn)答、大數(shù)據(jù)分析、個(gè)性化推薦等領(lǐng)域。知識(shí)圖譜同深度學(xué)習(xí)一起,成為推動(dòng)人工智能發(fā)展的核心驅(qū)動(dòng)力之一。本章將從定義、發(fā)展歷程、架構(gòu)、特點(diǎn)等方面對(duì)知識(shí)圖譜進(jìn)行介紹。第一節(jié)什么是知識(shí)圖譜一、知識(shí)圖譜的定義前尚沒(méi)有一個(gè)公認(rèn)的定義。知識(shí)圖譜由Google公司在2012年提出,但發(fā)布時(shí)Google公司并沒(méi)有對(duì)這一概念做出清晰的定義。維基百科上知識(shí)圖譜的詞條實(shí)際是對(duì)Google公司搜索引擎使用的知識(shí)庫(kù)功能的描述,即知識(shí)圖譜是Google公司使用的一個(gè)知識(shí)庫(kù)及服務(wù),它利用從多種來(lái)源收集的信息提升搜索引擎返回的結(jié)果的質(zhì)量。百度百科將知識(shí)圖譜定義為“通過(guò)將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論和方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu),達(dá)到多學(xué)科融合目的的現(xiàn)代理論?!钡珡脑撛~條的詳細(xì)內(nèi)容可以看出,百度百科的定義仍是一種對(duì)知識(shí)圖譜的早期理解和對(duì)Google公司提出的知識(shí)圖譜功能的復(fù)述。國(guó)內(nèi)外學(xué)術(shù)機(jī)構(gòu)圍繞知識(shí)圖譜進(jìn)行了大量研究,近年來(lái)我國(guó)高校學(xué)者也在知識(shí)圖譜領(lǐng)域發(fā)表了許多優(yōu)秀的論文,并對(duì)知識(shí)圖譜做出了比較完整和全面的定義。如華東理工大學(xué)教授王昊奮認(rèn)為:“知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念。其中,每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí),這個(gè)ID被稱為它們的標(biāo)識(shí)符?!畬傩?值’對(duì)(Attribute-ValuePair,AVP)用來(lái)刻畫實(shí)體的內(nèi)在特性,而關(guān)系用來(lái)連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。”而電子科技大學(xué)的劉嶠等人認(rèn)為:“知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是‘實(shí)體-關(guān)系-實(shí)體’三元組以及實(shí)體及其屬性-值對(duì),實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)?!痹诨ヂ?lián)網(wǎng)上有大量對(duì)知識(shí)圖譜的討論,在知乎等社交問(wèn)答網(wǎng)站上存在多種對(duì)知識(shí)圖譜的表述,內(nèi)容大同小異,如“本質(zhì)上,知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成?,F(xiàn)在的知識(shí)圖譜已被用來(lái)泛指各種大規(guī)模的知識(shí)庫(kù)”。技術(shù)廠商和用戶對(duì)知識(shí)圖譜有著不同的理解,但大多沒(méi)有提出明確的定義。從以上研究中可以看到知識(shí)圖譜的起源和在中國(guó)的傳播發(fā)展。綜合其中的共識(shí),作者對(duì)本書探討的知識(shí)圖譜給出以下定義:知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),是新一代的知識(shí)庫(kù)技術(shù),通過(guò)結(jié)構(gòu)化、語(yǔ)義化的處理將信息轉(zhuǎn)化為知識(shí),并加以應(yīng)用。二、對(duì)知識(shí)圖譜定義的解讀對(duì)于上述知識(shí)圖譜的定義,可以從以下幾個(gè)方面進(jìn)行解讀。表現(xiàn)形式知識(shí)圖譜的抽象表現(xiàn)形式是以語(yǔ)義互相連接的實(shí)體,是把人對(duì)實(shí)體世界的認(rèn)知通過(guò)結(jié)構(gòu)化的方式轉(zhuǎn)化為計(jì)算機(jī)可理解和計(jì)算的語(yǔ)義信息。我們可以將知識(shí)圖譜理解成一個(gè)網(wǎng)狀知識(shí)庫(kù),這個(gè)知識(shí)庫(kù)反映的是一個(gè)實(shí)體及與其相關(guān)的其他實(shí)體或事件,不同的實(shí)體之間通過(guò)不同屬性的關(guān)系相互連接,從而形成了網(wǎng)。由此,知識(shí)圖譜可以被看成對(duì)物理世界的一種符號(hào)表達(dá)。涵蓋范圍知識(shí)圖譜由傳統(tǒng)的知識(shí)庫(kù)演變而來(lái),可以說(shuō)狹義的知識(shí)圖譜就是知識(shí)庫(kù),但廣義的知識(shí)圖譜應(yīng)涵蓋知識(shí)庫(kù)、從信息到知識(shí)的知識(shí)庫(kù)構(gòu)建以及高效定位正確的知識(shí)、發(fā)現(xiàn)隱含的知識(shí)的知識(shí)庫(kù)運(yùn)用等方面,目標(biāo)是解決信息過(guò)載和信息缺失的問(wèn)題。技術(shù)表現(xiàn)知識(shí)圖譜在技術(shù)上表現(xiàn)為技術(shù)棧,通常被認(rèn)為是由知識(shí)提取、知識(shí)融合、知識(shí)加工、知識(shí)呈現(xiàn)4層技術(shù)組合而成的。知識(shí)圖譜在知識(shí)庫(kù)的構(gòu)建方面具備接入多數(shù)據(jù)源的能力,比傳統(tǒng)的人工方式更加高效。除了知識(shí)庫(kù)部分外,知識(shí)圖譜技術(shù)還包括可以生成新知識(shí)的推理引擎,被視為自動(dòng)化、智能化的新一代知識(shí)庫(kù)技術(shù)。研究?jī)r(jià)值獲得高質(zhì)量的數(shù)據(jù)信息,進(jìn)而輔助人們進(jìn)行更多智能化的應(yīng)用。在實(shí)現(xiàn)這一目標(biāo)的過(guò)程解能力。構(gòu)建知識(shí)圖譜的目的就是讓機(jī)器形成這種認(rèn)知能力,使其能夠理解這個(gè)世界。知識(shí)的獲取,特別是自動(dòng)獲取本身就很難,知識(shí)的來(lái)源廣泛,且種類多樣,形成知識(shí)的數(shù)據(jù)可能是結(jié)構(gòu)化的,也可能是非結(jié)構(gòu)化的。獲取知識(shí)后的理解和推理是對(duì)知識(shí)的選擇和應(yīng)用,是將零散的數(shù)據(jù)整合到一起并梳理出脈絡(luò)的過(guò)程,更為復(fù)雜。這個(gè)時(shí)候,可以通過(guò)“圖”這樣一種直觀、清晰的基礎(chǔ)性通用“語(yǔ)言”,清楚地還原各個(gè)數(shù)據(jù)之間的復(fù)雜關(guān)系。知識(shí)圖譜的構(gòu)建就是在Web網(wǎng)頁(yè)的基礎(chǔ)上增加一層覆蓋的網(wǎng)狀的圖,將Web被利用的知識(shí)。應(yīng)用價(jià)值知識(shí)圖譜提供了一種從海量數(shù)據(jù)中抽取結(jié)構(gòu)化知識(shí)的手段,快速便捷,擁有廣闊的應(yīng)用前景。對(duì)于使用知識(shí)圖譜的人來(lái)說(shuō),相比文字,圖更加直觀、有條理,因此知識(shí)圖譜可以幫助人們更好地理解和記憶知識(shí)。很多人應(yīng)用思維導(dǎo)圖對(duì)知識(shí)進(jìn)行記憶和梳理,在這個(gè)過(guò)程中應(yīng)用的是使用者本身的記憶習(xí)慣和技巧。知識(shí)圖譜是從知識(shí)本身出發(fā),保留了知識(shí)原來(lái)的組織,引導(dǎo)使用者理解知識(shí)。對(duì)于使用知識(shí)圖譜的軟件、服務(wù)、系統(tǒng)來(lái)說(shuō),知識(shí)圖譜提供了結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)格答案的網(wǎng)頁(yè)。知識(shí)圖譜由復(fù)雜多層次的技術(shù)棧構(gòu)成,內(nèi)涵覆蓋構(gòu)建、應(yīng)用等多個(gè)生命周期環(huán)節(jié),知于簡(jiǎn)單化理解,或者將其等同于傳統(tǒng)的專家?guī)?,或者認(rèn)為其就是圖可視化的炫酷展現(xiàn)形兩個(gè)方面提升信息轉(zhuǎn)化為知識(shí)并且被利用的效率,具體如下。知識(shí)結(jié)構(gòu)化:與傳統(tǒng)知識(shí)庫(kù)相比,知識(shí)圖譜在知識(shí)構(gòu)建部分除了專家人工的方式,數(shù)據(jù)中抽取知識(shí)。分析洞察:在人、企業(yè)、產(chǎn)品、興趣、想法、事實(shí)存在交織的關(guān)聯(lián)關(guān)系時(shí),使用圖分析這些復(fù)雜的關(guān)系效率更高,也更加有可擴(kuò)展性。如應(yīng)用圖遍歷、最短路徑、三角計(jì)物和特殊關(guān)系群體發(fā)現(xiàn)等工作時(shí),可得到較好的效果。從企業(yè)級(jí)信息管理的全局視角來(lái)看,知識(shí)圖譜無(wú)疑是企業(yè)信息管理的一種方式和手段。知識(shí)圖譜的主要功能(如文本分析、語(yǔ)義計(jì)算等)據(jù)治理和知識(shí)管理機(jī)制、較好的基礎(chǔ)數(shù)據(jù)質(zhì)量、對(duì)數(shù)據(jù)技術(shù)能力和團(tuán)隊(duì)的積累等。三、知識(shí)圖譜的通用表示從本質(zhì)上來(lái)看,可以將知識(shí)圖譜理解成一張由不同知識(shí)點(diǎn)相互連接形成的語(yǔ)義網(wǎng)絡(luò)。任何一種網(wǎng)絡(luò)都是由節(jié)點(diǎn)和邊構(gòu)成的,因此,知識(shí)圖譜也是由節(jié)點(diǎn)和邊構(gòu)成的。節(jié)點(diǎn)表示實(shí)體或概念,邊表示實(shí)體的屬性或?qū)嶓w間的關(guān)系。知識(shí)圖譜中的節(jié)點(diǎn)分為以下兩種。實(shí)體:指具有可區(qū)別性且獨(dú)立存在的某種事物,如一個(gè)人、一座城市、一種商品素,每個(gè)實(shí)體可以用一個(gè)全局唯一的ID進(jìn)行標(biāo)識(shí)。語(yǔ)義類/等;而概念則反映一組實(shí)體的種類或?qū)ο箢愋?,如人物、氣候、地理等。知識(shí)圖譜中的邊分為以下兩種。屬性(值):指某個(gè)實(shí)體可能具有的特征、特性、特點(diǎn)以及參數(shù),是從某個(gè)實(shí)體指向它的屬性值的“邊”值。例如,圖1所示的“類別”“首都”是不同的屬性,“北京”是中國(guó)在“首都”這一屬性下的屬性值。關(guān)系:是連接不同實(shí)體的“邊”,可以是因果關(guān)系、相近關(guān)系、推論關(guān)系、組成關(guān)系取值反映實(shí)體間是否具有某種關(guān)系?;谝陨隙x,可以更好地理解三元組。三元組是知識(shí)圖譜的一種直觀、簡(jiǎn)潔的通用表示方式,可以方便計(jì)算機(jī)對(duì)實(shí)體關(guān)系進(jìn)行處理。用三元組G=(E,R,S)表示知識(shí)圖譜,其中,E={e1,e2,……,eE}是知識(shí)圖譜中的實(shí)體集合,包含|E|種不同的實(shí)體;R={r1,r2,……,rE}是知識(shí)圖譜中的關(guān)系集合,共包含|R|不同的關(guān)系;S?E×R×E是知識(shí)圖譜中的三元組集合。三元組的基本形式主要包括(實(shí)體1,關(guān)系,實(shí)體2)以及(概念屬性,屬性值)等。(實(shí)體1,關(guān)系,實(shí)體2)、(實(shí)體,屬性,屬性值)都是典型的三元組。如圖1所示,方塊是實(shí)體,橢圓是屬性值,實(shí)線是兩個(gè)實(shí)體之間的關(guān)系,虛線是實(shí)體的屬性。中國(guó)的首都是北京就可以用(中國(guó),首都,北京)表示。圖1知識(shí)圖譜示例第二節(jié)知識(shí)圖譜的發(fā)展歷程雖然知識(shí)圖譜這一命名是在2012年才出現(xiàn)的,但是它的發(fā)展歷程卻可以追溯到20世紀(jì)的引文網(wǎng)絡(luò)、語(yǔ)義Web、描述邏輯和專家系統(tǒng)等。在這一技術(shù)的歷史演變過(guò)程中,出現(xiàn)了多次發(fā)展瓶頸,人們也多次通過(guò)技術(shù)的發(fā)展突破了這些瓶頸。本節(jié)對(duì)知識(shí)圖譜的發(fā)展歷程進(jìn)行簡(jiǎn)要回溯。一、起源:科學(xué)知識(shí)圖譜1955年,尤金·加菲爾德(EugeneGarfield)在《科學(xué)》(Science)雜志發(fā)表了一篇題為《CitationIndexesforScience:ANewDimensioninDocumentationThroughAssociationofIdeas》的論文,提出了“引文索引”的設(shè)想,即提供一種文獻(xiàn)計(jì)量學(xué)的工具,幫助科學(xué)家識(shí)別其感興趣的文獻(xiàn)。這一引文技術(shù)的概念開(kāi)創(chuàng)了從引文角度研究文獻(xiàn)及科學(xué)發(fā)展動(dòng)態(tài)的新方法。1965年,普萊斯發(fā)表了《NetworksofScientificPapers》一文,提出了用引證網(wǎng)絡(luò)表示科學(xué)文獻(xiàn)之間印證關(guān)系的方法。這相當(dāng)于為當(dāng)代科學(xué)發(fā)展繪制了一張地形圖,由此引文網(wǎng)絡(luò)開(kāi)始成為研究科學(xué)發(fā)展脈絡(luò)的方法,進(jìn)而形成了科學(xué)知識(shí)圖譜(MappingKnowledgeDomain)的概念。但在這一階段,科學(xué)知識(shí)圖譜主要應(yīng)用于研究科學(xué)發(fā)展的歷程,更多地被用在科學(xué)計(jì)量學(xué)科和情報(bào)學(xué)科,致力于發(fā)展科學(xué)文獻(xiàn)引用網(wǎng)絡(luò)的可視化。1968年,奎林(J.R.Quillian)提出了語(yǔ)義網(wǎng)絡(luò)(SemanticNetwork)的概念,為人類聯(lián)想記憶提供了一個(gè)明顯的公理模型。這一模型的本質(zhì)是一種用圖表示知識(shí)的結(jié)構(gòu)化方間聯(lián)系的討論。在20世紀(jì)70年代的研究成果中,BertramC.Bruce提供了一種將語(yǔ)義網(wǎng)絡(luò)轉(zhuǎn)化成謂詞邏輯的算法,且該算法在計(jì)算上具有一定優(yōu)勢(shì);B.Kaiser給出了用語(yǔ)義網(wǎng)絡(luò)表示此技術(shù)可被廣泛應(yīng)用于機(jī)器翻譯、問(wèn)答系統(tǒng)和自然語(yǔ)言理解等任務(wù)。二、發(fā)展:知識(shí)庫(kù)1977年,美國(guó)斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家費(fèi)根·鮑姆教授在第五屆國(guó)際人工智能大會(huì)上提出了知識(shí)工程(KnowledgeEngineering)的概念。知識(shí)工程是通過(guò)存儲(chǔ)現(xiàn)有的專家知識(shí)對(duì)用戶的提問(wèn)進(jìn)行求解的系統(tǒng),本質(zhì)上是一個(gè)通過(guò)智能軟件建立的專家系統(tǒng),研究如何由計(jì)算機(jī)進(jìn)行問(wèn)題的自動(dòng)求解。知識(shí)工程的提出使人工智能的研究從基于推理的模型轉(zhuǎn)向基于知識(shí)的模型,從理論轉(zhuǎn)向了應(yīng)用。隨后,作為知識(shí)工程的一個(gè)重要組成部分,知識(shí)庫(kù)(KnowledgeBase,KB)應(yīng)運(yùn)而生,并成為知識(shí)圖譜技術(shù)發(fā)展史上的重要階段。知識(shí)庫(kù)來(lái)自于人工智能-知識(shí)工程領(lǐng)域和數(shù)據(jù)庫(kù)領(lǐng)域兩方面技術(shù)的有機(jī)融合。它經(jīng)過(guò)分類和有序化,根據(jù)一定格式將相互關(guān)聯(lián)的各種知識(shí)存儲(chǔ)在計(jì)算機(jī)中。相比于一般的數(shù)據(jù)庫(kù),知識(shí)庫(kù)可以對(duì)知識(shí)結(jié)構(gòu)進(jìn)行分析,根據(jù)知識(shí)的各方面特征將其編構(gòu)成便于利用的、有結(jié)構(gòu)的組織形式。相比于一般的應(yīng)用程序只能把問(wèn)題求解的知識(shí)隱含地編碼在程序中,知識(shí)庫(kù)則可以將問(wèn)題的答案顯式地表達(dá),并單獨(dú)組成一個(gè)相對(duì)獨(dú)立的程序?qū)嶓w。對(duì)于知識(shí)庫(kù)的研究,核心在于對(duì)知識(shí)的組織和表達(dá),因此邏輯基礎(chǔ)十分重要。在此后的一段時(shí)期,對(duì)語(yǔ)義網(wǎng)絡(luò)的研究方向逐漸轉(zhuǎn)變?yōu)榫哂袊?yán)格邏輯語(yǔ)義的表示和推理。從20世紀(jì)80年代末到20世紀(jì)90年代,語(yǔ)義網(wǎng)絡(luò)的工作集中在對(duì)概念之間關(guān)系的建模,有人提出了術(shù)語(yǔ)邏輯(TerminologicalLogic)以及描述邏輯的概念。這一時(shí)期比較有代表性的工作是Brachman等人提出的CLASSIC語(yǔ)言和Horrock實(shí)現(xiàn)的FaCT推理機(jī)。進(jìn)入21世紀(jì),語(yǔ)義網(wǎng)(SemanticWeb)和鏈接數(shù)據(jù)(LinkedData)的出現(xiàn)開(kāi)啟了語(yǔ)義網(wǎng)絡(luò)應(yīng)用的新場(chǎng)景。語(yǔ)義網(wǎng)和鏈接數(shù)據(jù)是萬(wàn)維網(wǎng)之父TimBernersLee分別在1998年和2006年提出的。相對(duì)于語(yǔ)義網(wǎng)絡(luò),語(yǔ)義網(wǎng)和鏈接數(shù)據(jù)傾向于描述萬(wàn)維網(wǎng)中資源、數(shù)據(jù)之間的關(guān)系。語(yǔ)義網(wǎng)中的“Web”希望將數(shù)據(jù)相互鏈接,組成一個(gè)龐大的信息網(wǎng)絡(luò),正如互聯(lián)網(wǎng)中相互鏈接的網(wǎng)頁(yè),只不過(guò)基本單位變?yōu)榱6雀〉臄?shù)據(jù)。在萬(wàn)維網(wǎng)誕生之初,網(wǎng)絡(luò)上的內(nèi)容只有人類可讀,計(jì)算機(jī)無(wú)法理解和處理。在用戶瀏覽網(wǎng)頁(yè)時(shí),計(jì)算機(jī)只能判斷這是一個(gè)網(wǎng)頁(yè),網(wǎng)頁(yè)里面有圖片、有鏈接,但并不知道圖片描述的是什么,也不清楚鏈接指向的頁(yè)面與當(dāng)前頁(yè)面有何關(guān)系。語(yǔ)義網(wǎng)是對(duì)Web的一個(gè)擴(kuò)展,其核心是給Web上的文檔添加能夠被計(jì)算機(jī)理解的“元數(shù)據(jù)”,使網(wǎng)絡(luò)上的數(shù)據(jù)對(duì)于機(jī)器可讀,進(jìn)而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換媒介。語(yǔ)義網(wǎng)與傳統(tǒng)Web的最顯著區(qū)別是用戶可以上傳各種圖結(jié)構(gòu)的數(shù)據(jù),并且數(shù)據(jù)之間可以建立鏈接,從而形成鏈接數(shù)據(jù)。鏈接數(shù)據(jù)產(chǎn)生的目的是定義如何利用語(yǔ)義網(wǎng)技術(shù)在網(wǎng)上發(fā)布數(shù)據(jù),強(qiáng)調(diào)在不同的數(shù)據(jù)集間創(chuàng)建鏈接。鏈接數(shù)據(jù)項(xiàng)目匯集了很多高質(zhì)量的知識(shí)庫(kù),如FreeBase、DBpedia和YAGO,這些知識(shí)庫(kù)都來(lái)源于人工編輯的大規(guī)模知識(shí)庫(kù)——維基百科,隨后出現(xiàn)的知識(shí)圖譜就是對(duì)鏈接數(shù)據(jù)這一概念的進(jìn)一步包裝。在這一階段,由于技術(shù)發(fā)展程度的限制,知識(shí)庫(kù)更多以機(jī)構(gòu)知識(shí)庫(kù)的形式出現(xiàn)。對(duì)于特定的機(jī)構(gòu),由于該機(jī)構(gòu)所在領(lǐng)域的知識(shí)規(guī)模通常相對(duì)較小,因此容易通過(guò)知識(shí)庫(kù)的理論和方法進(jìn)行有效的組織和管理。有了機(jī)構(gòu)知識(shí)庫(kù),對(duì)機(jī)構(gòu)內(nèi)容知識(shí)的保存、管理、訪問(wèn)更加方便,人們甚至可以利用機(jī)構(gòu)知識(shí)庫(kù)進(jìn)行預(yù)測(cè)和決策支持。三、形成:知識(shí)圖譜隨著互聯(lián)網(wǎng)的發(fā)展,知識(shí)與信息呈現(xiàn)爆發(fā)式增長(zhǎng),搜索引擎的使用越來(lái)越廣泛。但海量的信息使得傳統(tǒng)萬(wàn)維網(wǎng)并不能滿足人們快速、準(zhǔn)確地獲取高質(zhì)量信息的需求,于是,知識(shí)圖譜出現(xiàn)了。2012年11月,Google公司率先提出知識(shí)圖譜的概念,表示將在其搜索結(jié)果中加入知識(shí)圖譜的功能。此時(shí)的知識(shí)圖譜與最初在引文網(wǎng)絡(luò)中出現(xiàn)的科學(xué)知識(shí)圖譜有很大的區(qū)別,但與知識(shí)庫(kù)在理論和方法上還比較相近,只是由于建立在互聯(lián)網(wǎng)搜索引擎的發(fā)展之上,知識(shí)圖譜的含義更加寬泛。從發(fā)展愿景來(lái)看,知識(shí)圖譜里的知識(shí)應(yīng)該包含人們生活中的萬(wàn)事萬(wàn)物,涵蓋人類文明發(fā)現(xiàn)和創(chuàng)造的所有知識(shí)。知識(shí)圖譜由知識(shí)及知識(shí)之間的關(guān)系組成,知識(shí)(實(shí)體)的內(nèi)部特征使用屬性-值對(duì)表示;知識(shí)(實(shí)體)之間的關(guān)系通過(guò)相互連接的邊表示。從機(jī)構(gòu)知識(shí)庫(kù)到互聯(lián)網(wǎng)搜索引擎,面向知識(shí)圖譜的研究不斷深入。傳統(tǒng)的搜索引擎是基于關(guān)鍵詞匹配的,而知識(shí)圖譜是利用知識(shí)(實(shí)體或概念)之間的匹配度建立一個(gè)有序的知識(shí)組織,為用戶提供智能化的訪問(wèn)接口,使用戶在搜索時(shí)可以更加快速、準(zhǔn)確地獲得一個(gè)全面的信息體系。其工作原理如圖2所示。圖2知識(shí)圖譜工作原理Google公司擁有數(shù)量眾多的互聯(lián)網(wǎng)用戶,有需求和資本建立一個(gè)龐大的知識(shí)圖譜。Google公司采用多種語(yǔ)言對(duì)知識(shí)圖譜中的實(shí)體、屬性和實(shí)體間的關(guān)系進(jìn)行描述。根據(jù)2015年統(tǒng)計(jì)的數(shù)據(jù),Google公司構(gòu)建的知識(shí)圖譜擁有5億個(gè)實(shí)體、約35億條實(shí)體關(guān)系信息,已被廣泛用于提高搜索引擎的搜索質(zhì)量。在Google知識(shí)圖譜中,一個(gè)大規(guī)模的、協(xié)同合作的知識(shí)庫(kù)——FreeBase起到了重要作用。FreeBase即鏈接數(shù)據(jù)的一個(gè)數(shù)據(jù)集,采用“圖”的數(shù)據(jù)結(jié)構(gòu),把知識(shí)庫(kù)繪制成一個(gè)有向圖。這種數(shù)據(jù)模型相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)的優(yōu)勢(shì)在于其可以處理更復(fù)雜的數(shù)據(jù)以及方便數(shù)據(jù)的插入。Google知識(shí)圖譜的模式(Schema)是由Google公司的專業(yè)團(tuán)隊(duì)在FreeBase的基礎(chǔ)上開(kāi)發(fā)和設(shè)計(jì)的。在Google知識(shí)圖譜中,所有的對(duì)象都有屬于它的類型(Type),類型的數(shù)量是不固定的。在Google之后,微軟、百度、搜狗等互聯(lián)網(wǎng)公司紛紛開(kāi)始構(gòu)建自己的知識(shí)圖譜。隨著探索研究的不斷深入,知識(shí)圖譜作為一種新的知識(shí)管理思路,不再局限于搜索引擎的拓展應(yīng)用中,開(kāi)始在各類智能系統(tǒng)(如IBMWatson)以及數(shù)據(jù)存儲(chǔ)等領(lǐng)域發(fā)揮關(guān)鍵作用。但是目前的知識(shí)圖譜構(gòu)建尚不完善,期待知識(shí)圖譜在實(shí)體之間更加復(fù)雜的關(guān)系推理等方面有更多的突破。第三節(jié)知識(shí)圖譜的架構(gòu)知識(shí)圖譜的架構(gòu)包括知識(shí)圖譜自身具備的邏輯架構(gòu)和構(gòu)建知識(shí)圖譜采用的技術(shù)架構(gòu)兩部分。一、邏輯架構(gòu)由一系列的事實(shí)(Fact)組成。知識(shí)以事實(shí)為單位存儲(chǔ)在圖數(shù)據(jù)庫(kù)中,例如Google的Graphd和微軟的Trinity都是典型的圖數(shù)據(jù)庫(kù)。采用(實(shí)體,關(guān)系,實(shí)體)或(實(shí)體,屬性,屬性值)據(jù)構(gòu)建成龐大的實(shí)體關(guān)系網(wǎng)絡(luò),形成一個(gè)知識(shí)的“圖譜”。知識(shí)圖譜的邏輯架構(gòu)如圖3所示。圖3知識(shí)圖譜的邏輯架構(gòu)知識(shí)圖譜的模式層在數(shù)據(jù)層之上,是知識(shí)圖譜的核心。模式層存儲(chǔ)的是經(jīng)過(guò)提煉的知識(shí)。通常采用本體庫(kù)管理模式層,借助本體庫(kù)對(duì)公理、規(guī)則和約束條件的支持能力規(guī)范實(shí)體之間的聯(lián)系。這里提到的“本體”是一個(gè)形式化的、對(duì)于共享概念模型明確而詳細(xì)的規(guī)范說(shuō)明。形式化指本體可通過(guò)各種形式化的語(yǔ)言進(jìn)行描述,這種形式化的語(yǔ)言對(duì)于計(jì)算機(jī)來(lái)說(shuō)都是可讀、可操作的。共享指本體體現(xiàn)的是公認(rèn)的知識(shí),反映的是對(duì)相關(guān)領(lǐng)域中知識(shí)的共同理準(zhǔn)。擁有本體庫(kù)的知識(shí)庫(kù)層次結(jié)構(gòu)強(qiáng),且其中的冗余知識(shí)比較少。二、技術(shù)架構(gòu)知識(shí)圖譜的技術(shù)架構(gòu)也被稱為體系架構(gòu),是指其在構(gòu)建知識(shí)圖譜時(shí)選擇的模式結(jié)構(gòu)。知識(shí)圖譜的構(gòu)建從最原始的數(shù)據(jù)出發(fā),采用一系列自動(dòng)或者半自動(dòng)的技術(shù)手段,從數(shù)據(jù)庫(kù)中提取知識(shí),并將其存入知識(shí)庫(kù)的數(shù)據(jù)層和模式層。圖4展示的是Google知識(shí)圖譜采用的架構(gòu)。虛線框的左邊是可以輸入的3種數(shù)據(jù)結(jié)構(gòu):結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫(kù))、半結(jié)構(gòu)化數(shù)據(jù)(如XML)和非結(jié)構(gòu)化數(shù)據(jù)(如圖像、文本),數(shù)據(jù)來(lái)源沒(méi)有限制;虛線框的右邊是生成的知識(shí)圖譜,這個(gè)過(guò)程循環(huán)往復(fù),且隨著人的認(rèn)知能力的提升而不斷更新迭代;虛線框內(nèi)是知識(shí)圖譜的構(gòu)建過(guò)程,主要包含信息抽取、知識(shí)融合、知識(shí)加工3個(gè)階段。圖4Google知識(shí)圖譜的架構(gòu)基礎(chǔ)上形成本體化的知識(shí)表達(dá)。實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)多個(gè)不同的實(shí)體等。知識(shí)加工:經(jīng)過(guò)融合的新知識(shí)需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別才能將合格的部分加入知識(shí)庫(kù)中,以確保知識(shí)庫(kù)的質(zhì)量。知識(shí)圖譜的構(gòu)建有自頂向下(Top-Down)與自底向上(BottomUp)兩種方式。自頂向下是先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,借助百科類網(wǎng)站等結(jié)構(gòu)化的數(shù)據(jù)源,從高質(zhì)量的數(shù)據(jù)中提取本體和模式信息加入知識(shí)庫(kù);而自底向上是通過(guò)一定的技術(shù)手段,從公開(kāi)的數(shù)據(jù)中提出資源模式,選擇其中置信度較高的模式,經(jīng)人工審核后加入知識(shí)庫(kù),之后再構(gòu)建頂層的本體模式。架構(gòu)構(gòu)建過(guò)程中涉及的關(guān)鍵技術(shù)將在第二章展開(kāi)介紹。在知識(shí)圖譜技術(shù)的發(fā)展初期,企業(yè)和科研機(jī)構(gòu)大多采用自頂向下的方式構(gòu)建基礎(chǔ)知識(shí)庫(kù),如Google公司的FreeBase以維基百科為主要的數(shù)據(jù)來(lái)源。但隨著技術(shù)的不斷發(fā)展和成熟,目前,大多數(shù)知識(shí)圖譜是采用自底向上的方式構(gòu)建的,其中典型的是Google公司的KnowledgeVault和微軟公司的Satori知識(shí)庫(kù),兩者都將公開(kāi)采集的海量網(wǎng)頁(yè)作為數(shù)據(jù)來(lái)源,對(duì)現(xiàn)有知識(shí)庫(kù)不斷進(jìn)行豐富和完善。這符合互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)容知識(shí)產(chǎn)生的特點(diǎn)。第四節(jié)知識(shí)圖譜的特點(diǎn)知識(shí)圖譜經(jīng)歷了由人工和群體智慧構(gòu)建到面向互聯(lián)網(wǎng)數(shù)據(jù)利用機(jī)器學(xué)習(xí)和信息抽取技術(shù)自動(dòng)獲取的過(guò)程。其發(fā)展過(guò)程中的不斷演化使得知識(shí)圖譜相較于早期的技術(shù)有了更多不同的特點(diǎn)。同最早的科學(xué)知識(shí)圖譜相比,現(xiàn)在的知識(shí)圖譜是動(dòng)態(tài)的,在不同的時(shí)間段,各個(gè)節(jié)點(diǎn)之間的關(guān)系是不斷更新迭代的。與語(yǔ)義網(wǎng)絡(luò)、知識(shí)庫(kù)等技術(shù)相比,知識(shí)圖譜有其優(yōu)勢(shì)。一、與早期語(yǔ)義網(wǎng)絡(luò)的比較同早期的語(yǔ)義網(wǎng)絡(luò)相比,知識(shí)圖譜具有以下特點(diǎn)。關(guān)注實(shí)體間的關(guān)聯(lián)。早期的語(yǔ)義網(wǎng)絡(luò)主要應(yīng)用于對(duì)自然語(yǔ)句的表示,而知識(shí)圖譜強(qiáng)系,但這些關(guān)系相比實(shí)體之間的關(guān)系要少得多。行構(gòu)建,而知識(shí)圖譜可以從百科等半結(jié)構(gòu)化的數(shù)據(jù)中自動(dòng)抽取得到。強(qiáng)調(diào)知識(shí)間的融合。知識(shí)圖譜繪制中抽取的知識(shí)不是獨(dú)立的某種類型或某個(gè)學(xué)科。不是早期語(yǔ)義網(wǎng)絡(luò)關(guān)注的重點(diǎn)。二、與早期知識(shí)庫(kù)的比較同早期的知識(shí)庫(kù)相比,知識(shí)圖譜具有以下特點(diǎn)。描述更加客觀。傳統(tǒng)的知識(shí)庫(kù)大多來(lái)源于人工編輯的大規(guī)模知識(shí)庫(kù)——維基百科,而知識(shí)圖譜的數(shù)據(jù)源是確定的、客觀的大樣本網(wǎng)頁(yè)數(shù)據(jù),在針對(duì)實(shí)體屬性的分析過(guò)程中可以消除很多主觀因素的影響,繪制的圖譜具有客觀性。知識(shí)發(fā)現(xiàn)能力。知識(shí)圖譜不僅要呈現(xiàn)實(shí)體的基本情況,還要揭示各個(gè)實(shí)體背后隱含的關(guān)系、規(guī)律和趨勢(shì),從而產(chǎn)生新的“事實(shí)”,即新的知識(shí)?;谥R(shí)圖譜的交互探索式分具有了像人一樣的分析能力。知識(shí)學(xué)習(xí)能力。知識(shí)圖譜利用交互式機(jī)器學(xué)習(xí)技術(shù),支持基于推理、糾錯(cuò)、標(biāo)注等對(duì)經(jīng)驗(yàn)的依賴。三、與傳統(tǒng)數(shù)據(jù)技術(shù)的比較同傳統(tǒng)的數(shù)據(jù)技術(shù)相比,知識(shí)圖譜具有以下特點(diǎn)。關(guān)系的表達(dá)能力更強(qiáng)。傳統(tǒng)的數(shù)據(jù)庫(kù)通常只能用表格、字段的方式進(jìn)行讀取,知識(shí)關(guān)聯(lián)分析,滿足用戶對(duì)不同實(shí)體關(guān)系進(jìn)行分析和管理的需要。數(shù)據(jù)的反饋速度更快。相比傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式,采取圖式的儲(chǔ)存,數(shù)據(jù)調(diào)取速度互動(dòng)的實(shí)時(shí)響應(yīng),讓用戶可以做到即時(shí)決策。第五節(jié)知識(shí)圖譜的應(yīng)用不知不覺(jué)中,知識(shí)圖譜的應(yīng)用已經(jīng)深刻融入了人們的日常生活。在搜索引擎中,搜索結(jié)果給出的聯(lián)想結(jié)果往往來(lái)自于知識(shí)圖譜技術(shù)的應(yīng)用;應(yīng)用軟件依據(jù)用戶的習(xí)慣和愛(ài)好進(jìn)行的個(gè)性化推薦也來(lái)自于知識(shí)圖譜技術(shù)的應(yīng)用……越來(lái)越多的應(yīng)用場(chǎng)景依賴知識(shí)圖譜。一、知識(shí)圖譜應(yīng)用于搜索——查詢理解是可能包含答案的網(wǎng)頁(yè),而是答案本身,知識(shí)圖譜技術(shù)將傳統(tǒng)的鏈接文本轉(zhuǎn)變?yōu)殒溄訑?shù)據(jù)。Google、百度等搜索引擎巨頭構(gòu)建知識(shí)圖譜的重要目標(biāo)之一是令機(jī)器能夠更好地理解用戶輸入的關(guān)鍵詞。通常,用戶輸入的是一個(gè)短文本,由一個(gè)或幾個(gè)關(guān)鍵詞構(gòu)成,傳統(tǒng)的關(guān)鍵詞匹配技術(shù)并不能理解關(guān)鍵詞背后的含義,因此需要用戶自己對(duì)搜索結(jié)果進(jìn)行篩選確認(rèn),查詢效果可能會(huì)很差。如搜索“珠穆朗瑪峰高度”這樣的關(guān)鍵詞,傳統(tǒng)的搜索引擎只能機(jī)械地返回所有含有“珠穆朗瑪峰”和“高度”這樣詞的網(wǎng)頁(yè),而現(xiàn)在的百度查詢不僅會(huì)反饋匹配關(guān)鍵詞的網(wǎng)頁(yè),也會(huì)在頁(yè)面直接呈現(xiàn)結(jié)果——珠穆朗瑪峰的高度是8844.43m。另外,采用知識(shí)圖譜理解用戶的查詢意圖,還可以更好地匹配商業(yè)廣告信息,提高廣告點(diǎn)擊率。二、知識(shí)圖譜應(yīng)用于回答——自動(dòng)問(wèn)答多年前,很多學(xué)者預(yù)測(cè),下一代搜索引擎將能夠直接回答人們提出的問(wèn)題,這種形式被稱為自動(dòng)問(wèn)答。自動(dòng)問(wèn)答系統(tǒng)是具有交互形式的進(jìn)階版搜索引擎,而知識(shí)圖譜的重要應(yīng)用之一就是為自動(dòng)問(wèn)答提供知識(shí)庫(kù)。例如蘋果手機(jī)的智能語(yǔ)音助手Siri就依托于WolframAlpha公司提供的知識(shí)搜索技術(shù)。為了使對(duì)話系統(tǒng)更加準(zhǔn)確地給出用戶想要了解的信息,其必須依托強(qiáng)大的知識(shí)圖譜。三、知識(shí)圖譜應(yīng)用于查閱——文檔表示文檔表示是計(jì)算機(jī)自然語(yǔ)言處理的基礎(chǔ),如文檔分類、文檔摘要、關(guān)鍵詞抽取等。經(jīng)典的文檔表示方案是空間向量模型(VectorSpaceModel),該模型將文檔表示為詞匯的向量,而不考慮文檔中詞匯的順序信息。這種文檔表示方案與基于關(guān)鍵詞匹配技術(shù)的搜索方案相匹配,由于其表示簡(jiǎn)單,效率較高,是目前主流搜索引擎采用的技術(shù)。然而,經(jīng)典的文檔表示方案未考慮詞匯之間的復(fù)雜語(yǔ)義關(guān)系,往往難以高效處理稀疏短文本。這些缺陷在一定程度上影響了用戶的實(shí)際應(yīng)用。但基于知識(shí)圖譜的文檔表示可以將文檔表示為知識(shí)圖譜的一個(gè)子圖(Sub-Graph),即用該文檔中出現(xiàn)或涉及的實(shí)體及其關(guān)系構(gòu)成的圖表示該文檔。這種知識(shí)圖譜的子圖比詞匯向量擁有更豐富的表示空間,為文檔分類、文檔摘要和關(guān)鍵詞抽取等應(yīng)用提供了更豐富的可供計(jì)算和比較的信息。這樣的文檔表示使得一篇文章不再只是一組代表詞匯的字符串,還是一張由文章實(shí)體及語(yǔ)義關(guān)系構(gòu)成的圖譜。第六節(jié)知識(shí)圖譜的重要意義通過(guò)知識(shí)圖譜技術(shù)對(duì)海量信息進(jìn)行智能化處理,可形成大規(guī)模的知識(shí)庫(kù)并進(jìn)而支撐業(yè)務(wù)應(yīng)用,使得機(jī)器能夠更好地理解網(wǎng)絡(luò)、理解用戶、理解資源,最終為用戶提供新型智能化服務(wù)。大規(guī)模構(gòu)建并應(yīng)用知識(shí)圖譜,對(duì)于互聯(lián)網(wǎng)行業(yè)、傳統(tǒng)行業(yè)甚至社會(huì)治理具有重要意義。一、提升互聯(lián)網(wǎng)服務(wù)作為互聯(lián)網(wǎng)最重要的入口,搜索引擎正在朝著以知識(shí)圖譜為基礎(chǔ)的智能搜索方向發(fā)計(jì)算,為人們提供更加直接的答案/服務(wù),使搜索引擎更加智能;提供個(gè)性化/場(chǎng)景化的搜發(fā)現(xiàn);最終,使人們更好地獲取知識(shí)、應(yīng)用知識(shí)、滿足所求,使產(chǎn)業(yè)和生態(tài)以更高的效率、更好的效果獲取相應(yīng)的回報(bào)。二、升級(jí)傳統(tǒng)行業(yè)除了互聯(lián)網(wǎng)上的海量數(shù)據(jù)外,各個(gè)行業(yè)也擁有大量的行業(yè)數(shù)據(jù)、專業(yè)數(shù)據(jù)。構(gòu)建行業(yè)知識(shí)圖譜可為傳統(tǒng)行業(yè)注入新動(dòng)能,從而升級(jí)傳統(tǒng)行業(yè)。以金融為例,金融行業(yè)擁有大量機(jī)構(gòu)和個(gè)人的存貸款、交易、征信、消費(fèi)、投資數(shù)據(jù)等。金融知識(shí)圖譜可以在智能投顧、反欺詐等領(lǐng)域發(fā)揮重要作用。以客服為例,智能客服利用知識(shí)圖譜技術(shù),根據(jù)不同行業(yè)、不同企業(yè)的信息和知識(shí)構(gòu)建專用知識(shí)庫(kù),可以提升客服的效率;通過(guò)進(jìn)一步的需求挖掘、產(chǎn)品改進(jìn),推薦高匹配度產(chǎn)品,可以提升訂單轉(zhuǎn)化率。以教育為例,知識(shí)圖譜一方面可以整合海量的教育資源(包括文檔、圖書、視頻、AR等內(nèi)容),打造系統(tǒng)化的知識(shí)網(wǎng)絡(luò);另一方面可以根據(jù)用戶的特點(diǎn),直接為用戶推薦合適的內(nèi)容和方法,為用戶提供個(gè)性化的學(xué)習(xí)方案,滿足用戶學(xué)習(xí)所需。以醫(yī)療為例,知識(shí)圖譜可以整合大量的專業(yè)醫(yī)學(xué)書籍、文獻(xiàn)、醫(yī)療大數(shù)據(jù)等,打造醫(yī)療知識(shí)庫(kù)。根據(jù)收集到的患者信息以及自建醫(yī)療知識(shí)庫(kù)里面的海量?jī)?nèi)容,知識(shí)圖譜可以為醫(yī)生診療提供臨床決策支持。進(jìn)一步地,知識(shí)圖譜可以打造“醫(yī)療大腦”,為患者提供精準(zhǔn)醫(yī)療。三、改善社會(huì)治理政府、企業(yè)擁有大量的公眾數(shù)據(jù)和公共服務(wù)數(shù)據(jù)。知識(shí)圖譜作為基礎(chǔ)技術(shù),對(duì)這些海量數(shù)據(jù)進(jìn)行分析,并將結(jié)果應(yīng)用到社會(huì)治理和公共服務(wù)的各個(gè)領(lǐng)域,可以大幅提升全社會(huì)的智能化水平,全面提升人民的生活品質(zhì)。在工商方面,政府擁有大量的工商企業(yè)信息。通過(guò)知識(shí)圖譜技術(shù)構(gòu)建工商圖譜,對(duì)接消費(fèi)者和企業(yè),將有效地強(qiáng)化工商治理,打擊假冒偽劣商品和虛假違法信息,有利于營(yíng)造誠(chéng)實(shí)可信、安全健康的消費(fèi)環(huán)境,最終提高工商監(jiān)管的效能,形成精準(zhǔn)治理、多方協(xié)作的工商治理新模式。在交通方面,打造便捷、安全、高效的智能交通體系是智慧城市的一個(gè)重要部分。作為承載人們?nèi)粘=煌ǔ鲂械闹匾脚_(tái),手機(jī)地圖、車載地圖積累了海量的數(shù)據(jù),通過(guò)知識(shí)圖譜等人工智能技術(shù)對(duì)交通數(shù)據(jù)、出行數(shù)據(jù)、興趣點(diǎn)(PointofInterest,POI)數(shù)據(jù)進(jìn)行分析、推理計(jì)算,將極大地改善現(xiàn)有交通管理的難題,降低擁堵指數(shù),提升出行效率。行綜合分析,準(zhǔn)確感知、預(yù)測(cè)、預(yù)警社會(huì)輿論的重大態(tài)勢(shì),及時(shí)把握群體認(rèn)知及心理變化,進(jìn)行主動(dòng)決策反應(yīng),提高社會(huì)治理的能力和水平。在法律法規(guī)方面,知識(shí)圖譜可以充分發(fā)揮知識(shí)匯聚和推理分析的作用,為大眾提供快速和個(gè)性化的法律法規(guī)咨詢。綜上,知識(shí)圖譜技術(shù)不僅具有較為廣闊的應(yīng)用范圍、明確的市場(chǎng)前景,而且對(duì)于提升社會(huì)效率、推動(dòng)經(jīng)濟(jì)發(fā)展、打造創(chuàng)新國(guó)家具有十分重要的意義。第七節(jié)代表性的知識(shí)圖譜在知識(shí)圖譜技術(shù)的發(fā)展過(guò)程中,有很多值得關(guān)注的代表性知識(shí)圖譜。表1是目前知名度較高的知識(shí)圖譜,接下來(lái)將重點(diǎn)介紹其中的一些關(guān)鍵圖譜。就知識(shí)的覆蓋范圍而言,知識(shí)圖譜分為通用知識(shí)圖譜和行業(yè)知識(shí)圖譜兩類。通用知識(shí)圖譜注重廣度,強(qiáng)調(diào)融合更多的實(shí)體,而行業(yè)知識(shí)圖譜受專屬行業(yè)的限制,具有特定的行業(yè)意義。本節(jié)分別介紹經(jīng)典的通用知識(shí)圖譜和行業(yè)知識(shí)圖譜,并著重探討互聯(lián)網(wǎng)行業(yè)的知識(shí)圖譜以及近年來(lái)興起的中文開(kāi)放知識(shí)圖譜聯(lián)盟中的重要成員。表1現(xiàn)有的代表性開(kāi)放知識(shí)圖譜一、經(jīng)典的通用知識(shí)圖譜事實(shí)上,在2012年Google公司發(fā)布KnowledgeGraph2005年開(kāi)始,DBpedia、YAGO等項(xiàng)目紛紛創(chuàng)建,這就是知識(shí)圖譜的雛形。其中,F(xiàn)reeBase、DBpedia、YAGO、WikiData是具有代表性的高質(zhì)量大規(guī)模開(kāi)放鏈接知識(shí)圖譜。FreeBaseFreeBase是一個(gè)開(kāi)放共享的、協(xié)同構(gòu)建的大規(guī)模鏈接數(shù)據(jù)庫(kù),由硅谷創(chuàng)業(yè)公司MetaWeb于2005年啟動(dòng)。后來(lái),Google公司在2010年收購(gòu)了FreeBase,并將其作為Google知識(shí)圖譜的數(shù)據(jù)來(lái)源之一。FreeBase主要采用社區(qū)成員的協(xié)作方式進(jìn)行人工構(gòu)建,其數(shù)據(jù)來(lái)源包括維基百科、世界名人數(shù)據(jù)庫(kù)NNDB、開(kāi)放音樂(lè)數(shù)據(jù)庫(kù)MusicBrainz以及社區(qū)用戶的貢獻(xiàn)等。FreeBase基于資源描述框架(ResourceDescriptionFramework,RDF)三元組模型,底層采用圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。它的特點(diǎn)是不對(duì)頂層本體做非常嚴(yán)格的控制,用戶可以創(chuàng)建和編輯類和關(guān)系的定義。截至2014年年底,F(xiàn)reeBase擁有6800萬(wàn)個(gè)實(shí)體、10億條關(guān)系知識(shí)、超過(guò)24億條事實(shí)三元組知識(shí)。2016年,Google公司將FreeBase的數(shù)據(jù)和API服務(wù)遷移至Wikidata,并正式關(guān)閉了FreeBase。DBpediaDBpedia是一個(gè)大規(guī)模的多語(yǔ)言百科知識(shí)圖譜,可以看作維基百科的結(jié)構(gòu)化版本,由德國(guó)萊比錫大學(xué)和柏林自由大學(xué)的科研人員在2006年開(kāi)始創(chuàng)建。DBpedia的產(chǎn)生原因是維基百科的固有結(jié)構(gòu)限制了某些查詢需求的實(shí)現(xiàn),如“18世紀(jì)之后的意大利作曲家”或“流過(guò)萊茵河的所有河”。DBpedia從維基百科的詞條里抽取出結(jié)構(gòu)化的知識(shí),以強(qiáng)化維基百科的搜尋功能,并將其他資料集聯(lián)結(jié)到維基百科。DBpedia使用固定的模式對(duì)維基百科中的實(shí)體信息進(jìn)行抽取,包括Abstract、Infobox、Category和PageLink等信息,并提供完整的數(shù)據(jù)集下載。DBpedia的第一份公開(kāi)數(shù)據(jù)集在2007年發(fā)布,通過(guò)自由授權(quán)的方式允許他人使用。截至2017年7月,DBpedia擁有127種語(yǔ)言的458萬(wàn)個(gè)實(shí)體和超過(guò)30億個(gè)三元組。YAGOYAGO可以看作一個(gè)將維基百科和WordNet整合到一起的大規(guī)模鏈接數(shù)據(jù)庫(kù),由德國(guó)馬克思·普朗克研究所的研究人員于2007年開(kāi)始創(chuàng)立。YAGO集成了Wikipedia、WordNet和GeoNames3個(gè)來(lái)源的數(shù)據(jù),將WordNet的詞匯定義與Wikipedia的分類體系進(jìn)行了融合,使得YAGO具有更加豐富的類別層次結(jié)構(gòu)。隨著時(shí)間的推移,YAGO技術(shù)不斷升級(jí),開(kāi)發(fā)人員為YAGO中的三元組增加了時(shí)間和空間知識(shí),為很多知識(shí)條目增加了時(shí)間和空間維度的屬性描述,完成了YAGO2的構(gòu)建,又利用相同的方法對(duì)不同語(yǔ)言的維基百科進(jìn)行抽取,構(gòu)建了YAGO3。目前,YAGO擁有10種語(yǔ)言、約459萬(wàn)個(gè)實(shí)體和1.2億個(gè)三元組,支持?jǐn)?shù)據(jù)集的完全下載,是IBMWatson的后端知識(shí)庫(kù)之一。WikidataWikidata是由維基媒體基金會(huì)在2012年啟動(dòng)的協(xié)作式多語(yǔ)言輔助知識(shí)庫(kù),目標(biāo)是構(gòu)建一個(gè)免費(fèi)開(kāi)放、多語(yǔ)言、可編輯的大規(guī)模共享鏈接數(shù)據(jù)庫(kù)。項(xiàng)目早期得到了微軟聯(lián)合創(chuàng)始人PaulAllen、GordonandBettyMoore基金會(huì)以及Google公司的聯(lián)合資助。Wikidata是維基百科、維基文庫(kù)、維基導(dǎo)游中結(jié)構(gòu)化數(shù)據(jù)的中央存儲(chǔ)器,支持以三元組為基礎(chǔ)的知識(shí)的自由編輯。Wikidata中每個(gè)實(shí)體可以有多個(gè)不同語(yǔ)言的標(biāo)簽、別名或描述。截至2016年,Wikidata支持超過(guò)350種語(yǔ)言,擁有超過(guò)2470多萬(wàn)個(gè)實(shí)體以及7000萬(wàn)個(gè)對(duì)實(shí)體的描述。二、經(jīng)典的行業(yè)知識(shí)圖譜接下來(lái)介紹早期經(jīng)典的行業(yè)知識(shí)圖譜。行業(yè)知識(shí)圖譜通常需要依靠特定行業(yè)的數(shù)據(jù)進(jìn)行構(gòu)建,具有特定的行業(yè)意義,實(shí)體的屬性與數(shù)據(jù)模式往往比較豐富,需要考慮不同的業(yè)務(wù)場(chǎng)景與使用人員。IMDb(InternetMovieDatabase)、MusicBrainz、ConceptNet是具有代表性的行業(yè)知識(shí)圖譜。IMDbIMDb是一個(gè)與電影、電影演員、電影制作以及電視節(jié)目相關(guān)的在線數(shù)據(jù)庫(kù),最早創(chuàng)建于1990年,1998年成為亞馬遜旗下的網(wǎng)站。其中的資料按類型進(jìn)行組織,每個(gè)具體的條目都包含了詳細(xì)的元信息。截至2018年6月21日,IMDb共收錄了4734693部作品的資料以及8702001名人物的資料。MusicBrainzMusicBrainz是一個(gè)自由的音樂(lè)數(shù)據(jù)庫(kù),致力于成為數(shù)字音頻和視頻的元數(shù)據(jù)庫(kù),而不只包含CD曲目信息,它被稱為“開(kāi)放音樂(lè)百科全書”。MusicBrainz的創(chuàng)始目的是突破CD數(shù)據(jù)庫(kù)(CDDatabase,CDDb)的限制,但如今的目標(biāo)已經(jīng)擴(kuò)大為一種結(jié)構(gòu)化的“音樂(lè)維基百科”。MusicBrainz通過(guò)數(shù)據(jù)庫(kù)和Web服務(wù)兩種方式向用戶社區(qū)提供服務(wù)。ConceptNetConceptNet是一個(gè)大規(guī)模多語(yǔ)言的常識(shí)知識(shí)庫(kù),最早源于麻省理工學(xué)院(MIT)媒體實(shí)驗(yàn)室的OpenMindCommonSense(OMCS)項(xiàng)目。ConceptNet主要依靠互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲3種方法進(jìn)行構(gòu)建,由三元組形式的關(guān)系型知識(shí)構(gòu)成。與鏈接數(shù)據(jù)和Google知識(shí)圖譜相比,ConceptNet比較側(cè)重于詞與詞之間的關(guān)系。目前,ConceptNet擁有304種語(yǔ)言的版本、超過(guò)390萬(wàn)個(gè)概念和2800個(gè)聲明(即網(wǎng)狀圖中的“邊”)。三、基于互聯(lián)網(wǎng)搜索的知識(shí)圖譜自2012年Google公司明確提出知識(shí)圖譜的概念開(kāi)始,各大互聯(lián)網(wǎng)巨頭開(kāi)始構(gòu)建自己的知識(shí)圖譜。國(guó)外以Google、微軟為代表,國(guó)內(nèi)以百度、搜狗為代表。GoogleKnowledgeGraph如前文所述,GoogleKG技術(shù)的目標(biāo)主要有3個(gè):首先是為用戶提供正確的搜索結(jié)果,在多重含義下的信息混淆中,為用戶找到最想要的答案;其次是為用戶提供結(jié)構(gòu)化的總結(jié),GoogleKG可以更好地理解用戶搜索的目的,用戶無(wú)須通過(guò)點(diǎn)擊其他鏈接搜索相關(guān)的信息,即可直接在頁(yè)面右側(cè)看到整合好的結(jié)果;另外,GoogleKG可以幫助用戶發(fā)掘更深、更廣的信息,例如,用戶搜索即將去往的目的地,GoogleKG會(huì)隨之提供相同名字的餐館、小說(shuō)、電影等,幫助用戶了解更多的知識(shí)。微軟“概念圖譜”2016年10月,微軟亞洲研究院正式發(fā)布了微軟“概念圖譜(ConceptGraph)”,該圖譜用于提升計(jì)算機(jī)的語(yǔ)義計(jì)算和人際互動(dòng)能力。ConceptGraph是一個(gè)大型的概念知識(shí)圖譜系統(tǒng),建立在由微軟構(gòu)建的Probase知識(shí)庫(kù)的基礎(chǔ)之上,核心知識(shí)庫(kù)包括超過(guò)540萬(wàn)條實(shí)體、近億條關(guān)系/屬性。微軟還發(fā)布了ConceptTagging模型,將文本詞條的實(shí)體映射到不同的語(yǔ)義概念,并根據(jù)實(shí)體文本內(nèi)容標(biāo)記相應(yīng)的概率標(biāo)簽,配合知識(shí)圖譜系統(tǒng)提升計(jì)算機(jī)的語(yǔ)義計(jì)算能力。例如“微軟”這個(gè)詞可以被自動(dòng)映射到“軟件公司”和“財(cái)富500強(qiáng)”等概念,并帶有相應(yīng)的概率標(biāo)簽。百度知心作為百度下一代搜索引擎的雛形,百度知心于2012年年底上線。百度知心致力于構(gòu)建宏大的知識(shí)網(wǎng)絡(luò),以圖文并茂的方式全方位地展示知識(shí),其特點(diǎn)是對(duì)搜索結(jié)果進(jìn)行細(xì)致的甄選和干預(yù),并利用數(shù)據(jù)挖掘技術(shù),將與關(guān)鍵詞相關(guān)的知識(shí)內(nèi)容聚合在一起,形成知識(shí)集群,滿足用戶的求知需求,實(shí)現(xiàn)搜索即答案的效果。戶在通用搜索中發(fā)出請(qǐng)求后,除了直接給出搜索答案,還以“為您推薦”和“相關(guān)搜索”的方式引導(dǎo)用戶進(jìn)入相關(guān)知識(shí)的頁(yè)面,這些頁(yè)面將向用戶呈現(xiàn)更豐富的內(nèi)容和信息。醫(yī)療、游戲等多個(gè)行業(yè)的專屬知識(shí)集群,其他行業(yè)的知識(shí)集群也在逐步發(fā)展中。搜狗知立方搜狗知立方是搜狗搜索打造的戰(zhàn)略級(jí)衍生產(chǎn)品,于2012年11月22日上線。它可以處理海量的互聯(lián)網(wǎng)碎片化信息,通過(guò)“語(yǔ)義理解”重新優(yōu)化計(jì)算搜索結(jié)果,向用戶呈現(xiàn)最核心的信息。2013年9月,搜狗移動(dòng)應(yīng)用產(chǎn)品搜狗語(yǔ)音助手實(shí)現(xiàn)了搜狗知立方數(shù)據(jù)的接入,標(biāo)志著搜狗知立方正式進(jìn)入無(wú)線領(lǐng)域。搜狗知立方的目標(biāo)是令用戶的搜索結(jié)果更加精準(zhǔn)、更加權(quán)威、更加全面。搜狗知立方將知識(shí)庫(kù)中的信息轉(zhuǎn)化為用戶可以理解的展現(xiàn)內(nèi)容;為用戶提供更多可以直接消費(fèi)的富文本信息,增添圖片、表格等,結(jié)果呈現(xiàn)方式不局限于文字;增加更多的用戶交互元素,如點(diǎn)擊試聽(tīng)等,提升用戶體驗(yàn)。四、中文開(kāi)放知識(shí)圖譜聯(lián)盟隨著知識(shí)圖譜技術(shù)的逐漸興起和應(yīng)用深入,國(guó)內(nèi)從事知識(shí)圖譜研究與開(kāi)發(fā)的學(xué)者和機(jī)構(gòu)在2016年共同發(fā)起了一個(gè)開(kāi)放的中文知識(shí)圖譜聯(lián)盟——OpenKG。OpenKG旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用,促進(jìn)跨領(lǐng)域的交流,讓知識(shí)圖譜能更多地在垂直行業(yè)落地。聯(lián)盟搭建了OpenKG.CN的技術(shù)平臺(tái),有35家機(jī)構(gòu)入駐,吸引了國(guó)內(nèi)很多著名知識(shí)圖譜資源的入駐,如Zhishi.me、CN-DBpedia、PKUBase等,并已經(jīng)有來(lái)自于常識(shí)、醫(yī)療、金融、城市等15個(gè)類目的開(kāi)放知識(shí)圖譜。OpenKG聚集的知識(shí)圖譜資源規(guī)模見(jiàn)表2。表2OpenKG聚集的知識(shí)圖譜資源規(guī)模第二章通用知識(shí)圖譜的技術(shù)要素通用知識(shí)圖譜是對(duì)全網(wǎng)大數(shù)據(jù)的挖掘、抽取、清洗、融合、關(guān)聯(lián)和推理,通過(guò)知識(shí)底向上的4個(gè)過(guò)程:知識(shí)表示與建模、知識(shí)抽取與挖掘、知識(shí)存儲(chǔ)與融合、知識(shí)檢索與推理。如前所述,知識(shí)圖譜構(gòu)建主要有自頂向下(Top-Down)和自底向上(Bottom-Up)兩種方法。兩種方法在具體的構(gòu)建過(guò)程中通常不是從零開(kāi)始的,前者可以利用現(xiàn)有的結(jié)構(gòu)化的知識(shí)庫(kù),后者則可以從開(kāi)放鏈接數(shù)據(jù)或在線百科中得到很多實(shí)體。以下將以通用知識(shí)圖譜的技術(shù)要素為線,簡(jiǎn)要介紹在通用知識(shí)圖譜構(gòu)建方面的主要技術(shù)。第一節(jié)知識(shí)表示與建模一、知識(shí)表示知識(shí)表示的概念知識(shí)表示從一般意義上來(lái)說(shuō)是將客觀世界符號(hào)化、模型化,是認(rèn)知科學(xué)、人工智能兩個(gè)領(lǐng)域共同面對(duì)的問(wèn)題。在認(rèn)知科學(xué)里,它關(guān)系到人類如何存儲(chǔ)和處理資料;在人工智能里,其主要目的是將人類知識(shí)表示成機(jī)器可理解的數(shù)據(jù)模式,讓程序能夠存儲(chǔ)、處理和運(yùn)用知識(shí),進(jìn)而接近人類的智慧水平。從其表示特征來(lái)看,知識(shí)表示可分為過(guò)程型表示和說(shuō)明型表示。在過(guò)程型表示中,知識(shí)是一些客觀存在的方法和規(guī)則,實(shí)現(xiàn)知識(shí)表示時(shí)將事實(shí)型知識(shí)和知識(shí)推理融為一體,這種方式的特點(diǎn)是推理過(guò)程直接、高效,但是靈活性差,知識(shí)不易更新;在說(shuō)明型表示中,知識(shí)是一些已知的客觀事實(shí),實(shí)現(xiàn)知識(shí)表示時(shí)將推理和表示分開(kāi)處理,這種方式的特點(diǎn)是簡(jiǎn)單靈活,但是推理執(zhí)行效率低。早期的知識(shí)表示方式包括謂詞邏輯、產(chǎn)生式、框架和語(yǔ)義網(wǎng)絡(luò)。在以上幾種知識(shí)表示方法之上,產(chǎn)生了一種概念化的表示方法,稱為本體。它是對(duì)領(lǐng)域?qū)嶓w存在本質(zhì)的抽象,強(qiáng)調(diào)實(shí)體間的關(guān)聯(lián),并通過(guò)多種知識(shí)表示元素將這些關(guān)聯(lián)表達(dá)和反映出來(lái)。一個(gè)本體形式可以由概念、屬性、關(guān)系、函數(shù)、公理、實(shí)例構(gòu)成。用本體表示知識(shí)的目的是統(tǒng)一應(yīng)用領(lǐng)域的概念,構(gòu)建本體層級(jí)體系表示概念之間的語(yǔ)義關(guān)系,可以實(shí)現(xiàn)對(duì)知識(shí)的共享和重用。為了支持知識(shí)圖譜數(shù)據(jù)的通用性、復(fù)用性和流動(dòng)性,基于本體的思想,誕生了知識(shí)圖譜通用Schema標(biāo)準(zhǔn)。其中,cnSchema是一個(gè)面向中文的基于社區(qū)維護(hù)的開(kāi)放的Schema標(biāo)準(zhǔn)。其分類、數(shù)據(jù)類型的詞匯集包括上千種概念、屬性和關(guān)系等常用概念定義。cnSchema復(fù)用連接并擴(kuò)展了S、Wikidata、Wikipedia等已有的知識(shí)圖譜Schema標(biāo)準(zhǔn),為中文領(lǐng)域的開(kāi)放知識(shí)圖譜、聊天機(jī)器人、搜索引擎優(yōu)化等提供可供參考和擴(kuò)展的數(shù)據(jù)描述和接口定義標(biāo)準(zhǔn)。知識(shí)表示的原則知識(shí)表示的原則包括以下幾個(gè)方面。具備足夠的表示能力針對(duì)特定的應(yīng)用領(lǐng)域,能正確有效地涵蓋該領(lǐng)域的各種知識(shí),而且能夠處理知識(shí)中的模糊性和不確定性。適合計(jì)算機(jī)處理知識(shí)表示的最終目的是通過(guò)計(jì)算機(jī)進(jìn)行知識(shí)的分析、處理,因此適合機(jī)器推理的表達(dá)方式才能挖掘數(shù)據(jù)的價(jià)值。清晰自然的模塊結(jié)構(gòu)知識(shí)庫(kù)通常要不斷地?cái)U(kuò)充和完善,具有模塊性結(jié)構(gòu)的表示模式有利于新知識(shí)的擴(kuò)充及新舊知識(shí)的融合。知識(shí)表示的形式謂詞邏輯表示謂詞邏輯是一種基于數(shù)理邏輯的說(shuō)明型知識(shí)表示,它使用高度形式化的符號(hào)語(yǔ)言,通過(guò)引入謂詞、函數(shù)來(lái)描述自然語(yǔ)言的知識(shí)。利用邏輯公式,人們能描述對(duì)象、性質(zhì)、狀況和關(guān)系,進(jìn)而將其轉(zhuǎn)化為機(jī)器內(nèi)部的代碼表示。謂詞表示邏輯中典型的例子是一階謂詞表示法。這種知識(shí)表示形式具有以下特點(diǎn):表達(dá)自然,邏輯性強(qiáng),推理嚴(yán)密,易于實(shí)現(xiàn);推理效率低,推理過(guò)程中可能產(chǎn)生“組合爆炸”;不能表示不確定知識(shí)。語(yǔ)義網(wǎng)絡(luò)語(yǔ)義網(wǎng)絡(luò)是一種用圖表示知識(shí)的結(jié)構(gòu)化方式,它是由奎林(J.R.Quillian)于1968年以人類聯(lián)想記憶的一個(gè)心理學(xué)模型提出的,之后被用于自然語(yǔ)言理解。它將概念及其語(yǔ)義關(guān)系用節(jié)點(diǎn)和節(jié)點(diǎn)之間的弧來(lái)表示,因此又被稱為二元關(guān)系有向圖,節(jié)點(diǎn)表示事物、概念、事件等,弧表示它們之間的關(guān)系,常見(jiàn)的關(guān)系包括相近關(guān)系、推論關(guān)系、因果關(guān)系、組成關(guān)系和屬性關(guān)系。這種知識(shí)表示形式具有以下特點(diǎn):具有匹配推理和屬性可繼承特性,推理效率高;表達(dá)直觀,方法靈活;知識(shí)之間存在層級(jí)關(guān)系,不利于新知識(shí)的添加和維護(hù);推理規(guī)則不明確。產(chǎn)生式表示產(chǎn)生式是人工智能常用的過(guò)程型知識(shí)表示,它是由美國(guó)數(shù)學(xué)家波斯特(E.Post)在1934年提出的,被用于構(gòu)造波斯特機(jī)計(jì)算模型。產(chǎn)生式表示由事實(shí)和規(guī)則構(gòu)成。事實(shí)可看成斷言一個(gè)語(yǔ)言變量的值或多個(gè)語(yǔ)言變量間關(guān)系的陳述句。事實(shí)又分為確定事實(shí)和不確定事實(shí)。確定事實(shí)一般采用三元組表示,即(對(duì)象,屬性,值)或者(關(guān)系,對(duì)象,對(duì)象);不確定事實(shí)在此基礎(chǔ)上增加可信度,即(對(duì)象,屬性,值,可信度)或者(關(guān)系,對(duì)象,對(duì)象,可信度)。規(guī)則主要用于描述知識(shí)和陳述各種過(guò)程知識(shí)之間的控制及其相互作用的機(jī)制。規(guī)則的形式一般為IF-THEN,它表示一種條件-結(jié)果形式。IF后面的部分描述了規(guī)則的先決條件,THEN后面的部分描述了規(guī)則的結(jié)論。這種知識(shí)表示形式具有以下特點(diǎn):格式固定,形式簡(jiǎn)單;表達(dá)關(guān)系自然,符合思維習(xí)慣;無(wú)法表示知識(shí)結(jié)構(gòu)和層次;推理過(guò)程煩瑣,效率低。框架表示框架(Frame)表示方法是一種層次的、組合式的知識(shí)表示方法,它是馬文·明斯基于1975年提出的,是把對(duì)象、概念的所有信息和知識(shí)存儲(chǔ)在一起的一種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。其上層主體是固定的,表示某個(gè)固定的概念、對(duì)象或事件;其下層由一些槽(Slot)組成,表示主體每個(gè)方面的屬性。框架方法采用與語(yǔ)言網(wǎng)絡(luò)相同的圖形表示,是一種層次的數(shù)據(jù)結(jié)構(gòu),框架下層的槽可以看成一種子框架,子框架本身還可以進(jìn)一步劃分層次。這種知識(shí)表示形式具有以下特點(diǎn):能夠表達(dá)知識(shí)的內(nèi)部結(jié)構(gòu);框架之間可以繼承形成框架網(wǎng)絡(luò),減小信息冗余;推理過(guò)程不夠嚴(yán)密;知識(shí)適應(yīng)性差。面向?qū)ο蟮闹R(shí)表示面向?qū)ο蟮闹R(shí)表示是按照面向?qū)ο蟮某绦蛟O(shè)計(jì)原則,將對(duì)象的屬性、行為和處理方法進(jìn)行封裝,組成一種混合知識(shí)表示形式。在這種方法中,知識(shí)的基本單位就是對(duì)象,屬性集和關(guān)系集的值描述了該對(duì)象具有的知識(shí),方法集為該對(duì)象作用于知識(shí)上的處理方法。面向?qū)ο蟮闹R(shí)表示一般采用四元組模型,即主題=(對(duì)象名,屬性,方法,接口)。這種知識(shí)表示形式具有以下特點(diǎn):具有面向?qū)ο蟮睦^承特性,知識(shí)具備層次化和結(jié)構(gòu)性;易于擴(kuò)充和維護(hù),推理效率高;具備多態(tài)特性,適應(yīng)性強(qiáng)?;诒倔w的知識(shí)表示本體表示方法是由語(yǔ)言網(wǎng)絡(luò)演化而來(lái)的,是一種概念化、結(jié)構(gòu)化的表示方法。它是對(duì)領(lǐng)域?qū)嶓w存在本質(zhì)的抽象,強(qiáng)調(diào)實(shí)體間的關(guān)聯(lián),并通過(guò)多種知識(shí)表示元素將這些關(guān)聯(lián)表達(dá)和反映出來(lái)。一個(gè)本體可以由概念、屬性、關(guān)系、函數(shù)、公理和實(shí)例構(gòu)成。本體表示方法很多,可分為以下3類。自然語(yǔ)言:以自然語(yǔ)言為基礎(chǔ),用語(yǔ)法、語(yǔ)義定義概念和關(guān)聯(lián)。一階謂詞邏輯:以形式邏輯為基礎(chǔ),應(yīng)用知識(shí)概念的邏輯理論描述知識(shí)模型??蚣芎驼Z(yǔ)義網(wǎng)絡(luò):以認(rèn)知理論和認(rèn)知模型為基礎(chǔ),使本體符合人類認(rèn)知規(guī)律。本體表示知識(shí)的目的是統(tǒng)一應(yīng)用領(lǐng)域的概念,并構(gòu)建本體層級(jí)體系表示概念之間的語(yǔ)義關(guān)系,實(shí)現(xiàn)人類、計(jì)算機(jī)對(duì)知識(shí)的共享和重用。這種知識(shí)表示形式具有以下特點(diǎn):表達(dá)實(shí)體的固有特性;消除領(lǐng)域知識(shí)的分歧;方便人與人、人與組織、系統(tǒng)之間的交流;便于共享和重用。二、知識(shí)建模知識(shí)表示方法獲取知識(shí)語(yǔ)義信息的過(guò)程。它包括從知識(shí)獲取到知識(shí)完成形式化表示的過(guò)知識(shí)表示三部分內(nèi)容。知識(shí)建模常用的數(shù)據(jù)模型主要經(jīng)歷了以下3個(gè)階段的發(fā)展。RDF資源描述框架(ResourceDescriptionFramework,RDF)為描述資源提供的基本元素有國(guó)際化資源標(biāo)識(shí)符(IRI)、字面值和空白節(jié)點(diǎn)(BlankNode)。IRI是一個(gè)符合特定語(yǔ)法的Uinicode字符串,如\h/1999/02/22-rdf-syntax-ns#HTML,與統(tǒng)一資源定位符(URL)的形式類似。URL是IRI的一種,字面值可以理解為類似時(shí)間、人名、數(shù)字等常量的表示,由字符串和表示數(shù)據(jù)類型的IRI構(gòu)成。例如數(shù)字1的字面值可以表示為“1”^^xs:integer,其中xs:integer是表示整型數(shù)據(jù)類型的IRI??瞻坠?jié)點(diǎn)是指沒(méi)有IRI的匿名節(jié)點(diǎn),一般是RDF內(nèi)部使用的一個(gè)特殊結(jié)構(gòu),不可被引用。RDF中對(duì)資源的描述稱為陳述(Statement),一般用(Subject,Predicate,Object)(SPO)三元組(Triple)表示。其中,Subject的取值可以為IRI、BlankNode;Predicate取值為IRI;Object的取值則是IRI、BlankNode和Predicate。例如,“ApersonnamedEricMiller”在RDF中的基本形式為(xs1:me,xs2:fullName,“EricMiller”)。一個(gè)RDF數(shù)據(jù)集由一組相關(guān)的三元組組成。由于這個(gè)三元組集合可以抽象為一張圖譜,因此也被稱為RDF圖譜,并通過(guò)邊將不同的資源鏈接起來(lái),形成語(yǔ)義網(wǎng)。值得注意的是,RDF以為XML、Turtle、N-Triples和N-Quads。RDF基于XML的表述語(yǔ)法,RDF/XML語(yǔ)法是目前唯一一個(gè)符合W3C標(biāo)準(zhǔn)的語(yǔ)法。一般可以定義一個(gè)簡(jiǎn)寫的前綴表示形式,如xmlns:cd表示\hhttp://www.recshop.fake/cd#。接下來(lái)每一個(gè)資源對(duì)應(yīng)一個(gè)<命名空間:資源名稱>標(biāo)簽,其中rdf:about給出了該資源的IRI,也就是三元組中的Subject。<rdf:Description>標(biāo)簽里的其他子標(biāo)簽分別對(duì)應(yīng)著Predicate和Object,XML形式緊湊,從圖模型的角度分析,它是以頂點(diǎn)為基本單元進(jìn)行RDFGraph的描述。流行且更常用的格式是Turtle格式,它是RDF1.1中的標(biāo)準(zhǔn)語(yǔ)法。Turtle中直接以三元組形式進(jìn)行表示,三元組中的Subject、Predicate、Object之間用空格隔開(kāi),用“?!北硎疽粋€(gè)三元組的結(jié)束。為了對(duì)同一個(gè)Subject的三元組進(jìn)行簡(jiǎn)化表示,允許Subject的省略,同時(shí)三元組的結(jié)尾用“;”表示省略的Subject與上一個(gè)三元組相同。還有兩種表示形式,分別是N-Triples和N-Quads。N-Triples是Turtle的簡(jiǎn)化版,去掉了Turtle中的高級(jí)語(yǔ)法,一行就是一個(gè)Triple,沒(méi)有簡(jiǎn)寫的格式。因此,能夠處理Turtle的解析器(Parser)同樣能夠接受N-Triples的數(shù)據(jù)格式。N-Quads則在三元組的基礎(chǔ)上增加了一個(gè)維度,成為四元組。新增加的維度表示圖譜名稱,即四元組所屬的RDFGraph的名稱,這就能夠進(jìn)一步區(qū)分SPO,有利于進(jìn)行數(shù)據(jù)融合和管理。RDFS資源描述框架模式(RDFSchema,RDFS)是對(duì)RDF的一種擴(kuò)展。如何將文本數(shù)據(jù)或者現(xiàn)實(shí)世界中的知識(shí)表示成RDF數(shù)據(jù)?這就需要RDF字典,即一般所說(shuō)的數(shù)據(jù)的模式層RDF的基礎(chǔ)上提供了術(shù)語(yǔ)、概念等定義方式,為RDF模型提供了一個(gè)基本的類型系統(tǒng),在RDF數(shù)據(jù)層之上增加了模式層,為簡(jiǎn)單的推理提供了支持。通過(guò)RDFS可以表示一些簡(jiǎn)單的語(yǔ)義,但缺少諸多常用的特征,例如對(duì)局部值域的屬性定義、不相交類的定義等,不足以支持更加復(fù)雜的語(yǔ)義場(chǎng)景。例如,用RDF描述一本書,RDF字典就需要定義這本書包含作者、書名、頁(yè)數(shù)、出版時(shí)間、語(yǔ)言類型等。RDF字典定義了數(shù)據(jù)建模的元數(shù)據(jù)項(xiàng),這些元數(shù)據(jù)項(xiàng)主要包括兩種類型:類(Class)和屬性(Property)。是表示類的屬性(Attribute),另一種是表示多個(gè)類之間的關(guān)系(Relationship)的屬性。有了完整的Schema,用戶可以方便地將現(xiàn)實(shí)中的知識(shí)映射成RDFGraph。復(fù)用RDFSchema有利于數(shù)據(jù)的開(kāi)放共享,同時(shí)避免重復(fù)勞動(dòng)。到目前為止,已經(jīng)有許多定義好的RDF字典,不過(guò)英文的居多,例如朋友的朋友(FriendofaFriend,F(xiàn)OAF)、S等。LinkedOpenVocabularies網(wǎng)站專門匯總了互聯(lián)網(wǎng)上公開(kāi)的RDF字典。國(guó)內(nèi)也開(kāi)始關(guān)注RDF字典的標(biāo)準(zhǔn)化,出現(xiàn)了Cnschema。Cnschema主要對(duì)S進(jìn)行翻譯,同時(shí)結(jié)合中文特點(diǎn)進(jìn)行定制和擴(kuò)充,形成了可復(fù)用的符合中文事實(shí)的知識(shí)圖譜的數(shù)據(jù)字典。復(fù)用RDF字典可以大大降低知識(shí)圖譜構(gòu)建的成本,同時(shí)也有利于數(shù)據(jù)的標(biāo)準(zhǔn)化。OWL網(wǎng)絡(luò)本體語(yǔ)言(OntologyWebLanguage,OWL)旨在提供一種可用于描述網(wǎng)絡(luò)文檔和應(yīng)用之中固有的那些類及其之間關(guān)系的語(yǔ)言。它在RDFS的基礎(chǔ)上進(jìn)一步擴(kuò)充,是W3C組織于2002年7月31日發(fā)布的本體語(yǔ)言。OWL已經(jīng)是獲得萬(wàn)維網(wǎng)聯(lián)盟認(rèn)可的、用于編纂本體的知識(shí)表達(dá)語(yǔ)言家族。其功能是為網(wǎng)絡(luò)文檔和應(yīng)用中固有的類以及其間的邏輯關(guān)系提供描述,使得基于此技術(shù)的網(wǎng)絡(luò)應(yīng)用更加人性化和智能化,節(jié)省用戶的資源搜索時(shí)間,并將這些工作交給計(jì)算機(jī)系統(tǒng)內(nèi)部處理?;诓煌恼Z(yǔ)義論特性,此家族語(yǔ)言大致分為兩個(gè)系統(tǒng):基于描述邏輯進(jìn)而豐富表達(dá)和精準(zhǔn)計(jì)算屬性的OWLLite和OWLDL、以資源描述架構(gòu)提供兼容敘述的OWLFull。網(wǎng)絡(luò)本體語(yǔ)言已經(jīng)被認(rèn)為是語(yǔ)義網(wǎng)技術(shù)的基礎(chǔ)語(yǔ)言,其3種形式(OWLLite、OWLDL、OWLFull)前者均為后者的子集。OWLLite被提供給那些只需要一個(gè)分類層次和簡(jiǎn)單的屬性約束的用戶。OWLDL包括OWLLite的所有約束,同時(shí)邏輯蘊(yùn)涵是可判定的。OWLFull允許在預(yù)定義的(RDF、OWL)詞匯表上增加詞匯,導(dǎo)致任何推理軟件均不能支持OWLFull的所有特征。OWLFull語(yǔ)言上的邏輯蘊(yùn)涵通常是不可判定的。第二節(jié)知識(shí)抽取與挖掘一、知識(shí)抽取知識(shí)抽取與挖掘指的是從不同來(lái)源、不同結(jié)構(gòu)的數(shù)據(jù)中,利用實(shí)體抽取、關(guān)系抽取、屬性抽取、事件抽取等技術(shù)抽取知識(shí)。知識(shí)抽取技術(shù)是指把蘊(yùn)含于信息源中的知識(shí)經(jīng)過(guò)識(shí)別、理解、篩選、歸納等過(guò)程抽取出來(lái),存儲(chǔ)形成知識(shí)元庫(kù)。目前研究較多的是自然語(yǔ)言文本,已經(jīng)出現(xiàn)了一些工具或系統(tǒng),知識(shí)抽取已經(jīng)成為自然語(yǔ)言處理領(lǐng)域一個(gè)重要的研究分支,它是知識(shí)圖譜構(gòu)建的基礎(chǔ),也是大數(shù)據(jù)時(shí)代自然的產(chǎn)物。在互聯(lián)網(wǎng)信息呈爆炸式增長(zhǎng)的背景下,人們需要這樣一種從原始數(shù)據(jù)中提取高價(jià)值信息的方法。知識(shí)抽取的應(yīng)用領(lǐng)域非常廣泛,包括恐怖襲擊預(yù)警、空難事故調(diào)查、疾病暴發(fā)預(yù)測(cè)等。知識(shí)抽取的主要方法知識(shí)抽取的方法主要有以下幾種。詞典標(biāo)引法該方法的基本思想是:首先構(gòu)造一個(gè)機(jī)內(nèi)詞典(主題詞典、關(guān)鍵詞詞典等),然后設(shè)計(jì)相應(yīng)算法與詞典匹配,若匹配成功,則將其抽出作為文獻(xiàn)的標(biāo)引詞。詞典標(biāo)引法在目前漢語(yǔ)自動(dòng)標(biāo)引中占據(jù)著主要地位,早期的自動(dòng)標(biāo)引試驗(yàn)大部分采取該方法。標(biāo)引算法基本相同,但具體細(xì)節(jié)有所不同:有的采取最大匹配法,有的采取最小匹配法,有的采取切分抽詞和綜合加權(quán)確定標(biāo)引詞。切分標(biāo)記標(biāo)引法記詞典輸入計(jì)算機(jī)。切分標(biāo)記詞典有詞首字、詞尾字和不構(gòu)成詞的單字,也有人用表外后,再按照一定的分解模式將其分成單詞或?qū)S迷~。單漢字標(biāo)引法該方法的基本思想是:在標(biāo)引時(shí)將概念詞拆分成單個(gè)漢字,以單個(gè)漢字作為標(biāo)引詞,采取后組方式,將檢索詞串分解成單個(gè)漢字,以邏輯乘關(guān)系進(jìn)行組配,利用漢字索引文件實(shí)現(xiàn)自動(dòng)標(biāo)引和邏輯檢索。詞頻統(tǒng)計(jì)標(biāo)引法詞頻統(tǒng)計(jì)標(biāo)引法的理論基礎(chǔ)是著名的Zipf定律,它建立在較成熟的語(yǔ)言學(xué)統(tǒng)計(jì)研究成有較重要的地位。國(guó)內(nèi)外很多公司曾使用這種方法進(jìn)行標(biāo)引試驗(yàn),結(jié)果證明此法行之有標(biāo)引主要依賴于詞的頻率特征(標(biāo)引詞在某一特定文獻(xiàn)中的出現(xiàn)頻率或詞的文獻(xiàn)頻率)詞的區(qū)分能力。上述兩種方法的主要缺陷是與詞的相關(guān)性無(wú)關(guān)。而詞相關(guān)性加權(quán)標(biāo)引法和價(jià)值測(cè)度加權(quán)標(biāo)引法不僅考慮了詞在某一特定文獻(xiàn)或整個(gè)文獻(xiàn)集合中的頻率特征,而且考慮了標(biāo)引詞在相關(guān)文獻(xiàn)集合和無(wú)關(guān)文獻(xiàn)集合中的頻率特征以及檢索結(jié)果的效益值。理論和實(shí)踐都證明這兩種方法比前兩種方法更有效。但這兩種方法在實(shí)際應(yīng)用中具有一定的局限性,權(quán)值函數(shù)中的R等值在標(biāo)引之前是未知的,只能近似估計(jì)。句法分析標(biāo)引法引對(duì)象,雖然主題內(nèi)容容易突出,但標(biāo)題句法形式的規(guī)范性較差,增加了句法分析的難分析必須輔以語(yǔ)義分析,才能保證自動(dòng)標(biāo)引的準(zhǔn)確性?;跐撛谡Z(yǔ)義分析的標(biāo)引法基于潛在語(yǔ)義分析的標(biāo)引法通過(guò)單值分解,將詞、文獻(xiàn)和提問(wèn)根據(jù)語(yǔ)義相關(guān)程度組織在同一空間結(jié)構(gòu)中。在這一空間中,分散在不同文獻(xiàn)和提問(wèn)中的同義詞相近放置,具有不同的詞但主題語(yǔ)義接近的文獻(xiàn)和提問(wèn)相鄰組織。因此,在文獻(xiàn)和提問(wèn)檢索詞不匹配的情況下,這種方法仍可以給出合理的檢索結(jié)果,這一點(diǎn)顯然是基于關(guān)鍵詞的檢索系統(tǒng)無(wú)法達(dá)到的。因?yàn)槊總€(gè)詞在潛在語(yǔ)義空間中只有一個(gè)位置,所以這種標(biāo)引法目前不適用于多義詞。在簡(jiǎn)化的奇異值分解(SingularValueDecomposition,SVD)描述中,文獻(xiàn)集合中一個(gè)含義模糊的詞將被置于多個(gè)獨(dú)特含義的矩心,這無(wú)疑會(huì)對(duì)檢索產(chǎn)生負(fù)面影響。盡管這種方法還存在缺陷,但是許多人對(duì)其進(jìn)行試驗(yàn)后認(rèn)為,潛在語(yǔ)義分析標(biāo)引法是一種很有希前景的方法。語(yǔ)義矢量空間模型在現(xiàn)有的矢量空間模型基礎(chǔ)上,融入格式語(yǔ)義結(jié)構(gòu),通過(guò)標(biāo)引詞的語(yǔ)義矢量構(gòu)造描述文獻(xiàn)的語(yǔ)義矩陣,使文獻(xiàn)的標(biāo)引得以在語(yǔ)言的深層結(jié)構(gòu)——語(yǔ)義層上實(shí)現(xiàn)。相比句法分析標(biāo)引法,語(yǔ)義分析標(biāo)引法無(wú)論是使用范圍還是實(shí)際的使用效果都明顯優(yōu)于前者。語(yǔ)義分析標(biāo)引與人工智能標(biāo)引的融合將是今后自動(dòng)標(biāo)引技術(shù)的研究方向。人工智能標(biāo)引法人工智能應(yīng)用在標(biāo)引中的具體技術(shù)是專家系統(tǒng),專家系統(tǒng)的知識(shí)表示方法主要有產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法和框架表示法?;诋a(chǎn)生式表示法的JAKS系統(tǒng),其規(guī)則具有統(tǒng)一的條件-行為表示形式,各自具有自己的功能,這使得知識(shí)容易被定義,也容易被理解。而且規(guī)則具有高度模塊化的性質(zhì),系統(tǒng)對(duì)規(guī)則的定義、修改、擴(kuò)充等操作可各自獨(dú)立進(jìn)行而不互相干擾。但因?yàn)橐?guī)則之間不存在明顯的相互作用,所以難以對(duì)規(guī)則庫(kù)進(jìn)行整體把握,這給規(guī)則庫(kù)的一致性維護(hù)帶來(lái)了困難。另外基于規(guī)則的推理缺乏必要的靈活性,難以應(yīng)付復(fù)雜內(nèi)容標(biāo)引的變動(dòng)推理方式的需求。盡管采用人工智能法進(jìn)行自動(dòng)標(biāo)引比在相同專業(yè)領(lǐng)域中運(yùn)用其他方法復(fù)雜,但人工智能標(biāo)引法是真正從標(biāo)引員思維的角度模擬標(biāo)引員的標(biāo)引過(guò)程的,這顯然比以被標(biāo)引文獻(xiàn)為出發(fā)點(diǎn)的其他自動(dòng)標(biāo)引方法更有希望獲得理想的標(biāo)引效果。各類數(shù)據(jù)的抽取方式知識(shí)圖譜的典型數(shù)據(jù)類型可分為三大類,分別是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),各類數(shù)據(jù)的知識(shí)抽取方式各不相同。結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)的抽取通常對(duì)應(yīng)兩類知識(shí)抽取工作:一種是將關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)映射為RDF格式數(shù)據(jù),可采用的標(biāo)準(zhǔn)化工具有DirectMapping和R2RML,該工作的難點(diǎn)是復(fù)雜表數(shù)據(jù)的處理,例如嵌套表;另一種是從鏈接數(shù)據(jù)(通常是已有的通用知識(shí)圖譜)中提取出一個(gè)子集,形成行業(yè)知識(shí)圖譜,其主要實(shí)現(xiàn)方式是圖映射,即將通用知識(shí)圖譜映射到定義好的行業(yè)知識(shí)圖譜Schema上,該工作的主要難點(diǎn)是數(shù)據(jù)對(duì)齊問(wèn)題。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)通常分為兩類,分別是百科類數(shù)據(jù)和普通網(wǎng)頁(yè)數(shù)據(jù)。百科類數(shù)據(jù)(如Wikipedia)知識(shí)結(jié)構(gòu)較為明確,易于抽取?;谶@類數(shù)據(jù),已經(jīng)形成較為成熟的知識(shí)圖譜,如DBpedia和Zhishi.me,其中DBpedia抽取了Wikipedia的知識(shí),Zhishi.me則抽取融合了百度百科、互動(dòng)百科和中文版維基百科的知識(shí)。普通網(wǎng)頁(yè)類數(shù)據(jù)的通用抽取方法被稱為包裝器,它是一類能夠?qū)?shù)據(jù)從HTML網(wǎng)頁(yè)中抽取出來(lái),并且將其還原為結(jié)構(gòu)化數(shù)據(jù)的技術(shù)。包裝器的實(shí)現(xiàn)方式主要有3種,分別是手工方法、包裝器歸納和自動(dòng)抽取。來(lái),存儲(chǔ)形成知識(shí)元庫(kù)。這個(gè)過(guò)程主要使用了層次類型約束主題實(shí)體識(shí)別和關(guān)系抽取算法。非結(jié)構(gòu)化數(shù)據(jù)典型的非結(jié)構(gòu)化數(shù)據(jù)有文本、圖片、音頻、視頻等,它們占據(jù)了互聯(lián)網(wǎng)數(shù)據(jù)的絕大部分?,F(xiàn)階段,人們更多的是從文本這類非結(jié)構(gòu)化數(shù)據(jù)中抽取知識(shí)。信息抽取于20世紀(jì)70年代后期出現(xiàn)在自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)領(lǐng)域,目標(biāo)是自動(dòng)化地從文本中發(fā)現(xiàn)和抽取相關(guān)信息,并從多個(gè)文本碎片中合并信息。文本信息抽取主要由4個(gè)子任務(wù)構(gòu)成,分別是實(shí)體抽取、屬性抽取、關(guān)系抽取、事件抽取。知識(shí)圖譜以圖模型進(jìn)行表示時(shí),實(shí)體抽取產(chǎn)生的便是節(jié)點(diǎn);屬性抽取構(gòu)造節(jié)點(diǎn)和關(guān)系的屬性;關(guān)系抽取產(chǎn)生的是節(jié)點(diǎn)之間的連接邊;事件抽取抽取的是文本中的實(shí)際實(shí)體和事件關(guān)系。實(shí)體抽取指的是抽取文本中的原子信息元素,形成實(shí)體節(jié)點(diǎn)。實(shí)體抽取可作為一個(gè)序列標(biāo)注問(wèn)題,因此可以使用機(jī)器學(xué)習(xí)中的隱馬爾可夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)、神經(jīng)網(wǎng)絡(luò)等算法進(jìn)行標(biāo)注。實(shí)體抽取要考慮文本分詞的特征,包括詞本身的特征(例如詞性)、前后綴特征(例如地名中會(huì)出現(xiàn)省、市)、字本身的特征(例如是否為數(shù)字)。特征模型的選擇有隱馬爾可夫模型、條件隨機(jī)場(chǎng)等,目前流行的做法是將傳統(tǒng)方法與深度學(xué)習(xí)結(jié)合,例如利用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)進(jìn)行特征自動(dòng)提取,再結(jié)合CRF模型,利用模型各自的優(yōu)勢(shì)進(jìn)行實(shí)體抽取。關(guān)系抽取指的是從文本中抽取出兩個(gè)或者多個(gè)實(shí)體之間的語(yǔ)義關(guān)系,常見(jiàn)的關(guān)系有二元關(guān)系、配偶關(guān)系、父子關(guān)系、雇傭關(guān)系、部分整體關(guān)系、會(huì)員關(guān)系、地理坐標(biāo)關(guān)系。例如:“王XX談兒子王YY:我期望他穩(wěn)重一點(diǎn)?!边@個(gè)句子中的關(guān)系為“父子(王XX,王YY)”。其中還涉及一個(gè)子問(wèn)題,即共指消解,上述例子中,“我”指的是“王XX”,“他”指的是“王YY”。根據(jù)關(guān)系抽取方法的不同,可以將其分為:基于模板的方法(觸發(fā)詞的模板、依存句法分析的模板)、基于監(jiān)督學(xué)習(xí)的方法(機(jī)器學(xué)習(xí)方法)、弱監(jiān)督學(xué)習(xí)的方法(遠(yuǎn)程監(jiān)督、Bootstrapping)。事件抽取指的是從自然語(yǔ)言中抽取出用戶感興趣的事件信息,并用結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)。事件通常具有時(shí)間、地點(diǎn)、參與者等屬性,屬性和屬性值的抽取能夠?qū)⒅R(shí)圖譜中的實(shí)體概念維度構(gòu)建完整,事件的發(fā)生可能是因?yàn)橐粋€(gè)動(dòng)作的產(chǎn)生或者系統(tǒng)狀態(tài)的改變。事件抽取任務(wù)包括:識(shí)別事件觸發(fā)詞及事件類型、抽取事件元素,同時(shí)判斷其角色、抽出描述事件的詞組或句子等。事件抽取問(wèn)題可轉(zhuǎn)化為多階段的分類問(wèn)題,需要的分類器包括用于判斷詞匯是否事件觸發(fā)詞的分類器、判別詞組是否事件元素的分類器以及判定元素角色類別的分類器等。二、知識(shí)挖掘知識(shí)挖掘源于全球范圍內(nèi)數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量急劇增加,人們的需求已經(jīng)不只是簡(jiǎn)單的查詢和維護(hù),還希望能夠?qū)@些數(shù)據(jù)進(jìn)行較高層次的處理和分析,以得到數(shù)據(jù)的總體特征和對(duì)發(fā)展趨勢(shì)的預(yù)測(cè)。知識(shí)挖掘最新的描述性定義是由UsamaM.Fayyyad等人給出的:知識(shí)挖掘是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過(guò)程。知識(shí)挖掘的基本任務(wù)是洞察真相、因果推理和規(guī)律探尋,其本質(zhì)是對(duì)目標(biāo)或事件的來(lái)龍去脈、前因后果、特點(diǎn)規(guī)律進(jìn)行建模和表現(xiàn)。比如:目標(biāo)畫像,即對(duì)目標(biāo)人物和組織的真實(shí)情況、行為模式、社會(huì)關(guān)系等進(jìn)行“全景成像”;事件拼圖,即通過(guò)證據(jù)鏈擬合,按時(shí)間軸將事件發(fā)生、發(fā)展與演變的真實(shí)過(guò)程進(jìn)行反演;因果推理,即揭示事件間的因果關(guān)系,包括概率因果推理、基于統(tǒng)計(jì)相關(guān)的預(yù)測(cè)型因果推理、從海量文本中自動(dòng)獲取因果規(guī)則進(jìn)行因果推理、事件之間發(fā)展脈絡(luò)因果鏈生成等;規(guī)律探尋,即通過(guò)模式識(shí)別、可視化分析等揭示潛在規(guī)律或行為模式。知識(shí)挖掘的流程知識(shí)挖掘的步驟如下。數(shù)據(jù)準(zhǔn)備知識(shí)挖掘的對(duì)象是數(shù)據(jù)。這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但這些數(shù)據(jù)往往不適合直接進(jìn)行知識(shí)挖掘,首先要清除數(shù)據(jù)噪聲和與挖掘主題明顯無(wú)關(guān)的數(shù)據(jù),其次將來(lái)自多數(shù)據(jù)源的相關(guān)數(shù)據(jù)組進(jìn)行合并,然后將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式。這個(gè)過(guò)程就是數(shù)據(jù)準(zhǔn)備。知識(shí)挖掘根據(jù)知識(shí)挖掘的目標(biāo),選取相應(yīng)算法及參數(shù),分析準(zhǔn)備好的數(shù)據(jù),并產(chǎn)生一個(gè)特定的模式或數(shù)據(jù)集,從而得到可能形成知識(shí)的模式模型。模式評(píng)估在由挖掘算法產(chǎn)生的模式規(guī)律中存在無(wú)實(shí)際意義或無(wú)實(shí)用價(jià)值的情況下,也存在不能準(zhǔn)確反映數(shù)據(jù)真實(shí)意義的情況,甚至在某些情況下與事實(shí)相反,因此需要對(duì)其進(jìn)行評(píng)估,從挖掘結(jié)果中篩選出有意義的模式規(guī)律。在此過(guò)程中,為了取得更為有效的知識(shí),可能會(huì)返回前面的某一處理步驟進(jìn)行反復(fù)提取,從而提取出更有效的知識(shí)。知識(shí)挖掘的主要方法知識(shí)挖掘的常用方法如下。決策樹(shù)方法從中找到一些有價(jià)值的、潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單、分類速度快、易于理是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則。在數(shù)據(jù)挖掘中,決策樹(shù)方法主要用于分類。神經(jīng)網(wǎng)絡(luò)方法利用其非線性映射的思想和并行處理的方法,用其本身結(jié)構(gòu)來(lái)表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)。粗糙集方法粗糙集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗糙集處理的對(duì)象是類似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)為粗糙集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。粗糙集理論能夠在缺少先驗(yàn)知識(shí)的情況下,對(duì)數(shù)據(jù)進(jìn)行分類處理。在該方法中知識(shí)是以信息系統(tǒng)的形式表示的,先對(duì)信息系統(tǒng)進(jìn)行歸約,再?gòu)慕?jīng)過(guò)歸約后的知識(shí)庫(kù)中抽取更有價(jià)值、更準(zhǔn)確的一系列規(guī)則。因此,基于粗糙集的數(shù)據(jù)挖掘算法實(shí)際上就是對(duì)大量數(shù)據(jù)構(gòu)成的信息系統(tǒng)進(jìn)行約簡(jiǎn)并得到屬性歸約集的過(guò)程,最后再進(jìn)行規(guī)則抽取。遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的、潛在有用的信息。因此,許多數(shù)據(jù)挖掘問(wèn)題可以看成搜索問(wèn)題,數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)是搜索空間,挖掘算法是搜索策略。應(yīng)用遺傳算法在數(shù)據(jù)庫(kù)中進(jìn)行搜索,對(duì)隨機(jī)產(chǎn)生的一組規(guī)則進(jìn)行進(jìn)化,直到數(shù)據(jù)庫(kù)能被該組規(guī)則覆蓋,從而挖掘出隱含在數(shù)據(jù)庫(kù)中的規(guī)則。第三節(jié)知識(shí)存儲(chǔ)與融合一、知識(shí)存儲(chǔ)知識(shí)存儲(chǔ)解決如何管理大量的結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題。當(dāng)經(jīng)過(guò)知識(shí)提取得到了結(jié)構(gòu)化的數(shù)合。在一些場(chǎng)合,甚至不需要數(shù)據(jù)庫(kù)做這些事情,如果數(shù)據(jù)只需要按屬性鍵(Key)查找而不是按值查找,也不需要連接(Join),那么文件系統(tǒng)就可以作為數(shù)據(jù)后端。由于太多的小文件會(huì)影響查詢效率,常見(jiàn)的做法是把Key做哈希,并將頭幾個(gè)字符取出來(lái)作為分子目錄。稍微復(fù)雜的處理是把Key放在Redis這樣的鍵值數(shù)據(jù)庫(kù)里進(jìn)行管理,把具體的數(shù)據(jù)放據(jù)庫(kù)。因此知識(shí)存儲(chǔ)主要有3種選擇:基于表結(jié)構(gòu)的知識(shí)存儲(chǔ)關(guān)系數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)和RDF數(shù)據(jù)庫(kù)?;诒斫Y(jié)構(gòu)的知識(shí)存儲(chǔ)基于表結(jié)構(gòu)的知識(shí)存儲(chǔ)利用二維的數(shù)據(jù)表對(duì)知識(shí)圖譜中的數(shù)據(jù)進(jìn)行存儲(chǔ),典型的有關(guān)系型數(shù)據(jù)庫(kù)、三元組表、類型表。關(guān)系型數(shù)據(jù)庫(kù):表中每一列稱為一個(gè)屬性,也稱字段,用來(lái)描述實(shí)體集的某個(gè)特征。元組Tuple實(shí)體。簡(jiǎn)單直接,擴(kuò)展性強(qiáng)。類型表:在構(gòu)建數(shù)據(jù)表時(shí),考慮了知識(shí)圖譜的類別體系。每個(gè)類型的數(shù)據(jù)表只記錄開(kāi)銷大,并且大量的數(shù)據(jù)表難以進(jìn)行管理?;趫D結(jié)構(gòu)的知識(shí)存儲(chǔ)基于圖結(jié)構(gòu)的知識(shí)存儲(chǔ)利用圖的方式對(duì)知識(shí)圖譜中的數(shù)據(jù)進(jìn)行存儲(chǔ)。圖數(shù)據(jù)庫(kù)起源于歐拉圖理論,也可稱為面向/基于圖的數(shù)據(jù)庫(kù)。圖數(shù)據(jù)庫(kù)的基本含義是以“圖”這種數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)和查詢數(shù)據(jù)。它的數(shù)據(jù)模型主要是以節(jié)點(diǎn)和關(guān)系體現(xiàn)的,也可處理鍵值對(duì)。它的優(yōu)點(diǎn)是快速解決復(fù)雜的關(guān)系問(wèn)題。以下為常用的一些原生圖數(shù)據(jù)庫(kù)。Neo4jNeo4j基于Java實(shí)現(xiàn),是一個(gè)具備完全事務(wù)特性的高性能的數(shù)據(jù)庫(kù),具有成熟數(shù)據(jù)庫(kù)的所有特性。-圖混合數(shù)據(jù)庫(kù),兼具圖數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)強(qiáng)大的表示及組織能力和文檔數(shù)據(jù)庫(kù)的靈活性及可擴(kuò)展性。BerkeleyDB數(shù)據(jù)庫(kù)的開(kāi)源存儲(chǔ)系統(tǒng),相較于其他的圖數(shù)據(jù)庫(kù)具有更強(qiáng)大的表示能力?;谠鶵DF結(jié)構(gòu)的知識(shí)存儲(chǔ)Weikum在2008年提出了基于原生數(shù)據(jù)存儲(chǔ)格式的RDF管理系統(tǒng)——RDF3x,根據(jù)RISC架

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論