知識圖譜技術(shù)原理介紹.doc_第1頁
知識圖譜技術(shù)原理介紹.doc_第2頁
知識圖譜技術(shù)原理介紹.doc_第3頁
知識圖譜技術(shù)原理介紹.doc_第4頁
知識圖譜技術(shù)原理介紹.doc_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

知識圖譜技術(shù)原理介紹轉(zhuǎn)載2016年10月19日 08:59:08 標(biāo)簽: NLP/ 知識圖譜 2335/archives/39306作者:王昊奮近兩年來,隨著Linking Open Data1 等項目的全面展開,語義Web數(shù)據(jù)源的數(shù)量激增,大量RDF數(shù)據(jù)被發(fā)布?;ヂ?lián)網(wǎng)正從僅包含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)(Document Web)轉(zhuǎn)變成包含大量描述各種實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)(Data Web)。在這個背景下,Google、百度和搜狗等搜索引擎公司紛紛以此為基礎(chǔ)構(gòu)建知識圖譜,分別為Knowledge Graph、知心和知立方,來改進搜索質(zhì)量,從而拉開了語義搜索的序幕。下面我將從以下幾個方面來介紹知識圖譜:知識圖譜的表示和在搜索中的展現(xiàn)形式,知識圖譜的構(gòu)建和知識圖譜在搜索中的應(yīng)用等,從而讓大家有機會了解其內(nèi)部的技術(shù)實現(xiàn)和各種挑戰(zhàn)。知識圖譜的表示和在搜索中的展現(xiàn)形式正如Google的辛格博士在介紹知識圖譜時提到的:“The world is not made of strings , but is made of things.”,知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標(biāo)識,稱為它們的標(biāo)識符(identifier)。每個屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的內(nèi)在特性,而關(guān)系(relation)用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)。知識圖譜亦可被看作是一張巨大的圖,圖中的節(jié)點表示實體或概念,而圖中的邊則由屬性或關(guān)系構(gòu)成。上述圖模型可用W3C提出的資源描述框架RDF2 或?qū)傩詧D(property graph)3 來表示。知識圖譜率先由Google提出,以提高其搜索的質(zhì)量。為了更好地理解知識圖譜,我們先來看一下其在搜索中的展現(xiàn)形式,即知識卡片(又稱Knowledge Card)。知識卡片旨在為用戶提供更多與搜索內(nèi)容相關(guān)的信息。更具體地說,知識卡片為用戶查詢中所包含的實體或返回的答案提供詳細(xì)的結(jié)構(gòu)化摘要。從某種意義來說,它是特定于查詢(query specific)的知識圖譜。例如,當(dāng)在搜索引擎中輸入“姚明”作為關(guān)鍵詞時,我們發(fā)現(xiàn)搜索結(jié)果頁面的右側(cè)原先用于置放廣告的地方被知識卡片所取代。廣告被移至左上角,而廣告下面則顯示的是傳統(tǒng)的搜索結(jié)果,即匹配關(guān)鍵詞的文檔列表。這個布局上的微調(diào)也預(yù)示著各大搜索引擎在提高用戶體驗和直接返回答案方面的決心?!救笏阉饕骊P(guān)于姚明的知識卡片(略)】雖說三大搜索引擎在知識卡片的排版和內(nèi)容展現(xiàn)上略有不同,但是它們都列出了姚明的身高、體重、民族等屬性信息。此外,它們均包含“用戶還搜索了”或“其他人還搜”的功能來展現(xiàn)相關(guān)的人物。該功能允許用戶去瀏覽其他與姚明相關(guān)的人物的詳細(xì)信息。細(xì)心的讀者也發(fā)現(xiàn)Google在其知識卡片中也展示了很多與姚明相關(guān)的圖片,以圖文并茂的方式來展示姚明的方方面面。百度則結(jié)合了百度風(fēng)云榜的信息,列出了姚明的類別(體壇人物)及其百度指數(shù)(今日排名和今日搜索熱度等信息)。在搜索結(jié)果頁面的左上角(在圖中未給出),百度還展示了其特有的專題搜索,包含了與姚明相關(guān)的百科、圖片、微博、新聞、音樂、貼吧和視頻等七大類的結(jié)果,基本涵蓋了用戶最基本的需求。搜狗在列出與姚明相關(guān)的百科、圖片,電影和最新相關(guān)消息等專題的同時,其知識卡片額外顯示了諸如“主持電視節(jié)目”、“效力籃球隊”、“人物關(guān)系”等各種細(xì)粒度的語義關(guān)系。當(dāng)遇到含有歧義的用戶查詢時,知識卡片還會列出其他可能的查詢目標(biāo)對象。在上面的例子中,搜狗還列出了一項“您是否要找”的功能,列出一位也叫姚明的一級作曲家。該功能用于去歧義,在顯示最相關(guān)實體的同時也給出其他可能的對象,達到去歧義的作用。當(dāng)搜索“李娜”或“長城”時,Google和百度也在其知識卡片下方展現(xiàn)了類似的功能。除了給出著名網(wǎng)球運動員李娜和萬里長城之外,它們還列出歌手李娜和長城汽車供用戶選擇和瀏覽。更值得一提的是,當(dāng)在搜狗知立方中輸入“姚明的老婆的女兒的身高”如此復(fù)雜的查詢時,其會直接返回其女兒的姓名(姚沁蕾)以及其身高(110cm),并給出推理說明“葉莉的女兒是姚沁蕾”。如此詳實的說明不僅為返回的答案提供了很好的解釋,從另一個側(cè)面也展示了知識圖譜的強大,其不僅能識別出運動員姚明,也能抽取出關(guān)系“老婆”和“女兒”和屬性“身高”等信息。當(dāng)我們將查詢修改為“姚明的妻子的女兒的身高”時,依然返回相同的結(jié)果,這也意味著知識圖譜知道“妻子”和“老婆”代表相同的含義。通過上述的介紹,大家應(yīng)該對知識圖譜的表示以及其在搜索中的展現(xiàn)形式有了更深的了解。接著,我將介紹知識圖譜的構(gòu)建以及如何在搜索中應(yīng)用知識圖譜返回相應(yīng)的知識卡片以及答案。知識圖譜的構(gòu)建1. 知識圖譜的規(guī)模據(jù)不完全統(tǒng)計,Google知識圖譜到目前為止包含了5億個實體和35億條事實(形如實體-屬性-值,和實體-關(guān)系-實體)。其知識圖譜是面向全球的,因此包含了實體和相關(guān)事實的多語言描述。不過相比占主導(dǎo)的英語外,僅包含其他語言(如中文)的知識圖譜的規(guī)模則小了很多。與此不同的是,百度和搜狗主要針對中文搜索推出知識圖譜,其知識庫中的知識也主要以中文來描述,其規(guī)模略小于Google的。2.知識圖譜的數(shù)據(jù)來源為了提高搜索質(zhì)量,特別是提供如對話搜索和復(fù)雜問答等新的搜索體驗,我們不僅要求知識圖譜包含大量高質(zhì)量的常識性知識,還要能及時發(fā)現(xiàn)并添加新的知識。在這種背景下,知識圖譜通過收集來自百科類站點和各種垂直站點的結(jié)構(gòu)化數(shù)據(jù)來覆蓋大部分常識性知識。這些數(shù)據(jù)普遍質(zhì)量較高,更新比較慢。而另一方面,知識圖譜通過從各種半結(jié)構(gòu)化數(shù)據(jù)(形如HTML表格)抽取相關(guān)實體的屬性-值對來豐富實體的描述。此外,通過搜索日志(query log)發(fā)現(xiàn)新的實體或新的實體屬性從而不斷擴展知識圖譜的覆蓋率。相比高質(zhì)量的常識性知識,通過數(shù)據(jù)挖掘抽取得到的知識數(shù)據(jù)更大,更能反映當(dāng)前用戶的查詢需求并能及時發(fā)現(xiàn)最新的實體或事實,但其質(zhì)量相對較差,存在一定的錯誤。這些知識利用互聯(lián)網(wǎng)的冗余性在后續(xù)的挖掘中通過投票或其他聚合算法來評估其置信度,并通過人工審核加入到知識圖譜中。a) 百科類數(shù)據(jù)維基百科4 ,通過協(xié)同編輯,已經(jīng)成為最大的在線百科全書,其質(zhì)量與大英百科媲美。可以通過以下方式來從維基百科中獲取所需的內(nèi)容:通過文章頁面(Article Page)抽取各種實體;通過重定向頁面(Redirect Page)獲得這些實體的同義詞(又稱Synonym);通過去歧義頁面(Disambiguation Page)和內(nèi)鏈錨文本(Internal Link Anchor Text)獲得它們的同音異義詞(又稱Homonym);通過概念頁面(Category Page)獲得各種概念以及其上下位(subclass)關(guān)系;通過文章頁面關(guān)聯(lián)的開放分類抽取實體所對應(yīng)的類別;通過信息框(Infobox)抽取實體所對應(yīng)的屬性-值對和關(guān)系-實體對。類似地,從百度百科和互動百科抽取各種中文知識來彌補維基百科中文數(shù)據(jù)不足的缺陷。此外,F(xiàn)reebase5 是另一個重要的百科類的數(shù)據(jù)源,其包含超過3900萬個實體(其稱為Topics)和18億條事實,規(guī)模遠(yuǎn)大于維基百科。對比之前提及的知識圖譜的規(guī)模,我們發(fā)現(xiàn)僅Freebase一個數(shù)據(jù)源就構(gòu)成了Google知識圖譜的半壁江山。更為重要的是,維基百科所編輯的是各種詞條,這些詞條以文章的形式來展現(xiàn),包含各種半結(jié)構(gòu)化信息,需要通過事先制定的規(guī)則來抽取知識;而Freebase則直接編輯知識,包括實體及其包含的屬性和關(guān)系,以及實體所屬的類型等結(jié)構(gòu)化信息。因此,不需要通過任何抽取規(guī)則即可獲得高質(zhì)量的知識。雖然開發(fā)Freebase的母公司MetaWeb于2010年被Google收購,F(xiàn)reebase還是作為開放的知識管理平臺獨立運行。所以百度和搜狗也將Freebase加入到其知識圖譜中。b) 結(jié)構(gòu)化數(shù)據(jù)除了百科類的數(shù)據(jù),各大搜索引擎公司在構(gòu)建知識圖譜時,還考慮其他結(jié)構(gòu)化數(shù)據(jù)。其中,LOD項目在發(fā)布各種語義數(shù)據(jù)的同時,通過owl:sameAs將新發(fā)布的語義數(shù)據(jù)中涉及的實體和LOD中已有數(shù)據(jù)源所包含的潛在同一實體進行關(guān)聯(lián),從而實現(xiàn)了手工的實體對齊(entity alignment)。LOD不僅包括如DBpedia6 和YAGO7 等通用語義數(shù)據(jù)集,還包括如MusicBrainz8 和DrugBank9 等特定領(lǐng)域的知識庫。因此,Google等通過整合LOD中的(部分)語義數(shù)據(jù)提高知識的覆蓋率,尤其是垂直領(lǐng)域的各種知識。此外,Web上存在大量高質(zhì)量的垂直領(lǐng)域站點(如電商網(wǎng)站,點評網(wǎng)站等),這些站點被稱為Deep Web10。它們通過動態(tài)網(wǎng)頁技術(shù)將保存在數(shù)據(jù)庫中的各種領(lǐng)域相關(guān)的結(jié)構(gòu)化數(shù)據(jù)以HTML表格的形式展現(xiàn)給用戶。各大搜索引擎公司通過收購這些站點或購買其數(shù)據(jù)來進一步擴充其知識圖譜在特定領(lǐng)域的知識。這樣做出于三方面原因:其一、大量爬取這些站點的數(shù)據(jù)會占據(jù)大量帶寬,導(dǎo)致這些站點無法被正常訪問;其二、爬取全站點數(shù)據(jù)可能會涉及知識產(chǎn)權(quán)糾紛;最后,相比靜態(tài)網(wǎng)頁的爬取,Deep Web爬蟲需要通過表單填充(Form Filling)技術(shù)來獲取相關(guān)內(nèi)容,且解析這些頁面中包含的結(jié)構(gòu)化信息需要額外的自動化抽取算法,具體細(xì)節(jié)在下一節(jié)描述。c) 半結(jié)構(gòu)化數(shù)據(jù)挖掘AVP雖然從Deep Web爬取數(shù)據(jù)并解析其中所包含的結(jié)構(gòu)化信息面臨很大的挑戰(zhàn),各大搜索引擎公司仍在這方面投入了大量精力。一方面,Web上存在大量長尾的結(jié)構(gòu)化站點,這些站點提供的數(shù)據(jù)與最主流的相關(guān)領(lǐng)域站點所提供的內(nèi)容具有很強的互補性,因此對這些長尾站點進行大規(guī)模的信息抽取(尤其是實體相關(guān)的屬性-值對的抽取)對于知識圖譜所含內(nèi)容的擴展是非常有價值的。另一方面,中文百科類的站點(如百度百科等)的結(jié)構(gòu)化程度遠(yuǎn)不如維基百科,能通過信息框獲得AVP的實體非常稀少,大量屬性-值對隱含在一些列表或表格中。一個切實可行的做法是構(gòu)建面向站點的包裝器(Site-specific Wrapper)。其背后的基本思想是:一個Deep Web站點中的各種頁面由統(tǒng)一的程序動態(tài)生成,具有類似的布局和結(jié)構(gòu)。利用這一點,我們僅需從當(dāng)前待抽取站點采樣并標(biāo)注幾個典型詳細(xì)頁面(Detailed Pages),利用這些頁面通過模式學(xué)習(xí)算法(Pattern Learning)自動構(gòu)建出一個或多個以類Xpath表示的模式,然后將其應(yīng)用在該站點的其他詳細(xì)頁面中從而實現(xiàn)自動化的AVP抽取。對于百科類站點,我們可以將具有相同類別的頁面作為某個“虛擬”站點,并使用類似的方法進行實體AVP的抽取。自動學(xué)習(xí)獲得的模式并非完美,可能會遺漏部分重要的屬性,也可能產(chǎn)生錯誤的抽取結(jié)果。為了應(yīng)對這個問題,搜索引擎公司往往通過構(gòu)建工具來可視化這些模式,并人工調(diào)整或新增合適的模式用于抽取。此外,通過人工評估抽取的結(jié)果,將那些抽取結(jié)果不令人滿意的典型頁面進行再標(biāo)注來更新訓(xùn)練樣本,從而達到主動學(xué)習(xí)(Active Learning)的目的。d) 通過搜索日志進行實體和實體屬性等挖掘搜索日志是搜索引擎公司積累的寶貴財富。一條搜索日志形如。通過挖掘搜索日志,我們往往可以發(fā)現(xiàn)最新出現(xiàn)的各種實體及其屬性,從而保證知識圖譜的實時性。這里側(cè)重于從查詢的關(guān)鍵詞短語和點擊的頁面所對應(yīng)的標(biāo)題中抽取實體及其屬性。選擇查詢作為抽取目標(biāo)的意義在于其反映了用戶最新最廣泛的需求,從中能挖掘出用戶感興趣的實體以及實體對應(yīng)的屬性。而選擇頁面的標(biāo)題作為抽取目標(biāo)的意義在于標(biāo)題往往是對整個頁面的摘要,包含最重要的信息。據(jù)百度研究者的統(tǒng)計,90%以上的實體可以在網(wǎng)頁標(biāo)題中被找到。為了完成上述抽取任務(wù),一個常用的做法是:針對每個類別,挑選出若干屬于該類的實體(及相關(guān)屬性)作為種子(Seeds),找到包含這些種子的查詢和頁面標(biāo)題,形成正則表達式或文法模式。這些模式將被用于抽取查詢和頁面標(biāo)題中出現(xiàn)的其他實體及其屬性。如果當(dāng)前抽取所得的實體未被包含在知識圖譜中,則該實體成為一個新的候選實體。類似地,如果當(dāng)前被抽取的屬性未出現(xiàn)在知識圖譜中,則此屬性成為一個新的候選屬性。這里,我們僅保留置信度高的實體及其屬性,新增的實體和屬性將被作為新的種子發(fā)現(xiàn)新的模式。此過程不斷迭代直到?jīng)]有新的種子可以加入或所有的模式都已經(jīng)找到且無法泛化。在決定模式的好壞時,常用的基本原則是盡量多地發(fā)現(xiàn)屬于當(dāng)前類別的實體和對應(yīng)屬性,盡量少地抽取出屬于其他類別的實體及屬性。上述方法被稱為基于Bootstrapping的多類別協(xié)同模式學(xué)習(xí)。3. 從抽取圖譜到知識圖譜上述所介紹的方法僅僅是從各種類型的數(shù)據(jù)源抽取構(gòu)建知識圖譜所需的各種候選實體(概念)及其屬性關(guān)聯(lián),形成了一個個孤立的抽取圖譜(Extraction Graphs)。為了形成一個真正的知識圖譜,我們需要將這些信息孤島集成在一起。下面我對知識圖譜挖掘所涉及的重要技術(shù)點逐一進行介紹。a) 實體對齊實體對齊(Object Alignment)旨在發(fā)現(xiàn)具有不同ID但卻代表真實世界中同一對象的那些實體,并將這些實體歸并為一個具有全局唯一標(biāo)識的實體對象添加到知識圖譜中。雖然實體對齊在數(shù)據(jù)庫領(lǐng)域被廣泛研究,但面對如此多異構(gòu)數(shù)據(jù)源上的Web規(guī)模的實體對齊,這還是第一次嘗試。各大搜索引擎公司普遍采用的方法是聚類。聚類的關(guān)鍵在于定義合適的相似度度量。這些相似度度量遵循如下觀察:具有相同描述的實體可能代表同一實體(字符相似);具有相同屬性-值的實體可能代表相同對象(屬性相似);具有相同鄰居的實體可能指向同一個對象(結(jié)構(gòu)相似)。在此基礎(chǔ)上,為了解決大規(guī)模實體對齊存在的效率問題,各種基于數(shù)據(jù)劃分或分割的算法被提出將實體分成一個個子集,在這些子集上使用基于更復(fù)雜的相似度計算的聚類并行地發(fā)現(xiàn)潛在相同的對象。另外,利用來自如LOD中已有的對齊標(biāo)注數(shù)據(jù)(使用owl:sameAs關(guān)聯(lián)兩個實體)作為訓(xùn)練數(shù)據(jù),然后結(jié)合相似度計算使用如標(biāo)簽傳遞(Label Propagation)等基于圖的半監(jiān)督學(xué)習(xí)算法發(fā)現(xiàn)更多相同的實體對。無論何種自動化方法都無法保證100%的準(zhǔn)確率,所以這些方法的產(chǎn)出結(jié)果將作為候選供人工進一步審核和過濾。b) 知識圖譜schema構(gòu)建在之前的技術(shù)點介紹中,大部分篇幅均在介紹知識圖譜中數(shù)據(jù)層(Data Level)的構(gòu)建,而沒有過多涉及模式層(Schema Level)。事實上,模式是對知識的提煉,而且遵循預(yù)先給定的schema有助于知識的標(biāo)準(zhǔn)化,更利于查詢等后續(xù)處理。為知識圖譜構(gòu)建schema相當(dāng)于為其建立本體(Ontology)。最基本的本體包括概念、概念層次、屬性、屬性值類型、關(guān)系、關(guān)系定義域(Domain)概念集以及關(guān)系值域(Range)概念集。在此基礎(chǔ)上,我們可以額外添加規(guī)則(Rules)或公理(Axioms)來表示模式層更復(fù)雜的約束關(guān)系。面對如此龐大且領(lǐng)域無關(guān)的知識庫,即使是構(gòu)建最基本的本體,也是非常有挑戰(zhàn)的。Google等公司普遍采用的方法是自頂向下(Top-Down)和自底向上(Bottom-Up)相結(jié)合的方式。這里,自頂向下的方式是指通過本體編輯器(Ontology Editor)預(yù)先構(gòu)建本體。當(dāng)然這里的本體構(gòu)建不是從無到有的過程,而是依賴于從百科類和結(jié)構(gòu)化數(shù)據(jù)得到的高質(zhì)量知識中所提取的模式信息。更值得一提的是,Google知識圖譜的Schema是在其收購的Freebase的schema基礎(chǔ)上修改而得。Freebase的模式定義了Domain(領(lǐng)域),Type(類別)和Topic(主題,即實體)。每個Domain有若干Types,每個Type包含多個Topics且和多個Properties關(guān)聯(lián),這些Properties規(guī)定了屬于當(dāng)前Type的那些Topics需要包含的屬性和關(guān)系。定義好的模式可被用于抽取屬于某個Type或滿足某個Property的新實體(或?qū)嶓w對)。另一方面,自底向上的方式則通過上面介紹的各種抽取技術(shù),特別是通過搜索日志和Web Table抽取發(fā)現(xiàn)的類別、屬性和關(guān)系,并將這些置信度高的模式合并到知識圖譜中。合并過程將使用類似實體對齊的對齊算法。對于未能匹配原有知識圖譜中模式的類別、屬性和關(guān)系作為新的模式加入知識圖譜供人工過濾。自頂向下的方法有利于抽取新的實例,保證抽取質(zhì)量,而自底向上的方法則能發(fā)現(xiàn)新的模式。兩者是互補的。c) 不一致性的解決當(dāng)融合來自不同數(shù)據(jù)源的信息構(gòu)成知識圖譜時,有一些實體會同時屬于兩個互斥的類別(如男女)或某個實體所對應(yīng)的一個Property11 (如性別)對應(yīng)多個值。這樣就會出現(xiàn)不一致性。這些互斥的類別對以及Functional Properties可以看作是模式層的知識,通常規(guī)模不是很大,可以通過手工指定規(guī)則來定義。而由于不一致性的檢測要面對大規(guī)模的實體及相關(guān)事實,純手工的方法將不再可行。一個簡單有效的方法充分考慮數(shù)據(jù)源的可靠性以及不同信息在各個數(shù)據(jù)源中出現(xiàn)的頻度等因素來決定最終選用哪個類別或哪個屬性值。也就是說,我們優(yōu)先采用那些可靠性高的數(shù)據(jù)源(如百科類或結(jié)構(gòu)化數(shù)據(jù))抽取得到的事實。另外,如果一個實體在多個數(shù)據(jù)源中都被識別為某個類別的實例,或?qū)嶓w某個functional property在多個數(shù)據(jù)源中都對應(yīng)相同的值,那么我們傾向于最終選擇該類別和該值。注:在統(tǒng)計某個類別在數(shù)據(jù)源中出現(xiàn)的頻率前需要完成類別對齊計算。類似地,對于數(shù)值型的屬性值我們還需要額外統(tǒng)一它們所使用的單位。4. 知識圖譜上的挖掘通過各種信息抽取和數(shù)據(jù)集成技術(shù)已經(jīng)可以構(gòu)建Web規(guī)模的知識圖譜。為了進一步增加圖譜的知識覆蓋率,需要進一步在知識圖譜上進行挖掘。下面將介紹幾項重要的基于知識圖譜的挖掘技術(shù)。a) 推理推理(Reasoning或Inference)被廣泛用于發(fā)現(xiàn)隱含知識。推理功能一般通過可擴展的規(guī)則引擎來完成。知識圖譜上的規(guī)則一般涉及兩大類。一類是針對屬性的,即通過數(shù)值計算來獲取其屬性值。例如:知識圖譜中包含某人的出生年月,我們可以通過當(dāng)前日期減去其出生年月獲取其年齡。這類規(guī)則對于那些屬性值隨時間或其他因素發(fā)生改變的情況特別有用。另一類是針對關(guān)系的,即通過(鏈?zhǔn)?規(guī)則發(fā)現(xiàn)實體間的隱含關(guān)系。例如,我們可以定義規(guī)定:岳父是妻子的父親。利用這條規(guī)則,當(dāng)已知姚明的妻子(葉莉)和葉莉的父親(葉發(fā))時,可以推出姚明的岳父是葉發(fā)。b) 實體重要性排序搜索引擎識別用戶查詢中提到的實體,并通過知識卡片展現(xiàn)該實體的結(jié)構(gòu)化摘要。當(dāng)查詢涉及多個實體時,搜索引擎將選擇與查詢更相關(guān)且更重要的實體來展示。實體的相關(guān)性度量需在查詢時在線計算,而實體重要性與查詢無關(guān)可離線計算。搜索引擎公司將PageRank算法12 應(yīng)用在知識圖譜上來計算實體的重要性。和傳統(tǒng)的Web Graph相比,知識圖譜中的節(jié)點從單一的網(wǎng)頁變成了各種類型的實體,而圖中的邊也由連接網(wǎng)頁的超鏈接(Hyperlink)變成豐富的各種語義關(guān)系。由于不同的實體和語義關(guān)系的流行程度以及抽取的置信度均不同,而這些因素將影響實體重要性的最終計算結(jié)果,因此,各大搜索引擎公司嵌入這些因素來刻畫實體和語義關(guān)系的初始重要性,從而使用帶偏的PageRank算法(Biased PageRank)。c) 相關(guān)實體挖掘在相同查詢中共現(xiàn)的實體,或在同一個查詢會話(Session)中被提到的其他實體稱為相關(guān)實體。一個常用的做法是將這些查詢或會話看作是虛擬文檔,將其中出現(xiàn)的實體看作是文檔中的詞條,使用主題模型(如LDA)發(fā)現(xiàn)虛擬文檔集中的主題分布。其中每個主題包含1個或多個實體,這些在同一個主題中的實體互為相關(guān)實體。當(dāng)用戶輸入查詢時,搜索引擎分析查詢的主題分布并選出最相關(guān)的主題。同時,搜索引擎將給出該主題中與知識卡片所展現(xiàn)的實體最相關(guān)的那些實體作為“其他人還搜了”的推薦結(jié)果。5. 知識圖譜的更新和維護a) Type和Collection的關(guān)系知識圖譜的schema為了保證其質(zhì)量,由專業(yè)團隊審核和維護。以Google知識圖譜為例,目前定義的Type數(shù)在103-104的數(shù)量級。為了提高知識圖譜的覆蓋率,搜索引擎公司還通過自動化算法從各種數(shù)據(jù)源抽取新的類型信息(也包含關(guān)聯(lián)的Property信息),這些類型信息通過一個稱為Collection的數(shù)據(jù)結(jié)構(gòu)保存。它們不是馬上被加入到知識圖譜schema中。有些今天生成后第二天就被刪除了,有些則能長期的保留在Collection中,如果Collection中的某一種類型能夠長期的保留,發(fā)展到一定程度后,由專業(yè)的人員進行決策和命名并最終成為一種新的Type。b) 結(jié)構(gòu)化站點包裝器的維護站點的更新常常會導(dǎo)致原有模式失效。搜索引擎會定期檢查站點是否存在更新。當(dāng)檢測到現(xiàn)有頁面(原先已爬取)發(fā)生了變化,搜索引擎會檢查這些頁面的變化量,同時使用最新的站點包裝器進行AVP抽取。如果變化量超過事先設(shè)定的閾值且抽取結(jié)果與原先標(biāo)注的答案差別較大,則表明現(xiàn)有的站點包裝器失效了。在這種情況下,需要對最新的頁面進行重新標(biāo)注并學(xué)習(xí)新的模式,從而構(gòu)建更新的包裝器。c) 知識圖譜的更新頻率加入到知識圖譜中的數(shù)據(jù)不是一成不變的。Type對應(yīng)的實例往往是動態(tài)變化的。例如,美國總統(tǒng),隨著時間的推移,可能對應(yīng)不同的人。由于數(shù)據(jù)層的規(guī)模和更新頻度都遠(yuǎn)超schema層,搜索引擎公司利用其強大的計算保證圖譜每天的更新都能在3個小時內(nèi)完成,而實時的熱點也能保證在事件發(fā)生6個小時內(nèi)在搜索結(jié)果中反映出來。d) 眾包(Crowdsourcing)反饋機制除了搜索引擎公司內(nèi)部的專業(yè)團隊對構(gòu)建的知識圖譜進行審核和維護,它們還依賴用戶來幫助改善圖譜。具體來說,用戶可以對搜索結(jié)果中展現(xiàn)的知識卡片所列出的實體相關(guān)的事實進行糾錯。當(dāng)很多用戶都指出某個錯誤時,搜索引擎將采納并修正。這種利用群體智

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論