基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究軟件工程（嵌入式培養(yǎng)）專業(yè)

上傳人：文*** IP屬地：山西上傳時(shí)間：2024-04-10 格式：DOCX 頁(yè)數(shù)：35 大?。?04.45KB 積分：20 舉報(bào) 版權(quán)申訴

基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究軟件工程（嵌入式培養(yǎng)）專業(yè)_第2頁(yè)

基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究軟件工程（嵌入式培養(yǎng)）專業(yè)_第3頁(yè)

基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究軟件工程（嵌入式培養(yǎng)）專業(yè)_第4頁(yè)

基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究軟件工程（嵌入式培養(yǎng)）專業(yè)_第5頁(yè)

已閱讀5頁(yè)，還剩30頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄21879_WPSOffice_Level1摘要 18694_WPSOffice_Level1Abstract 229709_WPSOffice_Level1前言 321827_WPSOffice_Level1第一章緒論 48694_WPSOffice_Level21.1研究背景及意義 429709_WPSOffice_Level21.2國(guó)內(nèi)外研究現(xiàn)狀 521827_WPSOffice_Level21.2論文主要工作 58694_WPSOffice_Level3（1）百科數(shù)據(jù)的爬?。?629709_WPSOffice_Level3（2）數(shù)據(jù)預(yù)處理： 621827_WPSOffice_Level3（3）構(gòu)建異質(zhì)網(wǎng)絡(luò)以及Wordembedding： 621661_WPSOffice_Level3（4）卷積： 612616_WPSOffice_Level3（5）準(zhǔn)確性評(píng)估 621661_WPSOffice_Level21.3本文組織結(jié)構(gòu) 621661_WPSOffice_Level1第二章相關(guān)知識(shí)介紹 812616_WPSOffice_Level22.1神經(jīng)網(wǎng)絡(luò) 815_WPSOffice_Level23.2wordembedding 815_WPSOffice_Level33.2.1表示學(xué)習(xí) 818070_WPSOffice_Level33.2.1數(shù)學(xué)意義上的embedding 830427_WPSOffice_Level32.2.2wordembedding 918070_WPSOffice_Level22.3metapath2vec 930427_WPSOffice_Level22.4卷積神經(jīng)網(wǎng)絡(luò) 1017709_WPSOffice_Level32.4.1前饋神經(jīng)網(wǎng)絡(luò) 1015561_WPSOffice_Level32.4.2CNN 1028270_WPSOffice_Level32.4.3Logistic分類器 1117709_WPSOffice_Level22.5啟發(fā)式規(guī)則（HeuristicAlgorithm） 1115561_WPSOffice_Level22.6本章總結(jié) 1212616_WPSOffice_Level1第三章具體算法介紹 1328270_WPSOffice_Level23.1百科數(shù)據(jù)資源分析 133973_WPSOffice_Level23.2算法大致流程 1419425_WPSOffice_Level23.3詞向量生成 1513014_WPSOffice_Level23.4模型輸入 1630986_WPSOffice_Level23.5模型詳細(xì)介紹 1815_WPSOffice_Level1第四章實(shí)驗(yàn) 201959_WPSOffice_Level24.1概述 20208_WPSOffice_Level24.2baseline 214941_WPSOffice_Level34.3.1參數(shù)設(shè)定 235999_WPSOffice_Level34.3.2實(shí)驗(yàn)結(jié)果 2318070_WPSOffice_Level1第五章總結(jié) 2630427_WPSOffice_Level1參考文獻(xiàn) 2717709_WPSOffice_Level1致謝 29摘要隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，在互聯(lián)網(wǎng)上流轉(zhuǎn)的數(shù)據(jù)信息量與日俱增。那么不可避免的，從這些數(shù)據(jù)中提取可用部分并且構(gòu)建有效的知識(shí)，形成知識(shí)圖譜，用于準(zhǔn)確表達(dá)各個(gè)實(shí)體的語(yǔ)義和相互關(guān)系成為了十分重要的問(wèn)題。分類體系在構(gòu)建知識(shí)圖譜時(shí)是無(wú)法繞過(guò)的基礎(chǔ)工作，為保證知識(shí)圖譜的連貫性，可用性以及準(zhǔn)確性，實(shí)體的分類任務(wù)將成為知識(shí)圖譜構(gòu)建的首要工作。然而，現(xiàn)在的分類工作大部分都只能為實(shí)體進(jìn)行粗粒度的標(biāo)注，諸如：{“自然”；“科學(xué)”；“人物”；“歷史”；“生活”；“社會(huì)”；“藝術(shù)”；“經(jīng)濟(jì)”；“體育”；“地理”}這種程度的分類.雖然能夠解決部分在構(gòu)建知識(shí)圖譜時(shí)的問(wèn)題，但是由于粒度過(guò)大，不夠精準(zhǔn)，也有其缺陷。在本文中，我們主要提出并實(shí)驗(yàn)了使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體進(jìn)行細(xì)粒度劃分的方法。實(shí)體的來(lái)源為百科詞條，我們首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取到百科中詞條的相關(guān)信息，對(duì)詞條數(shù)據(jù)進(jìn)行預(yù)處理后得到結(jié)構(gòu)化的信息并將其存入到數(shù)據(jù)庫(kù)中?？紤]到擁有相同類型的實(shí)體的info-box可能會(huì)擁有類似的attribute-value對(duì)，我們將構(gòu)成一個(gè)包含attribute-value信息異質(zhì)網(wǎng)絡(luò)并從中抽取出路徑作為神經(jīng)網(wǎng)絡(luò)的輸入，最終訓(xùn)練出一個(gè)path-CNN的二分類模型用于預(yù)測(cè)對(duì)于一個(gè)實(shí)體判斷其是否屬于給定的分類。關(guān)鍵詞：細(xì)粒度分類，實(shí)體，百科數(shù)據(jù)，卷積神經(jīng)網(wǎng)絡(luò)，異質(zhì)網(wǎng)絡(luò)Abstract AsthedevelopmentofInternettechnology,thedatainformationtransferringontheInternetisgrowingataterriblerate.Soinevitably,extractingtheusefulpartsfromthesedataandbuildingavalidknowledgemapforaccuratelyexpressingthesemanticsandinterrelationshipsofeachentityhavebecomeaveryimportantproblem. Theclassificationsystemisthebasicworkthatcannotbepassedwhenconstructingtheknowledgemap.Inordertoensurethecoherence,availabilityandaccuracyoftheknowledgemap,classificationwillbecometheprimarytask.However,mostoftoday'sclassificationworkcanonlybecoarse-grainedforentitiessuchas:{"nature";"Science";"Characters";"History";"Life";"Society";"Art";"Economy";"Sports"};Althoughitispossibletosolvesomeproblemsintheconstructionoftheknowledgemap,duetothecoarsenessandlackofprecision,It'sstillflawed.Inthispaper,wemainlyproposeandexperimentthemethodofusingconvolutionalneuralnetworktodividethefinegrainoftheentity.Thesourcesoftheentityareencyclopediaarticles.Wefirstobtaintherelevantinformationabouttheentryintheencyclopediathroughthewebcrawler,thenpreprocesstheentrydataandobtainthestructuredinformationandstoreitinthedatabase.Consideringtheinfo-boxofentitywiththesametypemayhavesimilarattribute-valuepairs,wewillmakeaheterogeneousnetworkswhichcontainstheattribute-valueinformationandextractthepathasneuralnetwork’sinput,finallywewillgiveapath-CNNbinaryclassificationmodelwhichisusedtopredictforanentitywhetheritbelongstoagivencategory.Attributewords:fine-grainedclassification,entity,encyclopediadata,convolutionalneuralnetwork,heterogeneousnetwork.前言隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，人工智能已經(jīng)成為了時(shí)下最熱門的話題。計(jì)算機(jī)在實(shí)現(xiàn)智能化的道路上正在經(jīng)歷從感知智能到認(rèn)知智能的過(guò)渡發(fā)展期。認(rèn)知智能中最難解決的問(wèn)題即為自然語(yǔ)言的語(yǔ)義理解問(wèn)題。為了讓計(jì)算機(jī)可以正確理解人類的語(yǔ)言，我們需要預(yù)先讓計(jì)算機(jī)掌握足夠充分的人類社會(huì)及各個(gè)領(lǐng)域的知識(shí)。正所謂“知識(shí)是智能的前提”，由此知識(shí)圖譜的概念應(yīng)運(yùn)而生。知識(shí)圖譜的構(gòu)建是一項(xiàng)非常復(fù)雜的工程，其中建立知識(shí)的分類體系是知識(shí)圖譜構(gòu)建中最為基礎(chǔ)的工作。已經(jīng)有無(wú)數(shù)的學(xué)者在這個(gè)領(lǐng)域上做出了貢獻(xiàn)，然而目前對(duì)于中文的實(shí)體分類工作目前仍然處于較為粗粒度的階段，我們?nèi)狈σ粋€(gè)可行的準(zhǔn)確的方案對(duì)于細(xì)粒度的分類要求進(jìn)行處理。以百科詞條為例，百科數(shù)據(jù)都有info-box（以鍵值對(duì)的形式表現(xiàn)出詞條實(shí)體所擁有的主要屬性，比如中國(guó)這個(gè)詞條就有著諸如“主要語(yǔ)言-漢語(yǔ)”，“文字-漢字”，“首都-北京”等attribute-value對(duì)），由于具有相同類別的實(shí)體大多數(shù)的attribute應(yīng)當(dāng)是重復(fù)的，故而現(xiàn)有的分類算法大都選擇attribute作為特征進(jìn)行訓(xùn)練。在進(jìn)行粗粒度的劃分時(shí)，這種特征十分有效，但是當(dāng)進(jìn)行細(xì)粒度劃分時(shí)，由于特征太少會(huì)導(dǎo)致分類結(jié)果很模糊，比如一本懸疑小說(shuō)和一本武俠小說(shuō)，會(huì)具有九成一樣的attribute，在使用原有的方法進(jìn)行分類就容易導(dǎo)致一本只屬于武俠小說(shuō)的書(shū)被同時(shí)分類到“懸疑小說(shuō)”和“武俠小說(shuō)”上。所以特征需要重新抽取。在本文中，我們研究并實(shí)現(xiàn)了將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到實(shí)體分類中，以實(shí)現(xiàn)細(xì)粒度劃分的目的。主要工作如下：（1）從互動(dòng)百科以及百度百科上獲得實(shí)體數(shù)據(jù)（主要爬取部分包括：實(shí)體名，info-box,開(kāi)放分類，簡(jiǎn)介）。（2）獲取訓(xùn)練集：部分的實(shí)體的title具有人工標(biāo)注的標(biāo)簽，抽取出人工標(biāo)注的標(biāo)簽后與開(kāi)放分類中已經(jīng)存在的分類作比對(duì)，如果開(kāi)放分類中存在此標(biāo)簽，那么將這個(gè)標(biāo)簽作為當(dāng)前實(shí)體的分類并將此實(shí)體加入正訓(xùn)練集。（3）對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的第一層后，設(shè)定卷積核大小等參數(shù)進(jìn)行卷積操作。第一章緒論本章節(jié)首先介紹了細(xì)粒度的實(shí)體分類算法的研究背景和意義，隨后簡(jiǎn)單介紹了算法實(shí)現(xiàn)過(guò)程中的主要工作，在最后概括了下本篇論文的架構(gòu)。1.1研究背景及意義隨著計(jì)算機(jī)技術(shù)的發(fā)展，近年來(lái)，人工智能已經(jīng)成為了炙手可熱的話題。計(jì)算機(jī)需要一個(gè)算法去幫助它理解事物和判斷人類意圖。然而計(jì)算機(jī)若是想要擁有智能，一個(gè)好的知識(shí)圖譜時(shí)必不可少的。百度的技術(shù)副總裁王海峰在演講時(shí)說(shuō)過(guò)：知識(shí)與人工智能的價(jià)值就在于，讓機(jī)器具備認(rèn)知能力。每個(gè)人都有自己的知識(shí)面，這些本質(zhì)上都是知識(shí)圖譜。而對(duì)于人工智能來(lái)說(shuō)，知識(shí)圖譜是機(jī)器獲得認(rèn)知的前提。現(xiàn)如今，諸如Dbpedia[9]、Freebase[10]、Yago[11]和Probase[12]等知識(shí)圖譜已經(jīng)廣泛應(yīng)用于許多實(shí)際應(yīng)用中，如知識(shí)推理、實(shí)體鏈接[14]和問(wèn)答等。分類體系是建立知識(shí)圖譜的基石，在各大知識(shí)圖譜的應(yīng)用場(chǎng)景中，比如：從百度搜索結(jié)果時(shí)，在右側(cè)的聯(lián)想推薦同類搜索；旅游搜索地圖時(shí)，為你自動(dòng)推薦的附近景點(diǎn)和商家……這些都是建立在對(duì)知識(shí)進(jìn)行分類的基礎(chǔ)上。然而現(xiàn)有的搜索算法還是十分粗糙。在保證準(zhǔn)確度的前提下最多只能進(jìn)行200個(gè)分類。這顯然并不夠，以百度搜索的實(shí)際場(chǎng)景為例：若是一位用戶在搜索《福爾模式探案集》這本懸疑小說(shuō)的時(shí)候，搜索結(jié)果界面右側(cè)的聯(lián)想部分，若是圖譜中分類的顆粒度不夠小，則可能出現(xiàn)一本武俠小說(shuō)和這本懸疑小說(shuō)被歸為一類，在假設(shè)這本武俠小說(shuō)的搜索熱度高一點(diǎn)的話，最終的結(jié)果就會(huì)是這本武俠小說(shuō)出現(xiàn)在了聯(lián)想推薦中。顯然這個(gè)并不是推薦算法設(shè)計(jì)者想要的結(jié)果。這就是研究細(xì)粒度的分類算法的意義所在。本文主要研究的是對(duì)于百科數(shù)據(jù)的實(shí)體分類。百科數(shù)據(jù)所擁有的info-box在兩個(gè)詞條所處的分類一樣的時(shí)候，info-box中的attribute也會(huì)具有相似性，所以現(xiàn)有的很多算法都是通過(guò)attribute來(lái)進(jìn)行訓(xùn)練。然而info-box中只出現(xiàn)了實(shí)體的主要屬性，這代表著特征的充分性不夠。在進(jìn)行粗粒度的劃分的時(shí)候行之有效，但是一旦分類數(shù)量一旦超過(guò)百個(gè)就會(huì)出現(xiàn)準(zhǔn)確度大幅降低的問(wèn)題。本文主要研究的內(nèi)容就是擴(kuò)充特征以及將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到實(shí)體分類中。能夠有效提高分類的準(zhǔn)確度以及降低粒度。1.2國(guó)內(nèi)外研究現(xiàn)狀由于大數(shù)據(jù)時(shí)代下，構(gòu)建知識(shí)圖譜的信息大都隱藏在非結(jié)構(gòu)化的文本數(shù)據(jù)中，如何從這些文本數(shù)據(jù)中抽取滿足特定需求的信息是第一步需要解決的目標(biāo)。信息抽取從20世紀(jì)60年代于美國(guó)率先啟動(dòng)直到80年代步入繁榮期，近些年仍有學(xué)者不斷對(duì)其研究改善，其中最為經(jīng)典的Python的Scrapy爬蟲(chóng)以及Java中的Jsoup包。同時(shí)實(shí)體分類其實(shí)已然成為了一個(gè)較為成熟的算法，已經(jīng)有很多學(xué)者就此作出了研究[1]。較為成熟的有：Toral和Mu等人提出了一種將百科全書(shū)歸類為三種類型(位置、組織、人)的方法，使用了文章正文中包含的詞，以及在WordNet中使用單詞的hypernym信息作為外部知識(shí)庫(kù)。最后，他們采用加權(quán)投票算法來(lái)確定每篇文章的類型[5]。Dakka和Cucerzan等人使用了監(jiān)督機(jī)器學(xué)習(xí)算法的算法:SVMs和naiveBayes將百科全書(shū)分為四種類型(PER,ORG,LOC,MISC)，由ACE定義。他們?yōu)槊恳黄恼率褂昧藥讉€(gè)不同的特性:單詞袋、文章結(jié)構(gòu)、摘要、標(biāo)題和實(shí)體[6]。在最近的一項(xiàng)研究中，Suzuki等人提出了一種基于神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)方法[7]，該方法將百科全書(shū)的文章分類為由Sekine等人提出的200種類型的文章。他們使用兩組特性來(lái)構(gòu)建模型，其中一個(gè)是Higashinaka等人提出的基線特征集。另一個(gè)是文章向量(即wordembedding)還有早些年有人對(duì)于基于半監(jiān)督學(xué)習(xí)的多特征大規(guī)模實(shí)體分類[15]，嘗試解決了在大規(guī)模的數(shù)據(jù)下擴(kuò)充訓(xùn)練正樣本以提高分類準(zhǔn)確度的目的，同時(shí)也嘗試了對(duì)于樣本中的長(zhǎng)數(shù)據(jù)進(jìn)行處理。近些年還有人嘗試基于中文百科知識(shí)進(jìn)行分類體系的構(gòu)建[2]，剖析實(shí)體和分類之間的從屬以及分類之間的父子關(guān)系。也有將MLU聯(lián)合推斷方法應(yīng)用到人物實(shí)體識(shí)別中[3]。這些都是對(duì)于分類算法的貢獻(xiàn)。但大多數(shù)研究假設(shè)的是一組相對(duì)較小的粗粒度類型，在現(xiàn)有的研究中最多可達(dá)200種。1.2論文主要工作本文以互動(dòng)百科以及百度百科的數(shù)據(jù)為基礎(chǔ)，從現(xiàn)有的實(shí)體名的人工標(biāo)注的標(biāo)簽中抽取出細(xì)粒度的分類，隨后構(gòu)建訓(xùn)練集并通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。主要工作如下：百科數(shù)據(jù)的爬取：從互動(dòng)百科以及百度百科中爬取到實(shí)體數(shù)據(jù)，主要包括：info-box，實(shí)體名以及括號(hào)后的人工標(biāo)注標(biāo)簽，簡(jiǎn)介以及開(kāi)放分類。數(shù)據(jù)預(yù)處理：抽取出每個(gè)分類對(duì)應(yīng)的attribute等數(shù)據(jù)并對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行梳理分表統(tǒng)計(jì)等工作，隨后將其存入CSV文件，這將成為之后進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)基礎(chǔ)。構(gòu)建異質(zhì)網(wǎng)絡(luò)以及Wordembedding：梳理entity（實(shí)體名）-value-attribute-category（分類）之間的關(guān)系并構(gòu)建相應(yīng)的異質(zhì)網(wǎng)絡(luò)異質(zhì)網(wǎng)絡(luò)，隨后采用metapath2vec的方式生成詞向量。這些詞向量將成為之后path-CNN模型的輸入的節(jié)點(diǎn)。卷積：使用path-CNN訓(xùn)練模型。對(duì)于每一個(gè)entity，判斷其是否屬于某個(gè)category。構(gòu)造最多五百個(gè)entity->type的路徑并將每一個(gè)路徑作為向量作為模型的輸入，最后對(duì)這些向量集進(jìn)行卷積操作。最終輸出應(yīng)當(dāng)為當(dāng)前entity是否屬于該category。準(zhǔn)確性評(píng)估采用類似Yago的方式對(duì)于試驗(yàn)結(jié)果的準(zhǔn)確度進(jìn)行評(píng)估，選取數(shù)個(gè)志愿者以及抽取數(shù)量足夠的檢測(cè)集，使用投票的方法獲得準(zhǔn)確度評(píng)估結(jié) 果。1.3本文組織結(jié)構(gòu) 本文主要分為六個(gè)章節(jié)，具體的章節(jié)結(jié)構(gòu)如下：第一章為緒論。介紹了本次畢設(shè)算法的研究背景和意義，并對(duì)本畢業(yè)設(shè)計(jì)所做的主要工作做出簡(jiǎn)介。第二章大致描述了算法的主體流程以及訓(xùn)練出的模型的作用第三章是算法涉及到的相關(guān)技術(shù)的介紹，主要包括卷積神經(jīng)網(wǎng)絡(luò)，wordembedding等。第四章本章主要是對(duì)模型以及其中用到的核心算法進(jìn)行詳細(xì)說(shuō)明和解釋。介紹了相對(duì)于原本的分類算法，如何用卷積神經(jīng)網(wǎng)絡(luò)來(lái)降低分類的顆粒度。介紹了對(duì)于已有的傳統(tǒng)算法是如何進(jìn)行改進(jìn)的。第五章本畢業(yè)設(shè)計(jì)的實(shí)驗(yàn)過(guò)程，了解了核心算法之后，就進(jìn)行算法的開(kāi)發(fā)與實(shí)現(xiàn)。第六章為總結(jié)與展望。總結(jié)并歸納算法的實(shí)驗(yàn)結(jié)果并對(duì)實(shí)體分類算法的未來(lái)工作進(jìn)行了展望。相關(guān)知識(shí)介紹2.1神經(jīng)網(wǎng)絡(luò)“神經(jīng)網(wǎng)絡(luò)（neuralnetworks）是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò)，它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界所作出的交互反應(yīng)”[Kohonen,1998]。下圖為最為簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型：在這個(gè)模型中，神經(jīng)元接受來(lái)自神經(jīng)元a1到an的輸入，每一個(gè)輸入都帶有一個(gè)權(quán)值表達(dá)該輸入的重要性,其后對(duì)于每一個(gè)輸入乘以權(quán)值并且進(jìn)行累加。f代表當(dāng)前神經(jīng)元的操作函數(shù)，換句話說(shuō)當(dāng)前神經(jīng)元的輸出內(nèi)容。3.2wordembedding 3.2.1表示學(xué)習(xí)所謂的表示學(xué)習(xí)，在深度學(xué)習(xí)領(lǐng)域指的是：以自然語(yǔ)言處理（NaturalLanguageProcessing，NLP）對(duì)于某一個(gè)模型樣本輸入，由于計(jì)算機(jī)難以直接得理解自然語(yǔ)言中的單詞和語(yǔ)句的語(yǔ)義，表示學(xué)習(xí)的工作就是將原本對(duì)于計(jì)算機(jī)來(lái)說(shuō)晦澀難懂的輸入變成某個(gè)特定的，能被計(jì)算機(jī)理解的形式的輸入，比如講一個(gè)圖形信息轉(zhuǎn)化為點(diǎn)陣圖，將詞語(yǔ)轉(zhuǎn)化成為詞向量等。 3.2.1數(shù)學(xué)意義上的embedding從數(shù)學(xué)意義上來(lái)說(shuō)embedding是這樣的定義：若要將某個(gè)對(duì)象映射到另一個(gè)對(duì)象中。embedding就是一個(gè)單射的，結(jié)構(gòu)保持（structure-preserving）的映射。所謂的結(jié)構(gòu)保持就是指保留基本屬性，需要根據(jù)X和Y所屬的具體類型來(lái)定，比如現(xiàn)在需要將整數(shù)映射到有理數(shù)集中，最終依舊要保持這樣的屬性以及其他整數(shù)所具有的屬性。那么我們定義；這樣的一個(gè)映射就能被稱為embedding。 2.2.2wordembedding在機(jī)器學(xué)習(xí)領(lǐng)域上的wordembedding(詞嵌入)和在數(shù)學(xué)意義上的embedding有著很多不同之處。Wordembedding的目的在于將一個(gè)單詞表示為一個(gè)能夠代表當(dāng)前的單詞的屬性的向量。這個(gè)所謂的當(dāng)前的屬性主要體現(xiàn)在近義詞是否能夠通過(guò)將兩個(gè)詞對(duì)應(yīng)的詞向量在cos距離上相近。比如單詞“蘋(píng)果”可能被表達(dá)為<0.6,0.8>,香蕉可能被表達(dá)為<0.55,0.75>這樣一來(lái)將這兩個(gè)向量作為坐標(biāo)映射到一個(gè)x-y平面坐標(biāo)系后就會(huì)發(fā)現(xiàn)。這兩個(gè)點(diǎn)與原點(diǎn)相連形成的線的夾角非常小。這就代表著兩個(gè)詞比較相近。2.3metapath2vecMetapath2vec是一片發(fā)布在KDD-2017上的一片論文的工作。主要內(nèi)容為對(duì)于一個(gè)HeterogeneousNetwork(異質(zhì)網(wǎng)絡(luò))的表示學(xué)習(xí)算法的研究。在這個(gè)算法之前已經(jīng)有了Deepwalk以及node2vec兩種模型提出了對(duì)于網(wǎng)絡(luò)的表示學(xué)習(xí)。而Metapath2vec主要的創(chuàng)新點(diǎn)為使用元路徑（metapath）來(lái)指導(dǎo)尋找一個(gè)節(jié)點(diǎn)的相鄰節(jié)點(diǎn)的集合時(shí)的游走,這也是這種算法命名的由來(lái)。所謂的元路徑就是指一組連接多個(gè)節(jié)點(diǎn)的路徑，但是這個(gè)路徑包含著不同類型的節(jié)點(diǎn)，換句話說(shuō)它可以表示出不同類型的節(jié)點(diǎn)相互聯(lián)結(jié)的語(yǔ)義。這樣解決了在就要有不同類型節(jié)點(diǎn)的異質(zhì)網(wǎng)絡(luò)中的節(jié)點(diǎn)表示問(wèn)題。2.4卷積神經(jīng)網(wǎng)絡(luò) 2.4.1前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)（FeedforwardNeuralNetwork）是神經(jīng)網(wǎng)絡(luò)的一種。在這種神經(jīng)網(wǎng)絡(luò)中，網(wǎng)絡(luò)的每一層只會(huì)接受來(lái)自上一層的輸入同時(shí)將自己的輸出作為輸入給下一層直到整個(gè)網(wǎng)絡(luò)的輸出為止，而不存在任何的反饋。直觀的來(lái)說(shuō)，這是一個(gè)有向無(wú)環(huán)圖。2.4.2CNN卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork，CNN）[4]是一種經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò)。它的歷史可以追溯到上個(gè)世紀(jì)五十年代，然而真正將卷積神經(jīng)網(wǎng)絡(luò)發(fā)揚(yáng)光大的是在20世紀(jì)90年代出現(xiàn)的一種多層的人工神經(jīng)網(wǎng)絡(luò)：LeNet-5。當(dāng)時(shí)是用作手寫(xiě)數(shù)字的分類，雖然LeNet-5難以處理復(fù)雜問(wèn)題，但是已經(jīng)趨近于現(xiàn)在的用于圖像識(shí)別的成熟的CNN了。直到06年起，CNN的發(fā)展迎來(lái)了巔峰期，在圖像識(shí)別領(lǐng)域取得了巨大的突破。卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行圖像識(shí)別的時(shí)候會(huì)有一個(gè)卷積核用于掃描圖像中的像素點(diǎn)，對(duì)于每一次掃描都是輸出層輸入的一部分。以30*30的像素圖為例，若是卷積核的大小為5*5，那么就會(huì)出現(xiàn)26*26個(gè)掃描結(jié)果，隨后每一個(gè)掃描結(jié)果會(huì)在隱藏層中經(jīng)過(guò)一個(gè)共享的權(quán)重（這個(gè)權(quán)重應(yīng)當(dāng)是一個(gè)5*5的權(quán)重矩陣）進(jìn)行最后得到26*26個(gè)同一種特征。在實(shí)際的應(yīng)用中會(huì)不止一個(gè)權(quán)重矩陣來(lái)學(xué)習(xí)到更加豐富的特征。下一步的操作為池化：對(duì)于每一個(gè)輸出的26*26的特征矩陣，對(duì)其進(jìn)行簡(jiǎn)化操作，最為經(jīng)典的max-pooling方法為將矩陣中的每一個(gè)2*2的小塊中的最大值作為代表輸出。一個(gè)26*26的特征矩陣經(jīng)過(guò)池化后會(huì)得到13*13的結(jié)果矩陣。最終將上述的一系列結(jié)果連接在一起輸入最終的輸入層，一個(gè)用于圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)模型就完成了。而應(yīng)用于文本的卷積網(wǎng)絡(luò)主要的變化在于輸入層，輸入層不再是一個(gè)圖像的矩陣而是由一個(gè)個(gè)詞向量組成的向量矩陣，而卷積核的最小粒度也從像素點(diǎn)變?yōu)榱艘粋€(gè)詞向量。 2.4.3Logistic分類器本次實(shí)驗(yàn)中，在Path-CNN模型最后獲得的特征矩陣，我們采用了邏輯回歸對(duì)于特征矩陣進(jìn)行二分類。在邏輯回歸中，邏輯函數(shù)的最為常用的是一個(gè)Sigmoid函數(shù)。Sigmoid函數(shù)是一個(gè)將向量映射到（0,1）區(qū)間的函數(shù)，在分類問(wèn)題中，這個(gè)輸出代表的是：對(duì)于一個(gè)特征向量的輸入，其輸出的是當(dāng)前分類對(duì)象為當(dāng)前分類的可能性。在最終的輸出中，將可能性大于0.5的結(jié)果輸出為1，否則輸出0。我們定義為邏輯回歸的輸入，g代表曲線函數(shù)（Sigmoidfunction），g的表達(dá)式如下：該函數(shù)具有優(yōu)美的S型曲線，并且輸出是一個(gè)位于區(qū)間（0,1）的值，曲線效果如下圖：我們用h表示邏輯回歸的函數(shù)，帶入Sigmoid函數(shù)后得到：其中代表參數(shù)向量，通過(guò)訓(xùn)練得出。代表矩陣的轉(zhuǎn)置。經(jīng)由該函數(shù)，我們將特征向量變換為一個(gè)0-1之間的值，最終和0.5作比較后輸出二分類結(jié)果。2.5啟發(fā)式規(guī)則（HeuristicAlgorithm）所謂啟發(fā)式規(guī)則是一種思想，在各個(gè)專業(yè)領(lǐng)域有著截然不同的體現(xiàn)。直接的解釋為：基于經(jīng)驗(yàn)的技巧，用于解決問(wèn)題，學(xué)習(xí)和探索。他基本等同于：實(shí)際經(jīng)驗(yàn)估計(jì)，有依據(jù)的猜測(cè)以及常識(shí)。在解決問(wèn)題的時(shí)候，首先采用過(guò)往的經(jīng)驗(yàn)規(guī)則進(jìn)行發(fā)現(xiàn)。特點(diǎn)在于利用過(guò)去的經(jīng)驗(yàn)來(lái)選擇行之有效的方法而不是系統(tǒng)的，以確定的過(guò)程來(lái)尋求解決方案。這種規(guī)則是和算法的思想相對(duì)立。所謂的算法是將所有的可能性進(jìn)行嘗試并且從中選擇可行的答案。但是面對(duì)一個(gè)復(fù)雜的問(wèn)題，算法的思想帶來(lái)的只會(huì)是工作量的大幅度提升。而啟發(fā)式規(guī)則的目的則是在有限的資源下，依據(jù)已有的歷史經(jīng)驗(yàn)選擇進(jìn)行的嘗試，以減少尋找解決方案消耗的資源。當(dāng)然人力有未逮之時(shí)，啟發(fā)式規(guī)則也有失敗的可能性，然而很多科學(xué)家的重大發(fā)現(xiàn)，都是使用簡(jiǎn)單的啟發(fā)式規(guī)則。啟發(fā)式規(guī)則在本文中的體現(xiàn)為發(fā)現(xiàn)細(xì)粒度分類同時(shí)標(biāo)明訓(xùn)練集以及在最后的驗(yàn)證的過(guò)程中作為一種驗(yàn)證的方案。我們對(duì)于上述問(wèn)題基于經(jīng)驗(yàn)提出了兩種方案：（1）從title-label中發(fā)現(xiàn)分類以及驗(yàn)證分類（2）從info-box中和類型相關(guān)的屬性對(duì)中發(fā)現(xiàn)分類以及驗(yàn)證。這兩種方式在下文中會(huì)分別在第三章和第五章進(jìn)行詳細(xì)的介紹。2.6本章總結(jié) 本章主要簡(jiǎn)要介紹了文本分類以及本次試驗(yàn)用到的相關(guān)技術(shù)。包括知識(shí)圖譜，神經(jīng)網(wǎng)絡(luò)，中文文本的向量化（WordEmbedding以及Metapath2vec），卷積神經(jīng)網(wǎng)絡(luò)以及其中涉及的分類函數(shù)和啟發(fā)式規(guī)則等內(nèi)容。讓人對(duì)本文所用技術(shù)有大致的了解，以及對(duì)之后的問(wèn)題展開(kāi)描述進(jìn)行鋪墊具體算法介紹3.1百科數(shù)據(jù)資源分析在在線百科全書(shū)中，基本上有四個(gè)地方可以為我們提供每個(gè)實(shí)體的類型信息。為了在百科全書(shū)的頁(yè)面中區(qū)分不同的實(shí)體和相同的名稱，每個(gè)實(shí)體都有標(biāo)簽，稱為title-label。例如，哈利波特的頁(yè)面有以下幾個(gè)標(biāo)題：哈利波特（J.K.羅琳的魔法系列小說(shuō)），哈利波特（華納兄弟制作的系列電影）和哈利波特（小說(shuō)哈利波特的主角）。Info-box包含關(guān)于這個(gè)頁(yè)面實(shí)體的一些結(jié)構(gòu)化信息。Info-box中的內(nèi)容的格式是屬性和屬性值。例如，周杰倫的信息盒包含了諸如（國(guó)籍、中國(guó)）、（職業(yè)、歌手）、（代表工作、雙節(jié)棍）等信息摘要是用自然語(yǔ)言對(duì)頁(yè)面的實(shí)體進(jìn)行簡(jiǎn)要描述。通常，抽象中的第一個(gè)句子包含實(shí)體的類型信息。例如，周杰倫的第一句話是周杰倫（生于1979年1月18日）是臺(tái)灣的音樂(lè)家、歌手、演員和導(dǎo)演。我們可以從摘要中得到一些關(guān)于周杰倫的細(xì)粒度信息，當(dāng)然這可能產(chǎn)生一定的噪聲，這些噪音是由錯(cuò)誤的提取結(jié)果引起的。志愿者給頁(yè)面的實(shí)體提供了大量的標(biāo)簽。例如，周杰倫有歌手、音樂(lè)家、音樂(lè)等志愿者的標(biāo)簽，我們把這些標(biāo)簽稱為“群體標(biāo)簽”。顯然，群體標(biāo)簽為實(shí)體提供了大量的候選類型信息，但許多標(biāo)簽并不是應(yīng)該刪除的類型信息，比如周杰倫的標(biāo)簽音樂(lè)。3.2算法大致流程圖（1）算法工作流程圖（1）所示為本次試驗(yàn)的主要工作流程：步驟1.獲取正訓(xùn)練集：首先從百度百科等百科中抽取數(shù)據(jù)，其中數(shù)據(jù)的info-box將是重要的信息。隨后選取正訓(xùn)練集。在百科數(shù)據(jù)中，同名實(shí)體為了區(qū)分會(huì)在標(biāo)題給予其標(biāo)簽，就比如“張偉-花兒樂(lè)隊(duì)主唱”由于有很多同名同姓的張偉，為了表明是這個(gè)張偉，詞條的編輯人員會(huì)人工為其在標(biāo)題上添加標(biāo)簽。這種帶標(biāo)簽的詞條就可以當(dāng)做以后訓(xùn)練的正集。同時(shí)部分的詞條的info-box中會(huì)有類型或者其同義詞這樣的attribute,比如有的游戲詞條會(huì)有“游戲類型”這樣的attribute。帶有這樣信息的詞條也可以做為訓(xùn)練正集使用。隨后將出現(xiàn)次數(shù)少于3次的弱類型以及未在開(kāi)放分類中出現(xiàn)的詞條過(guò)濾掉后得到的就為最終的細(xì)粒度類型（大約4000個(gè)）以及對(duì)應(yīng)的已經(jīng)擁有類型實(shí)體將作為正訓(xùn)練集。步驟2.統(tǒng)計(jì)類型及其關(guān)聯(lián)的attribute：對(duì)于在前文提取的正訓(xùn)練集中出現(xiàn)類型，若是有個(gè)屬性名（attribute）被三個(gè)屬于當(dāng)前類的實(shí)體所擁有，則稱該類型擁有該attribute。步驟3.構(gòu)建信息圖：在為類型生成屬性之后，我們將每個(gè)實(shí)體、它的屬性和值、每種類型及其屬性相關(guān)聯(lián)構(gòu)造成為一個(gè)信息圖,如圖（2）：定義1：數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)被定義為一個(gè)異質(zhì)網(wǎng)絡(luò)，其中：是節(jié)點(diǎn)集合，包括：所有的實(shí)體名的集合，：實(shí)體在info-box中的屬性值（value），：實(shí)體在info-box中的屬性名（attribute），：所有抽取出的類型的集合。是邊的集合，其中指的是連接實(shí)體以及其擁有的屬性值的邊，指的是對(duì)于每一個(gè)attribute與其可能擁有的value之間的連接的邊。代表類型以及歸屬于該類型的attribute之間的連線。步驟4.獲取負(fù)訓(xùn)練集：我們定義了一些規(guī)則來(lái)生成負(fù)訓(xùn)練集（例如從信息圖中得到的一對(duì)沒(méi)有從屬關(guān)系的實(shí)體和類型的配對(duì)）。實(shí)體和類型的屬性可能相互重疊。如果有更多重疊的部分，它們之間的關(guān)系也應(yīng)該更緊密。因此，一旦實(shí)體和類型之間的重疊屬性的數(shù)量是當(dāng)前實(shí)體擁有屬性的30%-50%，我們就將這個(gè)<實(shí)體，類型>對(duì)作為負(fù)訓(xùn)練樣本。步驟5.訓(xùn)練path-CNN模型：我們通過(guò)上兩個(gè)步驟獲得的訓(xùn)練集來(lái)生成路徑，以作為訓(xùn)練CNN的輸入，更多關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)節(jié)將在第四章介紹。步驟6.識(shí)別實(shí)體類型：最后，我們使用path-CNN模型為每個(gè)實(shí)體識(shí)別更多類型。例如，給定一個(gè)實(shí)體周杰倫有許多候選類型，如人、音樂(lè)家、歌手等，我們可以確定<周杰倫，人>，<周杰倫，音樂(lè)家>和<周杰倫，歌手>是正確的類型信息。圖（2）異質(zhì)網(wǎng)絡(luò)示意圖3.3詞向量生成在由Dong等人提出的mate2path模型中，是通過(guò)基于元路徑（MetaPath）的隨機(jī)游走來(lái)獲得節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合，之后再使用異質(zhì)的skip-gram模型進(jìn)行節(jié)點(diǎn)embedding。元路徑是一種通過(guò)一組關(guān)系連接多個(gè)節(jié)點(diǎn)類型的路徑，可以用來(lái)描述異質(zhì)網(wǎng)絡(luò)中不同類型對(duì)象之間各種連接的不同語(yǔ)義關(guān)系。比如圖（2）中：e1和e2具有相同的attribute（a1），則通過(guò)a1將兩個(gè)entity連接在一起形成一條元路徑,兩個(gè)entity所語(yǔ)句的屬性值被填充到entity和a1之間。下一條則是通過(guò)相同的type來(lái)形成元路徑，原理與第一條類似。3.4模型輸入根據(jù)圖（2）中的異質(zhì)網(wǎng)絡(luò)示意圖，定義兩種路徑的生成方案：方案1的形式為：實(shí)體名（e）->屬性值(v)->屬性名（a）->分類（t）。這種形式下，屬性名a既出現(xiàn)在了當(dāng)前實(shí)體的info-box中，同時(shí)也歸屬于給定的分類。即：分類（t）和實(shí)體（e）擁有相同的屬性名（a）。方案2的形式為：實(shí)體名（e1）->屬性值（v1）->屬性名（a1）->屬性值（v2）->實(shí)體名（e2）->屬性值（v3）->屬性名（a3）->分類（t）?？紤]到一個(gè)實(shí)體的info-box中持有的attribute-value屬性對(duì)是有限的，故而方案1可以給出的路徑也是有限且遠(yuǎn)不夠的，同時(shí)或許同當(dāng)前實(shí)體擁有著同一個(gè)attribute的實(shí)體擁有著類似的特征。故而提出了方案2：在尋找路徑的時(shí)候從當(dāng)前實(shí)體（e1）出發(fā)，經(jīng)由某個(gè)屬性值（v1）走向其持有的一個(gè)一個(gè)屬性名（a1）。尋找a1屬性名另一個(gè)可能值（v2），通過(guò)v2尋找到另一個(gè)實(shí)體（e2）。e2需滿足“與給定分類（t）有著相同屬性名（v3）”。路徑的后半段就是從e2走向t，類似方案1。生成模型輸入的偽代碼如下：輸入為目標(biāo)要生成路徑的entity-type對(duì)以及以及各個(gè)數(shù)據(jù)集。輸出為最終生成的路徑集合。最開(kāi)始的時(shí)候抽取entity包含的attribute以及type包含的attribute，從中選擇交集后將交集中的所有attribute以及其所對(duì)應(yīng)的value以（entity->value->attribute->type）的格式輸出。隨后從第9行開(kāi)始為按照方案2來(lái)尋找路徑：在數(shù)據(jù)集中尋找到一個(gè)新的實(shí)體e2，該實(shí)體滿足與舊實(shí)體有一個(gè)共享的attribute（a1），并且與目標(biāo)類有一個(gè)共享的與a1不同的attribute（a3），隨后將這些節(jié)點(diǎn)連接形成一個(gè)新的路徑。路徑示意圖如下圖中從e1出發(fā)走向t的紅線部分（e1->v1->a1->v2->e2->v3->a3->t）.圖（4）方案二路徑選取示意圖在上一節(jié)中，我們已經(jīng)介紹了如何通過(guò)metapath2vec模型生成詞向量，在本次試驗(yàn)中，生成的詞向量維度為128。對(duì)于每一個(gè)給定entity-type我們尋找500條路徑?，F(xiàn)在假設(shè)集合為一個(gè)給定entity-type的所有路徑。那么對(duì)于任一，應(yīng)當(dāng)有著兩種可能的形式，一種長(zhǎng)度為4，來(lái)自方案1，一種長(zhǎng)度為8，來(lái)自方案2?，F(xiàn)在我們將一個(gè)擁有n個(gè)節(jié)點(diǎn)的路徑做如下表示：其中n為路徑長(zhǎng)度。那么由方案一形成的路徑應(yīng)當(dāng)表示為：，由方案2形成的路徑應(yīng)當(dāng)表示為，為了保證輸入的一致性，我們將方案1生成的路徑也擴(kuò)展為長(zhǎng)度為8的路徑，將空白處填0，結(jié)果如下。其中的0在真正輸入的時(shí)候應(yīng)當(dāng)為一個(gè)有著128個(gè)元素的一維向量，每一個(gè)元素都為0。最終我們輸入到cnn模型的數(shù)據(jù)應(yīng)當(dāng)為一個(gè)128*8*500的三維向量。其中128代表詞向量長(zhǎng)度，8為路徑長(zhǎng)度，500為路徑數(shù)量。圖（3）CNN模型示意圖3.5模型詳細(xì)介紹總的來(lái)說(shuō)，模型使用三個(gè)卷積核從中提取特征，隨后將所有的特征整合成為一個(gè)向量，經(jīng)由分類器獲得結(jié)果并輸出。下面將介紹這個(gè)模型的詳細(xì)信息。集合中包含著entity-type是否確實(shí)存在關(guān)聯(lián)的重要信息。因此使用卷積網(wǎng)絡(luò)提取所有的局部特征用于全局的預(yù)測(cè)。這個(gè)是卷積層完成的工作。在開(kāi)始的時(shí)候選取三個(gè)不同長(zhǎng)度的卷積核對(duì)輸入的三維向量進(jìn)行滑動(dòng)操作。卷積核大小分別為6*128*1,4*128*1,2*128*1。隨后將獲取到的特征經(jīng)由max-pooling操作整合到三個(gè)長(zhǎng)度為500的向量中，向量的每一個(gè)元素都代表一條路徑在該卷積核下提取出的特征。卷及操作涉及一個(gè)filter，代表大小為的實(shí)數(shù)矩陣，其中代表卷積核包含的節(jié)點(diǎn)的數(shù)目，代表的是節(jié)點(diǎn)向量的長(zhǎng)度，以大小為6*128*1的卷積核為例，則。我們現(xiàn)在為500層的輸入的每一層的詞向量從上至下標(biāo)記為，并定義為卷積核滑動(dòng)過(guò)程中得到的小窗口，其中為最上面的向量的下標(biāo)，為最下面的向量的下標(biāo)。即表示這樣的一個(gè)子路徑：。卷積核每一次滑動(dòng)都將獲得一個(gè)小窗口，就以6*128*1的卷積核為例，滑動(dòng)第i次時(shí)獲得的小窗口為，隨后我們使用生成一個(gè)特征：，其中是偏移量，而是非線性函數(shù)，比如雙曲正切函數(shù)。每一個(gè)路徑經(jīng)由卷積核為6*128*1的卷積操作后將生成的特征，500個(gè)路徑最終生成3*500個(gè)特征，在池化層經(jīng)由最大池化處理后獲得一個(gè)長(zhǎng)度為500的特征向量。所謂的最大池化處理就是一種簡(jiǎn)單的從三個(gè)待選特征中選擇最大值作為池化后的輸出。即：，選用最大池化的理由是：經(jīng)由如此的操作，能夠過(guò)濾掉0項(xiàng)。我們已經(jīng)描述了通過(guò)一個(gè)卷積核獲得特征的方法，為了使獲取的特征更加全面，我們又設(shè)計(jì)了多個(gè)不同大小的卷積核來(lái)捕獲多種特征。最終生成了三個(gè)長(zhǎng)度為500的特征向量。最后我們將三個(gè)特征向量進(jìn)行全連接獲得一個(gè)新的一維向量，經(jīng)由sigmoid分類函數(shù)獲得最終的結(jié)果。實(shí)驗(yàn)4.1概述首先我們獲取到中國(guó)最大的百科全書(shū)中的詞條信息約800萬(wàn)條，對(duì)其中的info-box，title中的label等屬性進(jìn)行抽取整合后獲得數(shù)據(jù)集如下:圖（5）抽取百度百科數(shù)據(jù)預(yù)處理結(jié)果隨后如同第三章的描述那樣通過(guò)title-label來(lái)獲取正訓(xùn)練集。由于現(xiàn)在大部分的研究并沒(méi)有做到細(xì)粒度下的分類，經(jīng)過(guò)篩選我們選擇了TianXingWu于14年提出的一種關(guān)于百科詞條分類的一種算法（InstanceTypeRanker）作為我們實(shí)驗(yàn)的baseline。該算法使用的是一種基于統(tǒng)計(jì)學(xué)的思想，并且在文章的末尾，作者指出該算法在試用于細(xì)粒度的分類下也有可觀的效果，故而我們選取了這種算法。在實(shí)現(xiàn)baseline后我們?cè)偈褂胢etapath2vec算法將存于異質(zhì)網(wǎng)路中的分類，實(shí)體以及info-box屬性節(jié)點(diǎn)轉(zhuǎn)換成可以被計(jì)算機(jī)存取處理的節(jié)點(diǎn)向量，并根據(jù)第四章所描述的算法構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)的輸入。將模型訓(xùn)練完成后進(jìn)行驗(yàn)證并且評(píng)估準(zhǔn)確度并與baseline做對(duì)比。4.2baseline圖（6）Baseline:InstanceTypeRanker示意圖上圖所示為baseline的示意圖。簡(jiǎn)單的來(lái)說(shuō)，baseline在獲取到數(shù)據(jù)集后，對(duì)于每一種分類所關(guān)聯(lián)的attribute進(jìn)行了統(tǒng)計(jì)，對(duì)于每一個(gè)attribute來(lái)說(shuō)，若其關(guān)聯(lián)到的分類越少，那么該attribute在那些分類中越有話語(yǔ)權(quán)。體現(xiàn)到結(jié)構(gòu)化的數(shù)據(jù)上就是一個(gè)概率。隨后對(duì)于一個(gè)實(shí)體，其擁有數(shù)個(gè)attitude，每一個(gè)attribute都會(huì)對(duì)其關(guān)聯(lián)到的分類有個(gè)概率，將所有的attribute-type的概率按type相加，最終得到entity-type的概率。隨后將概率高于某個(gè)閾值的分類作為當(dāng)前實(shí)體的分類。圖（7）InstanceTypeRanker權(quán)值計(jì)算上圖為baseline的概率計(jì)算方式示意圖。顯然一個(gè)attribute所屬的類別越少，其在那幾種類別中越具有代表性故而對(duì)于，其中為attribute的集合。我們定義的權(quán)重：其中指的是具有的類型的數(shù)量。隨后我們定義權(quán)值實(shí)體I1通向其各個(gè)attribute之間的權(quán)值如下：其中N為i1所具有的的attribute的編號(hào)的最大值，編號(hào)從1開(kāi)始，指的是編號(hào)為k的attribute。而每一個(gè)attribute指向其所具有的的分類的權(quán)值為：其中指的是含有下標(biāo)為k的attribute的數(shù)量。那么對(duì)于給定的實(shí)體,其屬于給定類的概率為公式為：其中M為和所擁有的attribute的數(shù)量。t為attribute的編號(hào)，從1開(kāi)始，最大為M。經(jīng)過(guò)試驗(yàn)后獲得的baseline的結(jié)果如下：圖（8）Baseline分類結(jié)果我最后將概率統(tǒng)計(jì)結(jié)果高于0.2的分類作為當(dāng)前entity的分類結(jié)果。上圖中的每一行的第一項(xiàng)為entity，第二項(xiàng)為分類，第三項(xiàng)為概率?？梢钥吹椒诸惖慕Y(jié)果準(zhǔn)確度十分的不理想，經(jīng)常將其真正分類分到相似分類中，也就是說(shuō)該算法依舊無(wú)法區(qū)分相近分類的實(shí)體。4.3Path-CNN實(shí)驗(yàn)情況 4.3.1參數(shù)設(shè)定WordEmbedding的參數(shù)：在第四節(jié)中提到我們使用metapath做詞向量的生成。它通過(guò)meta-path來(lái)指導(dǎo)隨機(jī)路徑的游走隨后根據(jù)kip-gram來(lái)生成詞向量。我們選取了兩種meta-path的節(jié)點(diǎn)構(gòu)成，分別為：“EVATAVE”以及“EVAVE”。同時(shí)算法中還使用了如下的參數(shù)設(shè)定：平均每個(gè)節(jié)點(diǎn)的游走次數(shù)W：100;游走步數(shù)長(zhǎng)度L:500;生成的詞向量的最終長(zhǎng)度D：128;其他的參數(shù)都采用默認(rèn)值。卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)：每一次輸入是固定維度的詞向量集合，其中path的選取在第四章有詳細(xì)的介紹。最終的輸入結(jié)果為一個(gè)8*128*500的矩陣。其中128為WordEmbedding的結(jié)果的長(zhǎng)度；8為選取的路徑長(zhǎng)度；500為隨機(jī)選取的路徑數(shù)量。此外還有其他的參數(shù)設(shè)定如下：卷積核大?。悍譃槿齻€(gè)，分別為2*128*1,4*128*1，6*128*1;抽取數(shù)據(jù)集中的80%作為訓(xùn)練集以及將剩下的20%作為驗(yàn)證集;filters數(shù)量n：32;路徑向量矩陣個(gè)數(shù)s：500;Optimizer(優(yōu)化器)f:Adam;Learningrate(學(xué)習(xí)率):1e-5;mini-batchsizeb:64。 4.3.2實(shí)驗(yàn)結(jié)果通過(guò)來(lái)自標(biāo)題標(biāo)簽（title-label）和info-box的分類數(shù)據(jù)，我們最終篩選出4518種細(xì)粒度分類。隨后通過(guò)訓(xùn)練的path-cnn模型為7,976,064個(gè)實(shí)體鍵入類型。平均每一個(gè)實(shí)體被識(shí)別到三種類型。準(zhǔn)確度評(píng)估：我們主要從三個(gè)方面來(lái)評(píng)估是否正確分類分類：?jiǎn)l(fā)式規(guī)則，摘要和群體標(biāo)簽。其中群體標(biāo)簽在百度百科中每一個(gè)詞條有一個(gè)專門的詞條標(biāo)簽欄作標(biāo)注。下圖為詞條“中國(guó)”在百度百科中的群體標(biāo)簽。圖（10）百度百科中中國(guó)詞條群體標(biāo)簽由于個(gè)人無(wú)法對(duì)于所有的已分類實(shí)體給出其可信的分類準(zhǔn)確度評(píng)估，為了評(píng)估模型的準(zhǔn)確性，我們采用了類似Yago的標(biāo)注方式。我們邀請(qǐng)3個(gè)志愿者來(lái)參與此次對(duì)于分類結(jié)果的正確性的標(biāo)注過(guò)程。隨機(jī)抽取1000條分類數(shù)據(jù)，對(duì)于分抽取結(jié)果中每一個(gè)給出的entity-type對(duì)（這些都是分類結(jié)果），志愿者需要給出‘正確’，‘錯(cuò)誤’以及‘不確定’三種結(jié)果中的一個(gè)。隨后對(duì)于現(xiàn)有的baseline的分類結(jié)果采用相同的評(píng)估過(guò)程來(lái)評(píng)估準(zhǔn)確性。表（1）顯示了準(zhǔn)確度評(píng)估的結(jié)果結(jié)果表明我們的模型我們的模型生成的分類數(shù)量高于InstanceTypeRanker，精度也獲得了提高，這表明了我們的模型在準(zhǔn)確性上的有效提高。模型類型數(shù)量來(lái)源分類結(jié)果數(shù)量準(zhǔn)確度InstanceTypeRanker1078info-box191,77090.51%摘要732,35273.39%群體標(biāo)簽3,159,48268.95%Path-CNN模型4,518title-labels300,31592.43%info-box191,77090.51%摘要9,008,44584.79%群體標(biāo)簽18,990,84480.46%表（1）當(dāng)前存在的模型和我們的模型的準(zhǔn)確度對(duì)比和DBpedia的重合度比較：DBpedia是一個(gè)已有的知識(shí)圖譜，它從維基百科中獲取結(jié)構(gòu)化的資料，并將其他渠道的資料相結(jié)合后與維基百科相連接，其中提供了為樣本標(biāo)注的功能，為對(duì)于實(shí)體也有其標(biāo)注。我們將生成的類型信息（25,651，022不同類型的信息）和中文DBpedia[13]作比較圖（2）顯示了比較結(jié)果以及我們獲得的類型信息和DBpedia的重合程度。（a）數(shù)據(jù)數(shù)量（b）數(shù)據(jù)重合度我們的數(shù)據(jù)DBpedia重合度分類數(shù)量4,518170類型重合數(shù)82實(shí)體數(shù)量7,976,064876,725實(shí)體重合數(shù)425,422分類結(jié)果數(shù)量25,651,0221,534,268分類結(jié)果重合數(shù)153,642表（2）重合度比較根據(jù)比較結(jié)果，我們模型獲得的類型信息的數(shù)量明顯高于已有的知識(shí)圖譜（DBpedia），重疊部分教少。類型信息粒度的比較：高質(zhì)量的類型信息不僅需要高精確度，而且需要更細(xì)粒度的類型。如表（2）所示，DBpedia有中國(guó)版本的實(shí)體，但是由于類型的數(shù)量非常少，所以大量的實(shí)體被鍵入為粗粒度類型。例如，周杰倫在DBpedia只是被判斷為實(shí)體“人類”，但更精細(xì)的音樂(lè)家或歌手類型將更合適、更有用。在這里，我們比較了從DBpedia中獲得的實(shí)體類型的粒度。我們從重疊的實(shí)體中隨機(jī)選擇了1000個(gè)實(shí)體，并將實(shí)體及其相應(yīng)類型作為樣本交給三個(gè)志愿者進(jìn)行手動(dòng)比較。對(duì)于每一個(gè)樣本，志愿者都將其標(biāo)記為‘更精細(xì)’（Better）、‘更粗糙’（Poorer）和‘相似’(Similar)。例如，對(duì)于周杰倫的實(shí)體，我們獲得的類型是人、音樂(lè)家和歌手，而在DBpedia中只有一種類型的人。在這種情況下，所有的志愿者都會(huì)選擇“更精細(xì)”的標(biāo)簽。圖（11）顯示了比較結(jié)果。與DBpedia相比，我們百分之七十以上的實(shí)體都有更細(xì)粒度的類型。圖（11）和DBpedia進(jìn)行粒度對(duì)比總結(jié)在本文中，我們介紹了一種基于卷積神經(jīng)網(wǎng)絡(luò)（名為Path-CNN）的二分類模型,為來(lái)自在線百科全書(shū)（百度百科）的實(shí)體提供了一種高粒度的分類信息的輸入。我們構(gòu)建了一個(gè)異質(zhì)網(wǎng)絡(luò)，用于對(duì)于數(shù)據(jù)中的每一個(gè)節(jié)點(diǎn)進(jìn)行wordembedding。與其他現(xiàn)有的知識(shí)圖譜和實(shí)體分類模型相比，我們提供的方法有著更加高質(zhì)量，更加全面的數(shù)據(jù)以及更加細(xì)粒度的分類結(jié)果。未來(lái)展望：我們將繼續(xù)嘗試將實(shí)體的文本信息加入到特征提取的候選集當(dāng)中，同時(shí)考慮為當(dāng)前已有的分類構(gòu)建一個(gè)層次模型，從類型之間的關(guān)系上發(fā)掘更多的信息：例如將‘歌手’分類并入‘人類’分類的子集。同時(shí)我們還發(fā)現(xiàn)提取出的四千多中的分類中粒度分布很不均勻，有的分類粒度很細(xì)（比如‘古羅馬皇帝’這樣的分類，就太過(guò)細(xì)了，但是在模型訓(xùn)練的過(guò)程中依舊會(huì)有不少實(shí)體分為這個(gè)本不屬于它的分類）導(dǎo)致在分類的時(shí)候很容易產(chǎn)生噪聲，在未來(lái)的工作中可以考慮對(duì)分類本身進(jìn)行清洗工作。參考文獻(xiàn)郭喜躍.面向開(kāi)放領(lǐng)域文本的實(shí)體關(guān)系抽取[C].武漢.2016[2]RenjieLou.TaxonmyInductionResearchonKnowledgeBasefromChineseEncyclopedia.浙江.浙江大學(xué).2016.[3]Liwei,XiaoYanghua,WangWei.PeopleEntityRecognitionBasedonChineseKnowledgeGraph[J].ComputerEngineering,2017,43(3):225-231,240.[4]Kim,Yoon.Convolutionalneuralnetworksforsentenceclassification[C].InProceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).2014[5]AntonioToral,RafaelMunoz.AproposaltoautomaticallybuildandmaintaingazetteersforNamedEntityRecognitionbyusingWikipedia[C].Eacl.2006[6]Dakka,W.,Cucerzan,S.:AugmentingWikipediawithNamed

人人文庫(kù)> 全部分類> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究軟件工程（嵌入式培養(yǎng)）專業(yè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究 軟件工程（嵌入式培養(yǎng)）專業(yè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

基于百科數(shù)據(jù)的實(shí)體分類算法的研究與實(shí)現(xiàn)分析研究軟件工程（嵌入式培養(yǎng)）專業(yè)