CCKS2021技術(shù)評測任務(wù)書_第1頁
CCKS2021技術(shù)評測任務(wù)書_第2頁
CCKS2021技術(shù)評測任務(wù)書_第3頁
CCKS2021技術(shù)評測任務(wù)書_第4頁
CCKS2021技術(shù)評測任務(wù)書_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

CCKS2021技術(shù)評測任務(wù)書通用百科知識圖譜實體類型推斷任務(wù)描述本評測任務(wù)圍繞通用百科知識圖譜構(gòu)建中的實體類型推斷展開,評測從實體百科(包括百度百科、搜狗百科等來源)頁面出發(fā),從給定的數(shù)據(jù)中推斷相關(guān)實體的類型。實體類型推斷在知識庫中具有非常重要的價值,因此該任務(wù)也一直是研究的熱點。在CCKS2020新冠知識圖譜構(gòu)建與問答任務(wù)中,其第一個子任務(wù)就屬于實體類型推斷任務(wù),該任務(wù)主要圍繞著醫(yī)學(xué)領(lǐng)域,構(gòu)建了7個實體類型的推斷任務(wù)。而這次,我們對實體類型推斷任務(wù)做了一定的拓展和改進(jìn),主要包括以下幾個方面:任務(wù)涉及的領(lǐng)域更加廣泛和通用,涉及到包括組織機(jī)構(gòu)、人物、作品、位置等多個領(lǐng)域。實體類型更加豐富,不同領(lǐng)域下包括多個具體的實體類型,整體任務(wù)包括幾十個實體類型。實體類型之間具有層級關(guān)系,所有實體類型構(gòu)成了一棵分類樹,并且具有subclassof關(guān)系。一個具體的實體需要盡可能的推斷到最細(xì)粒度的實體類型才算正確。各參賽隊伍可以考慮是否把這種層級關(guān)系加入到模型當(dāng)中進(jìn)行訓(xùn)練。某些實體可能只屬于一個實體類型,某些實體可能屬于多個實體類型,因此更加增添了任務(wù)的難度。比如“劉德華”既屬于“歌手”類型,又屬于“演員”類型;“知識圖譜概念與技術(shù)”就只屬于“書籍”類型。實體類型該任務(wù)共包括組織機(jī)構(gòu)、人物、作品、位置等幾個領(lǐng)域的實體類型。不同領(lǐng)域包括多個具體的實體類型,具體如下:組織機(jī)構(gòu):政府機(jī)構(gòu)、公司、教育機(jī)構(gòu)、樂隊位置:居住地、基礎(chǔ)建筑、自然景觀、旅游景點、天體人物:文藝工作者、運動員、商人、老師、醫(yī)生、政治人物、律師、記者、虛擬人物文藝工作者:作家、編劇、歌手、演員、舞蹈者、導(dǎo)演、攝影師、詩人、畫家運動員:足球運動員、籃球運動員、跳水運動員、田徑運動員、游泳運動員、體操運動員作品:影視作品、書面作品、軟件程序、音樂作品影視作品:電影、電視劇、動漫、電視節(jié)目書面作品:書籍、小說、詩歌、漫畫、歌戲劇、文章音樂作品:歌曲、專輯軟件程序:游戲?qū)τ谀硞€實體,基于百度百科或者搜狗百科提供的頁面數(shù)據(jù),根據(jù)上面的實體類型定義,需要將實體盡可能預(yù)測到最細(xì)粒度的實體類型。比如:“林丹”應(yīng)該預(yù)測為“運動員”、“武磊”應(yīng)該預(yù)測為“足球運動員”、一名普通的學(xué)生應(yīng)該預(yù)測為“人物”。如果實體屬于多個實體類型,預(yù)測結(jié)果需要包含所有的實體類型。比如“特朗普”,應(yīng)該預(yù)測為“商人”和“政治人物”兩個類型。實體類型的層級關(guān)系如下圖所示:輸入輸出輸入:包括train.csv、valid.csv、test.csv和type.txttrain.csv:百度百科、搜狗百科等來源的實體頁面內(nèi)容。實體頁面文件中包含類型推斷可能會用到的名稱、簡介等信息。選手可以通過分析該文件中的內(nèi)容,采用各種機(jī)器學(xué)習(xí)方法構(gòu)建模型,進(jìn)行實體類型推理。train.csv包含的字段信息如下:valid.csv:valid.csv里面的數(shù)據(jù)格式與train.csv文件相同,包含了選手需要進(jìn)行預(yù)測及提交結(jié)果的實體數(shù)據(jù),A榜的排名取決于這份數(shù)據(jù)的預(yù)測結(jié)果。該份數(shù)據(jù)會隨train.csv一起在5月中旬發(fā)布。test.csv:test.csv里面的數(shù)據(jù)格式與train.csv和valid.csv文件相同,包含了選手最終需要提交的實體推理數(shù)據(jù),B榜的排名取決于這份數(shù)據(jù)的預(yù)測結(jié)果。該份數(shù)據(jù)將在7月中旬發(fā)布。type.txt:包含所有實體類型,類型之間的層級關(guān)系如上所描述。輸出:entity_type.txtentity_type.txt:實體id、實體名及預(yù)測的實體類型,每行一個“實體id\t實體名\t類型”對。實體id、實體名、類型之間通過分隔符“\t”進(jìn)行分割。注意不要包含類型不在給定的實體類型當(dāng)中的實體。若一個實體屬于多個類型,則類型之間用英文逗號“,”分隔,表示為“實體id\t實體名\t類型1,類型2”對。類型1、類型2的書寫順序沒有影響。樣例:type.txt:組織機(jī)構(gòu),組織機(jī)構(gòu)>政府機(jī)構(gòu),組織機(jī)構(gòu)>公司,組織機(jī)構(gòu)>教育機(jī)構(gòu),組織機(jī)構(gòu)>樂隊,位置,位置>居住地,位置>基礎(chǔ)建筑,位置>自然景觀,位置>旅游景點,位置>天體,人物,人物>文藝工作者,人物>文藝工作者>作家,人物>文藝工作者>編劇,人物>文藝工作者>歌手,人物>文藝工作者>演員,人物>文藝工作者>舞蹈者,人物>文藝工作者>導(dǎo)演,人物>文藝工作者>攝影師,人物>文藝工作者>詩人,人物>文藝工作者>畫家,人物>運動員,人物>運動員>足球運動員,人物>運動員>籃球運動員,人物>運動員>跳水運動員,人物>運動員>田徑運動員,人物>運動員>游泳運動員,人物>運動員>體操運動員,人物>商人,人物>老師,人物>醫(yī)生,人物>政治人物,人物>律師,人物>記者,人物>虛擬人物,作品,作品>影視作品,作品>影視作品>電影,作品>影視作品>電視劇,作品>影視作品>動漫,作品>影視作品>電視節(jié)目,作品>書面作品,作品>書面作品>書籍,作品>書面作品>小說,作品>書面作品>詩歌,作品>書面作品>漫畫,作品>書面作品>歌戲劇,作品>書面作品>文章,作品>音樂作品,作品>音樂作品>歌曲,作品>音樂作品>專輯,作品>軟件程序,作品>軟件程序>游戲train.csv表格中一個具體的實體數(shù)據(jù)例子:其中,train.csv的contents字段為該實體的完整json描述內(nèi)容,json解析完如下圖所示:輸出樣例 1131993 晶茂電影傳媒 組織機(jī)構(gòu)>公司 22067022 清華大學(xué) 組織機(jī)構(gòu)>教育機(jī)構(gòu) 6072077 細(xì)胞的旅程 作品>軟件程序>游戲2110758 崔志成 人物>商人22469665 陳國緒 人物>老師20007006 梅爾·吉卜森 人物>文藝工作者>導(dǎo)演,人物>文藝工作者>演員說明假設(shè)實體“尿TH糖蛋白”在valid.csv中,但由于該實體的類型不是type.txt中所包含的實體類型,因此輸出結(jié)果中不包含該實體。評價指標(biāo)本任務(wù)采用精確率(Precision,P)、召回率(Recall,R)、F1值(F1-measure,F1)來評估效果。設(shè)A為參賽隊伍輸出文件中的所有實體-類型對的集合,G為評測方標(biāo)注文件中的所有實體-類型對的集合,相關(guān)計算公式如下:P=數(shù)據(jù)描述我們分別從收集的幾千萬百科類實體頁面中,抽取了部分實體頁面作為這次任務(wù)的數(shù)據(jù)來源。任務(wù)本身不限定方法類型,可以是無監(jiān)督、半監(jiān)督、有監(jiān)督方法,因此不提供任務(wù)相關(guān)的有標(biāo)注結(jié)果的訓(xùn)練集,參賽選手如有需要,可以自行對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。測試集是通過自動化實體類型推測和人工檢驗進(jìn)行標(biāo)注的。測試集上不允許參賽選手進(jìn)行任何人工標(biāo)注。任務(wù)提交本次任務(wù)將采取刷榜的方式,將會發(fā)布A榜和B榜兩個測試集,A榜測試集用于日常刷榜和模型迭代,不計入最終比賽成績,測試集A發(fā)布后,允許參賽隊伍每天至多提交一次結(jié)果,文件命名為“entity_type.txt”,格式與任務(wù)描述中的示例輸出相同。測試集B為最終評估比賽成績的有效評測集,待測試集B發(fā)布后,允許參賽隊伍每天至多提交一次。所有獲獎團(tuán)隊需額外提交相關(guān)材料以供資格審查,要求如下:測試集B結(jié)果文件,用result.txt命名(UTF-8格式)相關(guān)代碼及說明方法描述文檔(非評測論文,評測論文撰寫要求見CCKS2021官網(wǎng))將以上三個文件在任務(wù)提交截止日期前發(fā)送至郵箱lihongyu1@。郵件的標(biāo)題為:“CCKS2021-ETI-參賽隊名稱”,例如“CCKS2021-ETI-FindX隊”。代碼及其文檔需打包成一個文件(tar,zip,gzip,rar等均可),用“參賽隊名_code.xxx”命名,要求提交所有的程序代碼及相關(guān)的配置說明,程序應(yīng)當(dāng)可以運行且所得結(jié)果與result.txt相符。如果方法使用了額外資源,要求說明并提供資源文件或地址。本次評測將依托Biendata平臺,請有意向的參賽隊伍關(guān)注平臺上的比賽列表。評測規(guī)則參賽選手需要提交“參賽隊名,隊長信息(姓名,郵箱,聯(lián)系電話),參賽單位名稱”等信息,報名方式稍后在評測網(wǎng)站發(fā)布。報名截止到最終測試數(shù)據(jù)集B發(fā)布,在測試數(shù)據(jù)集發(fā)布之后,未報名的選手/隊伍不能再報名或提交。每支隊伍需指定一名隊長,隊伍名稱不超過15個字符,隊伍成員不超過4人。每名選手只能參加一支隊伍,一旦發(fā)現(xiàn)某選手以注冊多個賬號的方式參加多支隊伍,將取消所有相關(guān)隊伍的參賽資格。允許使用開源代碼或工具,但不允許使用任何未公開發(fā)布或需要授權(quán)的代碼或工具。允許使用外部數(shù)據(jù),但該數(shù)據(jù)必須是公開的,并在提交最終結(jié)果時一并提交(如數(shù)據(jù)過大,需提供下載地址)。參賽選手最終需要提交可運行的代碼和方法描述文檔,若在排行榜上的結(jié)果無法復(fù)現(xiàn),將取消參賽資格。歡迎國內(nèi)外在校生及社會在職人士參加。比賽組織方成員不可參賽。關(guān)于比賽的所有解釋權(quán)歸比賽組織方所有。評測獎勵第一名:10000第二名:8000第三名:6000技術(shù)創(chuàng)新獎:6000組織者任務(wù)組織者:李洪宇(OPPO)莢濟(jì)民(OPPO)任務(wù)聯(lián)系人:李洪宇:lihongyu1@莢濟(jì)民:jiajimin@附錄:實體類型簡要說明表一級標(biāo)簽二級標(biāo)簽三級標(biāo)簽簡要說明人物文藝工作者作家編劇歌手演員舞蹈者導(dǎo)演攝影師詩人畫家運動員足球運動員籃球運動員跳水運動員田徑運動員游泳運動員體操運動員商人老師學(xué)校教師、大學(xué)老師、教授、副教授等醫(yī)生政治人物歷史上真實存在的官員、國家政府重要官員、政治家、政協(xié)委員、人大代表等律師記者虛擬人物游戲、動漫、小說等等非現(xiàn)實中的人物或者角色等作品影視作品電影電視劇動漫動漫影視電視節(jié)目電視節(jié)目、網(wǎng)絡(luò)節(jié)目、綜藝節(jié)目等書面作品書籍小說詩歌詩詞、詩歌漫畫歌戲劇歌劇、戲劇等文章雜志、報紙或其他媒體發(fā)表的散文、雜文、評論、報告等等書面作品軟件程序游戲音樂作品歌曲專輯組織機(jī)構(gòu)政府機(jī)構(gòu)政府機(jī)關(guān),行政部門、居委會、村委會、各類銀行等公司教育機(jī)構(gòu)各類學(xué)校、高校、研究機(jī)構(gòu)、教

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論