![生活服務(wù)知識圖譜問答評測_第1頁](http://file4.renrendoc.com/view/2e1d9e39a284c295729dbdd10ed4a65f/2e1d9e39a284c295729dbdd10ed4a65f1.gif)
![生活服務(wù)知識圖譜問答評測_第2頁](http://file4.renrendoc.com/view/2e1d9e39a284c295729dbdd10ed4a65f/2e1d9e39a284c295729dbdd10ed4a65f2.gif)
![生活服務(wù)知識圖譜問答評測_第3頁](http://file4.renrendoc.com/view/2e1d9e39a284c295729dbdd10ed4a65f/2e1d9e39a284c295729dbdd10ed4a65f3.gif)
![生活服務(wù)知識圖譜問答評測_第4頁](http://file4.renrendoc.com/view/2e1d9e39a284c295729dbdd10ed4a65f/2e1d9e39a284c295729dbdd10ed4a65f4.gif)
![生活服務(wù)知識圖譜問答評測_第5頁](http://file4.renrendoc.com/view/2e1d9e39a284c295729dbdd10ed4a65f/2e1d9e39a284c295729dbdd10ed4a65f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
生活服務(wù)知識圖譜問答評測評測背景在互聯(lián)網(wǎng)軟硬件相關(guān)技術(shù)飛速發(fā)展的今天,人們每天接觸與制造的數(shù)據(jù)量日益上升,理解與應(yīng)用這些數(shù)據(jù)所需的成本也隨之增加。因此,如何高效而準確地處理海量異質(zhì)數(shù)據(jù)成為了一個亟待解決的問題。知識圖譜以結(jié)構(gòu)化的“知識”來存儲與表示海量數(shù)據(jù),作為承載底層海量知識并支持上層智能應(yīng)用的重要載體,它在智能時代中扮演了極其重要的角色。然而,由于知識圖譜高度結(jié)構(gòu)化的特點,我們常常需要構(gòu)建結(jié)構(gòu)化查詢語句(SPARQL等)來查找相關(guān)知識,這為普通用戶使用知識圖譜造成了不便。因此,在知識圖譜上進行自然語言問答(KBQA)近年來成為了前者的熱門應(yīng)用之一。在學(xué)界,semanticparsing、IR等創(chuàng)新性方法與框架百花齊放;在業(yè)界,智能音箱、語音助手、智能問診等應(yīng)用也極大地拓寬了知識圖譜自然語言問答的應(yīng)用場景,進一步加強了對高效、準確、易用、安全、可解釋的KBQA系統(tǒng)的需求。面對這一需求,我們提出了中文知識圖譜問答這一評測任務(wù),期待參賽者們可以提出創(chuàng)新性的KBQA系統(tǒng),同時處理“專而深”的特定領(lǐng)域和“廣而淺”的開放領(lǐng)域知識圖譜,對用戶提出的復(fù)雜多樣的自然語言問題給出準確答案。同時,我們更希望此次評測可以為KBQA的下一步研究和落地提供一些理論及實踐層面的啟發(fā)。任務(wù)描述本任務(wù)屬于中文知識圖譜自然語言問答任務(wù),簡稱CKBQA(ChineseKnowledgeBaseQuestionAnswering)。即輸入一句中文問題,問答系統(tǒng)從給定知識庫中選擇若干實體或?qū)傩灾底鳛樵搯栴}的答案。問題均為客觀事實型,不包含主觀因素。理解并回答問題的過程中可能需要進行實體識別、關(guān)系抽取、語義解析等子任務(wù)。這些任務(wù)的訓(xùn)練可以使用額外的資源,但是最終的答案必須來自給定的知識庫。知識圖譜問答在當前互聯(lián)網(wǎng)信息爆炸、人工智能盛行的時代是十分有戰(zhàn)略價值和研究意義的。一方面,傳統(tǒng)搜索引擎是以網(wǎng)頁資源為核心,依據(jù)關(guān)鍵詞索引、文本匹配等方式進行檢索并返回給用戶相關(guān)網(wǎng)頁鏈接,而用戶很多時候需要的只是對一個具體問題的特定解答。另一方面,諸如智能音箱、智能問診等新一代產(chǎn)品應(yīng)用通常也需要依賴于特定的知識圖譜響應(yīng)用戶的自然語言請求。例如智能問診應(yīng)用可以依據(jù)醫(yī)藥健康領(lǐng)域的知識庫對患者的情況進行初步診斷。本次知識圖譜問答任務(wù)是在CCKS上舉辦的第四屆。今年在OpenKG基礎(chǔ)上引入生活服務(wù)領(lǐng)域知識庫及問答數(shù)據(jù)。同時依然保留去年開放領(lǐng)域的問答數(shù)據(jù)以供參賽隊伍對模型進行訓(xùn)練。我們期望參賽選手的問答系統(tǒng)既能處理各種百科類的淺層問題,也能處理具備一定領(lǐng)域知識。本評測任務(wù)所使用的生活服務(wù)領(lǐng)域知識圖譜來源于美團。其中包括旅游、酒店、美食等多種領(lǐng)域的數(shù)據(jù)。我們將這些數(shù)據(jù)集整合到一起,同開放領(lǐng)域知識庫PKUBASE一起作為問答任務(wù)的依據(jù)。輸入輸出輸入輸入文件包含若干行中文問句。輸出輸出文件每一行對應(yīng)一個問題的答案列表,列表內(nèi)元素以\t分隔。輸入樣例q1:故宮附近有哪些豪華酒店?q2:紫竹院公園地址在哪?q3:朝陽區(qū)有哪些不收門票的公園?輸出樣例<北京王府井希爾頓酒店>\t<北京勵駿酒店>\t<北京國際飯店>\t<北京東方君悅大酒店>…<北京市海淀區(qū)中關(guān)村南大街35號><奧林匹克森林公園>\t<將府公園>\t<黑橋公園>…說明為幫助參賽選手提高系統(tǒng)性能,訓(xùn)練文件會提供問題對應(yīng)的SPARQL查詢。例句一對應(yīng)的SPARQL查詢語句如下: SELECT?xWHERE {<故宮><附近>
?x.?x<類別><酒店>.?x<等級><豪華>.}例句二對應(yīng)的SPARQL查詢語句如下: SELECT?xWHERE{<紫竹院公園><地址>
?x.}例句三對應(yīng)的SPARQL查詢語句如下: SELECT?xWHERE{?x<類型><公園>.?x<行政區(qū)><朝陽區(qū)>.?x<門票價格><免費>.}SPARQL語言的語法規(guī)則可以參考/TR/rdf-sparql-query/。原則上不要求生成SPARQL查詢,參賽選手可以選擇自己的方式,只需要給出問題的最終答案(答案需要來自給定知識庫)。當問題所涉及的事實與知識庫不一致時,以知識庫中數(shù)據(jù)為準。輸出答案中由<>括起的為實體,由""括起的為文本值。請嚴格按照問題順序進行答案輸出,若參賽系統(tǒng)對某一問題產(chǎn)生答案為空,請輸出空行。評價指標本任務(wù)的評價指標包括宏觀準確率(MacroPrecision),宏觀召回率(MacroRecall),AveragedF1值。最終排名以AveragedF1值為基準。設(shè)Q為問題集合,Ai為選手對第i個問題給出的答案集合,Gi為第i個問題的標準答案集合,相關(guān)計算公式如下:MacroPrecision=1|Q|i=1|Q|PMacroRecall=1|Q|i=1AveragedF1=數(shù)據(jù)集數(shù)據(jù)來源本次測評的問答數(shù)據(jù)來自于人工構(gòu)建與標注。標注過程不依賴于特定模板,標注人員超過20人以保證問題各方面的多樣性。問答數(shù)據(jù)集中的問題不局限于特定領(lǐng)域,且既包含簡單問題(對應(yīng)單元組查詢),也包含復(fù)雜問題(對應(yīng)多元組查詢),它們的數(shù)量比例大致為1:1。訓(xùn)練集&驗證集在訓(xùn)練數(shù)據(jù)發(fā)布階段,我們會發(fā)布6500條標注好的數(shù)據(jù)(包括問題/SPARQL/答案)作為訓(xùn)練集。同時發(fā)布2000條左右不含標注結(jié)果的問題作為驗證集,選手可以將自己生成的驗證集答案提交,比賽系統(tǒng)會對答案進行評測,給出得分并進行排行。在測試數(shù)據(jù)發(fā)布階段,我們會發(fā)布驗證集的標注結(jié)果(包括問題/SPARQL/答案),同時發(fā)布1500條左右不含標注結(jié)果的問題,作為測試。知識庫相關(guān)文件說明本任務(wù)使用的知識庫主要由開放領(lǐng)域知識庫PKUBASE及生活服務(wù)領(lǐng)域數(shù)據(jù)集(/group/coronavirus)融合得到。參賽選手可以下載數(shù)據(jù)文件后使用相應(yīng)的知識庫管理系統(tǒng)(例如gStore系統(tǒng):/)進行存儲和查詢。同時,為方便參賽選手完成任務(wù),我們也提供在線查詢終端,選手可以通過瀏覽器或調(diào)用API進行SPARQL查詢。詳情訪問/。數(shù)據(jù)說明(如有變動后續(xù)會進行更新,以實際下載文件為準):triples.txt包含知識庫主要三元組。types.txt包含各實體的類別三元組。mention2ent.txt可以用來輔助選手進行實體鏈接。其格式為“短語\t候選實體\t候選實體的排名”,如下例短語“逆時針”排名第一的候選實體是逆時針_(漢語名詞)。此文件僅供參考,其覆蓋范圍及準確度并無保證,選手可以視情況使用。如需對此映射文件進行增補,請在文檔中寫明增補的策略并提交相關(guān)的代碼,原則上不允許人工根據(jù)測試問題添加mention2ent映射。逆時針 逆時針_(漢語名詞) 1逆時針 逆時針_(張靚穎演唱歌曲) 2逆時針 逆時針_(化妝品品牌) 3…任務(wù)提交本次評測將采取刷榜方式,各任務(wù)驗證集發(fā)布后,允許參賽隊伍多次向平臺提交結(jié)果,文件命名參考具體任務(wù)說明,并以隊伍名作為前綴。格式與任務(wù)描述中的示例輸出相同(注意格式,如對于問答任務(wù)需要保留<>或""),排名實時更新。參賽隊伍可在評測集發(fā)布之前隨時上傳驗證集的計算結(jié)果,管理系統(tǒng)會及時更新各隊伍的最新排名情況;測試集發(fā)布后,允許參賽隊伍多次提交測試集結(jié)果文件(每天提交不超過2次)。最終提交文件要求:每一個參賽隊需提交的材料如下。問答任務(wù)測試集結(jié)果文件,用result.txt命名(UTF-8格式)相關(guān)代碼及說明方法描述文檔(非評測論文,評測論文撰寫要求見CCKS2021官網(wǎng))以上三個文件需在任務(wù)提交截止日期前發(fā)送至郵箱linyinnian@。郵件的標題為:“CCKS-CKBQA-參賽隊名稱”,例如“CCKS-CKBQA-火箭隊”。代碼及其文檔需打包成一個文件(tar,zip,gzip,rar等均可),用code.xxx命名,要求提交所有的程序代碼及相關(guān)的配置說明,程序應(yīng)當可以運行且所得結(jié)果與result.txt相符。如果方法使用了額外資源,要求說明并提供資源文件或地址。本次評測將依托biendata平臺(/)展開,請有意向的參賽隊伍關(guān)注平臺上的競賽列表。數(shù)據(jù)集評測任務(wù)發(fā)布:4月11日報名時間:4月11日-7月15日訓(xùn)練及驗證數(shù)據(jù)發(fā)布:4月30日公開排名榜(A):4月30日-7月15日測試數(shù)據(jù)發(fā)布:7月15日最終排名榜(B):7月15日-7月20日最終測試結(jié)果:7月20日評測論文提交:8月5日CCKS會議日期(評測報告及頒獎):8月18日-21日評審規(guī)則參賽選手需要提交“參賽隊名,隊長信息(姓名,郵箱,聯(lián)系電話),參賽單位名稱”等信息,報名方式稍后在評測網(wǎng)站發(fā)布。報名截止到測試數(shù)據(jù)集發(fā)布,在測試數(shù)據(jù)集發(fā)布之后,未報名的選手/隊伍不能再報名或提交。每支隊伍需指定一名隊長,隊伍名稱不超過15個字符,隊伍成員不超過4人。每名選手只能參加一支隊伍,一旦發(fā)現(xiàn)某選手以注冊多個賬號的方式參加多支隊伍,將取消所有相關(guān)隊伍的參賽資格。允許使用開源代碼或工具,但不允許使用任何未公開發(fā)布或需要授權(quán)的代碼或工具。允許使用外部數(shù)據(jù),但該數(shù)據(jù)必須是公開的,并在提交最終結(jié)果時一并提交(如數(shù)據(jù)過大,需提供下載地址)。鼓勵使用通用的、創(chuàng)新的算法、模型解決問題,不允許基于測試集或KB用規(guī)則CaseByCase解決問題,若發(fā)現(xiàn)主辦方有權(quán)取消參賽資格。參賽選手最終需要提交可運行的代碼和方法描述文檔,若在排行榜上的結(jié)果無法復(fù)現(xiàn),將取消參賽資格。歡迎國內(nèi)外在校生及社會在職人士參加。比賽組織方成員不可參賽。獎勵規(guī)則第一名20000,第二名10000,第三名5000,技術(shù)創(chuàng)新獎5000,同時排名靠前隊伍將獲授精美參賽獎牌、證書。組織者王思睿美團搜索與NLP部wangsirui@李如寐美團搜索與NLP部lirumei@張鴻志美團搜索與NLP部HYPERLINK"mailto:zhang
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝紡織行業(yè)的顧問工作總結(jié)
- 2025年全球及中國無人值守汽車衡亭行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國化學(xué)鍍鎳 PTFE 涂層行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國一體式旋轉(zhuǎn)變壓器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球軟組織水平種植體行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球保險業(yè)的低代碼和無代碼 (LCNC) 平臺行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國加熱架式食物加熱器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國商用車氣制動防抱死制動系統(tǒng)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國熱水浴缸用換熱器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國變電站智能巡視解決方案行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年人教五四新版八年級物理上冊階段測試試卷含答案
- 2025新人教版英語七年級下單詞表(小學(xué)部分)
- 2025年春季1530安全教育記錄主題
- 礦山2025年安全工作計劃
- 基本藥物制度政策培訓(xùn)課件
- 2025年包裝印刷項目可行性研究報告
- 2025年九年級物理中考復(fù)習(xí)計劃
- 企業(yè)融資報告特斯拉成功案例分享
- 合資經(jīng)營工廠合同范本
- 2024年新疆(兵團)公務(wù)員考試《行測》真題及答案解析
- 2024年《論教育》全文課件
評論
0/150
提交評論