版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
41TechnicalRegulationforBuildingDomainKI II 1 1 1 2 3 3 45.3領(lǐng)域知識圖譜構(gòu)建流程 4 5 5 5 6 8 8A.2領(lǐng)域知識圖譜完整性 8A.3領(lǐng)域知識圖譜一致性 8 8 8 10本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化本文件由鄭州大學(xué)計算機(jī)與人工智能學(xué)院、鄭州中業(yè)科技股份有限公司本文件起草單位:鄭州大學(xué)計算機(jī)與人工智能學(xué)院、本文件主要起草人:周清雷、張坤麗、李介、昝紅英、韓英杰、穆玲玲1本文件適用于各領(lǐng)域構(gòu)建知識圖譜系統(tǒng)及上層應(yīng)用的規(guī)劃、設(shè)計,可作下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包GB/T5271.23-2000信息技術(shù)詞匯第23GB/T5271.31-2006信息技術(shù)詞匯第31部分:人工智能GB/T5271.34-2006信息技術(shù)詞匯第34部分:人工智能GB/T42777-2023基于文本數(shù)據(jù)的金融風(fēng)險防控知識圖譜構(gòu)建知識圖譜是將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,領(lǐng)域知識體系是描述特定領(lǐng)域知識的專門體系,給出了領(lǐng)域內(nèi)概念及相互2結(jié)構(gòu)化數(shù)據(jù)是一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯的),3不斷迭代.實體.關(guān)系.屬性.結(jié)構(gòu)化數(shù)據(jù).不斷迭代.實體.關(guān)系.屬性.結(jié)構(gòu)化數(shù)據(jù).半結(jié)構(gòu)化數(shù)據(jù)②數(shù)據(jù)準(zhǔn)備 NLP:自然語言處理(NaturalLanguageProcessiCNN:卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralRNN:循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralRDF:資源描述框架(ResourceDescriptionFrOCR:光學(xué)字符識別(OpticalCharacterRecBERT:基于變換器的雙向編碼器表示技術(shù)(BidirectionalEncoderRepresentationsfrom領(lǐng)域知識圖譜構(gòu)建技術(shù)規(guī)程描述知識圖譜構(gòu)建中涉及的開發(fā)平臺/工具和構(gòu)識圖譜構(gòu)建平臺和工具(例如知識建模工具、知識獲取工具、知識存儲),備、知識獲取、知識融合、知識存儲。領(lǐng)域知識圖譜構(gòu)建結(jié)合領(lǐng)域相關(guān)知⑥應(yīng)用與展示.基于表的存儲.基于圖的存儲⑤知識存儲.概念層對齊.實體層對齊④知識融合③知識獲取.領(lǐng)域概念體系.領(lǐng)域?qū)蛹壗Y(jié)構(gòu).領(lǐng)域?qū)I(yè)詞典①知識建模4領(lǐng)域知識圖譜構(gòu)建全生命周期的開發(fā)平臺及工具,包含知識建模工具、數(shù)工具、知識融合工具、知識存儲工具及基礎(chǔ)開發(fā)平臺,針對不同來源不同領(lǐng)域知識圖譜是知識的覆蓋范圍和使用方式聚焦特定領(lǐng)域的知識圖譜,其域知識體系和領(lǐng)域?qū)蛹夑P(guān)系。領(lǐng)域知識體系是描述領(lǐng)域知識的專門體系,是領(lǐng)域知識建模數(shù)據(jù)建模根據(jù)知識圖譜的應(yīng)用需求、應(yīng)用場景復(fù)用已有的領(lǐng)頂向下為主、自底向上為輔的方法,進(jìn)行半自動化的構(gòu)建。知識建模需要領(lǐng)域數(shù)據(jù)準(zhǔn)備階段進(jìn)行數(shù)據(jù)采集和預(yù)處理工作。數(shù)據(jù)采集主要有三種渠道:領(lǐng)域指南、領(lǐng)域規(guī)范、領(lǐng)域政策法規(guī)等數(shù)據(jù);從網(wǎng)絡(luò)主要通過爬蟲等手段爬取的數(shù)據(jù)載體可為紙張、膠卷、膠片、磁帶、磁盤等,數(shù)據(jù)形式包括結(jié)構(gòu)化數(shù)據(jù)重、補(bǔ)缺、數(shù)字化、形式歸一化、匿名化、內(nèi)容保護(hù)、數(shù)據(jù)溯源等操作,使知識獲取是使用自動化或半自動化的知識抽取技術(shù),從不同來源及屬性等知識圖譜基本元素的過程,包括實體抽取、關(guān)系抽取和屬性抽取。領(lǐng)域采用自動化、半自動化、人工獲取等多種方式,其中半自動化的方式先使用算法工補(bǔ)充抽取和專家審核。算法抽取包括基于領(lǐng)域?qū)<叶x的規(guī)則抽取;基于隱場、最大熵等機(jī)器學(xué)習(xí)算法抽??;基于訓(xùn)練語言模型(如BERT)上疊加RNN、CNN知識融合指來自不同數(shù)據(jù)源的數(shù)據(jù)(包括不同的知識圖譜、多源圖譜中,主要解決如何將來自多個來源的關(guān)于同一個實體或概念的描述信去除知識數(shù)據(jù)冗余、實現(xiàn)知識的統(tǒng)一結(jié)構(gòu)存儲。知識融合分為概念層的融為概念對齊和實體對齊:概念層融合是領(lǐng)域知識體系的需要確定等價的實別;數(shù)據(jù)層的融合,包括具體的實體、關(guān)系和屬性的融合,主要問題是避5知識融合使用框架匹配、語義計算(指代消解、實體規(guī)范化、實知識存儲將知識抽取和融合得到的知識存儲到適合的數(shù)據(jù)結(jié)構(gòu)或查改操作。從存儲結(jié)構(gòu)劃分,知識存儲分為基于表結(jié)構(gòu)的存儲和基于圖結(jié)的存儲使用二維的數(shù)據(jù)表對知識圖譜中的數(shù)據(jù)進(jìn)行存儲,常見的基于表表、類型表、關(guān)系型數(shù)據(jù)庫;基于圖結(jié)構(gòu)的存儲利用圖的方式隊知識圖譜中的數(shù)基于圖數(shù)據(jù)庫的存儲系統(tǒng)包括Neo4j、OrientDB、Hype領(lǐng)域知識圖譜的上層應(yīng)用根據(jù)具體的領(lǐng)域(醫(yī)療、農(nóng)業(yè)、金融、電商、工圖譜的構(gòu)建和部署,通過知識圖譜數(shù)據(jù)庫的查詢語言和查詢語法提供知識檢化等接口和服務(wù),以此為基礎(chǔ)進(jìn)行有關(guān)聯(lián)分析、輔助決策、智能搜索、智能不同于通用知識圖譜,領(lǐng)域知識圖譜構(gòu)建有如下要求:以領(lǐng)域或組合多來源的領(lǐng)域數(shù)據(jù)以快速擴(kuò)大規(guī)模;知識結(jié)構(gòu)更加復(fù)雜,通常包含較為復(fù)識;知識獲取的質(zhì)量要求更高,較多地依靠組織內(nèi)部的結(jié)構(gòu)化、半結(jié)構(gòu)化和域?qū)<业膶徍诵σ员U腺|(zhì)量;對推理的要求更高,并要求具有較強(qiáng)的可解面,除可視化展示外,通常還包括語義搜索、知識問答,決策分析和智能推領(lǐng)域知識圖譜構(gòu)建過程應(yīng)符合開放性(構(gòu)建流程解耦、各部分可獨(dú)立演進(jìn)求)、可擴(kuò)展性(支持知識圖譜的增刪查改操作)等要求。知識圖譜構(gòu)建過系、業(yè)內(nèi)主流的知識抽取算法、各種主流的圖數(shù)據(jù)庫,針對不同行業(yè)的各類使6a)應(yīng)支持各類格式數(shù)據(jù)源,包括結(jié)構(gòu)化數(shù)據(jù)(如業(yè)務(wù)數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù),非在知識圖譜構(gòu)建的不同階段,可以產(chǎn)生相應(yīng)的成78在領(lǐng)域知識圖譜構(gòu)建過程中,根據(jù)領(lǐng)域?qū)<业慕?jīng)驗,形成對領(lǐng)域知識圖譜的對于數(shù)據(jù)來源方面,需要采集領(lǐng)域權(quán)威指南、領(lǐng)域法律法規(guī)、領(lǐng)域?qū)I(yè)詞典(包括知識推理得到的知識)應(yīng)覆蓋領(lǐng)域內(nèi)所知識圖譜完整性需要領(lǐng)域?qū)<业脑u估,或通過對比某實體是否具有其同領(lǐng)域知識圖譜的一致性指知識圖譜中的知識表達(dá)是否一致,即知識圖譜中領(lǐng)域知識圖譜中涉及的領(lǐng)域知識缺乏相關(guān)的標(biāo)準(zhǔn)和評價指標(biāo),因此最終構(gòu)知識獲取包括實體抽取、關(guān)系抽取和屬性抽取,使用準(zhǔn)確率、召回實體、關(guān)系和屬性自動化抽取的性能,知識
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水利工程合同簽訂及執(zhí)行管理辦法
- 農(nóng)業(yè)科技顧問招聘合同
- 水利工程灰工施工合同
- 建筑電器簡易施工合同
- 空手道館施工合同
- 風(fēng)力發(fā)電的安全培訓(xùn)
- 護(hù)理中的語言表達(dá)
- 廣東省江門市(2024年-2025年小學(xué)五年級語文)人教版小升初模擬((上下)學(xué)期)試卷及答案
- 《保險基本原則》課件2
- 謝子長心得體會6篇
- 2022人教版高二英語新教材選擇性必修全四冊課文原文及翻譯(英漢對照)
- WDZANYJY23低壓電力電纜技術(shù)規(guī)格書
- 抗高血壓藥物基因檢測課件
- 醫(yī)院管理醫(yī)院應(yīng)急調(diào)配機(jī)制
- (公開課)文言文斷句-完整版課件
- 小學(xué)生性教育調(diào)查問卷
- 醫(yī)院感染管理質(zhì)量持續(xù)改進(jìn)反饋表
- 旅游行政管理第二章旅游行政管理體制課件
- 學(xué)生崗位實習(xí)家長(或法定監(jiān)護(hù)人)知情同意書
- 衛(wèi)生院關(guān)于召開基本公共衛(wèi)生服務(wù)項目培訓(xùn)會的通知
- JJF(電子)0036-2019 示波器電流探頭校準(zhǔn)規(guī)范-(高清現(xiàn)行)
評論
0/150
提交評論