2024罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜構(gòu)建技術(shù)要求_第1頁
2024罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜構(gòu)建技術(shù)要求_第2頁
2024罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜構(gòu)建技術(shù)要求_第3頁
2024罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜構(gòu)建技術(shù)要求_第4頁
2024罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜構(gòu)建技術(shù)要求_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目次前言 II1范圍 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 15概述 16罕見病表型術(shù)語識(shí)別 2數(shù)據(jù)收集和整理 2目次前言 II1范圍 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 15概述 16罕見病表型術(shù)語識(shí)別 2數(shù)據(jù)收集和整理 2術(shù)語標(biāo)準(zhǔn)化 2實(shí)體識(shí)別和關(guān)系抽取 2數(shù)據(jù)標(biāo)注和驗(yàn)證 2罕見病診斷知識(shí)圖譜構(gòu)建技術(shù)要求 2概述 2知識(shí)獲取 2知識(shí)抽取 3知識(shí)融合 3知識(shí)建模 3知識(shí)評估 4知識(shí)推理 4知識(shí)存儲(chǔ) 4安全性要求 578I罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜構(gòu)建技術(shù)要求1 范圍本文件適用于罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜系統(tǒng)的構(gòu)建。2 規(guī)范性引用文件(包括所有的修改單適用于本文件。GB/T22239 信息安全技術(shù) 網(wǎng)絡(luò)安全等級保護(hù)基本要求GB/T35273 信息安全技術(shù) 個(gè)人信息安全規(guī)范罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜構(gòu)建技術(shù)要求1 范圍本文件適用于罕見病表型術(shù)語識(shí)別及診斷知識(shí)圖譜系統(tǒng)的構(gòu)建。2 規(guī)范性引用文件(包括所有的修改單適用于本文件。GB/T22239 信息安全技術(shù) 網(wǎng)絡(luò)安全等級保護(hù)基本要求GB/T35273 信息安全技術(shù) 個(gè)人信息安全規(guī)范3 術(shù)語和定義下列術(shù)語和定義適用于本文件。知識(shí)圖譜 knowledgegraph表型術(shù)語 PhenotypeOntology表型術(shù)語被定義為一些臨床觀察到的,偏離正常形態(tài)、功能、生理或者行為的描述。人類表型術(shù)語HumanPhenotypeOntology,HPO4 縮略語LHS 學(xué)習(xí)型健康醫(yī)療系統(tǒng) LearningHealthSystemRDF 資源描述框架 ResourceDescriptionFramework5 概述應(yīng)針對檢驗(yàn)、檢查等結(jié)構(gòu)化數(shù)據(jù)識(shí)別HPO表型術(shù)語的判斷邏輯規(guī)則,以及在電子病歷(EMR)中的自然語言處理程序(NLP),以二者為基礎(chǔ)從EMR中識(shí)別表型術(shù)語,并結(jié)合OMIM、孤兒院等罕見病知識(shí)庫,1續(xù)獲得協(xié)作網(wǎng)內(nèi)罕見病確診病例后,通過LHS等理念進(jìn)一步完善診斷知識(shí)圖譜。6 罕見病表型術(shù)語識(shí)別數(shù)據(jù)收集和整理EMRHPO表型術(shù)語。術(shù)語標(biāo)準(zhǔn)化應(yīng)對罕見病相關(guān)的術(shù)語和表達(dá)進(jìn)行標(biāo)準(zhǔn)化。實(shí)體識(shí)別和關(guān)系抽取應(yīng)設(shè)計(jì)整合基于詞典及機(jī)器學(xué)習(xí)的NLP數(shù)據(jù)標(biāo)注和驗(yàn)證應(yīng)對識(shí)別和抽取的結(jié)果進(jìn)行人工標(biāo)注和驗(yàn)證,以確保結(jié)果的準(zhǔn)確性和可靠性。標(biāo)注人員應(yīng)具備相關(guān)醫(yī)學(xué)知識(shí),能夠正確理解和標(biāo)注罕見病表型術(shù)語。續(xù)獲得協(xié)作網(wǎng)內(nèi)罕見病確診病例后,通過LHS等理念進(jìn)一步完善診斷知識(shí)圖譜。6 罕見病表型術(shù)語識(shí)別數(shù)據(jù)收集和整理EMRHPO表型術(shù)語。術(shù)語標(biāo)準(zhǔn)化應(yīng)對罕見病相關(guān)的術(shù)語和表達(dá)進(jìn)行標(biāo)準(zhǔn)化。實(shí)體識(shí)別和關(guān)系抽取應(yīng)設(shè)計(jì)整合基于詞典及機(jī)器學(xué)習(xí)的NLP數(shù)據(jù)標(biāo)注和驗(yàn)證應(yīng)對識(shí)別和抽取的結(jié)果進(jìn)行人工標(biāo)注和驗(yàn)證,以確保結(jié)果的準(zhǔn)確性和可靠性。標(biāo)注人員應(yīng)具備相關(guān)醫(yī)學(xué)知識(shí),能夠正確理解和標(biāo)注罕見病表型術(shù)語。EMR,設(shè)計(jì)從結(jié)構(gòu)化數(shù)據(jù)中抽取語義一致的表型術(shù)語算法。7 罕見病診斷知識(shí)圖譜構(gòu)建技術(shù)要求概述構(gòu)建針對檢驗(yàn)、檢查等結(jié)構(gòu)化數(shù)據(jù)識(shí)別HPO表型的邏輯判斷規(guī)則以及自然語言處理程序,以二者為基礎(chǔ)從EMR中識(shí)別表型術(shù)語,并結(jié)合OMIM、Orphanet等罕見病知識(shí)庫,通過疾病-表型-權(quán)重三元組關(guān)聯(lián)分析,形成罕見病診斷語義知識(shí)圖譜。總技術(shù)路線見圖1。圖1 總技術(shù)路線圖知識(shí)獲取2知識(shí)獲取階段應(yīng)明確知識(shí)圖譜構(gòu)建的數(shù)據(jù)來源,針對不同的數(shù)據(jù)來源制定相應(yīng)的獲取策略并進(jìn)行獲取,做好后續(xù)構(gòu)建流程的數(shù)據(jù)準(zhǔn)備。知識(shí)獲取包括知識(shí)采集和知識(shí)導(dǎo)入。對知識(shí)獲取階段的技術(shù)要求如下:——應(yīng)能從協(xié)作網(wǎng)異構(gòu)EMR中全面、準(zhǔn)確識(shí)別HPO表型術(shù)語;——應(yīng)明確構(gòu)建知識(shí)圖譜所需數(shù)據(jù)的來源,如文獻(xiàn)、書籍等非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)、圖像、語音、視頻等非文本數(shù)據(jù)等;——對于組織內(nèi)的內(nèi)部數(shù)據(jù),應(yīng)對數(shù)據(jù)進(jìn)行脫敏轉(zhuǎn)換后進(jìn)行使用;——對于互聯(lián)網(wǎng)數(shù)據(jù),應(yīng)利用爬蟲工具或自行開發(fā)爬蟲程序爬取數(shù)據(jù),并經(jīng)過數(shù)據(jù)解析、清洗后形成數(shù)據(jù)集;——對于組織外的合作伙伴數(shù)據(jù),應(yīng)通過接口獲取或者通過數(shù)據(jù)文件的傳送獲取數(shù)據(jù);——應(yīng)將獲取到的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫或存儲(chǔ)中,以用于后續(xù)的分析。知識(shí)獲取階段應(yīng)明確知識(shí)圖譜構(gòu)建的數(shù)據(jù)來源,針對不同的數(shù)據(jù)來源制定相應(yīng)的獲取策略并進(jìn)行獲取,做好后續(xù)構(gòu)建流程的數(shù)據(jù)準(zhǔn)備。知識(shí)獲取包括知識(shí)采集和知識(shí)導(dǎo)入。對知識(shí)獲取階段的技術(shù)要求如下:——應(yīng)能從協(xié)作網(wǎng)異構(gòu)EMR中全面、準(zhǔn)確識(shí)別HPO表型術(shù)語;——應(yīng)明確構(gòu)建知識(shí)圖譜所需數(shù)據(jù)的來源,如文獻(xiàn)、書籍等非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)、圖像、語音、視頻等非文本數(shù)據(jù)等;——對于組織內(nèi)的內(nèi)部數(shù)據(jù),應(yīng)對數(shù)據(jù)進(jìn)行脫敏轉(zhuǎn)換后進(jìn)行使用;——對于互聯(lián)網(wǎng)數(shù)據(jù),應(yīng)利用爬蟲工具或自行開發(fā)爬蟲程序爬取數(shù)據(jù),并經(jīng)過數(shù)據(jù)解析、清洗后形成數(shù)據(jù)集;——對于組織外的合作伙伴數(shù)據(jù),應(yīng)通過接口獲取或者通過數(shù)據(jù)文件的傳送獲取數(shù)據(jù);——應(yīng)將獲取到的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫或存儲(chǔ)中,以用于后續(xù)的分析。知識(shí)抽取知識(shí)抽取階段應(yīng)將非結(jié)構(gòu)化或半結(jié)構(gòu)化的原始數(shù)據(jù)抽取成圖譜標(biāo)準(zhǔn)知識(shí),方便圖譜高效地進(jìn)行知識(shí)構(gòu)建,知識(shí)抽取包括實(shí)體抽取、事件抽取、屬性挖掘和知識(shí)標(biāo)化等。對知識(shí)抽取階段的技術(shù)要求如下:——應(yīng)能針對協(xié)作網(wǎng)內(nèi)異構(gòu)的EMR,設(shè)計(jì)從結(jié)構(gòu)化數(shù)據(jù)中抽取語義一致的表型術(shù)語算法;OCRNLP——應(yīng)支持通過圖譜的模式建模能力將業(yè)務(wù)領(lǐng)域知識(shí)抽象成圖譜的實(shí)體、關(guān)系、屬性、約束等;NLP——宜支持通過有限配置構(gòu)建事件抽取服務(wù),并將抽取結(jié)果寫入圖譜;——應(yīng)支持從不同信息源中采集特定實(shí)體的屬性信息。知識(shí)融合對知識(shí)融合階段的技術(shù)要求如下:——應(yīng)能對權(quán)威罕見病診斷知識(shí)庫與協(xié)作網(wǎng)內(nèi)多家醫(yī)院罕見病病例庫進(jìn)行持續(xù)知識(shí)整合;——在同構(gòu)環(huán)境下,應(yīng)支持每個(gè)實(shí)體在全局有唯一實(shí)例,如通過提供系統(tǒng)插件以及搜索引擎、圖查詢、實(shí)體相似度等能力,實(shí)現(xiàn)開發(fā)少量代碼即可快速發(fā)現(xiàn)、消除重復(fù)冗余實(shí)體;——應(yīng)支持包括異構(gòu)多源實(shí)體、不同圖譜下同質(zhì)異構(gòu)實(shí)體的融合,如通過提供可解釋、可回溯的規(guī)則管理能力,方便管理融合策略;——應(yīng)支持為不同領(lǐng)域同實(shí)體共享、差異化迭代提供的實(shí)體繼承能力,宜支持選擇深度、淺度繼承公共實(shí)體,新增或覆蓋已有屬性;——宜支持多源知識(shí)子圖的融合,如通過提供子圖約簡、圖嵌入、子圖相似度等能力,實(shí)現(xiàn)高效地融合知識(shí)圖譜間的結(jié)構(gòu)信息與語義信息?!酥С株P(guān)系分層繼承能力,方便概念管理;——宜支持多語言的知識(shí)融合;——宜支持新增知識(shí)的實(shí)時(shí)融合。知識(shí)建模3知識(shí)建模階段應(yīng)首先將業(yè)務(wù)知識(shí)轉(zhuǎn)化成圖譜形式表達(dá),完成結(jié)構(gòu)化數(shù)據(jù)到語義邏輯知識(shí)化的建模,并完成知識(shí)圖譜內(nèi)容的構(gòu)建。知識(shí)構(gòu)建包括模式定義、自動(dòng)化建模、混合索引及實(shí)時(shí)調(diào)度等。對知識(shí)建模階段的技術(shù)要求如下:——通過對罕見病大型隊(duì)列電子病歷中的表型數(shù)據(jù)提取,整合并優(yōu)化疾病臨床表型本體、語義模型和知識(shí)圖譜,強(qiáng)化罕見病的推理權(quán)重,建立基于表型大數(shù)據(jù)的罕見病輔助診斷模型,為罕見病的臨床診治提供表型證據(jù)支持;——應(yīng)支持通過圖譜的模式建模能力將業(yè)務(wù)領(lǐng)域知識(shí)抽象成圖譜的實(shí)體、關(guān)系、屬性、約束等;——應(yīng)支持針對模式的增刪改查等操作;——宜支持引用其他領(lǐng)域已有的關(guān)系、實(shí)體定義等;——應(yīng)支持自動(dòng)化的知識(shí)建模服務(wù);——宜支持自上而下和自下而上的途徑進(jìn)行知識(shí)構(gòu)建;——應(yīng)支持針對文本、向量、空間等索引查詢召回能力的索引配置能力;——宜支持流、批一體的構(gòu)建鏈路,支持業(yè)務(wù)數(shù)據(jù)變更后秒級通過圖譜構(gòu)建鏈路更新到圖譜中;知識(shí)建模階段應(yīng)首先將業(yè)務(wù)知識(shí)轉(zhuǎn)化成圖譜形式表達(dá),完成結(jié)構(gòu)化數(shù)據(jù)到語義邏輯知識(shí)化的建模,并完成知識(shí)圖譜內(nèi)容的構(gòu)建。知識(shí)構(gòu)建包括模式定義、自動(dòng)化建模、混合索引及實(shí)時(shí)調(diào)度等。對知識(shí)建模階段的技術(shù)要求如下:——通過對罕見病大型隊(duì)列電子病歷中的表型數(shù)據(jù)提取,整合并優(yōu)化疾病臨床表型本體、語義模型和知識(shí)圖譜,強(qiáng)化罕見病的推理權(quán)重,建立基于表型大數(shù)據(jù)的罕見病輔助診斷模型,為罕見病的臨床診治提供表型證據(jù)支持;——應(yīng)支持通過圖譜的模式建模能力將業(yè)務(wù)領(lǐng)域知識(shí)抽象成圖譜的實(shí)體、關(guān)系、屬性、約束等;——應(yīng)支持針對模式的增刪改查等操作;——宜支持引用其他領(lǐng)域已有的關(guān)系、實(shí)體定義等;——應(yīng)支持自動(dòng)化的知識(shí)建模服務(wù);——宜支持自上而下和自下而上的途徑進(jìn)行知識(shí)構(gòu)建;——應(yīng)支持針對文本、向量、空間等索引查詢召回能力的索引配置能力;——宜支持流、批一體的構(gòu)建鏈路,支持業(yè)務(wù)數(shù)據(jù)變更后秒級通過圖譜構(gòu)建鏈路更新到圖譜中;——宜支持多人在線協(xié)同編輯,且實(shí)時(shí)更新。知識(shí)評估知識(shí)評估階段用于保障新加入知識(shí)圖譜的知識(shí)的質(zhì)量,應(yīng)主要包括規(guī)則評估、人工評估、智能評估三種方式。對知識(shí)評估階段的技術(shù)要求如下:——應(yīng)支持規(guī)則評估結(jié)合外部接口調(diào)用來評測知識(shí)正確性,或依賴系統(tǒng)規(guī)則評測知識(shí)的時(shí)效性、覆蓋率等;——應(yīng)支持人工評估與知識(shí)標(biāo)注平臺(tái)無縫打通;——宜支持帶條件的對實(shí)體、屬性、關(guān)系等做無偏采樣,自動(dòng)打通外包、眾包評估,持續(xù)評測知識(shí)質(zhì)量;——應(yīng)支持智能評估與算法模型結(jié)合,針對知識(shí)正確性、結(jié)構(gòu)穩(wěn)定性等進(jìn)行評估。知識(shí)推理對知識(shí)推理階段的技術(shù)要求如下:——應(yīng)支持知識(shí)問答能力,基于知識(shí)圖譜實(shí)現(xiàn)知識(shí)問答;——應(yīng)支持關(guān)聯(lián)分析能力,基于知識(shí)圖譜實(shí)現(xiàn)知識(shí)的關(guān)聯(lián)分析;——宜支持規(guī)則推理能力,包括基于專家經(jīng)驗(yàn),在圖上進(jìn)行基于路徑和節(jié)點(diǎn)屬性計(jì)算的迭代推理能力;——宜支持表示推理能力,包括并不限于通過聯(lián)動(dòng)圖譜存儲(chǔ)、圖訓(xùn)練框架實(shí)現(xiàn)表示推理能力;通過對知識(shí)的嵌入表示,然后結(jié)合深度學(xué)習(xí)實(shí)現(xiàn)推理能力,同時(shí)可支持多種算法,結(jié)合業(yè)務(wù)下游模型進(jìn)行關(guān)系預(yù)測、屬性預(yù)測、推薦排序等。知識(shí)存儲(chǔ)知識(shí)存儲(chǔ)階段將知識(shí)圖譜的概念層和數(shù)據(jù)層以計(jì)算機(jī)可識(shí)別的數(shù)據(jù)格式進(jìn)行保存的物理形式,知識(shí)圖譜的存儲(chǔ)并不用依賴特定的底層結(jié)構(gòu),一般的做法是按照數(shù)據(jù)和應(yīng)用的需求采用不同的4底層存儲(chǔ)。7.8.3 對知識(shí)圖譜系統(tǒng)的知識(shí)存儲(chǔ)組件的功能要求如下:——應(yīng)滿足基礎(chǔ)的圖數(shù)據(jù)存儲(chǔ)需求,設(shè)計(jì)具備良好可伸縮性和靈活性的知識(shí)存儲(chǔ)結(jié)構(gòu),可滿足多RDF——應(yīng)具備查詢、讀取、計(jì)算和應(yīng)用需求的支持,可以實(shí)現(xiàn)和不同存儲(chǔ)、計(jì)算組件的交互,可以底層存儲(chǔ)。7.8.3 對知識(shí)圖譜系統(tǒng)的知識(shí)存儲(chǔ)組件的功能要求如下:——應(yīng)滿足基礎(chǔ)的圖數(shù)據(jù)存儲(chǔ)需求,設(shè)計(jì)具備良好可伸縮性和靈活性的知識(shí)存儲(chǔ)結(jié)構(gòu),可滿足多RDF——應(yīng)具備查詢、讀取、計(jì)算和應(yīng)用需求的支持,可以實(shí)現(xiàn)和不同存儲(chǔ)、計(jì)算組件的交互,可以滿足上層應(yīng)用對于存儲(chǔ)組件進(jìn)行增刪查改的功能和性能需求;——應(yīng)具備對于安全性、可靠性、維護(hù)和管理的支持,可以實(shí)現(xiàn)基于角色的訪問控制、加密、多用戶、高可用性、備份和還

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論