YYT 1833.5-202X人工智能醫(yī)療器械 質(zhì)量要求和評(píng)價(jià) 第5部分:預(yù)訓(xùn)練模型-征求意見稿_第1頁
YYT 1833.5-202X人工智能醫(yī)療器械 質(zhì)量要求和評(píng)價(jià) 第5部分:預(yù)訓(xùn)練模型-征求意見稿_第2頁
YYT 1833.5-202X人工智能醫(yī)療器械 質(zhì)量要求和評(píng)價(jià) 第5部分:預(yù)訓(xùn)練模型-征求意見稿_第3頁
YYT 1833.5-202X人工智能醫(yī)療器械 質(zhì)量要求和評(píng)價(jià) 第5部分:預(yù)訓(xùn)練模型-征求意見稿_第4頁
YYT 1833.5-202X人工智能醫(yī)療器械 質(zhì)量要求和評(píng)價(jià) 第5部分:預(yù)訓(xùn)練模型-征求意見稿_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià)第5部分:預(yù)訓(xùn)練模型(征求意見稿)(本草案完成時(shí)間:2023年7月13日)在提交反饋意見時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。I前言 1范圍 42規(guī)范性引用文件 43術(shù)語和定義 44預(yù)訓(xùn)練模型說明要求 54.1預(yù)訓(xùn)練模型描述 542模型框架描述 54.2.1模型結(jié)構(gòu) 54.2.2模型節(jié)點(diǎn) 54.2.3模型參數(shù) 54.2.4模型數(shù)據(jù)表示 54.2.5模型可解釋性 643訓(xùn)練數(shù)據(jù)描述 64.3.1數(shù)據(jù)模態(tài) 64.3.2數(shù)據(jù)量 64.3.3數(shù)據(jù)質(zhì)量 64.4訓(xùn)練過程描述 64.4.1學(xué)習(xí)方法 6 6 645模型適用性描述 64.5.1適用數(shù)據(jù)類型 64.5.2適用任務(wù)類型 64.5.3適用硬件類型 64.5.4下游數(shù)據(jù)需求 75預(yù)訓(xùn)練模型質(zhì)量特性 751概述 752質(zhì)量特性 75.2.1可訓(xùn)練性 75.2.2架構(gòu)可擴(kuò)展性 75.2.3可遷移性 75.2.4模型效率 75.2.5輸出一致性 75.2.6健壯性 75.2.7泛化性 85.2.8對(duì)抗安全 85.2.9隱私保護(hù) 86預(yù)訓(xùn)練模型質(zhì)量符合性評(píng)價(jià)方法 8 8R2預(yù)訓(xùn)練模型說明評(píng)價(jià) 8R3質(zhì)量特性評(píng)價(jià) 86.3.1可訓(xùn)練性 86.3.2架構(gòu)可擴(kuò)展性 86.3.3可遷移性 86.3.4模型效率 86.3.5輸出一致性 86.3.6健壯性 86.3.7泛化性 96.3.8對(duì)抗安全 9 9附錄A(解釋性)預(yù)訓(xùn)練相關(guān)要素的擴(kuò)展說明 A.1預(yù)訓(xùn)練模型提供方 A.2模型結(jié)構(gòu) A.4數(shù)據(jù)抽象 A.5深度學(xué)習(xí)可解釋性 A.6架構(gòu)可擴(kuò)展性 A.7模型輸出一致性、健壯性和泛化性之間的關(guān)系 附錄B(資料性)模型說明描述示例 B.1腫瘤專家模型 B.1.1預(yù)訓(xùn)練模型描述 B.1.2模型框架描述 B.1.3訓(xùn)練數(shù)據(jù)描述 B.1.4訓(xùn)練過程描述 B.1.5模型適用性描述 附錄C(資料性)部分公開的預(yù)訓(xùn)練模型簡介 C.1自然語言處理模型系列 17 C.2計(jì)算機(jī)視覺模型系列 17 本文件按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起本文件是YY/T1833《人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià)》的第5部分。YY/T1833已經(jīng)發(fā)布了以下 4人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià)第5部分:預(yù)訓(xùn)練模型僅該日期對(duì)應(yīng)的版本適用于本部分;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本GB/T41867-2022信息技術(shù)人工智能術(shù)語YY/T1833.1-2022人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià)第1部分:術(shù)語YY/T1833.2-2022人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià)第2部分:數(shù)據(jù)集通用要求YY/T1833.3-2022人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià)第3部分:數(shù)據(jù)標(biāo)注通用要求IEEEStd2801-2022RecommendedPracticefortheQMedicalArtificialInGB/T41867、YY/T18335預(yù)訓(xùn)練模型提供方應(yīng)描述與該預(yù)訓(xùn)練模型本體相關(guān)的過程、將真實(shí)世界的數(shù)據(jù)映射到預(yù)訓(xùn)練模型中的編碼方法、數(shù)c)數(shù)據(jù)尺寸應(yīng)描述現(xiàn)實(shí)世界的數(shù)據(jù)如何在模型中被映射。這可包括使用各種編碼方法,如獨(dú)熱編碼(on6預(yù)訓(xùn)練模型說明應(yīng)包含對(duì)用于訓(xùn)練預(yù)訓(xùn)練模型的每種模態(tài)的案例數(shù)量。這包括所使用的數(shù)據(jù)例的預(yù)訓(xùn)練模型說明應(yīng)包含對(duì)用于訓(xùn)練預(yù)訓(xùn)練模型的數(shù)據(jù)質(zhì)量的說明。數(shù)據(jù)質(zhì)量是指模型預(yù)訓(xùn)練中使7重新進(jìn)行訓(xùn)練需要的新任務(wù)域?qū)?yīng)之?dāng)?shù)據(jù)集規(guī)模描述。該種描述宜包含所需求的數(shù)據(jù)集的描述和模型51概述預(yù)訓(xùn)練模型提供方應(yīng)確保預(yù)訓(xùn)練模型具可收斂的特性。該特性即預(yù)訓(xùn)練模型可在訓(xùn)練過程中通過a)預(yù)訓(xùn)練模型完成前向推理所需的計(jì)算b)預(yù)訓(xùn)練模型在時(shí)間和內(nèi)存使用方面的效率。a)預(yù)訓(xùn)練模型在具有不同程度的多樣性和偏差的數(shù)據(jù)集上產(chǎn)b)預(yù)訓(xùn)練模型宜確保模型在輸入數(shù)據(jù)有噪聲時(shí)的性能穩(wěn)健性。8c)預(yù)訓(xùn)練模型應(yīng)確保其訓(xùn)練集分布外數(shù)據(jù)點(diǎn)(Out-of-Distribution,OOD)的歸納能力之邊預(yù)訓(xùn)練模型提供方應(yīng)確保模型有擬合未包含在訓(xùn)練中數(shù)據(jù)的能力,同時(shí)對(duì)該種能力的性能基線進(jìn)預(yù)訓(xùn)練模型應(yīng)確保模型在其作為醫(yī)療器械的生命周期內(nèi),其對(duì)于推理攻擊測(cè)試等惡意樣本的性能b)模型提供方應(yīng)確保對(duì)模型代碼所產(chǎn)生的數(shù)據(jù)上傳和數(shù)據(jù)儲(chǔ)存操作進(jìn)行聲明。對(duì)于5.2.1中的描述的參數(shù)和特征,測(cè)試人員宜根據(jù)模型提供方所提供的訓(xùn)練用例和訓(xùn)練設(shè)置,包使用模型對(duì)相應(yīng)數(shù)據(jù)進(jìn)行前向推理,其所需要的計(jì)算量,該指征包括單精度浮點(diǎn)(FLOPS),空間測(cè)試人員應(yīng)使用相同測(cè)試用例對(duì)模型進(jìn)行前向推理測(cè)試,檢查模型是否能夠產(chǎn)生不產(chǎn)生本質(zhì)差異9YY/T18應(yīng)選擇一組模型所針對(duì)的場(chǎng)景中常用的代表性樣本來評(píng)估系統(tǒng)的性能,使用模型對(duì)其未進(jìn)行擬合的數(shù)據(jù)進(jìn)行測(cè)試,其輸出的空間分布在5.2b)壓力樣本測(cè)試方法:測(cè)試人員應(yīng)使用目標(biāo)數(shù)據(jù)庫中的非典型或難以分類的樣本來測(cè)試模型性特征是人工智能和模式識(shí)別研究領(lǐng)域的重要概念,是指對(duì)能表達(dá)模式本質(zhì)的功能或結(jié)構(gòu)特點(diǎn)的可相應(yīng)的在一個(gè)模型中,特征提取是通過初始一組原始數(shù)據(jù)縮減到較易管理的較小組以進(jìn)行處理的降維b)預(yù)訓(xùn)練模型的空間輸出與網(wǎng)絡(luò)內(nèi)的特征分量之間的對(duì)應(yīng)關(guān)系;c)從預(yù)訓(xùn)練模型的特征中提取有意義的信息的能力。——指定算力規(guī)格及架構(gòu)的單個(gè)人工智能服務(wù)器,可支持的最大模型參數(shù)和結(jié)力、集成的人工智能加速卡個(gè)數(shù)、服務(wù)器內(nèi)加速卡間的互聯(lián)方——可支持部署的最大AI加速卡個(gè)數(shù),模型提供者宜對(duì)模型分布式并行切分策略設(shè)計(jì)進(jìn)行說b)輸出一致性強(qiáng)調(diào)對(duì)相同輸入情況下,輸出的要求c)健壯性在輸出一致性的特性之上,體現(xiàn)對(duì)同一類別的輸入情況下,輸出的要求d)健壯性體現(xiàn)對(duì)輸入帶有一定程度擾動(dòng)情況下,對(duì)輸出的要求e)泛化性則體現(xiàn)對(duì)未知類別輸入情況下,輸出的要求(資料性)采用UNet網(wǎng)絡(luò)結(jié)構(gòu)(結(jié)構(gòu)層數(shù)4層,參數(shù)規(guī)模9.04M),使用4級(jí)結(jié)構(gòu),包含一個(gè)輸入層(input)、多個(gè)編碼器(Encoder)、多個(gè)解碼器(Decoder)和一個(gè)輸出層(Output)。輸入層是整個(gè)網(wǎng)絡(luò)的輸入,也是第一個(gè)編碼器的輸入。每個(gè)編碼器包含兩個(gè)卷積層和一個(gè)最大池化層(Maxpooling),樣。每次下采樣后,編碼器輸出的特征圖尺寸會(huì)下降,通道數(shù)會(huì)增加。每個(gè)解碼器包含一個(gè)反卷積層 (Deconv)、一個(gè)跳躍連接(skipconne則(Batchnorm)、Relu激活函數(shù)構(gòu)成。輸出層碼器/解碼器部分的上下層間連接,另外一種通過跳躍連接將編碼器層的特征圖與主體結(jié)構(gòu)卷積大小輸出的大小 上表(續(xù))主體結(jié)構(gòu)卷積大小輸出的大小一一一一一一一一一上表(續(xù))主體結(jié)構(gòu)卷積大小輸出的大小一一一一一一一一一一一一一一一上表(續(xù))主體結(jié)構(gòu)卷積大小輸出的大小一一一一模型可以接受的數(shù)據(jù)尺寸為256*256,維度為1。輸入的訓(xùn)練數(shù)據(jù)采用將真實(shí)世界中的亮度值轉(zhuǎn)化為計(jì)算機(jī)中的數(shù)值強(qiáng)度進(jìn)行線性編碼,真實(shí)世界中亮度值越高則計(jì)算機(jī)中的數(shù)值越大。進(jìn)行預(yù)訓(xùn)練時(shí)的標(biāo)簽數(shù)據(jù)采用獨(dú)熱編碼(one-hot模型的輸入數(shù)據(jù)尺寸會(huì)先變形到256*256,然后將數(shù)據(jù)歸一化到(0,1)區(qū)間。模型的輸出數(shù)據(jù)需要從256*256恢復(fù)到輸入數(shù)據(jù)尺寸。無B.1.4.2數(shù)據(jù)量B.1.4.3數(shù)據(jù)質(zhì)量無B.1.5.1學(xué)習(xí)方法預(yù)訓(xùn)練模型的數(shù)據(jù)集采用7:2:1的比例進(jìn)行構(gòu)建,即7份數(shù)據(jù)做訓(xùn)練集、2份數(shù)據(jù)做驗(yàn)證集、1份數(shù)使用隨機(jī)權(quán)重作為模型的初始化權(quán)重值,訓(xùn)練過程中的優(yōu)化器為SGD,數(shù)據(jù)的迭代量(batch)為60,初始學(xué)習(xí)率為0.001,學(xué)習(xí)率將會(huì)隨著訓(xùn)練的輪次(epoch)動(dòng)態(tài)變化,變化的規(guī)律為每20個(gè)epoch,學(xué)習(xí)中央處理器內(nèi)存顯卡預(yù)訓(xùn)練模型遷移到新任務(wù)域時(shí)的數(shù)據(jù)集規(guī)模將會(huì)發(fā)其特點(diǎn)是同時(shí)考慮了輸入數(shù)據(jù)的左側(cè)和右側(cè)的上下文信息,這是通過使用自注意力機(jī)制 transformerblocks),768個(gè)隱藏層,和12個(gè)注意力頭,總共有1.1億個(gè)參數(shù)。而BERT-Large版本有24層,1024個(gè)隱藏層,和16個(gè)注意力頭,總共有3.4億的參數(shù)。同的預(yù)訓(xùn)練任務(wù),即MaskedLanguageModeling(MLM,掩碼語言建模)和NextSentencePrediction(NSP,下一句預(yù)測(cè))。通過個(gè)隱藏單元,12個(gè)注意頭)和BlueBERT-Large(24層,1024個(gè)隱藏單元,16個(gè)注意頭)?;A(chǔ)模型總共有1.1億個(gè)參數(shù),而大型模型有3.4億個(gè)參數(shù)。和MIMIC-III數(shù)據(jù)集中的臨床筆記,其預(yù)訓(xùn)練任務(wù)包含MaskedLanguageModeling(MLM,掩碼語言建模)和NextSentencePrediction(NSP,下一句預(yù)測(cè))。這種預(yù)訓(xùn)練使該模型能夠(RE)和文本分類(DC)。C.2計(jì)算機(jī)視覺模型系列b)預(yù)訓(xùn)練過程:使用了BraTS含T1,T1Gd,T2和T2-FLAIR四種模態(tài)的數(shù)據(jù),空間分辨率為1x1x1mm,圖像尺寸為240x240x155.模型在整個(gè)1251例數(shù)據(jù)上對(duì)三個(gè)類別的目標(biāo)進(jìn)行預(yù)測(cè),包括ET(enhancingtumor),WT(whole海馬體,前列腺,肝臟,心臟,胰腺,血管和脾臟等部位的CT和MRI掃描,共計(jì)1638例數(shù)c)微調(diào):通過更換解碼器模塊和在新的數(shù)據(jù)集上進(jìn)行訓(xùn)練,本模型作為特征提取器可實(shí)現(xiàn)對(duì)于YY/T1833 biomedicallanguagerepresentationmodelfor3)YifanPeng,QingyuChen,andZhiyongLu.2020.AnEmpiricalStudySIGBioMedWorkshoponBiomedicalLanguageProcessing,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論