信息技術 人工智能 機器學習模型質(zhì)量_第1頁
信息技術 人工智能 機器學習模型質(zhì)量_第2頁
信息技術 人工智能 機器學習模型質(zhì)量_第3頁
信息技術 人工智能 機器學習模型質(zhì)量_第4頁
信息技術 人工智能 機器學習模型質(zhì)量_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240在提交反饋意見時,請將您知道的相關專利連同

L70支持性文件一并附上

團體標準

T/CESAXXXX—XXXX

信息技術人工智能機器學習模型質(zhì)量

Informationtechnology-Artificialintelligence-Qualityofmachinelearningmodel

(征求意見稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電子工業(yè)標準化技術協(xié)會發(fā)布

T/XXXXXXXX—XXXX

前??言

本部分按照GB/T1.1—2009給出的規(guī)則起草。

請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構不承擔識別這些專利的責任。

本標準由中國電子技術標準化研究院提出并歸口。

本標準起草單位:

本標準主要起草人:

III

T/XXXXXXXX—XXXX

信息技術人工智能機器學習模型質(zhì)量

1范圍

本標準給出了機器學習模型質(zhì)量評測的標準數(shù)據(jù)集要求和測量方法,規(guī)定了機器學習模型的質(zhì)量要

素及其作為軟硬件系統(tǒng)模塊所涉及的質(zhì)量要素,提供了機器學習模型的質(zhì)量評測指標體系以及相應的評

測方法。

本標準適用于機器學習模型及系統(tǒng)的設計、研發(fā)及質(zhì)量評測,用戶可根據(jù)具體的機器學習模型選擇

合適的質(zhì)量評測指標。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T11457信息技術軟件工程術語

GB/T16260.1-2006軟件工程產(chǎn)品質(zhì)量第1部分:質(zhì)量模型

GB/T29831.1系統(tǒng)與軟件功能性第1部分:指標體系

GB/T29831.2-2013系統(tǒng)與軟件功能性第2部分:度量方法

GB/T29831.3系統(tǒng)與軟件功能性第3部分:測試方法

GB/T29832.1系統(tǒng)與軟件可靠性第1部分:指標體系

GB/T29832.2系統(tǒng)與軟件可靠性第2部分:度量方法

GB/T29832.3系統(tǒng)與軟件可靠性第3部分:測試方法

GB/T29833.1系統(tǒng)與軟件可移植性第1部分:指標體系

GB/T29833.2系統(tǒng)與軟件可移植性第2部分:度量方法

GB/T29833.3系統(tǒng)與軟件可移植性第3部分:測試方法

GB/T29834.1系統(tǒng)與軟件維護性第1部分:指標體系

GB/T29834.2系統(tǒng)與軟件維護性第2部分:度量方法

GB/T29834.3系統(tǒng)與軟件維護性第3部分:測試方法

GB/T29835.1系統(tǒng)與軟件效率第1部分:指標體系

GB/T29835.2系統(tǒng)與軟件效率第2部分:度量方法

GB/T29835.3系統(tǒng)與軟件效率第3部分:測試方法

GB/T29836.1系統(tǒng)與軟件易用性第1部分:指標體系

GB/T29836.2系統(tǒng)與軟件易用性第2部分:度量方法

GB/T29836.3系統(tǒng)與軟件易用性第3部分:測試方法

GB/T32904-2016軟件質(zhì)量量化評價規(guī)范

3術語和定義

GB/T11457和GB/T16260.1-2006界定的以及下列術語和定義適用于本文件。

1

T/XXXXXXXX—XXXX

3.1

機器學習模型machinelearningmodel

采用機器學習方法建立的輸入與目標輸出聯(lián)系的計算模型。主要包含算法、超參數(shù)、參數(shù)、模型輸

入規(guī)范、模型輸出規(guī)范五大要素。

3.2

模型輸入規(guī)范modelinputspecification

規(guī)定模型輸入的數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)精度等。

3.3

模型輸出規(guī)范modeloutputspecification

規(guī)定模型輸出的數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)精度等。

3.4

機器學習模型系統(tǒng)machinelearningmodelsystem

機器學習模型的軟硬件實現(xiàn)系統(tǒng),可以保障模型在接受合適的數(shù)據(jù)輸入后,可以正常運行,在規(guī)定

時間內(nèi)返回約定格式的輸出數(shù)據(jù)。

3.5

標準數(shù)據(jù)集standarddataset

符合一定規(guī)范要求的數(shù)據(jù)集,主要用于訓練、驗證和測試特定機器學習模型。

3.6

訓練training

對于給定的數(shù)據(jù)集,生成和優(yōu)化機器學習模型參數(shù)設置的過程。

3.7

訓練集trainingset

對于用來訓練的數(shù)據(jù)集,稱為訓練集。

3.8

測試testing

對于給定的數(shù)據(jù)集,采用訓練模型進行預測,由此評估訓練模型性能的過程。

3.9

測試集testingset

對于用來測試的數(shù)據(jù)集,稱為測試集。

3.10

驗證validation

對于給定的數(shù)據(jù),采用被驗證模型進行預測,由此進行選擇并優(yōu)化訓練模型結構和超參數(shù)的過程。

3.11

2

T/XXXXXXXX—XXXX

驗證集validationset

對于用來驗證的數(shù)據(jù)集,稱為驗證集。

3.12

收斂convergence

對于給定的數(shù)據(jù)集,機器學習模型訓練達到局部最優(yōu)或者全局最優(yōu)的狀態(tài)。

3.13

準確率accuracy

對于給定的數(shù)據(jù)集,預測正確的樣本占總樣本的比率。

3.14

錯誤率errorrate

對于給定的數(shù)據(jù)集,預測錯誤的樣本占總樣本的比率。

3.15

精確率precision

對于給定的數(shù)據(jù)集,預測為真正例的樣本占預測為正例的樣本的比率。

3.16

召回率recall

對于給定的數(shù)據(jù)集,預測為真正例的樣本占所有實際為正例樣本的比率。

3.17

F1值F1-score

精確率和召回率的調(diào)和平均。

3.18

受試者操作特性曲線receiveroperatingcharacteristic

以假正例率為橫坐標,真正例率(召回率)為縱坐標所組成的坐標圖,和被試樣本在特定刺激條件

下由于采用不同的判斷標準得出的不同結果畫出的曲線。

3.19

平均絕對誤差meanabsolutedeviation

所有單個觀測值與算術平均值的偏差的絕對值的平均。

3.20

均方誤差mean-squareerror

參數(shù)估計值與參數(shù)真值之差平方的期望值。

3.21

均方根誤差rootmeansquareerror

3

T/XXXXXXXX—XXXX

亦稱標準誤差,是觀測值與真值偏差的平方與觀測次數(shù)比值的平方根。

3.22

離群點outlier

是一個數(shù)據(jù)對象,它顯著不同于其他數(shù)據(jù)對象。

3.23

噪聲數(shù)據(jù)noisydata

指錯誤或包含隨機誤差的數(shù)據(jù)。

3.24

擬合優(yōu)度goodnessoffit

衡量模型的預期值和現(xiàn)實所得的實際值的差距。

3.25

運行時間runningtime

完成規(guī)定任務所需要的時間。

3.26

純度purity

衡量正確聚類的樣本數(shù)占總樣本數(shù)的比例。

3.27

危險hazard

機器學習算法發(fā)生失效,從而導致機器學習系統(tǒng)出現(xiàn)的一個非預期或有害的行為,或者提交給其他

與機器學習系統(tǒng)相關聯(lián)的系統(tǒng)發(fā)生錯誤。

3.28

危險嚴重性hazardseverity

某種危險可能引起的事故后果的嚴重程度。

4縮略語

下列縮略語適用于本文件。

CPU:中央處理器(CentralProcessingUnit)

GPU:圖形處理器(GraphicProcessingUnit)

ROC:受試者操作特性曲線(ReceiverOperatingCharacteristic)

5概述

4

T/XXXXXXXX—XXXX

本標準依據(jù)GB/T29831.1,GB/T29832.1,GB/T29833.1,GB/T29834.1,GB/T29835.1,

GB/T29836.1,GB/T32904-2016綜合提出機器學習模型質(zhì)量指標體系。機器學習模型從已知數(shù)據(jù)中

學習獲得,并作用于未知數(shù)據(jù)進行預測,數(shù)據(jù)的質(zhì)量制約機器學習模型的質(zhì)量。本標準給出機器學習模

型的標準數(shù)據(jù)集的要求和測量方法,以標準數(shù)據(jù)集為基準在機器學習模型訓練和測試過程中進行質(zhì)量評

測;針對機器學習模型自身質(zhì)量要素及其作為軟硬件系統(tǒng)模塊涉及的質(zhì)量要素,將其質(zhì)量指標體系劃分

為功能性、可靠性、效率和維護性等4個主要特性并細分子特性。機器學習模型質(zhì)量指標體系見圖1。

圖1機器學習模型的質(zhì)量指標

6要求

6.1標準數(shù)據(jù)集要求

機器學習模型采用標準數(shù)據(jù)集進行訓練和測試。標準數(shù)據(jù)集主要有劃分特性、基本特性等子特性。

6.1.1劃分特性

標準數(shù)據(jù)集應包含訓練集(包含訓練和驗證兩部分)和測試集。訓練集用于機器學習模型的訓練和

生成,測試集用于測試機器學習模型的性能。標準數(shù)據(jù)集劃分特性包含訓練集和測試集的互斥性、樣本

分布一致性等子特性。

6.1.2基本特性

標準數(shù)據(jù)集應針對機器學習模型的特點任務和場景,其基本特性包含數(shù)據(jù)量級、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分

布等子特性。

a)數(shù)據(jù)量級:應覆蓋不同量級,數(shù)據(jù)量級應該能夠適當反映模型目標應用的實際數(shù)據(jù)量級,應包

含3個以上量級;

b)數(shù)據(jù)質(zhì)量:應充分考慮機器學習模型應用場景的真實情況,覆蓋數(shù)據(jù)精度、數(shù)據(jù)噪聲、數(shù)據(jù)缺

失等情況,并應保證數(shù)據(jù)標注的質(zhì)量;

c)數(shù)據(jù)一致性:樣本分布應該考慮樣本和標注的均衡分布,數(shù)據(jù)應從樣本真實分布中獨立采樣生

成,樣本標注類別分布與任務真實分布應保持一致。

5

T/XXXXXXXX—XXXX

6.2功能性

6.2.1功能性總體要求

功能性用于定義和評價機器學習模型滿足用戶對功能需求的能力。根據(jù)GB/T16260.1-2006,GB/T

29831.1,GB/T29831.2-2013,GB/T29831.3,GB/T32904-2016和機器學習模型的特點,功能性被

分成正確性、完備性、恰當性,可遷移性等子特性。

6.2.2正確性

正確性表明機器學習模型對指定的任務和用戶目標運行過程及產(chǎn)生結果的正確程度。它包含數(shù)據(jù)精

度的滿足性、模型設計的正確性、代碼實現(xiàn)的正確性、計算結果的正確性等測量元。

6.2.3完備性

完備性表明機器學習模型對指定的任務和用戶目標的覆蓋程度。它主要包含功能實現(xiàn)與需求覆蓋

比、實現(xiàn)功能正交性等測量元。

6.2.4恰當性

恰當性用于定義和評價機器學習模型選擇不同部件實現(xiàn)需求的合理性。它主要包含數(shù)據(jù)處理恰當

性、模型設計恰當性、優(yōu)化算法恰當性、模型實現(xiàn)恰當性、參數(shù)設置恰當性、訓練操作恰當性等測量元。

6.2.5可遷移性

可遷移性用于定義和評價機器學習模型的遷移能力。它包含不同規(guī)模數(shù)據(jù)的可擴展性、同領域的可

遷移性和不同領域可遷移性等測量元。

6.3可靠性

6.3.1可靠性總體要求

可靠性用于定義和評價機器學習模型及其系統(tǒng)在規(guī)定條件下和規(guī)定時間內(nèi),完成規(guī)定功能的能力。

根據(jù)GB/T29832.1,GB/T29832.2,GB/T29832.3,GB/T29833.1,GB/T29833.2,GB/T29833.3,

GB/T32904-2016和機器學習模型的特點,可靠性分為魯棒性、容錯性、易恢復性等子特性。

6.3.2魯棒性

魯棒性用于定義和評價機器學習模型避免異常和極端情況等危害導致失效的能力。它包含危害檢出

性、抗攻擊性、抗干擾性等測量元。

6.3.3容錯性

容錯性用于定義和評價機器學習模型在發(fā)生故障時,維護用戶期望的性能水平的能力。它包含失效

的避免性、誤操作的抵御性、誤操作的危害性等測量元。

6.3.4易恢復性

易恢復性用于定義和評價機器學習模型發(fā)生失效時,在滿足一定要求的時間內(nèi)重新達到規(guī)定的功

能,并恢復受影響的數(shù)據(jù)的能力。它包括平均恢復時間、易重新啟動性、易復原性、復原的有效性等測

量元。

6.4效率

6

T/XXXXXXXX—XXXX

6.4.1效率總體要求

效率用于定義和評價相對于所使用的資源,機器學習模型完成工作的能力。其資源包括系統(tǒng)的軟件

和硬件配置、消耗資源(如CPU、GPU、內(nèi)存、存儲、能量等)和花費的時間。根據(jù)GB/T29835.1,GB/T

29835.2,GB/T29835.3,GB/T32904-2016和機器學習模型的特點,效率分為時間消耗、資源消耗等

特性。

6.4.2時間消耗

時間消耗特性用于定義和評價在相同軟件和硬件環(huán)境下,機器學習模型及其系統(tǒng)訓練和測試的時間

消耗。在訓練階段,它包含模型收斂時間、模型訓練單輪時間等測量元。在測試階段,它包含模型執(zhí)行

一輪的時間等測量元。

6.4.3資源消耗

資源消耗特性用于定義和評價機器學習模型及其系統(tǒng)訓練及運行時對硬件資源的消耗。它包含算法

本身所需要的存儲(硬盤、內(nèi)存、顯存等)占用、帶寬(硬盤吞吐、網(wǎng)絡流量等)占用及計算資源(CPU、

GPU等)占用等測量元。

6.5維護性

6.5.1維護性總體要求

維護性用于定義和評價機器學習模型及其系統(tǒng)易于維護的程度。根據(jù)GB/T29834.1,GB/T

29834.2,GB/T29834.3,GB/T29836.1,GB/T29836.2,GB/T29836.3,GB/T32904-2016和

機器學習模型的特點,維護性分為規(guī)范性、收斂性、易改變性和可驗證性等子特性。

6.5.2規(guī)范性

規(guī)范性用于定義和評價機器學習模型及其系統(tǒng)的訓練、運行及維護等階段是否滿足模型的規(guī)范標

準。它包含模型設計的規(guī)范性、模型訓練的規(guī)范性、模型測試的規(guī)范性、系統(tǒng)代碼的易讀性、系統(tǒng)版本

兼容性等測量元。

6.5.3易收斂性

收斂性用于定義和評價機器學習模型的訓練過程能否快速收斂達到預期性能。它包含模型收斂的穩(wěn)

定性、收斂時間以及收斂值等測量元。

6.5.4易改變性

易改變性用于定義和評價維護者或用戶對機器學習模型系統(tǒng)進行修改、驗證的難易程度。這些修改

包括對機器學習算法代碼的修改和對設計文檔的修改。易改變性包含變更說明文檔的完整性、模塊間的

耦合性、變更模塊的可驗證性等測量元。

6.5.5可驗證性

可驗證性用于定義和評價機器學習模型及其系統(tǒng)的計算過程及計算結果是否易于理解和驗證。它包

含模型計算過程的可驗證性、模型計算結果的可解釋性、系統(tǒng)功能的可驗證性等測量元。

7測量方法

7

T/XXXXXXXX—XXXX

7.1標準數(shù)據(jù)集

7.1.1劃分特性

標準數(shù)據(jù)集的劃分可采用“留出法(Hold-out)”、“交叉驗證法(CrossValidation)”和“自

助法(BootStrapping)”等方法。訓練集和測試集的互斥性、樣本分布一致性等測量元的測量方法見

表1。

表1標準數(shù)據(jù)集的劃分方法

方法名稱方法介紹測量、公式及數(shù)據(jù)元素計算劃分概率

DST,ST一般情況下訓練集、驗

將標準數(shù)據(jù)集劃分為互斥的

證集、測試集比例為

留出法集合,訓練/驗證/測試集的:初始數(shù)據(jù)集

D6:2:2;數(shù)據(jù)量(百萬以

(Hold-out)劃分要盡可能保持數(shù)據(jù)分布S:訓練集

上)比例可調(diào)整為

的一致性。:驗證/測試集

T98:1:1。

(若樣本量T1,則為留一法)

DD1D2Dk

交叉驗證法將標準數(shù)據(jù)集劃分為k個大DiDjijk通常取10,表示10

(CrossValidation)小相似的互斥子集。折交叉驗證。

D:初始數(shù)據(jù)集

:第個子集

Dii

初始數(shù)據(jù)集大小為n,有放n

11初始數(shù)據(jù)集D中約有

自助法回抽樣n次作為訓練集。lim1=0.368

n36.8%的樣本未出現(xiàn)在

(BootStrapping)n次都未抽中樣本作為測試ne

采樣集D里。

集。n:樣本數(shù)量

該公式表示未抽中的樣本概率。

7.1.2基本特性

標準數(shù)據(jù)集應針對機器學習模型的特點任務和場景,針對數(shù)據(jù)量級、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分布等測量元

的測量方法如下:

a)數(shù)據(jù)量級:根據(jù)不同任務,數(shù)據(jù)數(shù)量分為:

1)少:數(shù)據(jù)量較少,難以滿足訓練需求;

2)一般:數(shù)據(jù)量尚可,基本滿足訓練需求;

3)多:數(shù)據(jù)量充足,完全滿足訓練需求。

b)數(shù)據(jù)質(zhì)量:根據(jù)不同的任務分為:

1)差:數(shù)據(jù)有大量噪音、缺失或相關度較低,難以滿足訓練需求;

2)中:數(shù)據(jù)有部分噪音或缺失,基本滿足訓練要求;

3)高:數(shù)據(jù)準確,完全滿足訓練要求。

c)數(shù)據(jù)一致性:可用以下指標評估訓練集、驗證集和測試集的一致性見表2。

8

T/XXXXXXXX—XXXX

表2標準數(shù)據(jù)集指標及測量方法

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

B

p?i

PSI(p?iq?i)ln

i1q?i

標準數(shù)據(jù)集中

式中:PSI0.1:指標穩(wěn)定性很高;

每個變量在訓

群體穩(wěn)定性i——數(shù)據(jù)的第i個分組;0.1PSI0.25:指標穩(wěn)定

練集,驗證集和

(PSI)B——總分組數(shù);性一般;

測試集中的分

PSI0.25:指標穩(wěn)定性差。

布穩(wěn)定性。驗證或測試第個分組占比;

p?i——i

訓練第個分組占比。

q?i——i

n

x

標準數(shù)據(jù)集中i

u=i1

每個變量在訓

均值:n對比分析訓練/驗證/測試集指標

均值穩(wěn)定性練集,驗證集和

式中:的均值,差異越小越好。

測試集中的均

值穩(wěn)定性。第個樣本

xi——i

n——樣本數(shù)目。

n

xu2

標準數(shù)據(jù)集中i

2=i1

每個變量在訓

方差:n-1對比分析訓練/驗證/測試集指標

方差穩(wěn)定性練集,驗證集和

式中:的方差,差異越小越好。

測試集中的方

差穩(wěn)定性。第個樣本

xi——i

u——均值。

xu3

偏度:i

S=3

標準數(shù)據(jù)集中

S=0:正態(tài)分布;

每個變量在訓式中:

S0:波形有右側長尾;

偏度穩(wěn)定性練集,驗證集和

x——第i個樣本S0:波形有左側長尾;

測試集中的偏i

差異越小越好。

度穩(wěn)定性。u——均值

3

——三階標準差。

9

T/XXXXXXXX—XXXX

表2數(shù)據(jù)集指標及測量方法(續(xù))

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

4

峰度:xiu

K=4

標準數(shù)據(jù)集中

K=3:正態(tài)分布;

每個變量在訓式中:

K3:波形平坦;

峰度穩(wěn)定性練集,驗證集和

x——第個樣本K3:波形突兀;

測試集中的峰ii

差異越小越好。

度穩(wěn)定性。u——均值

4——四階標準差。

7.2功能性

7.2.1正確性

采用測試集對機器學習模型功能進行測試,測量機器學習模型的數(shù)據(jù)精度的滿足性、模型設計的正

確性、代碼實現(xiàn)的正確性、計算結果的正確性等測量元。針對不同任務(如下,包含但不限于),主要

依據(jù)數(shù)據(jù)集基準,采用不同測量方式進行測量:

a)回歸任務:采用機器學習模型預測結果的平均絕對誤差(MeanAbsoluteError)、均方誤

差(MeanSquareError)、均方根誤差(RootMeanSquareError)等參數(shù)進行測量,

具體參數(shù)選擇視具體應用場景決定?;貧w任務的測量指標及方法見表3;

表3回歸任務的測量指標及方法

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

1n

(6)

MAEfiyi

ni1

MAE——平均絕對誤差;

平均絕對誤所有單個觀測值與算術平均值的MAE0,且MAE值越

n——測試樣本個數(shù);

差偏差的絕對值的平均

小越好。

第i個樣本的模型預測值;

fi——

第i個樣本的真實值。

yi——

10

T/XXXXXXXX—XXXX

表3回歸任務的測量指標及方法(續(xù))

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

n

12

MSEfiyi

ni1

式中:

MSE——均方誤差;

參數(shù)估計值與參數(shù)真值之差平方MAE0,且MAE值越

均方誤差

的期望值

n——測試樣本個數(shù);小越好。

第i個樣本的模型預測值;

fi——

第i個樣本的真實值。

yi——

n

12

(8)

RMSEfiyi

ni1

式中:

標準誤差,是觀測值與真值偏差

RMSE——均方根誤差;RMSE0,且RMSE值

均方根誤差的平方與觀測次數(shù)比值的平方

n——測試樣本個數(shù);越小越好。

根。

第i個樣本的模型預測值;

fi——

第i個樣本的真實值。

yi——

b)檢索任務:采用機器學習模型檢索結果的精確率(Precision)和召回率(Recall)。還可采

用F1值、ROC曲線、均值平均精度(MeanAveragePrecision)等進行綜合評估。檢索任

務的測量指標及方法見表4;

表4檢索任務測量指標及方法

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

TP

P............................................................................................(3)

TPFP

式中:

對于給定的數(shù)據(jù)集,預測為

P——精確率;0P1,且P值越大越

精確率真正例的樣本占預測為正例

TP——預測為真正例的好。

的樣本的比率。

樣本數(shù);

FP——預測為假正例

的樣本數(shù)

11

T/XXXXXXXX—XXXX

表4檢索任務測量指標及方法(續(xù))

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

TP

R(4)

TPFN

式中:

對于給定的數(shù)據(jù)集,預測為

——召回率;0R1,且R值越大越

召回率真正例的樣本占所有實際為R

——預測為真正例的好。

正例樣本的比率。TP

樣本數(shù);

FN——預測為假負例

的樣本數(shù)。

2PR

F1(5)

PR

精確率和召回率的調(diào)和平0F1,且F1值越大越

F1值式中:

均。好。

F1——F1值;

P——精確率;

R——召回率。

c)分類任務:采用機器學習模型分類結果的準確率(Accuracy)和錯誤率等進行測量,也采用

ROC曲線等進行綜合評估。其測量指標及方法見表5;

表5分類任務的測量指標及方法

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

TPTN

Accuracy

TPTNFPFN

(1)

式中:

0Accuracy1,且

對于給定的數(shù)據(jù)集,預測正Accuracy——準確率;

準確率

確的樣本占總樣本的比率。

TP——預測為真正例的樣本數(shù);Accuracy越大越好。

TN——預測為真負例的樣本

數(shù);

FP——預測為假正例的樣本數(shù);

FN——預測為假負例的樣本數(shù)

12

T/XXXXXXXX—XXXX

表5分類任務的測量指標及方法(續(xù))

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

Errorrate1Accuracy(2)

對于給定的數(shù)據(jù)集,預測錯式中:0Errorrate1,

錯誤率

誤的樣本占總樣本的比率。Errorrate——錯誤率;

Errorrate越小越好。

Accuracy——準確率

d)對于主觀評價類型的任務(圖像生成、語音合成等),需一定數(shù)量的觀察者(專家、技術人員、

普通用戶等)在給定的觀察條件下對機器學習模型產(chǎn)生的結果進行主觀評價(評分、排序、比

較等),并綜合評價結果測量模型的正確性。

7.2.2完備性

依據(jù)功能需求,采用測試集對機器學習模型功能進行測試,檢測機器學習模型輸出結果,測量功能

實現(xiàn)與需求覆蓋比、實現(xiàn)功能正交性測量元。

7.2.3恰當性

采用訓練集對機器學習模型進行訓練,通過使用不同規(guī)模的訓練數(shù)據(jù)、改變訓練數(shù)據(jù)的精度、設置

不同的模型參數(shù)、采用不同的優(yōu)化方法等方式,測量機器學習模型的數(shù)據(jù)處理恰當性、模型設計恰當性、

優(yōu)化算法恰當性、模型實現(xiàn)恰當性、參數(shù)設置恰當性、訓練操作恰當性等測量元。

7.2.4可遷移性

采用不同規(guī)模的訓練數(shù)據(jù)集對機器學習模型進行訓練和測試,評估其在不同規(guī)模下能否穩(wěn)定遷移并

實現(xiàn)預期功能(見6.2.1),測量其可擴展性;采用同領域不同數(shù)據(jù)集及不同領域的不同數(shù)據(jù)集對機器

學習模型進行訓練和測試,評估模型性能變化(見6.2.1),測量其可遷移性。

7.3可靠性

7.3.1魯棒性

采用對抗攻擊、噪聲污染等手段生成對抗樣本、噪聲數(shù)據(jù)等對機器學習模型進行測量,判斷其能否

正常運行并返回滿足約定格式的運算結果。評價機器學習模型能否正常運行、性能指標變化情況(見

6.2.1)以及失效情況下恢復能力,測量危害檢出性、抗攻擊性、抗干擾性等測量元??箤剐灾笜思?/p>

測量方法見表6。

13

T/XXXXXXXX—XXXX

表6抗對抗性指標及測量方法

指標名稱指標描述測量、公式及數(shù)據(jù)元素計算測量值說明

pp1p2

該指標為相對

p為未噪聲和離群點前的模型擬合優(yōu)度,p為加入離群點后的模型

指標,用于多模12

型的魯棒性對擬合優(yōu)度

比評估。通過在注:監(jiān)督學習的模型擬合優(yōu)度可以用準確率來度量。非監(jiān)督學習的模

驗證集上增加型擬合優(yōu)度可以用純度度量。;

p10

噪聲和離群點

1

(建議可以對;

purity,Cmaxwkcjp20

Nj

抗對抗性20%的驗證樣本k

加高斯噪聲)對p0;

w,w,,w為樣本聚類的集合,Cc,c,,c為

模型進行驗證,12k12j

且p值越小越

然后計算模型樣本分類集合;

好。

擬合優(yōu)度的變式中:

化值,變化值越

w——表示第k個聚類的集合;

小模型的抗對k

抗性越好。

第個分類;

cj——j

N——樣本總數(shù)

7.3.2容錯性

對機器學習模型的數(shù)據(jù)輸入、軟硬件運行環(huán)境等進行極端或異常干擾。干擾方式包括運行資源受限

性干擾,如強制限制內(nèi)存使用量、降低中央處理器運行頻率、限制處理器核心數(shù)量等;硬件失效性干擾,

如數(shù)據(jù)采集設備強制失效等;對需要保存狀態(tài)的機器學習模型,采用強制刪除狀態(tài)文件等方式進行干擾。

測試機器學習模型系統(tǒng)能否提示或內(nèi)部消化在系統(tǒng)層出現(xiàn)的錯誤,及模型系統(tǒng)正常運行的能力,測量模

型系統(tǒng)的失效的避免性、誤操作的抵御性、誤操作的危害性等測量元,其指標及測量方法見表7。

表7容錯性指標及測量方法

指標名稱指標性質(zhì)測量、公式及數(shù)據(jù)元素計算測量值說明

A

X

B

式中:

A——執(zhí)行指標的測試要點的0.0X1.0

失效的避免性避免關鍵和嚴重的失效比率

測試用例時,未發(fā)生關鍵的和嚴越接近1.0越好,越能避

重的失效的測試用例數(shù)免關鍵或嚴重的失效。

B——指標的測試要點的測試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論