(高清版)GBT 42755-2023 人工智能 面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程_第1頁
(高清版)GBT 42755-2023 人工智能 面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程_第2頁
(高清版)GBT 42755-2023 人工智能 面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程_第3頁
(高清版)GBT 42755-2023 人工智能 面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程_第4頁
(高清版)GBT 42755-2023 人工智能 面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人工智能面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程2023-05-23發(fā)布國家市場監(jiān)督管理總局國家標準化管理委員會I前言 12規(guī)范性引用文件 13術(shù)語和定義 14數(shù)據(jù)標注流程 25標注任務(wù)前期準備 35.1標注任務(wù) 35.2標注人員 45.3標注環(huán)境 46標注任務(wù)執(zhí)行 46.1過程控制 46.2質(zhì)量保證 56.3管理機制 67標注結(jié)果輸出 77.1內(nèi)部質(zhì)檢 77.2數(shù)據(jù)交付 87.3后期維護 8圖1數(shù)據(jù)標注流程框架 2ⅢGB/T42755—2023本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責(zé)任。本文件由全國信息技術(shù)標準化技術(shù)委員會(SAC/TC28)提出并歸口。本文件起草單位:北京航空航天大學(xué)、中國電子技術(shù)標準化研究院、北京百度網(wǎng)訊科技有限公司、浪潮軟件科技有限公司、山東省人工智能研究院、美的集團(上海)有限公司、北京智譜華章科技有限公司、北京愛數(shù)智慧科技有限公司、騰訊云計算(北京)有限責(zé)任公司、北京航天自動控制研究所、鄭州中業(yè)科技股份有限公司、東軟集團股份有限公司、北京海天瑞聲科技股份有限公司、云從科技集團股份有限公司、深圳云天勵飛技術(shù)股份有限公司、中國科學(xué)院軟件研究所、上海依圖網(wǎng)絡(luò)科技有限公司、中國醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)工程研究所、平安科技(深圳)有限公司、上海商湯智能科技有限公司、上海人工智能實驗室、上海計算機軟件技術(shù)開發(fā)中心、中國航空綜合技術(shù)研究所、中國科學(xué)院新疆理化技術(shù)研究所、中國質(zhì)量認證中心、中汽數(shù)據(jù)(天津)有限公司、北京眼神科技有限公司、上海人工智能研究院有限公司、浙江大華技術(shù)股份有限公司、杭州趣鏈科技有限公司、常州微億智造科技有限公司、長春博立電子科技有限公司、羅克佳華科技集團股份有限公司、上海交通大學(xué)、上海計算機軟件技術(shù)開發(fā)中心。李爽。1人工智能面向機器學(xué)習(xí)的數(shù)據(jù)標注規(guī)程1范圍本文件規(guī)定了人工智能領(lǐng)域面向機器學(xué)習(xí)的數(shù)據(jù)標注框架流程。本文件適用于指導(dǎo)人工智能領(lǐng)域面向機器學(xué)習(xí)的數(shù)據(jù)標注以及與之相關(guān)的研究、開發(fā)和應(yīng)用等。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35274—2017信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求GB/T37973—2019信息安全技術(shù)大數(shù)據(jù)安全管理指南3術(shù)語和定義下列術(shù)語和定義適用于本文件。數(shù)據(jù)標注datalabeling給數(shù)據(jù)樣本指定目標變量和賦值的過程。標注任務(wù)labelingtask按照數(shù)據(jù)標注說明對數(shù)據(jù)進行標注的活動。數(shù)據(jù)標注方datalabeler承擔數(shù)據(jù)標注任務(wù)的人員或機構(gòu)。數(shù)據(jù)需求方datauser提出數(shù)據(jù)標注需求的人員或機構(gòu)。標注管理方datalabelingadministrator管理數(shù)據(jù)標注任務(wù)評估、分發(fā)、交付、驗收以及質(zhì)量把控的人員或機構(gòu)。標注工具labelingtool數(shù)據(jù)標注方執(zhí)行數(shù)據(jù)標注時使用的工具,標注管理方管理數(shù)據(jù)標注時使用的工具,數(shù)據(jù)需求方驗收數(shù)據(jù)標注時使用的工具等所有流程相關(guān)的工具。標注任務(wù)說明labelingtaskdescription數(shù)據(jù)需求方用于向標注管理方以及數(shù)據(jù)標注方明確標注任務(wù)的書面表達。注:標注任務(wù)說明通常包含對要執(zhí)行的標注任務(wù)的描述、標注方法、正反示例、驗收方法與驗收指標等內(nèi)容。2數(shù)據(jù)需求方標注管理方數(shù)據(jù)標注方數(shù)據(jù)需求方標注管理方數(shù)據(jù)標注方4數(shù)據(jù)標注流程數(shù)據(jù)標注涉及數(shù)據(jù)需求方、標注管理方及數(shù)據(jù)標注方三方人員,主要流程包括標注任務(wù)前期準備、標注任務(wù)執(zhí)行、標注結(jié)果輸出三個階段。數(shù)據(jù)標注流程見圖1。標注任務(wù)執(zhí)行標注任務(wù)執(zhí)行過程控制標注內(nèi)容確定標注任務(wù)創(chuàng)建數(shù)據(jù)標注完成標注任務(wù)評估是交付內(nèi)容交付安全保障交付驗收否標注人員標注任務(wù)開展標注人員范圍標注人員培訓(xùn)標注人員能力柈案質(zhì)量保證標注任務(wù)質(zhì)量檢查標注任務(wù)一致性檢查管理機制標注任務(wù)進度管理標注環(huán)境選擇標注工具選擇標注場地標注前期準備標注任務(wù)標注結(jié)果是否符合預(yù)期標注任務(wù)回收標注結(jié)果輸出標注數(shù)據(jù)確定標注需求變更標注任務(wù)分發(fā)后期維護》t一圖1數(shù)據(jù)標注流程框架在標注前期準備階段,數(shù)據(jù)需求方和標注管理方應(yīng)確定標注任務(wù),完成標注內(nèi)容和標注數(shù)據(jù)的確定。標注管理方評估標注任務(wù),向數(shù)據(jù)需求方反饋是否需要變更需求,若需要則變更標注需求,并重新評估標注任務(wù)。標注前期準備階段還應(yīng)根據(jù)標注人員的要求確定數(shù)據(jù)標注方,同時確定標注環(huán)境,選擇合適的標注工具和場景。在標注任務(wù)執(zhí)行階段,數(shù)據(jù)需求方、標注管理方及數(shù)據(jù)標注方三方人員應(yīng)遵循標注流程的過程控制,完成標注任務(wù)的創(chuàng)建、分發(fā)、開展及回收。同時應(yīng)保證標注任務(wù)的質(zhì)量,嚴格遵守管理機制。在標注結(jié)果輸出階段,數(shù)據(jù)標注方應(yīng)對數(shù)據(jù)標注方標注后的數(shù)據(jù)進行內(nèi)部質(zhì)檢,質(zhì)檢合格后將標注后的數(shù)據(jù)交付給數(shù)據(jù)需求方。若標注后的數(shù)據(jù)符合預(yù)期,則數(shù)據(jù)標注完成;否則進行后期維護環(huán)節(jié),數(shù)據(jù)標注方應(yīng)對數(shù)據(jù)進行修正,并重啟內(nèi)部質(zhì)檢流程。35標注任務(wù)前期準備5.1標注任務(wù)5.1.1標注任務(wù)確定標注內(nèi)容由標注需求方在標注任務(wù)說明中提供,標注任務(wù)說明一經(jīng)確認,不可修改,如需修改則進入需求變更環(huán)節(jié),標注任務(wù)應(yīng)包括但不限于:a)版本信息:明確當前版本編號、發(fā)布日期、發(fā)布人、發(fā)布說明(發(fā)布原因或迭代原因);b)歷史迭代信息(歷代版本編號、發(fā)布日期、發(fā)布人、發(fā)布說明等);c)項目背景:明確數(shù)據(jù)標注需求產(chǎn)生的原因,以及數(shù)據(jù)標注結(jié)果的應(yīng)用場景;e)主客觀描述:明確說明數(shù)據(jù)標簽是根據(jù)個人專業(yè)領(lǐng)域知識進行標注,還是客觀認識進行的標注;f)標注人員資質(zhì):約定標注任務(wù)參與人員的資質(zhì)要求;g)標注結(jié)果:明確數(shù)據(jù)標注結(jié)果的交付形式;h)知識產(chǎn)權(quán):明確數(shù)據(jù)的知識產(chǎn)權(quán)歸屬。5.1.2標注數(shù)據(jù)確定數(shù)據(jù)標注前,數(shù)據(jù)需求方應(yīng)對待標注數(shù)據(jù)進行分析,核對標注任務(wù),包括:a)數(shù)據(jù)核查:檢查待標注數(shù)據(jù)是否與標注任務(wù)說明書中的數(shù)據(jù)定義相符,核查結(jié)果及時同步給數(shù)據(jù)需求方;b)數(shù)據(jù)整理:建立完善的數(shù)據(jù)追蹤機制,實現(xiàn)數(shù)據(jù)整理,以及最小粒度的數(shù)據(jù)追蹤;c)數(shù)據(jù)處理:根據(jù)標注任務(wù)以及標注數(shù)據(jù)的特性,通過數(shù)據(jù)聚類、組合排列、數(shù)據(jù)雜質(zhì)去除等方5.1.2.2數(shù)據(jù)安全等級確定根據(jù)標注任務(wù)中的數(shù)據(jù)安全描述,數(shù)據(jù)需求方應(yīng)根據(jù)GB/T37973—2019及GB/T35274—2017相關(guān)要求,確定標注數(shù)據(jù)的安全等級。5.1.3標注任務(wù)評估數(shù)據(jù)標注前,標注管理方應(yīng)對標注任務(wù)進行評估,包括:a)根據(jù)標注任務(wù)說明,評估標注任務(wù)可行性、標注規(guī)則合理性;b)在數(shù)據(jù)需求方提供的小規(guī)模樣本上進行預(yù)標注,將標注結(jié)果提交給數(shù)據(jù)需求方驗收。在獲得數(shù)據(jù)需求方確認后,再正式啟動數(shù)據(jù)標注任務(wù)。注:及時記錄數(shù)據(jù)預(yù)標注流程中標注規(guī)則與數(shù)據(jù)相悖、覆蓋不全或規(guī)則之間相悖的情況,并向數(shù)據(jù)需求方反饋完善標注規(guī)則。5.1.4標注需求變更標注需求方需求變更時,應(yīng)在標注管理方評審?fù)夂蟾聵俗⑷蝿?wù)說明,重新進入標注任務(wù)評估階段。45.2標注人員5.2.1標注人員范圍數(shù)據(jù)標注方應(yīng)根據(jù)標注任務(wù)內(nèi)容中規(guī)定的標注人員資質(zhì)需求,確定符合要求的人員進入標注人員培訓(xùn)環(huán)節(jié)。5.2.2標注人員培訓(xùn)數(shù)據(jù)標注方應(yīng)根據(jù)標注任務(wù)說明,對標注人員進行崗前能力培訓(xùn)。標注能力考試合格者,方能參與標注任務(wù)。5.2.3標注人員能力檔案數(shù)據(jù)標注方應(yīng)建立標注人員能力檔案,記錄標注人員承擔標注任務(wù)的相關(guān)內(nèi)容,用于進行標注人員能力評估與標注質(zhì)量追蹤。5.3標注環(huán)境5.3.1選擇標注工具數(shù)據(jù)標注方應(yīng)根據(jù)標注任務(wù)難度、數(shù)據(jù)處理規(guī)模及數(shù)據(jù)屬性特征、數(shù)據(jù)安全控制層級與方式,合理選擇標注工具,完成數(shù)據(jù)標注任務(wù)。5.3.2選擇標注場地數(shù)據(jù)標注方應(yīng)根據(jù)標注任務(wù)中必要的數(shù)據(jù)安全要求,搭建數(shù)據(jù)標注場地。6標注任務(wù)執(zhí)行6.1過程控制6.1.1標注任務(wù)創(chuàng)建標注任務(wù)創(chuàng)建主要包括以下內(nèi)容:a)任務(wù)包創(chuàng)建:數(shù)據(jù)需求方應(yīng)以適應(yīng)標注環(huán)境分發(fā)、標注工具讀取為目標,將需要標注的數(shù)據(jù)合理分組,保證數(shù)據(jù)標注質(zhì)量以及后續(xù)的任務(wù)分配;b)任務(wù)賬戶創(chuàng)建:數(shù)據(jù)需求方應(yīng)以標注人員數(shù)量為依據(jù),綜合標注、質(zhì)量分析等任務(wù)需求,根據(jù)標注環(huán)境或者標注工具,創(chuàng)建標注過程中所需要使用的用戶賬戶,并分配相應(yīng)的權(quán)限或賬戶使用規(guī)則;c)任務(wù)創(chuàng)建保障:標注管理方應(yīng)制定標注任務(wù)創(chuàng)建和數(shù)據(jù)上傳相關(guān)制度,明確數(shù)據(jù)上傳分類分級、數(shù)據(jù)安全風(fēng)險評估和安全監(jiān)控制度,監(jiān)管上傳數(shù)據(jù)的合法合規(guī)性。6.1.2標注任務(wù)分發(fā)標注任務(wù)分發(fā)主要包括以下內(nèi)容:a)標注任務(wù)分發(fā)類型:標注管理方應(yīng)根據(jù)標注任務(wù)要求的標注環(huán)境、標注工具,結(jié)合標注質(zhì)量管理以及標注速度管理,在保證標注質(zhì)量的前提下,選擇主動領(lǐng)取或系統(tǒng)自動分發(fā)等任務(wù)分發(fā)類型,優(yōu)化標注任務(wù)分發(fā)策略;b)標注任務(wù)分發(fā)保障:標注管理方應(yīng)制定標注任務(wù)分發(fā)安全管理制度,明確標注任務(wù)分發(fā)日志內(nèi)容,監(jiān)控標注任務(wù)分發(fā)安全。56.1.3標注任務(wù)開展標注任務(wù)開展主要包括以下內(nèi)容:a)標注任務(wù)分配:數(shù)據(jù)標注方應(yīng)安排數(shù)據(jù)標注人員使用分配的標注賬戶,對分配到的任務(wù)進行標注;b)標注過程反饋:數(shù)據(jù)標注方應(yīng)建立標注過程反饋機制,將與標注要求不符、標注要求中未涵蓋的數(shù)據(jù)等情況,及時反饋給標注管理方和數(shù)據(jù)需求方,確保標注規(guī)則與數(shù)據(jù)的匹配度;c)標注任務(wù)開展保障:數(shù)據(jù)標注方應(yīng)明確數(shù)據(jù)脫敏和個人信息安全影響評估制度,在標注前對個人信息進行數(shù)據(jù)脫敏處理,保障數(shù)據(jù)標注流程合法合規(guī)性,并對數(shù)據(jù)標注結(jié)果進行分級制度,適當提高數(shù)據(jù)安全等級。6.1.4標注任務(wù)回收在標注任務(wù)完成后,數(shù)據(jù)標注方的標注團隊負責(zé)人應(yīng)檢查標注數(shù)量,確保所有任務(wù)包均被回收,對未能及時完成的任務(wù)包,要建立適當?shù)臏贤ê突厥赵侔l(fā)放的管理機制,以確保標注任務(wù)按期完成,保證任務(wù)進度。6.2質(zhì)量保證6.2.1標注任務(wù)質(zhì)量檢查在標注過程中,應(yīng)采用多種檢查方法對標注任務(wù)質(zhì)量進行檢測,對不滿足標注任務(wù)要求的,及時預(yù)警反饋,并查明問題原因。根據(jù)項目特性,標注任務(wù)質(zhì)量檢查方法可歸納為以下三種。a)機器驗證:在任務(wù)進行期間,安排超過一名人員做同一個子任務(wù),選擇出最優(yōu)、最正確的標注結(jié)果。結(jié)果選擇可通過下列方式。1)標注工具自動選擇:通過與標注工具匹配的模型推理,或擬合若干個標注結(jié)果,選擇其中置信度最高的標注結(jié)果,作為最終結(jié)果;2)人工輔助選擇:人工對多個標注結(jié)果進行對比,從而挑選出置信度最高的標注結(jié)果作為最終結(jié)果。對于需要特定專業(yè)知識標注的領(lǐng)域,進行人工輔助標注時應(yīng)以多個專家的共同商議結(jié)果作為最終結(jié)果。b)埋題驗證:在任務(wù)進行期間,除了常規(guī)標注子任務(wù)外,在任務(wù)中混進若干已知結(jié)果的測試題,以此驗證標注質(zhì)量。在此操作的過程中注意以下事項。1)針對數(shù)據(jù)特征專題專用:對于埋題驗證,應(yīng)保障測試題在真題中間處于混淆的狀態(tài)。因此,在出題的過程中,應(yīng)針對數(shù)據(jù)的自身特征(數(shù)據(jù)的類別、場景、內(nèi)容等),準備相應(yīng)的題目,避免題目暴露于操作者,失去驗證的效果。2)限制題目的使用次數(shù):為避免題目多次出現(xiàn),引起被測者的注意,從而失去驗證效果,應(yīng)限制題目的使用次數(shù)。尤其是擁有容易記憶的特征點的題目(如特定臉部特征、特定文字、特定場景等),應(yīng)嚴格限制出現(xiàn)的次數(shù)。c)標注人員狀態(tài)驗證:通過對標注人員的操作規(guī)范性、實時注意力狀態(tài)、標注準確率等方面進行檢查與監(jiān)測,及時發(fā)現(xiàn)操作違規(guī)問題,保證數(shù)據(jù)質(zhì)量;在發(fā)現(xiàn)操作違規(guī)問題、數(shù)據(jù)質(zhì)量有下降時,應(yīng)根據(jù)時間段等特征,對標注人員在這一狀態(tài)內(nèi)操作的標注數(shù)據(jù)進行檢查或者返工等操作。6.2.2標注任務(wù)一致性檢查在標注任務(wù)進行期間應(yīng)使用統(tǒng)計規(guī)則或模型驗證等方法,得到標注任務(wù)一致性水平,一旦發(fā)現(xiàn)離群點或明顯的降低趨勢,及時對標注人員預(yù)警和警告。66.3管理機制6.3.1標注任務(wù)進度管理數(shù)據(jù)標注方應(yīng)定期與標注管理方同步數(shù)據(jù)標注任務(wù)工作進度。6.3.2標注任務(wù)風(fēng)險預(yù)估在標注任務(wù)進行過程中,數(shù)據(jù)標注方應(yīng)對標注人員是否能夠如期達到對應(yīng)的執(zhí)行進度進行預(yù)估和檢測,并針對可能存在的標注進度延誤風(fēng)險,對數(shù)據(jù)需求方、標注管理方進行適當?shù)奶崾?。任?wù)風(fēng)險預(yù)估和提醒的方法可分為以下兩類。a)收集和更新:在任務(wù)進行期間,對不同的時間節(jié)點,對標注人員任務(wù)完成時間的推測和預(yù)估進行定期收集、更新,匯總于系統(tǒng)上,并對其中有風(fēng)險的完成時間節(jié)點進行顯著的提醒。這種預(yù)估和提醒的方式,應(yīng)遵守以下規(guī)則。1)收集、更新任務(wù)完成的推測時間的時間節(jié)點:為了在標注的工作全流程中得到盡量準確的推測時間預(yù)估,同時也避免頻繁收集推測時間造成的效率損失,應(yīng)在任務(wù)未開始標注、開始分配并啟動標注時和距離標注結(jié)束較為接近時的節(jié)點,對推測的任務(wù)完成時間進行收2)判定任務(wù)完成風(fēng)險:在上述若干類時間節(jié)點收集到推測完成標注任務(wù)的時間節(jié)點之后,應(yīng)對收集到的標注人員上報的時間節(jié)點進行判定,從而推斷出標注任務(wù)當前的執(zhí)行是否存在逾期的風(fēng)險。對于是否有逾期風(fēng)險的判定,基本的判定規(guī)則是依據(jù)標注管理方扣除預(yù)估充裕的驗收、返工時間后給出的截止時間,將任務(wù)完成的推測時間與之進行對比。如果推測時間晚于該截止時間,則任務(wù)存在風(fēng)險,應(yīng)進行風(fēng)險的提醒。b)效率推測:在任務(wù)進行期間,根據(jù)任務(wù)當前的完成進度,以及投入的標注人員的人力、效率,進行標注效率的推測。效率的推測過程應(yīng)遵守以下規(guī)范。1)應(yīng)以天為單位,進行時間尺度上的效率推算。標注人員的工作時間并非全天候,在全日時間內(nèi)的分布并不均勻,主要集中在規(guī)定的上班時間,因此,對于標注效率的推算,宜以天為單位,能夠在若干天的項目周期內(nèi),得到更準確的產(chǎn)能預(yù)估。2)應(yīng)以標注人員整組的按天效率為粒度,進行工作能力上的推算。以完成任務(wù)的整一組標注人員為整體,進行整體任務(wù)效率的預(yù)估,有效屏蔽標注人員個體在效率上的差距,得到標注任務(wù)在推進上的總體效率,更有效地反映任務(wù)的推進速度。3)宜在每日結(jié)束的時間點,以天為單位對執(zhí)行風(fēng)險進行平均推算和提示。在每日結(jié)束的時間點,對當天的標注人員整組的按天效率進行計算,可通過歷史若干天的平均效率,以及當前剩余的數(shù)據(jù)量,推算出標注任務(wù)剩余的預(yù)估工作日數(shù)。若該日數(shù)已經(jīng)超過目前預(yù)計的截止時間,則認為任務(wù)有可能存在逾期的風(fēng)險,此時應(yīng)進行風(fēng)險的及時暴露和提醒。6.3.3標注任務(wù)風(fēng)險提醒在預(yù)估到標注任務(wù)可能存在風(fēng)險的情況下,數(shù)據(jù)標注方應(yīng)對風(fēng)險進行及時的暴露和提醒,從而使得數(shù)據(jù)需求方、標注管理方能及時對該逾期風(fēng)險進行處理。因此風(fēng)險的暴露和提醒應(yīng)足夠清晰,應(yīng)保障消息能夠觸達數(shù)據(jù)需求方、標注管理方。風(fēng)險預(yù)估的消息提醒應(yīng)包含如下信息,以助于數(shù)據(jù)需求方、標注管理方進行恰當?shù)那閯菖袛啵篴)標注任務(wù)的基本概況信息:包含足以識別面臨風(fēng)險的標注任務(wù)的信息,包括任務(wù)的名稱、需求b)執(zhí)行任務(wù)的標注人員:包含足以識別面臨風(fēng)險的標注人員或團隊的信息;7c)目前預(yù)估的完成時間;d)完成時間的預(yù)估途徑:通過何種途徑預(yù)估得到完成時間,包括且不限于上述兩種途徑(收集和刷新/效率推測);e)原本預(yù)計的截止時間。為了使得消息能夠及時傳遞到數(shù)據(jù)需求方、標注管理方,標注任務(wù)可能有風(fēng)險的消息內(nèi)容應(yīng)通過各類手段進行觸達,包括但不限于:a)電子郵件;b)告警短信;c)告警電話;d)應(yīng)用消息推送。7標注結(jié)果輸出7.1內(nèi)部質(zhì)檢7.1.1內(nèi)部質(zhì)檢要求數(shù)據(jù)標注方應(yīng)在完成數(shù)據(jù)標注,由內(nèi)部質(zhì)檢驗收合格后,提交給標注管理方。根據(jù)數(shù)據(jù)標注任務(wù)說明,合格的數(shù)據(jù)標注結(jié)果應(yīng)滿足:a)標注數(shù)據(jù)核驗滿足數(shù)據(jù)標注任務(wù)說明中的要求;b)數(shù)據(jù)質(zhì)量滿足數(shù)據(jù)標注任務(wù)說明中的要求。7.1.2標注數(shù)據(jù)任務(wù)核驗根據(jù)數(shù)據(jù)標注任務(wù)說明,數(shù)據(jù)標注方應(yīng)對標注數(shù)據(jù)格式、內(nèi)容進行合理性和正確性核驗,以確定其滿足標注要求。7.1.3標注數(shù)據(jù)質(zhì)量檢查標注數(shù)據(jù)質(zhì)量檢查能夠確保數(shù)據(jù)標注結(jié)果有價值,符合數(shù)據(jù)需求方的特定應(yīng)用目的。根據(jù)項目特性,質(zhì)量檢查方法可以歸納為以下幾種,標注項目負責(zé)人應(yīng)根據(jù)場景需求及項目特點進行選擇。a)逐條檢查:即對整個標注項目所包含的所有標注子任務(wù)逐一核查并確認。適用于項目量級不大、人力資源充沛、時間節(jié)點不緊張、對標注數(shù)據(jù)結(jié)果的準確率要求極高的標注項目。這種方法覆蓋的質(zhì)量檢查范圍最全,同時也適用于任何形式的數(shù)據(jù)標注場景。該方法可確保標注數(shù)據(jù)輸出的最高質(zhì)量,尤其對于數(shù)據(jù)格式主觀成分較多、應(yīng)用場景較復(fù)雜的任務(wù)更有效。b)按比例抽查:即從全部標注數(shù)據(jù)中科學(xué)地抽取樣本,對樣本中的數(shù)據(jù)逐條檢查,以此評判全部標注數(shù)據(jù)的質(zhì)量。樣本量的選擇應(yīng)符合統(tǒng)計學(xué)基本原理,足以代表全部標注數(shù)據(jù),例如在逐包分配進行標注的同時,可以確保每包均按一定比例進行抽查,以確保抽樣足夠均勻,足以代表總體結(jié)果。抽查審核時,項目負責(zé)人應(yīng)指定審核員完成,審核員應(yīng)明確標注的詳細執(zhí)行要c)抽樣檢驗:即從整個標注項目中隨機抽取少量標注子任務(wù)進行檢驗,據(jù)此判斷該標注項目是否合格。抽樣檢驗可分為簡單抽樣、系統(tǒng)抽樣和分層抽樣三種方式。d)機器驗證:通過機器學(xué)習(xí),包括使用已訓(xùn)練模型進行檢查或使用遷移學(xué)習(xí)、在線學(xué)習(xí)等方法對人工標注的數(shù)據(jù)做質(zhì)量檢查,實現(xiàn)全自動或輔助人工質(zhì)量檢查方式。機器學(xué)習(xí)方法輸出的準確率不能完全代表數(shù)據(jù)集的準確率,但能在一定程度上反映數(shù)據(jù)集的質(zhì)量。e)第三方驗證:醫(yī)學(xué)等專業(yè)領(lǐng)域,如需對標注結(jié)果進行第三方驗證的,應(yīng)由有資質(zhì)的第三方邀請有資質(zhì)和從業(yè)經(jīng)驗的專家進行驗證,從而確保標注結(jié)果的質(zhì)量。87.1.4標注數(shù)據(jù)質(zhì)量檢查設(shè)定在質(zhì)量檢查過程中,為了防止一次性不合格數(shù)據(jù)積壓過多而導(dǎo)致延誤交付,同時防止檢查過于碎片化、零散

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論