《電力人工智能平臺樣本標準規(guī)范》(征求意見稿)_第1頁
《電力人工智能平臺樣本標準規(guī)范》(征求意見稿)_第2頁
《電力人工智能平臺樣本標準規(guī)范》(征求意見稿)_第3頁
《電力人工智能平臺樣本標準規(guī)范》(征求意見稿)_第4頁
《電力人工智能平臺樣本標準規(guī)范》(征求意見稿)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS號

中國標準文獻分類號T/CESXXX?XXXX

CES

團體標準

T/CESXXX?XXXX

電力人工智能平臺樣本規(guī)范

Samplespecificationofelectricartificialintelligenceplatform

(征求意見稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

1

T/CESXXX?XXXX

電力人工智能平臺樣本規(guī)范

1范圍

本文件規(guī)定了人工智能樣本的基本要求、標注要求、標注流程,其中人工智能樣本類型

包括圖像視頻、語音和文本。

本部分適用于人工智能平臺樣本庫的規(guī)劃、設計、開發(fā)、建設和運維。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適

用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T5271.28-2001信息技術詞匯第28部分;人工智能基本概念與專家系統(tǒng)

T/CESA1040-2019信息技術人工智能面向機器學習的數據標注規(guī)程

GB/T13715—92信息處理用現(xiàn)代漢語分詞規(guī)范

GB/T5271.29—2006/ISO/IEC2382-29:1999信息技術詞匯規(guī)范:第29部分人工智能

語音識別與合成

3術語和定

下列術語和定義適用于本文件。

3.1人工智能artificialintelligence

一門交叉學科,是自動化和計算機兩大學派,研究表現(xiàn)出與人類智能(如推理和學習)

相關的各種功能的模型和系統(tǒng)。

[GB/T5271.28—2001,定義28.01.01]

3.2樣本數據sampledata

其具備的特征能夠反映總體數據情況的一部分個體數據。

[Q/GDW12118.1—2021,定義3.5]

3.3標注corpusannotation

采用人工或計算機自動方式對樣本的屬性或特征進行描述。

[Q/GDW1906—2013,定義3.5]

3.4圖像分辨率resolution

圖像分辨率指圖像中存儲的信息量,是每英寸圖像內有多少個像素點,分辨率的單位為

PPI(PixelsPerInch),通常叫做像素每英寸。

[Q/GDW12118.3—2021,定義3.1]

3.5視頻碼率videocoderate

數據傳輸時單位時間傳送的數據位數,單位時間內取樣率越大,精度就越高,處理出來

的文件就越接近原始文件。(采用“注”的形式)

5

T/CESXXX?XXXX

3.6采樣率samplerate

錄音設備在一秒鐘內對聲音信號的采樣次數,采樣頻率越高聲音的還原就越真實越自

然。本文件中除非說明,采樣率為音頻采樣率。目前語音識別服務支持16000赫茲和8000

赫茲兩種采樣率,其中電話業(yè)務一般使用8000赫茲,其余業(yè)務使用16000赫茲。(采用“注”

的形式)

3.7無效音invalidvoice

無實際使用價值的音頻。包括音頻中只存在背景噪聲或者音樂,或背景噪聲和音樂聲音

過大影響識別說話內容;語音為與普通話相差較大的方言或唱歌;語音只存在語氣詞,以及

無意義詞。例如:嗯、呃、啊、好、對、是的等;語音過小或者發(fā)音模糊,無法確定語音內

容。

3.8標簽label

標識數據的特征、類別和屬性等內容,可用于建立數據及深度學習訓練要求所定義的機

器可讀數據編碼間的聯(lián)系。

[T/CESA1040-2019定義3.2]

3.9發(fā)音utterance

用戶輸入的一個語音單詞,可以是詞、短語或者句子。語音單元之間需有有意、明顯停

頓。

[GB/T13715-92,定義3.5]

4縮略語

下列縮略語適用于本文件。

BIOES:BIOES標注模式(B-begin,I-inside,O-outside,E-end,S-single)

COCO:上下文中公共對象(CommonObjectsinContext)

JPEG:聯(lián)合圖像專家組(JointPhotographicExpertsGroup)

Json:JS對象簡譜(JavaScriptObjectNotation)

PCM:脈沖編碼調制(PulseCodeModulation)

PNG:便攜式網絡圖型(PortableNetworkGraphics)

VOC:視覺對象類(VisualObjectClasses)

XML:可擴展的標記語言(ExtensibleMarkupLanguage)

RAW:原始音像資料(RawSoundData)

5樣本基本要求

本文件制定規(guī)范了人工智能圖像(含視頻)、語音、文本類樣本數據基本要求、樣本標

注要求和樣本標注流程,樣本標注后匯總到電力人工智能平臺中進行管理。

5.1圖像(含視頻)類樣本基本要求

5.1.1圖像(含視頻)文件存儲格式要求

6

T/CESXXX?XXXX

圖像文件常用的存儲格式應該以jpg、jpeg、png常用格式,視頻文件常用的存儲格式應

該以mp4常用格式。

根據業(yè)務需求對視頻文件進行部分截取時,截取的圖片存儲格式應該為jpg、jpeg、png

常用格式。

5.1.2圖像(含視頻)文件命名要求

圖像樣本名稱應有:項目命名詞或圖像來源;當前圖像(視頻)專業(yè)信息;當前文件的

日期,日期格式:年+月+日;文件唯一性編號,從1開始計數等部分組成。

視頻樣本根據業(yè)務需求需對其部分幀進行截取時,截取圖像名稱應由:源視頻樣本名稱;

文件唯一性編號,從1開始計數,兩個部分組成。

5.1.3圖像(含視頻)類樣本質量要求

圖像視頻的樣本質量按照分辨率應滿足:圖像樣本與視頻抽幀樣本分辨率應為

1920*1080像素及以上,識別主題內容應不少于15*15像素要求。識別主題內容邊緣清晰,

無嚴重重影、遮擋范圍不超過主題三分之二;

視頻樣本碼率應滿足:視頻包含業(yè)務相關內容,流暢、清晰,滿足編解碼格式需求。分

辨率-碼率宜為1920*1080像素-5Mb/s;

樣本目標物體的完整性:目標區(qū)域在整個圖像樣本中的占比應不低于40%。

5.1.4圖像(含視頻)樣本詳細描述要求

樣本集描述文件存儲格式應為txt格式;命名應有項目命名詞或樣本來源、本文件創(chuàng)建

的日期,日期格式:年+月+日、文件唯一性編號,從1開始計數,三個部分組成;文檔內容

應描述本樣本集的基本信息,應包括樣本所屬項目、樣本來源、創(chuàng)建日期、樣本上傳單位及

聯(lián)系人、樣本量、樣本用途等信息,具體內容格式參考附錄A.1。

5.1.5圖像(含視頻)標注要求

標簽信息要求

1)整個樣本集中同一類目標物體的標簽信息命名應保持一致;

2)輸電圖像樣本添加標簽信息應包括:輸電區(qū)域名稱、線路名稱、電壓等級、桿塔號、

巡檢時間、巡檢人員、缺陷內容等信息;

3)變電圖像樣本添加標簽信息應包括:變電區(qū)域名稱、變電站名稱、設備名稱、電壓

等級、巡檢時間、巡檢人員、缺陷內容等信息;

4)配電圖像樣本添加標簽信息應包括:配電區(qū)域名稱、線路名稱、電壓等級、桿塔號、

巡檢時間、巡檢人員、違規(guī)原因等信息;

5)其他圖像樣本添加標簽信息應包括:創(chuàng)建時間、創(chuàng)建者、圖像用途等信息。

樣本標注規(guī)則

視頻樣本無其他標注要求,主要對截取的圖像樣本按照圖像標注的要求進行標注即可。

圖像樣本標注規(guī)則應按照:

1)圖像中所有目標物體應全部標注;

2)采用最小標注框對目標物體進行標注;

3)目標物體前端遮擋不宜超過2/3,若目標物體存在過大比例(大于2/3)的遮擋情況,

應進行目標物體輪廓標注后,對被遮擋的目標物體添加“遮擋”標簽;

4)標注時使用COCO或VOC格式存儲標注內容;

7

T/CESXXX?XXXX

5)圖像分類標注,同一類圖像應使用相同的分類名;

6)使用矩形框對圖像樣本進行標注時,目標物體應全包含在標注框內,除非目標物體

有過于細長伸出的部位(伸出部分占像素比例小于5%)、矩形框應將目標物體全

部包括,矩形框邊緣與目標物體的距離應小于矩形框邊長的3%;

7)使用邊界框對圖像樣本進行標注時,邊界框應將目標物體全部包括,邊界框邊緣與

目標物體的距離應小于邊界框邊長的3%;

8)使用旋轉矩形框對圖像樣本進行標注時,標注信息內容應包含矩形框中心點坐標、

寬、高和沿垂直方向順時針旋轉的角度、旋轉角度應采用弧度制,同一批數據集標

注時應采用同一種旋轉方式。對于規(guī)則的目標物體,旋轉方向宜盡量與設備軸向方

向保持一致,標注方向與目標物體軸向方向的角度偏差不宜超過5%等。

標注記錄文件命名與存儲規(guī)則

標注文件應與對應標注圖像命名一致,應保存為xml或Json等常見格式文件,存儲于指

定位置標注數據文件夾內。該文件記錄信息應包含對應圖像(含視頻)的基本信息、目標設

備基本信息、缺陷情況信息等。

5.2語音類樣本基本要求

5.2.1語音文件存儲格式要求

語音文件存儲格式應為:mp3、pcm、raw等常見格式。

5.2.2語音文件命名要求

每個省份應以省名稱每個字的拼音首字母編號,發(fā)音人性別應用英文female和male

的英文首字母F、M編號,設備類別應用英文首字母編號。

5.2.3語音類樣本質量要求

語音樣本質量應按照:

1)錄音環(huán)境應選擇安靜、無噪音干擾的環(huán)境;

2)不得有文字錯誤,有一個或一個以上,該條語音就不達標;

3)整段語音語速應保持在150-200音節(jié)/分鐘;

4)語音主體內容必須能有效辨識,語音分貝應不低于25分貝;

5)語音樣本無效音占總樣本語句應不超過40%等要求內容。

5.2.4語音樣本描述文件

語音樣本描述文件應包含:描述文件記錄聲源的信息、描述文件記錄語音樣本的信息等

兩個文件。

1)記錄聲源信息的描述文件命名為:語音文件名+聲源信息.txt,內容應包含:聲源信

息、系統(tǒng)信息。

2)記錄語音樣本信息的描述文件命名為:語音文件名+Info.txt,內容應包含:標注規(guī)

范、料庫名、錄音文件夾編號、錄音日期、錄音時間點、錄音格式、通道數、發(fā)音

人ID、錄音地點、環(huán)境信息等信息。

5.2.5語音類樣本標注要求

8

T/CESXXX?XXXX

語音切分要求

長語音需要切分成小分句應按照:

1)通過時長作為語音的切分依據;

2)切分點應落在說話停頓處;

3)切分點應位于音頻波形有明顯靜音段的地方;

4)每個切分后的小分句語音,應在5秒至6秒之間。

語音標注規(guī)則

語音類樣本標注應按照:

1)標注語音文本時,內容應和聽到的語音完全一致,不可多字、少字、錯字。對于感

嘆、停頓的詞(例如“嗯”、“啊”、“呃”等)應標注對應的漢字。存在口誤、

結巴、不流利的內容應完整地標注對應的漢字;

2)對于語音中出現(xiàn)的阿拉伯數字應寫成漢字形式;

3)標注中應只含有中文、英文以及英文中特殊符號;

4)在語音轉寫內容的完整性應與實際發(fā)音一致,不可刪減。語音中聽不清的詞應用“*”

替代,但在一段語音中出現(xiàn)“*”的概率不可高于5%;

5)對于有口音的詞組時,應按照普通話的相應詞組來標注;

6)標注文本應由語音對應時間戳和標注內容兩部分構成,用半角冒號隔開(:)隔開。

標注文件內容格式:“音頻語句開始時間戳-音頻語句結束時間戳:標注文本內容”。

例:“00:02:35-00:02:40:查一下我的定期存款什么時候到期”。

標注記錄文件命名與存儲規(guī)則

標注文件應和對應的標注語音文件命名一致,應保存為txt格式。

5.3文本類樣本基本要求

5.3.1文本文件存儲格式要求

文本數據存儲格式應采用txt、csv、Json、xls、xlsx、xml等常見格式。

5.3.2文本文件命名要求

文本文件名稱應由:第一部分為項目命名詞或文本來源;第二部分為當前文本文件的專

業(yè)信息;第三部分為當前文本文件的日期,日期格式:年+月+日;第四部分為文件唯一性編

號,從1開始計數等組合而成。

5.3.3文本類樣本質量要求

文本類樣本質量應按照:

1)需支持計算機正常讀取,文本內容無亂碼;

2)內容要滿足相關業(yè)務需求;

3)應該使用UTF-8編碼格式。

5.3.4文本樣本描述文件

文本樣本集的描述文件應按照:

1)文本存儲格式應為txt格式;

9

T/CESXXX?XXXX

2)命名應由:項目命名詞或樣本來源;本文件創(chuàng)建的日期,日期格式:年+月+日;文

件唯一性編號,從1開始計數等三個部分組成。

3)文檔內容應描述文本樣本集的基本信息,包括樣本所屬項目、樣本來源、創(chuàng)建日期、

樣本上傳單位及聯(lián)系人、樣本量、樣本用途等多樣信息,具體內容格式參考附錄

A.1。

5.3.5文本類樣本標注要求

基本要求

應按照標注對象范圍、標注方式、標注文件命名要求。

1)文本類樣本標注應包括詞、句子、整個文本等不同規(guī)范的標注;

2)文本類樣本標注應有序列標注、指針標注、多頭標注等多種標注形式;

3)對于序列標注時,應采用B、I、E、O、S等標簽列表,應采用BIO、BIOES標簽方案

進行標注。

單類詞詞性標注要求

在標注時針對單類詞應按照《語法信息詞典》確定其詞性。

多類詞詞性標注要求

在標注時針對多類詞,應按照n-q、a-v、v-b、p-v、p-c等多種規(guī)則多類詞對其標注,

詳細規(guī)則見附錄A.2。

實體抽取樣本標注要求

實體抽取樣本標注須符合:定義實體語義類型,包含實體名稱與層次結構,需在樣本標

注前進行;如果實體內存在屬性,應定義屬性名稱與屬性值。

標注記錄文件命名與存儲規(guī)則

標注文件應由:與對應標注文本命名一致、為“-bz”,應保存為txt格式這兩部分組成。

6樣本標注流程

樣本標注流程有:樣本檢查、標注工具選擇、標注任務開展、標注結果收集和標注結果

檢查等環(huán)節(jié)。

6.1樣本檢查

樣本標注時,需提前按照樣本基本要求對需要標注的樣本集進行檢查,可根據樣本數量

或業(yè)務需求進行全面檢查或隨機抽查。

1)全面檢查:需要對指定的樣本集范圍內的所有樣本數據進行逐條檢查。

2)隨機抽查:可按照隨機抽樣和分類抽樣。隨機抽樣指針對不同的業(yè)務類型樣本數據

進行隨機檢查。分類抽樣指針對同一個業(yè)務類型的樣本數據,根據類型進行分類檢

查。

6.2標注工具

應使用電力人工智能平臺標注工具或與其格式相兼容的標注工具進行標注。

6.3標注任務開展

10

T/CESXXX?XXXX

需根據標注任務的難易程度和業(yè)務需求來選擇半自動化標注和人工標注等兩種方式。

1)半自動化標注:應按照樣本構建、模型構建、批量標注順序執(zhí)行。

a)樣本構建:從需要標注的樣本中抽取測試樣本和訓練樣本,應采用隨機抽查或

分類抽查方法,測試樣本和訓練樣本占樣本總量的比例需高與1%,測試樣本

和訓練樣本的比例可為3:7,測試樣本和訓練樣本無交集。

b)模型構建:采用標注后的訓練樣本建立標注模型;采用標注后的測試樣本測試

標注模型。評估模型性能時,可采用召回率、精確率指標進行評估性能。

c)批量標注:使用標注模型批量執(zhí)行標注任務。

2)人工標注:應按照試標注、批量標注順序執(zhí)行。

a)試標注:抽取試標注樣本,從需要標注的樣本中,可使用隨機抽查或分類抽查

的方法,抽取比例需高于待標注樣本總量的1%;

b)批量標注:標注人員批量執(zhí)行標注任務。

6.4樣本標注結果收集

1)為防止文件外泄,由統(tǒng)一的人員進行樣本標注結果的回收和存放;

2)為防止文件遺漏,標注結果的(包括任務名稱、任務類型、任務開始時間、任務結

束時間、任務描述)等相關信息,應由對應的收集人員進行檢查。

3)由標注結果收集人員進行分類保存至電力人工智能平臺中,應按照樣本類型(圖像

視頻,語音和文字)和標注方式(圖像標注包括圖像分類、圖像目標檢測、圖像分

割;文本標注包括文本分類、文本標注;音頻標注包括音頻分類、音頻標注)。

6.5樣本標注結果檢查

應按照樣本標注要求對收集的樣本標注結果進行檢查,可根據樣本標注和業(yè)務需求的數

量,進行全量檢查或抽樣檢查。

1)對指定范圍內的所有樣本進行逐條檢查為全量檢查。

2)可用隨機抽查和分類抽查的方式為抽樣檢查??砂凑针S機抽樣和分類抽樣。隨機抽

樣指針對不同的業(yè)務類型樣本數據進行隨機檢查。分類抽樣指針對同一個業(yè)務類型

的樣本數據,根據類型進行分類檢查。

附錄A

表A.1圖像視頻樣本描述文件內容要求

條目內容要求示例

說明本批次樣本收集工作所屬的項目樣本所屬項目:屬于xxx項目/無項目依

樣本所屬項目

情況,若無項目則填無項目依托托;

說明本批次樣本采集來源的地區(qū)及業(yè)樣本來源:來源于甘肅地區(qū)輸電線路巡檢

樣本來源

務領域業(yè)務中均壓環(huán)、絕緣子設備;

創(chuàng)建日期指本批次樣本收集完成的日期創(chuàng)建日期:2021-8-29;

樣本上傳單位及聯(lián)系人:中國電科院-張

樣本上傳單位及聯(lián)說明本批次樣本上傳的單位以及聯(lián)系

三;電話:139xxxx0000;郵箱:

系人xxx@;

樣本量:圖像樣本:300張;視頻樣本:

樣本量說明本批次樣本數量

20個,總時長5h20min18s;

說明本批次樣本的用途,包括目前已經

樣本用途樣本用途:可用于輸電線路巡檢業(yè)務;

用于的業(yè)務以及將來可能用于的業(yè)務

11

T/CESXXX?XXXX

表A.2多種多類詞標注規(guī)則

詞性類別標注規(guī)則實例

數詞+n-q+n,應為量詞q

一/m車/q煤/n

漢語中部分名詞臨時做量詞且只

能前接數詞“一”,應標為量詞q做/v了/u一/m菜/q

名詞n-量詞q多類

“這”“那”“每”等指示代詞+

這/r床/q被子/n

n-q+n,應標為量詞q類

其他情況,應標為名詞n類上/v車/n

該詞表示一種動作時,后面帶真賓

編輯/v科技/n文獻/n

語,應標為動詞v類

該詞直接作主語或謂賓動詞的賓我們/n來/v的/u目的/n

語,應標為動詞v類就是/v考察/v

該詞指稱人或物時,應標為名詞n忘/v了/u買/v一/m把/q

類鎖/n

該詞作特殊動詞“有”的賓語,應領導/n對/p這/r件/q

標為名詞n類事/n有/v考慮/n

動詞v-名詞n多類

該詞充當了形式動詞或其他準謂

進行/v一/m次/q深入/a的/u

賓動詞的準謂詞性賓語,應標為名

考察/n

詞n類

該詞直接充當體詞性短語的中心

加以/v整理/n

語,應標為名詞n類

該詞不加助詞“的”,直接充當體

這個/r研究/n思路/n

詞性短語的修飾語,應標為名詞n

很/d新穎/a

單獨做謂語,應標為動詞v類他/r諷刺/d說/v

動詞v-副詞d多類該詞后加“地”作狀語,應標為動

主任/n強調/v地/u指出/v

詞v類

你/r在/v不/d在/v

單獨做謂語,應標為動詞v類

家/n?/w

介詞p-動詞v多類

從/p東/F到/p西/f共/d

狀語或補語,應標為介詞p類

長/a30/m米/q

12

T/CESXXX?XXXX

表A.2(續(xù))

詞性類別標注規(guī)則實例

該詞前后成分不能互換位置或者

在該詞的前面可以加修飾成分,應你/r別/d跟/p他/r跑/v

標為介詞p類

介詞p-連詞c多類

該詞前后成分可以互換位置且在

我/r跟/c他/r都/d是/v

該詞的前面不能有修飾成分,應標

大學生/n

為連詞c類

但/d見/v門上/s貼/v

該詞在句子中修飾形容詞、動詞,

著/u一/m副/q對聯(lián)/n

應標注為副詞d類

。/w

連詞c-副詞d多類

該詞主要連接句子和子句,表示子我/r受/v了/u點/q

句之間轉折、讓步等語義組合關傷/Ng,/w不過/c不/d

系,應標注為連詞c類要緊/a

該詞在句子中帶了真賓語,應標為他/r跟/p她/r沒/d紅/v

動詞v類過/u臉/n

該詞受“很”一類程度副詞修飾,

這/r花/n很/d紅/a

形容詞a-動詞v多應標為形容詞a類

類該詞修飾名詞作定語,應標為形容

繁榮/a的/u景象/n

詞a類

該詞作動詞的補語,應標為形容詞

放/v明白/a一些/m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論