![《移動(dòng)端智能交互訓(xùn)練語(yǔ)料基本要求與規(guī)范》_第1頁(yè)](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE524.jpg)
![《移動(dòng)端智能交互訓(xùn)練語(yǔ)料基本要求與規(guī)范》_第2頁(yè)](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5242.jpg)
![《移動(dòng)端智能交互訓(xùn)練語(yǔ)料基本要求與規(guī)范》_第3頁(yè)](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5243.jpg)
![《移動(dòng)端智能交互訓(xùn)練語(yǔ)料基本要求與規(guī)范》_第4頁(yè)](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5244.jpg)
![《移動(dòng)端智能交互訓(xùn)練語(yǔ)料基本要求與規(guī)范》_第5頁(yè)](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5245.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
35.240.99
L70
CEST/CXXX
團(tuán)體標(biāo)準(zhǔn)
T/CESXXX-XXXX
移動(dòng)端智能交互訓(xùn)練語(yǔ)料基本要求與
規(guī)范
Basicrequirementsand
specificationsofmobileterminal
intelligentinteractivetraining
corpus
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
Ⅱ
T/CESXXXXXXX
-
1范圍
本標(biāo)準(zhǔn)規(guī)定了移動(dòng)端智能交互訓(xùn)練時(shí)自然語(yǔ)言處理樣本(對(duì)話機(jī)器人交互文本意圖識(shí)別
樣本)的基本要求、標(biāo)注要求和標(biāo)注流程。
本標(biāo)準(zhǔn)適用于各單位進(jìn)行移動(dòng)端智能交互訓(xùn)練模型開發(fā)時(shí)樣本標(biāo)注和樣本入庫(kù)的統(tǒng)一
管理,包括樣本的質(zhì)量管控、樣本標(biāo)注的技術(shù)要求和流程管控。
2規(guī)范性引用文件
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T1.1-2009標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫
GB/T5271.28—2001信息技術(shù)詞匯第28部分;人工智能基本概念與專家系統(tǒng)
ZYF001-2018語(yǔ)料庫(kù)通用技術(shù)規(guī)范
T/CESA1040—2019信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程
Q/GDW1560.1—2014輸電線路圖像/視頻監(jiān)控裝置技術(shù)規(guī)范第1部分:圖像監(jiān)控裝置
Q/GDW1906—2013輸變電一次設(shè)備缺陷分類標(biāo)準(zhǔn)
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
3.1
人工智能artificialintelligence
一門交叉學(xué)科,通常視為計(jì)算機(jī)科學(xué)的分支,研究表現(xiàn)出與人類智能(如推理和學(xué)習(xí))
相關(guān)的各種功能的模型和系統(tǒng)。
3.2
自然語(yǔ)言處理naturallanguageprocess
是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)
言進(jìn)行有效通信的各種理論和方法。
1
T/CESXXXXXXX
-
3.3
樣本數(shù)據(jù)sampledata:[Q/GDW12118.1—2021,定義3.5]
其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個(gè)體數(shù)據(jù)。
3.4
標(biāo)注corpusannotation:[Q/GDW1906—2013,定義3.5]
采用人工或計(jì)算機(jī)自動(dòng)方式對(duì)樣本的屬性或特征進(jìn)行描述,可用于實(shí)用的目的,如客戶
服務(wù)或資訊獲取等。
3.5
標(biāo)簽label:[T/CESA1040—2019定義3.2]
標(biāo)識(shí)數(shù)據(jù)的特征、類別和屬性等內(nèi)容,可用于建立數(shù)據(jù)及深度學(xué)習(xí)訓(xùn)練要求所定義的機(jī)
器可讀數(shù)據(jù)編碼間的聯(lián)系。
3.6
智能交互intelligentinteraction
智能交互一般指智能語(yǔ)音交互。智能語(yǔ)音交互是基于語(yǔ)音輸入的新一代交互模式,通
過(guò)說(shuō)話就可以得到反饋結(jié)果。
3.7
語(yǔ)料corpus
即語(yǔ)言材料,是語(yǔ)言學(xué)研究的內(nèi)容,也是構(gòu)成語(yǔ)料庫(kù)的基本單元。
3.8
語(yǔ)料庫(kù)corpora
語(yǔ)料庫(kù)指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫(kù),其中存放的是在語(yǔ)言的實(shí)際使用中真
實(shí)出現(xiàn)過(guò)的語(yǔ)言材料。
2
T/CESXXXXXXX
-
3.9
意圖intent
用戶表達(dá)的句子希望達(dá)到某種目的打算。
3.10
槽位slot
在用戶表達(dá)意圖的句子中,用來(lái)準(zhǔn)確表達(dá)該意圖的關(guān)鍵信息的標(biāo)識(shí)。
3.11
標(biāo)注工具annotationtool:[T/CESA1040—2019定義3.5]
標(biāo)注人員執(zhí)行標(biāo)注任務(wù)生成標(biāo)注結(jié)果的過(guò)程中使用的工具和軟件。標(biāo)注工具按照自動(dòng)化
程度分手動(dòng)、半自動(dòng)和自動(dòng)三種。
3.12
半自動(dòng)化標(biāo)注semi-automaticannotation
基于少量人工標(biāo)注、機(jī)器預(yù)標(biāo)注來(lái)訓(xùn)練標(biāo)注模型,用于批量標(biāo)注樣本數(shù)據(jù)的半人工智能
標(biāo)注方法。
3.13
特色語(yǔ)種speciallanguage
漢語(yǔ)普通話外的其他語(yǔ)種。
4縮略語(yǔ)
下列縮略語(yǔ)適用于本文件。
BIOES:BIOES標(biāo)注模式(B-begin,I-inside,O-outside,E-end,S-single)屬于序列標(biāo)注模
式之一,其中B-begin表示標(biāo)注元素的開頭,I-inside表示標(biāo)注元素的中間或結(jié)尾,O-outside
表示不屬于待標(biāo)注內(nèi)容,E-end表示標(biāo)注元素的結(jié)尾,S-single表示單個(gè)字符且本身就是一
個(gè)標(biāo)注元素。
BIO:BIO標(biāo)注模式(B-begin,I-inside,O-outside)屬于序列標(biāo)注模式之一,其中B-begin
表示標(biāo)注元素的開頭,I-inside表示標(biāo)注元素的中間或結(jié)尾,O-outside表示不屬于待標(biāo)注內(nèi)
3
T/CESXXXXXXX
-
容。
JSON:JavaScript對(duì)象表示法(JavaScriptObjectNotation),是一種輕量級(jí)的文本數(shù)據(jù)交
換格式
5總則
本文件共分為樣本基本要求、樣本標(biāo)注要求、樣本標(biāo)注流程三部分,具體內(nèi)容組織框架
見圖1:
圖1組織框架
6文本類樣本基本要求
6.1文本文件存儲(chǔ)格式要求
文本樣本數(shù)據(jù)應(yīng)采用txt、csv、Json、xlsx、xls、xml存儲(chǔ)格式。
6.2文本文件命名要求
文本文件名稱應(yīng)由四個(gè)部分組成:
a)第一部分為項(xiàng)目命名詞或文本來(lái)源;
b)第二部分為當(dāng)前文本文件的專業(yè)信息;
c)第三部分為原始源文件生成時(shí)的日期,日期格式:YYYY-MM-DD;
4
T/CESXXXXXXX
-
d)第四部分為文件唯一性編號(hào),從1開始計(jì)數(shù);
e)這四部分用下劃線連接,且文件名稱長(zhǎng)度和擴(kuò)展名在內(nèi)最大長(zhǎng)度不超過(guò)100個(gè)字符
(包含中英文字符和特殊字符);
f)文件命名舉例:××項(xiàng)目_酒店預(yù)訂語(yǔ)料_2022-06-08_1。
6.3文本類樣本質(zhì)量要求
文本類樣本質(zhì)量應(yīng)滿足下述要求:
a)應(yīng)支持計(jì)算機(jī)正常讀取,文本內(nèi)容無(wú)亂碼;
b)內(nèi)容應(yīng)滿足相關(guān)業(yè)務(wù)需求;
c)應(yīng)使用UTF-8編碼。
6.4文本樣本描述文件
每批次文本樣本集應(yīng)有一個(gè)描述文件,應(yīng)滿足下述要求:
a)存儲(chǔ)格式應(yīng)為txt格式;
b)命名應(yīng)由三個(gè)部分組成:
1)項(xiàng)目命名詞或樣本來(lái)源;
2)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;
3)文件唯一性編號(hào),從1開始計(jì)數(shù);
4)文件名的各部分用下劃線連接,文件命名示例:××項(xiàng)目_2022-06-08_1。
c)文檔內(nèi)容應(yīng)描述本樣本集的基本信息,應(yīng)包括樣本所屬項(xiàng)目、樣本來(lái)源、創(chuàng)建日期、
聯(lián)系人、樣本標(biāo)注信息、標(biāo)注格式、樣本用途等信息。
7文本類樣本標(biāo)注要求
7.1基本要求
應(yīng)滿足標(biāo)注對(duì)象范圍、標(biāo)注方式、標(biāo)注文件命名要求。具體要求包括:
a)文本語(yǔ)料樣本標(biāo)注應(yīng)支持意圖、槽位等信息的標(biāo)注;
b)文本語(yǔ)料樣本標(biāo)注應(yīng)支持序列標(biāo)注、指針標(biāo)注等多種標(biāo)注方式;
c)標(biāo)注可通過(guò)線上標(biāo)注(樣本+標(biāo)注平臺(tái))和線下標(biāo)注(線下小工具和線下文本txt、csv、
Json)實(shí)現(xiàn);
d)序列標(biāo)注應(yīng)采用B、I、E、O、S標(biāo)簽列表,宜采用BIO、BIOES標(biāo)簽方案進(jìn)行標(biāo)
注;
5
T/CESXXXXXXX
-
f)已完成標(biāo)注的文本文件應(yīng)按照規(guī)定的命名格式命名。
7.2意圖標(biāo)注要求
樣本意圖標(biāo)注應(yīng)滿足下述要求:
a)樣本標(biāo)注前應(yīng)確定意圖類別數(shù)和意圖類別名稱;
b)樣本意圖類型的確定需要結(jié)合具體的應(yīng)用場(chǎng)景和待標(biāo)注樣本數(shù)據(jù);
c)若一條樣本可標(biāo)注為多個(gè)意圖類別時(shí),應(yīng)根據(jù)應(yīng)用場(chǎng)景將該樣本標(biāo)注為一個(gè)可能性最
大的意圖類別,必要時(shí)可由多位標(biāo)注人員共同確定待標(biāo)注樣本的意圖類別;
d)每條語(yǔ)料樣本都應(yīng)標(biāo)注出其意圖類別,若一條語(yǔ)料意圖不屬于已定義的意圖中的任何
一類則可將該語(yǔ)料刪除,或者新增一個(gè)意圖類別以將語(yǔ)料樣本中不屬于已定義意圖類別的語(yǔ)
料樣本均歸類于該意圖類別;
e)標(biāo)注時(shí)應(yīng)做到準(zhǔn)確標(biāo)注意圖類別;
f)應(yīng)用場(chǎng)景如:新增日程、查詢?nèi)粘?/p>
7.3槽位標(biāo)注要求
樣本槽位標(biāo)注應(yīng)滿足下述要求:
a)樣本標(biāo)注前應(yīng)定義槽位的類別數(shù)和類別名稱;
b)一條待標(biāo)注樣本中有可能存在多個(gè)槽位,應(yīng)標(biāo)出所有的槽位信息;
c)一條樣本中可能不存在槽位信息,應(yīng)允許槽位信息為空;
d)樣本中的槽位信息可能存在重疊,對(duì)存在重疊的槽位信息是否標(biāo)注以及怎樣標(biāo)注需
要根據(jù)具體情況確定;
e)標(biāo)注槽位信息要準(zhǔn)確、全面;
f)應(yīng)用場(chǎng)景如:“定一個(gè)早上九點(diǎn)在北京評(píng)審的日程”,需要標(biāo)注的槽位信息為:“早上
九點(diǎn)”、“北京”、“評(píng)審”,標(biāo)注結(jié)果:“定一個(gè)[早上九點(diǎn)](TIME)在[北京](address)[評(píng)審](Theme)
的日程”。
7.4標(biāo)注文件命名與存儲(chǔ)要求
標(biāo)注文件應(yīng)由兩部分組成,第一部分與對(duì)應(yīng)標(biāo)注文本命名一致,第二部分為“-bz”,應(yīng)
保存為txt等滿足應(yīng)用需求的格式,具體如:××項(xiàng)目_酒店預(yù)訂語(yǔ)料_2022-06-08_1-bz。
6
T/CESXXXXXXX
-
8樣本標(biāo)注流程
8.1總體要求
樣本標(biāo)注應(yīng)包含語(yǔ)料樣本獲取、語(yǔ)料樣本檢查、安全管控、標(biāo)注工具選擇、語(yǔ)料樣本標(biāo)
注、標(biāo)注結(jié)果收集和標(biāo)注結(jié)果核查等環(huán)節(jié),具體如圖所示:
圖2樣本標(biāo)注流程
8.2樣本獲取
根據(jù)應(yīng)用場(chǎng)景搜集整理相關(guān)語(yǔ)料樣本數(shù)據(jù),并按照第6章內(nèi)容樣本文件進(jìn)行樣本文件命
名、創(chuàng)建樣本描述文件等操作。
8.3樣本檢查
在樣本標(biāo)注前應(yīng)按照本文第6章要求對(duì)待標(biāo)注樣本進(jìn)行檢查,應(yīng)根據(jù)業(yè)務(wù)需求和樣本的
數(shù)量采用全量檢查或抽樣檢查,方式如下:
a)全量檢查應(yīng)對(duì)指定范圍內(nèi)的所有樣本進(jìn)行逐條檢查;
b)抽樣檢查可采用隨機(jī)抽樣或分層抽樣,方式如下:
1)隨機(jī)抽樣,即:針對(duì)不同業(yè)務(wù)類型的數(shù)據(jù)樣本采用隨機(jī)抽樣進(jìn)行檢查;
2)分層抽樣,即:針對(duì)同一業(yè)務(wù)類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽
樣的方式進(jìn)行檢查。
7
T/CESXXXXXXX
-
8.4安全管控
應(yīng)滿足對(duì)標(biāo)注環(huán)境及標(biāo)注人員的安全管控要求。具體要求包括:
a)標(biāo)注過(guò)程應(yīng)在內(nèi)網(wǎng)環(huán)境下的指定機(jī)器中進(jìn)行,機(jī)器應(yīng)開啟防火墻,安裝殺毒軟件,
并禁用USB接口功能。機(jī)器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,
防止數(shù)據(jù)丟失或泄露;
b)標(biāo)注人員應(yīng)經(jīng)過(guò)標(biāo)注工作培訓(xùn)獲得相關(guān)單位資格認(rèn)證并簽署樣本標(biāo)注保密協(xié)議后才
可上崗操作。
8.5標(biāo)注工具選擇
應(yīng)使用標(biāo)注格式通用、易操作的標(biāo)注工具進(jìn)行標(biāo)注。
8.6語(yǔ)料樣本標(biāo)注
8.6.1基本要求
應(yīng)根據(jù)業(yè)務(wù)需求和標(biāo)注任務(wù)難易度選擇人工標(biāo)注或半自動(dòng)化標(biāo)注。
8.6.2人工標(biāo)注
人工標(biāo)注任務(wù)應(yīng)按照試標(biāo)注、批量標(biāo)注順序執(zhí)行,具體要求如下:
a)試標(biāo)注:
1)從標(biāo)注任務(wù)的待標(biāo)注樣本中抽取試標(biāo)注樣本??刹捎秒S機(jī)抽樣或分層抽樣方法
抽取樣本,抽取比例不宜低于待標(biāo)注樣本總量的1%;
2)標(biāo)注人員對(duì)抽取樣本進(jìn)行標(biāo)注;
3)標(biāo)注項(xiàng)目負(fù)責(zé)人對(duì)標(biāo)注結(jié)果進(jìn)行確認(rèn);
4)標(biāo)注人員重復(fù)執(zhí)行標(biāo)注錯(cuò)誤的標(biāo)注任務(wù),直至標(biāo)注項(xiàng)目負(fù)責(zé)人確認(rèn)無(wú)誤。
b)標(biāo)注人員批量執(zhí)行標(biāo)注任務(wù)。
8.6.3.半自動(dòng)化標(biāo)注
半自動(dòng)標(biāo)注任務(wù)應(yīng)按照樣本構(gòu)建、模型構(gòu)建、模型批量標(biāo)注順序執(zhí)行,具體要求如下:
a)樣本構(gòu)建:
8
T/CESXXXXXXX
-
1)從待標(biāo)注樣本中抽取訓(xùn)練樣本和測(cè)試樣本??刹捎秒S機(jī)抽樣或分層抽樣方法抽取樣
本,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/Z 44938.2-2024機(jī)械電氣安全第2部分:保護(hù)人員安全的傳感器的應(yīng)用示例
- α-Apooxytetracycline-生命科學(xué)試劑-MCE-3621
- PB-22-7-Hydroxyisoquinoline-isomer-生命科學(xué)試劑-MCE-3092
- L-Arginyl-L-alanine-生命科學(xué)試劑-MCE-1970
- BDW-OH-生命科學(xué)試劑-MCE-6441
- 4-Chlorocathinone-hydrochloride-生命科學(xué)試劑-MCE-4146
- 1-Methyl-3-amino-4-cyanopyrazole-生命科學(xué)試劑-MCE-7778
- 2025年度智能城市基礎(chǔ)設(shè)施合作框架協(xié)議
- 二零二五年度茶葉種植基地租賃與經(jīng)營(yíng)管理合同
- 二零二五年度貨車駕駛員勞動(dòng)合同(貨車駕駛與車輛融資租賃)
- 2024-2025學(xué)年廣東省深圳市南山區(qū)監(jiān)測(cè)數(shù)學(xué)三年級(jí)第一學(xué)期期末學(xué)業(yè)水平測(cè)試試題含解析
- 廣東2024年廣東金融學(xué)院招聘專職輔導(dǎo)員9人筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解
- 2025年研究生考試考研英語(yǔ)(二204)試卷與參考答案
- DB31∕731-2020 船舶修正總噸單位產(chǎn)品能源消耗限額
- 2024-年全國(guó)醫(yī)學(xué)博士外語(yǔ)統(tǒng)一入學(xué)考試英語(yǔ)試題
- 天津市-2024年-社區(qū)工作者-上半年筆試真題卷
- 2024年衛(wèi)生專業(yè)技術(shù)資格考試衛(wèi)生檢驗(yàn)技術(shù)(初級(jí)(師)211)相關(guān)專業(yè)知識(shí)試題及答案指導(dǎo)
- 公務(wù)用車分時(shí)租賃實(shí)施方案
- 《手衛(wèi)生知識(shí)培訓(xùn)》培訓(xùn)課件
- 《祛痘產(chǎn)品祛痘產(chǎn)品》課件
- 江蘇省南京鼓樓區(qū)2024年中考聯(lián)考英語(yǔ)試題含答案
評(píng)論
0/150
提交評(píng)論