




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
T/CESXXXXXXX
-
1范圍
本標準規(guī)定了移動端智能交互訓練時自然語言處理樣本(對話機器人交互文本意圖識別
樣本)的基本要求、標注要求和標注流程。
本標準適用于各單位進行移動端智能交互訓練模型開發(fā)時樣本標注和樣本入庫的統(tǒng)一
管理,包括樣本的質(zhì)量管控、樣本標注的技術要求和流程管控。
2規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T1.1-2009標準化工作導則第1部分:標準的結構和編寫
GB/T5271.28—2001信息技術詞匯第28部分;人工智能基本概念與專家系統(tǒng)
ZYF001-2018語料庫通用技術規(guī)范
T/CESA1040—2019信息技術人工智能面向機器學習的數(shù)據(jù)標注規(guī)程
Q/GDW1560.1—2014輸電線路圖像/視頻監(jiān)控裝置技術規(guī)范第1部分:圖像監(jiān)控裝置
Q/GDW1906—2013輸變電一次設備缺陷分類標準
3術語和定義
下列術語和定義適用于本文件。
3.1
人工智能artificialintelligence
一門交叉學科,通常視為計算機科學的分支,研究表現(xiàn)出與人類智能(如推理和學習)
相關的各種功能的模型和系統(tǒng)。
3.2
自然語言處理naturallanguageprocess
是計算機科學領域與人工智能領域中的一個重要方向,能實現(xiàn)人與計算機之間用自然語
言進行有效通信的各種理論和方法。
1
T/CESXXXXXXX
-
3.3
樣本數(shù)據(jù)sampledata:[Q/GDW12118.1—2021,定義3.5]
其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個體數(shù)據(jù)。
3.4
標注corpusannotation:[Q/GDW1906—2013,定義3.5]
采用人工或計算機自動方式對樣本的屬性或特征進行描述,可用于實用的目的,如客戶
服務或資訊獲取等。
3.5
標簽label:[T/CESA1040—2019定義3.2]
標識數(shù)據(jù)的特征、類別和屬性等內(nèi)容,可用于建立數(shù)據(jù)及深度學習訓練要求所定義的機
器可讀數(shù)據(jù)編碼間的聯(lián)系。
3.6
智能交互intelligentinteraction
智能交互一般指智能語音交互。智能語音交互是基于語音輸入的新一代交互模式,通
過說話就可以得到反饋結果。
3.7
語料corpus
即語言材料,是語言學研究的內(nèi)容,也是構成語料庫的基本單元。
3.8
語料庫corpora
語料庫指經(jīng)科學取樣和加工的大規(guī)模電子文本庫,其中存放的是在語言的實際使用中真
實出現(xiàn)過的語言材料。
2
T/CESXXXXXXX
-
3.9
意圖intent
用戶表達的句子希望達到某種目的打算。
3.10
槽位slot
在用戶表達意圖的句子中,用來準確表達該意圖的關鍵信息的標識。
3.11
標注工具annotationtool:[T/CESA1040—2019定義3.5]
標注人員執(zhí)行標注任務生成標注結果的過程中使用的工具和軟件。標注工具按照自動化
程度分手動、半自動和自動三種。
3.12
半自動化標注semi-automaticannotation
基于少量人工標注、機器預標注來訓練標注模型,用于批量標注樣本數(shù)據(jù)的半人工智能
標注方法。
3.13
特色語種speciallanguage
漢語普通話外的其他語種。
4縮略語
下列縮略語適用于本文件。
BIOES:BIOES標注模式(B-begin,I-inside,O-outside,E-end,S-single)屬于序列標注模
式之一,其中B-begin表示標注元素的開頭,I-inside表示標注元素的中間或結尾,O-outside
表示不屬于待標注內(nèi)容,E-end表示標注元素的結尾,S-single表示單個字符且本身就是一
個標注元素。
BIO:BIO標注模式(B-begin,I-inside,O-outside)屬于序列標注模式之一,其中B-begin
表示標注元素的開頭,I-inside表示標注元素的中間或結尾,O-outside表示不屬于待標注內(nèi)
3
T/CESXXXXXXX
-
容。
JSON:JavaScript對象表示法(JavaScriptObjectNotation),是一種輕量級的文本數(shù)據(jù)交
換格式
5總則
本文件共分為樣本基本要求、樣本標注要求、樣本標注流程三部分,具體內(nèi)容組織框架
見圖1:
圖1組織框架
6文本類樣本基本要求
6.1文本文件存儲格式要求
文本樣本數(shù)據(jù)應采用txt、csv、Json、xlsx、xls、xml存儲格式。
6.2文本文件命名要求
文本文件名稱應由四個部分組成:
a)第一部分為項目命名詞或文本來源;
b)第二部分為當前文本文件的專業(yè)信息;
c)第三部分為原始源文件生成時的日期,日期格式:YYYY-MM-DD;
4
T/CESXXXXXXX
-
d)第四部分為文件唯一性編號,從1開始計數(shù);
e)這四部分用下劃線連接,且文件名稱長度和擴展名在內(nèi)最大長度不超過100個字符
(包含中英文字符和特殊字符);
f)文件命名舉例:××項目_酒店預訂語料_2022-06-08_1。
6.3文本類樣本質(zhì)量要求
文本類樣本質(zhì)量應滿足下述要求:
a)應支持計算機正常讀取,文本內(nèi)容無亂碼;
b)內(nèi)容應滿足相關業(yè)務需求;
c)應使用UTF-8編碼。
6.4文本樣本描述文件
每批次文本樣本集應有一個描述文件,應滿足下述要求:
a)存儲格式應為txt格式;
b)命名應由三個部分組成:
1)項目命名詞或樣本來源;
2)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;
3)文件唯一性編號,從1開始計數(shù);
4)文件名的各部分用下劃線連接,文件命名示例:××項目_2022-06-08_1。
c)文檔內(nèi)容應描述本樣本集的基本信息,應包括樣本所屬項目、樣本來源、創(chuàng)建日期、
聯(lián)系人、樣本標注信息、標注格式、樣本用途等信息。
7文本類樣本標注要求
7.1基本要求
應滿足標注對象范圍、標注方式、標注文件命名要求。具體要求包括:
a)文本語料樣本標注應支持意圖、槽位等信息的標注;
b)文本語料樣本標注應支持序列標注、指針標注等多種標注方式;
c)標注可通過線上標注(樣本+標注平臺)和線下標注(線下小工具和線下文本txt、csv、
Json)實現(xiàn);
d)序列標注應采用B、I、E、O、S標簽列表,宜采用BIO、BIOES標簽方案進行標
注;
5
T/CESXXXXXXX
-
f)已完成標注的文本文件應按照規(guī)定的命名格式命名。
7.2意圖標注要求
樣本意圖標注應滿足下述要求:
a)樣本標注前應確定意圖類別數(shù)和意圖類別名稱;
b)樣本意圖類型的確定需要結合具體的應用場景和待標注樣本數(shù)據(jù);
c)若一條樣本可標注為多個意圖類別時,應根據(jù)應用場景將該樣本標注為一個可能性最
大的意圖類別,必要時可由多位標注人員共同確定待標注樣本的意圖類別;
d)每條語料樣本都應標注出其意圖類別,若一條語料意圖不屬于已定義的意圖中的任何
一類則可將該語料刪除,或者新增一個意圖類別以將語料樣本中不屬于已定義意圖類別的語
料樣本均歸類于該意圖類別;
e)標注時應做到準確標注意圖類別;
f)應用場景如:新增日程、查詢?nèi)粘?/p>
7.3槽位標注要求
樣本槽位標注應滿足下述要求:
a)樣本標注前應定義槽位的類別數(shù)和類別名稱;
b)一條待標注樣本中有可能存在多個槽位,應標出所有的槽位信息;
c)一條樣本中可能不存在槽位信息,應允許槽位信息為空;
d)樣本中的槽位信息可能存在重疊,對存在重疊的槽位信息是否標注以及怎樣標注需
要根據(jù)具體情況確定;
e)標注槽位信息要準確、全面;
f)應用場景如:“定一個早上九點在北京評審的日程”,需要標注的槽位信息為:“早上
九點”、“北京”、“評審”,標注結果:“定一個[早上九點](TIME)在[北京](address)[評審](Theme)
的日程”。
7.4標注文件命名與存儲要求
標注文件應由兩部分組成,第一部分與對應標注文本命名一致,第二部分為“-bz”,應
保存為txt等滿足應用需求的格式,具體如:××項目_酒店預訂語料_2022-06-08_1-bz。
6
T/CESXXXXXXX
-
8樣本標注流程
8.1總體要求
樣本標注應包含語料樣本獲取、語料樣本檢查、安全管控、標注工具選擇、語料樣本標
注、標注結果收集和標注結果核查等環(huán)節(jié),具體如圖所示:
圖2樣本標注流程
8.2樣本獲取
根據(jù)應用場景搜集整理相關語料樣本數(shù)據(jù),并按照第6章內(nèi)容樣本文件進行樣本文件命
名、創(chuàng)建樣本描述文件等操作。
8.3樣本檢查
在樣本標注前應按照本文第6章要求對待標注樣本進行檢查,應根據(jù)業(yè)務需求和樣本的
數(shù)量采用全量檢查或抽樣檢查,方式如下:
a)全量檢查應對指定范圍內(nèi)的所有樣本進行逐條檢查;
b)抽樣檢查可采用隨機抽樣或分層抽樣,方式如下:
1)隨機抽樣,即:針對不同業(yè)務類型的數(shù)據(jù)樣本采用隨機抽樣進行檢查;
2)分層抽樣,即:針對同一業(yè)務類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽
樣的方式進行檢查。
7
T/CESXXXXXXX
-
8.4安全管控
應滿足對標注環(huán)境及標注人員的安全管控要求。具體要求包括:
a)標注過程應在內(nèi)網(wǎng)環(huán)境下的指定機器中進行,機器應開啟防火墻,安裝殺毒軟件,
并禁用USB接口功能。機器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,
防止數(shù)據(jù)丟失或泄露;
b)標注人員應經(jīng)過標注工作培訓獲得相關單位資格認證并簽署樣本標注保密協(xié)議后才
可上崗操作。
8.5標注工具選擇
應使用標注格式通用、易操作的標注工具進行標注。
8.6語料樣本標注
8.6.1基本要求
應根據(jù)業(yè)務需求和標注任務難易度選擇人工標注或半自動化標注。
8.6.2人工標注
人工標注任務應按照試標注、批量標注順序執(zhí)行,具體要求如下:
a)試標注:
1)從標注任務的待標注樣本中抽取試標注樣本??刹捎秒S機抽樣或分層抽樣方法
抽取樣本,抽取比例不宜低于待標注樣本總量的1%;
2)標注人員對抽取樣本進行標注;
3)標注項目負責人對標注結果進行確認;
4)標注人員重復執(zhí)行標注錯誤的標注任務,直至標注項目負責人確認無誤。
b)標注人員批量執(zhí)行標注任務。
8.6.3.半自動化標注
半自動標注任務應按照樣本構建、模型構建、模型批量標注順序執(zhí)行,具體要求如下:
a)樣本構建:
8
T/CESXXXXXXX
-
1)從待標注樣本中抽取訓練樣本和測試樣本??刹捎秒S機抽樣或分層抽樣方法抽取樣
本,訓練樣本與測試樣本占樣本總量的比例均不宜低于1%,訓練樣本與測試樣本的比例宜
為7:3,練樣本與測試樣本應無交集;
2)標注人員通過人工方式標注訓練樣本和測試樣本;
3)標注項目負責人對標注結果進行確認;
4)標注人員重復執(zhí)行標注錯誤的標注任務,直至標注項目負責人確認無誤。
b)模型構建:
1)使用標注后的訓練樣本建立標注模型;
2)使用標注后的測試樣本測試標注模型??刹捎谜倩芈?、精確率指標評估模型性能;
c)使用標注模型批量執(zhí)行標注任務,并通過人工對模型標注的樣本進行檢查、修改和
完善。
8.7標注結果收集
標注結果收集應滿足以下具體要求:
a)樣本標注結果應由統(tǒng)一的人員進行回收和存放,防止文件外泄;
b)標注結果收集人員應對樣本標注結果的相關信息(包括任務名稱、任務類型、任務
開始時間、任務結束時間、任務描述進行核對)進行檢查,防止文件遺漏;
c)標注結果收集人員,宜按照不同應用場景的標注結果對標注樣本進行安全保存。
8.8標注結果檢查
在樣本標注結果收集后應按照本文第7章要求對標注結果進行檢查,應根據(jù)業(yè)務需求和
樣本標注的數(shù)量采用全量檢查或抽樣檢查,方式如下:
a)全量檢查應對指定范圍內(nèi)的所有樣本進行逐條檢查;
b)抽樣檢查可采用隨機抽樣或分層抽樣,方式如下:
1)隨機抽樣,即:針對不同業(yè)務類型的數(shù)據(jù)樣本采用隨機抽樣進行檢查;
2)分層抽樣,即:針對同一業(yè)務類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽
樣的方式進行檢查。
9
35.240.99
L70
CEST/CXXX
團體標準
T/CESXXX-XXXX
移動端智能交互訓練語料基本要求與
規(guī)范
Basicrequirementsand
specificationsofmobileterminal
intelligentinteractivetraining
corpus
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
發(fā)布
中國電工技術學會Ⅱ
T/CESXXXXXXX
-
1范圍
本標準規(guī)定了移動端智能交互訓練時自然語言處理樣本(對話機器人交互文本意圖識別
樣本)的基本要求、標注要求和標注流程。
本標準適用于各單位進行移動端智能交互訓練模型開發(fā)時樣本標注和樣本入庫的統(tǒng)一
管理,包括樣本的質(zhì)量管控、樣本標注的技術要求和流程管控。
2規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T1.1-2009標準化工作導則第1部分:標準的結構和編寫
GB/T5271.28—2001信息技術詞匯第28部分;人工智能基本概念與專家系統(tǒng)
ZYF001-2018語料庫通用技術規(guī)范
T/CESA1040—2019信息技術人工智能面向機器學習的數(shù)據(jù)標注規(guī)程
Q/GDW1560.1—2014輸電線路圖像/視頻監(jiān)控裝置技術規(guī)范第1部分:圖像監(jiān)控裝置
Q/GDW1906—2013輸變電一次設備缺陷分類標準
3術語和定義
下列術語和定義適用于本文件。
3.1
人工智能artificialintelligence
一門交叉學科,通常視為計算機科學的分支,研究表現(xiàn)出與人類智能(如推理和學習)
相關的各種功能的模型和系統(tǒng)。
3.2
自然語言處理naturallanguageprocess
是計算機科學領域與人工智能領域中的一個重要方向,能實現(xiàn)人與計算機之間用自然語
言進行有效通信的各種理論和方法。
1
T/CESXXXXXXX
-
3.3
樣本數(shù)據(jù)sampledata:[Q/GDW12118.1—2021,定義3.5]
其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個體數(shù)據(jù)。
3.4
標注corpusannotation:[Q/GDW1906—2013,定義3.5]
采用人工或計算機自動方式對樣本的屬性或特征進行描述,可用于實用的目的,如客戶
服務或資訊獲取等。
3.5
標簽label:[T/CESA1040—2019定義3.2]
標識數(shù)據(jù)的特征、類別和屬性等內(nèi)容,可用于建立數(shù)據(jù)及深度學習訓練要求所定義的機
器可讀數(shù)據(jù)編碼間的聯(lián)系。
3.6
智能交互intelligentinteraction
智能交互一般指智能語音交互。智能語音交互是基于語音輸入的新一代交互模式,通
過說話就可以得到反饋結果。
3.7
語料corpus
即語言材料,是語言學研究的內(nèi)容,也是構成語料庫的基本單元。
3.8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【課件】+閉合電路的歐姆定律+課件高二上學期物理人教版(2019)必修第三冊
- 遼寧省沈陽市實驗中學2024-2025學年高三下學期5月月考物理試題(A卷)含解析
- 不安全行為矯正培訓課件
- 江西現(xiàn)代職業(yè)技術學院《應用化學專業(yè)英語與文獻檢索》2023-2024學年第二學期期末試卷
- 吉林省長春吉大附中力旺實驗中學2024-2025學年初三英語試題2月月考試題含答案
- 通化師范學院《廣告與軟文營銷》2023-2024學年第一學期期末試卷
- 江蘇信息職業(yè)技術學院《中外書籍形態(tài)設計》2023-2024學年第二學期期末試卷
- 下學班會課件
- 山西省大同市平城區(qū)第一中學2025年高考原創(chuàng)信息試卷化學試題(四)含解析
- 山西省長治市沁縣2024-2025學年數(shù)學三下期末統(tǒng)考模擬試題含解析
- 租賃活動板房協(xié)議書
- 管道燃氣安全培訓課件
- (四調(diào))武漢市2025屆高中畢業(yè)生四月調(diào)研考試 英語試卷(含答案)
- 國網(wǎng)四川省電力公司電網(wǎng)工程設備材料補充信息參考價2025
- 慢性病管理的護理方法試題及答案
- 2025年高考英語二輪復習熱點題型專項訓練:完形填空夾敘夾議文(含答案)
- 安保人員安全培訓課件
- 2025年中國光伏電池市場發(fā)展現(xiàn)狀調(diào)研及投資趨勢前景分析報告
- 2025年元宇宙+游戲行業(yè)新興熱點、發(fā)展方向、市場空間調(diào)研報告
- 2025年高級考評員職業(yè)技能等級認定考試題(附答案)
- 安徽省A10聯(lián)盟2023-2024學年高一下學期期中數(shù)學試卷
評論
0/150
提交評論