《電力人工智能樣本增廣技術(shù)架構(gòu)要求》

上傳人：搬*** IP屬地：浙江上傳時間：2024-12-22 格式：PDF 頁數(shù)：8 大?。?82.59KB 積分：11 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

ICS國際標(biāo)準(zhǔn)分類號

CCS中國標(biāo)準(zhǔn)文獻分類號

團體標(biāo)準(zhǔn)

T/CESXXX-XXXX

電力人工智能樣本增廣技術(shù)架構(gòu)要求

Technicalarchitecturerequirementsforsampleaugmentationinelectric

powerartificialintelligence

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電工技術(shù)學(xué)會發(fā)布

T/CESXXX—XXXX

電力人工智能樣本增廣技術(shù)架構(gòu)要求

1范圍

本文件規(guī)定了電力人工智能樣本增廣技術(shù)架構(gòu)、策略制定、增廣算子編排等方面做出規(guī)范性要求。

本文件適用于電力人工智能圖像類、文本文檔類、語音類等樣本增廣。

2規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件，僅注日期的版本適用于本文件。

凡是不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。

GB/T5271.29—2006信息技術(shù)詞匯第29部分：人工智能語音識別與合成

GB/T5271.31—2006信息技術(shù)詞匯第31部分：人工智能機器學(xué)習(xí)

DA/T77-2019紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別OCR工作規(guī)范

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

人工智能artificialintelligence

研究人類智能活動的規(guī)律，構(gòu)造具有一定智能的人工系統(tǒng)，研究如何讓計算機去完成以往需要人的

智力才能勝任的工作，也就是研究如何應(yīng)用計算機的軟硬件來模擬人類某些智能行為的基本理論、方法

和技術(shù)。

3.2

噪聲noise

真實標(biāo)記與數(shù)據(jù)集中的實際標(biāo)記間的偏差。

3.3

語音識別automaticspeechrecognition

讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。

3.4

信噪比signal-noiseratio

是一種用于度量信號與噪聲強度之間關(guān)系的指標(biāo)。

3.5

峰值信噪比peaksignal-noiseratio

指用于表示信號的最大可能功率與影響其表示的保真度的破壞噪聲的功率之間的比率。

3.6

語音清晰度perceptualevaluationofspeechquality

指語音質(zhì)量的知覺評估方法。

3.7

語音質(zhì)量指標(biāo)meanopinionscore

是一種用工衡量語音質(zhì)量的指標(biāo)。

3.8

樣本增廣算子sampleaugmentationoperator

指在機器學(xué)習(xí)和深度學(xué)習(xí)中用于擴充訓(xùn)練數(shù)據(jù)集的技術(shù)。

4符號、代號和縮略語

T/CESXXX—XXXX

下列符號、代號和縮略語適用于本文件。

4.1符號

無

4.2代號

無

4.3縮略語

OCR：光學(xué)字符識別（OpticalCharacterRecognition）

GAN：生成對抗網(wǎng)絡(luò)（GenerativeAdversarialNetwork）

5樣本增廣技術(shù)總體架構(gòu)

電力人工智能樣本增廣技術(shù)總體架構(gòu)包括：

a)樣本增廣技術(shù)：包括圖像、文本、音頻三種類型樣本的主流增廣技術(shù)；

b)樣本增廣技術(shù)要求：包括樣本增廣效果評價要求、樣本增廣策略制定要求和樣本增廣算子編排

技術(shù)和功能要求。樣本增廣效果評價要求部分包含通用評價要求和圖像、文本、音頻三種類型樣本的增

廣效果評價要求。

圖1電力人工智能樣本增廣技術(shù)總體架構(gòu)圖

6圖像類樣本增廣技術(shù)

6.1基本圖像增廣

基本圖像增廣是指在原有樣本的基礎(chǔ)上，通過進行一些較小的幾何變換（例如翻轉(zhuǎn)、平移、旋轉(zhuǎn)或添

加噪聲等）或者色彩變換（例如亮度、對比度、飽和度或通道混洗等），以此來增加訓(xùn)練集的多樣性。以

下是一些常用的基本圖像增廣方法：

a)鏡像翻轉(zhuǎn)：將圖像水平或垂直翻轉(zhuǎn)，生成鏡像的圖像。這種增廣方式可以在保持圖像語義不變的

情況下增加數(shù)據(jù)的多樣性。

T/CESXXX—XXXX

b)隨機裁剪：隨機從圖像中裁剪出一個子區(qū)域作為新的圖像或改變圖像的尺寸和位置，增加樣本的

多樣性。

c)旋轉(zhuǎn)：對圖像進行旋轉(zhuǎn)操作，以一定的角度將圖像進行旋轉(zhuǎn)，增加樣本在不同角度下的多樣性。

d)縮放：對圖像進行縮放操作，將圖像放大或縮小，改變圖像的尺寸，增加樣本的尺度不變性。

e)平移：對圖像進行平移操作，將圖像沿水平或垂直方向移動，增加樣本的平移不變性。

f)亮度調(diào)整：對圖像的亮度進行調(diào)整，增加樣本在不同亮度條件下的多樣性。

對于一些小尺寸或小粒度的目標(biāo)，例如桿塔上的螺母缺失識別，其缺少樣本時可以采用上述方式。圖

像變換增廣的主要特征是面向訓(xùn)練數(shù)據(jù)集的圖像樣本執(zhí)行特定的圖像變換操作，產(chǎn)生新的圖像樣本的標(biāo)簽

信息與原始圖像樣本的標(biāo)簽信息保持一致。

6.2混合圖像增廣

圖像混合增廣方法通過使用數(shù)據(jù)中的多個圖像樣本進行混合以合成新的圖像樣本。圖像混合增廣方法

具備以下特點：

（1）增廣過程中需要兩個或兩個以上圖像樣本參與；

（2）混合增廣后生成的新的圖像樣本，其語義信息取決于多個參與增廣樣本的語義；

（3）增廣后生成的圖像樣本往往不具備人眼視覺理解特性。

6.3虛擬圖像生成

虛擬圖像生成增廣是通過生成模型(主要以生成對抗網(wǎng)絡(luò)為主)直接生成圖像樣本，并將生成的樣本加

入到訓(xùn)練集中，從而達到數(shù)據(jù)集增廣的目標(biāo)。虛擬圖像生成增廣通常使用生成對抗網(wǎng)絡(luò)及其衍生網(wǎng)絡(luò)作為

圖像樣本的生成模型。

7文本文檔類樣本增廣技術(shù)

7.1標(biāo)簽無關(guān)增廣方法

標(biāo)簽無關(guān)增廣方法是指不需要提供數(shù)據(jù)標(biāo)簽、任務(wù)需求等信息，只基于無標(biāo)簽的訓(xùn)練數(shù)據(jù)即可按照規(guī)

則實現(xiàn)數(shù)據(jù)增廣。

7.1.1單詞替換

單次替換是指利用近義詞替換文本中的原始單詞，從而在保持文本語義盡量不發(fā)生改變的前提下，得

到新的表述方式。采用單次替換進行增廣時，應(yīng)當(dāng)使單次替換產(chǎn)生的增廣數(shù)據(jù)與原始數(shù)據(jù)的語義盡量相同。

7.1.2回譯

回譯是指原始文本通過翻譯變?yōu)槠渌Z言的文本，然后再被翻譯回來得到原語言的新文本。采用回譯

進行增廣時，應(yīng)當(dāng)使回譯產(chǎn)生的增廣數(shù)據(jù)與原始數(shù)據(jù)的語義盡量相同。

7.1.3引入噪聲

引入噪聲是指為文本添加不太影響語義的微弱噪聲，使之適當(dāng)偏離原始數(shù)據(jù)。噪聲類型應(yīng)包括但不限

于以下：

a)文本形式相關(guān)噪聲

b)文本順序相關(guān)噪聲

7.2標(biāo)簽相關(guān)增廣方法

標(biāo)簽相關(guān)增廣方法，是指利用標(biāo)簽信息，按照任務(wù)需求進行增廣，應(yīng)考慮增廣數(shù)據(jù)的標(biāo)簽相比于原數(shù)

據(jù)標(biāo)簽是否變化的問題。

7.3用于OCR文檔的樣本增廣技術(shù)

對于OCR文檔的樣本增廣技術(shù)，應(yīng)當(dāng)先通過樣本清洗技術(shù)將OCR文檔轉(zhuǎn)換為文本文檔后，參考文本文

檔類樣本增廣技術(shù)。

T/CESXXX—XXXX

8音頻類樣本增廣技術(shù)

音頻類樣本增廣技術(shù)一般包括但不限于以下幾種：

a)回譯技術(shù)：是指將一個句子或短語從一種語言翻譯成另一種語言，再將其翻譯回原語言，以增加訓(xùn)

練樣本的多樣性；

b)詞匯替換技術(shù)：是指將訓(xùn)練樣本中的某些詞匯替換為其他詞匯，以增加訓(xùn)練樣本的規(guī)模和多樣性；

c)隨機噪聲引入技術(shù)：是指在訓(xùn)練樣本中添加隨機噪聲，以增加模型的魯棒性和泛化能力；

d)生成式的方法：是指通過生成新的數(shù)據(jù)來增加訓(xùn)練樣本的規(guī)模和多樣性，例如使用生成式對抗網(wǎng)絡(luò)

（GAN）等方法。

9樣本增廣效果評價要求

9.1通用評價要求

9.1.1數(shù)據(jù)一致性

數(shù)據(jù)一致性是指增廣后的樣本應(yīng)保持原有樣本數(shù)據(jù)的特性和模式，保證增廣數(shù)據(jù)對數(shù)據(jù)集構(gòu)建和模型

訓(xùn)練是有效的。應(yīng)當(dāng)通過計算增廣數(shù)據(jù)與原有樣本數(shù)據(jù)的相似度，來評價增廣數(shù)據(jù)與原有樣本數(shù)據(jù)的一致

性。

9.1.2模型性能

模型性能是指通過觀察模型在使用增廣數(shù)據(jù)進行訓(xùn)練后的性能是否有所提升和提升多少來評價樣本

增廣效果。應(yīng)當(dāng)基于驗證集或測試集對模型進行評估，比較使用增廣數(shù)據(jù)和未使用增廣數(shù)據(jù)的模型性能指

標(biāo)，如準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)等。

9.1.3模型魯棒性

模型魯棒性是指模型對于輸入數(shù)據(jù)的變化和干擾的適應(yīng)能力。應(yīng)當(dāng)引入不同類型的干擾進行測試，觀

察模型在增廣數(shù)據(jù)和未增廣數(shù)據(jù)上的表現(xiàn)差異，評估模型的魯棒性提升程度。

9.1.4數(shù)據(jù)平衡性

數(shù)據(jù)分布平衡是指數(shù)據(jù)集中各個標(biāo)簽占據(jù)數(shù)據(jù)總量的百分比。應(yīng)當(dāng)通過對比數(shù)據(jù)標(biāo)簽在增廣數(shù)據(jù)前后

的統(tǒng)計信息，來評價數(shù)據(jù)增廣在數(shù)據(jù)平衡性上的提升情況。

9.1.5人工評估

人工評估是指邀請領(lǐng)域?qū)＜覍υ鰪V前后的樣本進行比較和評估，關(guān)注樣本的質(zhì)量、可識別性、干擾程

度等方面的變化。

9.2圖像類樣本增廣效果評價要求

9.2.1可視化效果

可視化效果是指隨機選擇一些樣本，并將增廣前后的圖像進行對比，觀察增廣操作對圖像的影響。一

般認為若增廣操作能夠引入合理的變化并保持樣本的可識別性，可以認為增廣效果較好。

9.3文本類樣本增廣效果評價要求

9.3.1語義一致性保持

語義一致性保持是指需要確保增廣后的樣本在語義上保持一致性。語義一致性指標(biāo)應(yīng)包括但不限于以

下：詞向量相似度、語義角色標(biāo)注一致性、語義關(guān)系匹配、語義角色對齊、蘊含關(guān)系判斷等。

9.4音頻類樣本增廣效果評價要求

9.4.1音頻質(zhì)量指標(biāo)評價

音頻質(zhì)量評價指標(biāo)使用客觀指標(biāo)對音頻樣本的質(zhì)量進行評估。應(yīng)包括但不限于信噪比（SNR）、峰值

信噪比（PSNR）、語音清晰度指標(biāo)（PESQ）、語音質(zhì)量指標(biāo)（MOS）等。

T/CESXXX—XXXX

10樣本增廣策略制定要求

10.1樣本增廣目標(biāo)

樣本增廣策略應(yīng)首先確定樣本增廣的目標(biāo)，不同的任務(wù)有不同的目標(biāo)，例如提高模型的泛用性、增加

數(shù)據(jù)樣本的多樣性、平衡類別分布等。

10.2樣本增廣算子選擇

樣本增廣策略應(yīng)當(dāng)同時根據(jù)增廣目標(biāo)和當(dāng)前數(shù)據(jù)集特點選擇適合的樣本增廣算子，并確保樣本增廣算

子能夠?qū)崿F(xiàn)樣本增廣的目標(biāo)。

10.3樣本增廣算子的順序

樣本增廣算子的順序應(yīng)當(dāng)根據(jù)算子之間的依賴關(guān)系和預(yù)期效果，確定合適的算子順序。算子間的順序

對增廣結(jié)果會有重要影響，例如，在圖像顏色增強之前應(yīng)用圖像旋轉(zhuǎn)可以提高魯棒性，而之后應(yīng)用則可能

導(dǎo)致顏色失真。

10.4樣本增廣程度

應(yīng)當(dāng)確定樣本增廣算子的程度或參數(shù)設(shè)置。某些數(shù)據(jù)增強算子具有參數(shù)，例如旋轉(zhuǎn)角度、縮放比例、

噪聲水平等。合理選擇增廣操作的程度能夠在盡可能擴充數(shù)據(jù)集的同時，避免引入過多的噪聲或失真。根

據(jù)任務(wù)需求和數(shù)據(jù)集特點，選擇合適的參數(shù)設(shè)置以平衡增強程度和數(shù)據(jù)樣本的真實性。

10.5樣本增廣的隨機性

應(yīng)當(dāng)考慮是否引入隨機性。在樣本增廣過程中，可以引入隨機性來增加樣本的多樣性。例如，在圖像

旋轉(zhuǎn)中引入隨機角度，或者在噪聲添加中引入隨機的噪聲類型和強度。隨機性可以幫助模型更好地適應(yīng)不

同的變化和干擾。

11樣本增廣算子編排技術(shù)和功能要求

11.1可擴展性

算子編排技術(shù)應(yīng)具備良好的可擴展性，應(yīng)支持動態(tài)擴展和縮減計算資源，以適應(yīng)負載變化和資源需求

的變化。樣本增廣算子編排技術(shù)應(yīng)能夠適應(yīng)不同規(guī)模的數(shù)據(jù)集和任務(wù)，能夠處理大量的訓(xùn)練數(shù)據(jù)，并能夠

方便地擴展到更大規(guī)模的數(shù)據(jù)集，同時也應(yīng)設(shè)計適應(yīng)不同類型的增廣操作和組合策略。

11.2并行性

算子編排技術(shù)應(yīng)具備良好的并行性，應(yīng)支持處理大規(guī)模數(shù)據(jù)和高并發(fā)場景，應(yīng)能有效利用分布式計算

資源，充分利用并行計算的優(yōu)勢，以提高增廣過程的效率，將數(shù)據(jù)和計算任務(wù)分發(fā)到多個節(jié)點上進行并行

處理，以提高處理速度和吞吐量。

11.3容錯性

算子編排技術(shù)應(yīng)具備良好的容錯性，應(yīng)能夠處理節(jié)點故障或任務(wù)失敗的情況，并能夠自動恢復(fù)和重新

執(zhí)行失敗的任務(wù)。在進行數(shù)據(jù)增廣操作時，可能會碰到一些異常情況，如無效輸入、數(shù)據(jù)損壞等。算法應(yīng)

該具備處理這些異常情況的能力，保持算法的穩(wěn)定運行。此外，對于錯誤的數(shù)據(jù)增廣操作或組合策略，能

夠進行適當(dāng)?shù)奶幚?，避免對?xùn)練過程造成不良影響。

11.4數(shù)據(jù)流管理

算子編排技術(shù)應(yīng)具備良好的數(shù)據(jù)流管理功能，應(yīng)有效地管理數(shù)據(jù)的流動和傳遞，能夠處理數(shù)據(jù)的輸入

和輸出，確保數(shù)據(jù)在算子之間按照正確的順序和方式進行傳遞。同時，算子編排應(yīng)支持?jǐn)?shù)據(jù)的分區(qū)和分片，

以便并行處理和提高效率。

11.5優(yōu)化和調(diào)度

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《電力人工智能樣本增廣技術(shù)架構(gòu)要求》

文檔簡介

溫馨提示

最新文檔

評論

《電力人工智能樣本增廣技術(shù)架構(gòu)要求》

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔