小米語音識別端到端系統(tǒng)升級之路_第1頁
小米語音識別端到端系統(tǒng)升級之路_第2頁
小米語音識別端到端系統(tǒng)升級之路_第3頁
小米語音識別端到端系統(tǒng)升級之路_第4頁
小米語音識別端到端系統(tǒng)升級之路_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

準(zhǔn)確率提升的同時服務(wù)容量翻倍--

小米語音識別端到端系統(tǒng)升級之路范利春小米集團(tuán)技術(shù)委員會 AI實(shí)驗(yàn)室目錄小米小愛業(yè)務(wù)中的語音識別方案端到端語音識別系統(tǒng)升級中的極致的響應(yīng)速度和準(zhǔn)確率優(yōu)化GPU使用效率提升的動態(tài)Batch優(yōu)化GPU使用效率提升的半精度浮點(diǎn)推理優(yōu)化背景小米公司的印象背景小米公司的印象背景小米6.99億鏈接到IOT平臺的智能設(shè)備包括小米汽車、手機(jī)、音箱、電視、手表、手環(huán)、生態(tài)鏈產(chǎn)品等涵蓋了6161款支持語音交互的產(chǎn)品「人車家全生態(tài)」背景語音識別:小愛語音交互的入口語音識別ASR喚醒KWS語義理解NLP結(jié)果滿足SKILL語音合成TTS語音文字小愛同學(xué)背景如何降低云端服務(wù)成本?如何提升語音識別的準(zhǔn)確率?降本增效識別內(nèi)容覆蓋60+個垂域每天識別約2.7億條來自小愛智能助手的語音大模型時代,用戶對智能助手的預(yù)期提升說法多種多樣,更偏口語化P1.

小米小愛業(yè)務(wù)中的語音識別方案小米語音方案傳統(tǒng)語音架構(gòu)聲學(xué)訓(xùn)練語言訓(xùn)練訓(xùn)練復(fù)雜聲學(xué)數(shù)據(jù)語言數(shù)據(jù)聲學(xué)模型語言模型準(zhǔn)確率低解碼算法語音建模幀率高成本高昂解碼算法相對復(fù)雜小米語音方案端到端語音架構(gòu)聯(lián)合建模準(zhǔn)確率高節(jié)省算力離線部署傳統(tǒng)語音架構(gòu)小米語音方案encoder-decoder結(jié)構(gòu)的端到端語音識別小米語音方案建模粒度大幀率低時序建模有大量Blank可以跳過P2.

端到端語音識別系統(tǒng)升級中的極致的響應(yīng)速度和準(zhǔn)確率優(yōu)化關(guān)鍵實(shí)踐1關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于Zipformer的encoder-decoder結(jié)構(gòu)的端到端語音識別關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于Zipformer的encoder-decoder結(jié)構(gòu)的端到端語音識別《ZIPFORMER:AFASTERANDBETTERENCODERFORAUTOMATICSPEECH

RECOGNITION》《SUBLLM:

A

Novel

Efficient

Architecturewith

Token

Sequence

Subsampling

for

LLM》關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端識別Fig.

1Fig.

2性能平衡具體方案:

Chunk模式解碼效率具體方案:

Input/output

cache關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能/

坑1

/

尖峰滯后關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端方案帶來的尖峰滯后現(xiàn)象尖峰滯后現(xiàn)象解決方案(a)解決方案(b)《TrimTail:Low-LatencyStreamingASRwithSimplebutEffectiveSpectrogram-LevelLength

Penalty》關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端方案帶來的尖峰滯后現(xiàn)象解決方案(c)解決方案(d)《DELAY-PENALIZEDTRANSDUCERFORLOW-LATENCYSTREAMING

ASR》關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能/

坑2

/

內(nèi)置語言模型關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能端到端系統(tǒng)下的熱詞注入米家個人設(shè)備管理 座艙顯示屏上的內(nèi)容關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于syllable建模,提升熱詞能力建模粒度大音節(jié)建模語音識別解碼架構(gòu)圖關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能速度和極致性能優(yōu)化小結(jié)關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能Zipformer算法尖峰前移個性化識別手機(jī)、音箱、電視句錯相對下降20%P3.

GPU使用效率提升的動態(tài)Batch優(yōu)化關(guān)鍵實(shí)踐2關(guān)鍵實(shí)踐2Batch推理優(yōu)化GPU交互:線程內(nèi)串行,線程間并行,每個線程獨(dú)享一個流T4服務(wù)器:高峰時段CPU14%

+

GPU80%特征提取AM[2]推理解碼“今天天氣”GPU特征提取AM推理解碼“播放音樂”thread

1:thread

N:…

…關(guān)鍵實(shí)踐2Batch推理優(yōu)化特征提取AM推理解碼“今天天氣”GPU特征提取AM推理解碼“播放音樂”thread

1:thread

N:…

……83462112345678123人滿發(fā)車超時發(fā)車P4.

GPU使用效率提升的半精度浮點(diǎn)推理優(yōu)化關(guān)鍵實(shí)踐3關(guān)鍵實(shí)踐3為什么使用半精度浮點(diǎn)NVIDIA

T4高通芯片關(guān)鍵實(shí)踐3半精度浮點(diǎn)的范圍/wiki/Half-precision_floating-point_formatfp16的取值范圍是

5.96e-8

~

65504溢出精度損失關(guān)鍵實(shí)踐3從模型層面解決溢出的模塊LayerNorm替換成L1LayerNorm《Towards

Fully

8-bit

Integer

Inference

for

the

Transformer

Model》關(guān)鍵實(shí)踐3從模型層面解決溢出的模塊Softmax

Attention替換成PolyAttn《Towards

Fully

8-bit

Integer

Inference

for

the

Transformer

Model》關(guān)鍵實(shí)踐3改進(jìn)模型訓(xùn)練手段:對模型參數(shù)進(jìn)行截斷FP16溢出問題LossvarmaxminWER方案similarity1w3.04632.7325.18-57.244.54%-97.60%1w-CLAMP23.04333.548.91-8.544.64%【mean-3*var,mean+3*var】99.50%1w-CLAMP32.99842.7937.3117-7.67674.39%【mean-1,

mean+1】99.09%關(guān)鍵實(shí)踐3進(jìn)一步定位溢出的OP按Module查:查看每個模塊的輸入輸出數(shù)值是否超出FP16范圍的數(shù)按OP查:查看每個算子的輸入輸出數(shù)值是否超出FP16范圍導(dǎo)出時候?qū)σ绯龅奶幚碓谝绯龅乃阕踊蛘吣K前進(jìn)行scale;這些scale在L1LayerNorm之后會消失(僅需對μ進(jìn)行scale);關(guān)鍵實(shí)踐3torch.matmul(q/FP16_SCALE,

k/FP16_SCALE)FP16精度定位問題(兩臺顯微鏡)解決問題(三把手術(shù)刀)按Module查限制參數(shù)訓(xùn)練Operation

Scale按Operation查Module替換param.clamp_(mean-3*var,

mean+3*var)LayerNorm替換成L1LayerNormSoftmax

Attention替換成PolyAttn半精度浮點(diǎn)推理優(yōu)化總結(jié)案例總結(jié)總結(jié)端到端建模GPU并行度優(yōu)化FP16推理優(yōu)化Zipformer算法尖峰前移個性化識別Module替換限制參數(shù)訓(xùn)練Operation

Scale獨(dú)立線程模型推理人滿發(fā)車超時發(fā)車案例總結(jié)手機(jī)、音箱、電視句錯下降20%IDC

服務(wù)器容量提升100%成果麥思博

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論