版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
準(zhǔn)確率提升的同時服務(wù)容量翻倍--
小米語音識別端到端系統(tǒng)升級之路范利春小米集團(tuán)技術(shù)委員會 AI實(shí)驗(yàn)室目錄小米小愛業(yè)務(wù)中的語音識別方案端到端語音識別系統(tǒng)升級中的極致的響應(yīng)速度和準(zhǔn)確率優(yōu)化GPU使用效率提升的動態(tài)Batch優(yōu)化GPU使用效率提升的半精度浮點(diǎn)推理優(yōu)化背景小米公司的印象背景小米公司的印象背景小米6.99億鏈接到IOT平臺的智能設(shè)備包括小米汽車、手機(jī)、音箱、電視、手表、手環(huán)、生態(tài)鏈產(chǎn)品等涵蓋了6161款支持語音交互的產(chǎn)品「人車家全生態(tài)」背景語音識別:小愛語音交互的入口語音識別ASR喚醒KWS語義理解NLP結(jié)果滿足SKILL語音合成TTS語音文字小愛同學(xué)背景如何降低云端服務(wù)成本?如何提升語音識別的準(zhǔn)確率?降本增效識別內(nèi)容覆蓋60+個垂域每天識別約2.7億條來自小愛智能助手的語音大模型時代,用戶對智能助手的預(yù)期提升說法多種多樣,更偏口語化P1.
小米小愛業(yè)務(wù)中的語音識別方案小米語音方案傳統(tǒng)語音架構(gòu)聲學(xué)訓(xùn)練語言訓(xùn)練訓(xùn)練復(fù)雜聲學(xué)數(shù)據(jù)語言數(shù)據(jù)聲學(xué)模型語言模型準(zhǔn)確率低解碼算法語音建模幀率高成本高昂解碼算法相對復(fù)雜小米語音方案端到端語音架構(gòu)聯(lián)合建模準(zhǔn)確率高節(jié)省算力離線部署傳統(tǒng)語音架構(gòu)小米語音方案encoder-decoder結(jié)構(gòu)的端到端語音識別小米語音方案建模粒度大幀率低時序建模有大量Blank可以跳過P2.
端到端語音識別系統(tǒng)升級中的極致的響應(yīng)速度和準(zhǔn)確率優(yōu)化關(guān)鍵實(shí)踐1關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于Zipformer的encoder-decoder結(jié)構(gòu)的端到端語音識別關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于Zipformer的encoder-decoder結(jié)構(gòu)的端到端語音識別《ZIPFORMER:AFASTERANDBETTERENCODERFORAUTOMATICSPEECH
RECOGNITION》《SUBLLM:
A
Novel
Efficient
Architecturewith
Token
Sequence
Subsampling
for
LLM》關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端識別Fig.
1Fig.
2性能平衡具體方案:
Chunk模式解碼效率具體方案:
Input/output
cache關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能/
坑1
/
尖峰滯后關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端方案帶來的尖峰滯后現(xiàn)象尖峰滯后現(xiàn)象解決方案(a)解決方案(b)《TrimTail:Low-LatencyStreamingASRwithSimplebutEffectiveSpectrogram-LevelLength
Penalty》關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端方案帶來的尖峰滯后現(xiàn)象解決方案(c)解決方案(d)《DELAY-PENALIZEDTRANSDUCERFORLOW-LATENCYSTREAMING
ASR》關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能/
坑2
/
內(nèi)置語言模型關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能端到端系統(tǒng)下的熱詞注入米家個人設(shè)備管理 座艙顯示屏上的內(nèi)容關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于syllable建模,提升熱詞能力建模粒度大音節(jié)建模語音識別解碼架構(gòu)圖關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能速度和極致性能優(yōu)化小結(jié)關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能Zipformer算法尖峰前移個性化識別手機(jī)、音箱、電視句錯相對下降20%P3.
GPU使用效率提升的動態(tài)Batch優(yōu)化關(guān)鍵實(shí)踐2關(guān)鍵實(shí)踐2Batch推理優(yōu)化GPU交互:線程內(nèi)串行,線程間并行,每個線程獨(dú)享一個流T4服務(wù)器:高峰時段CPU14%
+
GPU80%特征提取AM[2]推理解碼“今天天氣”GPU特征提取AM推理解碼“播放音樂”thread
1:thread
N:…
…關(guān)鍵實(shí)踐2Batch推理優(yōu)化特征提取AM推理解碼“今天天氣”GPU特征提取AM推理解碼“播放音樂”thread
1:thread
N:…
……83462112345678123人滿發(fā)車超時發(fā)車P4.
GPU使用效率提升的半精度浮點(diǎn)推理優(yōu)化關(guān)鍵實(shí)踐3關(guān)鍵實(shí)踐3為什么使用半精度浮點(diǎn)NVIDIA
T4高通芯片關(guān)鍵實(shí)踐3半精度浮點(diǎn)的范圍/wiki/Half-precision_floating-point_formatfp16的取值范圍是
5.96e-8
~
65504溢出精度損失關(guān)鍵實(shí)踐3從模型層面解決溢出的模塊LayerNorm替換成L1LayerNorm《Towards
Fully
8-bit
Integer
Inference
for
the
Transformer
Model》關(guān)鍵實(shí)踐3從模型層面解決溢出的模塊Softmax
Attention替換成PolyAttn《Towards
Fully
8-bit
Integer
Inference
for
the
Transformer
Model》關(guān)鍵實(shí)踐3改進(jìn)模型訓(xùn)練手段:對模型參數(shù)進(jìn)行截斷FP16溢出問題LossvarmaxminWER方案similarity1w3.04632.7325.18-57.244.54%-97.60%1w-CLAMP23.04333.548.91-8.544.64%【mean-3*var,mean+3*var】99.50%1w-CLAMP32.99842.7937.3117-7.67674.39%【mean-1,
mean+1】99.09%關(guān)鍵實(shí)踐3進(jìn)一步定位溢出的OP按Module查:查看每個模塊的輸入輸出數(shù)值是否超出FP16范圍的數(shù)按OP查:查看每個算子的輸入輸出數(shù)值是否超出FP16范圍導(dǎo)出時候?qū)σ绯龅奶幚碓谝绯龅乃阕踊蛘吣K前進(jìn)行scale;這些scale在L1LayerNorm之后會消失(僅需對μ進(jìn)行scale);關(guān)鍵實(shí)踐3torch.matmul(q/FP16_SCALE,
k/FP16_SCALE)FP16精度定位問題(兩臺顯微鏡)解決問題(三把手術(shù)刀)按Module查限制參數(shù)訓(xùn)練Operation
Scale按Operation查Module替換param.clamp_(mean-3*var,
mean+3*var)LayerNorm替換成L1LayerNormSoftmax
Attention替換成PolyAttn半精度浮點(diǎn)推理優(yōu)化總結(jié)案例總結(jié)總結(jié)端到端建模GPU并行度優(yōu)化FP16推理優(yōu)化Zipformer算法尖峰前移個性化識別Module替換限制參數(shù)訓(xùn)練Operation
Scale獨(dú)立線程模型推理人滿發(fā)車超時發(fā)車案例總結(jié)手機(jī)、音箱、電視句錯下降20%IDC
服務(wù)器容量提升100%成果麥思博
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新能源汽車研發(fā)與生產(chǎn)承包協(xié)議4篇
- 生態(tài)、藝術(shù)、教育現(xiàn)代學(xué)校的多維度環(huán)境美化探索
- 數(shù)學(xué)競賽對小學(xué)數(shù)學(xué)教育的促進(jìn)作用
- 二零二五年綠色環(huán)保店面租賃合同3篇
- 2025年度美團(tuán)外賣加盟店數(shù)據(jù)共享合作協(xié)議4篇
- 2025年樹木種質(zhì)資源保護(hù)與開發(fā)合同協(xié)議3篇
- 個人與酒店房屋租賃合同(2024版)2篇
- 水電發(fā)電量指標(biāo)分配與交易2025年度合同3篇
- 個性化臨時資金調(diào)度借款合同2024版版B版
- 二零二四年家居品牌策劃與消費(fèi)升級服務(wù)合同2篇
- 天津市武清區(qū)2024-2025學(xué)年八年級(上)期末物理試卷(含解析)
- 《徐霞客傳正版》課件
- 江西硅博化工有限公司年產(chǎn)5000噸硅樹脂項(xiàng)目環(huán)境影響評價
- 高端民用航空復(fù)材智能制造交付中心項(xiàng)目環(huán)評資料環(huán)境影響
- 量子醫(yī)學(xué)成像學(xué)行業(yè)研究報告
- DB22T 3268-2021 糧食收儲企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化評定規(guī)范
- 辦事居間協(xié)議合同范例
- 正念減壓療法詳解課件
- GB 30254-2024高壓三相籠型異步電動機(jī)能效限定值及能效等級
- 重大事故隱患判定標(biāo)準(zhǔn)與相關(guān)事故案例培訓(xùn)課件
- 藥物制劑工(三級)理論試題題庫及答案
評論
0/150
提交評論