版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
騰訊游戲知幾語音合成大模型推理加速方案背景介紹語音合成模型結(jié)構(gòu)分析語音合成模型推理思路未來展望01背景介紹背景-產(chǎn)品展示01、王者榮耀小妲己“游戲知識問答”02、和平第五人的『AI語音助手』03、天涯明月刀『絕智阿暖』智能NPC范閑老頭云悠悠英語男英語女原音CFer你好呀!喜歡姐姐的AK四七嗎?不喜歡的話還有M四A一和AN九四哦.姐姐的ASMR你受得了嗎?I
loveyoumysweetheart~你在開什么玩笑?我才不會上當(dāng)呢。背景-產(chǎn)品展示TTS:更自然、韻律豐富、更實時采用LM方案
--
自研知音語音大模型10s音頻完成聲音復(fù)刻通過加速優(yōu)化,實時率~0085.Audio
Decoder
Language
Model Text
Encoder AudioEncoder喜歡我在你耳邊說話的感覺嗎?02模型結(jié)構(gòu)選型與分析輸入文本聲學(xué)模型FastSpeech/Tacotron聲碼器hifigan/wavernn傳統(tǒng)方案基于語言模型的新方案語音合成大模型結(jié)構(gòu)輸入文本LMModel1243…
9SemanticToken
|AcousticToken
?st1243…
9LMModel/NAR
Model12
43 …
9…71
21 6816
52…3…AcousticToken12
43 …
9…71
21 6816
52…3…Codec
Decoder語音合成大模型結(jié)構(gòu)面臨的挑戰(zhàn):高并發(fā)場景實時率問題03模型推理加速方案推理加速方案-借鑒與選擇是否能將NLP領(lǐng)域的LLM
推理加速方法應(yīng)用到語音合成大模型上?kv
cacheflash
decodeprefixkv
cacheflash
attention投機采樣Int4/int8
量化page
attention…….LLM
中的kv
cache:推理加速方案-kv
cacheStep2,withoutkvcache:Step
1:Step2,withkv
cache:推理加速方案-kv
cache當(dāng)attention
mask使得attention的計算滿足以下條件時,就能使用kv
cacheattentionoutput的第n行只與第n個q相關(guān)第1~n個token的attention的計算包含第1~n-1個token的attention計算每次attention的計算都用前面k和v語音ar模型中
attentionmask與attention計算滿足kvcache的使用生成第n個tokenattention_maskattention_maskMask(Q*K)Mask(Q*K)推理加速方案-kv
cache對于prefill階段來說是典型的計算受限場景,計算的瓶頸占據(jù)主導(dǎo)。而到了decode
階段,就是典型的訪存受限場景,訪存的瓶頸占據(jù)主導(dǎo)推理加速方案-GQA相比
kv
cache
int8/fp8
等量化方式,
選擇GQA壓縮率更可控,可以在保證效果的同時,選擇更少的headnum將headnum從16減少到4,推理耗時降低20%推理加速方案-GQA有了kv
cache后,語音合成模型中AR模型也分為prefill階段和decode階段,合成10秒的音頻需要AR模型生成500個token同樣的音頻時長,如何減少token生成的數(shù)量?推理加速方案-BPE在NLP中,采用類似BPE子詞算法進(jìn)行分詞防止OOV問題BPE首先將詞分成單個字符,然后依次用另一個字符替換頻率最高的一對字符,直到循環(huán)次數(shù)結(jié)束推理加速方案-BPE10s音頻需生成token數(shù)從500個token下降到約170個token在語音合成大模型中,將BPE算法應(yīng)用在推理加速上,一次AR模型decode出一個BPE的code,對應(yīng)多個audiotoken為了能直接使用NLP
BPE,將audio
token先映射到唯一的unicode上,每一個字符對應(yīng)一個audiocode。推理加速方案-BPE方案二:在語音合成大模型中batch的兩種方法方案一:推理加速方案-批處理推理使用方案二:優(yōu)點:在類似emb的算子需要分別對text和audio
特征做處理時更簡單缺點:推理的decode階段attention計算需要每次傳入paddingattention
mask,在推理框架中比較復(fù)雜優(yōu)點:attention推理計算,不需要自定義
paddingattention
mask,可無縫使用LLM推理框架缺點:在類似emb的算子需要分別對text和audio
特征做處理時更復(fù)雜推理加速方案-批處理在語音合成大模型中batch的兩種方法訓(xùn)練使用方案一:樸素批處理:連續(xù)性批處理:推理加速方案-連續(xù)性批處理結(jié)合騰訊Trpc微服務(wù)框架,在語音合成大模型中實踐continuousbatching推理推理加速方案-連續(xù)性批處理語音合成大模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2021年建筑行業(yè)三類人員安全員ABC證考試題庫【含答案】
- 活動二《小學(xué)生上網(wǎng)大家談》(說課稿)-2023-2024學(xué)年六年級上冊綜合實踐活動滬科黔科版
- 廣東省廣州市番禺區(qū)2023-2024學(xué)年七年級上學(xué)期期末道德與法治試題
- 2020屆高考語文散文專項訓(xùn)練(后附答案)
- 2015版環(huán)境管理手冊
- 2024年07月湖南交通銀行湖南省分行社會招考(728)筆試歷年參考題庫附帶答案詳解
- 2024年07月湖北交通銀行信用卡中心社會招考(武漢)筆試歷年參考題庫附帶答案詳解
- 2024年07月浙江浙江泰隆商業(yè)銀行線上風(fēng)險資產(chǎn)管理崗(總行)社會招考(724)筆試歷年參考題庫附帶答案詳解
- 2024年07月浙江浙江泰隆商業(yè)銀行溫州分行社會招考(731)筆試歷年參考題庫附帶答案詳解
- 2024年深圳市西鄉(xiāng)人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 初中物理期末復(fù)習(xí)+專題5+綜合能力題+課件++人教版物理九年級全一冊
- 2024年國開電大 統(tǒng)計學(xué)原理 形成性考核冊答案
- 幼兒園大班語言課件:不怕冷的大衣
- 2024年1月國開電大法律事務(wù)??啤镀髽I(yè)法務(wù)》期末考試試題及答案
- 2024全國能源行業(yè)火力發(fā)電集控值班員理論知識技能競賽題庫(多選題)
- 因式分解(分組分解法)專項練習(xí)100題及答案
- 冶煉煙氣制酸工藝設(shè)計規(guī)范
- 《上帝擲骰子嗎:量子物理史話》超星爾雅學(xué)習(xí)通章節(jié)測試答案
- Unit13 同步教學(xué)設(shè)計2023-2024學(xué)年人教版九年級英語全冊
- 2023-2024學(xué)年河北省保定市滿城區(qū)八年級(上)期末英語試卷
- 2024成都中考數(shù)學(xué)第一輪專題復(fù)習(xí)之專題四 幾何動態(tài)探究題 教學(xué)課件
評論
0/150
提交評論