騰訊游戲知幾語(yǔ)音合成大模型推理實(shí)踐

上傳人：b*** IP屬地：北京上傳時(shí)間：2024-12-24 格式：PPTX 頁(yè)數(shù)：25 大?。?.80MB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩20頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

騰訊游戲知幾語(yǔ)音合成大模型推理加速方案背景介紹語(yǔ)音合成模型結(jié)構(gòu)分析語(yǔ)音合成模型推理思路未來(lái)展望01背景介紹背景-產(chǎn)品展示01、王者榮耀小妲己“游戲知識(shí)問(wèn)答”02、和平第五人的『AI語(yǔ)音助手』03、天涯明月刀『絕智阿暖』智能NPC范閑老頭云悠悠英語(yǔ)男英語(yǔ)女原音CFer你好呀！喜歡姐姐的AK四七嗎？不喜歡的話還有M四A一和AN九四哦.姐姐的ASMR你受得了嗎？I

loveyoumysweetheart~你在開什么玩笑？我才不會(huì)上當(dāng)呢。背景-產(chǎn)品展示TTS：更自然、韻律豐富、更實(shí)時(shí)采用LM方案

自研知音語(yǔ)音大模型10s音頻完成聲音復(fù)刻通過(guò)加速優(yōu)化，實(shí)時(shí)率～0085.Audio

Decoder

Language

Model Text

Encoder AudioEncoder喜歡我在你耳邊說(shuō)話的感覺(jué)嗎?02模型結(jié)構(gòu)選型與分析輸入文本聲學(xué)模型FastSpeech/Tacotron聲碼器hifigan/wavernn傳統(tǒng)方案基于語(yǔ)言模型的新方案語(yǔ)音合成大模型結(jié)構(gòu)輸入文本LMModel1243…

9SemanticToken

|AcousticToken

?st1243…

9LMModel/NAR

Model12

43 …

9…71

21 6816

52…3…AcousticToken12

43 …

9…71

21 6816

52…3…Codec

Decoder語(yǔ)音合成大模型結(jié)構(gòu)面臨的挑戰(zhàn)：高并發(fā)場(chǎng)景實(shí)時(shí)率問(wèn)題03模型推理加速方案推理加速方案-借鑒與選擇是否能將NLP領(lǐng)域的LLM

推理加速方法應(yīng)用到語(yǔ)音合成大模型上？kv

cacheflash

decodeprefixkv

cacheflash

attention投機(jī)采樣Int4/int8

量化page

attention…….LLM

中的kv

cache：推理加速方案-kv

cacheStep2，withoutkvcache:Step

1:Step2，withkv

cache:推理加速方案-kv

cache當(dāng)attention

mask使得attention的計(jì)算滿足以下條件時(shí)，就能使用kv

cacheattentionoutput的第n行只與第n個(gè)q相關(guān)第1～n個(gè)token的attention的計(jì)算包含第1～n-1個(gè)token的attention計(jì)算每次attention的計(jì)算都用前面k和v語(yǔ)音ar模型中

attentionmask與attention計(jì)算滿足kvcache的使用生成第n個(gè)tokenattention_maskattention_maskMask(Q*K)Mask(Q*K)推理加速方案-kv

cache對(duì)于prefill階段來(lái)說(shuō)是典型的計(jì)算受限場(chǎng)景，計(jì)算的瓶頸占據(jù)主導(dǎo)。而到了decode

階段，就是典型的訪存受限場(chǎng)景，訪存的瓶頸占據(jù)主導(dǎo)推理加速方案-GQA相比

cache

int8/fp8

等量化方式，

選擇GQA壓縮率更可控，可以在保證效果的同時(shí)，選擇更少的headnum將headnum從16減少到4，推理耗時(shí)降低20%推理加速方案-GQA有了kv

cache后，語(yǔ)音合成模型中AR模型也分為prefill階段和decode階段，合成10秒的音頻需要AR模型生成500個(gè)token同樣的音頻時(shí)長(zhǎng)，如何減少token生成的數(shù)量？推理加速方案-BPE在NLP中，采用類似BPE子詞算法進(jìn)行分詞防止OOV問(wèn)題BPE首先將詞分成單個(gè)字符，然后依次用另一個(gè)字符替換頻率最高的一對(duì)字符，直到循環(huán)次數(shù)結(jié)束推理加速方案-BPE10s音頻需生成token數(shù)從500個(gè)token下降到約170個(gè)token在語(yǔ)音合成大模型中，將BPE算法應(yīng)用在推理加速上，一次AR模型decode出一個(gè)BPE的code，對(duì)應(yīng)多個(gè)audiotoken為了能直接使用NLP

BPE，將audio

token先映射到唯一的unicode上，每一個(gè)字符對(duì)應(yīng)一個(gè)audiocode。推理加速方案-BPE方案二：在語(yǔ)音合成大模型中batch的兩種方法方案一：推理加速方案-批處理推理使用方案二：優(yōu)點(diǎn)：在類似emb的算子需要分別對(duì)text和audio

特征做處理時(shí)更簡(jiǎn)單缺點(diǎn)：推理的decode階段attention計(jì)算需要每次傳入paddingattention

mask，在推理框架中比較復(fù)雜優(yōu)點(diǎn)：attention推理計(jì)算，不需要自定義

paddingattention

mask，可無(wú)縫使用LLM推理框架缺點(diǎn)：在類似emb的算子需要分別對(duì)text和audio

特征做處理時(shí)更復(fù)雜推理加速方案-批處理在語(yǔ)音合成大模型中batch的兩種方法訓(xùn)練使用方案一：樸素批處理：連續(xù)性批處理：推理加速方案-連續(xù)性批處理結(jié)合騰訊Trpc微服務(wù)框架，在語(yǔ)音合成大模型中實(shí)踐continuousbatching推理推理加速方案-連續(xù)性批處理語(yǔ)音合成大模

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

騰訊游戲知幾語(yǔ)音合成大模型推理實(shí)踐

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

騰訊游戲知幾語(yǔ)音合成大模型推理實(shí)踐

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔