信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求征求意見稿

上傳人：f*** IP屬地：山東上傳時(shí)間：2024-11-30 格式：DOCX 頁(yè)數(shù)：25 大小：127.84KB 積分：20 舉報(bào) 版權(quán)申訴

信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求征求意見稿_第2頁(yè)

信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求征求意見稿_第3頁(yè)

信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求征求意見稿_第4頁(yè)

信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求征求意見稿_第5頁(yè)

已閱讀5頁(yè)，還剩20頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1GB/TXXXXX—XXXX信息技術(shù)客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求本文件規(guī)定了客服型虛擬數(shù)字人參考框架、功能要求和性能要求。本文件適用于指導(dǎo)客服型虛擬數(shù)字人的設(shè)計(jì)、開發(fā)、測(cè)試、應(yīng)用、管理等。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日期的引用文件，僅該日期對(duì)應(yīng)的版本適用于本文件；不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。GB/T5271.13-2008信息技術(shù)詞匯第13部分：計(jì)算機(jī)圖形GB/T21023-2007中文語(yǔ)音識(shí)別系統(tǒng)通用技術(shù)規(guī)范GB/T21024-2007中文語(yǔ)音合成系統(tǒng)通用技術(shù)規(guī)范GB/T36341.1-2018信息技術(shù)形狀建模信息表示第1部分-框架和基本組件GB/T36464.1-2020信息技術(shù)智能語(yǔ)音交互系統(tǒng)第1部分：通用規(guī)范GB/T36464.3-2018信息技術(shù)智能語(yǔ)音交互系統(tǒng)第3部分：智能客服GB/T36464.4-2018信息技術(shù)智能語(yǔ)音交互系統(tǒng)第4部分：移動(dòng)終端GB/T34083-2017中文語(yǔ)音識(shí)別互聯(lián)網(wǎng)服務(wù)接口規(guī)范GB/T38247-2019信息技術(shù)增強(qiáng)現(xiàn)實(shí)術(shù)語(yǔ)GB/T38665.1-2020信息技術(shù)手勢(shì)交互系統(tǒng)第1部分：通用技術(shù)要求GB/T41864-2022信息技術(shù)計(jì)算機(jī)視覺術(shù)語(yǔ)GB/T41772-2022信息技術(shù)生物特征識(shí)別人臉識(shí)別系統(tǒng)技術(shù)要求GB/T44020-2024信息技術(shù)計(jì)算機(jī)圖形圖像處理和環(huán)境數(shù)據(jù)表示混合與增強(qiáng)現(xiàn)實(shí)中實(shí)時(shí)人物肖像和實(shí)體的表示SJ/T11380-2008自動(dòng)聲紋識(shí)別(說話人識(shí)別)技術(shù)規(guī)范3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。3.1數(shù)字人digitalhuman通過計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺和語(yǔ)音交互等技術(shù)，進(jìn)行形象、聲音、動(dòng)作等模型訓(xùn)練后，借助真人或計(jì)算驅(qū)動(dòng)、在多模態(tài)輸出設(shè)備呈現(xiàn)的虛擬人物。3.2客服型虛擬數(shù)字人servicedigitalhuman2GB/TXXXXX—XXXX面向特定行業(yè)應(yīng)用，具有開展客戶服務(wù)功能的數(shù)字人。3.32D數(shù)字人2Ddigitalhuman以二維平面形式呈現(xiàn)的數(shù)字人，包括2D擬真人、2D卡通等不同風(fēng)格。注2：2D卡通數(shù)字人形象通?；谑掷L或圖像處理軟3.43D數(shù)字人3Ddigitalhuman以三維立體形式呈現(xiàn)的數(shù)字人，包括3D超寫實(shí)、3D擬真人、3D卡通等不同風(fēng)格。3.5語(yǔ)音喚醒speechwakeup;voicetrigger處于音頻流監(jiān)聽狀態(tài)的語(yǔ)音交互系統(tǒng)，在檢測(cè)到特定的特征或事件出現(xiàn)后，切換到命令字識(shí)別、連續(xù)語(yǔ)音識(shí)別等其他處理狀態(tài)的過程。[GB/T36464.1-2020，3.17]3.6端點(diǎn)檢測(cè)voiceactivitydetection一種用于分析、判斷連續(xù)音頻流中有效語(yǔ)音起始點(diǎn)和結(jié)束點(diǎn)的語(yǔ)音處理技術(shù)。[GB/T36464.1-2020，3.22]3.7語(yǔ)音增強(qiáng)speechenhancement當(dāng)有效語(yǔ)音信號(hào)被各種噪聲干擾，甚至淹沒后，從含有噪聲背景的聲音信號(hào)中提取有效語(yǔ)音信號(hào)，抑制、降低噪聲干擾的技術(shù)。[GB/T36464.1-2020，3.24]3.8語(yǔ)音識(shí)別speechrecognition將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。[GB/T21023—2007，3.1]3.9語(yǔ)義理解semanticcomprehension理解數(shù)據(jù)符號(hào)的語(yǔ)義信息，或在具體業(yè)務(wù)場(chǎng)景下的需求表達(dá)，并按照要求輸出正確反饋結(jié)果的過程。3GB/TXXXXX—XXXX[GB/T36464.3—2018，3.6]3.10語(yǔ)音合成speechsynthesis通過機(jī)械的、電子的方法合成人類語(yǔ)言的過程。[GB/T21024—2007，3.1]3.11人臉識(shí)別facerecognition基于自然人的面部特征對(duì)該個(gè)體的自動(dòng)識(shí)別。[GB/T44248-2024，3.1]3.12手勢(shì)識(shí)別gesturerecognition從輸入的手勢(shì)數(shù)據(jù)判別出手勢(shì)。[GB/T38665.1-2020，3.5]3.13肢體動(dòng)作識(shí)別limbrecognition從輸入的肢體數(shù)據(jù)判別出肢體動(dòng)作。3.14情感交互affectiveinteraction利用用戶情感或滿足用戶情感需求的人機(jī)交互過程。[GB/T40691-2021，3.3]3.15建模geometricmodeling以能加以操縱的形式創(chuàng)建表示三維形狀的模型的做法。[GB/T5271.13-2008，13.01.08]3.16渲染rendering從2D/3D模型中生成數(shù)據(jù)、更新模擬并渲染給定顯示設(shè)備的呈現(xiàn)輸出的過程。[GB/T44020-2024，9.1]3.17紋理texture4GB/TXXXXX—XXXX物體表面細(xì)節(jié)的一幅或幾幅二維圖形。[GB/T36341.1-2018，3.7]3.18光場(chǎng)重建lightfieldreconstruction基于光場(chǎng)相機(jī)對(duì)場(chǎng)景進(jìn)行觀測(cè)并構(gòu)建三維模型的過程。[GB/T41864-2022，3.8.4]3.19虛擬環(huán)境virtualenvironment由計(jì)算機(jī)生成的具有動(dòng)態(tài)感官信息表現(xiàn)（如雙眼立體視覺、三維聽覺、力觸覺、味覺及嗅覺等）的、多虛擬對(duì)象構(gòu)成的環(huán)境。[GB/T38247-2019，2.2.2]3.20動(dòng)作捕捉actioncapture通過對(duì)視頻序列中目標(biāo)動(dòng)作進(jìn)行跟蹤采樣，并利用該采樣信息對(duì)連續(xù)動(dòng)作進(jìn)行表示的方法。[GB/T41864-2022，3.6.3.11]4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。ASR：自動(dòng)語(yǔ)音識(shí)別（AutomaticSpeechRecognition）CG：計(jì)算機(jī)圖形（ComputerGraphics）FPS：每秒傳輸幀數(shù)(FramesPerSecond)MOS：平均意見得分（MeanOpinionScore）NLP：自然語(yǔ)言處理（NaturalLanguageProcessing）STA：語(yǔ)音動(dòng)畫合成（SpeechtoAnimation）TTS：語(yǔ)音合成(TexttoSpeech)VAD：端點(diǎn)檢測(cè)（VoiceActivityDetection）5參考框架客服型虛擬數(shù)字人系統(tǒng)包括數(shù)字人形象、視覺交互、語(yǔ)音交互、情感交互和運(yùn)營(yíng)維護(hù)模塊，其a)數(shù)字人形象模塊包括形象生成、形象驅(qū)動(dòng)等功能，其中形象生成包括2D形象生成和3D形象生成，形象驅(qū)動(dòng)分別按照驅(qū)動(dòng)方式和驅(qū)動(dòng)范圍進(jìn)行劃分；b)視覺交互模塊包括視覺采集、視覺喚醒、主體人識(shí)別、手勢(shì)識(shí)別、肢體動(dòng)作識(shí)別等功能；c)語(yǔ)音交互模塊包括語(yǔ)音采集、語(yǔ)音喚醒、前端處理、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等功d)情感交互模塊包括情感采集、情感識(shí)別、情感決策與表達(dá)等功能；5GB/TXXXXX—XXXXe)運(yùn)營(yíng)維護(hù)模塊包括后臺(tái)接入、關(guān)鍵詞維護(hù)、語(yǔ)料維護(hù)、服務(wù)流程維護(hù)等功能?？头吞摂M數(shù)字人系統(tǒng)參考框架見圖1。注：虛線表示的模塊單元為可選項(xiàng)圖1客服型虛擬數(shù)字人系統(tǒng)參考框架6功能要求6.1數(shù)字人形象6.1.1形象生成6.1.1.12D形象生成2D形象生成包括以下功能要求：a)2D擬真人形象通?；谡嫒诵蜗蟛杉?，借助人工智能技術(shù)訓(xùn)練生成：1)應(yīng)保證生成的數(shù)字人以半身或全身的形態(tài)完整呈現(xiàn)；2)應(yīng)保證生成的數(shù)字人形象臉部、嘴巴、牙齒等五官細(xì)節(jié)完整、清晰可見且靜態(tài)表情自然，光線均勻無(wú)陰影，并支持準(zhǔn)確的口型驅(qū)動(dòng)、面部表情模擬、自然肢體動(dòng)作；3)應(yīng)支持對(duì)數(shù)字人形象美顏、服飾更換、裝飾添加、背景替換等二次編輯，宜支持基于語(yǔ)義的二次編輯。b)2D卡通形象通?；谑掷L或圖像處理軟件等方式繪制而成：1)應(yīng)使用手繪或圖像處理軟件，通過造型設(shè)計(jì)、繪制線稿、上色、添加細(xì)節(jié)編輯來創(chuàng)造；6GB/TXXXXX—XXXX2)生成的數(shù)字人形象應(yīng)符合角色的年齡、性別、性格、職業(yè)等身份設(shè)定，具備自然的面部表情和肢體動(dòng)作。6.1.1.23D形象生成3D數(shù)字人形象通?；?D建模軟件創(chuàng)建，并通過復(fù)雜的建模、材質(zhì)貼圖、綁定等操作生成，主要包括以下功能要求：a)應(yīng)支持3D超寫實(shí)、3D擬真人、3D卡通等不同風(fēng)格中的一種或多種，并支持形象個(gè)性化定制；b)應(yīng)支持人物建模，通過CG建模、靜態(tài)掃描建模、動(dòng)態(tài)光場(chǎng)重建等建模方式，在虛擬環(huán)境中，根據(jù)數(shù)字人的風(fēng)格特征確定拓?fù)浣Y(jié)構(gòu)建立虛擬人的形狀；c)應(yīng)支持面部骨骼綁定，通過面部骨骼與關(guān)鍵特征點(diǎn)進(jìn)行綁定，控制角色的五官的位置和形狀，實(shí)現(xiàn)基于面部五官的調(diào)整的面部表情和口型驅(qū)動(dòng)；d)應(yīng)支持肢體骨骼綁定，通過搭建肢體骨骼、創(chuàng)建骨骼聯(lián)動(dòng)、繪制骨骼蒙皮，實(shí)現(xiàn)半身或全身的肢體驅(qū)動(dòng)和手勢(shì)驅(qū)動(dòng)；e)應(yīng)支持材質(zhì)匹配，針對(duì)不同形象風(fēng)格的數(shù)字人模型，匹配相符的皮膚、毛發(fā)、妝容、服飾等材質(zhì)；f)應(yīng)支持光線制作，模擬自然界光線和人工光線；g)宜支持真實(shí)感效果渲染，包括數(shù)字人皮膚、毛發(fā)、妝容、服飾等逼真效果的渲染，以及各種特效的渲染等；h)宜支持智能生成，基于人工智能技術(shù)，通過采集目標(biāo)對(duì)象的臉部、軀體、肢體等信息，生成不同形象風(fēng)格的數(shù)字人模型。6.1.2形象驅(qū)動(dòng)6.1.2.1驅(qū)動(dòng)方式數(shù)字人形象應(yīng)支持以下一種或多種驅(qū)動(dòng)方式：a)文本驅(qū)動(dòng)：基于目標(biāo)文本生成對(duì)應(yīng)的語(yǔ)音、口型、表情、手勢(shì)、肢體動(dòng)作，將合成音視頻呈現(xiàn)給用戶；b)語(yǔ)音驅(qū)動(dòng)：基于語(yǔ)音信息生成對(duì)應(yīng)的語(yǔ)音、口型、表情、手勢(shì)、肢體動(dòng)作，并合成音視頻呈現(xiàn)給用戶；c)真人驅(qū)動(dòng)：基于攝像頭捕捉真人的口型、表情、手勢(shì)、肢體動(dòng)作，并遷移到數(shù)字人形象上，并合成音視頻呈現(xiàn)給用戶；d)視頻驅(qū)動(dòng)：基于真人的視頻輸入進(jìn)行數(shù)字人的驅(qū)動(dòng)，捕捉視頻中的真人的口型、表情、手勢(shì)、肢體動(dòng)作，并遷移到數(shù)字人形象上，并合成音視頻呈現(xiàn)給用戶；e)動(dòng)畫驅(qū)動(dòng)：應(yīng)支持基于提供的臉部表情和肢體動(dòng)作等動(dòng)畫文件信息遷移到數(shù)字人形象上，進(jìn)行對(duì)應(yīng)的表情和動(dòng)作的展示；f)穿戴設(shè)備驅(qū)動(dòng)：支持通過穿戴設(shè)備進(jìn)行數(shù)字人的驅(qū)動(dòng)，通過傳感器獲得肢體動(dòng)作和臉部捕捉的相關(guān)信息，遷移到數(shù)字人形象上，可以進(jìn)行對(duì)應(yīng)的表情和動(dòng)作的展示。注：數(shù)字人系統(tǒng)可支持一種或多種類型真人動(dòng)作捕捉設(shè)備或技術(shù)，6.1.2.2驅(qū)動(dòng)范圍數(shù)字人形象驅(qū)動(dòng)范圍涉及口型、表情、手勢(shì)、肢體等，具體功能要求如下：7GB/TXXXXX—XXXXa)應(yīng)支持口型驅(qū)動(dòng)：應(yīng)支持基于文本、語(yǔ)音和口型數(shù)據(jù)進(jìn)行模型訓(xùn)練的STA口型驅(qū)動(dòng)，實(shí)現(xiàn)口型與語(yǔ)音同步；b)宜支持表情驅(qū)動(dòng)，通過眉毛，眼皮、眼睛、眉毛、鼻子、嘴巴和臉部的肌肉組例如蘋果肌、法令紋、抬頭紋等局部表情細(xì)節(jié)聯(lián)動(dòng)實(shí)現(xiàn)的面部表情驅(qū)動(dòng)，實(shí)現(xiàn)表情與語(yǔ)音同步；c)宜支持手勢(shì)驅(qū)動(dòng)：通過手指骨骼關(guān)鍵點(diǎn)聯(lián)動(dòng)實(shí)現(xiàn)手勢(shì)驅(qū)動(dòng)，包含手腕，五指所有關(guān)節(jié)的旋轉(zhuǎn)和位置信息，實(shí)現(xiàn)手勢(shì)動(dòng)作與語(yǔ)音同步；d)宜支持肢體動(dòng)作驅(qū)動(dòng)：通過肢體骨骼關(guān)鍵點(diǎn)聯(lián)動(dòng)實(shí)現(xiàn)肢體驅(qū)動(dòng)，實(shí)現(xiàn)肢體動(dòng)作與語(yǔ)音同步。6.2視覺交互6.2.1視覺采集應(yīng)支持通過攝像頭采集用戶的人臉、手勢(shì)、肢體動(dòng)作，并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的圖像或視頻數(shù)據(jù)信息。6.2.2視覺喚醒視覺喚醒包括以下功能要求：a)應(yīng)支持人體感知，通過人體感知實(shí)現(xiàn)系統(tǒng)喚醒，當(dāng)感知到人體接近時(shí)，能夠主動(dòng)招攬用戶，開啟語(yǔ)音交互；b)應(yīng)支持人臉感知，通過人臉感知實(shí)現(xiàn)系統(tǒng)喚醒，當(dāng)感知到人臉注視時(shí)，能夠主動(dòng)招攬用戶，開啟語(yǔ)音交互。6.2.3主體人識(shí)別主體人識(shí)別包括以下功能要求：a)應(yīng)支持主體人檢測(cè)，通過對(duì)用戶口型進(jìn)行識(shí)別，判斷當(dāng)前用戶是否說話，保證對(duì)話主體人的準(zhǔn)確性；b)應(yīng)支持主體人追蹤，通過對(duì)主體人目標(biāo)進(jìn)行追蹤，當(dāng)主體人移動(dòng)、轉(zhuǎn)動(dòng)時(shí)，系統(tǒng)能夠保持與主體人的交互狀態(tài)；c)應(yīng)支持主體人分離，能夠在復(fù)雜聲音環(huán)境下分離不同主體人的不同語(yǔ)言；d)應(yīng)支持主體人屬性識(shí)別，例如性別、年齡，是否佩戴口罩，是否戴眼鏡等，并根據(jù)不同屬性提供相應(yīng)的問候接待以及后續(xù)服務(wù)。6.2.4手勢(shì)識(shí)別手勢(shì)識(shí)別包括以下功能要求：a)宜支持手勢(shì)數(shù)據(jù)集預(yù)置，通過預(yù)先設(shè)置手勢(shì)數(shù)據(jù)集，定義每個(gè)手勢(shì)所代表的含義，手勢(shì)數(shù)據(jù)集應(yīng)滿足以下要求：1)手勢(shì)集中任意兩個(gè)手勢(shì)之間的相似程度應(yīng)盡可能低，以便區(qū)分；2)手勢(shì)集中的手勢(shì)宜簡(jiǎn)單易行；3)手勢(shì)集中手勢(shì)易于被輸入設(shè)備感知，應(yīng)適應(yīng)于不同輸入設(shè)備，設(shè)計(jì)不同手勢(shì)集合數(shù)據(jù)集；b)宜支持提供與手勢(shì)數(shù)據(jù)集對(duì)應(yīng)的識(shí)別算法的程序集，使系統(tǒng)能對(duì)用戶輸入的手勢(shì)進(jìn)行識(shí)6.2.5肢體動(dòng)作識(shí)別8GB/TXXXXX—XXXX肢體動(dòng)作識(shí)別包括以下功能要求：a)宜支持肢體動(dòng)作數(shù)據(jù)集預(yù)置，通過預(yù)先設(shè)置肢體動(dòng)作數(shù)據(jù)集，定義每個(gè)肢體動(dòng)作所代表的含義，肢體動(dòng)作數(shù)據(jù)集應(yīng)滿足以下要求：1)肢體動(dòng)作集中任意兩個(gè)肢體動(dòng)作之間的相似程度應(yīng)盡可能低，以便區(qū)分；2)肢體動(dòng)作集中的肢體動(dòng)作宜簡(jiǎn)單易行；3)肢體動(dòng)作集中肢體動(dòng)作易于被輸入設(shè)備感知，應(yīng)適應(yīng)于不同輸入設(shè)備，設(shè)計(jì)不同肢體動(dòng)作集合；b)宜支持提供與肢體動(dòng)作數(shù)據(jù)集對(duì)應(yīng)的識(shí)別算法的程序集，使系統(tǒng)能對(duì)用戶輸入的肢體動(dòng)作進(jìn)行識(shí)別。6.3語(yǔ)音交互6.3.1語(yǔ)音采集語(yǔ)音采集應(yīng)符合GB/T36464.1-2020中5.1的要求。6.3.2語(yǔ)音喚醒語(yǔ)音喚醒應(yīng)符合GB/T36464.1-2020中7.1的要求。6.3.3前端處理前端處理應(yīng)符合GB/T36464.1-2020中第7章和第8章的有關(guān)要求。6.3.4語(yǔ)音識(shí)別語(yǔ)音識(shí)別包括以下功能要求：a)應(yīng)支持中文語(yǔ)音識(shí)別，面向特定場(chǎng)景和對(duì)象，提供中文關(guān)鍵詞語(yǔ)音識(shí)別和連續(xù)語(yǔ)音識(shí)別服b)宜支持多語(yǔ)種識(shí)別，面向特定場(chǎng)景和對(duì)象，提供英語(yǔ)、法語(yǔ)、西班牙語(yǔ)等多語(yǔ)種識(shí)別服務(wù)；f)宜支持多方言識(shí)別，面向特定場(chǎng)景和對(duì)象，提供粵語(yǔ)、滬語(yǔ)、閩南語(yǔ)等多方言識(shí)別服務(wù)；g)宜支持多語(yǔ)種混讀識(shí)別，針對(duì)中文語(yǔ)句中包含其它語(yǔ)種單詞、數(shù)字的進(jìn)行識(shí)別服務(wù)；h)宜支持自定義識(shí)別，提供自定義語(yǔ)法、自定義熱詞、個(gè)性化識(shí)別等識(shí)別服務(wù)，并符合GB/T34083-2017中4.2和4.3的要求；i)宜支持識(shí)別結(jié)果處理，提供識(shí)別結(jié)果多候選、識(shí)別結(jié)果進(jìn)階等服務(wù)，符合GB/T34083—2017中4.3的要求；j)宜支持語(yǔ)言信息識(shí)別，能夠給出語(yǔ)音所對(duì)應(yīng)的語(yǔ)言信息，如語(yǔ)種、方言種類等；k)宜支持說話者信息識(shí)別，能夠給出說話者信息，如性別、年齡段等。6.3.5語(yǔ)義理解語(yǔ)義理解包括以下功能要求：a)應(yīng)支持意圖理解，包括模糊識(shí)別、語(yǔ)義抽取、語(yǔ)義排序、意圖分類，能夠理解說話人的意b)宜支持命名實(shí)體識(shí)別，能夠?qū)θ嗣?、地名、機(jī)構(gòu)名、專有名詞、簡(jiǎn)稱、別稱、縮寫等具有特定意義的實(shí)體進(jìn)行識(shí)別；c)應(yīng)支持敏感信息識(shí)別，能夠根據(jù)上下文對(duì)輸入文本中的敏感內(nèi)容進(jìn)行分辨；d)應(yīng)支持語(yǔ)義拒識(shí)，能夠?qū)o(wú)法處理或不應(yīng)當(dāng)處理的無(wú)效文本輸入內(nèi)容進(jìn)行分辨和拒識(shí)；9GB/TXXXXX—XXXXe)應(yīng)支持對(duì)話引導(dǎo)，能夠根據(jù)說話人的意圖和場(chǎng)景需求動(dòng)態(tài)生成引導(dǎo)提示用語(yǔ)，引導(dǎo)用戶對(duì)其最終目的進(jìn)行陳述；f)應(yīng)支持多輪對(duì)話，包括對(duì)話狀態(tài)跟蹤、對(duì)話策略管理、對(duì)話意圖切換、跳轉(zhuǎn)及歷史信息繼承，具備上下文相關(guān)的多輪會(huì)話的功能；g)應(yīng)支持自然語(yǔ)言生成，能夠根據(jù)語(yǔ)義理解結(jié)果生成自然語(yǔ)言文本，并符合說話人的意圖、滿足語(yǔ)音交互響應(yīng)；h)宜支持信息檢索，具備個(gè)性化詞典檢索、第三方信源檢索、自定義知識(shí)庫(kù)檢索等信息檢索的功能；i)宜支持文本相似度計(jì)算，能夠根據(jù)輸入的文本數(shù)據(jù)，計(jì)算其與已有文本的語(yǔ)義信息一致性程度；j)宜支持檢索結(jié)果排序，可利用信息檢索和文本相似度分別計(jì)算關(guān)聯(lián)系數(shù)，并對(duì)結(jié)果進(jìn)行排序；k)宜支持文本修改，能夠?qū)?duì)話中的前一句文本進(jìn)行修改；l)宜支持語(yǔ)義修正，能夠?qū)φZ(yǔ)義理解錯(cuò)誤的結(jié)果進(jìn)行自動(dòng)校正；m)宜支持邏輯推理，能夠?qū)ξ谋緝?nèi)容的邏輯計(jì)算和推導(dǎo)。6.3.6語(yǔ)音合成語(yǔ)音合成包括以下功能要求：a)應(yīng)支持中文語(yǔ)音合成，能夠?qū)⒁?guī)定格式的中文合成文本轉(zhuǎn)換成對(duì)應(yīng)的語(yǔ)音；b)應(yīng)支持流式語(yǔ)音合成，能夠?qū)⒍啻芜B續(xù)合成音頻進(jìn)行拼接后得到完整的合成音頻；c)應(yīng)支持多種合成文本編碼，能夠提供多種字符編碼格式的合成文本；d)宜支持多語(yǔ)種合成，能夠提供其他語(yǔ)種的語(yǔ)音合成，如英語(yǔ)、法語(yǔ)、西班牙語(yǔ)等；e)宜支持多方言合成，能夠提供指定方言的語(yǔ)音合成，粵語(yǔ)、滬語(yǔ)、閩南語(yǔ)等；f)宜支持多語(yǔ)種混讀合成，能夠提供中文語(yǔ)音與英語(yǔ)的語(yǔ)音合成；g)宜支持多音色合成，能夠提供多種音色的音頻特征庫(kù)供用戶選擇，如青年男聲、青年女聲、童聲等；h)宜支持個(gè)性化合成，能夠提供訓(xùn)練個(gè)性化音色庫(kù)并使用個(gè)性化音色庫(kù)進(jìn)行語(yǔ)音合成；i)宜支持用戶自定義分詞，能夠按照用戶指定的合成文本分詞方式進(jìn)行語(yǔ)音合成；j)宜支持用戶自定義讀音，能夠按照用戶指定的讀音或方式進(jìn)行語(yǔ)音合成。6.3.7知識(shí)管理宜支持接入本地和在線的預(yù)置知識(shí)庫(kù)、知識(shí)圖譜、語(yǔ)言模型，由用戶自主配置觸發(fā)條件，具備知識(shí)調(diào)用、知識(shí)推理、知識(shí)檢索、知識(shí)維護(hù)、知識(shí)統(tǒng)計(jì)等功能，滿足符合業(yè)務(wù)場(chǎng)景需要。6.4情感交互6.4.1情感采集情感采集包括以下功能要求：a)宜支持表情采集，通過攝像頭采集用戶的表情，如微笑、皺眉等，并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的圖像或視頻數(shù)據(jù)信息；b)宜支持姿態(tài)情感采集，通過攝像頭采集用戶的姿態(tài)情感，如點(diǎn)頭、搖頭等，并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的圖像或視頻數(shù)據(jù)信息；c)宜支持語(yǔ)音情感采集，通過系統(tǒng)的拾音設(shè)備采集用戶語(yǔ)音情感，如語(yǔ)氣、語(yǔ)調(diào)、音量等，GB/TXXXXX—XXXX并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的語(yǔ)音特征信息；d)宜支持文本情感挖掘，通過對(duì)用戶的語(yǔ)音對(duì)應(yīng)的文本信息，對(duì)用戶表達(dá)內(nèi)容的情感進(jìn)行挖掘。6.4.2情感識(shí)別情感識(shí)別包括以下功能要求：a)宜支持表情識(shí)別，預(yù)先設(shè)置表情數(shù)據(jù)集，通過識(shí)別用戶輸入的表情信息，識(shí)別用戶的情感狀態(tài)，表情數(shù)據(jù)集應(yīng)滿足以下要求：1)表情數(shù)據(jù)集中任意兩個(gè)表情之間的相似程度應(yīng)盡可能低，以便區(qū)分；2)表情數(shù)據(jù)集中的表情宜簡(jiǎn)單易行；3)表情數(shù)據(jù)集中表情易于被輸入設(shè)備感知。b)宜支持姿態(tài)情感識(shí)別，預(yù)先設(shè)置姿態(tài)情感數(shù)據(jù)集，通過識(shí)別用戶輸入的姿態(tài)數(shù)據(jù)，識(shí)別用戶的情感狀態(tài)，姿態(tài)情感數(shù)據(jù)集應(yīng)滿足以下要求：1)姿態(tài)情感數(shù)據(jù)集中任意兩

人人文庫(kù)> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求征求意見稿

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求 征求意見稿

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求征求意見稿