信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求 征求意見稿_第1頁(yè)
信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求 征求意見稿_第2頁(yè)
信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求 征求意見稿_第3頁(yè)
信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求 征求意見稿_第4頁(yè)
信息技術(shù) 客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求 征求意見稿_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1GB/TXXXXX—XXXX信息技術(shù)客服型虛擬數(shù)字人基礎(chǔ)能力技術(shù)要求本文件規(guī)定了客服型虛擬數(shù)字人參考框架、功能要求和性能要求。本文件適用于指導(dǎo)客服型虛擬數(shù)字人的設(shè)計(jì)、開發(fā)、測(cè)試、應(yīng)用、管理等。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.13-2008信息技術(shù)詞匯第13部分:計(jì)算機(jī)圖形GB/T21023-2007中文語(yǔ)音識(shí)別系統(tǒng)通用技術(shù)規(guī)范GB/T21024-2007中文語(yǔ)音合成系統(tǒng)通用技術(shù)規(guī)范GB/T36341.1-2018信息技術(shù)形狀建模信息表示第1部分-框架和基本組件GB/T36464.1-2020信息技術(shù)智能語(yǔ)音交互系統(tǒng)第1部分:通用規(guī)范GB/T36464.3-2018信息技術(shù)智能語(yǔ)音交互系統(tǒng)第3部分:智能客服GB/T36464.4-2018信息技術(shù)智能語(yǔ)音交互系統(tǒng)第4部分:移動(dòng)終端GB/T34083-2017中文語(yǔ)音識(shí)別互聯(lián)網(wǎng)服務(wù)接口規(guī)范GB/T38247-2019信息技術(shù)增強(qiáng)現(xiàn)實(shí)術(shù)語(yǔ)GB/T38665.1-2020信息技術(shù)手勢(shì)交互系統(tǒng)第1部分:通用技術(shù)要求GB/T41864-2022信息技術(shù)計(jì)算機(jī)視覺術(shù)語(yǔ)GB/T41772-2022信息技術(shù)生物特征識(shí)別人臉識(shí)別系統(tǒng)技術(shù)要求GB/T44020-2024信息技術(shù)計(jì)算機(jī)圖形圖像處理和環(huán)境數(shù)據(jù)表示混合與增強(qiáng)現(xiàn)實(shí)中實(shí)時(shí)人物肖像和實(shí)體的表示SJ/T11380-2008自動(dòng)聲紋識(shí)別(說話人識(shí)別)技術(shù)規(guī)范3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。3.1數(shù)字人digitalhuman通過計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺和語(yǔ)音交互等技術(shù),進(jìn)行形象、聲音、動(dòng)作等模型訓(xùn)練后,借助真人或計(jì)算驅(qū)動(dòng)、在多模態(tài)輸出設(shè)備呈現(xiàn)的虛擬人物。3.2客服型虛擬數(shù)字人servicedigitalhuman2GB/TXXXXX—XXXX面向特定行業(yè)應(yīng)用,具有開展客戶服務(wù)功能的數(shù)字人。3.32D數(shù)字人2Ddigitalhuman以二維平面形式呈現(xiàn)的數(shù)字人,包括2D擬真人、2D卡通等不同風(fēng)格。注2:2D卡通數(shù)字人形象通?;谑掷L或圖像處理軟3.43D數(shù)字人3Ddigitalhuman以三維立體形式呈現(xiàn)的數(shù)字人,包括3D超寫實(shí)、3D擬真人、3D卡通等不同風(fēng)格。3.5語(yǔ)音喚醒speechwakeup;voicetrigger處于音頻流監(jiān)聽狀態(tài)的語(yǔ)音交互系統(tǒng),在檢測(cè)到特定的特征或事件出現(xiàn)后,切換到命令字識(shí)別、連續(xù)語(yǔ)音識(shí)別等其他處理狀態(tài)的過程。[GB/T36464.1-2020,3.17]3.6端點(diǎn)檢測(cè)voiceactivitydetection一種用于分析、判斷連續(xù)音頻流中有效語(yǔ)音起始點(diǎn)和結(jié)束點(diǎn)的語(yǔ)音處理技術(shù)。[GB/T36464.1-2020,3.22]3.7語(yǔ)音增強(qiáng)speechenhancement當(dāng)有效語(yǔ)音信號(hào)被各種噪聲干擾,甚至淹沒后,從含有噪聲背景的聲音信號(hào)中提取有效語(yǔ)音信號(hào),抑制、降低噪聲干擾的技術(shù)。[GB/T36464.1-2020,3.24]3.8語(yǔ)音識(shí)別speechrecognition將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。[GB/T21023—2007,3.1]3.9語(yǔ)義理解semanticcomprehension理解數(shù)據(jù)符號(hào)的語(yǔ)義信息,或在具體業(yè)務(wù)場(chǎng)景下的需求表達(dá),并按照要求輸出正確反饋結(jié)果的過程。3GB/TXXXXX—XXXX[GB/T36464.3—2018,3.6]3.10語(yǔ)音合成speechsynthesis通過機(jī)械的、電子的方法合成人類語(yǔ)言的過程。[GB/T21024—2007,3.1]3.11人臉識(shí)別facerecognition基于自然人的面部特征對(duì)該個(gè)體的自動(dòng)識(shí)別。[GB/T44248-2024,3.1]3.12手勢(shì)識(shí)別gesturerecognition從輸入的手勢(shì)數(shù)據(jù)判別出手勢(shì)。[GB/T38665.1-2020,3.5]3.13肢體動(dòng)作識(shí)別limbrecognition從輸入的肢體數(shù)據(jù)判別出肢體動(dòng)作。3.14情感交互affectiveinteraction利用用戶情感或滿足用戶情感需求的人機(jī)交互過程。[GB/T40691-2021,3.3]3.15建模geometricmodeling以能加以操縱的形式創(chuàng)建表示三維形狀的模型的做法。[GB/T5271.13-2008,13.01.08]3.16渲染rendering從2D/3D模型中生成數(shù)據(jù)、更新模擬并渲染給定顯示設(shè)備的呈現(xiàn)輸出的過程。[GB/T44020-2024,9.1]3.17紋理texture4GB/TXXXXX—XXXX物體表面細(xì)節(jié)的一幅或幾幅二維圖形。[GB/T36341.1-2018,3.7]3.18光場(chǎng)重建lightfieldreconstruction基于光場(chǎng)相機(jī)對(duì)場(chǎng)景進(jìn)行觀測(cè)并構(gòu)建三維模型的過程。[GB/T41864-2022,3.8.4]3.19虛擬環(huán)境virtualenvironment由計(jì)算機(jī)生成的具有動(dòng)態(tài)感官信息表現(xiàn)(如雙眼立體視覺、三維聽覺、力觸覺、味覺及嗅覺等)的、多虛擬對(duì)象構(gòu)成的環(huán)境。[GB/T38247-2019,2.2.2]3.20動(dòng)作捕捉actioncapture通過對(duì)視頻序列中目標(biāo)動(dòng)作進(jìn)行跟蹤采樣,并利用該采樣信息對(duì)連續(xù)動(dòng)作進(jìn)行表示的方法。[GB/T41864-2022,3.6.3.11]4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。ASR:自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition)CG:計(jì)算機(jī)圖形(ComputerGraphics)FPS:每秒傳輸幀數(shù)(FramesPerSecond)MOS:平均意見得分(MeanOpinionScore)NLP:自然語(yǔ)言處理(NaturalLanguageProcessing)STA:語(yǔ)音動(dòng)畫合成(SpeechtoAnimation)TTS:語(yǔ)音合成(TexttoSpeech)VAD:端點(diǎn)檢測(cè)(VoiceActivityDetection)5參考框架客服型虛擬數(shù)字人系統(tǒng)包括數(shù)字人形象、視覺交互、語(yǔ)音交互、情感交互和運(yùn)營(yíng)維護(hù)模塊,其a)數(shù)字人形象模塊包括形象生成、形象驅(qū)動(dòng)等功能,其中形象生成包括2D形象生成和3D形象生成,形象驅(qū)動(dòng)分別按照驅(qū)動(dòng)方式和驅(qū)動(dòng)范圍進(jìn)行劃分;b)視覺交互模塊包括視覺采集、視覺喚醒、主體人識(shí)別、手勢(shì)識(shí)別、肢體動(dòng)作識(shí)別等功能;c)語(yǔ)音交互模塊包括語(yǔ)音采集、語(yǔ)音喚醒、前端處理、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等功d)情感交互模塊包括情感采集、情感識(shí)別、情感決策與表達(dá)等功能;5GB/TXXXXX—XXXXe)運(yùn)營(yíng)維護(hù)模塊包括后臺(tái)接入、關(guān)鍵詞維護(hù)、語(yǔ)料維護(hù)、服務(wù)流程維護(hù)等功能??头吞摂M數(shù)字人系統(tǒng)參考框架見圖1。注:虛線表示的模塊單元為可選項(xiàng)圖1客服型虛擬數(shù)字人系統(tǒng)參考框架6功能要求6.1數(shù)字人形象6.1.1形象生成6.1.1.12D形象生成2D形象生成包括以下功能要求:a)2D擬真人形象通?;谡嫒诵蜗蟛杉?,借助人工智能技術(shù)訓(xùn)練生成:1)應(yīng)保證生成的數(shù)字人以半身或全身的形態(tài)完整呈現(xiàn);2)應(yīng)保證生成的數(shù)字人形象臉部、嘴巴、牙齒等五官細(xì)節(jié)完整、清晰可見且靜態(tài)表情自然,光線均勻無(wú)陰影,并支持準(zhǔn)確的口型驅(qū)動(dòng)、面部表情模擬、自然肢體動(dòng)作;3)應(yīng)支持對(duì)數(shù)字人形象美顏、服飾更換、裝飾添加、背景替換等二次編輯,宜支持基于語(yǔ)義的二次編輯。b)2D卡通形象通?;谑掷L或圖像處理軟件等方式繪制而成:1)應(yīng)使用手繪或圖像處理軟件,通過造型設(shè)計(jì)、繪制線稿、上色、添加細(xì)節(jié)編輯來創(chuàng)造;6GB/TXXXXX—XXXX2)生成的數(shù)字人形象應(yīng)符合角色的年齡、性別、性格、職業(yè)等身份設(shè)定,具備自然的面部表情和肢體動(dòng)作。6.1.1.23D形象生成3D數(shù)字人形象通?;?D建模軟件創(chuàng)建,并通過復(fù)雜的建模、材質(zhì)貼圖、綁定等操作生成,主要包括以下功能要求:a)應(yīng)支持3D超寫實(shí)、3D擬真人、3D卡通等不同風(fēng)格中的一種或多種,并支持形象個(gè)性化定制;b)應(yīng)支持人物建模,通過CG建模、靜態(tài)掃描建模、動(dòng)態(tài)光場(chǎng)重建等建模方式,在虛擬環(huán)境中,根據(jù)數(shù)字人的風(fēng)格特征確定拓?fù)浣Y(jié)構(gòu)建立虛擬人的形狀;c)應(yīng)支持面部骨骼綁定,通過面部骨骼與關(guān)鍵特征點(diǎn)進(jìn)行綁定,控制角色的五官的位置和形狀,實(shí)現(xiàn)基于面部五官的調(diào)整的面部表情和口型驅(qū)動(dòng);d)應(yīng)支持肢體骨骼綁定,通過搭建肢體骨骼、創(chuàng)建骨骼聯(lián)動(dòng)、繪制骨骼蒙皮,實(shí)現(xiàn)半身或全身的肢體驅(qū)動(dòng)和手勢(shì)驅(qū)動(dòng);e)應(yīng)支持材質(zhì)匹配,針對(duì)不同形象風(fēng)格的數(shù)字人模型,匹配相符的皮膚、毛發(fā)、妝容、服飾等材質(zhì);f)應(yīng)支持光線制作,模擬自然界光線和人工光線;g)宜支持真實(shí)感效果渲染,包括數(shù)字人皮膚、毛發(fā)、妝容、服飾等逼真效果的渲染,以及各種特效的渲染等;h)宜支持智能生成,基于人工智能技術(shù),通過采集目標(biāo)對(duì)象的臉部、軀體、肢體等信息,生成不同形象風(fēng)格的數(shù)字人模型。6.1.2形象驅(qū)動(dòng)6.1.2.1驅(qū)動(dòng)方式數(shù)字人形象應(yīng)支持以下一種或多種驅(qū)動(dòng)方式:a)文本驅(qū)動(dòng):基于目標(biāo)文本生成對(duì)應(yīng)的語(yǔ)音、口型、表情、手勢(shì)、肢體動(dòng)作,將合成音視頻呈現(xiàn)給用戶;b)語(yǔ)音驅(qū)動(dòng):基于語(yǔ)音信息生成對(duì)應(yīng)的語(yǔ)音、口型、表情、手勢(shì)、肢體動(dòng)作,并合成音視頻呈現(xiàn)給用戶;c)真人驅(qū)動(dòng):基于攝像頭捕捉真人的口型、表情、手勢(shì)、肢體動(dòng)作,并遷移到數(shù)字人形象上,并合成音視頻呈現(xiàn)給用戶;d)視頻驅(qū)動(dòng):基于真人的視頻輸入進(jìn)行數(shù)字人的驅(qū)動(dòng),捕捉視頻中的真人的口型、表情、手勢(shì)、肢體動(dòng)作,并遷移到數(shù)字人形象上,并合成音視頻呈現(xiàn)給用戶;e)動(dòng)畫驅(qū)動(dòng):應(yīng)支持基于提供的臉部表情和肢體動(dòng)作等動(dòng)畫文件信息遷移到數(shù)字人形象上,進(jìn)行對(duì)應(yīng)的表情和動(dòng)作的展示;f)穿戴設(shè)備驅(qū)動(dòng):支持通過穿戴設(shè)備進(jìn)行數(shù)字人的驅(qū)動(dòng),通過傳感器獲得肢體動(dòng)作和臉部捕捉的相關(guān)信息,遷移到數(shù)字人形象上,可以進(jìn)行對(duì)應(yīng)的表情和動(dòng)作的展示。注:數(shù)字人系統(tǒng)可支持一種或多種類型真人動(dòng)作捕捉設(shè)備或技術(shù),6.1.2.2驅(qū)動(dòng)范圍數(shù)字人形象驅(qū)動(dòng)范圍涉及口型、表情、手勢(shì)、肢體等,具體功能要求如下:7GB/TXXXXX—XXXXa)應(yīng)支持口型驅(qū)動(dòng):應(yīng)支持基于文本、語(yǔ)音和口型數(shù)據(jù)進(jìn)行模型訓(xùn)練的STA口型驅(qū)動(dòng),實(shí)現(xiàn)口型與語(yǔ)音同步;b)宜支持表情驅(qū)動(dòng),通過眉毛,眼皮、眼睛、眉毛、鼻子、嘴巴和臉部的肌肉組例如蘋果肌、法令紋、抬頭紋等局部表情細(xì)節(jié)聯(lián)動(dòng)實(shí)現(xiàn)的面部表情驅(qū)動(dòng),實(shí)現(xiàn)表情與語(yǔ)音同步;c)宜支持手勢(shì)驅(qū)動(dòng):通過手指骨骼關(guān)鍵點(diǎn)聯(lián)動(dòng)實(shí)現(xiàn)手勢(shì)驅(qū)動(dòng),包含手腕,五指所有關(guān)節(jié)的旋轉(zhuǎn)和位置信息,實(shí)現(xiàn)手勢(shì)動(dòng)作與語(yǔ)音同步;d)宜支持肢體動(dòng)作驅(qū)動(dòng):通過肢體骨骼關(guān)鍵點(diǎn)聯(lián)動(dòng)實(shí)現(xiàn)肢體驅(qū)動(dòng),實(shí)現(xiàn)肢體動(dòng)作與語(yǔ)音同步。6.2視覺交互6.2.1視覺采集應(yīng)支持通過攝像頭采集用戶的人臉、手勢(shì)、肢體動(dòng)作,并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的圖像或視頻數(shù)據(jù)信息。6.2.2視覺喚醒視覺喚醒包括以下功能要求:a)應(yīng)支持人體感知,通過人體感知實(shí)現(xiàn)系統(tǒng)喚醒,當(dāng)感知到人體接近時(shí),能夠主動(dòng)招攬用戶,開啟語(yǔ)音交互;b)應(yīng)支持人臉感知,通過人臉感知實(shí)現(xiàn)系統(tǒng)喚醒,當(dāng)感知到人臉注視時(shí),能夠主動(dòng)招攬用戶,開啟語(yǔ)音交互。6.2.3主體人識(shí)別主體人識(shí)別包括以下功能要求:a)應(yīng)支持主體人檢測(cè),通過對(duì)用戶口型進(jìn)行識(shí)別,判斷當(dāng)前用戶是否說話,保證對(duì)話主體人的準(zhǔn)確性;b)應(yīng)支持主體人追蹤,通過對(duì)主體人目標(biāo)進(jìn)行追蹤,當(dāng)主體人移動(dòng)、轉(zhuǎn)動(dòng)時(shí),系統(tǒng)能夠保持與主體人的交互狀態(tài);c)應(yīng)支持主體人分離,能夠在復(fù)雜聲音環(huán)境下分離不同主體人的不同語(yǔ)言;d)應(yīng)支持主體人屬性識(shí)別,例如性別、年齡,是否佩戴口罩,是否戴眼鏡等,并根據(jù)不同屬性提供相應(yīng)的問候接待以及后續(xù)服務(wù)。6.2.4手勢(shì)識(shí)別手勢(shì)識(shí)別包括以下功能要求:a)宜支持手勢(shì)數(shù)據(jù)集預(yù)置,通過預(yù)先設(shè)置手勢(shì)數(shù)據(jù)集,定義每個(gè)手勢(shì)所代表的含義,手勢(shì)數(shù)據(jù)集應(yīng)滿足以下要求:1)手勢(shì)集中任意兩個(gè)手勢(shì)之間的相似程度應(yīng)盡可能低,以便區(qū)分;2)手勢(shì)集中的手勢(shì)宜簡(jiǎn)單易行;3)手勢(shì)集中手勢(shì)易于被輸入設(shè)備感知,應(yīng)適應(yīng)于不同輸入設(shè)備,設(shè)計(jì)不同手勢(shì)集合數(shù)據(jù)集;b)宜支持提供與手勢(shì)數(shù)據(jù)集對(duì)應(yīng)的識(shí)別算法的程序集,使系統(tǒng)能對(duì)用戶輸入的手勢(shì)進(jìn)行識(shí)6.2.5肢體動(dòng)作識(shí)別8GB/TXXXXX—XXXX肢體動(dòng)作識(shí)別包括以下功能要求:a)宜支持肢體動(dòng)作數(shù)據(jù)集預(yù)置,通過預(yù)先設(shè)置肢體動(dòng)作數(shù)據(jù)集,定義每個(gè)肢體動(dòng)作所代表的含義,肢體動(dòng)作數(shù)據(jù)集應(yīng)滿足以下要求:1)肢體動(dòng)作集中任意兩個(gè)肢體動(dòng)作之間的相似程度應(yīng)盡可能低,以便區(qū)分;2)肢體動(dòng)作集中的肢體動(dòng)作宜簡(jiǎn)單易行;3)肢體動(dòng)作集中肢體動(dòng)作易于被輸入設(shè)備感知,應(yīng)適應(yīng)于不同輸入設(shè)備,設(shè)計(jì)不同肢體動(dòng)作集合;b)宜支持提供與肢體動(dòng)作數(shù)據(jù)集對(duì)應(yīng)的識(shí)別算法的程序集,使系統(tǒng)能對(duì)用戶輸入的肢體動(dòng)作進(jìn)行識(shí)別。6.3語(yǔ)音交互6.3.1語(yǔ)音采集語(yǔ)音采集應(yīng)符合GB/T36464.1-2020中5.1的要求。6.3.2語(yǔ)音喚醒語(yǔ)音喚醒應(yīng)符合GB/T36464.1-2020中7.1的要求。6.3.3前端處理前端處理應(yīng)符合GB/T36464.1-2020中第7章和第8章的有關(guān)要求。6.3.4語(yǔ)音識(shí)別語(yǔ)音識(shí)別包括以下功能要求:a)應(yīng)支持中文語(yǔ)音識(shí)別,面向特定場(chǎng)景和對(duì)象,提供中文關(guān)鍵詞語(yǔ)音識(shí)別和連續(xù)語(yǔ)音識(shí)別服b)宜支持多語(yǔ)種識(shí)別,面向特定場(chǎng)景和對(duì)象,提供英語(yǔ)、法語(yǔ)、西班牙語(yǔ)等多語(yǔ)種識(shí)別服務(wù);f)宜支持多方言識(shí)別,面向特定場(chǎng)景和對(duì)象,提供粵語(yǔ)、滬語(yǔ)、閩南語(yǔ)等多方言識(shí)別服務(wù);g)宜支持多語(yǔ)種混讀識(shí)別,針對(duì)中文語(yǔ)句中包含其它語(yǔ)種單詞、數(shù)字的進(jìn)行識(shí)別服務(wù);h)宜支持自定義識(shí)別,提供自定義語(yǔ)法、自定義熱詞、個(gè)性化識(shí)別等識(shí)別服務(wù),并符合GB/T34083-2017中4.2和4.3的要求;i)宜支持識(shí)別結(jié)果處理,提供識(shí)別結(jié)果多候選、識(shí)別結(jié)果進(jìn)階等服務(wù),符合GB/T34083—2017中4.3的要求;j)宜支持語(yǔ)言信息識(shí)別,能夠給出語(yǔ)音所對(duì)應(yīng)的語(yǔ)言信息,如語(yǔ)種、方言種類等;k)宜支持說話者信息識(shí)別,能夠給出說話者信息,如性別、年齡段等。6.3.5語(yǔ)義理解語(yǔ)義理解包括以下功能要求:a)應(yīng)支持意圖理解,包括模糊識(shí)別、語(yǔ)義抽取、語(yǔ)義排序、意圖分類,能夠理解說話人的意b)宜支持命名實(shí)體識(shí)別,能夠?qū)θ嗣?、地名、機(jī)構(gòu)名、專有名詞、簡(jiǎn)稱、別稱、縮寫等具有特定意義的實(shí)體進(jìn)行識(shí)別;c)應(yīng)支持敏感信息識(shí)別,能夠根據(jù)上下文對(duì)輸入文本中的敏感內(nèi)容進(jìn)行分辨;d)應(yīng)支持語(yǔ)義拒識(shí),能夠?qū)o(wú)法處理或不應(yīng)當(dāng)處理的無(wú)效文本輸入內(nèi)容進(jìn)行分辨和拒識(shí);9GB/TXXXXX—XXXXe)應(yīng)支持對(duì)話引導(dǎo),能夠根據(jù)說話人的意圖和場(chǎng)景需求動(dòng)態(tài)生成引導(dǎo)提示用語(yǔ),引導(dǎo)用戶對(duì)其最終目的進(jìn)行陳述;f)應(yīng)支持多輪對(duì)話,包括對(duì)話狀態(tài)跟蹤、對(duì)話策略管理、對(duì)話意圖切換、跳轉(zhuǎn)及歷史信息繼承,具備上下文相關(guān)的多輪會(huì)話的功能;g)應(yīng)支持自然語(yǔ)言生成,能夠根據(jù)語(yǔ)義理解結(jié)果生成自然語(yǔ)言文本,并符合說話人的意圖、滿足語(yǔ)音交互響應(yīng);h)宜支持信息檢索,具備個(gè)性化詞典檢索、第三方信源檢索、自定義知識(shí)庫(kù)檢索等信息檢索的功能;i)宜支持文本相似度計(jì)算,能夠根據(jù)輸入的文本數(shù)據(jù),計(jì)算其與已有文本的語(yǔ)義信息一致性程度;j)宜支持檢索結(jié)果排序,可利用信息檢索和文本相似度分別計(jì)算關(guān)聯(lián)系數(shù),并對(duì)結(jié)果進(jìn)行排序;k)宜支持文本修改,能夠?qū)?duì)話中的前一句文本進(jìn)行修改;l)宜支持語(yǔ)義修正,能夠?qū)φZ(yǔ)義理解錯(cuò)誤的結(jié)果進(jìn)行自動(dòng)校正;m)宜支持邏輯推理,能夠?qū)ξ谋緝?nèi)容的邏輯計(jì)算和推導(dǎo)。6.3.6語(yǔ)音合成語(yǔ)音合成包括以下功能要求:a)應(yīng)支持中文語(yǔ)音合成,能夠?qū)⒁?guī)定格式的中文合成文本轉(zhuǎn)換成對(duì)應(yīng)的語(yǔ)音;b)應(yīng)支持流式語(yǔ)音合成,能夠?qū)⒍啻芜B續(xù)合成音頻進(jìn)行拼接后得到完整的合成音頻;c)應(yīng)支持多種合成文本編碼,能夠提供多種字符編碼格式的合成文本;d)宜支持多語(yǔ)種合成,能夠提供其他語(yǔ)種的語(yǔ)音合成,如英語(yǔ)、法語(yǔ)、西班牙語(yǔ)等;e)宜支持多方言合成,能夠提供指定方言的語(yǔ)音合成,粵語(yǔ)、滬語(yǔ)、閩南語(yǔ)等;f)宜支持多語(yǔ)種混讀合成,能夠提供中文語(yǔ)音與英語(yǔ)的語(yǔ)音合成;g)宜支持多音色合成,能夠提供多種音色的音頻特征庫(kù)供用戶選擇,如青年男聲、青年女聲、童聲等;h)宜支持個(gè)性化合成,能夠提供訓(xùn)練個(gè)性化音色庫(kù)并使用個(gè)性化音色庫(kù)進(jìn)行語(yǔ)音合成;i)宜支持用戶自定義分詞,能夠按照用戶指定的合成文本分詞方式進(jìn)行語(yǔ)音合成;j)宜支持用戶自定義讀音,能夠按照用戶指定的讀音或方式進(jìn)行語(yǔ)音合成。6.3.7知識(shí)管理宜支持接入本地和在線的預(yù)置知識(shí)庫(kù)、知識(shí)圖譜、語(yǔ)言模型,由用戶自主配置觸發(fā)條件,具備知識(shí)調(diào)用、知識(shí)推理、知識(shí)檢索、知識(shí)維護(hù)、知識(shí)統(tǒng)計(jì)等功能,滿足符合業(yè)務(wù)場(chǎng)景需要。6.4情感交互6.4.1情感采集情感采集包括以下功能要求:a)宜支持表情采集,通過攝像頭采集用戶的表情,如微笑、皺眉等,并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的圖像或視頻數(shù)據(jù)信息;b)宜支持姿態(tài)情感采集,通過攝像頭采集用戶的姿態(tài)情感,如點(diǎn)頭、搖頭等,并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的圖像或視頻數(shù)據(jù)信息;c)宜支持語(yǔ)音情感采集,通過系統(tǒng)的拾音設(shè)備采集用戶語(yǔ)音情感,如語(yǔ)氣、語(yǔ)調(diào)、音量等,GB/TXXXXX—XXXX并將其轉(zhuǎn)換成計(jì)算機(jī)能處理的語(yǔ)音特征信息;d)宜支持文本情感挖掘,通過對(duì)用戶的語(yǔ)音對(duì)應(yīng)的文本信息,對(duì)用戶表達(dá)內(nèi)容的情感進(jìn)行挖掘。6.4.2情感識(shí)別情感識(shí)別包括以下功能要求:a)宜支持表情識(shí)別,預(yù)先設(shè)置表情數(shù)據(jù)集,通過識(shí)別用戶輸入的表情信息,識(shí)別用戶的情感狀態(tài),表情數(shù)據(jù)集應(yīng)滿足以下要求:1)表情數(shù)據(jù)集中任意兩個(gè)表情之間的相似程度應(yīng)盡可能低,以便區(qū)分;2)表情數(shù)據(jù)集中的表情宜簡(jiǎn)單易行;3)表情數(shù)據(jù)集中表情易于被輸入設(shè)備感知。b)宜支持姿態(tài)情感識(shí)別,預(yù)先設(shè)置姿態(tài)情感數(shù)據(jù)集,通過識(shí)別用戶輸入的姿態(tài)數(shù)據(jù),識(shí)別用戶的情感狀態(tài),姿態(tài)情感數(shù)據(jù)集應(yīng)滿足以下要求:1)姿態(tài)情感數(shù)據(jù)集中任意兩

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論