《多模態(tài)人機交互技術(shù)要求》

上傳人：1*** IP屬地：浙江上傳時間：2024-12-22 格式：PDF 頁數(shù)：11 大小：1.22MB 積分：11 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

ICS35.240.01

CCSL00

團體標(biāo)準(zhǔn)

T/CI—2023

多模態(tài)人機交互技術(shù)要求

Multimodalhuman-computerinteractionrequirements

（征求意見稿）

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國國際科技促進會??發(fā)布

T/CI—2023

多模態(tài)人機交互技術(shù)要求

1范圍

本文件規(guī)定了多模態(tài)人機交互技術(shù)在環(huán)境中的術(shù)語、定義、測試方法，測試標(biāo)準(zhǔn)及技

術(shù)要求，確保交互系統(tǒng)的易用性、可靠性和互操作性，為用戶提供更智能、便利和舒適的

出行環(huán)境。

本部分適用于在地鐵、商場、銀行、地下停車場等內(nèi)的多模態(tài)人機交互場景。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日

期的引用文件，僅該日期對應(yīng)的版本適用于本文件；不注日期的引用文件，其最新版本（包

括所有的修改單）適用于本文件。

GB/T36339-2018智能客服語義庫技術(shù)要求

GB/T38124-2019服務(wù)機器人性能測試方法

GB/T38260-2019服務(wù)機器人功能安全評估

GB/T9394-2008人機工程學(xué)人機交互術(shù)語

GB/T26780-2011信息安全技術(shù)人機界面安全設(shè)計指南

GB/T26447-2010移動終端人機界面通用設(shè)計規(guī)范

ISO9241-110:2019人因工程學(xué)用戶界面設(shè)計原則第110部分：多模態(tài)交互

GB/T34083一2017中文語音識別互聯(lián)網(wǎng)服務(wù)接口規(guī)范

GB/T34145-2017中文語音合成互聯(lián)網(wǎng)服務(wù)接口規(guī)范

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1多模態(tài)人機交互（Multimodalhuman-computerinteraction）

指使用多種感知通道和交互方式進行人與機器之間的信息交流和操作，包括語音、觸

摸、手勢、視覺、虛擬現(xiàn)實等多種模態(tài)。

T/CI—2023

3.2服務(wù)機器人（servicerobot）

除工業(yè)自動化應(yīng)用外，提供服務(wù)的智能設(shè)備，一般為非專業(yè)人士使用的機器人。服務(wù)

人類客戶的服務(wù)機器人，應(yīng)具有多模態(tài)人機交互能力，指引帶路及信息互通，實現(xiàn)更智能、

高效的地鐵運營。

3.3人機交互界面(Human-ComputerInteractionInterface)

用戶與計算機或智能系統(tǒng)進行交互的界面，可以是語音界面、觸摸屏界面、手勢感應(yīng)

界面等。

3.4語音識別(speechrecognition)

將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。

3.5觸摸交互(TouchInteraction)

通過觸摸屏或觸摸設(shè)備實現(xiàn)用戶與計算機或智能系統(tǒng)的交互。

3.6定位(localization)：

在環(huán)境地圖上識別或分辨移動機器人的位姿

3.7導(dǎo)航(navigation)：

在環(huán)境地圖上識別或分辨移動機器人的位姿

3.8人臉識別(Facerecognition)：

人臉識別，是基于人的臉部特征信息進行身份識別的一種生物識別技術(shù)

3.9響應(yīng)時延（responselatency)：

用戶操作移動終端時,從輸入觸控指令到系統(tǒng)開始將輸出信息反饋到觸摸屏上的時間

3.10感知流暢性(perceivedfluency)：

用戶與移動終端界面進行交互操作時對界面流暢性的感知體驗

4其他

多模態(tài)人機交互應(yīng)為用戶提供更加智能、便捷和自然的交互方式，主要包括語音交互、

手勢和觸摸交互、視覺感知交互、增強現(xiàn)實（AR交互）、圖像識別與文字識別交互；可支

持多種用戶訪問方式，不同用戶群體都能方便使用系統(tǒng)。

T/CI—2023

5技術(shù)要求

5.1定位性能

(1)機器人自主定位應(yīng)與機器人本身掃圖建圖后的地圖顯示位置一致；

(2)機器人在不同環(huán)境下的應(yīng)滿足定位誤差要求；室內(nèi)環(huán)境下，定位誤差應(yīng)控制在5cm

以內(nèi)；

(3)機器人應(yīng)具備定位誤差補償?shù)哪芰Γ褂脗鞲衅鲾?shù)據(jù)進行誤差校正。

5.2導(dǎo)航性能

5.2.1技術(shù)要求

(1)導(dǎo)航路程誤差≤1000mm

(2)導(dǎo)航時間誤差≤10s內(nèi)

5.2.2測試要求

5.2.2.1導(dǎo)航路程誤差

選擇試驗標(biāo)準(zhǔn)中的直線測試路徑，指定起點A和目標(biāo)點B，使機器人在自主導(dǎo)航模

式下從A到達B，測試設(shè)備記錄機器人的行走路程Li，記L0為A-B最短路程，路程

差為Li-L0，重復(fù)N次，N≥6，計算得到均方根誤差：

----------------------------------------------式（1）

及單位路程均方根誤差：

----------------------------------------------式（2）

5.2.2.2導(dǎo)航時間誤差

選擇試驗標(biāo)準(zhǔn)中的直線測試路徑，指定起點A和目標(biāo)點B，使機器人在自主導(dǎo)航模

式下從A到達B，記錄行走時間ti。設(shè)機器人以額定速度走完A-B最短路徑所需要的

時間為t0，重復(fù)N次，N≥6，計算得到均方根誤差：

----------------------------------------------式（3）

T/CI—2023

及單位時間均方根誤差：

----------------------------------------------式（4）

5.3語音喚醒

5.3.1技術(shù)要求

(1)喚醒詞庫支持：要求支持最少10個喚醒詞，滿足不同用戶需求。

(2)喚醒成功率：按照5.6.1.3測試方法，在靜音環(huán)境下，要求喚醒成功率達到99%以

上。

(3)在30分貝（dB）背景噪聲下，要求喚醒成功率達到95%以上。

(4)喚醒詞定制：要求用戶可以自行定制喚醒詞，并在系統(tǒng)中生效。

5.3.2測試要求

語音喚醒性能的測試步驟應(yīng)該按照如下流程：在機器人正前方1m處，將提前錄制好的

“大頭”音頻以恒定的間隔進行播放。喚醒詞聲源分布如圖1所示，在下圖每個位置處進

行100次喚醒。

圖1

rL:測試環(huán)境長度

rW:測試環(huán)境寬度

5.4語音識別

5.4.1技術(shù)要求

(1)具備關(guān)鍵詞語音識別能力，在低噪環(huán)境(噪聲強度在50dB以下)中,關(guān)鍵詞語音

識別的字正確率應(yīng)在90%以上;在高噪環(huán)境(噪聲強度在60dB~65dB)中,關(guān)鍵詞語音識

T/CI—2023

別的字正確率宜在85%以上。字正確率的性能指標(biāo)定義見GB/T21023-2007的僅能識

別關(guān)鍵詞，并根據(jù)關(guān)鍵詞提供具體服務(wù)。

(2)具備連續(xù)語音識別能力。在低噪環(huán)境(聲強度在50dB以下)中連續(xù)語音識別的字

正確率宜在85%以上:在高噪環(huán)境(噪聲強度在60dB~65dB)中,連續(xù)語音識別的字正確

率官在80%以上。字正確率的性能指標(biāo)定義見GB/T21023-2007的僅能識別關(guān)鍵詞，

并根據(jù)關(guān)鍵詞提供具體服務(wù)。

(3)智能客服語音交互系統(tǒng)數(shù)字語音識別要求包括:應(yīng)支持?jǐn)?shù)字識別及服務(wù),宜支持不

同數(shù)字表達方式的識別示例并且正確率應(yīng)在99%以上。

5.5聲源定位

5.5.1技術(shù)要求

(1)定位準(zhǔn)確度：最大角度誤差：定位結(jié)果與實際聲源位置之間的最大角度誤差不得

超過±5°。

(2)最大空間距離誤差：定位結(jié)果與實際聲源位置之間的最大空間距離誤差不得超過

0.5米。

(3)動態(tài)響應(yīng)：系統(tǒng)應(yīng)在聲源位置變化后的1000毫秒內(nèi)，完成聲源定位并輸出結(jié)果。

(4)實時性：系統(tǒng)的聲源定位響應(yīng)延遲應(yīng)不超過500毫秒。

5.5.2測試要求

(1)時間差法測試：使用多個微型麥克風(fēng)陣列，同時記錄聲源信號到達每個麥克風(fēng)的

時間，通過計算時間差來確定聲源方向。

(2)幅度差法測試：使用多個微型麥克風(fēng)陣列，同時記錄聲源信號到達每個麥克風(fēng)的

幅度差，通過計算幅度差來確定聲源方向。

(3)波束形成測試：使用波束形成算法和多個麥克風(fēng)，測試算法對聲源定位的準(zhǔn)確性

和魯棒性。

(4)聲源跟蹤測試：測試聲源定位系統(tǒng)對運動聲源的跟蹤能力，包括聲源的速度和加

速度變化等。

5.6人臉識別

5.6.1技術(shù)要求

(1)機器人人臉識別技術(shù)在標(biāo)準(zhǔn)測試數(shù)據(jù)集上的準(zhǔn)確率90%以上。

(2)機器人識別人臉的響應(yīng)時間，例如在3秒內(nèi)完成人臉識別。

T/CI—2023

(3)機器人應(yīng)在0.5米外、3米距離內(nèi)，達到識別準(zhǔn)確率標(biāo)準(zhǔn)。

(4)機器人應(yīng)在不同角度和姿態(tài)下進行人臉識別，例如正面、側(cè)面、傾斜等。

(5)機器人應(yīng)具備同時識別多個人臉，并區(qū)分不同人員的能力。

(6)機器人在目標(biāo)人臉上的拒識率不大于1%。

(7)機器人應(yīng)保持較高的識別穩(wěn)定性，例如在嘈雜環(huán)境或高溫環(huán)境下的穩(wěn)定性。

5.6.2測試要求

人臉識別的性能可分為人臉檢測成功率、人臉識別成功率、人臉識別距離三項指標(biāo)，

測試流程應(yīng)該按照如下步驟:

(1)人臉檢測測試步驟如下:

1僅1名測試人員站在機器人攝像頭檢測區(qū)城內(nèi),根據(jù)系統(tǒng)提示信息,檢查機器人

是否能檢測到測試人員的面部;

2所有測試人員重復(fù)步驟①3次,按照公式計算人臉檢測成功率C，取最小值作

為測試結(jié)果;

×100%

式中:C=N

C--人臉檢測成功率;

N--機器人檢測到的人臉總數(shù):

N--測試人員總數(shù)。

3多名測試人員站在機器人攝像頭的檢測區(qū)域內(nèi),根據(jù)系統(tǒng)提示信息，檢查機器人

所能識別的最大人臉數(shù)目,記錄連續(xù)測試成功檢測3次的最小值，同時,記錄每次實

際測試人員數(shù)

(2)人臉識別測試步驟如下:

1機器人采集測試人員的面部信息或者將包含測試人員面部信息的人臉測試集導(dǎo)

入機器人中,并完成測試人員的信息錄入;

2僅1名測試人員站在機器人攝像頭檢測區(qū)域內(nèi),測試人員與機器人保持0.5m的

距離，測試人員的面部與機器人分別為0°和45°,根據(jù)系統(tǒng)提示信息，檢查機器人

是否能檢測與識別到測試人員的正臉和側(cè)臉，記錄測試結(jié)果;

3測試人員依次重復(fù)步驟②3次,按照公式分別計算0°正臉和45°側(cè)臉識別

成功率G，其中識別錯誤或者人臉檢測不成功均視為人臉識別失敗。

T/CI—2023

×100%

式中?=?

G--人臉識別成功率;

U--機器人正確識別人臉總數(shù)；

U--測試人員總數(shù)。

注1:以上步驟,測試人員正臉面對機器人，即測試人員面部方向與機器人臉部方向夾

角為0”。

注2:根據(jù)測試需要,可調(diào)整室內(nèi)背景色,但需要在測試報告中注明。

(3)人臉識別距離測試步驟如下:

固定機器人,僅1名測試人員站在機器人攝像頭檢測區(qū)域內(nèi),測試人員分別依次與機器

人保持0.5m、1.5m、2m、2.5m、3m的距離，不同距離保持同一角度;根據(jù)系統(tǒng)提示信息,

檢查機器人是否能識別測試人員，記錄機器人連續(xù)3次成功人臉識別情況下，最大距離中

的最小值。

5.7觸摸響應(yīng)

5.7.1技術(shù)要求

響應(yīng)時延主要影響用戶對觸控交互及時性、操控性和愉悅性的體驗。響應(yīng)時延不應(yīng)高

于用戶可容忍的最長等待時間，宜避免用戶感受到明顯的延遲。在用戶的延遲感覺閩限以

上，響應(yīng)時延越短，流暢性體驗越好:當(dāng)響應(yīng)時延接近或短于延遲感覺闕限,繼續(xù)減小響應(yīng)

時延對流暢性體驗的改善不明顯。響應(yīng)時延感知流暢性指標(biāo)要求見下表1。

表1

感知流暢性等級

指標(biāo)項

一級二級三級

應(yīng)用啟動響應(yīng)延時

t響應(yīng)時延≤150ms＜t響應(yīng)時延小t響應(yīng)時延＞

點擊響應(yīng)時延頁面切換響應(yīng)時延

150ms于250ms250ms

控件出現(xiàn)響應(yīng)時延

上下滑動響應(yīng)時延

t響應(yīng)時延≤100ms＜t響應(yīng)時延小t響應(yīng)時延＞

滑動響應(yīng)時延

100ms于150ms150ms

左右滑動響應(yīng)時延

T/CI—2023

5.8觸控跟隨

5.8.1技術(shù)要求

最大跟手距離反映的是用戶對觸控交互操控性的體驗。最大跟手距離越小,操控性越好,

用戶流暢性體驗越好。

5.8.2測試方法

最大跟手距離測試采用勻速滑動的方式，即機械手觸筆以固定的速度在觸摸屏上滑動。

最大跟手距離宜采用300mm/s600mm/s和900mm/s三種滑動速度進行測試。觸控跟隨性

能的測試步驟應(yīng)該按照如下：

(1)最大跟手距離測量起點:以機械手觸筆點觸界面目標(biāo)的時間為起始點；

(2)最大跟手距離測量終點:以機械手觸筆離開屏幕的時間為結(jié)束點；

(3)最大跟手距離為測量起點至測量終點時段內(nèi),機械手觸筆位置和目標(biāo)位置在滑動

方向上的最大間距。

5.9動態(tài)界面

5.9.1技術(shù)要求

動效時長反映的是新頁面打開或控件出現(xiàn)過程的時間長短,主要影響用戶對觸控交互

及時性、連續(xù)性、自然性和愉悅性的體驗。動效時長不宜過長也不宜過短，過長會給用戶

帶來拖沓的感覺，過短則易帶來閃跳感。

表2動態(tài)界面感知流暢性指標(biāo)要求

感知流暢性等級

指標(biāo)項

一級二級三級

應(yīng)用打開縮放時長

250ms＜t響應(yīng)650ms＜t響應(yīng)t響應(yīng)時延＞

點擊響應(yīng)時延頁面切換左右平移動效時長

時延小于650ms時延小于850ms850ms

頁面切換上下平移動效時長

5.9.2測試要求

動態(tài)界面性能的測試步驟應(yīng)該按照如下：

(1)動效時長測量起點:以響應(yīng)時延測量終點為起始點。

T/CI—2023

(2)動效時長測量終點:以應(yīng)用窗口或新頁面窗口完成動效屬性的變化為結(jié)束點,這種

變化包括但不限于以下情況:

1窗口或控件擴展到邊界，界面靜止;

2窗口或控件擴展到邊界，界面有伸縮(適應(yīng)),而后靜止。

注：動效時長為測量起點至測量終點的時長。

5.10視覺交互

5.10.1技術(shù)要求

參考ISO19794-5:2011《信息技術(shù).生物特征識別.面部圖像數(shù)據(jù)》。

5.10.2測試要求

使用標(biāo)準(zhǔn)的面部表情和手勢測試樣本，測試攝像頭的圖像采集質(zhì)量和人臉識別能力。

5.11智能搜索

5.11.1技術(shù)要求

在不能確定唯一答案時,系統(tǒng)應(yīng)支持給出多個答案,宜支持推薦結(jié)果列表;列表的排序宜

具備按照問題的相關(guān)程度，或按照列表結(jié)果的時間順序,或按照字到#筆畫排序的能力。智

能搜索的準(zhǔn)確率經(jīng)過不同知識背景、不同年齡的多人、多輪次測試,客觀測試準(zhǔn)確率應(yīng)達到

95%以上，主觀測試準(zhǔn)確率應(yīng)達到85%以上,計算方法見式(2)。

×100%----------------------------------------------式（5）

???

???=?

5.11.2測試要求

采用機器及人工的方式輸入數(shù)據(jù),對智能搜索功能、搜索結(jié)果的相關(guān)度計算方法進行評

價。觀察到系統(tǒng)返回結(jié)果的相關(guān)度結(jié)果的計算值;觀察到選取不同相似度計算方法后,計

人人文庫> 全部分類> 專業(yè)文獻 > 工程機械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《多模態(tài)人機交互技術(shù)要求》

文檔簡介

溫馨提示

最新文檔

評論

《多模態(tài)人機交互技術(shù)要求》

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔