《基于AI的多媒體內容識別基本要求》

上傳人：1*** IP屬地：浙江上傳時間：2025-01-04 格式：PDF 頁數(shù)：8 大?。?17.69KB 積分：11 舉報 版權申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

ICS35.020

L70

團體標準

T/ISC0006—2020

基于AI的多媒體內容識別基本要求

MultimediacontentrecognitionrequirementsbasedonAItechnology

2020-09-24發(fā)布2020-12-01實施

中國互聯(lián)網(wǎng)協(xié)會發(fā)布

T/ISC0006—2020

基于AI的多媒體內容識別基本要求

1范圍

本文件給出了基于AI的多媒體內容識別的技術框架和基本要求，包括不限于多媒體視覺技術、多媒

體內容文字識別技術、多媒體語義理解技術等，在語音、視頻、圖片、NLP等多媒體內容上的檢索識別

能力，以及多媒體內容識別中的數(shù)據(jù)安全能力要求。

本文件適用于互聯(lián)網(wǎng)企業(yè)、政府、科研單位開展基于AI的多媒體內容識別的設計、開發(fā)、應用等方

面的指導和參考。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中，注日期的引用文件，

僅該日期對應的版本適用于本文件；不注日期的引用文件，其最新版本（包括所有的修改單）適用于本

文件。

GB/T35273—2020個人信息安全規(guī)范

3術語和定義

下列術語和定義適用于本文件。

3.1

惡意信息maliciousinformation

指國家相關法律法規(guī)中規(guī)定的，以及根據(jù)具體業(yè)務場景不同而對業(yè)務有負面影響的信息。

4縮略語

以下縮略語適用于本文件：

AI人工智能(ArtificialIntelligence)

ASR自動語音識別（AutomaticSpeechRecognition）

NLP神經(jīng)語言程序學(Neuro-linguisticprogramming)

OCR光學字符識別（OpticalCharacterRecognition）

5概述

本標準給出了多媒體內容識別的基本技術架構，包括:圖片識別、文本識別、視頻識別，以及與數(shù)

據(jù)標注系統(tǒng)的接口等。多媒體內容識別基本技術架構見圖1。

T/ISC0006—2020

圖1多媒體內容識別技術架構

圖片識別方面，通過圖片分類對干擾圖片進行過濾、對圖片進行初步分類，再將內容送入相應的識

別模塊，如OCR識別、頭像識別、主動內容識別等。

文本識別方面，通過文本抗干擾進行過濾，過濾、替換干擾內容，再將內容送入相應的識別模塊中，

如關鍵詞、文本主動識別、情感分類等。

音頻識別方面，通過音頻ASR、音頻喚醒、說話人識別、語種檢測翻譯等模型，識別特征明顯的音

頻樣本，再將不易識別樣本通過核心主動識別模型進行識別。

視頻識別方面，通過截幀、抽取音頻流、抽取文字流的方式，通過對視頻中的圖片、文本、音頻內

容的識別得到對視頻進行識別的綜合結果。

6基于AI的多媒體內容識別技術要求

6.1圖片識別

6.1.1初篩圖片分類

初篩圖片分類，是將圖片按照不同的類別進行初步分類的算法模型。分類方法包括，但不限于：

——按照內容排版分類：圖文混合類、純文本類圖片、拼圖類圖片等；

——按照內容分類：色情類圖片、暴力類圖片、低俗類圖片等；

——按照類型分類：漫畫類圖片、場景類圖片、人群類圖片、物品類圖片等。

技術要求如下：

a)應支持多種格式的圖片的讀取；

b)應具有圖片旋轉、縮放的魯棒性，不會因為圖片的旋轉、縮放導致算法結果有較大差異；

c)應支持基于多維度的圖片初步分類模型；

d)應支持圖片分類類別的擴展；

e)應對干擾因素具有一定的魯棒性，例如干擾線、噪點、局部馬賽克等；

T/ISC0006—2020

f)應提供訓練圖片模型的接口，進行圖片標注和訓練；

g)應提供低延遲、高并發(fā)的模型算法；

h)應能發(fā)現(xiàn)并識別諸如信息隱寫、圖床等信息藏匿技術藏匿的信息。

6.1.2OCR識別

OCR識別是對圖片進行文字識別，為惡意信息識別提供最準確的文字內容。技術要求如下：

a)適應多種業(yè)務場景的圖片文字分布；應具備各種方向旋轉體的圖片OCR識別能力；

b)多圖文本行混合，具備分級批識別能力；

c)應支持對各種文字變體，如宋體、幼圓、黑體等計算機字體或手寫字體的識別能力；

d)應支持對不同大小字體的識別能力；

e)應對干擾因素具有一定的魯棒性，例如復雜背景、干擾線、噪點等；

f)應提供訓練、標注圖片模型的接口，進行圖片標注和訓練。

6.1.3頭像識別

頭像識別是為業(yè)務場景的圖片提供敏感人物識別，技術要求如下：

a)具備敏感人物的人臉識別能力，并可以識別PS或者帶裝飾品（口罩或墨鏡等）人臉、側臉、人

臉以及模糊人臉等各種類型；

b)可以共享識別網(wǎng)絡底層參數(shù)，并使用獨立分支的參數(shù)進行特定人物的分類識別；

c)應對干擾因素具有一定的魯棒性，例如漫畫人臉、模糊圖片等；

d)應提供敏感人物模型的運營接口，支持敏感人物的增加、刪除、更新、查詢能力，進行敏感人

物模型的訓練、更新、優(yōu)化。

6.1.4主動內容識別

主動識別是指根據(jù)具有惡意目的業(yè)務的特性，將業(yè)務分類細化，在不同業(yè)務場景下，對不同的分類

做不同的處理。技術要求如下：

a)應具備識別不同類型惡意內容的能力,包括不限于：色情類圖片、暴力類圖片、血腥類圖片、

違法違禁商品類圖片；

b)具備基于多維度模型的擴展能力，可以整合多個模型提供統(tǒng)一的識別結果；

c)應具備相似樣本的識別能力，能夠基于已經(jīng)發(fā)現(xiàn)的樣本圖片，識別相似或相近的內容的能力；

d)對干擾因素具有一定的魯棒性，例如拼圖圖片、局部馬賽克圖片等；

e)應提供訓練圖片模型的接口，進行圖片標注和訓練。

6.2文本識別

6.2.1抗干擾模型

文本預處理模型是針對文本中的對抗文字進行預處理、過濾的基礎模型，技術要求如下：

a)應具備識別不同類型的干擾文本的能力,包括不限于：拆分組合字替換、同音字識別替換、同

義詞替換、象形字替換、干擾符替換、表情符替換、特殊字符替換等能力；

b)應具備對不同字符編碼的處理能力，可將不同的字符編碼轉換成統(tǒng)一的字符編碼；

c)應具備模型擴展能力，可以針對不同類別的字符進行替換、過濾；

d)應提供文字樣本擴展的接口，進行文字樣本的增加、修改、刪除、查詢能力；

e)應支持發(fā)現(xiàn)不在已知范圍內的新詞識別，例如：互聯(lián)網(wǎng)流行語言、小眾群體黑話等。

6.2.2關鍵詞識別

T/ISC0006—2020

關鍵詞模型是基于關鍵詞進行文本內容識別的基礎模型，技術要求如下：

a)應具備多關鍵詞的匹配、反匹配、多重組合等能力；

b)應具備按照不同類別、不同業(yè)務進行關鍵詞分庫查詢匹配的能力；

c)應具備多級詞庫匹配的能力，例如：提供通用詞庫、業(yè)務詞庫等詞庫的組合查詢。同時也應具

備多級詞庫的管理能力；

d)應具備關鍵詞的增加、刪除、查找、更新能力，進行關鍵詞的運營。

6.2.3文本主動識別

文本主動識別模型是基于文本語義，對文本內容進行識別的模型，技術要求如下：

a)應具備基于文本語義進行文本內容識別的能力，包括不限于：色情類文本、違法類文本、暴力

恐怖類文本、涉政類文本、謠言類文本、辱罵類文本、廣告引流類文本的識別能力；

b)應具基于多維度模型的擴展能力，可以整合多個模型提供統(tǒng)一的識別結果；

c)應具備相似樣本的識別能力，能夠基于已經(jīng)發(fā)現(xiàn)的段落樣本，識別相似或相近的內容的能力；

d)應提供文本樣本擴展的接口，進行文字樣本的增加、修改、刪除、查詢能力。

6.2.4情感分類

情感分類是基于文本語義，對文本描述的主觀情緒進行分析識別的模型，技術要求如下：

a)應具備基于文本語義進行基本情緒識別的能力，包括不限于：正面類情緒、負面類情緒、中性

類情緒的識別；

b)應具備基于多維度模型的擴展能力，可以整合多個模型提供統(tǒng)一的識別結果；

c)應提供語料庫擴展的接口，進行語料樣本的增加、修改、刪除、查詢能力。

6.3音頻識別

6.3.1說話人識別

說話人識別，是生物特征識別技術的一種，指利用人的發(fā)聲特征進行身份鑒定的技術，因此也被成

為“聲紋識別”，用于識別特定人群的語音信息。技術要求如下：

a)應具備基于聲紋信息，識別具體說話人的能力；

b)應具基于多維度模型的擴展能力，可以整合多個模型提供統(tǒng)一的識別結果；

c)應具備基于已有添加的說話人語料庫樣本識別同一說話人所說語音的識別能力；

d)應提供語音語料樣本庫的擴展接口，進行語音語料庫的增加、修改、刪除、查詢能力；

e)應對干擾因素具有一定的魯棒性，例如干擾背景音樂、遠場說話、耳語說話等。

6.3.2語音關鍵詞喚醒

語音關鍵詞喚醒通常指設備在休眠狀態(tài)下，使用預定義關鍵詞喚醒設備從而進行操作的過程。在音

頻識別領域中，將語音喚醒技術應用在互聯(lián)網(wǎng)音視頻關鍵詞的檢測中。技術要求如下：

a)應具備語音關鍵詞的匹配能力；

b)應具備按照不同類別、不同業(yè)務進行關鍵詞分庫匹配的能力；

c)應具備多級詞庫的組合匹配的能力，包括多級詞庫的管理能力；

d)應具備相應關鍵詞的增加、刪除、查找、更新能力，并開展關鍵詞運營；

e)應對干擾因素具有一定的魯棒性，例如干擾背景音樂等。

6.3.3語種檢測/翻譯

T/ISC0006—2020

語種檢測/翻譯是指檢測不同語種的內容，將語音內容翻譯為固定的某種語言以便后續(xù)進行識別的

能力。

a)應具備多個語種的檢測、翻譯能力，包括不限于：英語、維語、藏語等預言；

b)應對干擾因素具有一定的魯棒性，例如干擾背景音樂等；

c)應提供語料訓練的接口，進行語料樣本的標注、訓練，以及對模型的優(yōu)化。

6.3.4ASR喚醒

語音ASR是指將輸入的語音信息，輸出轉換成可閱讀的文字的算法模型。技術要求如下：

a)應具備對特定語種的文字轉換能力。包括不限于漢語；

b)應對干擾因素具有一定的魯棒性，例如干擾背景音樂、耳語、遠場說話等；

c)應具備對識別內容進行語義修正的能力，即通過上下文關聯(lián)性，對識別的文本內容進行修正，

選擇正確的同音字、同音詞的能力；

d)應提供語料訓練的接口，進行語料樣本的標注、訓練，以及對模型的優(yōu)化。

6.3.5音頻主動識別

音頻主動識別是指將輸入的語音信息，不經(jīng)過文字轉換就可進行識別分類的模型。技術要求如下：

a)應具備基于音頻信息進行音頻主動識別的能力，包括不限于嬌喘類音頻、色情類音頻、政治類

音頻等。

b)應具基于多維度模型的擴展能力，可以整合多個模型提供統(tǒng)一的識別結果。

c)應具備相似樣本的識別能力，能夠基于已經(jīng)發(fā)現(xiàn)的音頻段落樣本，識別相似或相近的內容的能

力。

d)應提供語料訓練的接口，進行語料樣本的標注、訓練，以及對模型的優(yōu)化。

e)應對干擾因素具有一定的魯棒性，例如干擾背景音樂、遠場說話、錄制聲音、音頻偽裝等。

7標注數(shù)據(jù)更新接口

7.1數(shù)據(jù)增刪改查接口

數(shù)據(jù)標注更新接口，是經(jīng)過人工審核將標注好的樣本和標注樣本庫進行交互的一系列接口，用于對

標注樣本庫進行操作。技術要求如下：

a)應具備增加、刪除、查找、修改已經(jīng)標注的音頻、視頻、圖片、文本、文件、鏈接圖文綜合媒

體等樣本及其附屬信息的能力。

b)應具備批量進行增加、刪除、修改、查詢的功能。

c)應具備相應的日志記錄功能。

d)應具備相應的人員權限管理功能。

e)應具備自動去重能力，當發(fā)現(xiàn)樣本庫樣本相似性較高的情況下，可以標記或提醒添加人注意相

關

樣本的添加。

7.2數(shù)據(jù)多租戶接口

數(shù)據(jù)的多租戶接口是對于標注樣本庫，支持生成多個樣本庫，并可對多個樣本庫進行操作的接口。

技術要求如下：

T/ISC0006—2020

a)應具備增加、刪除、查找、修改某一個音頻、視頻、圖片、文本、文件、鏈接圖文綜合媒體等

樣本的樣本庫及其附屬信息的能力；

b)樣本庫中的樣本應可獨立運營，不受其他樣本庫的干擾。包括不限于其他樣本庫中樣本的增加、

刪除、修改，以及其他樣本庫的增加、刪除、修改；

c)同一個或相近似的樣本，應支持存在于一個或多個的樣本庫中；

d)樣本庫應該支持對多租戶生成權限不重疊的樣本庫。

8基于AI的多媒體內容識別的數(shù)據(jù)安全

8.1數(shù)據(jù)采集

數(shù)據(jù)采集環(huán)節(jié)指數(shù)據(jù)獲取和創(chuàng)建過程。要求如下：

a)應告知用戶被收集的數(shù)據(jù)類型、使用目的，并獲得用戶授權許可；

b)應經(jīng)用戶同意，采集用戶個人信息，不應欺詐、誘騙、強迫個人提供信息。

8.2數(shù)據(jù)存儲

數(shù)據(jù)存儲環(huán)節(jié)指將數(shù)據(jù)持久保存在系統(tǒng)中，數(shù)據(jù)存儲應采取必要的安全措施，確保數(shù)據(jù)存儲系統(tǒng)安

全及數(shù)據(jù)自身安全，要求包括不限于:

a)應及時安裝更新或補丁；

b)應管理移動介質和移動辦公設備；

c)應管理數(shù)據(jù)的訪問權限，按照數(shù)據(jù)的重要性、敏感性等因素進行相應的賬號管理和權限分配；

d)應對于重要或敏感數(shù)據(jù)加密存儲、重要數(shù)據(jù)進行備份。

8.3數(shù)據(jù)傳輸

數(shù)據(jù)傳輸環(huán)節(jié)指數(shù)據(jù)在組織內外部的流轉過程，應確保以下安全措施：

a)應確保數(shù)據(jù)傳輸鏈路安全采用加密傳輸技術或協(xié)議；

b)應設置數(shù)據(jù)傳輸冗余鏈路。

8.4數(shù)據(jù)加工

人人文庫> 全部分類> 專業(yè)文獻 > 工程機械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《基于AI的多媒體內容識別基本要求》

文檔簡介

溫馨提示

最新文檔

評論

《基于AI的多媒體內容識別基本要求》

文檔簡介

溫馨提示

最新文檔

評論

相關文檔