具身智能語料庫建設(shè)導(dǎo)則

上傳人：天*** IP屬地：上海上傳時間：2024-11-13 格式：DOCX 頁數(shù)：16 大?。?36.36KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

具身智能語料庫建設(shè)導(dǎo)則范圍本文件規(guī)定了建設(shè)具身智能模型訓(xùn)練的泛語言、多模態(tài)語料庫的一般方法。本文件適用于具身智能語料庫的研究、開發(fā)、維護(hù)、應(yīng)用、評估等工作。其它與具身智能語料庫建設(shè)相關(guān)的工作也可參照使用。規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日期的引用文件，僅該日期對應(yīng)的版本適用于本文件；不注日期的引用文件，其最新版本（包括所有的修改單）適用于本文件。GY/T353-2021網(wǎng)絡(luò)視聽節(jié)目視頻格式命名及參數(shù)規(guī)范T/SAIAS015—2024《語料庫建設(shè)導(dǎo)則》GB/T36073-2018數(shù)據(jù)管理能力成熟度評估模型GB/T4894-2009信息與文獻(xiàn)術(shù)語GY/T360-2022廣播電視和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容標(biāo)識標(biāo)簽規(guī)范GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范YD/T4245-2023電信網(wǎng)和互聯(lián)網(wǎng)數(shù)據(jù)脫敏技術(shù)要求和測試方法GB/T22239-2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護(hù)基本要求術(shù)語和定義下列術(shù)語和定義適用于本文件。

數(shù)據(jù)資源dataresources以電子化形式記錄和保存的具備原始性、可機器讀取、可供社會化再利用的數(shù)據(jù)集合。

數(shù)據(jù)表征模式datarepresentationmodes計算機中存儲和表達(dá)數(shù)據(jù)的形式或結(jié)構(gòu)。

語料corpus語言材料或語言應(yīng)用的樣本。

語料庫corpora由依據(jù)一定抽樣方法收集的自然出現(xiàn)的語料所構(gòu)成的電子數(shù)據(jù)庫。注：是按照一定目的和方法進(jìn)行選擇并有序排列的數(shù)據(jù)匯集。

模態(tài)modal機器對現(xiàn)實世界信息的感知模式或信息通道，包括數(shù)據(jù)表征模式（例如文本、圖像、語音、視頻、生物和生理信息的數(shù)據(jù)表征）、數(shù)據(jù)采集機制（將每種傳感設(shè)備采集到的數(shù)據(jù)視為一種模態(tài)），以及數(shù)據(jù)特征主體（如對特定主體的局部信息進(jìn)行數(shù)據(jù)化表征）。

敏感信息sensitiveinformation如果公開或者濫用會造成潛在危害的信息。[來源：GB/T4894-2009，.4，有修改]

脫敏de-identification去除可確認(rèn)個人或組織身份的數(shù)據(jù)與數(shù)據(jù)主體之間聯(lián)系的過程。[來源：ISO/TS25237:2008，3.18]

匿名化數(shù)據(jù)anonymizeddata去除直接涉及數(shù)據(jù)主體的個人或組織數(shù)據(jù)。[來源：GB/T4894-2009，.3，有修改]

主體subject視覺作品中的中心或主要對象，具有代表性、典型性，也是制作者想要傳達(dá)的主要信息或情感的載體。

單模態(tài)語料庫mono-modalcorpus收錄音頻、視頻、圖像或文字材料之一種模態(tài)語料的語料庫。多模態(tài)語料庫multi-modalcorpus收錄音頻、視頻、圖像和文字材料等語料，并采用多模態(tài)方式加工、檢索和統(tǒng)計的語料庫。

數(shù)據(jù)片段dataclip以片段形式記錄和保存的具身智能模型訓(xùn)練使用的數(shù)據(jù)集合，一般時長為10s，由100個數(shù)據(jù)時刻組成。

數(shù)據(jù)時刻datatick在同一時刻中，由各相機視頻幀、雷達(dá)數(shù)據(jù)、本體數(shù)據(jù)、軌跡導(dǎo)航數(shù)據(jù)組成的多模態(tài)的集合。

模擬仿真平臺基于計算機的系統(tǒng)，用于模擬現(xiàn)實世界或想象中的環(huán)境、條件或系統(tǒng)。

具身智能EmbodiedAI

具身智能系統(tǒng)EmbodiedAISystem基于物理身體進(jìn)行感知和行動的智能系統(tǒng)，其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動，從而產(chǎn)生智能行為和適應(yīng)性。注：本標(biāo)準(zhǔn)限定的具身智能本體包括泛人形機器人、仿人機器人、智能機器人等。

點云pointcloud以離散、不規(guī)則方式分布在三維空間中的點的集合?？s略語下列縮略語適用于本文件。NSFW不適于工作場所瀏覽（NotSafeForWork,NotSuitableForWork）FOV景深（FieldOfView）SFT有監(jiān)督微調(diào)（SupervisedFine-Tuning）具身智能數(shù)據(jù)要求通則具身智能語料庫，是由一系列數(shù)據(jù)集組成，每個數(shù)據(jù)集是由一系列數(shù)據(jù)片段組合而成，每個數(shù)據(jù)片段是由一系列數(shù)據(jù)時刻組成，每個時刻由所有傳感器在同一時刻產(chǎn)生數(shù)據(jù)的集合。數(shù)據(jù)集具身智能語料庫數(shù)據(jù)集，由一系列數(shù)據(jù)片段的形式存儲，由一系列數(shù)據(jù)片段有序或自由組合而成，適用于具身智能模型訓(xùn)練使用。本文件規(guī)定的數(shù)據(jù)集與數(shù)據(jù)片段關(guān)系如圖1所示。圖1數(shù)據(jù)集與數(shù)據(jù)片段關(guān)系數(shù)據(jù)片段本文件規(guī)定的數(shù)據(jù)片段由連續(xù)的若干個數(shù)據(jù)時刻組成。本文件所定義的數(shù)據(jù)片段與數(shù)據(jù)時刻的關(guān)系如圖2所示。圖2數(shù)據(jù)片段與數(shù)據(jù)時刻的關(guān)系數(shù)據(jù)時刻本文件規(guī)定的數(shù)據(jù)時刻內(nèi)容包含同一時刻的視頻數(shù)據(jù)、雷達(dá)數(shù)據(jù)、軌跡導(dǎo)航數(shù)據(jù)以及本體數(shù)據(jù)，每一個數(shù)據(jù)時刻是時空同步的。按每秒10幀為例，一個數(shù)據(jù)時刻是在1幀內(nèi)所有傳感器數(shù)據(jù)的集合，即所有傳感器在100毫秒（ms）內(nèi)產(chǎn)生數(shù)據(jù)的集合。本文件所定義的數(shù)據(jù)時刻內(nèi)容包括以下數(shù)據(jù)類型：（a）相機數(shù)據(jù)：指的是各相機數(shù)據(jù)；（b）雷達(dá)數(shù)據(jù)：指的是激光雷達(dá)數(shù)據(jù)、毫米波雷達(dá)數(shù)據(jù)、超聲波等大數(shù)據(jù)等；（c）導(dǎo)航數(shù)據(jù)：指的是GPS、地圖數(shù)據(jù)、GNSS數(shù)據(jù)、IMU數(shù)據(jù)等；（d）本體數(shù)據(jù)：指的是本體狀態(tài)數(shù)據(jù)、控制命令數(shù)據(jù)、本體動態(tài)數(shù)據(jù)等；（e）標(biāo)注數(shù)據(jù)：文本標(biāo)注數(shù)據(jù)、圖像標(biāo)注數(shù)據(jù)、音頻標(biāo)注數(shù)據(jù)等；（f）合成數(shù)據(jù)：指的是通過仿真平臺合成的數(shù)據(jù)。（g）其他數(shù)據(jù)：傳感器標(biāo)定數(shù)據(jù)、文本數(shù)據(jù)、音頻數(shù)據(jù)等；采集數(shù)據(jù)資源要求一般要求作為具身智能語料庫素材的數(shù)據(jù)資源應(yīng)滿足以下一般要求：（a）數(shù)據(jù)模態(tài)：數(shù)據(jù)資源具備多模態(tài)要求，并能涵蓋多模態(tài)傳感數(shù)據(jù)；（b）數(shù)據(jù)同步性：數(shù)據(jù)資源應(yīng)具備同步性，多模態(tài)多傳感器數(shù)據(jù)的開始時間與結(jié)束時間是一致的，保持時空同步性；（c）數(shù)據(jù)多樣性：數(shù)據(jù)資源來自多區(qū)域多場景全時空數(shù)據(jù)；（d）數(shù)據(jù)規(guī)模：數(shù)據(jù)資源具有足夠的規(guī)模，能支撐模型訓(xùn)練后有較好的泛化性；（e）數(shù)據(jù)密級：作為承載數(shù)據(jù)資源的最小單位的文件不設(shè)置對其內(nèi)容操作的權(quán)限控制；（f）數(shù)據(jù)質(zhì)量：數(shù)據(jù)資源具有高質(zhì)量和可靠性，并不含不適宜的內(nèi)容。數(shù)據(jù)資源要求具身智能數(shù)據(jù)資源包括視頻數(shù)據(jù)、雷達(dá)數(shù)據(jù)、音頻數(shù)據(jù)、本體數(shù)據(jù)和軌跡導(dǎo)航數(shù)據(jù)，具備多模態(tài)要求，符合以下指標(biāo)和要求。視頻數(shù)據(jù)視頻表征的數(shù)據(jù)，簡稱視頻數(shù)據(jù)，是以一系列序列幀的形式存儲，每個幀可以是圖像表征，適用于視頻內(nèi)容的存儲和處理。本文件所定義的具身智能視頻類型如表1所述。視頻數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或（和）要求說明1視頻類型見表22數(shù)據(jù)資源內(nèi)容視頻及對應(yīng)文字說明或視頻介紹，如拍攝地點、時間、設(shè)備、照明條件、天氣條件、環(huán)境條件等信息3視頻分辨率宜1080P（1920x1080像素）及以上4視頻幀率25~30幀/秒5單一視頻時間長度10秒及以上6視頻文件格式MP4/AVI/YUV/H264等7視頻驗收標(biāo)準(zhǔn)除清晰外，對視頻素材的隨機抽樣中，應(yīng)有80%包含主體（不含主體的視頻素材示例，包括但不限于航拍、延時風(fēng)景攝影等）視頻數(shù)據(jù)來自本體頭部、胸口、左右手臂末端、第三方視角攝像頭的視頻序列，用于物體檢測、語義分割、環(huán)境檢測、場景設(shè)施識別等。本文件規(guī)定攝像頭視頻數(shù)據(jù)分類及說明見表2。視頻數(shù)據(jù)分類表序號類型說明1頭部視頻主要指頭部攝像頭采集的視頻數(shù)據(jù)2胸口視頻主要指胸口攝像頭采集的視頻數(shù)據(jù)3左右手臂

末端視頻主要指左右手臂末端攝像頭采集的操作目標(biāo)近景視頻數(shù)據(jù)4第三方視角視頻主要指從第三方視角采集的視頻數(shù)據(jù)5紅外視頻主要指使用紅外攝像頭拍攝，適用于夜間或光線不足的環(huán)境6立體視頻主要指采用兩個或以上的攝像頭從不同角度拍攝，用于深度感知和3D建模視頻數(shù)據(jù)還包含的天氣條件、照明條件和場景類型等數(shù)據(jù)語義特征，具身智能數(shù)據(jù)語義特征見表3。視頻數(shù)據(jù)語義特征表序號類型說明1天氣主要包括晴朗、多云、陰天、雨天、霧天、雪天、沙塵暴、雷電2時間主要包括白天、夜晚、黎明、黃昏3光照主要包括光線較好、光線較弱、黑暗、過曝/眩光、大面積陰影、反射虛影4場景主要包括工廠、家居、辦公室、醫(yī)院、學(xué)校、商超、開放道路等。相機視角與具身智能數(shù)據(jù)集保持一致，多個視角內(nèi)的目標(biāo)可追蹤，保持特征一致。雷達(dá)數(shù)據(jù)本文件規(guī)定的雷達(dá)數(shù)據(jù)包括激光點云數(shù)據(jù)和毫米波數(shù)據(jù)。激光點云表征的數(shù)據(jù)，簡稱點云數(shù)據(jù)，是一種通過雷達(dá)系統(tǒng)獲取的三維空間信息集合，通過發(fā)射激光束并接受反射回來的信號，精確測量物理的距離、形狀和位置，構(gòu)建三維環(huán)境模型。本文件所定義的激光點云數(shù)據(jù)的指標(biāo)和要求如表4所述。激光點云數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或（和）要求說明1分辨率宜達(dá)到車規(guī)級激光雷達(dá)的行業(yè)標(biāo)準(zhǔn)2精度在±2厘米3點云密度宜每平方米90個點及以上，均勻分布4檢測范圍宜30米及以上5幀率宜10Hz及以上6動態(tài)范圍10厘米-100米7數(shù)據(jù)資源說明點云數(shù)據(jù)及對應(yīng)文字說明或介紹8噪聲水平距離誤差±2-3厘米，角度誤差0.01度到1度，時間同步誤差10微秒9單一點云數(shù)據(jù)大小50MB及以上10文件格式PCD/LAS/XYZ11驗收標(biāo)準(zhǔn)除清晰外，對素材的隨機抽樣中，應(yīng)點數(shù)足夠，分布均勻，且精度誤差小，噪聲水平低相關(guān)激光點云數(shù)據(jù)需滿足以上指標(biāo)和要求，如出現(xiàn)以下情形，則不適合作為激光點云數(shù)據(jù)，詳見表5。不適合作為點云數(shù)據(jù)資源的情形序號情形說明1數(shù)據(jù)不完整主要指缺少關(guān)鍵區(qū)域的點，如目標(biāo)物體、環(huán)境設(shè)備2分辨率過低主要是指點云過于稀疏，無法捕捉物體細(xì)節(jié)3精度不高主要是指點的位置信息誤差大4噪聲過多主要指包含大量錯誤或異常值5同步性差主要指多傳感器數(shù)據(jù)無法準(zhǔn)確同步6動態(tài)范圍小主要指無法覆蓋遠(yuǎn)近距離的物體7反射強度不一致主要指反射強度信息不穩(wěn)定或不可靠8光照影響大主要指強光或逆光條件下產(chǎn)生陰影或反射9天氣影響嚴(yán)重主要指雨、雪、霧等惡劣天氣條件下的數(shù)據(jù)10遮擋嚴(yán)重主要指其他物體遮擋無法獲取完整目標(biāo)物體視角11數(shù)據(jù)過時主要指與當(dāng)前環(huán)境變化較大，無法反映當(dāng)前場景12法律和隱私問題主要是指包含敏感信息，如車牌號、人臉等13冗余數(shù)據(jù)主要指大量重復(fù)或非常相似的數(shù)據(jù)毫米波數(shù)據(jù)，擅長測量目標(biāo)的距離和速度，對金屬物理比較敏感，在惡劣環(huán)境下也能較好工作。本文件規(guī)定的毫米波數(shù)據(jù)資源的指標(biāo)和要求如表6所述。毫米波數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或（和）要求說明1頻率范圍宜76GHz及以上2檢測范圍宜30米及以上3角分辨率±0.5°（長距離）/±1°（中距離）4距離分辨率宜0.1米及以上5速度分辨率宜0.1米/秒6更新率宜20Hz及以上7調(diào)制方式FMCW8檢測精度距離：±0.05m，角度：±0.5°，速度：±0.1m/s9文件格式支持CAN/Ethernet等通信協(xié)議10驗收標(biāo)準(zhǔn)除清晰外，對素材的隨機抽樣中，分辨率達(dá)標(biāo)，應(yīng)有80%包含主體。音頻數(shù)據(jù)聲音表征的數(shù)據(jù)，簡稱音頻數(shù)據(jù)，是以聲音波形的形式存儲，通常以采樣率和位深來表征聲音信號。本文件所處理音頻數(shù)據(jù)資源（或可再加工音頻數(shù)據(jù)產(chǎn)品）的指標(biāo)和要求如表7所述。音頻數(shù)據(jù)的指標(biāo)和要求序號指標(biāo)或（和）要求標(biāo)準(zhǔn)1語種漢語（普通話、粵語、滬語等）、英語（英國、美國）、阿拉伯語、俄語、日語2主題領(lǐng)域參照《廣播電視和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容標(biāo)識標(biāo)簽規(guī)范》（GY/T360-2022）中的“內(nèi)容類內(nèi)容特征子類別規(guī)范詞”3數(shù)據(jù)資源內(nèi)容音頻及對應(yīng)文字說明或音頻介紹4音頻采樣率不小于44.1KHz5通道數(shù)雙聲道/單聲道（由原始資料特性決定）6單一音頻時間長度60秒及以上7量化精度不低于16位8音頻文件格式WAV9音頻驗收標(biāo)準(zhǔn)對音頻素材的隨機抽樣中，應(yīng)有95%不存在表8中所述情況相關(guān)的音頻技術(shù)指標(biāo)應(yīng)符合《網(wǎng)絡(luò)視聽節(jié)目視頻格式命名及參數(shù)規(guī)范》（GY/T353-2021）的規(guī)定。如果音頻數(shù)據(jù)資源中包含了資源特征性描述的，相關(guān)的標(biāo)識和（或）標(biāo)簽則應(yīng)滿足《廣播電視和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容標(biāo)識標(biāo)簽規(guī)范》（GY/T360-2022）的要求。音頻數(shù)據(jù)需滿足以上指標(biāo)和要求，如出現(xiàn)以下情形，則不適合作為音頻數(shù)據(jù)，詳見表8。不適合作為音頻數(shù)據(jù)資源的情形序號情形說明1文件噪音不合格整段音頻伴有嚴(yán)重的噪音2文件內(nèi)容不合格音頻文件不包含目標(biāo)類別的音頻或含有誤導(dǎo)性信息的音頻3其它不合格回音很大、過載嚴(yán)重本體數(shù)據(jù)本文件規(guī)定的本體數(shù)據(jù)包括本體狀態(tài)數(shù)據(jù)、控制命令、診斷數(shù)據(jù)、本體動態(tài)數(shù)據(jù)以及傳感器標(biāo)定數(shù)據(jù)。本文件規(guī)定的本體數(shù)據(jù)資源的指標(biāo)和要求如表9所述。本體資源指標(biāo)和要求序號指標(biāo)或（和）要求說明1類別詳見表142數(shù)據(jù)資源內(nèi)容本體數(shù)據(jù)及對應(yīng)文字說明3格式JSON或數(shù)據(jù)庫4驗收標(biāo)準(zhǔn)本體數(shù)據(jù)需準(zhǔn)確，包含時間數(shù)據(jù)，且與視頻數(shù)據(jù)保持時空一致性本文件規(guī)定的本體信息數(shù)據(jù)資源分類及說明見表10。本體信息數(shù)據(jù)資源分類表序號類型說明1本體狀態(tài)數(shù)據(jù)主要包括啟動/關(guān)閉、傳感器健康狀態(tài)2控制命令主要包括轉(zhuǎn)向、加速、制動、運動3診斷信息主要包括本體故障代碼和診斷信息4本體動態(tài)數(shù)據(jù)主要包括速度、加速度、轉(zhuǎn)向角度、制動力度、橫向加速度、縱向加速度、輪速、本體位置、傾角、本體各關(guān)節(jié)電機功率傳感器標(biāo)定數(shù)據(jù)在具身智能訓(xùn)練中能夠誤差校正，坐標(biāo)系統(tǒng)統(tǒng)一以及確保不同傳感器之間的數(shù)據(jù)關(guān)聯(lián)性使傳感器融合，提高具身智能整體性能。本文件規(guī)定的傳感器標(biāo)定數(shù)據(jù)資源指標(biāo)和要求如表11所述。傳感器標(biāo)定數(shù)據(jù)指標(biāo)和標(biāo)準(zhǔn)序號指標(biāo)或（和）要求說明1常見信息相機內(nèi)參、相機外參、激光外參、毫米波外參、INS的內(nèi)參、INS的外參等2參數(shù)要求參數(shù)需要與對應(yīng)本體一一綁定，且定期重新標(biāo)定進(jìn)行維護(hù)3數(shù)據(jù)資源內(nèi)容傳感器標(biāo)定數(shù)據(jù)及對應(yīng)文字說明4格式JSON或采集數(shù)據(jù)包中5驗收標(biāo)準(zhǔn)根據(jù)各傳感器參數(shù)，通過采集數(shù)據(jù)進(jìn)行投影，根據(jù)重疊效果判斷標(biāo)定準(zhǔn)確度軌跡導(dǎo)航數(shù)據(jù)本文件規(guī)定的軌跡導(dǎo)航數(shù)據(jù)包括定位數(shù)據(jù)、軌跡數(shù)據(jù)等。軌跡導(dǎo)航數(shù)據(jù)的指標(biāo)和要求如表12所述。軌跡導(dǎo)航數(shù)據(jù)資源指標(biāo)和要求序號指標(biāo)或（和）要求說明1類別詳見表132數(shù)據(jù)資源內(nèi)容軌跡導(dǎo)航數(shù)據(jù)及對應(yīng)文字說明3格式JSON或采集數(shù)據(jù)包4驗收標(biāo)準(zhǔn)定位精度符合傳感器精度標(biāo)準(zhǔn)，包含時間數(shù)據(jù)，且與視頻數(shù)據(jù)保持時空一致性本文件規(guī)定的軌跡導(dǎo)航數(shù)據(jù)資源分類見表13。軌跡導(dǎo)航數(shù)據(jù)資源分類序號類型說明1定位數(shù)據(jù)GPS主要包括定位精度、定位連續(xù)性、時間戳同步2IMU主要包括角速度零偏穩(wěn)定性、加速度零偏穩(wěn)定性、時間戳同步3軌跡數(shù)據(jù)軌跡點主要包括位置精度、速度精度、時間戳同步4軌跡預(yù)測主要包括預(yù)測時間范圍、預(yù)測頻率、預(yù)測精度（如minADE、minFDE）數(shù)據(jù)信息存儲格式傳感器標(biāo)定信息格式數(shù)據(jù)采集傳感器標(biāo)定的信息應(yīng)包含：（a）傳感器設(shè)備序列號及名稱；（b）傳感器的類型及數(shù)量；（c）傳感器采集頻率；（d）傳感器內(nèi)外參數(shù)。元數(shù)據(jù)格式采集的元數(shù)據(jù)應(yīng)包含以下信息：——通用數(shù)據(jù)： ——時間戳； ——唯一ID；——本體數(shù)據(jù)：——類型；——關(guān)節(jié)位姿數(shù)據(jù)；——相機傳感器數(shù)據(jù)：——彩色圖像數(shù)據(jù)；——深度圖像數(shù)據(jù)；——采樣頻率；——圖像尺寸?！走_(dá)傳感器數(shù)據(jù)：——采集范圍；——采集精度；——采樣頻率。——觸覺傳感器數(shù)據(jù)：——靈敏度；——分辨率；——響應(yīng)時間。——音頻傳感器數(shù)據(jù)；——力覺傳感器數(shù)據(jù)；——嗅覺傳感器數(shù)據(jù)；采集環(huán)境信息（如場景布局、地點、設(shè)備/道具布置情況等）；采集任務(wù)描述信息（如文字指令和對話信息）。元數(shù)據(jù)組幀格式元數(shù)據(jù)組幀對齊后應(yīng)包含：（a）幀索引序列；（b）傳感器數(shù)據(jù)序列；（c）本體數(shù)據(jù)序列。具身智能數(shù)據(jù)采集要求采集條件通則本章規(guī)定了對數(shù)據(jù)資源的采集進(jìn)行描述的規(guī)范性要求。這些要求將對這些數(shù)據(jù)的采集方的采集介質(zhì)、采集行為提供指導(dǎo)性意見，以便對數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)準(zhǔn)。采集本體標(biāo)準(zhǔn)本節(jié)規(guī)定了采集本體的基本配置要求，這些要求將幫助采集方有效改裝采集本體，保障采集數(shù)據(jù)一致性。本文件規(guī)定的采集本體的相機數(shù)量為常見數(shù)量，即5個FOV相機，具體可根據(jù)實際采集需要加裝。采集樣本硬件要求詳見表14。采集本體硬件要求序號硬件組件關(guān)鍵參數(shù)安裝位置1頭部相機1顆FOV30@8MP+，1顆FOV100+@8MP+頭部2胸口相機1顆

FOV100@2.3MP+胸口3左右手臂末端相機2顆

FOV100@2.3MP+左右手4第三方視角相機1顆

FOV195@1.2MP+第三方5存儲系統(tǒng)支持全量滿帶寬數(shù)據(jù)存儲，每臺配備4T固態(tài)移動硬盤與操控系統(tǒng)算力、帶寬不共用采集本體軟件要求詳見表15。采集本體軟件要求序號軟件標(biāo)準(zhǔn)描述1多模態(tài)傳感器同步支持多模態(tài)傳感器時間同步與空間同步2全量滿帶寬數(shù)據(jù)存儲支持全量滿帶寬數(shù)據(jù)存儲3OTA軟件策略更新支持通過OTA進(jìn)行軟件策略更新合成數(shù)據(jù)通則本文件規(guī)定合成數(shù)據(jù)是一種虛擬的數(shù)據(jù)，主要通過基于世界模型的模擬仿真平臺等工具生成的數(shù)據(jù)。合成數(shù)據(jù)要求為了確保仿真合成數(shù)據(jù)的有效性和適用性，必須滿足以下要求：（a）高保真度：仿真環(huán)境應(yīng)盡量模擬現(xiàn)實世界中的物理和視覺特性，保證數(shù)據(jù)的真實性和準(zhǔn)確性。（b）多樣性：合成數(shù)據(jù)應(yīng)包含不同場景、多種任務(wù)和多種傳感器數(shù)據(jù)，以確保模型的泛化能力。（c）可重復(fù)性：仿真數(shù)據(jù)生成應(yīng)可重復(fù)，允許在相同條件下生成一致的數(shù)據(jù)集。（d）同步性：多傳感器采集的數(shù)據(jù)應(yīng)嚴(yán)格保持時間同步，特別是在多模態(tài)數(shù)據(jù)（如圖像、深度、雷達(dá)、IMU）融合時，時間戳精度應(yīng)足夠高。（e）標(biāo)準(zhǔn)化格式：所有數(shù)據(jù)應(yīng)符合預(yù)定的標(biāo)準(zhǔn)格式，以便于存儲、共享和分析。（f）隨機化控制：為了增強數(shù)據(jù)的魯棒性，合成數(shù)據(jù)應(yīng)進(jìn)行隨機化處理，包括視覺隨機化（如光照、材質(zhì)等）和物理隨機化（如摩擦、重力等），以模擬不同環(huán)境下的變化。合成數(shù)據(jù)生成方式仿真合成數(shù)據(jù)生成包括以下步驟：（a）場景構(gòu)建：使用3D數(shù)字孿生技術(shù)對真實場景進(jìn)行虛擬化，構(gòu)建高度逼真的仿真場景。場景的視覺和物理特性應(yīng)根據(jù)應(yīng)用場景需求進(jìn)行細(xì)致建模。（b）任務(wù)設(shè)計：機器人在場景中執(zhí)行多種任務(wù)（如抓取、移動、操作等），通過仿真平臺模擬這些任務(wù)，并生成對應(yīng)的動作和感知數(shù)據(jù)。（c）多傳感器采集：通過機器人內(nèi)部和外部的多種傳感器（如RGB相機、深度傳感器、激光雷達(dá)等）同步采集數(shù)據(jù)。確保傳感器數(shù)據(jù)的時間同步性，尤其在多模態(tài)融合時，數(shù)據(jù)采集頻率需保持一致。（d）數(shù)據(jù)隨機化：通過視覺和物理屬性的隨機化，生成多樣化的數(shù)據(jù)集，以增加模型的魯棒性和泛化能力。視覺隨機化涉及材質(zhì)、光照、視角等，物理隨機化處理摩擦、重力等。（e）數(shù)據(jù)處理與存儲：所有采集的數(shù)據(jù)應(yīng)經(jīng)過適當(dāng)?shù)念A(yù)處理，包括去噪、時間同步等步驟，隨后以規(guī)定格式存儲。文件名和目錄結(jié)構(gòu)應(yīng)明確標(biāo)識場景、時間和數(shù)據(jù)類型。合成數(shù)據(jù)用途仿真合成數(shù)據(jù)在具身智能系統(tǒng)中的應(yīng)用場景廣泛，主要包括以下幾個方面：（a）數(shù)據(jù)泛化仿真數(shù)據(jù)通過物品泛化和場景泛化來模擬各種現(xiàn)實環(huán)境中的變化情況。通過引入不同的物體類型、材質(zhì)、大小、位置以及各種場景屬性（如光照、天氣、地形等），仿真數(shù)據(jù)能夠為模型提供更豐富的訓(xùn)練樣本，確保模型在實際應(yīng)用中具備更強的適應(yīng)性和泛化能力。例如，模型可以在虛擬環(huán)境中學(xué)會處理不同形狀和尺寸的物體，從而在真實場景中也能表現(xiàn)良好。（b）極端情況（CornerCase）生成解決現(xiàn)實世界中極端情況（如罕見的物體交互、復(fù)雜的光照或極端天氣等）的采集難題。仿真平臺能夠生成大量極端情況數(shù)據(jù)，這些情況在真實環(huán)境中難以捕捉，但卻是模型泛化和魯棒性的重要測試場景。通過系統(tǒng)地生成這些難以采集的極端案例，模型能夠更好地處理特殊或意外的情境，從而在多變和復(fù)雜的環(huán)境中表現(xiàn)得更加可靠。（c）跨傳感器/本體數(shù)據(jù)遷移仿真合成數(shù)據(jù)的另一個重要用途是跨傳感器和跨本體的數(shù)據(jù)遷移。通過充分利用已有數(shù)據(jù)，模型可以在不同的傳感器數(shù)據(jù)之間進(jìn)行遷移學(xué)習(xí)，避免重復(fù)采集數(shù)據(jù)。例如，通過在仿真環(huán)境中生成的RGB圖像、深度圖像、IMU數(shù)據(jù)等，模型能夠?qū)W會在不同傳感器輸入下進(jìn)行任務(wù)操作。這種遷移機制減少了實際傳感器配置下的數(shù)據(jù)采集成本，并且通過多模態(tài)數(shù)據(jù)的融合提升了模型的性能。數(shù)據(jù)資源提交方式數(shù)據(jù)文件標(biāo)識數(shù)據(jù)(資源)文件應(yīng)通過文件名稱來進(jìn)行標(biāo)識，其命名規(guī)則為：（a）文件名稱=文件名+文件擴展名；（b）命名通常不要含有中?字符和不合法字符等；（c）在后續(xù)使?過程中不能對數(shù)據(jù)集進(jìn)?重命名，否則會造成數(shù)據(jù)?法回溯的問題，導(dǎo)致數(shù)據(jù)丟失。數(shù)據(jù)資源的提交方式本文件數(shù)據(jù)資源提交方式應(yīng)滿足《語料庫建設(shè)導(dǎo)則》（T/SAIAS015—2024）中數(shù)據(jù)資源提交方式要求。實體存儲介質(zhì)實體存儲介質(zhì)方式是指將數(shù)據(jù)資源文件按一定的格式和組織形式（如壓縮）存入實體存儲介質(zhì)后進(jìn)行的數(shù)據(jù)交換方式。本文件附錄B提供了這種提交方式的一種參考實現(xiàn)。云盤傳輸云盤傳輸方式是指將數(shù)據(jù)資源文件按一定的格式和組織形式（如壓縮）后通過公有或私有云盤轉(zhuǎn)儲所實施的數(shù)據(jù)交換方式。本文件附錄C提供了這種提交方式的一種參考實現(xiàn)。直連在線直連在線方式是指數(shù)據(jù)資源供給和接收雙方通過光纖專線點對點進(jìn)行數(shù)據(jù)傳輸。這一方式具有較高的安全性和可靠性。如選擇該傳輸方式，所需帶寬宜按以下公式進(jìn)行計算：文本數(shù)據(jù)（集）所占總文件長度（MB）*8*3600/擬完成傳輸?shù)拈g(s)=所需帶寬（Mb/s）本文件對采用“直連在線”方式所涉及的數(shù)據(jù)加密方式不作具體規(guī)定。數(shù)據(jù)空間數(shù)據(jù)空間是互相信任的合作伙伴之間的數(shù)據(jù)關(guān)系，每一方都對其數(shù)據(jù)的存儲和共享適用相同的高標(biāo)準(zhǔn)和規(guī)則。在數(shù)據(jù)空間中，數(shù)據(jù)不是集中存儲，而是存儲數(shù)據(jù)來源，因此只有在必要時才會（通過語義互操作性）共享數(shù)據(jù)。數(shù)據(jù)空間是數(shù)據(jù)資產(chǎn)化的有效工具體系，本文件將在后續(xù)的版本中提供參考實現(xiàn)。方式的選擇數(shù)據(jù)資源的提交方式應(yīng)在實體存儲介質(zhì)（如硬盤）、云盤、直連在線、數(shù)據(jù)空間這四種數(shù)據(jù)資源提交方式中選定一種方式來實施具體的數(shù)字資源交付。具身智能數(shù)據(jù)生產(chǎn)要求資源數(shù)據(jù)的統(tǒng)一性和完整性檢查在用于語料生產(chǎn)的所有資源數(shù)據(jù)存入資源數(shù)據(jù)庫前，應(yīng)按以下過程檢查其格式的統(tǒng)一性和數(shù)據(jù)的完整性：（a）步驟一：所有資源數(shù)據(jù)應(yīng)以5.5.2中所規(guī)定各數(shù)據(jù)表征模式的文件格式之一的形式存在。如承載資源數(shù)據(jù)的文件不是對應(yīng)數(shù)據(jù)表征模式的規(guī)定格式之一的，需采取合適的措施實現(xiàn)資源數(shù)據(jù)文件格式的轉(zhuǎn)換。（b）步驟二：對每一個文件進(jìn)行一次打開操作，在確認(rèn)打開成功后再執(zhí)行下一步；否則，將拋棄該文件。（c）步驟三：將資源數(shù)據(jù)以對象方式存入資源數(shù)據(jù)庫。注：資源數(shù)據(jù)的統(tǒng)一性和完整性檢查的重要性在于，能避免因數(shù)據(jù)解碼失敗而導(dǎo)致訓(xùn)練崩潰現(xiàn)象的出現(xiàn)。數(shù)據(jù)資源清洗過程主要流程本文件規(guī)定的具身智能數(shù)據(jù)資源清洗過程的主要流程包括數(shù)據(jù)規(guī)范管理、數(shù)據(jù)整理分類、數(shù)據(jù)脫敏、數(shù)據(jù)去噪、數(shù)據(jù)去重、數(shù)據(jù)存儲與備份等。本文件規(guī)定的具身智能語料數(shù)據(jù)資源包括現(xiàn)實世界采集的真實數(shù)據(jù)、合成的虛擬數(shù)據(jù)，以及二者相結(jié)合的虛實數(shù)據(jù)。數(shù)據(jù)規(guī)范管理“數(shù)據(jù)規(guī)范管理”操作宜包含以下步驟：（a）步驟一：統(tǒng)一命名，所有的數(shù)據(jù)資源需根據(jù)5.5.2中所規(guī)定的文件標(biāo)識進(jìn)行統(tǒng)一命名；（b）步驟二：統(tǒng)一格式，所有資源數(shù)據(jù)應(yīng)以5.5.2中所規(guī)定各數(shù)據(jù)表征模式的文件格式之一的形式存在。數(shù)據(jù)整理分類數(shù)據(jù)整理分類主要是對所有資源數(shù)據(jù)以6.2.2中所規(guī)定各數(shù)據(jù)表征模式進(jìn)行整理和分類。數(shù)據(jù)脫密脫敏數(shù)據(jù)脫敏主要是對所有數(shù)據(jù)資源進(jìn)行脫密脫敏處理，宜包含以下步驟：（a）步驟一：將關(guān)鍵幀發(fā)到NSFW模型中，模型會返回0或1：0=NOTEQUALNSFW1=NSFW（b）步驟二：將返回值記錄至對應(yīng)關(guān)鍵幀文本中，如標(biāo)記為0則通過，如標(biāo)記為1則進(jìn)入人工復(fù)核。數(shù)據(jù)去噪數(shù)據(jù)去噪主要是對所有數(shù)據(jù)資源進(jìn)行去噪處理，應(yīng)將?件損壞、圖像不完整、畸變過?且?法處理等無法使用的數(shù)據(jù)去除。數(shù)據(jù)去重數(shù)據(jù)去重主要是對數(shù)據(jù)進(jìn)行查重處理，應(yīng)將重復(fù)的數(shù)據(jù)刪除。數(shù)據(jù)存儲與備份數(shù)據(jù)存儲與備份主要是數(shù)據(jù)整理完畢后及時對數(shù)據(jù)進(jìn)行存儲與備份，應(yīng)遵循一式多份且多個地方存儲。數(shù)據(jù)資源標(biāo)注過程標(biāo)注任務(wù)制定任務(wù)制定主要是制定具身智能數(shù)據(jù)資源標(biāo)注，應(yīng)包含任務(wù)解決的問題，重點標(biāo)注的屬性信息，以及標(biāo)注的注意事項等。數(shù)據(jù)標(biāo)注基本原則在具身智能使用數(shù)據(jù)資源進(jìn)行標(biāo)注時，應(yīng)按照以下過程檢查數(shù)據(jù)是否遵循基本原則：（a）步驟一：所有數(shù)據(jù)資源應(yīng)以時間同步和空間同步進(jìn)行數(shù)據(jù)同步，如不同傳感器（如攝像頭、激光雷達(dá)、IMU）的數(shù)據(jù)在時間上是同步的以及不同傳感器的數(shù)據(jù)在空間坐標(biāo)系中是對齊的；（b）步驟二：目標(biāo)框宜以矩形框表示；（c）步驟三：標(biāo)注類別應(yīng)以標(biāo)準(zhǔn)分類體系統(tǒng)一，如物品、車輛、行人、標(biāo)志等；（d）步驟四：標(biāo)注屬性根據(jù)不同的標(biāo)注類別進(jìn)行定義，如物品的顏色、行人的前進(jìn)方向等。定義坐標(biāo)系具身智能中坐標(biāo)系定義為四種，分別為雷達(dá)坐標(biāo)系、相機坐標(biāo)系、本體坐標(biāo)系及全局坐標(biāo)系，場用定義和作用如表16所述：具身智能訓(xùn)練中定義的坐標(biāo)系類型序號坐標(biāo)系類型原點位置X軸方向Y軸方向Z軸方向作用1本體坐標(biāo)系本體后軸中心或前軸中心本體前方本體左側(cè)指向天空主要用于獲取本體運動狀態(tài)、相對位置2相機坐標(biāo)系圖像中心或相機鏡頭中心圖像右側(cè)圖像下方指向相機內(nèi)部主要用于2D圖像處理、目標(biāo)檢測3全局坐標(biāo)系定義的固定點，如場景設(shè)備北方東方指向天空主要用于本體導(dǎo)航、路徑規(guī)劃4雷達(dá)坐標(biāo)系圖像中心或雷達(dá)鏡頭中心圖像右側(cè)圖像下方指向雷達(dá)內(nèi)部主要用于三維空間信息收集標(biāo)注方法關(guān)鍵點標(biāo)注關(guān)鍵點標(biāo)注是指將需要標(biāo)注的元素按照需求位置進(jìn)行點位標(biāo)識，從而實現(xiàn)關(guān)鍵點的識別，并由若干關(guān)鍵點的集合形成具體應(yīng)用所需的語義功能標(biāo)識。標(biāo)注框標(biāo)注標(biāo)注框標(biāo)注是一種對目標(biāo)對象進(jìn)行標(biāo)注的簡單處理方式。在標(biāo)注框標(biāo)注的幫助下，使模型通過訓(xùn)練能夠檢測或識別出所需的目標(biāo)對象。例如，在具身智能訓(xùn)練中，需通過標(biāo)注框?qū)⑽锲返奈恢么_定下來再進(jìn)行后續(xù)的動作操作?？驑?biāo)注包括矩形標(biāo)注、自由矩形標(biāo)注、3D框標(biāo)注，四邊形標(biāo)注和不規(guī)則框標(biāo)注等。區(qū)域標(biāo)注區(qū)域標(biāo)注指是指將圖像分成各具特性的區(qū)域并提取出感興趣部分的過程。區(qū)域標(biāo)注包括開區(qū)域標(biāo)注和閉區(qū)間標(biāo)注。區(qū)域標(biāo)注需同時滿足均勻性和連通性的條件，其中均勻性指的是該區(qū)域中的所有像素點都滿足灰度、紋理、彩色等特征的某種相似性準(zhǔn)則；連通性是指在該區(qū)域內(nèi)存在的鏈接任意兩點的路徑。與矩形框標(biāo)注相比，其區(qū)域要求標(biāo)注更加精確，標(biāo)注邊緣可以是多邊形甚至是柔性的。屬性標(biāo)注屬性標(biāo)注就是用一個或多個標(biāo)簽標(biāo)注目標(biāo)對象的屬性。注：對具體應(yīng)用而言，可在標(biāo)注文件的元數(shù)據(jù)部分來申明所用的這些標(biāo)簽，這些標(biāo)簽必須是一個封閉的集合。關(guān)鍵幀標(biāo)注關(guān)鍵幀標(biāo)注就是對視頻、點云數(shù)據(jù)中具有關(guān)鍵動作意義的幀進(jìn)行屬性、區(qū)域等內(nèi)容的文本標(biāo)注。數(shù)據(jù)安全安全原則語料產(chǎn)品數(shù)據(jù)的提供方應(yīng)在組織、人員、制度、平臺等方面實施安全策略、執(zhí)行覆蓋資源數(shù)據(jù)和語料產(chǎn)品全生命周期的安全控制措施。安全性評價語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的全過程應(yīng)進(jìn)行安全性評價，至少應(yīng)執(zhí)行以下要求：（a）應(yīng)采取必要和合適的方法確保所涉及數(shù)據(jù)，不涉及各類秘密、隱私等敏感或違法的信息，未受到蓄意偽造、篡改等行為造成的數(shù)據(jù)污染，僅暴露在合同或其它強制性規(guī)定所明確界定的范圍內(nèi)；（b）涉及個人信息的，應(yīng)執(zhí)行并滿足GB/T35273-2020的相關(guān)規(guī)定。（c）執(zhí)行并滿足《數(shù)據(jù)安全風(fēng)險評估方法》、《電信網(wǎng)和互聯(lián)網(wǎng)數(shù)據(jù)脫敏技術(shù)要求和測試方法》（YD/T4245-2023）等的相關(guān)規(guī)定。制度要求語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的全過程應(yīng)建立至少以下這些制度：（a）數(shù)據(jù)管理規(guī)范：其內(nèi)容應(yīng)覆蓋上述語料生產(chǎn)的全過程，明確針對數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、數(shù)據(jù)交付等不同階段的數(shù)據(jù)存儲空間和訪問控制，并載明不定期組織內(nèi)部審查的方案；（b）訪問控制及權(quán)限管理制度：實施物理的身份驗證和授權(quán)機制，建立完善的監(jiān)控和審計機制。技術(shù)要求語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的全過程所涉及信息系統(tǒng)應(yīng)至少配置以下軟硬組件：（a）數(shù)據(jù)網(wǎng)關(guān)；（b）數(shù)據(jù)加密與備份裝置；（c）安全防范和監(jiān)控系統(tǒng)；（d）私域數(shù)據(jù)存儲與傳輸系統(tǒng)；（e）數(shù)據(jù)資產(chǎn)管理工具；（f）為滿足GB/T22239-2019《信息安全技術(shù)網(wǎng)絡(luò)安全等級保護(hù)基本要求》所需的其它設(shè)備或系統(tǒng)。8.5人員要求參與語料產(chǎn)品的數(shù)據(jù)采集、加工、測試和提供的任何人員都應(yīng)簽署與其職責(zé)相對應(yīng)的保密協(xié)議；這些人員所屬機構(gòu)應(yīng)建立獨立、專業(yè)的信息安全團(tuán)隊。

（資料性）

具身智能大模型方案純文本數(shù)據(jù)用于訓(xùn)練大模型模型無監(jiān)督預(yù)訓(xùn)練無監(jiān)督預(yù)訓(xùn)練主要是利用大規(guī)模的文本數(shù)據(jù)，通過自監(jiān)督的方式讓模型學(xué)習(xí)文本的結(jié)構(gòu)、語義和上下文關(guān)系。最常見的訓(xùn)練方式是使用自回歸或自編碼模型，例如GPT（生成式預(yù)訓(xùn)練）和BERT（雙向編碼器）。典型任務(wù)：語言建模（LM）、掩碼語言建模（MLM）。數(shù)據(jù)類型：一般為通用文本數(shù)據(jù)，如網(wǎng)頁、書籍、新聞等。常用公開數(shù)據(jù)集：CommonCrawl：包含大量從互聯(lián)網(wǎng)上爬取的網(wǎng)頁文本數(shù)據(jù)，被許多大模型預(yù)訓(xùn)練使用，如GPT-3等。Wikipedia：廣泛用于多種自然語言處理（NLP）任務(wù)的高質(zhì)量文本來源。BooksCorpus：包含來自在線圖書的數(shù)據(jù)，提供更豐富的上下文信息。OpenWebText：一個試圖復(fù)制OpenAI的WebText數(shù)據(jù)集的開源項目，來源于Reddit高評分的鏈接。ThePile：EleutherAI組織收集的大型開放數(shù)據(jù)集，包含15個子集，例如PubMed、GitHub代碼庫、FreeLaw法律文本、YouTube字幕等。有監(jiān)督微調(diào)SFT是在無監(jiān)督預(yù)訓(xùn)練的基礎(chǔ)上，使用標(biāo)注數(shù)據(jù)集對模型進(jìn)行微調(diào)，進(jìn)一步提升模型在特定任務(wù)上的性能。通常通過少量的任務(wù)相關(guān)標(biāo)注數(shù)據(jù)對模型進(jìn)行針對性的優(yōu)化，使其在特定任務(wù)上表現(xiàn)更好。典型任務(wù)：問答、情感分析、對話生成等。數(shù)據(jù)類型：帶有標(biāo)簽的結(jié)構(gòu)化數(shù)據(jù)，通常為問答對、對話數(shù)據(jù)、特定領(lǐng)域的數(shù)據(jù)等。常用公開數(shù)據(jù)集：SQuAD（StanfordQuestionAnsweringDataset）：用于問答系統(tǒng)的高質(zhì)量數(shù)據(jù)集，包含大量的問題和答案對。GLUE：包含多個自然語言理解任務(wù)的數(shù)據(jù)集，包括文本分類、句子相似性等。MSMARCO：微軟發(fā)布的問答數(shù)據(jù)集，適用于檢索式問答和對話。OpenAI’sWebGPT：基于網(wǎng)絡(luò)搜索結(jié)果的問答數(shù)據(jù)集。SuperGLUE：GLUE的升級版，包含更具挑戰(zhàn)性的NLP任務(wù)。DialogDatasets(e.g.,DailyDialog,Persona-Chat)：用于對話生成的標(biāo)注數(shù)據(jù)集，包括對話語境和應(yīng)答。視覺大語言模型視覺大語言模型通過整合視覺和語言模態(tài)數(shù)據(jù)，實現(xiàn)圖像和文本的聯(lián)合理解和生成。VLM的訓(xùn)練也通常分為無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)（SFT）兩個階段。無監(jiān)督預(yù)訓(xùn)練無監(jiān)督預(yù)訓(xùn)練階段主要通過自監(jiān)督方法，使用大量圖像-文本對數(shù)據(jù)，讓模型學(xué)習(xí)視覺和語言之間的關(guān)聯(lián)。例如，圖像-文本對齊、區(qū)域掩碼預(yù)測、視覺詞匯建模等。典型任務(wù)：圖像-文本對齊（如CLIP的對比學(xué)習(xí)）、圖像掩碼預(yù)測（如MAE、SimMIM）。數(shù)據(jù)類型：大規(guī)模的圖像-文本對數(shù)據(jù)集。常用公開數(shù)據(jù)集：ConceptualCaptions：包含300萬張圖像及其相應(yīng)的自然語言描述，數(shù)據(jù)來源于網(wǎng)頁，廣泛用于VLM的預(yù)訓(xùn)練。COCOCaptions：MicrosoftCOCO數(shù)據(jù)集的一個版本，包含了33萬張圖像及其描述，每張圖像有5條自然語言描述。VisualGenome：包含10萬張圖像，每張圖像中包含詳細(xì)的物體和場景關(guān)系信息，有助于模型理解圖像內(nèi)部關(guān)系。Flickr30k：包含3萬張圖像，每張圖像都有多個描述性標(biāo)注，適用于圖像-文本匹配任務(wù)。LAIO

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 金融證券

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

具身智能語料庫建設(shè)導(dǎo)則

文檔簡介

溫馨提示

最新文檔

評論

具身智能語料庫建設(shè)導(dǎo)則

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔