T-AI 127.6-2024 信息技術(shù) 視覺特征編碼 第6部分:結(jié)構(gòu)點序列_第1頁
T-AI 127.6-2024 信息技術(shù) 視覺特征編碼 第6部分:結(jié)構(gòu)點序列_第2頁
T-AI 127.6-2024 信息技術(shù) 視覺特征編碼 第6部分:結(jié)構(gòu)點序列_第3頁
T-AI 127.6-2024 信息技術(shù) 視覺特征編碼 第6部分:結(jié)構(gòu)點序列_第4頁
T-AI 127.6-2024 信息技術(shù) 視覺特征編碼 第6部分:結(jié)構(gòu)點序列_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

團體標準Informationtechnology-Visualfeaturecoding-中關(guān)村視聽產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟發(fā)布I III Ⅲ 1 1 1 2 2 2 3 3 3 3 4 6 7 10 12 12 16 20 22 23 23 24 25 26 27本文件按照GB/T1.1-2020《標準化工作導則第1部分:標本文件由新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟AI標準工作——第1部分:系統(tǒng)。目的在于設(shè)計特征編碼系統(tǒng),提供整合特征碼流的規(guī)范,實現(xiàn)特征高效交互——第2部分:手工設(shè)計特征。目的在于確立適用于傳統(tǒng)手工設(shè)計特征的表示與壓縮標——第3部分:深度學習特征。目的在于確立適用于從深度學習模型中提取的高維特征向量的表示——第4部分:深度特征圖。目的在于確立適用于從深度學習模型中提取的通用深度特征圖的表示——第5部分:語義分割圖。目的在于確立適用于語義分割圖的高效表征與無損壓縮標準?!?部分:結(jié)構(gòu)點序列。目的在于確立適用于結(jié)構(gòu)本文件的發(fā)布機構(gòu)提請注意,聲明符合本文件時,可能涉及到6、7與《用于視頻中的人體骨多模態(tài)無損壓縮實現(xiàn)方法》(專利號:CN111641830A6、7與《基縮及還原方法及系統(tǒng)》(專利號:CN106295561A)相關(guān)專利的本文件的發(fā)布機構(gòu)對于該專利的真實性、有效性和范圍無任該專利持有人已向本文件的發(fā)布機構(gòu)保證,他愿意同任何申請人在合理且無歧視的下,就專利授權(quán)許可進行談判。該專利持有人的聲明已在本文件的發(fā)布機構(gòu)備案,地址:上海市閔行區(qū)東川路800號上海交通大學閔行校區(qū)電院群樓1號樓,郵編:2通訊地址:上海市閔行區(qū)東川路800號上海交1信息技術(shù)視覺特征編碼第6部分:結(jié)構(gòu)點序列本標準規(guī)范了視頻中的多種結(jié)構(gòu)點序列的表征格式,設(shè)計了對于結(jié)構(gòu)點序列進行無損結(jié)構(gòu)點序列structurepointseq文的圖示中,父子結(jié)構(gòu)點使用箭頭連接,箭2前序參考幀formerreferenc若當前幀與前一幀都是非關(guān)鍵幀,那么前一幀的參考幀為當前幀的前4縮略語5.1概述5.2算術(shù)運算符+-3×a/整除運算,沿向0的取值方向截斷。例如,7/4和b5.3邏輯運算符!><5.5位運算符&|~將a以2的補碼整數(shù)表示的形式向右移b位。僅當b取正數(shù)將a以2的補碼整數(shù)表示的形式向左移b位。僅當b取正數(shù)5.6賦值4=5.7位流語法、解析過程和解碼過程的描述方法5.7.1位流語法的描述方法正文中用不帶下劃線的小寫字母和大寫字母混合命名。大寫字母開頭的變量用于解碼當前語法元素值的助記符和變量值的助記符與它們的值之間的關(guān)系在正文中說明。在某些位串的長度是4的整數(shù)倍時,可使用十六進制符號表示。十六進制的前綴是“0x”,例如“0x1a”表示位串“00011010”。ue(v)/*花括號括起來的語句組是復合語句,在功能上視作單個語句。*/{…}/*“while”語句測試condition是否為TRUE,如果為TRUE,5則執(zhí)行alternative語句。如果alternative語句不需要執(zhí)行,結(jié)相關(guān)的alternative語句可忽略if(condition)for(initialstatement;co根據(jù)A矩陣的數(shù)值選取當前結(jié)構(gòu)點最優(yōu)的編碼模式,對于待編碼的結(jié)構(gòu)點j,如果其6MedianEncode()5.7.3描述符ue(v)5.7.4保留、禁止和標記位本部分定義的位流語法中,某些語法元素的值被標注為“保留”(reserved)或“禁止”“禁止”定義了一些特定語法元素值,這些值不應(yīng)出現(xiàn)在符合本部分的位流中?!皹擞浳弧保╩arker_bit)指該位的值應(yīng)為‘1’。處理應(yīng)忽略這些位?!氨A粑弧辈粦?yīng)出現(xiàn)從任意字節(jié)對齊位置開始的217StructureSequenceExteversion_IDue(v)ue(4)ue(v)ue(v)ue(v)ue(v)encode_order[]=InitEncodeOrder(spatial_reference_order[])for(frame_num=0;frame_num<total_frame_num;frame_num+=frif(frame_num%intra_frame_ratio==0{/*關(guān)鍵幀,用空間自for(pos_info_buffer=0;pos_info_buffer<total_pos_in_fram}}for(pos_info_buffer=0;pos_info_buffer<total_pos_in_frfor(point;point<key_point_num;ppoint_to_be_encode=encode_order[poencode_mode=BestModeChoose(MVEncode()MVREncode()8}}}}}}結(jié)構(gòu)點編碼順序數(shù)組解析函數(shù)如下表所示。此表通過輸入的結(jié)構(gòu)點空間依賴關(guān)系數(shù)組encode_order[]。其關(guān)系見7.1.3,解析過程if(spatial_reference_order[point_parent]==-1point_parent++;point_child++;if(spatial_reference_order[point_child]==}break;encode_order[j++]=spatial_reference_order[p}}對于非中心結(jié)構(gòu)點,編碼其相對于其父結(jié)構(gòu)點的位置殘差值for(point=0;point<key_point_num;point_to_be_encode=encode_order[point]9if(point_to_be_encode==encode_ores=point_to_be_encode-parent_str}}}運動矢量MV_central;對于非中心結(jié)構(gòu)點,先借助MV_cenif(point_to_be_encode==encode_opred_MV=point_to_be_encode_ref+MV_centralres=point_to_be_encod}}運動矢量MV_central;對于非中心結(jié)構(gòu)點,先后借助MV_centralif(point_to_be_encode==encode_opred_MV=point_to_be_encode_ref+MV_centralpred_MVR=pred_MV+resres=point_to_be_encode–}}1基于線性預(yù)測的幀間差分模式編碼定義見表13。結(jié)構(gòu)點的預(yù)測值由其在前序參考幀和MV_ref=point_to_be_encode_ref-point_to_be_encode_ref_refpred_li=point_to_be_encode_ref+MV_refres=point_to_be_enco}res=point_to_be_enco}WriteBoneExist(){if(all_point_exist_f}無符號整數(shù)。表示編碼結(jié)構(gòu)點序列時所啟用的編碼模式,編碼時會從啟用的選擇。具體取值見表16。如果要采用多種模式混合的方式編碼,則將每個模式對應(yīng)的值相model_ID的值空間依賴關(guān)系數(shù)組spatial_reference結(jié)構(gòu)體pos_info_buffer1當前結(jié)構(gòu)點前序運動矢量MV_ref待編碼的結(jié)構(gòu)點point_to_be_e參考點point_to_be_encode_ref前序參考點point_to_be_encode_ref_ref位置預(yù)測值(從相對運動矢量)pred_M待編碼結(jié)構(gòu)點在基于線性預(yù)測的幀間差分模式下待編碼結(jié)構(gòu)點在基于中值預(yù)測的幀間差分模式下結(jié)構(gòu)點存在標志all_point_ex本部分適用于結(jié)構(gòu)點序列的編碼。結(jié)構(gòu)點是指在視覺任務(wù)中對目標事物具有特征標識檢測框的四個角點即可被視為結(jié)構(gòu)點;在人群流量統(tǒng)計中,人物的2D檢測框角點和骨骼點b)當前幀中結(jié)構(gòu)體的個數(shù)total_pos_inc)結(jié)構(gòu)點個數(shù)key_point_numf)結(jié)構(gòu)體的缺失標志數(shù)組point_exist_info[為了能夠讓代碼成功解析輸入的結(jié)構(gòu)點序列并進行編碼,規(guī)定結(jié)構(gòu)點序列的輸入格式1視首個結(jié)構(gòu)體首個結(jié)構(gòu)體最后一最后一個結(jié)最后一個結(jié)構(gòu)頻結(jié)構(gòu)體的結(jié)構(gòu)點坐……個結(jié)構(gòu)構(gòu)體的缺失體的結(jié)構(gòu)點坐標標00……910……920……N92……當結(jié)構(gòu)體在視頻序列中消失后重新出現(xiàn)時,也應(yīng)當保持結(jié)構(gòu)點空間依賴關(guān)系數(shù)組spatial_refe在樹中的父子結(jié)點關(guān)系以相同方式確定。此時將此結(jié)構(gòu)體的結(jié)構(gòu)點序列視作一棵樹。c)向結(jié)構(gòu)點空間依賴關(guān)系數(shù)組中添加-1作為標識符。d)將中心結(jié)構(gòu)點視作父結(jié)點。e)向結(jié)構(gòu)點空間依賴關(guān)系數(shù)組中按樹的層次遍歷順序添加父結(jié)點的全部子結(jié)點序號。g)循環(huán)第5-6步,直到父節(jié)點為樹的第一個最深層見圖3a),最終得到結(jié)構(gòu)點的空間依賴關(guān)系數(shù)組為spatial_reference_order[]=[1,-1,0,2,8,11,5,-1,-1,3,-1,9,-1,12,-a)人體骨架結(jié)構(gòu)點結(jié)構(gòu)體b)以樹表示的人體骨架結(jié)構(gòu)體1直接的情形,空間依賴關(guān)系數(shù)組可以按照結(jié)構(gòu)點序號順序生成為spatial_reference_order[]=[0,-1,1,-1,2,-1,3,-1,4,-1,5,-1,6,-1,7,-1,8,-1,9,-1,10,-1,11,-1,12,-1,13對于不同結(jié)構(gòu)點,會根據(jù)A矩陣判斷具體采用的幀間編碼模式。幀間編碼模式:基于運動矢量的幀基于運動矢量的幀間差分模式是指首先用有符號哥倫布編碼方法編碼該結(jié)構(gòu)體的中心將MV_central(t)應(yīng)用到目標結(jié)構(gòu)點以得到預(yù)測值,再用熵編碼方法編碼目標結(jié)構(gòu)點的預(yù)測所述的MV_central(t)計算見式(1此處以2D結(jié)(MV_centralx(t),MV_centraly(t))=EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),ID)EQ\*jc3\*hps15\o\al(\s\up4(c),I)EQ\*jc3\*hps15\o\al(\s\up4(c),I)xEQ\*jc3\*hps15\o\al(\s\up4(c),I)D(t1)——第t-1幀該結(jié)構(gòu)體中心結(jié)構(gòu)點的橫坐標值;EQ\*jc3\*hps15\o\al(\s\up4(c),I)以第j個結(jié)構(gòu)點為例,首先利用第t-1幀該結(jié)構(gòu)點的坐標位置和MV_central(t)計算出其(predMVxEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVyEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t1)+MV_centralx(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t1)+MV_centraly(t))|j∈Sc}.(2)(resXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)pred_MVXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)pred_MVYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))|j∈Sc}.(3)幀間編碼模式:基于運動矢量的相對幀間基于運動矢量的相對幀間差分方法建立在基于運動矢量的幀間差分方法的基礎(chǔ)上,充(predMVRXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVRYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t))={(pred_MVXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)+res_parentXEQ\*jc3\*hps15\o\al(\s\up5(P),ID)(j)(t),pred_MVYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)+res_parentYEQ\*jc3\*hps15\o\al(\s\up5(P),ID)(j)(t))|j∈Sc},p(j)——取j的父結(jié)構(gòu)點。(resXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)pred_MVRXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)pred_MVRYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))|j∈Sc}.(5)幀間編碼模式:基于線性預(yù)測的幀(MVrefxEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),MVrefyEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t))=EQ\*jc3\*hps15\o\al(\s\up5(j),I)EQ\*jc3\*hps15\o\al(\s\up5(j),I)EQ\*jc3\*hps15\o\al(\s\up5(j),ID)EQ\*jc3\*hps15\o\al(\s\up5(j),ID)(predlixEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t),predliyEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t))={(XEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t1)+MV_refXEQ\*jc3\*hps16\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps16\o\al(\s\up5(j),ID)(t1)+MV_refYEQ\*jc3\*hps16\o\al(\s\up5(j),ID)(t))|j∈S}.(7)(resXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(XEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)—pred_liXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),YEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)—pred_liYEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))|j∈S}.(8)幀間編碼模式:基于中值前幀該結(jié)構(gòu)體中每個結(jié)構(gòu)點的坐標預(yù)測值,在每個維度上,取三者再用熵編碼方法編碼各結(jié)構(gòu)點的預(yù)測值和真實值的殘差。見predmeXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)=Mid{predMVXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVRXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predliXEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)|j∈S}.(9)predmeYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)=Mid{predMVYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predMVRYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),predliYEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)|j∈S}.(10)(resxEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),resyEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t))={(xEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t)—pred_mexEQ\*jc3\*hps15\o\al(\s\up5(j),I)D(t),yEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)—pred_meyEQ\*jc3\*hps15\o\al(\s\up5(j),ID)(t)基于多模式的編碼方法的總體思想是以結(jié)構(gòu)體的各個結(jié)構(gòu)點為編碼單位(即同一結(jié)構(gòu)矩陣元素aID(t)[i][j]代表對于第t+1幀中編號為ID的結(jié)構(gòu)體的j結(jié)構(gòu)點使用第i個幀間編碼模式的預(yù)估壓縮效果。首先使用第i種間編碼模式計算得到當前幀中結(jié)構(gòu)點j的壓縮占用比特,賦給aID(t)[i][j]:1.如果j結(jié)構(gòu)點是中心結(jié)構(gòu)點:aID(t)[i][j]由aID(t)[i][j],aID(t—1)[i][j],…,aID(t—t0)[i][j]加權(quán)計算得到。其中t0最大取4。如果由于先前某一幀tk該結(jié)構(gòu)體不存在導致aID(ttk)[i][j]不存在,則t0=tk-1。{aID(t)[i][p(j)],aID(t)[i][j],aID(t—1)[i][j],aID(t—2)[i][j],aID(t—3)[i][j],aID(t4)[i][j]}對應(yīng)的原始權(quán)重為M={0.2667,0.2667,0.1778,0.1333,0.0889,0.0667}。當某種舉例如下:如j結(jié)構(gòu)點不是中心結(jié)構(gòu)點,且僅在參考幀中出現(xiàn)了該結(jié)構(gòu)體,在前序參考aID(t)[i][j]=aID(t)[i][p(j)]+aID(t)[i][j]+aID(t—1)[i][j],(12)鍵幀中的結(jié)構(gòu)點均采用空間自差分模式編碼保證獨立可解,對于非關(guān)鍵幀中的結(jié)構(gòu)點則采2第第t幀開始N,ID=0,j=0ID=N,ID=0,j=0ID=ID+1,j=0ID=ID+1,j=0Y結(jié)構(gòu)體新出現(xiàn)?編碼新結(jié)構(gòu)體Y結(jié)構(gòu)體新出現(xiàn)?編碼新結(jié)構(gòu)體標志N結(jié)構(gòu)體相比上一幀未移動?結(jié)構(gòu)體相比上一幀未移動?Y初始化結(jié)構(gòu)體的A矩陣為零矩陣。結(jié)構(gòu)體號:IDj=j+1Nj=j+1根據(jù)根據(jù)A矩陣選擇模態(tài)結(jié)構(gòu)體號:ID結(jié)構(gòu)點號:j編碼跳過編碼跳過結(jié)構(gòu)體標志使用幀內(nèi)自差分編碼結(jié)構(gòu)體號:ID結(jié)構(gòu)點號:j使用選定模態(tài)編碼使用選定模態(tài)編碼結(jié)構(gòu)體號:ID結(jié)構(gòu)點號:jN當前結(jié)構(gòu)體所有N當前結(jié)構(gòu)體所有結(jié)構(gòu)點編碼結(jié)束?更新A更新A矩陣直接拷貝A矩陣更新A更新A矩陣結(jié)構(gòu)體號:ID結(jié)構(gòu)點號:jNYYN當前結(jié)構(gòu)體所有N當前結(jié)構(gòu)體所有結(jié)構(gòu)點編碼結(jié)束?YN第YN第t幀所有結(jié)構(gòu)體編碼結(jié)束?N第tN第t幀所有結(jié)構(gòu)體編碼結(jié)束?Y第第t幀結(jié)束數(shù)控制編碼器跳幀的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論