




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多媒體分析與檢索技術(shù)MultimediaAnalysisandRetrievalTechnology注:本講內(nèi)容參考了北京大學(xué)數(shù)字媒體研究所《數(shù)字媒體技術(shù)基礎(chǔ)》課件
《數(shù)字媒體技術(shù)基礎(chǔ)》第五講(8課時(shí))1精選PPT課件課程內(nèi)容及安排第一部分:數(shù)字媒體導(dǎo)論第二部分:數(shù)字媒體基礎(chǔ)數(shù)字彩色圖像基礎(chǔ)圖像/視頻處理基礎(chǔ)第三部分:數(shù)字媒體關(guān)鍵技術(shù)多媒體壓縮編碼技術(shù)多媒體分析與檢索技術(shù)多媒體通信技術(shù)數(shù)字版權(quán)管理技術(shù)2精選PPT課件教學(xué)目標(biāo)通過(guò)本章的學(xué)習(xí),掌握“多媒體分析與檢索”這一多媒體領(lǐng)域最活躍研究方向的基本研究問(wèn)題和方法,及其最新進(jìn)展。ACMMultimediaACMICMRICMEMMMICIMCSICCVCVPRICIPICPR…3精選PPT課件教學(xué)內(nèi)容多媒體檢索概論(2)基于內(nèi)容的圖像分析與檢索(CBIR)(2)視頻分析與檢索(3)音頻分析與檢索(1)4精選PPT課件一、多媒體檢索概論5精選PPT課件InternetVideos,Images,Audio,Flash,Aminations,…LocalVideos,Images,…如何從如此海量的多媒體數(shù)據(jù)中定位到你所感興趣的信息?Howtoeffectivelyorganize,manage,browse,retrieve?Image/VideoindexingshouldbeanalogoustotextdocumentindexingMultimediaAnalysisandRetrieval6精選PPT課件引言“多媒體搜索引擎”可以搜索多媒體文檔的搜索引擎多媒體文檔:可包含多種模態(tài),如文本、圖像、視頻、音頻等廣義的:可以搜索非文字信息的搜索引擎“視/聽(tīng)覺(jué)”信息7精選PPT課件多媒體文檔的特點(diǎn)多媒體文檔包含豐富的非文字信息8精選PPT課件多媒體文檔的特點(diǎn)關(guān)鍵字對(duì)應(yīng)的非文字信息可能過(guò)于寬泛麥浪滾滾9精選PPT課件多媒體檢索概念提供多媒體的查詢輸入可以方便地輸入多媒體和文字查詢對(duì)多媒體文檔進(jìn)行多媒體索引特征索引:文本特征(字、詞、短語(yǔ))、視覺(jué)特征(顏色直方圖、Gabor紋理、形狀特征、…)、音頻特征(音高、音調(diào)….)語(yǔ)義索引:元數(shù)據(jù)、概念、事件提供多媒體的結(jié)果顯示直觀地展示多媒體和文字信息直觀地展示深層信息跨文檔綜合(多媒體和文字信息)方便瀏覽大量文檔10精選PPT課件如何檢索?11精選PPT課件檢索方法1:基于文本(QBT)關(guān)鍵問(wèn)題:如何獲得關(guān)鍵字標(biāo)注?方法1:手工標(biāo)注工作量巨大---不可行!即使對(duì)同一幅圖像,不同的人有不同的描述方法2:自動(dòng)標(biāo)注各種機(jī)器學(xué)習(xí)的算法性能不佳:只能提取少數(shù)概念,準(zhǔn)確率也低(<30%)12精選PPT課件檢索方法1:基于文本(QBT)關(guān)鍵問(wèn)題:如何獲得關(guān)鍵字標(biāo)注?方法3:元數(shù)據(jù)分析---URL、鏈接文字、標(biāo)題、關(guān)聯(lián)頁(yè)面……Meta-data元數(shù)據(jù)東北虎:5老虎:3動(dòng)物:2中國(guó):1俄羅斯:1長(zhǎng)白山:1。。。13精選PPT課件檢索方法1:基于文本(QBT)關(guān)鍵問(wèn)題:如何獲得關(guān)鍵字標(biāo)注?方法3:元數(shù)據(jù)分析---URL、鏈接文字、標(biāo)題、關(guān)聯(lián)頁(yè)面……問(wèn)題:元數(shù)據(jù)不一定與多媒體文檔內(nèi)容相關(guān)沒(méi)有元數(shù)據(jù)或不完整!元數(shù)據(jù)與圖像內(nèi)容不相關(guān)!14精選PPT課件檢索方法1:基于文本(QBT)關(guān)鍵問(wèn)題:如何獲得關(guān)鍵字標(biāo)注?方法4:網(wǎng)絡(luò)標(biāo)注(Socialtagging/Folksonomy)向普通用戶提供上載和分享平臺(tái)鼓勵(lì)所有用戶對(duì)上載的文檔進(jìn)行評(píng)論和標(biāo)注這些評(píng)論和標(biāo)注是直接針對(duì)文檔作出的15精選PPT課件
16精選PPT課件17精選PPT課件QBT的難題需求難以用文字精確描述非文字需求用戶不愿意輸入很多文字用戶需求不是特別具體大多數(shù)人的想象力是不夠豐富的系統(tǒng)提供的結(jié)果會(huì)極大地影響用戶的需求需要瀏覽更多的文檔才能發(fā)現(xiàn)需要的結(jié)果最重要:圖像/視頻/音頻往往難以用文字準(zhǔn)確描述一圖勝千言各種文字標(biāo)注方法普遍準(zhǔn)確率不高18精選PPT課件視覺(jué)信息描述的復(fù)雜性19精選PPT課件檢索方法2:基于內(nèi)容/樣例基于內(nèi)容的圖像/視頻檢索Content-basedimage/videoretrieval(CBIR/CBVR)Query-by-Example(QBE)什么是“內(nèi)容”(Content)?圖像和視頻的視覺(jué)特性如何描述?(數(shù)學(xué)模型)如何匹配?(相似度計(jì)算方法)如何索引?(快速找到相似文檔)如何提交查詢?20精選PPT課件基于內(nèi)容的圖像/視頻檢索“內(nèi)容”的數(shù)學(xué)模型文本文檔:向量模型多媒體文檔:特征提取表示視覺(jué)的多個(gè)物理量組成描述文檔內(nèi)容的特征視覺(jué)特征:顏色、紋理、形狀、運(yùn)動(dòng)……音頻特征:音頻、音質(zhì)、音調(diào)….維數(shù)特性布爾運(yùn)算語(yǔ)義文字超高(10萬(wàn)級(jí))稀疏可離散多媒體高(幾千以內(nèi))致密不可連續(xù)21精選PPT課件ColorCameramotionMotionactivityMosaicColorMotiontrajectoryParametricmotionSpatio-temporalshapeColorShapePositionTextureVideosegmentsStillregionsMovingregionsAudiosegmentsSpokencontentSpectralcharacterizationMusic:timbre,melody,pitch視音頻特征示例22精選PPT課件基于內(nèi)容的圖像檢索Querybycontent:Color,texture&ObjectSearchEngineRetrievalImageDB/WWW23精選PPT課件基于內(nèi)容的圖像/視頻檢索相似度計(jì)算文字文檔:余弦距離多媒體文檔:歐氏距離及其改進(jìn)索引文字文檔:倒排文件稀疏的文檔向量多媒體文檔:高維索引或不索引緊致的文檔向量24精選PPT課件基于內(nèi)容的圖像/視頻檢索查詢提交手段如何讓系統(tǒng)獲得一個(gè)好的“特征向量”?可以較好地描述用戶的需求文本查詢(QBT:QueryByText)關(guān)鍵字:難以準(zhǔn)確描述用戶需求自然語(yǔ)言:NLP仍是openissue樣例查詢(QBE:QueryByExample)用戶提交一個(gè)圖像/視頻作為樣例,查詢與樣例相似的其它圖像/視頻概要圖查詢(QBS:QueryBySketch)要求用戶都是優(yōu)秀的畫家也有系統(tǒng)提供手繪界面25精選PPT課件基于文本vs.基于內(nèi)容基于文本查詢輸入方便,在有準(zhǔn)確的文字信息描述時(shí)很方便公開(kāi)難題:如何提取圖像/視音頻的語(yǔ)義描述目前商業(yè)搜索引擎常用基于內(nèi)容從信號(hào)處理角度入手,試圖使檢索過(guò)程符合人的視聽(tīng)覺(jué)特性(所見(jiàn)即所得)查詢輸入不符合人的習(xí)慣公開(kāi)難題:語(yǔ)義鴻溝(SemanticGap)仍停留在研究階段26精選PPT課件多媒體檢索框架StorageBrowseAVDescriptionFeatureextractionManual/automaticTransmissionEncoding(fortransmission)Decoding(fortransmission)RecommendationPushSearch/queryPullHumanormachine27精選PPT課件多媒體搜索引擎需要的技術(shù)多媒體內(nèi)容分析技術(shù)理解多媒體文檔的內(nèi)容,提取語(yǔ)義多媒體查詢輸入技術(shù)方便地提交多媒體查詢多媒體結(jié)果顯示和瀏覽技術(shù)直觀、方便地瀏覽結(jié)果多媒體特征的高維索引技術(shù)28精選PPT課件多媒體檢索分類圖像檢索CBIR語(yǔ)義分類、標(biāo)注相關(guān)反饋音頻檢索音頻特征提取自動(dòng)語(yǔ)音識(shí)別(ASR)哼唱找歌視頻檢索視頻分割與分類特定對(duì)象檢測(cè)事件檢測(cè)與摘要跨媒體檢索跨媒體融合29精選PPT課件圖像搜索技術(shù)的應(yīng)用風(fēng)景圖像的替換與補(bǔ)圖[A.Efros,CVPR,2007]30精選PPT課件圖像搜索技術(shù)的應(yīng)用Sketch2Photo:互聯(lián)網(wǎng)圖像蒙太奇[Chen,SIGGraph2009]技術(shù)難點(diǎn):自動(dòng)找到高質(zhì)量的、包含正確對(duì)象的圖片無(wú)縫的對(duì)這些子圖像進(jìn)行合成31精選PPT課件圖像搜索技術(shù)的應(yīng)用Image2Gps:通過(guò)圖像搜索推理出圖像的拍攝位置[A.Efros,CVPR2008]32精選PPT課件圖像搜索技術(shù)的應(yīng)用Panoramio:
/借助圖像匹配搜索技術(shù),從遠(yuǎn)近不同角度觀察同一景點(diǎn)33精選PPT課件圖像搜索技術(shù)的應(yīng)用ViewFocus:所指即所見(jiàn)[Luo,ACMMM2009]34精選PPT課件圖像搜索技術(shù)的應(yīng)用廣告搜索:Trademark,Logo,Patent商業(yè)圖像的數(shù)據(jù)挖掘版權(quán)保護(hù)商品搜索獲取商品信息:用商品圖像進(jìn)行搜索得到相關(guān)信息網(wǎng)上購(gòu)物,貨比三家
醫(yī)學(xué)圖像檢索……35精選PPT課件圖像搜索技術(shù)的應(yīng)用http://www.robots.ox.ac.uk/~james/交互式視頻技術(shù)用戶在觀看視頻時(shí),能夠選擇視頻中出現(xiàn)的各種對(duì)象(人物、地點(diǎn)、物品等);在屏幕上展現(xiàn)被選中對(duì)象的信息,例如名稱等;展現(xiàn)與上述對(duì)象相關(guān)的業(yè)務(wù)提供者(例如服裝店)鏈接;用戶可以通過(guò)IM或者電話進(jìn)一步與業(yè)務(wù)提供者聯(lián)系36精選PPT課件VideoGoogle:ATextRetrievalApproachtoObjectMatchinginVideos
http://www.robots.ox.ac.uk/~vgg/research/vgoogle/37精選PPT課件二、圖像分析與檢索38精選PPT課件圖像檢索概論Datta,ACMCSUR,200839精選PPT課件SemanticGapKeywordsDescriptionsClassificationOntologiesHumanIntelligenceData40精選PPT課件ATypicalImageSearchSystemQueryUserIndexDataQueryFormationRankingIndexingResultPresentationIntentionGapIntention/SemanticGapSemanticGapUIandquerysuggestionSearchresultorganizationInteractiveFeedbackImageannotation41精選PPT課件Designingareal-worldimagesearchengine:FromauserperspectiveDotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008(1)clarityoftheuseraboutwhatshewants,(2)whereshewantstosearch,and(3)theforminwhichtheuserhasherquery42精選PPT課件Designingareal-worldimagesearchengine:
FromasystemperspectiveDotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008(1)howdoestheuserwishtheresultstobepresented,(2)wheredoestheuserdesiretosearch,and(3)whatisthenatureofuserinput/interaction.43精選PPT課件CBIR框架Smeulders,PARMI,200244精選PPT課件圖像特征與表示Dotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008Anoverviewofimagesignatureformulation45精選PPT課件圖像特征類型顏色、紋理、形狀關(guān)鍵點(diǎn)SIFT位置對(duì)象/區(qū)域Smeulders,PARMI,200246精選PPT課件圖像特征匯總ColorColorHistogram“Sensitivetonoiseandsparse”-CumulativeHistogramsColorMomentsColorSets:MapRGBColorspacetoHueSaturationValue,&quantizeColorlayout-localcolorfeaturesbydividingimageintoregionsColorAutocorrelogramsTextureCo-occurrencematrixOrientationanddistanceongray-scalepixelsContrast,inversedeferencemoment,andentropyHumanvisualtextureproperties:coarseness,contrast,directionality,likeliness,regularityandroughnessWaveletTransformsextractedmeanandvariancefromwaveletsubbandsGaborFilters47精選PPT課件圖像特征匯總ShapeOuterBoundarybasedvs.regionbasedFourierdescriptorsMomentinvariantsFiniteElementMethod(Stiffnessmatrix-howeachpointisconnectedtoothers;Eigenvectorsofmatrix)Turingfunctionbased(similartoFourierdescriptor)convex/concavepolygonsWavelettransformsleveragesmultiresolutionChamfermatchingforcomparing2shapes(lineardimensionratherthanarea)3-DobjectrepresentationsusingsimilarinvariantfeaturesWell-knownedgedetectionalgorithms48精選PPT課件特征舉例:顏色特征Colourhistograms(CH)GlobalCHgenerateddirectlyfromRGBspace,with125(5x5x5)bins.49精選PPT課件Bosch,IVC,200650精選PPT課件特征舉例:邊特征Edgehistogram(EHD)Capturesthespatialdistributionoftheedgeinsixstatues:0o,45o,90o,135o,nondirectionandnoedge.GlobalEHDofanimage:Concatenating16subEHDsintoa96binsLocalEHDofasegmentGroupingtheedgehistogramoftheimage-blocksfallenintothesegment51精選PPT課件特征舉例:點(diǎn)特征Detectpatches[MikojaczykandSchmid’02][Sivicetal.’03]ComputeSIFTdescriptor[Lowe’99]52精選PPT課件53精選PPT課件全局vs.局部特征54精選PPT課件區(qū)域分割計(jì)算機(jī)視覺(jué)領(lǐng)域的公開(kāi)難題55精選PPT課件相似度度量Dotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,200856精選PPT課件相似度度量Dotta,etal.,Imageretrieval:
Ideas,influences,andtrendsofthenewage,ACMComputingSurvey,2008CBIR不是為了進(jìn)行精確的匹配,而是計(jì)算查詢圖像和數(shù)據(jù)庫(kù)中的圖像之間的視覺(jué)相似度,相應(yīng)的,檢索結(jié)果不是單一的一副圖像,而是按照與查詢圖像的相似度排序的一系列圖像。不同的相似度度量顯著影響CBIR系統(tǒng)的性能。57精選PPT課件基于樣例的查詢QuerybyExamplePickqueryexamplesandaskthesystemtoretrieve“similar”images.QuerySampleResultsCBIR“Getsimilarimages”58精選PPT課件相關(guān)反饋RelevanceFeedbackUsergivesafeedbacktothequeryresultsSystemrecalculatesfeatureweightsInitialsample1stResultQuery2ndResultFeedbackFeedback59精選PPT課件相關(guān)反饋OnlineFeatureWeightingFromQueryExamples,thesystemdeterminesfeatureweighting(kxk)matrixWResultQueryCBIRCalculateW60精選PPT課件基于相關(guān)反饋的檢索界面UserselectsrelevantimagesIfgoodimagesarefound,
addthemWhennomoreimagestoadd,
thesearchconvergesSliderorCheckbox61精選PPT課件基于相關(guān)反饋的檢索界面62精選PPT課件評(píng)價(jià)指標(biāo):AveragePrecision只對(duì)返回的相關(guān)文檔進(jìn)行計(jì)算系統(tǒng)檢索出來(lái)的相關(guān)文檔越靠前(rank越高),AP就越高63精選PPT課件評(píng)價(jià)指標(biāo):AveragePrecisionMAP(MeanAveragePrecision)istheaverageAPforallqueries例如:假設(shè)有兩個(gè)queries,query1有4個(gè)相關(guān)images,query2有5個(gè)相關(guān)image。某系統(tǒng)對(duì)于query1檢索出4個(gè)相關(guān)image,其rank分別為1,2,4,7;對(duì)于query2檢索出3個(gè)相關(guān)query,其rank分別為1,3,5。對(duì)于query1,AP為 (1/1+2/2+3/4+4/7)/4=0.83。對(duì)于query2,AP為 (1/1+2/3+3/5+0+0)/5=0.45。則MAP=(0.83+0.45)/2=0.64。64精選PPT課件現(xiàn)實(shí)中的CBIR系統(tǒng)示例VisualsimilaritysearchinSpecificDomain:aphoto-sharingcommunitywithmorethanamillionairplane-relatedpictures65精選PPT課件現(xiàn)實(shí)中的CBIR系統(tǒng)示例apublic-domainsearchenginewhichincorporatesimageretrievalandfacerecognitionforsearchingpicturesofpeopleandproductsontheWeb.66精選PPT課件ImageAnnotation/Tagging:面向圖像語(yǔ)義檢索ShipWaterTreeskyUseforkeyword-basedimageretrieval67精選PPT課件ImageAnnotation/TaggingJJeon,etal.,Automaticimageannotationandretrievalusingcross-mediarelevancemodels,Sigir,2003RelevanceModelsw1,w2,w3,….wnI68精選PPT課件AnnotationExamples69精選PPT課件BridgeUserIntentionGapUserqueriesareusuallyshort,ambiguousHowtocaptureusersearchintent?70精選PPT課件VisualQuerySuggestionZheng-JunZha,etal.,VisualQuerySuggestion,ACMMM,200971精選PPT課件VisualQuerySuggestionTohelpusersspecifyanddelivertheirsearchintentsZheng-JunZha,etal.,VisualQuerySuggestion,ACMMM,200972精選PPT課件IGroup:presentingwebimagesearchresultsinsemanticclustersTheresultof“tiger”inMSNimagesearch:mixedwith“tigerwoods”and“tigeranimal”.73精選PPT課件IGroup:presentingwebimagesearchresultsinsemanticclustersThescreenofIGroup:thegeneralview74精選PPT課件IGroup:presentingwebimagesearchresultsinsemanticclustersThescreenofIGroup:theclusterview75精選PPT課件IGroup:presentingwebimagesearchresultsinsemanticclusters76精選PPT課件3DMARS:圖像檢索的3D展示Imageretrievalandbrowsingin3DVirtualRealityTheusercanseemoreimageswithoutocclusionQueryresultscanbedisplayedinvariouscriteria
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 金川安全文化
- 間位結(jié)腸影像診斷
- 2025商業(yè)店鋪正規(guī)交易合同范本
- 軌道設(shè)備轉(zhuǎn)讓合同范本
- 修路土地流轉(zhuǎn)合同范本
- 車輛無(wú)償使用租賃合同
- 腸內(nèi)外營(yíng)養(yǎng)的支持及護(hù)理
- 二零二五版授信擔(dān)保合同范例
- 干部培訓(xùn)規(guī)劃案
- 公司員工股份協(xié)議書
- 《有機(jī)化學(xué)》課件-電子效應(yīng)
- QCT457-2023救護(hù)車技術(shù)規(guī)范
- 公對(duì)公車輛租賃合同范本
- HYT 262-2018 海水中溶解甲烷的測(cè)定 頂空平衡-氣相色譜法(正式版)
- 普通植物病理學(xué)智慧樹知到期末考試答案章節(jié)答案2024年?yáng)|北農(nóng)業(yè)大學(xué)
- 人事檔案轉(zhuǎn)遞通知單
- 《離散數(shù)學(xué)》試題帶答案
- 2024年一級(jí)建造師之一建礦業(yè)工程實(shí)務(wù)題庫(kù)附答案(完整版)
- 寧德時(shí)代入職測(cè)評(píng)試題答案
- 《材料與社會(huì)》課件
- 2024新版:普通話測(cè)試50篇朗讀范文短文(2024年1月1日啟用)
評(píng)論
0/150
提交評(píng)論