異構(gòu)大數(shù)據(jù)的機器學(xué)習(xí)挑戰(zhàn)_第1頁
異構(gòu)大數(shù)據(jù)的機器學(xué)習(xí)挑戰(zhàn)_第2頁
異構(gòu)大數(shù)據(jù)的機器學(xué)習(xí)挑戰(zhàn)_第3頁
異構(gòu)大數(shù)據(jù)的機器學(xué)習(xí)挑戰(zhàn)_第4頁
異構(gòu)大數(shù)據(jù)的機器學(xué)習(xí)挑戰(zhàn)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

異構(gòu)大數(shù)據(jù)的機器學(xué)習(xí)挑戰(zhàn)胡清華huqinghua@天津大學(xué)計算機學(xué)院2014-12-12異構(gòu)大數(shù)據(jù)的機器學(xué)習(xí)報告會2014.12.14,天津大學(xué)25樓C412白栓虎,社交媒體挖掘方法與技術(shù)周明,微博的文本挖掘和情感分析董軍宇,海洋大數(shù)據(jù)挖掘初探陳松燦,復(fù)雜高維多視圖數(shù)據(jù)的相關(guān)分析楊猛,SparseLearningforImageclassification左旺孟,面向非凸稀疏和低秩模型的優(yōu)化算法孟德宇,EasySamplesFirst:Self-pacedRerankingforZero-ExampleMultimediaSearch紀(jì)榮嶸,Structured,Discriminative,3DSceneParsing吳飛,跨媒體深度學(xué)習(xí)及知識網(wǎng)絡(luò)構(gòu)建提綱大數(shù)據(jù)的異構(gòu)特性異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題人腦的多通道感知整合面向異構(gòu)數(shù)據(jù)的機器學(xué)習(xí)方法典型應(yīng)用提綱大數(shù)據(jù)的異構(gòu)特性異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題人腦的多通道感知整合面向異構(gòu)數(shù)據(jù)的機器學(xué)習(xí)方法典型應(yīng)用大數(shù)據(jù)研究和發(fā)展計劃(2012年3月)

召開了以大數(shù)據(jù)為主題的香山科學(xué)會議(2012年5月);科技部、基金委將大數(shù)據(jù)分別列入973計劃和基金申請指南。大數(shù)據(jù)和節(jié)能計算技術(shù)方案(2013年1月)開放數(shù)據(jù)戰(zhàn)略(2011年11月)美國

英國歐盟中國新ICT戰(zhàn)略研究計劃(2012年7月)日本大數(shù)據(jù)引起各國政府高度重視大數(shù)據(jù)蘊含的巨大價值引起了科技界、企業(yè)界和各國政府的高度重視,諸多國家和國際組織已將大數(shù)據(jù)研究提升到國家重大戰(zhàn)略層面。6圖像視頻文本言語

多模態(tài)異構(gòu)數(shù)據(jù)正在成為信息的主要形式社交媒體數(shù)據(jù)

日平均活躍用戶數(shù)(DAU)為6660萬,月平均活躍用戶數(shù)(MAU)為1.438億

月平均產(chǎn)生信息30多億條海量動態(tài)微博內(nèi)容的深層語義理解;多粒度用戶興趣建模與用戶關(guān)系發(fā)現(xiàn)構(gòu)建基于多模態(tài)內(nèi)容深度語義分析與多粒度用戶關(guān)系挖掘的精準(zhǔn)社會化推薦系統(tǒng)。多模態(tài)異構(gòu)信息8多模態(tài)異構(gòu)數(shù)據(jù)正在成為信息的主要形式太陽活動對深空探測、載人航天、衛(wèi)星運行、電力網(wǎng)絡(luò)的安全有重要影響。SDO每秒以10個波段拍攝太陽4096*4096分辨率的圖像,每天數(shù)據(jù)量為1.5T。天文大數(shù)據(jù):太陽觀測數(shù)據(jù)挖掘疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛大規(guī)模性疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛多模態(tài)性疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛疲勞駕駛增長性

用戶交互性強

傳播速度快

傳播行為復(fù)雜

……

大數(shù)據(jù)往往呈現(xiàn)出大規(guī)模、多模態(tài)與快速增長等特征,使得傳統(tǒng)的數(shù)據(jù)分析理論、方法與技術(shù)面臨可計算性、有效性與時效性等嚴(yán)峻挑戰(zhàn)。文本音頻視頻圖片用戶多總量龐大

分布廣……

數(shù)據(jù)分析的可計算性數(shù)據(jù)分析的有效性數(shù)據(jù)分析的時效性數(shù)據(jù)源多樣數(shù)據(jù)類型多樣

交互方式多樣……

多模態(tài)異構(gòu)數(shù)據(jù)正在成為信息的主要形式112010,《Nature》:文本、圖像、語音、視頻等多模態(tài)數(shù)據(jù)混合在一起,將成為未來信息表示的主要形式2011,《Science》組織“DealingwithData”專輯:數(shù)據(jù)的組織和使用體現(xiàn)多模態(tài)特征多源異構(gòu)大數(shù)據(jù)不僅在互聯(lián)網(wǎng)環(huán)境涌現(xiàn),而且廣泛出現(xiàn)在醫(yī)療、金融,科研,工業(yè)監(jiān)控等領(lǐng)域2014年973指南“大數(shù)據(jù)計算的基礎(chǔ)研究”:研究多源異構(gòu)大數(shù)據(jù)的表示、度量和語義理解方法2014年863指南“媒體大數(shù)據(jù)內(nèi)容理解與智能服務(wù)”:實現(xiàn)異構(gòu)媒體的結(jié)構(gòu)化描述和語義協(xié)同多模態(tài)異構(gòu)數(shù)據(jù)正在成為信息的主要形式提綱大數(shù)據(jù)的異構(gòu)特性異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題人腦的多通道感知整合面向異構(gòu)數(shù)據(jù)的機器學(xué)習(xí)方法典型應(yīng)用傳統(tǒng)學(xué)習(xí)算法應(yīng)對多模態(tài)數(shù)據(jù)的挑戰(zhàn)KNN決策樹LinearSVMnonlinearSVM數(shù)值數(shù)據(jù)異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題圖像數(shù)據(jù)視頻數(shù)據(jù)

時間序列文本數(shù)據(jù)符號數(shù)據(jù)太陽物理14如何提取和統(tǒng)一表示不同模態(tài)數(shù)據(jù)中的有用信息是多模態(tài)數(shù)據(jù)知識發(fā)現(xiàn)面臨的重要科學(xué)挑戰(zhàn)多源信息融合遷移互補異構(gòu)信息表達建模協(xié)同不確定信息模型推理決策15不同型號機組數(shù)據(jù)的共用相似型號機組信息的復(fù)用聲/光/電等多模態(tài)信息的全息利用不確定感知的近似推理混合數(shù)據(jù)挖掘異構(gòu)大數(shù)據(jù)異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題提綱大數(shù)據(jù)的異構(gòu)特性異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題人腦的多通道感知整合面向異構(gòu)數(shù)據(jù)的機器學(xué)習(xí)方法典型應(yīng)用我比語音識別器強研究人腦的多通道感知、學(xué)習(xí)、推理的機理,構(gòu)建新型的信息處理方法是應(yīng)對大數(shù)據(jù)挑戰(zhàn)的有效途徑認(rèn)知計算:人腦的信息處理機制認(rèn)知是為人類認(rèn)識客觀事物、獲得知識的活動,包括知覺、記憶、學(xué)習(xí)、語言、思維和問題解決等過程;認(rèn)知科學(xué)是研究人類感知和思維對信息處理過程的科學(xué),包括從感覺的輸入到復(fù)雜問題的求解,從人類個體到人類社會的智能活動,以及人類智能和機器智能的性質(zhì);如何從復(fù)雜的信息碎片中提取知識,實現(xiàn)類似人腦的認(rèn)知與判斷,發(fā)現(xiàn)新的關(guān)聯(lián)和模式,從而做出正確的決策。認(rèn)知計算的研究包括:自然的人機接口;學(xué)習(xí)能力;探索式問題求解能力。研究認(rèn)知的機理,建立認(rèn)知的模型,然后用計算機模擬人類認(rèn)知的過程來處理實際問題是人工智能領(lǐng)域的重要課題,受到很多研究者的關(guān)注。認(rèn)知計算:人腦的信息處理機制

視覺方面的研究已取得了大量成果視覺信息包括:亮度、形狀、顏色、運動和立體視覺等信息;六類神經(jīng)元(光感受器細胞、雙極細胞、神經(jīng)節(jié)細胞、水平細胞、無足細胞和網(wǎng)間細胞)處理著最初的視覺信息初級視皮層內(nèi)神經(jīng)元分為兩大類:簡單細胞/復(fù)雜細胞;簡單細胞的感受野窄,復(fù)雜細胞的感受野大;形狀、顏色、運動和深度視覺信息在視覺系統(tǒng)內(nèi)的平行、分級處理域。皮層中某個特別區(qū)域主管整個圖像綜合

在聽覺認(rèn)知方面:聽覺認(rèn)知處理的早期階段決定大腦半球優(yōu)勢的因素是聲學(xué)特性,而不是聽覺信號的功能;

大腦如何整合視聽覺信息尚不清楚?已知具有相互啟動效應(yīng)認(rèn)知計算:人腦的信息處理機制BizleyandCohen.Thewhat,whereandhowofauditory-objectperception.NATURE,2013認(rèn)知計算:人腦的信息處理機制手勢表情聽覺通道內(nèi)容識別話者識別互補啟動啟動視覺通道聽覺信息多通道感知如何通過融合多通道感知機理提升言語識別系統(tǒng)的能力?提綱大數(shù)據(jù)的異構(gòu)特性異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題人腦的多通道感知整合面向異構(gòu)數(shù)據(jù)的機器學(xué)習(xí)方法典型應(yīng)用多模態(tài)異構(gòu)數(shù)據(jù)的向量表示多線索融合的描述符學(xué)習(xí)圖像/視頻動作識別多模態(tài)異構(gòu)數(shù)據(jù)的向量表示多媒體數(shù)據(jù)的結(jié)構(gòu)化表示多模態(tài)異構(gòu)數(shù)據(jù)的向量表示面對圖像中異構(gòu)多模態(tài)的局部特征屬性,如幾何屬性、顏色/紋理分布和方向梯度等,如何進行有效利用和融合以提升圖像識別性能DiscriminativeGraphlets(判別式Graphlets)

Zhang,Han,Yang,etal.IEEETIP,2013多模態(tài)異構(gòu)數(shù)據(jù)的結(jié)構(gòu)化向量表示J.Chen,Y.Han,X.Cao,Q.Tian,ObjectCodingontheSemanticGraphforSceneClassification,ACMInternationalConferenceonMultimedia(ACMMultimedia2013)(CCFA)Y.Han,Y.Yang,X.Zhou.Co-RegularizedEnsembleforFeatureSelection,IJCAI,2013(CCFA)圖像場景中的語義上下文通過語義有向無環(huán)圖(SemanticDAG)進行表達;構(gòu)建正則化回歸模型,通過路徑編碼(PathCoding)正則化項將圖像場景間的語義關(guān)聯(lián)約束加入回歸過程。多模態(tài)異構(gòu)數(shù)據(jù)的表示Tao,Li,Hu,Maybank,andWu.SupervisedTensorLearning.ICDM05,

201410-YearICDMHighest-ImpactPaperAwardHao,He,Chen,andYang.ALinearSupportHigher-OrderTensorMachineforClassification.IEEETIP2013Signoretto,etal.Learningwithtensors:aframeworkbasedonconvexoptimizationandspectralregularization.MachineLearning,2014

多模態(tài)異構(gòu)數(shù)據(jù)的張量表示多模態(tài)數(shù)據(jù)建模的關(guān)鍵問題29符號數(shù)據(jù)數(shù)值數(shù)據(jù)時間序列文本數(shù)據(jù)圖像數(shù)據(jù)視頻數(shù)據(jù)多模態(tài)數(shù)據(jù)科學(xué)問題----跨模態(tài)信息的集成如何定義多模態(tài)數(shù)據(jù)的距離Bellet,Habrard,Sebban.ASurveyonMetricLearningforFeatureVectorsandStructuredData.Report,2014異構(gòu)數(shù)據(jù)的距離學(xué)習(xí)McFee,Lanckriet.JMLR12(2011)491-523LearningMulti-modalSimilarityMultipleKernelLearningforDimensionalityReduction32Zhang,Wang,Zhou,Yuan,Shen.NeuroImage55(2011)856–867SparseRepresentationforclassificationShekhar,Patel,Nasrabadi,

Chellappa.IEEETPAMI,2014JointSparseRepresentationforRobustMultimodalBiometricsRecognition多模態(tài)深度學(xué)習(xí)36Nigiam,Kholsa,Kim,Nam,Ng.MultimodalDeepLearning,ICML,2011Srivastava,Salakhutdinov.MultimodalLearningwithDeepBoltzmannMachines.NIPS2012多模態(tài)異構(gòu)數(shù)據(jù)的表示和建模OnlineMultimodalDeepSimilarityLearningwithApplicationtoImageRetrievalWu,Hoi,Xia,Zhao,Wang,Miao.ACMMM,2014Zhou,Hu,Liu,Jia.CombiningMulti-modalDeepNeuralNetworkswithConditionalRandomFieldsforChineseDialogueActRecognition.Interspeech,2014序貫決策的多模態(tài)深度學(xué)習(xí)智能大數(shù)據(jù)分析:多模態(tài)異構(gòu)數(shù)據(jù)的表示和建模提綱大數(shù)據(jù)的異構(gòu)特性異構(gòu)數(shù)據(jù)的挑戰(zhàn)性問題人腦的多通道感知整合面向異構(gòu)數(shù)據(jù)的機器學(xué)習(xí)方法典型應(yīng)用言語碎片言語碎片言語碎片言語碎片言語碎片言語碎片言語碎片言語碎片言語碎片言語碎片互聯(lián)網(wǎng)使得知識發(fā)現(xiàn)可能變成群體行為通過互聯(lián)網(wǎng)環(huán)境言語碎片的深度利用,有可能提高從海量復(fù)雜數(shù)據(jù)中獲取知識的能力,可能加速科學(xué)與工程領(lǐng)域的創(chuàng)新步伐挑戰(zhàn):

如何對互聯(lián)網(wǎng)環(huán)境的言語碎片信息進行表示?如何從龐雜的言語碎片中挖掘其蘊含的知識?應(yīng)用一:互聯(lián)網(wǎng)言語深度理解中文言語深度理解言語多通道感知機理言語信息表示理論科學(xué)問題大規(guī)模語料庫及標(biāo)注系統(tǒng)言語信息服務(wù)平臺與應(yīng)用驗證多言語空間及其映射關(guān)系多言語口語識別多通道感知機理研究內(nèi)容基于語境的中文言語信息計算模型言語行為計算理論應(yīng)用一:互聯(lián)網(wǎng)言語深度理解全球近50%的居民所處環(huán)境中,每20萬人口中只有≤1名精神科醫(yī)生。(WHO,2011)我國目前僅有2萬多名精神科專科醫(yī)師

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論