




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)領(lǐng)域
若干關(guān)鍵問題西北大學信息科學與技術(shù)學院陳莉教授/博導chenli@2014.4.24大數(shù)據(jù)技術(shù)領(lǐng)域
若干關(guān)鍵問題西北大學信息科學與技術(shù)學院12022/12/10NWU智能信息處理研究所2風云變幻中……2022/12/8NWU智能信息處理研究所2風云變幻中…2題序
何為大數(shù)據(jù)(BIGDATA)?
Verylargedata?Massivedata?Bigdata?題序
何為大數(shù)據(jù)(BIGDATA)?
Very32022/12/10NWU智能信息處理研究所4大數(shù)據(jù)(BigData)超大規(guī)模數(shù)據(jù)?海量數(shù)據(jù)?“verylarge”大?還是“big”大?——相對于當時的CPU和存儲技術(shù)水平,均指數(shù)據(jù)規(guī)模很大“超大規(guī)模數(shù)據(jù)庫”(VLDB)這個詞是20世紀70年代中期出現(xiàn)的。VLDB會議1975年發(fā)起。數(shù)百萬條記錄即超大規(guī)?!昂A繑?shù)據(jù)”則是21世紀初出現(xiàn)的詞,越來越多的應用建立在多源數(shù)據(jù)集成基礎(chǔ)之上時,數(shù)據(jù)規(guī)模急劇擴大,數(shù)據(jù)類型由關(guān)系數(shù)據(jù),到非結(jié)構(gòu)化的、半結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指在獲得數(shù)據(jù)之前無法預知其結(jié)構(gòu)的數(shù)據(jù),如文本、圖像、視頻等。包含數(shù)千萬個文檔、數(shù)百萬張照片或者工程設(shè)計圖的數(shù)據(jù)集很平常,關(guān)系數(shù)據(jù)庫無法有效管理這些數(shù)據(jù),如何快速訪問數(shù)據(jù)成為核心挑戰(zhàn)。以Hadoop為代表的分布式文件系統(tǒng)和MapReduce計算框架應運而生2008年9月《科學》(Science)雜志發(fā)表了一篇文章“BigData:ScienceinthePetabyteEra”,“大數(shù)據(jù)”這個詞開始傳播所謂大數(shù)據(jù),泛指規(guī)模達到幾百TB,甚至PB級的數(shù)據(jù),廣泛出現(xiàn)在科學研究,Web集成、多媒體等諸多領(lǐng)域中大數(shù)據(jù)是伴隨數(shù)據(jù)獲取技術(shù)的發(fā)展,Web2.0、WSN(傳感網(wǎng))和CPS(物聯(lián)網(wǎng))等應用的快速普及而提出的概念2022/12/8NWU智能信息處理研究所4大數(shù)據(jù)(Bi42022/12/10NWU智能信息處理研究所5從歷史的視角——“超大規(guī)模數(shù)據(jù)”指表示和處理的是GB級別的數(shù)據(jù),主要研究關(guān)系數(shù)據(jù)模型的高效實現(xiàn)技術(shù)、事務(wù)管理與故障恢復技術(shù)、索引與查詢優(yōu)化技術(shù)等,創(chuàng)建了一套關(guān)系數(shù)據(jù)庫的理論與技術(shù)體系,已在商業(yè)上取得了成功?!昂A繑?shù)據(jù)”指表示和處理的數(shù)據(jù)是TB級的數(shù)據(jù),主要研究各種非結(jié)構(gòu)化數(shù)據(jù)的有效管理、多數(shù)據(jù)源的集成問題。涉及如何統(tǒng)一表達非結(jié)構(gòu)化數(shù)據(jù),如何實現(xiàn)基于語義的非結(jié)構(gòu)化數(shù)據(jù)的集成和檢索,如何解決與應用緊密相關(guān)的功能與數(shù)據(jù)管理系統(tǒng)融合等問題。我國“核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品”(“核高基”)科技重大專項也將非結(jié)構(gòu)化數(shù)據(jù)管理作為需要重點突破的關(guān)鍵技術(shù)加以重點支持。
“大數(shù)據(jù)”指表示和處理的數(shù)據(jù)是PB級別及其以上的數(shù)據(jù)。大數(shù)據(jù)并非單指數(shù)據(jù)量之大。如果說海量數(shù)據(jù)主要從存儲角度考慮問題,則大數(shù)據(jù)除了數(shù)據(jù)存儲,還包括數(shù)據(jù)處理、感知等。
2022/12/8NWU智能信息處理研究所5從歷史的視角52022/12/10NWU智能信息處理研究所6大數(shù)據(jù)形成于……用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB據(jù)IDC統(tǒng)計,2011年全球被創(chuàng)建和被復制的數(shù)據(jù)總量為1.8ZB(1021),其中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)谷歌公司通過大規(guī)模集群和MapReduce軟件,每個月處理的數(shù)據(jù)量超過400PB百度每天大約要處理幾十PB數(shù)據(jù)Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù)淘寶網(wǎng)會員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20TB數(shù)據(jù);雅虎的總存儲容量超過100PB每個人類基因數(shù)據(jù):300GB~700GB;基因定位和分析所需時間:1000+機時:1000個基因分析需要114年各類移動設(shè)備產(chǎn)生了大量的大數(shù)據(jù);傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展形成大數(shù)據(jù)集合各城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)勞斯萊斯公司對全世界數(shù)以萬計的飛機引擎進行實時監(jiān)控,每年傳送PB量級的數(shù)據(jù)……
數(shù)據(jù)形成的過程:被動產(chǎn)生——主動產(chǎn)生——自動產(chǎn)生2022/12/8NWU智能信息處理研究所6大數(shù)據(jù)形成于62022/12/10NWU智能信息處理研究所7移動互聯(lián)網(wǎng):即時通迅微信是騰訊公司推出免費即時通訊服務(wù)的聊天軟件??梢酝ㄟ^手機、平板、網(wǎng)頁快速發(fā)送語音、視頻、圖片和文字。微信提供公眾平臺、朋友圈、消息推送等功能,用戶可以通過搖一搖、搜索號碼、附近的人、掃二維碼方式添加好友和關(guān)注公眾平臺,同時微信幫將內(nèi)容分享給好友以及將用戶看到的精彩內(nèi)容分享到微信朋友圈。
2022/12/8NWU智能信息處理研究所7移動互聯(lián)網(wǎng):72022/12/10NWU智能信息處理研究所8表1存儲容量單位2022/12/8NWU智能信息處理研究所8表1存儲82022/12/10NWU智能信息處理研究所9表2
9GBDVD光盤/1TB2.5寸硬盤保存1.8ZB數(shù)據(jù)比較
1.8ZB數(shù)據(jù)如果用9GB的DVD盤來保存,疊加起來的高度超過26萬公里,大約是地球到月球距離的2/3;如果用1TB的2.5寸磁盤保存,疊加起來的高度超過1.7萬公里,接近地球周長的一半;
每位美國人每分鐘寫3條Twitter微博,不停地寫2.6976萬年;
事實上,多數(shù)磁盤的容量可能還不到1TB,存儲這些數(shù)據(jù)的磁盤是十分驚人的數(shù)字。2022/12/8NWU智能信息處理研究所9表2
92022/12/10NWU智能信息處理研究所10大數(shù)據(jù)的概念定義1
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。——維基百科
Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.——Wiki2022/12/8NWU智能信息處理研究所10大數(shù)據(jù)的概102022/12/10NWU智能信息處理研究所11大數(shù)據(jù)定義2——“3V”
BigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization.——Gartner大數(shù)據(jù)指:Volume(規(guī)模大,數(shù)據(jù)已從TB級別躍升至PB級別)+Variety(類型多,從普通的文字、視頻、圖片到逐漸增多的地理位置信息等,類型紛繁,已無規(guī)律可循)+Velocity(變化快,即時處理成為趨勢)——IBM2022/12/8NWU智能信息處理研究所11大數(shù)據(jù)112022/12/10NWU智能信息處理研究所12大數(shù)據(jù)定義3當數(shù)據(jù)的規(guī)模和性能要求成為數(shù)據(jù)管理分析系統(tǒng)的重要設(shè)計和決定因素時,這樣的數(shù)據(jù)就被稱為大數(shù)據(jù)。不是簡單地以數(shù)據(jù)規(guī)模來界定大數(shù)據(jù),要考慮數(shù)據(jù)查詢與分析的復雜程度以目前計算機硬件的發(fā)展水平看針對簡單查詢(如關(guān)鍵字搜索),數(shù)據(jù)量為TB至PB級時可稱為大數(shù)據(jù)針對復雜查詢(如數(shù)據(jù)挖掘),數(shù)據(jù)量為GB至TB級時即可稱為大數(shù)據(jù)2022/12/8NWU智能信息處理研究所12大數(shù)據(jù)122022/12/10NWU智能信息處理研究所13大數(shù)據(jù)定義4大數(shù)據(jù)有兩個不同于傳統(tǒng)數(shù)據(jù)集的基本特征:
1.大數(shù)據(jù)不一定存儲于固定的數(shù)據(jù)庫,而是分布在不同的網(wǎng)絡(luò)空間;2.大數(shù)據(jù)以半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)為主,具有較高的復雜性。2022/12/8NWU智能信息處理研究所13大數(shù)據(jù)132022/12/10NWU智能信息處理研究所14大數(shù)據(jù)定義5-7為了更經(jīng)濟地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)?!狪DC大數(shù)據(jù)——“4V”觀點一
Volume+
Variety+Velocity+Value(創(chuàng)造價值)大數(shù)據(jù)——“4V”觀點二Volume+
Variety+Velocity+Value(價值密度低,以視頻為例,在連續(xù)不間斷監(jiān)控過程中,有用的數(shù)據(jù)也許只有一兩秒)
2022/12/8NWU智能信息處理研究所14大數(shù)據(jù)142022/12/10NWU智能信息處理研究所15主要內(nèi)容數(shù)據(jù)科學與大數(shù)據(jù)大數(shù)據(jù)的主要研究領(lǐng)域大數(shù)據(jù)技術(shù)主要研究內(nèi)容大數(shù)據(jù)技術(shù)的若干關(guān)鍵問題2014年大數(shù)據(jù)十大發(fā)展趨勢預測2022/12/8NWU智能信息處理研究所15主要內(nèi)容數(shù)15一、數(shù)據(jù)科學與大數(shù)據(jù)數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的科學——旨在研究數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律,揭示自然界和人類行為現(xiàn)象和規(guī)律,亦稱數(shù)據(jù)學。一、數(shù)據(jù)科學與大數(shù)據(jù)數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的科學——旨在研究數(shù)據(jù)162022/12/10NWU智能信息處理研究所17數(shù)據(jù)科學與第四范式2007年美國總統(tǒng)科學技術(shù)顧問委員會(President’sCouncilofAdvisorsonScienceandTechnology,PCAST)的報告以及英國e-Science計劃前首席科學家托尼·海(TonyHey)的著作《第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)》(TheFourthParadigm:DataintensiveScientificDiscovery)都揭示出數(shù)據(jù)分析已經(jīng)成為繼實驗、理論和計算之后的第四種科學發(fā)現(xiàn)基礎(chǔ),成為產(chǎn)生經(jīng)濟價值的新源泉。2022/12/8NWU智能信息處理研究所17數(shù)據(jù)科學與172022/12/10NWU智能信息處理研究所18數(shù)據(jù)科學(DataScience)
圖靈獎獲得者JimGray:2007年在演講中提出“數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-IntensiveScientificDiscovery)”將成為科學研究的第四范式
實驗科學理論科學計算科學數(shù)據(jù)科學卡耐基·梅隆大學等相繼提出了“數(shù)據(jù)密集型超級計算(dataintensivesupercomputing)”和“數(shù)據(jù)密集型可擴展計算(dataintensivescalablecomputing)”的概念世界著名存儲技術(shù)公司EMC:提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李國杰院士:“數(shù)據(jù)科學”研究的對象是什么?計算機科學是關(guān)于算法的科學,而數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的科學——數(shù)據(jù)學“數(shù)據(jù)科學”成為一個新興的研究領(lǐng)域——2012年大數(shù)據(jù)成為熱點2022/12/8NWU智能信息處理研究所18數(shù)據(jù)科學(182022/12/10NWU智能信息處理研究所19數(shù)據(jù)科學研究的基本框架“大數(shù)據(jù)”
大數(shù)據(jù)(Bigdata)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合?!S基百科2022/12/8NWU智能信息處理研究所19數(shù)據(jù)科學研19大數(shù)據(jù)4V特征VolumeVolumeVarietyVolume模態(tài)多樣VeracityVolume真?zhèn)坞y辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達40ZB,人均5.2TB分享的內(nèi)容條目超過25億個/天,增加數(shù)據(jù)超過500TB/天202022/12/10NWU智能信息處理研究所20大數(shù)據(jù)4V特征VolumeVolumeVarietyVolu20212022/12/10NWU智能信息處理研究所21大數(shù)據(jù)與常規(guī)數(shù)據(jù)常規(guī)數(shù)據(jù)范圍廣模態(tài)多增長快關(guān)聯(lián)繁數(shù)據(jù)規(guī)模較小模態(tài)屬性受限增長速度較慢關(guān)聯(lián)相對簡單稠密與稀疏共存冗余與缺失并在動態(tài)與靜態(tài)互現(xiàn)顯式與隱藏均有特性問題描述與存儲的挑戰(zhàn)分析與理解的挑戰(zhàn)挖掘與預測的挑戰(zhàn)挑戰(zhàn)大數(shù)據(jù)應用目標相對比較明確數(shù)據(jù)結(jié)構(gòu)相對比較簡單時序長持續(xù)時間較短處理方法通常為模型化、參數(shù)化212022/12/8NWU智能信息處理研究所21大數(shù)據(jù)212022/12/10NWU智能信息處理研究所22美國的大數(shù)據(jù)規(guī)劃—大數(shù)據(jù)上升為國家意志2012年3月29日,美國聯(lián)邦政府整合6個部門宣布2億美元的“BigDataResearchandDevelopmentInitiative”促進采集、存儲、維護、管理、分析和共享海量數(shù)據(jù)的核心技術(shù);利用以上技術(shù)來加速科學與工程發(fā)現(xiàn)的步伐,強化國家安全,改變教育和學習;培養(yǎng)開發(fā)和使用大數(shù)據(jù)技術(shù)的人力資源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA2022/12/8NWU智能信息處理研究所22美國的大數(shù)222022/12/10NWU智能信息處理研究所23美國政府六個部門啟動的“大數(shù)據(jù)研究與發(fā)展計劃”,絕大多數(shù)研究項目都是應對大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)國防部高級研究計劃局(DARPA)的大數(shù)據(jù)研究項目包括:多尺度異常檢測項目,旨在解決大規(guī)模數(shù)據(jù)集的異常檢測和特征化;網(wǎng)絡(luò)內(nèi)部威脅計劃,旨在通過分析傳感器和其他來源的信息,進行網(wǎng)絡(luò)威脅和非常規(guī)戰(zhàn)爭行為的自動識別;MachineReading項目,旨在實現(xiàn)人工智能的應用和發(fā)展學習系統(tǒng),對自然文本進行知識插入。能源部(DOE)的大數(shù)據(jù)研究項目包括:機器學習、數(shù)據(jù)流的實時分析、非線性隨機的數(shù)據(jù)縮減技術(shù)和可擴展的統(tǒng)計分析技術(shù)。生物和環(huán)境研究計劃的目標是大氣輻射測量等氣候研究設(shè)施;系統(tǒng)生物學知識庫項目是對微生物、植物等生物群落功能的數(shù)據(jù)驅(qū)動的預測。國家人文基金會(NEH)項目包括:分析大數(shù)據(jù)的變化對人文社會科學的影響,如數(shù)字化的書籍和報紙數(shù)據(jù)庫,從網(wǎng)絡(luò)搜索,傳感器和手機記錄交易數(shù)據(jù)。國家科學基金會(NSF)的大數(shù)據(jù)項目的重點也是圍繞突破關(guān)鍵技術(shù),包括:從大量、多樣、分散和異構(gòu)的數(shù)據(jù)集中提取有用信息的核心技術(shù);開發(fā)一種以統(tǒng)一的理論框架為原則的統(tǒng)計方法和可伸縮的網(wǎng)絡(luò)模型算法,以區(qū)別適合隨機性網(wǎng)絡(luò)的方法。2022/12/8NWU智能信息處理研究所23美國政府六23242022/12/10NWU智能信息處理研究所24歐盟的大數(shù)據(jù)規(guī)劃—基礎(chǔ)設(shè)施是先導Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大數(shù)據(jù)的數(shù)據(jù)信息化基礎(chǔ)設(shè)施(E-Infrastructure)是優(yōu)先資助領(lǐng)域GRDI2020-GlobalResearchDataInfrastructures建立針對科研大數(shù)據(jù)的基礎(chǔ)設(shè)施,實現(xiàn)數(shù)據(jù)管理系統(tǒng)、數(shù)字數(shù)據(jù)圖書館、研究圖書館、數(shù)據(jù)工具和研究團體的整合FP7Call8IntelligentInformationManagement-BigData預算5千萬歐元,2012-1-17截止目標:提升發(fā)現(xiàn)、分析、開采、使用大數(shù)據(jù)及其基礎(chǔ)設(shè)施的能力通過對大數(shù)據(jù)收集與分析創(chuàng)造更大價值探索基于大規(guī)模互聯(lián)數(shù)據(jù)資源與專用基礎(chǔ)設(shè)施的新型科學研究面向大數(shù)據(jù)的人力資源開發(fā)242022/12/8NWU智能信息處理研究所24歐盟的242022/12/10NWU智能信息處理研究所25大數(shù)據(jù)涉及諸多不同的領(lǐng)域
天文氣象基因醫(yī)學經(jīng)濟物理其他領(lǐng)域用戶生成數(shù)據(jù)DeepWeb數(shù)據(jù)多模態(tài)內(nèi)容數(shù)據(jù)網(wǎng)絡(luò)與關(guān)系數(shù)據(jù)2022/12/8NWU智能信息處理研究所25大數(shù)據(jù)涉及252022/12/10NWU智能信息處理研究所26大數(shù)據(jù)的價值科研價值圖靈獎得主、數(shù)據(jù)庫技術(shù)奠基人JimGray認為數(shù)據(jù)驅(qū)動的研究將是第四種科學研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大數(shù)據(jù)已為多個不同學科的科學研究工作提供了寶貴機遇經(jīng)濟價值麥肯錫全球研究院:大數(shù)據(jù)可為世界經(jīng)濟創(chuàng)造巨大價值,提高企業(yè)和公共部門的生產(chǎn)率和競爭力,并為消費者創(chuàng)造巨大的經(jīng)濟利益著名Gartner公司:到2015年,采用大數(shù)據(jù)和海量信息管理的公司將在各項財務(wù)指標上,超過未做準備的競爭對手20%工業(yè)價值分析使用:揭示隱藏其中的信息,例如零售業(yè)中對門店銷售、地理和社會信息的分析能提升對客戶的理解二次開發(fā):創(chuàng)造出新產(chǎn)品和服務(wù)。例如Facebook通過結(jié)合大量用戶信息,定制出高度個性化的用戶體驗,并創(chuàng)造出一種新的廣告模式社會價值例如:2009年淘寶網(wǎng)推出淘寶CPI來反映網(wǎng)絡(luò)購物的消費趨勢和價格動態(tài)其他價值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的創(chuàng)始人TimO‘Reilly2022/12/8NWU智能信息處理研究所26大數(shù)據(jù)的價26大數(shù)據(jù)處理技術(shù)的主要推動者IBM、Oracle、微軟、谷歌、亞馬遜、Facebook等跨國巨頭是發(fā)展大數(shù)據(jù)處理技術(shù)的主要推動者;IBM投資160億美元進行了30次與大數(shù)據(jù)有關(guān)的收購,促使其業(yè)績穩(wěn)定高速增長。2012年,IBM股價突破200美元大關(guān),3年之內(nèi)翻了3倍;IBM成為全球數(shù)學博士的最大雇主,數(shù)學家正在將其數(shù)據(jù)分析的才能應用于石油勘探、醫(yī)療健康等各個領(lǐng)域;華爾街早已開始招聘精通數(shù)據(jù)分析的天文學家和理論數(shù)學家來設(shè)計金融產(chǎn)品;eBay通過數(shù)據(jù)挖掘可以精確計算出廣告中的每一個關(guān)鍵字為公司帶來的回報。通過對廣告投放的優(yōu)化,2007年以來eBay產(chǎn)品銷售的廣告費降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%;目前推動大數(shù)據(jù)研究的動力主要是企業(yè)經(jīng)濟效益,巨大的經(jīng)濟利益驅(qū)使大企業(yè)不斷擴大數(shù)據(jù)處理規(guī)模。大數(shù)據(jù)處理技術(shù)的主要推動者IBM、Oracle、微軟、谷歌、27應用價值佐證美國印地安那大學和英國曼徹斯特大學的學者通過提取Twitter上的非結(jié)構(gòu)化數(shù)據(jù)分析公眾情緒,再將情緒曲線與道瓊斯工業(yè)指數(shù)進行對照分析,發(fā)現(xiàn)可以提前3~4天預測股市大盤走勢?;诖?,他們已經(jīng)推出了歐洲第一只基于社交媒體的對沖基金;英國的科學家根據(jù)Twitter的數(shù)據(jù)來跟蹤流感的爆發(fā)?;谟脩舭l(fā)布信息中的關(guān)鍵詞,如“我頭痛”,并結(jié)合用戶的發(fā)布地點,按區(qū)域與英國衛(wèi)生部的官方數(shù)據(jù)進行比較,最終建立起一個預測模型。2012年初的瑞士達沃斯論壇上,一份題為《大數(shù)據(jù),大影響》(BigData,BigImpact)的報告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。《華爾街日報》在文章《科技變革即將引領(lǐng)新的經(jīng)濟繁榮》中更是大膽預測:“我們再次處于三場宏大技術(shù)變革的開端,他們可能足以匹敵20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數(shù)據(jù)、智能制造和無線網(wǎng)絡(luò)革命?!睉脙r值佐證美國印地安那大學和英國曼徹斯特大學的學者通過提取2829學術(shù)界對大數(shù)據(jù)的關(guān)注2012年1月,NaturePhysics上出版??癈omplexity”特別指出大數(shù)據(jù)為科學研究,特別是復雜性科學的研究提供了史無前例的機遇2008年,Nature出版??癇igData”從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟學、超級計算、環(huán)境科學、生物醫(yī)藥等多個方面介紹了大數(shù)據(jù)所帶來的技術(shù)挑戰(zhàn)2011年,Science刊登??癉ealingwithData”討論了數(shù)據(jù)洪流(Datadeluge)所帶來的挑戰(zhàn),也特別指出倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機會發(fā)揮科學技術(shù)對社會發(fā)展的巨大推動作用2012年4月,歐洲信息學與數(shù)學研究協(xié)會會刊ERCIMNews上出版專刊“BigData”討論了大數(shù)據(jù)時代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新數(shù)據(jù)庫技術(shù)等問題,并介紹了歐洲科研機構(gòu)開展的研究活動和取得的創(chuàng)新性進展2022/12/10NWU智能信息處理研究所2929學術(shù)界對大數(shù)據(jù)的關(guān)注2012年1月,NaturePhy29302022/12/10NWU智能信息處理研究所30大數(shù)據(jù)會議/Workshop學術(shù)會議工業(yè)會議302022/12/8NWU智能信息處理研究所30大數(shù)據(jù)302022/12/10NWU智能信息處理研究所31國內(nèi)現(xiàn)狀2012年2月14日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,信息處理技術(shù)作為四項關(guān)鍵技術(shù)創(chuàng)新工程之一已經(jīng)被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析——大數(shù)據(jù)的重要組成部分;另外三項關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與大數(shù)據(jù)密切相關(guān)973立項(2013):大數(shù)據(jù)計算的基礎(chǔ)研究;面向三元空間的感知、認知和智能控制863立項(2013):面向大數(shù)據(jù)先進存儲結(jié)構(gòu)及關(guān)鍵技術(shù);面向大數(shù)據(jù)的智能存儲體系結(jié)構(gòu)及關(guān)鍵技術(shù)和模型框架;海量WEB數(shù)據(jù)提取分析和管理系統(tǒng)平臺開發(fā)NSFC:F02大數(shù)據(jù)管理與分析F03:大數(shù)據(jù)技術(shù)與應用中的挑戰(zhàn)性科學問題2022/12/8NWU智能信息處理研究所31國內(nèi)現(xiàn)狀231二、大數(shù)據(jù)的主要研究領(lǐng)域科學—技術(shù)—工程—應用二、大數(shù)據(jù)的主要研究領(lǐng)域科學—技術(shù)—工程—應用322022/12/10NWU智能信息處理研究所33大數(shù)據(jù)的主要研究領(lǐng)域大數(shù)據(jù)科學:旨在發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。
大數(shù)據(jù)工程:指大數(shù)據(jù)的規(guī)劃、建設(shè)、運營、管理的系統(tǒng)工程。大數(shù)據(jù)應用:針對不同行業(yè)與領(lǐng)域業(yè)務(wù)需求,展開數(shù)據(jù)特征與業(yè)務(wù)特征的研究,進行大數(shù)據(jù)應用分類與技術(shù)需求分析,構(gòu)建從“需求分析——業(yè)務(wù)模型——數(shù)據(jù)模型——數(shù)據(jù)采集——數(shù)據(jù)分析——總結(jié)反饋——數(shù)據(jù)分析”的全生命周期應用模型。大數(shù)據(jù)技術(shù):旨在從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的技術(shù)。大數(shù)據(jù)技術(shù)將被設(shè)計用于在成本可承受(economically)的條件下,通過非??焖伲╲elocity)的采集、發(fā)現(xiàn)和分析,從大量的(volumes)、多類別(variety)的數(shù)據(jù)中提取價值(value),將是IT領(lǐng)域新一代的技術(shù)架構(gòu)和相關(guān)技術(shù)。2022/12/8NWU智能信息處理研究所33大數(shù)據(jù)的主33大數(shù)據(jù)研究的三個關(guān)鍵問題
在“數(shù)據(jù)科學”領(lǐng)域,大數(shù)據(jù)管理及處理能力已經(jīng)成為大數(shù)據(jù)技術(shù)研究的關(guān)鍵。由于數(shù)據(jù)的異質(zhì)異構(gòu)、無結(jié)構(gòu)及不可信等特征,大數(shù)據(jù)管理和分析研究需要解決可表示、可處理和可靠性三個關(guān)鍵問題。大數(shù)據(jù)研究的三個關(guān)鍵問題
在“數(shù)據(jù)科學”領(lǐng)域,大數(shù)據(jù)管理及處34關(guān)鍵問題——可表示問題
例如,互聯(lián)網(wǎng)中的數(shù)據(jù)具有異質(zhì)、異構(gòu)、無結(jié)構(gòu)發(fā)展趨勢;非結(jié)構(gòu)化數(shù)據(jù)在互聯(lián)網(wǎng)大數(shù)據(jù)中占有的比例大幅增加;美國弗雷斯特研究公司Forrester)分析師在2010年《政府今天所面臨的挑戰(zhàn)》報告中預計:“數(shù)據(jù)將會在今后的5年內(nèi)增加8倍,其中非結(jié)構(gòu)化數(shù)據(jù)在各組織機構(gòu)的數(shù)據(jù)中所占份額超過70%到80%,并且這些非結(jié)構(gòu)化數(shù)據(jù)的增長速度是結(jié)構(gòu)化數(shù)據(jù)的10~50倍”。從數(shù)據(jù)管理的角度看,非結(jié)構(gòu)化數(shù)據(jù)很難按照統(tǒng)一的模型進行分析處理,比結(jié)構(gòu)化數(shù)據(jù)處理難得多。因此,如何有效地表示這些非結(jié)構(gòu)化數(shù)據(jù)成為首要問題。關(guān)鍵問題——可表示問題例如,互聯(lián)網(wǎng)中的數(shù)據(jù)具有異質(zhì)、異構(gòu)、35可處理問題——數(shù)據(jù)規(guī)模急劇擴張,遠遠超越現(xiàn)有計算機處理能力圖靈獎獲得者吉姆·格雷(JimGray)和IDC公司曾預測,全球數(shù)據(jù)量每18個月翻一番。目前全球數(shù)據(jù)的存儲和處理能力已遠落后于數(shù)據(jù)的增長幅度。例如,淘寶網(wǎng)每日新增的交易數(shù)據(jù)達10TB;eBay分析平臺日處理數(shù)據(jù)量高達100PB,超過了美國納斯達克交易所全天的數(shù)據(jù)處理量;沃爾瑪是最早利用大數(shù)據(jù)分析并因此受益的企業(yè)之一,曾創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例?,F(xiàn)在沃爾瑪每小時處理100萬件交易,將有大約2.5PB的數(shù)據(jù)存入數(shù)據(jù)庫,此數(shù)據(jù)量是美國國會圖書館的167倍;微軟花了20年,耗費數(shù)百萬美元完成的Office拼寫檢查功能,谷歌公司則利用大量統(tǒng)計數(shù)據(jù)直接分析實現(xiàn)??商幚韱栴}——數(shù)據(jù)規(guī)模急劇擴張,遠遠超越現(xiàn)有計算機處理能力圖36可處理問題——數(shù)據(jù)處理需求的多樣化逐漸顯現(xiàn)
相比支撐單業(yè)務(wù)類型的數(shù)據(jù)處理業(yè)務(wù),公共數(shù)據(jù)處理平臺需要處理的大數(shù)據(jù)涉及在線/離線、線性/非線性,流數(shù)據(jù)和圖數(shù)據(jù)等多種復雜混合計算方式。例如,2011年Facebook首度公開其新數(shù)據(jù)處理分析平臺PUMA,通過對數(shù)據(jù)多處理環(huán)節(jié)區(qū)分優(yōu)化,相比之前單純采用Hadoop和Hive進行處理的技術(shù),數(shù)據(jù)分析周期從2天降到10秒之內(nèi),效率提高數(shù)萬倍。手段:云計算、高性能計算、大數(shù)據(jù)分析處理技術(shù)等可處理問題——數(shù)據(jù)處理需求的多樣化逐漸顯現(xiàn)相比支撐單業(yè)務(wù)類37可靠性問題——大數(shù)據(jù)的可靠性,既需要數(shù)據(jù)清洗、去冗等技術(shù)提取有價值數(shù)據(jù),實現(xiàn)數(shù)據(jù)質(zhì)量高效管理;也涉及實現(xiàn)對數(shù)據(jù)的安全訪問和隱私保護,是大數(shù)據(jù)可靠性的關(guān)鍵需求?;ヂ?lián)網(wǎng)開放性,使大數(shù)據(jù)在數(shù)據(jù)輸入時的質(zhì)量確保和數(shù)據(jù)輸出時的隱私保護面臨考驗?;ヂ?lián)網(wǎng)的數(shù)據(jù)采集和發(fā)布更靈活,容易將各種類型的不確定數(shù)據(jù)大量引入系統(tǒng),造成數(shù)據(jù)中含有各種各樣的錯誤和誤差,體現(xiàn)為數(shù)據(jù)不正確、不精確、不完全、過時陳舊或者重復冗余。據(jù)高德納公司(Gartner)統(tǒng)計,在全球財富1000強公司中有超過25%的公司關(guān)鍵數(shù)據(jù)不正確或不精確;在美國企業(yè)中有1%~30%的公司數(shù)據(jù)存在各類錯誤和誤差,僅就醫(yī)療數(shù)據(jù)而言,有13.6%~81%的關(guān)鍵數(shù)據(jù)遺缺或陳舊;數(shù)據(jù)是企業(yè)降低成本、損失和增加收入不可或缺的工具。英國BT公司(BritishTelecom)因使用數(shù)據(jù)質(zhì)量工具而創(chuàng)造的企業(yè)效益每年高達6億英鎊。用戶在享受數(shù)據(jù)價值的同時,也面臨日益嚴重的安全威脅和隱私風險。趨勢科技稱2011年為數(shù)據(jù)泄露年,國內(nèi)CSDN網(wǎng)站被曝600萬用戶的數(shù)據(jù)庫信息數(shù)據(jù)保護不妥,導致用戶密碼泄露。據(jù)安全機構(gòu)統(tǒng)計,此次隱私信息泄露涉及5000萬互聯(lián)網(wǎng)用戶。著名社會網(wǎng)絡(luò)Facebook的Beacon廣告系統(tǒng)可以追蹤到5500萬用戶在其他網(wǎng)站的活動,嚴重威脅用戶隱私信息??煽啃詥栴}——大數(shù)據(jù)的可靠性,既需要數(shù)據(jù)清洗、去冗等技術(shù)提取382022/12/10NWU智能信息處理研究所39大數(shù)據(jù)技術(shù)的研究面臨挑戰(zhàn)數(shù)據(jù)規(guī)模導致難以應對的存儲量和計算量數(shù)據(jù)規(guī)模導致傳統(tǒng)算法失效大數(shù)據(jù)復雜的數(shù)據(jù)關(guān)聯(lián)性導致高復雜度的計算基本原則應用需求為導向領(lǐng)域交叉為橋梁計算技術(shù)為支撐
通過并行計算、分布式處理以及集群計算技術(shù)來實現(xiàn)大數(shù)據(jù)量處理及多機分布式并行處理,以滿足應用的需求。Allmodelsarewrong,andincreasinglyyoucansucceedwithoutthem.2022/12/8NWU智能信息處理研究所39大數(shù)據(jù)技術(shù)392022/12/10NWU智能信息處理研究所40
核心——南京大學黃宜華教授2022/12/8NWU智能信息處理研究所40核402022/12/10NWU智能信息處理研究所41行業(yè)應用開發(fā)層行業(yè)應用系統(tǒng)和服務(wù)大數(shù)據(jù)應用開發(fā)環(huán)境和工具大數(shù)據(jù)應用和服務(wù)集成框架和接口大數(shù)據(jù)應用測試環(huán)境和工具大數(shù)據(jù)應用發(fā)布和運行環(huán)境2022/12/8NWU智能信息處理研究所41行業(yè)應用開412022/12/10NWU智能信息處理研究所42應用算法/技術(shù)層研究社會網(wǎng)絡(luò)排名與推薦系統(tǒng)個性化推薦技術(shù)商業(yè)智能媒體分析檢索Web挖掘與搜索3維建模與科學計算可視化生物多樣性信息學自然語言處理其他2022/12/8NWU智能信息處理研究所42應用算法/422022/12/10NWU智能信息處理研究所43社會網(wǎng)絡(luò)社團發(fā)現(xiàn)(CommunityDetection)網(wǎng)絡(luò)建模(NetworkModeling)中心分析和影響力建模(CentralityAnalysisandInfluenceModeling)分類推薦(ClassificationandRecommendation)隱私安全(Privacy,SpamandSecurity)等2022/12/8NWU智能信息處理研究所43社會網(wǎng)絡(luò)社432022/12/10NWU智能信息處理研究所44排名與推薦系統(tǒng)常規(guī)排名(Ranking)多樣性排名(DiversifiedRanking)基于內(nèi)容的推薦(Content-basedRecommendation)基于標簽的推薦(Tag-basedRecommendation)協(xié)同過濾推薦(CollaborativeFilteringRecommendation)……2022/12/8NWU智能信息處理研究所44排名與推薦442022/12/10NWU智能信息處理研究所45多媒體分析檢索大規(guī)模圖像檢索(ImageRetrieval)大規(guī)模圖像分類(ImageClassification)目標檢測(ObjectRecognition)視頻異常行為檢測(AbnormalEventDetection)……2022/12/8NWU智能信息處理研究所45多媒體分析452022/12/10NWU智能信息處理研究所46WEB搜索與數(shù)據(jù)挖掘深度Web搜索(DeepWebSearch,精確化、智能化、綜合化信息搜索)頁面分類(DocumentClassification)頁面聚類(DocumentCluster)網(wǎng)頁摘要(DocumentAutomaticSummarization)場景引擎:將用戶行為抽象為與具體業(yè)務(wù)相關(guān)聯(lián)的場景……2022/12/8NWU智能信息處理研究所46WEB搜索462022/12/10NWU智能信息處理研究所47自然語言處理機器翻譯(MachineTranslation)情感分析(SentimentAnalysis)輿情分析(PublicOpinionAnalysis)智能輸入(SmartInput)問答系統(tǒng)(QA)……2022/12/8NWU智能信息處理研究所47自然語言處472022/12/10NWU智能信息處理研究所48三維建模與大數(shù)據(jù)可視化計算地質(zhì)建模與分析(GeologicalModelingandAnalysis)電影渲染(MovieRendering)大規(guī)模數(shù)據(jù)可視化計算與分析(ScaleVisualAnalytics)……2022/12/8NWU智能信息處理研究所48三維建模與482022/12/10NWU智能信息處理研究所49基礎(chǔ)算法/技術(shù)層研究大數(shù)據(jù)并行化機器學習和數(shù)據(jù)挖掘算法研究大數(shù)據(jù)處理并行化學習和挖掘算法不同并行模型下并行化學習和挖掘算法并行化機器學習和數(shù)據(jù)挖掘工具和平臺
研究表明:基于大數(shù)據(jù)集的機器學習會取得更好的學習效果,這已是目前機器學習領(lǐng)域的共識。2022/12/8NWU智能信息處理研究所49基礎(chǔ)算法/49機器學習和數(shù)據(jù)挖掘算法分類(Classification)大規(guī)模支持向量機(LargeScaleSVM)神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)與深度計算樸素貝葉斯(Na?veBayes)決策樹(DecisionTrees)聚類(Clustering)關(guān)聯(lián)規(guī)則挖掘……參數(shù)估計(ParametersEstimation)高維度數(shù)據(jù)降維(DimensionReduction)集成學習(EnsembleLearning)大圖數(shù)據(jù)算法圖聚類圖分類/圖劃分圖模式匹配(子圖同構(gòu)、最大公共子圖…)2022/12/10NWU智能信息處理研究所50機器學習和數(shù)據(jù)挖掘算法分類(Classification)50四、大數(shù)據(jù)技術(shù)若干關(guān)鍵問題大數(shù)據(jù)獲取、表示及傳輸領(lǐng)域應用/服務(wù)需求/計算模型并行架構(gòu)與計算平臺集群多核GPU及其集成云計算技術(shù)并行編程模型與計算框架MapReduceBSP并行計算框架大數(shù)據(jù)存儲技術(shù)預處理索引查詢數(shù)據(jù)表示與存儲管理DFS大數(shù)據(jù)智能處理技術(shù)機器學習與數(shù)據(jù)挖掘基礎(chǔ)算法和應用2022/12/10NWU智能信息處理研究所51四、大數(shù)據(jù)技術(shù)若干關(guān)鍵問題大數(shù)據(jù)獲取、表示及傳輸領(lǐng)域應用512022/12/10NWU智能信息處理研究所52大數(shù)據(jù)獲取獲取極為困難——大數(shù)據(jù)在國家企業(yè)和社會層面成為重要的戰(zhàn)略資源;數(shù)據(jù)成為新的戰(zhàn)略制高點,是人們搶奪的新焦點;數(shù)據(jù)不斷成為機構(gòu)的資產(chǎn),成為提升機構(gòu)和公司競爭力的有力武器建立多個領(lǐng)域的數(shù)據(jù)共享平臺,包括氣象、地震、林業(yè)、農(nóng)業(yè)、海洋、人口與健康、地球系統(tǒng)科學數(shù)據(jù)等,數(shù)據(jù)共享應擴展到企業(yè)層面需要學科間的交叉融合——增強學科內(nèi)、學科之間以及學術(shù)界與工業(yè)界之間的合作與交流等新型數(shù)據(jù)源——互聯(lián)網(wǎng)、云計算和物聯(lián)網(wǎng)的迅猛發(fā)展,無所不在的移動設(shè)備、RFID、無線傳感器每分每秒都在產(chǎn)生數(shù)據(jù),數(shù)以億計用戶的互聯(lián)網(wǎng)服務(wù)時刻在產(chǎn)生巨量的交互數(shù)據(jù)數(shù)據(jù)所有權(quán),既是技術(shù)問題,也有法理問題解決途徑——保護多方利益的前提下解決數(shù)據(jù)共享問題
隨處可見的攝像頭、傳感器、GPS定位等設(shè)備,會感知人們的位置等信息,借助大數(shù)據(jù)分析技術(shù)可以輕易獲得其行蹤規(guī)律,給人們生活帶來威脅;“云”的經(jīng)濟性,推動了海量并行處理破解密碼的可能性;“云”商云集,使人們寄希望于他們是道德圣人,否則損失將是災害性的!2022/12/8NWU智能信息處理研究所52大數(shù)據(jù)獲取522022/12/10NWU智能信息處理研究所53大數(shù)據(jù)表示關(guān)系數(shù)據(jù)庫曾經(jīng)是萬能的關(guān)系數(shù)據(jù)模型醫(yī)院信息管理系統(tǒng)(HIS)臨床信息系統(tǒng)(CIS)醫(yī)學影像信息系統(tǒng)(PACS)ICU監(jiān)護系統(tǒng)電子病歷遠程健康監(jiān)護平臺用藥管理系統(tǒng)虛擬醫(yī)院2022/12/8NWU智能信息處理研究所53大數(shù)據(jù)表示532022/12/10NWU智能信息處理研究所54大數(shù)據(jù)表示——新型數(shù)據(jù)模型研究關(guān)系模型無法表達非結(jié)構(gòu)化數(shù)據(jù)的復雜結(jié)構(gòu)面向?qū)ο竽P蛯⒕哂邢嗤o態(tài)結(jié)構(gòu)、動態(tài)行為和約束條件的對象抽象為一類。能夠根據(jù)客觀世界的本來面貌描述各種對象,能夠表達對象間各種復雜關(guān)系。但缺乏堅實的理論基礎(chǔ),并且實現(xiàn)復雜分層式數(shù)據(jù)模型基于語義描述、底層特征和原始數(shù)據(jù),但不能很好地表達各類非結(jié)構(gòu)化數(shù)據(jù)的各組成部分的關(guān)系以及各類數(shù)據(jù)之間的關(guān)系需要建立一種將非結(jié)構(gòu)化數(shù)據(jù)的文本描述性信息與特征等信息整體表達,并且能夠描述各種非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一的新型數(shù)據(jù)模型(如ResourceDescriptionFramework,RDF研究)2022/12/8NWU智能信息處理研究所54大數(shù)據(jù)表示542022/12/10NWU智能信息處理研究所55大數(shù)據(jù)存儲云計算技術(shù)是最理想的解決方案???2022/12/8NWU智能信息處理研究所55大數(shù)據(jù)存儲552022/12/10NWU智能信息處理研究所56并行架構(gòu)與計算平臺技術(shù)共享內(nèi)存架構(gòu)技術(shù)
多核+GPU分布式內(nèi)存架構(gòu)技術(shù)
集群混合式架構(gòu)技術(shù)
集群+多核集群+GPU大數(shù)據(jù)應用/云計算支撐平臺技術(shù)云計算架構(gòu)及其平臺研究云存儲技術(shù)并行計算系統(tǒng)可靠性及容錯恢復技術(shù)數(shù)據(jù)訪問隱私保護和安全技術(shù)目前國際上學術(shù)界和工業(yè)界主要從系統(tǒng)軟件、體系結(jié)構(gòu)、分布式系統(tǒng)等方面進行了改進和優(yōu)化!內(nèi)存數(shù)據(jù)庫及編譯器優(yōu)化等技術(shù)增加內(nèi)存、增加處理器、協(xié)處理器和增加I/O通道MapReduce或Hadoop架構(gòu)2022/12/8NWU智能信息處理研究所56并行架構(gòu)與562022/12/10NWU智能信息處理研究所57并行編程模型與計算框架研究MapReduce應用及改進Hadoop性能優(yōu)化MapReduce并行計算框架改進MapReduce在不同架構(gòu)上的實現(xiàn)(如眾核、GPU等)BSP(bulksynchronizedparallel)基于BSP模型的并行處理框架大圖數(shù)據(jù)并行處理框架研究:基于圖劃分的分布式存儲pregel(Google)Trinity(微軟)CUDA,MPI,OpenMP提升可編程性定制式并行計算框架混合式并行計算模型和框架2022/12/8NWU智能信息處理研究所57并行編程模572022/12/10NWU智能信息處理研究所58大數(shù)據(jù)存儲技術(shù)研究大數(shù)據(jù)預處理技術(shù)研究大數(shù)據(jù)采集與傳輸清洗過濾和質(zhì)量管理技術(shù)研究壓縮技術(shù)研究大數(shù)據(jù)索引和查詢技術(shù)研究靜態(tài)記錄型索引技術(shù)流式/增量式記錄型索引技術(shù)大數(shù)據(jù)表的高效關(guān)系型操作并行化查詢技術(shù)圖數(shù)據(jù)表示與查詢技術(shù)靜態(tài)圖數(shù)據(jù)的表示、存儲和查詢流式/增量式圖數(shù)據(jù)的表示、存儲與查詢查詢語言接口與技術(shù)SQL./NoSQL查詢語言接口并行查詢執(zhí)行機制混合式數(shù)據(jù)表示及存儲機制研究
存儲管理模型研究數(shù)據(jù)表示與查詢等技術(shù)分布式數(shù)據(jù)庫技術(shù)
Hbase性能優(yōu)化查詢與索引技術(shù)分布式存儲技術(shù)分布式文件系統(tǒng)
HDFS系統(tǒng)優(yōu)化2022/12/8NWU智能信息處理研究所58大數(shù)據(jù)存儲582022/12/10NWU智能信息處理研究所59大數(shù)據(jù)處理技術(shù)并行機器學習/數(shù)據(jù)挖掘算法研究分類算法SVM;NN;GA;EA;……聚類算法關(guān)聯(lián)發(fā)現(xiàn)參數(shù)估計高維度數(shù)據(jù)降維大圖數(shù)據(jù)挖掘算法:圖聚類,圖分類,圖模式匹配等……集成學習深度學習……“大數(shù)據(jù)+簡單模型”?2022/12/8NWU智能信息處理研究所59大數(shù)據(jù)處理592022/12/10NWU智能信息處理研究所60大圖數(shù)據(jù)挖掘算法圖查詢:復雜對象識別、社交網(wǎng)絡(luò)和WEB網(wǎng)絡(luò)、生物數(shù)據(jù)分析、軟件代碼剽竊檢測;子圖查詢:凝聚子圖查詢、極大團、n-極大團、n-宗派、K-極大核圖聚類:預處理、數(shù)據(jù)挖掘圖分類:預處理、數(shù)據(jù)挖掘圖模式匹配:應用于生物學、生物化學、警覺、圖像和視頻、模式匹配等;圖同構(gòu)、子圖同構(gòu)、最大公共子圖算法、近似算法(傳播算法、譜算法、優(yōu)化算法等);靜態(tài)圖匹配或動態(tài)圖匹配等2022/12/8NWU智能信息處理研究所60大圖數(shù)據(jù)挖602022/12/10NWU智能信息處理研究所61社會計算研究內(nèi)容2022/12/8NWU智能信息處理研究所61社會計算研612022/12/10NWU智能信息處理研究所62社會計算研究內(nèi)容2022/12/8NWU智能信息處理研究所62社會計算研622022/12/10NWU智能信息處理研究所63群體智慧2022/12/8NWU智能信息處理研究所63群體智慧632022/12/10NWU智能信息處理研究所64群體智慧2022/12/8NWU智能信息處理研究所64群體智慧642022/12/10NWU智能信息處理研究所65群體智慧2022/12/8NWU智能信息處理研究所65群體智慧652022/12/10NWU智能信息處理研究所66群體智慧2022/12/8NWU智能信息處理研究所66群體智慧66社會計算的由來社會計算的由來67社會計算社會計算68微博——話題跟蹤?輿情分析?情感挖掘?微博——話題跟蹤?輿情分析?情感挖掘?69微博數(shù)據(jù)處理技術(shù)研究微博(微信)數(shù)據(jù)分析及分析軟件研發(fā)是又一熱點。(從運營角度:如監(jiān)測用戶粘度、規(guī)模、活躍度、流量等信息;聽眾數(shù)、轉(zhuǎn)播數(shù)、轉(zhuǎn)發(fā)率、平均評論次數(shù);發(fā)布微博的方式:網(wǎng)頁、手機、客戶端;用戶的背景資料分析,地域、年齡、性別、學歷、職業(yè)、行業(yè)、薪酬情況等;從營銷角度:用戶分析,用戶引導等等)。微博數(shù)據(jù)處理技術(shù)研究微博(微信)數(shù)據(jù)分析及分析軟件研發(fā)是又一702022/12/10NWU智能信息處理研究所71例:數(shù)字腳印與城市計算隨著感知、計算、通訊技術(shù)的日新月異,記錄人類日常行為軌跡、物理世界的動態(tài)變化以及人類與虛擬世界交互等的數(shù)字印跡正以前所未有的規(guī)模積累和擴張,形成了大數(shù)據(jù),可把這些數(shù)據(jù)稱為“數(shù)字腳印”。數(shù)字腳印除了出租車GPS軌跡、基于位置的移動社交網(wǎng)絡(luò)數(shù)據(jù)和移動智能電話記錄等外,常見的還有城市公共自行車租借記錄、乘客公共交通刷卡記錄、城市居民家庭和機構(gòu)用電用水記錄等。城市計算可概括為通過城市感知、數(shù)據(jù)挖掘、智能提取和服務(wù)提供四大環(huán)節(jié)來建立一個生態(tài)循環(huán)系統(tǒng)。2022/12/8NWU智能信息處理研究所71例:數(shù)字腳712022/12/10NWU智能信息處理研究所72城市計算與大數(shù)據(jù)城市計算是一門新興的交叉領(lǐng)域,是計算機學科與傳統(tǒng)城市規(guī)劃、交通、能源、經(jīng)濟、環(huán)境和社會學等多個領(lǐng)域在城市空間的交匯?;究蚣馨ǔ鞘懈兄皵?shù)據(jù)捕獲、數(shù)據(jù)管理、城市數(shù)據(jù)分析和服務(wù)提供;城市感知:利用城市現(xiàn)有的資源(如手機、傳感器、車輛和人等),在不干擾人們生活的前提下自動感知城市的韻律;海量異構(gòu)數(shù)據(jù)的管理:城市產(chǎn)生的數(shù)據(jù)模態(tài)多,屬性差別大。如:氣象——空間點數(shù)據(jù),道路——空間圖數(shù)據(jù),人的移動——軌跡數(shù)據(jù)(時間+空間),交通流量——流數(shù)據(jù),社交網(wǎng)上用戶發(fā)布的信息——文本或圖像數(shù)據(jù);異構(gòu)數(shù)據(jù)的協(xié)同計算:(1)從不同的數(shù)據(jù)源中獲取相互增強的知識是新的課題。(2)在保證知識提取深度的同時,提高分析效率,從而滿足眾多實時性要求較高的應用(如空氣質(zhì)量預測、異常事件監(jiān)測等)是難題。(3)數(shù)據(jù)維度增加導致了數(shù)據(jù)稀疏性問題。虛實結(jié)合的混合式系統(tǒng):城市計算催生了混合系統(tǒng),如云加端模式,即信息產(chǎn)生在物理世界,通過終端設(shè)備被收集到云端(虛擬世界)分析和處理,最后云再將提取的知識作為服務(wù)提供給物理世界的終端用戶。2022/12/8NWU智能信息處理研究所72城市計算與722022/12/10NWU智能信息處理研究所73城市計算的基本框架2022/12/8NWU智能信息處理研究所73城市計算的732022/12/10NWU智能信息處理研究所74城市計算的主要技術(shù)傳感器技術(shù):傳感器網(wǎng)絡(luò)、主動參與式感知、被動群體感知數(shù)據(jù)管理技術(shù):流數(shù)據(jù)管理、軌跡管理、圖數(shù)據(jù)管理、時空索引等數(shù)據(jù)挖掘技術(shù):異構(gòu)數(shù)據(jù)互增強、稀疏數(shù)據(jù)處理等優(yōu)化技術(shù):最優(yōu)路徑等混合數(shù)據(jù)的可視化技術(shù):結(jié)果顯示應用:城市規(guī)劃、智能交通、環(huán)境監(jiān)測與管理、社交娛樂、能源消耗、城市經(jīng)濟、城市安全和應急響應等2022/12/8NWU智能信息處理研究所74城市計算的742022/12/10NWU智能信息處理研究所75數(shù)字腳印與城市計算研究出租車GPS數(shù)字腳?。翰煌瑫r刻的城市熱點檢測、城市區(qū)域的功能特性分類、路徑規(guī)劃、出租車司機尋客策略、異常軌跡檢測、城市道路交通流量預測等;移動社交網(wǎng)絡(luò)數(shù)字腳?。禾剿鱾€人和群體移動模式、群體事件監(jiān)測、個性化的興趣點推薦和搜索服務(wù)、交叉重疊式社群的發(fā)現(xiàn)與詮釋等;移動電話數(shù)字腳?。簻y量城市交通系統(tǒng)效率、優(yōu)化城市道路、人的移動性、地區(qū)經(jīng)濟發(fā)展、傳染病預測、監(jiān)測群體移動位置預測群體事件等。2022/12/8NWU智能信息處理研究所75數(shù)字腳印與752022/12/10NWU智能信息處理研究所76移動社交網(wǎng)絡(luò)感知計算模型2022/12/8NWU智能信息處理研究所76移動社交網(wǎng)76面向移動應用的大數(shù)據(jù)面向移動應用的大數(shù)據(jù)77基于大數(shù)據(jù)的軟件設(shè)計模型基于大數(shù)據(jù)的軟件設(shè)計模型78軟件服務(wù)工程中的密集型數(shù)據(jù)軟件服務(wù)工程中的密集型數(shù)據(jù)79眾包服務(wù)開發(fā)中的離線與在線密集型數(shù)據(jù)眾包服務(wù)開發(fā)中的離線與在線密集型數(shù)據(jù)80大數(shù)據(jù)生命期CKAS大數(shù)據(jù)生命期CKAS81軟件所:海-云數(shù)據(jù)管理平臺SeacloudDM體系結(jié)構(gòu)軟件所:海-云數(shù)據(jù)管理平臺SeacloudDM體系結(jié)構(gòu)82大數(shù)據(jù)驅(qū)動架構(gòu)概念圖大數(shù)據(jù)驅(qū)動架構(gòu)概念圖83五、2014年大數(shù)據(jù)發(fā)展趨勢預測2022/12/10NWU智能信息處理研究所84宏觀預測學術(shù)界66位,產(chǎn)業(yè)界28位,政府4位,海外13位,數(shù)學物理金融管理等11位CCF大數(shù)據(jù)專家委員會
2012.6
CIC大數(shù)據(jù)專家委員會2012.10五、2014年大數(shù)據(jù)發(fā)展趨勢預測2022/12/8NWU842014年大數(shù)據(jù)十大發(fā)展趨勢CCF2013.12.5大數(shù)據(jù)從“概念”走向“價值”大數(shù)據(jù)處理架構(gòu)的多樣化模式并存大數(shù)據(jù)安全與隱私大數(shù)據(jù)分析與可視化成為熱點大數(shù)據(jù)產(chǎn)業(yè)成為戰(zhàn)略性產(chǎn)業(yè)數(shù)據(jù)的商品化和數(shù)據(jù)共享聯(lián)盟化基于大數(shù)據(jù)的推薦和預測將逐步流行深度學習與大數(shù)據(jù)智能成為支撐數(shù)據(jù)科學的興起大數(shù)據(jù)生態(tài)環(huán)境逐步完善2014年大數(shù)據(jù)十大發(fā)展趨勢CCF2013.12.5大數(shù)據(jù)85大數(shù)據(jù)技術(shù)領(lǐng)域若干關(guān)鍵問題課件86最受矚目的大數(shù)據(jù)應用領(lǐng)域
互聯(lián)網(wǎng)與電子商務(wù)金融、健康醫(yī)療、生物信息與制藥城鎮(zhèn)化與智慧城市社會安全與犯罪偵察網(wǎng)絡(luò)空間安全與對抗商情與輿情分析工業(yè)大數(shù)據(jù)企業(yè)管理大數(shù)據(jù)能源大數(shù)據(jù)前沿基礎(chǔ)研究(高能物理、天文、生物、海洋、地震等)……最受矚目的大數(shù)據(jù)應用領(lǐng)域
互聯(lián)網(wǎng)與電子商務(wù)87最受矚目的學科和技術(shù)大數(shù)據(jù)學習與挖掘大數(shù)據(jù)計算架構(gòu)與系統(tǒng)大數(shù)據(jù)分析與可視化最受矚目的學科和技術(shù)大數(shù)據(jù)學習與挖掘88最先取得突破的技術(shù)環(huán)節(jié)大數(shù)據(jù)挖掘與分析關(guān)聯(lián)大數(shù)據(jù)存儲結(jié)構(gòu)和系統(tǒng)數(shù)據(jù)采集和數(shù)據(jù)化最先取得突破的技術(shù)環(huán)節(jié)大數(shù)據(jù)挖掘與分析關(guān)聯(lián)892022/12/10NWU智能信息處理研究所90結(jié)語大數(shù)據(jù)科學、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程和大數(shù)據(jù)應用構(gòu)成了大數(shù)據(jù)的研究主題;大數(shù)據(jù)技術(shù)是大數(shù)據(jù)研究的基礎(chǔ)和關(guān)鍵;大數(shù)據(jù)技術(shù)研究核心是平臺層、系統(tǒng)層和算法層;而應用是終極目標!2022/12/8NWU智能信息處理研究所90結(jié)語大902022/12/10NWU智能信息處理研究所91謝謝!歡迎批評指正!2022/12/8NWU智能信息處理研究所91謝謝!91大數(shù)據(jù)技術(shù)領(lǐng)域
若干關(guān)鍵問題西北大學信息科學與技術(shù)學院陳莉教授/博導chenli@2014.4.24大數(shù)據(jù)技術(shù)領(lǐng)域
若干關(guān)鍵問題西北大學信息科學與技術(shù)學院922022/12/10NWU智能信息處理研究所93風云變幻中……2022/12/8NWU智能信息處理研究所2風云變幻中…93題序
何為大數(shù)據(jù)(BIGDATA)?
Verylargedata?Massivedata?Bigdata?題序
何為大數(shù)據(jù)(BIGDATA)?
Very942022/12/10NWU智能信息處理研究所95大數(shù)據(jù)(BigData)超大規(guī)模數(shù)據(jù)?海量數(shù)據(jù)?“verylarge”大?還是“big”大?——相對于當時的CPU和存儲技術(shù)水平,均指數(shù)據(jù)規(guī)模很大“超大規(guī)模數(shù)據(jù)庫”(VLDB)這個詞是20世紀70年代中期出現(xiàn)的。VLDB會議1975年發(fā)起。數(shù)百萬條記錄即超大規(guī)?!昂A繑?shù)據(jù)”則是21世紀初出現(xiàn)的詞,越來越多的應用建立在多源數(shù)據(jù)集成基礎(chǔ)之上時,數(shù)據(jù)規(guī)模急劇擴大,數(shù)據(jù)類型由關(guān)系數(shù)據(jù),到非結(jié)構(gòu)化的、半結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指在獲得數(shù)據(jù)之前無法預知其結(jié)構(gòu)的數(shù)據(jù),如文本、圖像、視頻等。包含數(shù)千萬個文檔、數(shù)百萬張照片或者工程設(shè)計圖的數(shù)據(jù)集很平常,關(guān)系數(shù)據(jù)庫無法有效管理這些數(shù)據(jù),如何快速訪問數(shù)據(jù)成為核心挑戰(zhàn)。以Hadoop為代表的分布式文件系統(tǒng)和MapReduce計算框架應運而生2008年9月《科學》(Science)雜志發(fā)表了一篇文章“BigData:ScienceinthePetabyteEra”,“大數(shù)據(jù)”這個詞開始傳播所謂大數(shù)據(jù),泛指規(guī)模達到幾百TB,甚至PB級的數(shù)據(jù),廣泛出現(xiàn)在科學研究,Web集成、多媒體等諸多領(lǐng)域中大數(shù)據(jù)是伴隨數(shù)據(jù)獲取技術(shù)的發(fā)展,Web2.0、WSN(傳感網(wǎng))和CPS(物聯(lián)網(wǎng))等應用的快速普及而提出的概念2022/12/8NWU智能信息處理研究所4大數(shù)據(jù)(Bi952022/12/10NWU智能信息處理研究所96從歷史的視角——“超大規(guī)模數(shù)據(jù)”指表示和處理的是GB級別的數(shù)據(jù),主要研究關(guān)系數(shù)據(jù)模型的高效實現(xiàn)技術(shù)、事務(wù)管理與故障恢復技術(shù)、索引與查詢優(yōu)化技術(shù)等,創(chuàng)建了一套關(guān)系數(shù)據(jù)庫的理論與技術(shù)體系,已在商業(yè)上取得了成功?!昂A繑?shù)據(jù)”指表示和處理的數(shù)據(jù)是TB級的數(shù)據(jù),主要研究各種非結(jié)構(gòu)化數(shù)據(jù)的有效管理、多數(shù)據(jù)源的集成問題。涉及如何統(tǒng)一表達非結(jié)構(gòu)化數(shù)據(jù),如何實現(xiàn)基于語義的非結(jié)構(gòu)化數(shù)據(jù)的集成和檢索,如何解決與應用緊密相關(guān)的功能與數(shù)據(jù)管理系統(tǒng)融合等問題。我國“核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品”(“核高基”)科技重大專項也將非結(jié)構(gòu)化數(shù)據(jù)管理作為需要重點突破的關(guān)鍵技術(shù)加以重點支持。
“大數(shù)據(jù)”指表示和處理的數(shù)據(jù)是PB級別及其以上的數(shù)據(jù)。大數(shù)據(jù)并非單指數(shù)據(jù)量之大。如果說海量數(shù)據(jù)主要從存儲角度考慮問題,則大數(shù)據(jù)除了數(shù)據(jù)存儲,還包括數(shù)據(jù)處理、感知等。
2022/12/8NWU智能信息處理研究所5從歷史的視角962022/12/10NWU智能信息處理研究所97大數(shù)據(jù)形成于……用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB據(jù)IDC統(tǒng)計,2011年全球被創(chuàng)建和被復制的數(shù)據(jù)總量為1.8ZB(1021),其中75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)谷歌公司通過大規(guī)模集群和MapReduce軟件,每個月處理的數(shù)據(jù)量超過400PB百度每天大約要處理幾十PB數(shù)據(jù)Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù)淘寶網(wǎng)會員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20TB數(shù)據(jù);雅虎的總存儲容量超過100PB每個人類基因數(shù)據(jù):300GB~700GB;基因定位和分析所需時間:1000+機時:1000個基因分析需要114年各類移動設(shè)備產(chǎn)生了大量的大數(shù)據(jù);傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展形成大數(shù)據(jù)集合各城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)勞斯萊斯公司對全世界數(shù)以萬計的飛機引擎進行實時監(jiān)控,每年傳送PB量級的數(shù)據(jù)……
數(shù)據(jù)形成的過程:被動產(chǎn)生——主動產(chǎn)生——自動產(chǎn)生2022/12/8NWU智能信息處理研究所6大數(shù)據(jù)形成于972022/12/10NWU智能信息處理研究所98移動互聯(lián)網(wǎng):即時通迅微信是騰訊公司推出免費即時通訊服務(wù)的聊天軟件??梢酝ㄟ^手機、平板、網(wǎng)頁快速發(fā)送語音、視頻、圖片和文字。微信提供公眾平臺、朋友圈、消息推送等功能,用戶可以通過搖一搖、搜索號碼、附近的人、掃二維碼方式添加好友和關(guān)注公眾平臺,同時微信幫將內(nèi)容分享給好友以及將用戶看到的精彩內(nèi)容分享到微信朋友圈。
2022/12/8NWU智能信息處理研究所7移動互聯(lián)網(wǎng):982022/12/10NWU智能信息處理研究所99表1存儲容量單位2022/12/8NWU智能信息處理研究所8表1存儲992022/12/10NWU智能信息處理研究所100表2
9GBDVD光盤/1TB2.5寸硬盤保存1.8ZB數(shù)據(jù)比較
1.8ZB數(shù)據(jù)如果用9GB的DVD盤來保存,疊加起來的高度超過26萬公里,大約是地球到月球距離的2/3;如果用1TB的2.5寸磁盤保存,疊加起來的高度超過1.7萬公里,接近地球周長的一半;
每位美國人每分鐘寫3條Twitter微博,不停地寫2.6976萬年;
事實上,多數(shù)磁盤的容量可能還不到1TB,存儲這些數(shù)據(jù)的磁盤是十分驚人的數(shù)字。2022/12/8NWU智能信息處理研究所9表2
1002022/12/10NWU智能信息處理研究所101大數(shù)據(jù)的概念定義1
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合?!S基百科
Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.——Wiki2022/12/8NWU智能信息處理研究所10大數(shù)據(jù)的概1012022/12/10NWU智能信息處理研究所102大數(shù)據(jù)定義2——“3V”
BigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization.——Gartner大數(shù)據(jù)指:Volume(規(guī)模大,數(shù)據(jù)已從TB級別躍升至PB級別)+Variety(類型多,從普通的文字、視頻、圖片到逐漸增多的地理位置信息等,類型紛繁,已無規(guī)律可循)+Velocity(變化快,即時處理成為趨勢)——IBM2022/12/8NWU智能信息處理研究所11大數(shù)據(jù)1022022/12/10NWU智能信息處理研究所103大數(shù)據(jù)定義3當數(shù)據(jù)的規(guī)模和性能要求成為數(shù)據(jù)管理分析系統(tǒng)的重要設(shè)計和決定因素時,這樣的數(shù)據(jù)就被稱為大數(shù)據(jù)。不是簡單地以數(shù)據(jù)規(guī)模來界定大數(shù)據(jù),要考慮數(shù)據(jù)查詢與分析的復雜程度以目前計算機硬件的發(fā)展水平看針對簡單查詢(如關(guān)鍵字搜索),數(shù)據(jù)量為TB至PB級時可稱為大數(shù)據(jù)針對復雜查詢(如數(shù)據(jù)挖掘),數(shù)據(jù)量為GB至TB級時即可稱為大數(shù)據(jù)2022/12/8NWU智能信息處理研究所12大數(shù)據(jù)1032022/12/10NWU智能信息處理研究所104大數(shù)據(jù)定義4大數(shù)據(jù)有兩個不同于傳統(tǒng)數(shù)據(jù)集的基本特征:
1.大數(shù)據(jù)不一定存儲于固定的數(shù)據(jù)庫,而是分布在不同的網(wǎng)絡(luò)空間;2.大數(shù)據(jù)以半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)為主,具有較高的復雜性。2022/12/8NWU智能信息處理研究所13大數(shù)據(jù)1042022/12/10NWU智能信息處理研究所105大數(shù)據(jù)定義5-7為了更經(jīng)濟地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)?!狪DC大數(shù)據(jù)——“4V”觀點一
Volume+
Variety+Velocity+Value(創(chuàng)造價值)大數(shù)據(jù)——“4V”觀點二Volume+
Variety+Velocity+Value(價值密度低,以視頻為例,在連續(xù)不間斷監(jiān)控過程中,有用的數(shù)據(jù)也許只有一兩秒)
2022/12/8NWU智能信息處理研究所14大數(shù)據(jù)1052022/12/10NWU智能信息處理研究所106主要內(nèi)容數(shù)據(jù)科學與大數(shù)據(jù)大數(shù)據(jù)的主要研究領(lǐng)域大數(shù)據(jù)技術(shù)主要研究內(nèi)容大數(shù)據(jù)技術(shù)的若干關(guān)鍵問題2014年大數(shù)據(jù)十大發(fā)展趨勢預測2022/12/8NWU智能信息處理研究所15主要內(nèi)容數(shù)106一、數(shù)據(jù)科學與大數(shù)據(jù)數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的科學——旨在研究數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律,揭示自然界和人類行為現(xiàn)象和規(guī)律,亦稱數(shù)據(jù)學。一、數(shù)據(jù)科學與大數(shù)據(jù)數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的科學——旨在研究數(shù)據(jù)1072022/12/10NWU智能信息處理研究所108數(shù)據(jù)科學與第四范式2007年美國總統(tǒng)科學技術(shù)顧問委員會(President’sCouncilofAdvisorsonScienceandTechnology,PCAST)的報告以及英國e-Science計劃前首席科學家托尼·海(TonyHey)的著作《第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)》(TheFourthParadigm:DataintensiveScientificDiscovery)都揭示出數(shù)據(jù)分析已經(jīng)成為繼實驗、理論和計算之后的第四種科學發(fā)現(xiàn)基礎(chǔ),成為產(chǎn)生經(jīng)濟價值的新源泉。2022/12/8NWU智能信息處理研究所17數(shù)據(jù)科學與1082022/12/10NWU智能信息處理研究所109數(shù)據(jù)科學(DataScience)
圖靈獎獲得者JimGray:2007年在演講中提出“數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-IntensiveScientificDiscovery)”將成為科學研究的第四范式
實驗科學理論科學計算科學數(shù)據(jù)科學卡耐基·梅隆大學等相繼提出了“數(shù)據(jù)密集型超級計算(dataintensivesupercomputing)”和“數(shù)據(jù)密集型可擴展計算(dataintensivescalablecomputing)”的概念世界著名存儲技術(shù)公司EMC:提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李國杰院士:“數(shù)據(jù)科學”研究的對象是什么?計算機科學是關(guān)于算法的科學,而數(shù)據(jù)科學是關(guān)于數(shù)據(jù)的科學——數(shù)據(jù)學“數(shù)據(jù)科學”成為一個新興的研究領(lǐng)域——2012年大數(shù)據(jù)成為熱點2022/12/8NWU智能信息處理研究所18數(shù)據(jù)科學(1092022/12/10NWU智能信息處理研究所110數(shù)據(jù)科學研究的基本框架“大數(shù)據(jù)”
大數(shù)據(jù)(Bigdata)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合?!S基百科2022/12/8NWU智能信息處理研究所19數(shù)據(jù)科學研110大數(shù)據(jù)4V特征VolumeVolumeVarietyVolume模態(tài)多樣VeracityVolume真?zhèn)坞y辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達40ZB,人均5.2TB分享的內(nèi)容條目超過25億個/天,增加數(shù)據(jù)超過500TB/天1112022/12/10NWU智能信息處理研究所111大數(shù)據(jù)4V特征VolumeVolumeVarietyVolu1111122022/12/10NWU智能信息處理研究所112大數(shù)據(jù)與常規(guī)數(shù)據(jù)常規(guī)數(shù)據(jù)范圍廣模態(tài)多增長快關(guān)聯(lián)繁數(shù)據(jù)規(guī)模較小模態(tài)屬性受限增長速度較慢關(guān)聯(lián)相對簡單稠密與稀疏共存冗余與缺失并在動態(tài)與靜態(tài)互現(xiàn)顯式與隱藏均有特性問題描述與存儲的挑戰(zhàn)分析與理解的挑戰(zhàn)挖掘與預測的挑戰(zhàn)挑戰(zhàn)大數(shù)據(jù)應用目標相對比較明確數(shù)據(jù)結(jié)構(gòu)相對比較簡單時序長持續(xù)時間較短處理方法通常為模型化、參數(shù)化212022/12/8NWU智能信息處理研究所21大數(shù)據(jù)1122022/12/10NWU智能信息處理研究所113美國的大數(shù)據(jù)規(guī)劃—大數(shù)據(jù)上升為國家意志2012年3月29日,美國聯(lián)邦政府整合6個部門宣布2億美元的“BigDataResearchandDevelopmentInitiative”促進采集、存儲、維護、管理、分析和共享海量數(shù)據(jù)的核心技術(shù);利用以上技術(shù)來加速科學與工程發(fā)現(xiàn)的步伐,強化國家安全,改變教育和學習;培養(yǎng)開發(fā)和使用大數(shù)據(jù)技術(shù)的人力資源。CoreTechnologiesforAdvancingBigDataScienc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆醫(yī)科大學《三維動畫MAYA》2023-2024學年第一學期期末試卷
- 石家莊財經(jīng)職業(yè)學院《大學語三》2023-2024學年第二學期期末試卷
- 安徽藝術(shù)職業(yè)學院《無線通信網(wǎng)絡(luò)規(guī)劃與優(yōu)化》2023-2024學年第一學期期末試卷
- 四川傳媒學院《影視欄目包裝專題設(shè)計》2023-2024學年第一學期期末試卷
- 廣西壯族河池市金城江區(qū)2024-2025學年數(shù)學四下期末綜合測試模擬試題含解析
- 馬鞍山職業(yè)技術(shù)學院《材質(zhì)渲染綜合應用》2023-2024學年第二學期期末試卷
- 中國2025年黃金產(chǎn)業(yè)布局:供需兩端驅(qū)動產(chǎn)業(yè)升級
- 丙烷管道跨接施工方案
- 上海市浦東新區(qū)2024-2025學年八年級(上)月考生物試卷(12份)(含解析)
- 路燈安裝工程施工方案
- 2024年高考英語新課標1卷讀后續(xù)寫教學設(shè)計
- 河南省洛陽市瀍河回族區(qū)2023-2024學年九年級上學期期末語文試題
- SLT 478-2021 水利數(shù)據(jù)庫表結(jié)構(gòu)及標識符編制總則
- 【異丙苯法生產(chǎn)苯酚的工藝設(shè)計18000字(論文)】
- 題庫基本(計算機硬件技術(shù)基礎(chǔ)-題庫)
- 安全生產(chǎn)管理人員職責與勝任力
- 復調(diào)音樂巡禮-巴赫勃蘭登堡協(xié)奏曲 課件-2023-2024學年高中音樂人音版(2019)必修音樂鑒賞
- 《3-6歲兒童學習與發(fā)展指南》考試參考題庫120題(含答案)
- 2024新人教版初中英語單詞表匯總(七-九年級)中考復習必背
- 汽車維修保養(yǎng)工作質(zhì)量考核表
- 應急救援專項方案
評論
0/150
提交評論