




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
醫(yī)療大數(shù)據(jù)及相關(guān)技術(shù)介紹翟運(yùn)開博士/副教授河南省數(shù)字醫(yī)療工程技術(shù)研究中心副主任數(shù)字化遠(yuǎn)程醫(yī)療服務(wù)河南省工程實驗室副主任鄭州大學(xué)第一附屬醫(yī)院河南省遠(yuǎn)程醫(yī)學(xué)中心主任中國衛(wèi)生信息學(xué)會遠(yuǎn)程醫(yī)療信息化專業(yè)委員會常委/秘書長目錄大數(shù)據(jù)簡介大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)挖掘大數(shù)據(jù)平臺摩爾定律,正在走向終結(jié)摩爾定律:集成電路芯片上所集成的電路的數(shù)目,每隔18個月就翻一番,同時性能也提升一倍單芯片容納晶體管的增加,對制造工藝提出要求CPU制造18nm技術(shù),電子泄漏問題CPU主頻已達(dá)3GHz時代,難以繼續(xù)提高散熱問題(發(fā)熱太大,且難以驅(qū)散)功耗太高并發(fā)計算發(fā)展成熟大數(shù)據(jù)時代正在來臨…1000+PB24億網(wǎng)民1天產(chǎn)生的數(shù)據(jù)63%GAGR非結(jié)構(gòu)化數(shù)據(jù)增長率數(shù)據(jù)摩爾定律:Y=C×2XX代表時間,Y代表用戶的信息分享量,C代表現(xiàn)在時刻的分享信息量30+TB交易量3000+萬筆/天1PB/SCERN:核爆產(chǎn)生數(shù)據(jù)的速度單位英語標(biāo)識大小例子位Bit1或0一個二進(jìn)制數(shù)位:0或1字節(jié)Byte8Bit一個英文字母:8Bit千字節(jié)KB1024Byte一頁紙上的文字:5KB兆字節(jié)MB1024KB一首普通MP3的歌曲:4MB吉字節(jié)GB1024MB一部電影:1GB太字節(jié)TB1024GB美國國會圖書館所有登記印刷版書本的消息:15TB2011年底,其網(wǎng)絡(luò)備份的數(shù)據(jù)量為280太字節(jié)拍字節(jié)PB1024TB美國郵政局一年處理的信件大約為5拍谷歌每小時處理的數(shù)據(jù)為1拍艾字節(jié)EB1024EB相當(dāng)與13億中國人人手一本500頁的書加起來澤字節(jié)ZB1024ZB截止2010年,人類擁有的信息總量大概是1.2ZB堯字節(jié)YB1024YB超出想象數(shù)據(jù)量的表達(dá)單位當(dāng)前典型大數(shù)據(jù)的處理量傳統(tǒng)數(shù)據(jù)vs.大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)海量數(shù)據(jù)的高存儲成本數(shù)據(jù)批量處理性能不足流式數(shù)據(jù)處理缺失有限的擴(kuò)展能力單一數(shù)據(jù)源數(shù)據(jù)資產(chǎn)對外增值數(shù)據(jù)擴(kuò)展性需求和硬件性能之間存在差距傳統(tǒng)框架:小型機(jī)+磁陣+商用數(shù)據(jù)倉庫——傳統(tǒng)的IOE模式已經(jīng)不能滿足PB級海量數(shù)據(jù)的存儲、分析和應(yīng)用需求小型機(jī)+DWH+SAN成本高企、擴(kuò)容昂貴無法滿足海量數(shù)據(jù)的離線分析和實時分析無法滿足對非結(jié)構(gòu)化數(shù)據(jù)的快速處理要求Scale-Up已到極限,必須支持Scale-Out大數(shù)據(jù)處于成長階段,即將廣泛商用大數(shù)據(jù)是對數(shù)據(jù)更大的掌控和應(yīng)用能力大數(shù)據(jù)是淘煉黃金而不是制造更多的石頭“大數(shù)據(jù)”是數(shù)據(jù)存儲、管理、處理和分析的技術(shù)和解決方案“大數(shù)據(jù)”帶來數(shù)據(jù)分析能力的質(zhì)變性增強(qiáng),不僅是傳統(tǒng)BI領(lǐng)域,也為新商業(yè)機(jī)會和新商業(yè)模式提供了更大的創(chuàng)新空間;“大數(shù)據(jù)”是“以數(shù)據(jù)為中心”,這不僅是技術(shù)需要,也是管理需要;存儲、計算、分析合一的系統(tǒng)成為必然的需求、趨勢“大數(shù)據(jù)”的本質(zhì)不在于更多(更快)的數(shù)據(jù),而在于對數(shù)據(jù)中蘊(yùn)含信息價值的巨大掌控和應(yīng)用能力;使企業(yè)更好認(rèn)識數(shù)據(jù)中所蘊(yùn)含的巨大信息價值,影響和改變企業(yè)決策依據(jù)與過程和生產(chǎn)業(yè)務(wù)的開展過程“BigDataisnothingwithoutBigAnalysis”大數(shù)據(jù)要要解決的的問題Volume海量的數(shù)數(shù)據(jù)規(guī)模模Variety多樣的數(shù)數(shù)據(jù)類型型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)數(shù)據(jù)流轉(zhuǎn)轉(zhuǎn)巨大的數(shù)數(shù)據(jù)價值值目錄大數(shù)據(jù)簡簡介大數(shù)據(jù)相相關(guān)技術(shù)術(shù)大數(shù)據(jù)挖挖掘大數(shù)據(jù)平平臺大數(shù)據(jù)與與云計算算、物聯(lián)聯(lián)網(wǎng)、互互聯(lián)網(wǎng)之之間的關(guān)關(guān)系云計算來源:《互聯(lián)網(wǎng)進(jìn)進(jìn)化論》物聯(lián)網(wǎng)移動互聯(lián)網(wǎng)傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)生海量量數(shù)據(jù)大數(shù)據(jù)是是對海量量數(shù)據(jù)的的高效處處理。云計算是是硬件資資源的虛虛擬化,,是大數(shù)數(shù)據(jù)分析析的支撐撐平臺。。處理分析析需求技術(shù)描述DataWarehouse數(shù)據(jù)倉庫庫ETL,DataQuality信息整合合、元數(shù)數(shù)據(jù)TextAnalyticsEngineVisualDataModeling文本內(nèi)容容分詞與與分析HadoopMapReduce分布式文文件系統(tǒng)統(tǒng)流計算引引擎StreamingData海量非結(jié)結(jié)構(gòu)化、、結(jié)構(gòu)化化數(shù)據(jù)存存儲結(jié)構(gòu)化數(shù)數(shù)據(jù)處理理實時數(shù)據(jù)據(jù)處理非結(jié)構(gòu)數(shù)數(shù)據(jù)分析析各類信息息整合數(shù)據(jù)處理理技術(shù)的的變化::滿足數(shù)數(shù)據(jù)的多多樣化大數(shù)據(jù)技技術(shù)成本可承受((economically)的情況下下通過非常快速(velocity)的采集集、發(fā)現(xiàn)現(xiàn)和分析;在大量化(volumes)、多類別(variety)的數(shù)據(jù)據(jù)中提取取價值((value)分析的數(shù)據(jù)越全面面,分析的結(jié)結(jié)果就越接近近于真實能夠從這些數(shù)據(jù)中獲取新的洞洞察力,并將將其與已知業(yè)業(yè)務(wù)的各個環(huán)節(jié)相融合計算存儲數(shù)據(jù)庫網(wǎng)絡(luò)單機(jī)集群文件存儲單機(jī)設(shè)備間連接設(shè)備內(nèi)連接關(guān)系型數(shù)據(jù)庫10GEFCIB分布式數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫塊存儲10GESASIB橫向擴(kuò)展塊級虛擬化橫向擴(kuò)展分布式文件系統(tǒng)大數(shù)據(jù)帶來哪哪些技術(shù)變革革-技術(shù)驅(qū)動大數(shù)據(jù)的基本本技術(shù)MapReduceHBaseHDFSStreaming分布式文件系統(tǒng)HDFS(hadoopDistributedFileSystem)并行數(shù)據(jù)處理理MapReduce非結(jié)構(gòu)化數(shù)據(jù)據(jù)表HBase流式數(shù)據(jù)處理理StreamingMapReduce分布式數(shù)據(jù)處處理架構(gòu)分組聚合DATA計算(IOE架構(gòu))輸入結(jié)果輸出傳統(tǒng)方式X86服務(wù)器X86服務(wù)器HDFS分布式文件系系統(tǒng)架構(gòu)Hadoop集群HBaseNoSQL數(shù)據(jù)庫HBase的數(shù)據(jù)模型分布式的多維維映射,以(row,column,timestamp)索引RowsColumns
timestamps“contents:””“anchor:baidu”“anchor:google”“<html></html>”t1“<html></html>”t2“<html></html>”t3……ColumnFamilyTableletStreaming:流式數(shù)據(jù)處處理---StormStorm廣泛應(yīng)用于實時分析,在線機(jī)器學(xué)習(xí),持續(xù)計算等領(lǐng)域。分批處理實時處理VSStorm框架大數(shù)據(jù)的預(yù)預(yù)處理技術(shù)術(shù)濫用縮寫詞數(shù)據(jù)輸入錯誤誤數(shù)據(jù)中的內(nèi)嵌嵌控制信息不同的慣用語語重復(fù)記錄丟失值拼寫變化不同的計量單單位過時的編碼含有各種噪聲聲數(shù)據(jù)污染格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除除錯誤糾正重復(fù)數(shù)據(jù)的清清除數(shù)據(jù)處理大數(shù)據(jù)預(yù)處理理技術(shù)主要完完成對已接收收數(shù)據(jù)的辨析析、抽取、清清洗等操作目的是將數(shù)據(jù)據(jù)按統(tǒng)一的格格式提取出來來,然后再轉(zhuǎn)轉(zhuǎn)化,集成,,載入數(shù)據(jù)倉倉庫的工具((ETL)抽?。阂颢@取的數(shù)數(shù)據(jù)可能具有有多種結(jié)構(gòu)和和類型,數(shù)據(jù)據(jù)抽取過程可可以幫助我們們將這些復(fù)雜雜的數(shù)據(jù)轉(zhuǎn)化化為單一的或或者便于處理理的構(gòu)型,以以達(dá)到快速分分析處理的目目的。清洗:對于大數(shù)據(jù)據(jù),并不全是是有價值的,,有些數(shù)據(jù)并并不是我們所所關(guān)心的內(nèi)容容,而另一些些數(shù)據(jù)則是完完全錯誤的干干擾項。因此要對數(shù)據(jù)據(jù)通過過濾““去噪”從而而提取出有效效數(shù)據(jù)大數(shù)據(jù)的存存儲技術(shù)結(jié)構(gòu)化數(shù)據(jù):傳統(tǒng)的關(guān)系數(shù)數(shù)據(jù)模式海量數(shù)據(jù)的查詢、、統(tǒng)計、更新新等操作效率率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、、word、pdf、ppt等文件存儲不利于檢索、、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)構(gòu)化存儲按照非結(jié)構(gòu)構(gòu)化存儲存儲與分析析融合,提提升處理效效率傳統(tǒng)大數(shù)據(jù)據(jù)處理大數(shù)據(jù)存儲儲與分析統(tǒng)統(tǒng)一平臺拷貝共享存儲分析存儲拷貝導(dǎo)入存儲數(shù)據(jù)生產(chǎn)數(shù)據(jù)共享數(shù)據(jù)分析數(shù)據(jù)生產(chǎn)數(shù)據(jù)共享數(shù)據(jù)分析一份數(shù)據(jù)3次存儲,浪費(fèi)費(fèi)空間67%一份數(shù)據(jù)2次拷貝,浪費(fèi)費(fèi)時間2倍一份數(shù)據(jù)1次存儲,節(jié)省省空間67%一份數(shù)據(jù)0次拷貝,提升升效率2倍存儲資源池大數(shù)據(jù)的的其他技技術(shù)數(shù)據(jù)倉庫數(shù)據(jù)倉庫是是商務(wù)智能能的依托,,是對海量量數(shù)據(jù)庫進(jìn)進(jìn)行分析的的核心物理理構(gòu)架,是是一種格式式一致的多多源數(shù)據(jù)存存儲中心。。數(shù)據(jù)源可可以來自多多個不同的的系統(tǒng),如如企業(yè)內(nèi)部部的財務(wù)系系統(tǒng)、客戶戶管理系統(tǒng)統(tǒng)、人力資資源系統(tǒng),,甚至是企企業(yè)外部系系統(tǒng)。數(shù)據(jù)據(jù)倉庫的出出現(xiàn)以后,,一系列的的產(chǎn)業(yè)鏈也也逐步形成成聯(lián)機(jī)機(jī)分分析析聯(lián)機(jī)機(jī)分分析析也也稱稱多多維維分分析析,,本本意意是是把把分分立立的的數(shù)數(shù)據(jù)據(jù)庫庫““相相聯(lián)聯(lián)””,,進(jìn)進(jìn)行行多多維維的的分分析析;;““維維””是是聯(lián)聯(lián)機(jī)機(jī)分分析析的的核核心心概概念念,,指指的的是是人人們們觀觀察察事事物物、、計計算算數(shù)數(shù)據(jù)據(jù)的的特特定定角角度度;;可可以以從從任任意意的的維維度度交交叉叉和和細(xì)細(xì)分分問問題題,,用用戶戶能能根根據(jù)據(jù)自自己己的的需需要要,,隨隨時時創(chuàng)創(chuàng)建建““萬萬維維””動動態(tài)態(tài)報報表表數(shù)據(jù)挖挖掘通過特特定的的計算算機(jī)算算法對對大量量的數(shù)數(shù)據(jù)進(jìn)進(jìn)行自自動分分析,,從而而揭示示數(shù)據(jù)據(jù)之間間的關(guān)關(guān)系,,模式式和趨趨勢,,為決決策者者提供供新的的知識識。如如果說說聯(lián)機(jī)機(jī)分析析是對對數(shù)據(jù)據(jù)的一一種探探測,,數(shù)據(jù)據(jù)挖掘掘則是是對數(shù)數(shù)據(jù)進(jìn)進(jìn)行開開采,,發(fā)現(xiàn)現(xiàn)數(shù)據(jù)據(jù)之下下的歷歷史規(guī)規(guī)律,,對未未來進(jìn)進(jìn)行預(yù)預(yù)測。。大數(shù)據(jù)據(jù)的分分析挖挖掘技技術(shù)技術(shù)方方法分類根據(jù)挖挖掘任任務(wù):分為分分類或或預(yù)測測模型型發(fā)現(xiàn)現(xiàn)、數(shù)數(shù)據(jù)總總結(jié)、、聚類類、關(guān)關(guān)聯(lián)規(guī)規(guī)則發(fā)發(fā)現(xiàn)、、序列列模式式發(fā)現(xiàn)現(xiàn)、依依賴關(guān)關(guān)系或或依賴賴模型型發(fā)現(xiàn)現(xiàn)、異異常和和趨勢勢發(fā)現(xiàn)現(xiàn)等等等根據(jù)挖掘掘?qū)ο螅嚎煞譃殛P(guān)關(guān)系數(shù)據(jù)據(jù)庫、面面向?qū)ο笙髷?shù)據(jù)庫庫、空間間數(shù)據(jù)庫庫、時態(tài)態(tài)數(shù)據(jù)庫庫、文本本數(shù)據(jù)源源、多媒媒體數(shù)據(jù)據(jù)庫、異異質(zhì)數(shù)據(jù)據(jù)庫、遺遺產(chǎn)數(shù)據(jù)據(jù)庫以及及環(huán)球網(wǎng)Web根據(jù)挖掘掘方法:可分為:機(jī)器學(xué)習(xí)習(xí)方法、、統(tǒng)計方方法、神神經(jīng)網(wǎng)絡(luò)絡(luò)方法和和數(shù)據(jù)庫庫方法。。重點技術(shù)術(shù)可視化分分析。數(shù)數(shù)據(jù)可視化可以讓讓數(shù)據(jù)自自己說話話,讓用用戶直觀觀的感受受到結(jié)果果。數(shù)據(jù)挖掘掘算法。。分割、、集群、、孤立點點分析還還有各種種算法讓讓我們精精煉數(shù)據(jù)據(jù),挖掘掘價值。。這些算算法要能能夠應(yīng)付付大數(shù)據(jù)據(jù)的量,,同時還還具有很很高的處處理速度度。預(yù)測性分分析。預(yù)預(yù)測性分分析可以以讓分析析師根據(jù)據(jù)圖像化化分析和和數(shù)據(jù)挖挖掘的結(jié)結(jié)果做出出一些前前瞻性判判斷。語義引擎擎。人工工智能從從數(shù)據(jù)中中主動地地提取信信息。包包括機(jī)器器翻譯、、情感分分析、輿輿情分析析、智能能輸入、、問答系系統(tǒng)等。。數(shù)據(jù)質(zhì)量量和數(shù)據(jù)據(jù)管理。。透過標(biāo)標(biāo)準(zhǔn)化流流程和機(jī)機(jī)器對數(shù)數(shù)據(jù)進(jìn)行行處理可可以確保保獲得一一個預(yù)設(shè)設(shè)質(zhì)量的的分析結(jié)結(jié)果。目錄大數(shù)據(jù)簡簡介大數(shù)據(jù)相相關(guān)技術(shù)術(shù)大數(shù)據(jù)挖挖掘大數(shù)據(jù)平平臺數(shù)據(jù)挖掘掘(DM)與知識識發(fā)現(xiàn)(KDD)顧名思義義,數(shù)據(jù)據(jù)挖掘就就是從大大量的數(shù)數(shù)據(jù)中挖挖掘出有有用的信信息數(shù)據(jù)挖掘掘技術(shù)投投入商用用的三種種基礎(chǔ)技技術(shù)已發(fā)發(fā)展成熟熟(1)海量數(shù)數(shù)據(jù)搜集集(2)強(qiáng)大的的分布式式并行處處理技術(shù)術(shù)(3)數(shù)據(jù)挖挖掘算法法知識發(fā)現(xiàn)現(xiàn)(KDD):從源源數(shù)據(jù)中中發(fā)掘模模式或聯(lián)聯(lián)系的方方法KDD被用來描述整整個數(shù)據(jù)發(fā)掘掘的過程,包包括最開始始的制定業(yè)務(wù)務(wù)目標(biāo)到最終終的結(jié)果分析析,而用數(shù)據(jù)據(jù)挖掘(DM,DataMining)來描述使用用挖掘算法進(jìn)進(jìn)行數(shù)據(jù)挖掘掘的子過程。。數(shù)據(jù)挖掘所發(fā)發(fā)現(xiàn)的知識有有以下四類::廣義知識:指指類別特征征的概括性描描述知識關(guān)聯(lián)知識:反反應(yīng)一個事件件和其他時間間之間依賴或或關(guān)聯(lián)的知識識分類知識:反反應(yīng)同類事物物共同性質(zhì)的的特征性知識識和不同事物物之間的差異異性特征知識識預(yù)測性知識::根據(jù)時間序序列型數(shù)據(jù),,由歷史的和和當(dāng)前的數(shù)據(jù)據(jù)去推測未來來的數(shù)據(jù)。數(shù)據(jù)挖掘流程程及方法模型型確定業(yè)務(wù)對象象數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果分析知識的同化數(shù)據(jù)挖掘的技技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)預(yù)測未來描述(Description):了解數(shù)據(jù)據(jù)中潛在的規(guī)規(guī)律數(shù)據(jù)挖掘技術(shù)術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測關(guān)聯(lián)關(guān)聯(lián)規(guī)則挖掘掘:在交易數(shù)據(jù)、、關(guān)系數(shù)據(jù)或或其他信息載載體中,查找找存在于項目目集合或?qū)ο笙蠹现g的的頻繁模式、、關(guān)聯(lián)、相關(guān)關(guān)性、或因果果結(jié)構(gòu)。應(yīng)用:購物籃分析、、交叉銷售、、產(chǎn)品目錄設(shè)設(shè)計、loss-leaderanalysis、聚集、分類類等。買尿布的客戶戶二者都買的客客戶買啤酒的客戶戶序列序列模式定義義:給定一個由不不同序列組成成的集合,其其中,每個序序列由不同的的元素按順序序有序排列,,每個元素由由不同項目組組成,同時給給定一個用戶戶指定的最小小支持度閾值值,序列模式式挖掘就是找找出所有的頻頻繁子序列,,即該子序列列在序列集中中的出現(xiàn)頻率率不低于用戶戶指定的最小小支持度閾值值應(yīng)用領(lǐng)域:客戶購買行為為模式預(yù)測Web訪問模式預(yù)測測疾病診斷自然災(zāi)害預(yù)測測DNA序列分析工業(yè)控制分類&預(yù)測分類:預(yù)測分類標(biāo)號號(或離散值值)根據(jù)訓(xùn)練數(shù)據(jù)據(jù)集和類標(biāo)號號屬性,構(gòu)建建模型來分類類現(xiàn)有數(shù)據(jù),,并用來分類類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)數(shù)值模型,比比如預(yù)測空缺缺值典型應(yīng)用信譽(yù)證實目標(biāo)市場醫(yī)療診斷性能預(yù)測分類是發(fā)現(xiàn)質(zhì)質(zhì)變預(yù)測是發(fā)現(xiàn)量量變聚類簇(Cluster):一個數(shù)據(jù)對象象的集合在同一個類中中,對象之間間具有相似性性不同類的對象象之間是相異異的聚類分析把一個給定的的數(shù)據(jù)對象集集合分成不同同的簇聚類是一種無無監(jiān)督分類法法:沒有預(yù)先指定定的類別典型的應(yīng)用作為一個獨(dú)立立的分析工具具,用于了解解數(shù)據(jù)的分布布作為其它算法法的一個數(shù)據(jù)據(jù)預(yù)處理步驟驟聚類(續(xù))將物理或抽象象對象的集合合分組成為由由類似的對象象組成的多個個類聚類在不同的的應(yīng)用領(lǐng)域,,用作描述數(shù)數(shù)據(jù),衡量不不同數(shù)據(jù)源間間的相似性,,以及把數(shù)據(jù)據(jù)源分類到不不同的簇中;;聚類是將數(shù)數(shù)據(jù)分類到不不同的類或者者簇這樣的一一個過程,所所以同一個簇簇中的對象有有很大的相似似性,而不同同簇間的對象象有很大的相相異性聚類與分類不不同,聚類所所要求劃分的的類是未知的的異常探測異常檢測是數(shù)數(shù)據(jù)挖掘中一一個重要方面面,用來發(fā)現(xiàn)現(xiàn)”小的模式式”(相對于聚類),即數(shù)據(jù)集中中間顯著不同同于其它數(shù)據(jù)據(jù)的對象。異常探測應(yīng)用用電信和信用卡卡欺騙貸款審批藥物研究氣象預(yù)報金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測測故障檢測與診診斷等異常的定義::異常是在數(shù)數(shù)據(jù)集中與眾眾不同的數(shù)據(jù)據(jù),使人懷疑疑這些數(shù)據(jù)并并非隨機(jī)偏差差,而是產(chǎn)生生于完全不同同的機(jī)制。目錄大數(shù)據(jù)簡介大數(shù)據(jù)相關(guān)技技術(shù)大數(shù)據(jù)挖掘大數(shù)據(jù)平臺揭開Hadoop神秘的面紗Hadoop是Apache基金會的一個個項目總稱,,主要由HDFS和MapReduce組成。Hadoop來源于其創(chuàng)始始人DougCutting的兒子給一頭頭黃色大象取取的名字。Hadoop最初只與網(wǎng)頁頁索引有關(guān),,迅速發(fā)展成成為分析大數(shù)數(shù)據(jù)的領(lǐng)先平平臺。Hadoop已成為大數(shù)據(jù)據(jù)事實標(biāo)準(zhǔn)第一階段(2005~2009年):模仿Google的“三駕馬車車”,主導(dǎo)者者是Yahoo!,Facebook等互聯(lián)網(wǎng)廠商商,相關(guān)項目目①②③④第二階段(2009年~):模仿Google的“新三駕馬馬車”,主導(dǎo)導(dǎo)者是Cloudera、Hortonworks等Hadoop發(fā)行版廠商,,IBM、EMC、Intel、Huawei等傳統(tǒng)IT廠商開始集成成Hadoop,Haoop進(jìn)入企業(yè)市場場,相關(guān)項目目⑤第三階段(2012年~):博采眾長,吸吸納AMPLab、流計算等成成果,通過配配套工具構(gòu)筑筑大數(shù)據(jù)領(lǐng)域域生態(tài)系統(tǒng),,形成事實標(biāo)標(biāo)準(zhǔn);相關(guān)項項目⑥。6大Hadoop發(fā)行版廠商Cloudera、Hortonworks、MapR、IBM、EMC、Huawei數(shù)據(jù)處理技術(shù)術(shù)與架構(gòu)發(fā)展展趨勢傳統(tǒng)數(shù)據(jù)倉庫SQL、UPFSQL執(zhí)行引擎行存、磁盤、單機(jī)/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分租店面裝修合同范本
- 農(nóng)機(jī)課題申報書怎么寫
- 專用預(yù)埋件銷售合同范本
- 友誼合同范本
- 產(chǎn)業(yè)用工合同范本
- 前期物業(yè)托管合同范本
- 豐沃達(dá)采購合同范本
- 農(nóng)場民宿到超市合同范本
- 醫(yī)院物業(yè)服務(wù)合同范本格式
- 售后質(zhì)保電腦合同范本
- 環(huán)衛(wèi)車輛操作及維護(hù)培訓(xùn)方案
- 醫(yī)療器械質(zhì)量負(fù)責(zé)人崗位職責(zé)
- 高中物理【原子結(jié)構(gòu)和原子核】知識點、規(guī)律總結(jié)
- 湘陰縣易聚餐飲有限公司部門備用金業(yè)務(wù)財務(wù)融合流程設(shè)計
- 企業(yè)員工合規(guī)管理培訓(xùn)
- 第十七屆山東省職業(yè)院校技能大賽機(jī)器人系統(tǒng)集成應(yīng)用技術(shù)樣題1學(xué)生賽
- 血管通路的介入治療
- 2023年河北醫(yī)科大學(xué)第一醫(yī)院招聘醫(yī)療工作人員考試真題
- 臨床三基考試題庫(附答案)
- 2024年浙江省杭州市拱墅區(qū)中考語文一模試卷
- 蘇科版八年級物理上冊同步學(xué)與練第14課光的反射(原卷版+解析)
評論
0/150
提交評論