下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
從存儲(chǔ)角度看大數(shù)據(jù)和云計(jì)算區(qū)別與聯(lián)系關(guān)于大數(shù)據(jù)和云計(jì)算的關(guān)系人們通常會(huì)有誤解。而且也會(huì)把它們混起來(lái)說(shuō),分別做一句話直白解釋就是:云計(jì)算就是硬件資源的虛擬化;大數(shù)據(jù)就是海量數(shù)據(jù)的高效處理。
雖然上面的一句話解釋不是非常的貼切,但是可以幫助你簡(jiǎn)單的理解二者的區(qū)別。另外,如果做一個(gè)更形象的解釋,云計(jì)算相當(dāng)于我們的計(jì)算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化之后再進(jìn)行分配使用,在云計(jì)算領(lǐng)域目前的老大應(yīng)該算是amazon,可以說(shuō)為云計(jì)算提供了商業(yè)化的標(biāo)準(zhǔn),另外值得關(guān)注的還有vmware(其實(shí)從這一點(diǎn)可以幫助你理解云計(jì)算和虛擬化的關(guān)系),開源的云平臺(tái)最有活力的就是openstack了;
大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫(kù)”,而且通觀大數(shù)據(jù)領(lǐng)域的發(fā)展也能看出,當(dāng)前的大數(shù)據(jù)處理一直在向著近似于傳統(tǒng)數(shù)據(jù)庫(kù)體驗(yàn)的方向發(fā)展,hadoop的產(chǎn)生使我們能夠用普通機(jī)器建立穩(wěn)定的處理tb級(jí)數(shù)據(jù)的集群,把傳統(tǒng)而昂貴的并行計(jì)算等概念一下就拉到了我們的面前,但是其不適合數(shù)據(jù)分析人員使用(因?yàn)閙apreduce開發(fā)復(fù)雜),所以piglatin和hive出現(xiàn)了(分別是yahoo!和facebook發(fā)起的項(xiàng)目,說(shuō)到這補(bǔ)充一下,在大數(shù)據(jù)領(lǐng)域google、facebook、twitter等前沿的互聯(lián)網(wǎng)公司作出了很積極和強(qiáng)大的貢獻(xiàn)),為我們帶來(lái)了類sql的操作,到這里操作方式像sql了,但是處理效率很慢,絕對(duì)和傳統(tǒng)的數(shù)據(jù)庫(kù)的處理效率有天壤之別,所以人們又在想怎樣在大數(shù)據(jù)處理上不只是操作方式類sql,而處理速度也能“類sql”,google為我們帶來(lái)了dremel/powerdrill等技術(shù),cloudera(hadoop商業(yè)化最強(qiáng)的公司,hadoop之父cutting就在這里負(fù)責(zé)技術(shù)領(lǐng)導(dǎo))的impala也出現(xiàn)了。
整體來(lái)看,未來(lái)的趨勢(shì)是,云計(jì)算作為計(jì)算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢(shì)是,實(shí)時(shí)交互式的查詢效率和分析能力,借用google一篇技術(shù)論文中的話,“動(dòng)一下鼠標(biāo)就可以在秒級(jí)操作pb級(jí)別的數(shù)據(jù)”難道不讓人興奮嗎?
在談大數(shù)據(jù)的時(shí)候,首先談到的就是大數(shù)據(jù)的4v特性,即類型復(fù)雜,海量,快速和價(jià)值。ibm原來(lái)談大數(shù)據(jù)的時(shí)候談3v,沒(méi)有價(jià)值這個(gè)v。而實(shí)際我們來(lái)看4v更加恰當(dāng),價(jià)值才是大數(shù)據(jù)問(wèn)題解決的最終目標(biāo),其它3v都是為價(jià)值目標(biāo)服務(wù)。在有了4v的概念后,就很容易簡(jiǎn)化的來(lái)理解大數(shù)據(jù)的核心,即大數(shù)據(jù)的總體架構(gòu)包括三層,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理和數(shù)據(jù)分析。類型復(fù)雜和海量由數(shù)據(jù)存儲(chǔ)層解決,快速和時(shí)效性要求由數(shù)據(jù)處理層解決,價(jià)值由數(shù)據(jù)分析層解決。
數(shù)據(jù)先要通過(guò)存儲(chǔ)層存儲(chǔ)下來(lái),然后根據(jù)數(shù)據(jù)需求和目標(biāo)來(lái)建立相應(yīng)的數(shù)據(jù)模型和數(shù)據(jù)分析指標(biāo)體系對(duì)數(shù)據(jù)進(jìn)行分析產(chǎn)生價(jià)值。而中間的時(shí)效性又通過(guò)中間數(shù)據(jù)處理層提供的強(qiáng)大的并行計(jì)算和分布式計(jì)算能力來(lái)完成。三層相互配合,讓大數(shù)據(jù)最終產(chǎn)生價(jià)值。
數(shù)據(jù)存儲(chǔ)層
數(shù)據(jù)有很多分法,有結(jié)構(gòu)化,半結(jié)構(gòu)化,非結(jié)構(gòu)化;也有元數(shù)據(jù),主數(shù)據(jù),業(yè)務(wù)數(shù)據(jù);還可以分為gis,視頻,文件,語(yǔ)音,業(yè)務(wù)交易類各種數(shù)據(jù)。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿足數(shù)據(jù)多樣性的存儲(chǔ)要求,因此在rdbms基礎(chǔ)上增加了兩種類型,一種是hdfs可以直接應(yīng)用于非結(jié)構(gòu)化文件存儲(chǔ),一種是nosql類數(shù)據(jù)庫(kù),可以應(yīng)用于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。
從存儲(chǔ)層的搭建來(lái)說(shuō),關(guān)系型數(shù)據(jù)庫(kù),nosql數(shù)據(jù)庫(kù)和hdfs分布式文件系統(tǒng)三種存儲(chǔ)方式都需要。業(yè)務(wù)應(yīng)用根據(jù)實(shí)際的情況選擇不同的存儲(chǔ)模式,但是為了業(yè)務(wù)的存儲(chǔ)和讀取方便性,我們可以對(duì)存儲(chǔ)層進(jìn)一步的封裝,形成一個(gè)統(tǒng)一的共享存儲(chǔ)服務(wù)層,簡(jiǎn)化這種操作。從用戶來(lái)講并不關(guān)心底層存儲(chǔ)細(xì)節(jié),只關(guān)心數(shù)據(jù)的存儲(chǔ)和讀取的方便性,通過(guò)共享數(shù)據(jù)存儲(chǔ)層可以實(shí)現(xiàn)在存儲(chǔ)上的應(yīng)用和存儲(chǔ)基礎(chǔ)設(shè)置的徹底解耦。
數(shù)據(jù)處理層
數(shù)據(jù)處理層核心解決問(wèn)題在于數(shù)據(jù)存儲(chǔ)出現(xiàn)分布式后帶來(lái)的數(shù)據(jù)處理上的復(fù)雜度,海量存儲(chǔ)后帶來(lái)了數(shù)據(jù)處理上的時(shí)效性要求,這些都是數(shù)據(jù)處理層要解決的問(wèn)題。
在傳統(tǒng)的云相關(guān)技術(shù)架構(gòu)上,可以將hive,pig和hadoop-mapreduce框架相關(guān)的技術(shù)內(nèi)容全部劃入到數(shù)據(jù)處理層的能力。原來(lái)我思考的是將hive劃入到數(shù)據(jù)分析層能力不合適,因?yàn)閔ive重點(diǎn)還是在真正處理下的復(fù)雜查詢的拆分,查詢結(jié)果的重新聚合,而mapreduce本身又實(shí)現(xiàn)真正的分布式處理能力。
mapreduce只是實(shí)現(xiàn)了一個(gè)分布式計(jì)算的框架和邏輯,而真正的分析需求的拆分,分析結(jié)果的匯總和合并還是需要hive層的能力整合。最終的目的很簡(jiǎn)單,即支持分布式架構(gòu)下的時(shí)效性要求。
數(shù)據(jù)分析層
最后回到分析層,分析層重點(diǎn)是真正挖掘大數(shù)據(jù)的價(jià)值所在,而價(jià)值的挖掘核心又在于數(shù)據(jù)分析和挖掘。那么數(shù)據(jù)分析層核心仍然在于傳統(tǒng)的bi分析的內(nèi)容。包括數(shù)據(jù)的維度分析,數(shù)據(jù)的切片,數(shù)據(jù)的上鉆和下鉆,cube等。
數(shù)據(jù)分析我只關(guān)注兩個(gè)內(nèi)容,一個(gè)就是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)下的數(shù)據(jù)建模,在該數(shù)據(jù)模型下需要支持上面各種分析方法和分析策略;其次是根據(jù)業(yè)務(wù)目標(biāo)和業(yè)務(wù)需求建立的kpi指標(biāo)體系,對(duì)應(yīng)指標(biāo)體系的分析模型和分析方法。解決這兩個(gè)問(wèn)題基本解決數(shù)據(jù)分析的問(wèn)題。
傳統(tǒng)的bi分析通過(guò)大量的etl數(shù)據(jù)抽取和集中化,形成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù),而基于大數(shù)據(jù)的bi分析,可能并沒(méi)有一個(gè)集中化的數(shù)據(jù)倉(cāng)庫(kù),或者將數(shù)據(jù)倉(cāng)庫(kù)本身也是分布式的了,bi分析的基本方法和思路并沒(méi)有變化,但是落地到執(zhí)行的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45146-2024道路車輛氣壓及氣頂液制動(dòng)系統(tǒng)試驗(yàn)方法
- 北師大版八年級(jí)物理上冊(cè)《第一章物態(tài)及其變化》章末測(cè)試卷含答案
- 北師大版四年級(jí)上冊(cè)數(shù)學(xué)教案
- 農(nóng)業(yè)循環(huán)經(jīng)濟(jì)模式提升效益
- 能源大數(shù)據(jù)分析理論與實(shí)踐 課件 1.大數(shù)據(jù)概述
- 2024屆湖南省普通高中學(xué)高考仿真模擬化學(xué)試卷含解析
- 廈門市2024-2025學(xué)年度一學(xué)期高二年級(jí)質(zhì)量檢測(cè)數(shù)學(xué)試題(定稿)
- 2024高中地理第四章自然環(huán)境對(duì)人類活動(dòng)的影響2全球氣候變化對(duì)人類活動(dòng)的影響課時(shí)作業(yè)含解析湘教版必修1
- 2024高中生物第二章動(dòng)物與人體生命活動(dòng)的調(diào)節(jié)第4節(jié)免疫調(diào)節(jié)訓(xùn)練含解析新人教版必修3
- 2024高考?xì)v史一輪復(fù)習(xí)方案專題五當(dāng)今世界政治格局的多極化趨勢(shì)專題綜合測(cè)驗(yàn)含解析人民版
- 噪聲監(jiān)測(cè)服務(wù)投標(biāo)方案
- 2023年中考語(yǔ)文備考之名著閱讀《經(jīng)典常談》思維導(dǎo)圖合集
- 2023年湘教版數(shù)學(xué)七年級(jí)下冊(cè)《整式的乘法》單元質(zhì)量檢測(cè)(含答案)
- 氣柜安裝工程施工方案
- GB/T 28750-2012節(jié)能量測(cè)量和驗(yàn)證技術(shù)通則
- 分子生物學(xué)本基因組及基因組學(xué)概論
- 《人工智能》全冊(cè)配套課件
- 統(tǒng)編部編版四年級(jí)道德與法治下冊(cè)優(yōu)秀課件【全冊(cè)】
- 高職大?!扼w育與健康》課程標(biāo)準(zhǔn)
- 12月1日世界艾滋病日預(yù)防艾滋病講座PPT珍愛生命預(yù)防艾滋病PPT課件(帶內(nèi)容)
- 測(cè)量?jī)x器自檢記錄表(全站儀)
評(píng)論
0/150
提交評(píng)論