大數(shù)據(jù)基礎(chǔ)技術(shù)概述2_第1頁(yè)
大數(shù)據(jù)基礎(chǔ)技術(shù)概述2_第2頁(yè)
大數(shù)據(jù)基礎(chǔ)技術(shù)概述2_第3頁(yè)
大數(shù)據(jù)基礎(chǔ)技術(shù)概述2_第4頁(yè)
大數(shù)據(jù)基礎(chǔ)技術(shù)概述2_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)基礎(chǔ)技術(shù)概述日期:一月23杭州華三通信技術(shù)有限公司夏飛03621

大數(shù)據(jù)基礎(chǔ)技術(shù)概述大數(shù)據(jù)處理的基本流程大數(shù)據(jù)關(guān)鍵技術(shù)Hadoop介紹流計(jì)算介紹圖計(jì)算介紹NoSQL介紹大數(shù)據(jù)面臨的其他問題大數(shù)據(jù)處理的基本流程整個(gè)大數(shù)據(jù)的處理流程可以定義為:在合適工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)進(jìn)行統(tǒng)一存儲(chǔ),并利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說,可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。數(shù)據(jù)抽取與集成

大數(shù)據(jù)的一個(gè)重要特點(diǎn)就是多樣性,這就意味著數(shù)據(jù)來源極其廣泛,數(shù)據(jù)類型極為繁雜。這種復(fù)雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來極大的挑戰(zhàn)。要想處理大數(shù)據(jù),首先必須對(duì)所需數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和集成,從中提取出關(guān)系和實(shí)體,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲(chǔ)這些數(shù)據(jù)。在數(shù)據(jù)集成和提取時(shí)需要對(duì)數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量及可信性。現(xiàn)有的數(shù)據(jù)抽取與集成方式可以大致分為以下四種類型:數(shù)據(jù)整合、數(shù)據(jù)聯(lián)邦、數(shù)據(jù)傳播和混合方法等。

(1)數(shù)據(jù)整合(DataConsolidation):不同數(shù)據(jù)源的數(shù)據(jù)被物理地集成到數(shù)據(jù)目標(biāo)。利用ETL工具把數(shù)據(jù)源中的數(shù)據(jù)批量地加載到數(shù)據(jù)倉(cāng)庫(kù),就屬于數(shù)據(jù)整合的方式。

(2)數(shù)據(jù)聯(lián)邦(DataFederation):在多個(gè)數(shù)據(jù)源的基礎(chǔ)上建立一個(gè)統(tǒng)一的邏輯視圖,對(duì)外界應(yīng)用屏蔽數(shù)據(jù)在各個(gè)數(shù)據(jù)源的分布細(xì)節(jié)。對(duì)于這些應(yīng)用而言,只有一個(gè)統(tǒng)一的數(shù)據(jù)訪問入口,但是實(shí)際上,被請(qǐng)求的數(shù)據(jù)只是邏輯意義上的集中,在物理上仍然分布在各個(gè)數(shù)據(jù)源中,只有被請(qǐng)求時(shí),才臨時(shí)從不同數(shù)據(jù)源獲取相關(guān)數(shù)據(jù),進(jìn)行集成后提交給數(shù)據(jù)請(qǐng)求者。當(dāng)數(shù)據(jù)整合方式代價(jià)太大或者為了滿足一些突發(fā)的實(shí)時(shí)數(shù)據(jù)需求時(shí),可以考慮采用數(shù)據(jù)聯(lián)邦的方式建立企業(yè)范圍內(nèi)的全局統(tǒng)一數(shù)據(jù)視圖。

(3)數(shù)據(jù)傳播(DataPropagation):數(shù)據(jù)在多個(gè)應(yīng)用之間的傳播。比如,在企業(yè)應(yīng)用集成(EAI)解決方案中,不同應(yīng)用之間可以通過傳播消息進(jìn)行交互。

(4)混合方式(AHybridApproach):在這種方式中,對(duì)于那些不同應(yīng)用都使用的數(shù)據(jù)采用數(shù)據(jù)整合的方式進(jìn)行集成,而對(duì)那些只有特定應(yīng)用才使用的數(shù)據(jù)則采用數(shù)據(jù)聯(lián)邦的方式進(jìn)行集成。

數(shù)據(jù)分析傳統(tǒng)的分析技術(shù)如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等在大數(shù)據(jù)時(shí)代需要做出調(diào)整,因?yàn)檫@些技術(shù)在大數(shù)據(jù)時(shí)代面臨著一些新的挑戰(zhàn),主要有:數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價(jià)值的增加,相反這往往意味著數(shù)據(jù)噪音的增多大數(shù)據(jù)時(shí)代的算法需要進(jìn)行調(diào)整(邦弗朗尼原理)數(shù)據(jù)結(jié)果好壞的衡量

數(shù)據(jù)解釋數(shù)據(jù)分析是大數(shù)據(jù)處理的核心,但是用戶往往更關(guān)心結(jié)果的展示。如果分析的結(jié)果正確但是沒有采用適當(dāng)?shù)慕忉尫椒?,則所得到的結(jié)果很可能讓用戶難以理解,極端情況下甚至?xí)`導(dǎo)用戶。大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析結(jié)果往往也是海量的,同時(shí)結(jié)果之間的關(guān)聯(lián)關(guān)系極其復(fù)雜,采用傳統(tǒng)的解釋方法基本不可行可以考慮從下面兩個(gè)方面提升數(shù)據(jù)解釋能力:

--引入可視化技術(shù)

--讓用戶能夠在一定程度上了解和參與具體的分析過程

大數(shù)據(jù)基礎(chǔ)技術(shù)概述大數(shù)據(jù)處理的基本流程大數(shù)據(jù)關(guān)鍵技術(shù)Hadoop介紹流計(jì)算介紹圖計(jì)算介紹NoSQL介紹大數(shù)據(jù)面臨的其他問題大數(shù)據(jù)技術(shù)分類分布式緩存、基于MPP的分布式數(shù)據(jù)庫(kù)、分布式文件系統(tǒng)、各種NoSQL分布式存儲(chǔ)方案,內(nèi)存數(shù)據(jù)庫(kù)等存儲(chǔ)計(jì)算應(yīng)用MapReduce流計(jì)算圖計(jì)算………HIVE,pig,mahout,Sqoop以及ETL工具,統(tǒng)計(jì)與報(bào)告工具等Google的技術(shù)演進(jìn) Google于2006年首先提出了云計(jì)算的概念,并研發(fā)了一系列云計(jì)算技術(shù)和工具。難能可貴的是Google并未將這些技術(shù)完全封閉,而是以論文的形式逐步公開其實(shí)現(xiàn)。正是這些公開的論文,使得以GFS、MapReduce、Bigtable為代表的一系列大數(shù)據(jù)處理技術(shù)被廣泛了解并得到應(yīng)用,同時(shí)還催生出以Hadoop為代表的一系列云計(jì)算開源工具。下圖展示了Google的技術(shù)演化過程:

大數(shù)據(jù)處理工具 Hadoop是目前最為流行的大數(shù)據(jù)處理平臺(tái)。除了Hadoop,還有很多針對(duì)大數(shù)據(jù)的處理工具。這些工具有些是完整的處理平臺(tái),有些則是專門針對(duì)特定的大數(shù)據(jù)處理應(yīng)用。下表歸納總結(jié)了現(xiàn)今一些主流的處理平臺(tái)和工具。

大數(shù)數(shù)據(jù)據(jù)基基礎(chǔ)礎(chǔ)技技術(shù)術(shù)概概述述大數(shù)數(shù)據(jù)據(jù)處處理理的的基基本本流流程程大數(shù)數(shù)據(jù)據(jù)關(guān)關(guān)鍵鍵技技術(shù)術(shù)Hadoop介紹紹流計(jì)計(jì)算算介介紹紹圖計(jì)計(jì)算算介介紹紹NoSQL介紹紹大數(shù)數(shù)據(jù)據(jù)面面臨臨的的其其他他問問題題Hadoop簡(jiǎn)介介Hadoop一個(gè)個(gè)分分布布式式系系統(tǒng)統(tǒng)基基礎(chǔ)礎(chǔ)架架構(gòu)構(gòu),,由由Apache基金金會(huì)會(huì)開開發(fā)發(fā)。Hadoop是一一個(gè)個(gè)開開源源的的可可運(yùn)運(yùn)行行于于大大規(guī)規(guī)模模集集群群上上的的分分布布式式并并行行編編程程框框架架,,借借助助于于Hadoop,程程序序員員可可以以輕輕松松地地編編寫寫分分布布式式并并行行程程序序,,將將其其運(yùn)運(yùn)行行于于計(jì)計(jì)算算機(jī)機(jī)集集群群上上,,完完成成海海量量數(shù)數(shù)據(jù)據(jù)的的計(jì)計(jì)算算。Hadoop已經(jīng)經(jīng)發(fā)發(fā)展展成成為為目目前前最最流流行行的的大大數(shù)數(shù)據(jù)據(jù)處處理理平平臺(tái)臺(tái)Hadoop的作作用用和和功功能能Hadoop采用用了了分分布布式式存存儲(chǔ)儲(chǔ)方方式式,,提提高高了了讀讀寫寫速速度度,,并并擴(kuò)擴(kuò)大大了了存存儲(chǔ)儲(chǔ)容容量量。。采采用用MapReduce來整整合合分分布布式式文文件件系系統(tǒng)統(tǒng)上上的的數(shù)數(shù)據(jù)據(jù),,可可保保證證分分析析和和處處理理數(shù)數(shù)據(jù)據(jù)的的高高效效。。與與此此同同時(shí)時(shí),,Hadoop還采采用用存存儲(chǔ)儲(chǔ)冗冗余余數(shù)數(shù)據(jù)據(jù)的的方方式式保保證證了了數(shù)數(shù)據(jù)據(jù)的的安安全全性性。Hadoop中HDFS的高高容容錯(cuò)錯(cuò)特特性性,,以以及及它它是是基基于于Java語言言開開發(fā)發(fā)的的,,這這使使得得Hadoop可以以部部署署在在低低廉廉的的計(jì)計(jì)算算機(jī)機(jī)集集群群中中,,同同時(shí)時(shí)不不限限于于某某個(gè)個(gè)操操作作系系統(tǒng)統(tǒng)。。Hadoop中HDFS的數(shù)數(shù)據(jù)據(jù)管管理理能能力力,,MapReduce處理理任任務(wù)務(wù)時(shí)時(shí)的的高高效效率率,,以以及及它它的的開開源源特特性性,,使使其其在在同同類類的的分分布布式式系系統(tǒng)統(tǒng)中中大大放放異異彩彩,,并并在在眾眾多多行行業(yè)業(yè)和和科科研研領(lǐng)領(lǐng)域域中中被被廣廣泛泛采采用用。。Hadoop的優(yōu)優(yōu)點(diǎn)點(diǎn)可擴(kuò)擴(kuò)展展::不不論論是是存存儲(chǔ)儲(chǔ)的的可可擴(kuò)擴(kuò)展展還還是是計(jì)計(jì)算算的的可可擴(kuò)擴(kuò)展展都都是是Hadoop的設(shè)設(shè)計(jì)計(jì)根根本本。經(jīng)濟(jì)濟(jì)::框框架架可可以以運(yùn)運(yùn)行行在在任任何何普普通通的的PC上??煽靠浚海悍址植疾际绞轿奈募迪到y(tǒng)統(tǒng)的的備備份份恢恢復(fù)復(fù)機(jī)機(jī)制制以以及及MapReduce的任任務(wù)務(wù)監(jiān)監(jiān)控控保保證證了了分分布布式式處處理理的的可可靠靠性性。。((元元數(shù)數(shù)據(jù)據(jù)磁磁盤盤錯(cuò)錯(cuò)誤誤,,心心跳跳測(cè)測(cè)試試,,副副本本數(shù)))高效效::分分布布式式文文件件系系統(tǒng)統(tǒng)的的高高效效數(shù)數(shù)據(jù)據(jù)交交互互實(shí)實(shí)現(xiàn)現(xiàn)以以及及MapReduce結(jié)合合LocalData處理理的的模模式式,,為為高高效效處處理理海海量量的的信信息息作作了了基基礎(chǔ)礎(chǔ)準(zhǔn)準(zhǔn)備備。。Hadoop生態(tài)態(tài)系系統(tǒng)統(tǒng)Hadoop生態(tài)態(tài)系系統(tǒng)統(tǒng)Avro用于于數(shù)數(shù)據(jù)據(jù)序序列列化化的的系系統(tǒng)統(tǒng);HDFS是一一種種分分布布式式文文件件系系統(tǒng)統(tǒng),,運(yùn)運(yùn)行行于于大大型型商商用用機(jī)機(jī)集集群群,,HDFS為HBase提供供了了高高可可靠靠性性的的底底層層存存儲(chǔ)儲(chǔ)支支持持;;HBase位于于結(jié)結(jié)構(gòu)構(gòu)化化存存儲(chǔ)儲(chǔ)層層,,是是一一個(gè)個(gè)分分布布式式的的列列存存儲(chǔ)儲(chǔ)數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù);;MapReduce是一一種種分分布布式式數(shù)數(shù)據(jù)據(jù)處處理理模模式式和和執(zhí)執(zhí)行行環(huán)環(huán)境境,,為為HBase提供供了了高高性性能能的的計(jì)計(jì)算算能能力力;;Zookeeper是一一個(gè)個(gè)分分布布式式的的、、高高可可用用性性的的協(xié)協(xié)調(diào)調(diào)服服務(wù)務(wù),,提提供供分分布布式式鎖鎖之之類類的的基基本本服服務(wù)務(wù),,用用于于構(gòu)構(gòu)建建分分布布式式應(yīng)應(yīng)用用,,為為HBase提供供了了穩(wěn)穩(wěn)定定服服務(wù)務(wù)和和failover機(jī)制制;;Hive是一一個(gè)個(gè)建建立立在在Hadoop基礎(chǔ)礎(chǔ)之之上上的的數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù),,它它提提供供了了一一些些用用于于數(shù)數(shù)據(jù)據(jù)整整理理、、特特殊殊查查詢?cè)兒秃头址治鑫龃娲鎯?chǔ)儲(chǔ)在在Hadoop文件件中中的的數(shù)數(shù)據(jù)據(jù)集集的的工工具具;;Pig是一一種種數(shù)數(shù)據(jù)據(jù)流流語語言言和和運(yùn)運(yùn)行行環(huán)環(huán)境境,,用用以以檢檢索索非非常常大大的的數(shù)數(shù)據(jù)據(jù)集集,,大大大大簡(jiǎn)簡(jiǎn)化化了了Hadoop常見見的的工工作作任任務(wù)務(wù);;Sqoop為HBase提供供了了方方便便的的RDBMS數(shù)據(jù)據(jù)導(dǎo)導(dǎo)入入功功能能,,使使得得傳傳統(tǒng)統(tǒng)數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)數(shù)數(shù)據(jù)據(jù)向向HBase中遷遷移移變變的的非非常常方方便便。。Hadoop的新新發(fā)發(fā)展展Google后Hadoop時(shí)代代的的新新““三三駕駕馬馬車車””———Caffeine、Pregel、Dremel在2010年,,Google搜索索引引擎擎發(fā)發(fā)生生了了重重大大變變革革。。Google將其其搜搜索索遷遷移移到到新新的的軟軟件件平平臺(tái)臺(tái),,他他們們稱稱之之為為““Caffeine””(bigtable)。。Pregel主要要繪繪制制大大量量網(wǎng)網(wǎng)上上信信息息之之間間關(guān)關(guān)系系的的““圖圖形形數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)”Dremel可以以在在極極快快的的速速度度處處理理網(wǎng)網(wǎng)絡(luò)絡(luò)規(guī)規(guī)模模的的海海量量數(shù)數(shù)據(jù)據(jù)。。據(jù)據(jù)Google提交交的的文文件件顯顯示示你你可可以以在在幾幾秒秒的的時(shí)時(shí)間間處處理理PB級(jí)的的數(shù)數(shù)據(jù)據(jù)查查詢?cè)儭?。大?shù)數(shù)據(jù)據(jù)基基礎(chǔ)礎(chǔ)技技術(shù)術(shù)概概述述大數(shù)數(shù)據(jù)據(jù)處處理理的的基基本本流流程程大數(shù)數(shù)據(jù)據(jù)關(guān)關(guān)鍵鍵技技術(shù)術(shù)Hadoop介紹紹流計(jì)算介介紹圖計(jì)算介介紹NoSQL介紹大數(shù)據(jù)面面臨的其其他問題題什么是流流計(jì)算流計(jì)算來來自于一一個(gè)信念念:數(shù)據(jù)的價(jià)價(jià)值隨著著時(shí)間的的流逝而而降低,,所以事事件出現(xiàn)現(xiàn)后必須須盡快地地對(duì)它們們進(jìn)行處處理,最最好數(shù)據(jù)據(jù)出現(xiàn)時(shí)時(shí)便立刻刻對(duì)其進(jìn)進(jìn)行處理理,發(fā)生生一個(gè)事事件進(jìn)行行一次處處理,而而不是緩緩存起來來成一批批再處理理。流計(jì)算的的概念::流計(jì)算是是針對(duì)流流式數(shù)據(jù)據(jù)的實(shí)時(shí)時(shí)計(jì)算。。流式數(shù)據(jù)據(jù)(流數(shù)數(shù)據(jù))::是指將將數(shù)據(jù)看看作數(shù)據(jù)據(jù)流的形形式來處處理。數(shù)數(shù)據(jù)流是是在時(shí)間間分布和和數(shù)量上上無限的的一系列列動(dòng)態(tài)數(shù)數(shù)據(jù)集合合體;數(shù)數(shù)據(jù)記錄錄是數(shù)據(jù)據(jù)流的最最小組成成單元。。流數(shù)據(jù)具具有數(shù)據(jù)據(jù)實(shí)時(shí)持持續(xù)不斷斷到達(dá)、、到達(dá)次次序獨(dú)立立、數(shù)據(jù)據(jù)來源眾眾多格式式復(fù)雜、、數(shù)據(jù)規(guī)規(guī)模大且且不十分分關(guān)注存存儲(chǔ)、注注重?cái)?shù)據(jù)據(jù)的整體體價(jià)值而而不關(guān)注注個(gè)別數(shù)數(shù)據(jù)等特特點(diǎn)。流計(jì)算的的應(yīng)用場(chǎng)場(chǎng)景流計(jì)算是是針對(duì)流流數(shù)據(jù)的的實(shí)時(shí)計(jì)計(jì)算,其其主要應(yīng)應(yīng)用在于于產(chǎn)生大大量流數(shù)數(shù)據(jù)、同同時(shí)對(duì)實(shí)實(shí)時(shí)性要要求高的的領(lǐng)域。。流計(jì)算一一方面可可應(yīng)用于于處理金金融服務(wù)務(wù)如股票票交易、、銀行交交易等產(chǎn)產(chǎn)生的大大量實(shí)時(shí)時(shí)數(shù)據(jù)。。另一方面面流計(jì)算算主要應(yīng)應(yīng)用于各各種實(shí)時(shí)時(shí)Web服務(wù)中,,如搜索索引擎、、購(gòu)物網(wǎng)網(wǎng)站的實(shí)實(shí)時(shí)廣告告推薦,,SNS社交類網(wǎng)網(wǎng)站的實(shí)實(shí)時(shí)個(gè)性性化內(nèi)容容推薦,,大型網(wǎng)網(wǎng)站、網(wǎng)網(wǎng)店的實(shí)實(shí)時(shí)用戶戶訪問情情況分析析等。流計(jì)算與與Hadoop流計(jì)算與與其他大數(shù)數(shù)據(jù)解決決方案的的不同之之處在于于它的處處理方式式:Hadoop在本質(zhì)上上是一個(gè)個(gè)批處理理系統(tǒng)。。數(shù)據(jù)被被引入Hadoop文件系統(tǒng)統(tǒng)(HDFS)并分發(fā)到到各個(gè)節(jié)節(jié)點(diǎn)進(jìn)行行處理。。當(dāng)處理理完成時(shí)時(shí),結(jié)果果數(shù)據(jù)返返回到HDFS供始發(fā)者者使用。。流計(jì)算支持創(chuàng)建拓拓?fù)浣Y(jié)構(gòu)構(gòu)來轉(zhuǎn)換換沒有終終點(diǎn)的數(shù)數(shù)據(jù)流。。不同于于Hadoop作業(yè),這這些轉(zhuǎn)換換從不停停止,它它們會(huì)持持續(xù)處理理到達(dá)的的數(shù)據(jù)。。為了支持持流式處處理,MapReduce需要被改改造成Pipeline的模式,,而不是是reduce直接輸出出;考慮慮到效率率,中間間結(jié)果最最好只保保存在內(nèi)內(nèi)存中等等等。這這些改動(dòng)動(dòng)使得原原有的MapReduce框架的復(fù)復(fù)雜度大大大增加加,不利利于系統(tǒng)統(tǒng)的維護(hù)護(hù)和擴(kuò)展展。用戶被迫迫使用MapReduce的接口來來定義流流式作業(yè)業(yè),這使使得用戶戶程序的的可伸縮縮性降低低。流計(jì)算模模型流計(jì)算實(shí)實(shí)現(xiàn)了一種種數(shù)據(jù)流流模型,,其中數(shù)數(shù)據(jù)持續(xù)續(xù)地流經(jīng)經(jīng)一個(gè)轉(zhuǎn)轉(zhuǎn)換實(shí)體體網(wǎng)絡(luò)。。一個(gè)數(shù)數(shù)據(jù)流的的抽象稱稱為一個(gè)個(gè)流,這這是一個(gè)個(gè)無限的的元組序序列。元元組就像像一種使使用一些些附加的的序列化化代碼來來表示標(biāo)標(biāo)準(zhǔn)數(shù)據(jù)據(jù)類型((比如整整數(shù)、浮浮點(diǎn)和字字節(jié)數(shù)組組)或用用戶定義義類型的的結(jié)構(gòu)。。每個(gè)流流由一個(gè)個(gè)惟一ID定義,這個(gè)ID可用于構(gòu)建建數(shù)據(jù)源源和接收收器(sink)的拓?fù)浣Y(jié)結(jié)構(gòu)。流流起源于于噴嘴,,噴嘴將將數(shù)據(jù)從從外部來來源流入入流計(jì)算拓拓?fù)浣Y(jié)構(gòu)中中。接收收器(或或提供轉(zhuǎn)轉(zhuǎn)換的實(shí)實(shí)體)稱稱為螺栓栓使用流計(jì)計(jì)算為詞詞頻輕松松地實(shí)現(xiàn)現(xiàn)MapReduce功能。如如圖中所所示,噴噴嘴生成成文本數(shù)數(shù)據(jù)流,,螺栓實(shí)實(shí)現(xiàn)Map功能(令令牌化一一個(gè)流的的各個(gè)單單詞)。。來自““map””螺栓的流流然后流流入一個(gè)個(gè)實(shí)現(xiàn)Reduce功能的螺螺栓中((以將單單詞聚合合到總數(shù)數(shù)中)。。流計(jì)算產(chǎn)產(chǎn)品Yahoo的S4S4是一個(gè)通通用的、、分布式式的、可可擴(kuò)展的的、分區(qū)區(qū)容錯(cuò)的的、可插插拔的流流式系統(tǒng)統(tǒng),Yahoo!開發(fā)S4系統(tǒng),主主要是為為了解決決:搜索索廣告的的展現(xiàn)、、處理用用戶的點(diǎn)點(diǎn)擊反饋饋。Twitter的stormTwitter的storm:Storm是一個(gè)分分布式的的、容錯(cuò)錯(cuò)的實(shí)時(shí)時(shí)計(jì)算系系統(tǒng)。Storm用途:可可用于處處理消息息和更新新數(shù)據(jù)庫(kù)庫(kù)(流處處理),,在數(shù)據(jù)據(jù)流上進(jìn)進(jìn)行持續(xù)續(xù)查詢,,并以流流的形式式返回結(jié)結(jié)果到客客戶端((持續(xù)計(jì)計(jì)算),,并行化化一個(gè)類類似實(shí)時(shí)時(shí)查詢的的熱點(diǎn)查查詢(分分布式的的RPC)。流計(jì)算產(chǎn)產(chǎn)品Items\ProjectsYahoo!s4TwitterStorm協(xié)議Apachelicense2.0EclipsePublicLicense1.0開發(fā)語言JavaClojure,Java,Clojure編寫了核心代碼結(jié)構(gòu)去中心化的對(duì)等結(jié)構(gòu)有中心節(jié)點(diǎn)nimbus,但非關(guān)鍵通信可插拔的通訊層,目前是基于UDP的實(shí)現(xiàn)基于facebook開源的thrift框架事件/Stream<K,A>序列,用戶可自定義事件類提供Tuple類,用戶不可自定義事件類,但是可以命名field和注冊(cè)序列化器處理單元ProcessingElements,內(nèi)置PE處理Bolt,沒有內(nèi)置任務(wù),提供IBasicBolt處理count,join和aggregate等常見任務(wù)自動(dòng)ack第三方交互提供API,ClientAdapter/Driver,第三方客戶端輸入或者輸出事件定義Spout用于產(chǎn)生Stream,沒有標(biāo)準(zhǔn)輸出API持久化提供PersistAPI規(guī)范,可根據(jù)頻率或者次數(shù)做持久化無特定API,用戶可自行選擇處理可靠處理無,可能會(huì)丟失事件提供對(duì)事件處理的可靠保證(可選)多語言支持暫時(shí)只支持Java多語言支持良好,本身支持Java,Clojure,其他非JVM語言通過thrift和進(jìn)程間通訊Failover部分支持,數(shù)據(jù)無法failover部分支持,數(shù)據(jù)同樣無法failoverLoadBalance不支持不支持并行處理取決于節(jié)點(diǎn)數(shù)目,不可調(diào)節(jié)可配置worker和task數(shù)目,storm會(huì)盡量將worker和task均勻分布動(dòng)態(tài)增刪節(jié)點(diǎn)不支持支持動(dòng)態(tài)部署不支持支持web管理不支持支持代碼成熟度半成品成熟活躍度低活躍編程編程+XML配置純編程大數(shù)據(jù)基基礎(chǔ)技術(shù)術(shù)概述大數(shù)據(jù)處處理的基基本流程程大數(shù)據(jù)關(guān)關(guān)鍵技術(shù)術(shù)Hadoop介紹流計(jì)算介介紹圖計(jì)算介介紹NoSQL介紹大數(shù)據(jù)面面臨的其其他問題題圖計(jì)算遇遇到的問問題大型圖(像像社交網(wǎng)網(wǎng)絡(luò)和網(wǎng)網(wǎng)絡(luò)圖等等)常常常作為現(xiàn)現(xiàn)在系統(tǒng)統(tǒng)計(jì)算需需要的一一部分?!,F(xiàn)在存存在許多多圖計(jì)算算問題像像最短路路徑、集集群、網(wǎng)網(wǎng)頁(yè)排名名、最小小切割、、連通分分支等等等,但還還沒有一一個(gè)可擴(kuò)擴(kuò)展的通通用系統(tǒng)統(tǒng)來解決決這些問問題。解決這些問問題的算算法的特特點(diǎn):它它們常常常表現(xiàn)為為比較差差的內(nèi)存存訪問局局部性、、針對(duì)單單個(gè)頂點(diǎn)點(diǎn)的處理理工作過過少、以以及計(jì)算算過程中中伴隨著著的并行行度的改改變等問問題??赡艿慕鉀Q決方法::1、為特定定的圖應(yīng)應(yīng)用定制制相應(yīng)的的分布式式實(shí)現(xiàn)2、基于現(xiàn)現(xiàn)有的分分布式計(jì)計(jì)算平臺(tái)臺(tái)3、使用單單機(jī)的圖圖算法庫(kù)庫(kù)——如BGL,LEAD,NetworkX,JDSL,Standford,GraphBase,F(xiàn)GL等4、使用已已有的并并行圖計(jì)計(jì)算系統(tǒng)統(tǒng)——如ParallelBGL,CGMgraph等圖計(jì)算通通用軟件件正是因?yàn)閭鱾鹘y(tǒng)的圖圖計(jì)算解解決方案案無法解解決大型型圖的計(jì)計(jì)算問題題,因此此,就需需要設(shè)計(jì)計(jì)能夠用用來解決決這些問問題的通通用圖計(jì)計(jì)算軟件件。針對(duì)大型圖圖的計(jì)算算,目前前通用的的圖處理理軟件主主要包括括兩種:第一種主要要是基于于遍歷算算法和實(shí)實(shí)時(shí)的圖圖數(shù)據(jù)庫(kù)庫(kù),如Neo4j、OrientDB、DEX和InfiniteGraph。第二種則是是以圖頂頂點(diǎn)為中中心的消消息傳遞遞批處理理的并行行引擎,,如Hama、GoldenOrb、Giraph和Pregel。Tinkerpop下圖為Tinkerpor框架圖,,各層功功能見下下面的備備注BSP模型以圖頂點(diǎn)點(diǎn)為中心心的消息息傳遞批批處理的的并行引引擎主要要是基于于BSP(BulkSynchronousParallel)模型所實(shí)實(shí)現(xiàn)的并并行圖處處理包。。BSP是由哈佛佛大學(xué)Viliant和牛津大大學(xué)BillMcColl提出的并并行計(jì)算算模型。。一個(gè)BSP模型由大大量相互互關(guān)聯(lián)的的處理器器(processor)所組成,,它們之之間形成成了一個(gè)個(gè)通信網(wǎng)網(wǎng)絡(luò)。每每個(gè)處理理器都有有快速的的本地內(nèi)內(nèi)存和不不同的計(jì)計(jì)算線程程。一次次BSP計(jì)算過程程由一系系列全局局超步組組成,超超步就是是計(jì)算中中一次迭迭代。每每個(gè)超步步主要包包括三個(gè)個(gè)組件::1、并發(fā)計(jì)計(jì)算(Concurrentcomputation):每個(gè)參參與的處處理器都都有自身身的計(jì)算算任務(wù),,它們只只讀取存存儲(chǔ)在本本地內(nèi)存存的值。。這些計(jì)計(jì)算都是是異步并并且獨(dú)立立的。2、通訊(Communication):處理器群群相互交交換數(shù)據(jù)據(jù),交換換的形式式:由一一方發(fā)起起推送(put)和獲取(get)操作。3、柵欄同同步(Barriersynchronisation):當(dāng)一個(gè)處處理器遇遇到路障障,會(huì)等等到其他他所有處處理器完完成它們們的計(jì)算算步驟。。每一次次同步也也是一個(gè)個(gè)超步的的完成和和下一個(gè)個(gè)超步的的開始。。大數(shù)據(jù)基基礎(chǔ)技術(shù)術(shù)概述大數(shù)據(jù)據(jù)處理理的基基本流流程大數(shù)據(jù)據(jù)關(guān)鍵鍵技術(shù)術(shù)Hadoop介紹流計(jì)算算介紹紹圖計(jì)算算介紹紹NoSQL介紹大數(shù)據(jù)據(jù)面臨臨的其其他問問題NoSQL概念NoSQL:意即即反SQL運(yùn)動(dòng),,是一一項(xiàng)全全新的的數(shù)據(jù)據(jù)庫(kù)革革命性性運(yùn)動(dòng)動(dòng)。NoSQL數(shù)據(jù)庫(kù)庫(kù),指指的是是非關(guān)關(guān)系型型的數(shù)數(shù)據(jù)庫(kù)庫(kù)。NoSQL項(xiàng)目的的名字字上看看不出出什么么相同同之處處,但但是,,它們們通常常在某某些方方面相相同::它們們可以以處理理超大大量的的數(shù)據(jù)據(jù)。關(guān)系數(shù)數(shù)據(jù)庫(kù)庫(kù)的缺缺陷關(guān)系數(shù)數(shù)據(jù)庫(kù)庫(kù)并不不適合合所有有的數(shù)數(shù)據(jù)模模型關(guān)系數(shù)數(shù)據(jù)庫(kù)庫(kù)擴(kuò)展展難度度大標(biāo)準(zhǔn)化化通常常會(huì)傷傷害到到性能能NoSQL的目標(biāo)標(biāo)反標(biāo)準(zhǔn)準(zhǔn)化,,通常常是無無模式式的,,文檔檔型存存儲(chǔ)以key/value為基礎(chǔ)礎(chǔ),支支持通通過key進(jìn)行查查找水平平擴(kuò)展展內(nèi)置置復(fù)制制HTTP/REST或很容容易編編程的的API支持持MapReduce風(fēng)格的的編程程最終終一致致性為什么么需要要NoSQLNoSQL特點(diǎn)和和挑戰(zhàn)戰(zhàn)NoSQL的特點(diǎn)點(diǎn)靈活的的可擴(kuò)擴(kuò)展性性大數(shù)據(jù)據(jù)降低管管理難難度經(jīng)濟(jì)靈活的的數(shù)據(jù)據(jù)模型型NoSQL五大挑挑戰(zhàn)成熟度度支持分析和和商業(yè)業(yè)智能能化管理專業(yè)知知識(shí)對(duì)NoSQL的質(zhì)疑疑關(guān)系型型數(shù)據(jù)據(jù)庫(kù)在在設(shè)計(jì)計(jì)時(shí)更更能夠夠體現(xiàn)現(xiàn)實(shí)際際開源數(shù)數(shù)據(jù)庫(kù)庫(kù)從出出現(xiàn)到到被用用戶接接受需需要一一個(gè)漫漫長(zhǎng)的的過程程N(yùn)oSQL缺乏強(qiáng)強(qiáng)有力力的技技術(shù)支支持NoSQL很難實(shí)實(shí)現(xiàn)數(shù)數(shù)據(jù)的的完整整性CAP理論NoSQL與關(guān)系系型數(shù)數(shù)據(jù)庫(kù)庫(kù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論