大數(shù)據(jù)技術(shù)分享_第1頁(yè)
大數(shù)據(jù)技術(shù)分享_第2頁(yè)
大數(shù)據(jù)技術(shù)分享_第3頁(yè)
大數(shù)據(jù)技術(shù)分享_第4頁(yè)
大數(shù)據(jù)技術(shù)分享_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)技術(shù)分享0102數(shù)據(jù)存儲(chǔ)/Hbase,MongoDB03數(shù)據(jù)分析/Hive,MR,R04實(shí)時(shí)計(jì)算/Storm,Spark05數(shù)據(jù)傳輸/Sqoop,Kafka演講提綱06數(shù)據(jù)采集/Flume,KafkaDPI大數(shù)據(jù)架構(gòu)NoSqlNoSql數(shù)據(jù)庫(kù)NoSql(Not Only Sql)hbaseMongoDBLucene/Solr等HbaseHbase是什么HBase是Apache Hadoop中的一個(gè)子項(xiàng)目,Hbase依托于Hadoop的HDFS作為最基本存儲(chǔ)基礎(chǔ)單元,通過(guò)使用hadoop的DFS工具就可以看到這些這些數(shù)據(jù) 存儲(chǔ)文件夾的結(jié)構(gòu),還可以通過(guò)Map/Reduce的框架(算法)對(duì)HB

2、ase進(jìn)行操作,如下圖所示:HRegionServerHRegionServer、HRegionHRegion、HmemcacheHmemcache、HlogHlog、HStoreHStore之間的關(guān)系HBaseHBase表中的數(shù)據(jù)與HRegionServerHRegionServer的分布關(guān)系為什么采用HBaseHBase?HBase 不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù).所謂非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)就是說(shuō)HBase是基于列的而不是基于行的模式,這樣方面讀寫大數(shù)據(jù)的數(shù)據(jù)。hbase是基于列存儲(chǔ),查詢速度為秒級(jí)一個(gè)數(shù)據(jù)行擁有一個(gè)可選擇的鍵和任意數(shù)量的列。表是疏松的存儲(chǔ)的,因此

3、用戶可以給行定義各種不同的列什么是列存儲(chǔ)?什么是列存儲(chǔ)?列存儲(chǔ)不同于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),其數(shù)據(jù)在表中是按行存儲(chǔ)的,列方式所帶來(lái)的重要好處之一就是,由于查詢中的選擇規(guī)則是通過(guò)列來(lái)定義的,因 此整個(gè)數(shù)據(jù)庫(kù)是自動(dòng)索引化的。按列存儲(chǔ)每個(gè)字段的數(shù)據(jù)聚集存儲(chǔ),在查詢只需要少數(shù)幾個(gè)字段的時(shí)候,能大大減少讀取的數(shù)據(jù)量,一個(gè)字段的數(shù)據(jù)聚集存儲(chǔ),那就 更容易為這種聚集存儲(chǔ)設(shè)計(jì)更好的壓縮/解壓算法。這張圖講述了傳統(tǒng)的行存儲(chǔ)和列存儲(chǔ)的區(qū)別:MySQLMySQL中現(xiàn)有的表結(jié)構(gòu)遷移至HBaseHBase中的表結(jié)構(gòu)原來(lái)系統(tǒng)中有2張表blogtable和comment表,采用HBase后只有一張blogtable表,如果按照

4、傳統(tǒng)的RDBMS的話,blogtable表中的列是固定的,比如schema 定義了Author,Title,URL,text等屬性,上線后表字段是不能動(dòng)態(tài)增加的。但是如果采用列存儲(chǔ)系統(tǒng),比如Hbase,那么我們可以定義blogtable表,然后定義info 列族,User的數(shù)據(jù)可以分為:info:title ,info:author ,info:url 等,如果后來(lái)你又想增加另外的屬性,這樣很方便只需要 info:xxx 就可以了。對(duì)于Row key你可以理解row key為傳統(tǒng)RDBMS中的某一個(gè)行的主鍵,Hbase是不支持條件查詢以及Order by等查詢,因此Row key的設(shè)計(jì)就要根據(jù)

5、你系統(tǒng)的查詢需求來(lái)設(shè)計(jì)了額。 Hbase中的記錄是按照rowkey來(lái)排序的,這樣就使得查詢變得非??臁ivehive簡(jiǎn)介Hive是基于hadoop構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)架構(gòu),通過(guò)提供一系列的工具,使得用戶能夠方便的做數(shù)據(jù)ETL,數(shù)據(jù)結(jié)構(gòu)化,并針對(duì)存放在hadoop上的海量數(shù)據(jù)進(jìn)行查詢和分析hive的設(shè)計(jì)目標(biāo)是:可伸縮、可擴(kuò)展、容錯(cuò)及輸入格式松耦合。數(shù)據(jù)單元按照數(shù)據(jù)的粒度大小,hive數(shù)據(jù)可以被組織成:1)databases: 避免不同表產(chǎn)生命名沖突的一種命名空間2)tables:具有相同scema的同質(zhì)數(shù)據(jù)的集合partitions:一個(gè)表可以有一個(gè)或多個(gè)決定數(shù)據(jù)如何存儲(chǔ)的partition k

6、eybuckets(或clusters):在同一個(gè)partition中的數(shù)據(jù)可以根據(jù)某個(gè)列的hash值分為多個(gè)bucket。partition和bucket并非必要,但是它們能大大加快數(shù)據(jù)的查詢速度。數(shù)據(jù)類型(1)簡(jiǎn)單類型:TINYINT - 1 byte integerSMALLINT - 2 byte integerINT - 4 byte integerBIGINT - 8 byte BOOLEAN - TRUE/ FALSEFLOAT - 單精度DOUBLE - 雙精度STRING - 字符串集合(2 2)復(fù)雜類型:Structs: structs內(nèi)部的數(shù)據(jù)可以通過(guò)DOT(.)來(lái)存取,

7、例如,表中一列c的類型為STRUCTa INT; b INT,我們可以通過(guò)c.a來(lái)訪問(wèn)域a。Maps(Key-Value對(duì)):訪問(wèn)指定域可以通過(guò)element name進(jìn)行,例如,一個(gè)Map M包含了一個(gè)group-gid的k-v對(duì),gid的值可以通過(guò)Mgroup來(lái)獲取。 Arrays:array中的數(shù)據(jù)為相同類型,例如,假如array A中元素a,b,c,則A1的值為b。內(nèi)建運(yùn)算符和函數(shù) 包括關(guān)系運(yùn)算符(A=B, A!=B, AB等等)算術(shù)運(yùn)算符(A+B, A*B, A&B, A|B等等)邏輯運(yùn)算符(A&B, A|B等等)復(fù)雜類型上的運(yùn)算符(An, Mkey, S.x)各種內(nèi)建函數(shù)。語(yǔ)言能力

8、 hive查詢語(yǔ)言提供基本的類sql操作,這些操作基于table和partition,包括:1. 使用where語(yǔ)句過(guò)濾制定行2. 使用select查找指定列 3. join兩張table或多張表 4. group by 5. 一個(gè)表的查詢結(jié)果存入另一張表6. 將一個(gè)表的內(nèi)容存入本地目錄7. 將查詢結(jié)果存儲(chǔ)到hdfs上8. 管理table和partition(creat、drop、alert)9.hive提供jdbc功能,方便從關(guān)系型數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)HiveHive和普通數(shù)據(jù)庫(kù)的區(qū)別由于Hive采用了SQL的查詢語(yǔ)言HQL,因此很容易將Hive理解為數(shù)據(jù)庫(kù)。HiveRDBMS查詢語(yǔ)言 HQLSQL數(shù)據(jù)存儲(chǔ) HDFSRaw Device or Local FS數(shù)據(jù)格式用戶定義系統(tǒng)決定數(shù)據(jù)更新不支持支持索引 無(wú)有執(zhí)行 MapReduce Executor執(zhí)行延遲 高低處理數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論