




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
BitMapuid,用戶設備號等。還有就是用戶標簽數(shù)據,也達到千萬級,包含數(shù)據用的社會屬性,olap中的概念。除了數(shù)據之外還有產品要求,需要在線應用,性能要求較高,必須做到毫HBaseDruid但是我們選用Bit,因為依據數(shù)據需求簡單而且Bit只有維度沒有度量,還有就是維度個數(shù)KylinDruiduid4G,因此在幾百上千維度查詢效率會降低;還有一個就是uid用戶量大,Kylin和Druid會將uid和其他維度進行組合會出現(xiàn)很多情況,會額外增加數(shù)據量,因此這種請款也不適合用HBASE+BitMapHBASE做數(shù)據存儲,將HBASE做處理器做并行計算,BitMap構建索引。HBASEactiveregionmasterHfileregionserverHDFSregionserverregionregion一個region會有管理范圍,分區(qū)是用regionserver管理。HBASE有很多特點,第一個就是海量存儲,其底層是基于HDFS,是橫向存儲,可以加很PB能在2w+;第五個就是稀疏,當列中屬性為空,不占用存儲空間。前面講存儲是HBASE,計算是HBASE協(xié)處理器,HBASE協(xié)處理器分為兩種,一種是countregion由于串行計算,同時會將數(shù)據從服務端加載到客戶端。Endpoint會以并行方式實現(xiàn),會將客戶端請求發(fā)送到所有region上,每個region分擔數(shù)據量,最后將數(shù)據返回協(xié)處理器客可能你們會對BitMap了解很少,其應用場景比較單一,但是在某些方面效果比較好。BitMap底層實現(xiàn)是一個位數(shù)組,位數(shù)組的value取值只能是0或1,因為是數(shù)組,數(shù)組下214748364710BitMapBitMapapi1,如圖中63571BitMapBitMapBloomfilter,是對應于一組hashmap對應一個BitMap,是犧牲一定錯誤率來釋放存儲空間,如在HBASE的索引和爬蟲URL判重。但是重點是作為索引,其實它在數(shù)據庫、搜索引擎和OLAP應用很多。狀況兩個維度,性別有兩個取值,婚姻狀況有三個取值,BitMap首先會在維度里面構建BitMap,第一步如何構建性別的BitMap,對于性別這個列,位圖索引形成兩個向量,男1010010,同理,女向量110000010000010BitMap,首BitMap有很多實現(xiàn)方式,構建框架也有很多。最后我們選用RoaringBitmap,選擇的原因在于:我們存儲的是整數(shù),將下標標簽取值設為1,該框架將整數(shù)i的高16位會被用于構造塊,存儲到keys中,低16位則被看做value,存儲到Container[]values中的某個BitMap壓。RoaringBitmap在開源框架里應用很多,如olap中有kylin、Druid、piont等,搜索引擎方面有Lucene、slor、Elasticserach等,還有spark、hive、tez等。也有很多實現(xiàn)語言,比如Java、C、C++、Python等。HBASEBitMap化層,給用戶提供頁面,選擇標簽,然后接口層傳入標簽,提供API服務,將選擇標簽傳大(十億級標簽)BitMapMRuid桶、gididbulkloadBitMapregionserveruidididBitMap列化后生成HFile,BulkloadBitMap索引。存儲計算層完成Hbase:存儲索引數(shù)據,Hbasecop:分布式計算,RoaringBitmap計算請求參數(shù):新客營銷、存客營銷,將請求通過copRegionServer。接口層完nettyhttp接下來講一下第四部分實現(xiàn)細節(jié),講幾個關鍵重點:id分區(qū),分區(qū)構建BitMap索引,coprocessor實現(xiàn)。用戶有十億,并不是直接將數(shù)據構建BitMap,會對id進行分區(qū),依Idididbitmap10存儲開銷大;id不分區(qū),如果id超過了整數(shù)最大范圍,無法構建bitmap索引。id,idhbase10id200500idhbaseregionstartkey/endkeyregionrowkey,0-500regionhbaseregion500rowkeyhbasehbaseregion'index',{METHOD=>'table_att',METADATA=>{'SPLIT_POLICY'=> Policy'}},{NAME=>'d',COMPRESSION=>'SNAPPY'},SPLITS=>[‘0005000000’,000,000,000,000 ,'10000000000
000,500roamBitMap會輸出rowkey和value。將每一個region里面的標簽設為key,標簽會對應BitMap,region有范圍只會生成相應的BitMap。如第一個region,startkey為0,構建的標簽為200500region5005001000id,BitMap有幾個特點:每個分區(qū)包含部分id,每個分區(qū)包含所有標簽,Rowkeystartkey_tag,Value:BitMap索引,BitMap下標范圍[0,500萬)。在后續(xù)分區(qū)可能idstartkeyidsetid0-500萬,避idBitMapregion3BitMap的例子,startkey是1500萬,每一個標簽對應一個索引。建完索引,接著就是協(xié)處理器實現(xiàn)——coprocessor實現(xiàn),這個其實比較關鍵,扮演著并regionserver,傳給協(xié)處理器的服務端,傳入Cop-server,比如查詢selectidfromtablewhereDim1=tag1_3and(Dim3=tag3_1orDim3=tag3_2orDim3=tag3_3or…)and…and(Dim..n=tagn_1orDim..n=tagn_2or…);用戶選擇相應維度,返回標簽,協(xié)處理器客戶端會將標簽重新組織,變成相關關系tag1_3and(tag3_1ortag3_2ortag3_3or…)and…and(tagn_1ortagn_2or…),發(fā)標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版一年級下冊數(shù)學10.兩位數(shù)加一位數(shù)、整十數(shù)的計算方法 習題
- 2025汽車零部件區(qū)域代理合同汽車零部件區(qū)域代理合同范本
- 建筑防水合作協(xié)議合同范本
- 版?zhèn)}庫保管員雇傭合同
- 2025合同管理與招標投標
- 2025私營企業(yè)員工勞動合同模板
- 聯(lián)動汽車租賃合同簡約范本
- 2025招商代理服務合同(標準版)
- 2025物流企業(yè)貨車租賃合同范本
- 2025經紀人聘用勞動合同
- DB32T 3269-2017 農作物種質資源種子入庫保存技術規(guī)程
- 醫(yī)療設備采購投標方案(技術方案)
- 2024年下半年環(huán)境保護部廣州天河區(qū)華南環(huán)境科學研究所招考易考易錯模擬試題(共500題)試卷后附參考答案
- 胃腸減壓評分表
- 薩克斯教學課件
- 第4課 熱在金屬中的傳遞(說課稿)-2023-2024學年五年級下冊科學教科版
- 中考化學復習反應微觀示意圖題課件
- 《烹飪原料知識》模塊四 水產類用料 習題及答案
- 河南投資集團筆試真題
- 2024年中國廢尼龍市場調查研究報告
- 建設工程管理畢業(yè)實踐報告
評論
0/150
提交評論