




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
主講:張義01020304目錄Hive的產(chǎn)生Hive簡介Hive與Hadoop的關系Hive適用場景Hive的產(chǎn)生1Hive的產(chǎn)生Hive是Facebook開發(fā)的構建于Hadoop集群之上的數(shù)據(jù)倉庫應用,它提供了類似于SQL語法的HQL語句作為數(shù)據(jù)訪問接口,F(xiàn)acebook為什么使用Hadoop和Hive組建其數(shù)據(jù)倉庫,大致的過程是如下的:Facebook的數(shù)據(jù)倉庫一開始是構建于MySQL之上的,但是隨著數(shù)據(jù)量的增加某些查詢需要幾個小時甚至幾天的時間才能完成。當數(shù)據(jù)量接近1T的時候,mysql的后臺進程垮掉,這時他們決定將他們數(shù)據(jù)倉庫轉移到Oracle。當然這次轉移的過程也是付出了很大的代價的,比如支持的SQL方言不同,修改以前的運行腳本等。Oracle應付幾T的數(shù)據(jù)還是沒有問題的,但是在開始收集用戶點擊流的數(shù)據(jù)(每天大約400G)之后,Oracle也開始撐不住了,由此又要考慮新的數(shù)據(jù)倉庫方案。Hive的產(chǎn)生內(nèi)部開發(fā)人員花了幾周的時間建立了一個并行日志處理系統(tǒng)Cheetah,這樣的話勉強可以在24小時之內(nèi)處理完一天的點擊流數(shù)據(jù),
但Cheetah也存在許多缺點。后來發(fā)現(xiàn)了Hadoop項目,并開始試著將日志數(shù)據(jù)同時載入Cheetah和Hadoop做對比,Hadoop在處理大規(guī)模數(shù)據(jù)時更具優(yōu)勢,后來將所有的工作流都從Cheetah轉移到了Hadoop,并基于Hadoop做了很多有價值的分析。后來為了使組織中的多數(shù)人能夠使用Hadoop,開發(fā)了Hive,Hive提供了類似于SQL的查詢接口,非常方便,與此同時還開發(fā)了一些其它工具。Hive簡介2Hive簡介Hive的概念Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供基礎的SQL查詢功能,可以將SQL語句轉換MapReduce任務運行,而不必開發(fā)專門的MapReduce應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。Hive產(chǎn)品采用類似SQL的語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,很大程度降低了Hadoop的學習使用成本。Hive簡介Hive的特點Hive是一個構建于Hadoop頂層的數(shù)據(jù)倉庫工具支持大規(guī)模數(shù)據(jù)存儲、分析,具有良好的可擴展性依賴分布式文件系統(tǒng)HDFS存儲數(shù)據(jù)依賴分布式并行計算模型MapReduce處理數(shù)據(jù)定義了簡單的類似SQL的查詢語言——HiveQL用戶可以通過編寫的HiveQL語句運行MapReduce任務是一個可以提供有效、合理、直觀組織和使用數(shù)據(jù)的分析工具Hive與Hadoop的關系3Hive與Hadoop的關系Hadoop本身不能識別Hive,但是它通過Hive架構轉化成Hadoop能識別的一個Job任務。用戶發(fā)出SQL請求,經(jīng)過Hive處理,轉換成hadoop可運行的MapReduce。HQL中對查詢語句的解釋、優(yōu)化、生成查詢計劃是由Hive完成的。所有的數(shù)據(jù)都是存儲在hadoop中。查詢計劃被轉化為MapReduce任務,在hadoop中執(zhí)行。Hadoop和hive都是用UTF-8編碼的。Hive適用場景4Hive適用場景業(yè)務場景非結構化數(shù)據(jù)的的離線分析統(tǒng)計。場景技術特點為超大數(shù)據(jù)集設計的計算、擴展能力。支持SQLlike查
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 投資理財服務合同范文
- 常年法律顧問合同細則
- 購房合同定金簡易協(xié)議
- 江西豐城勞動合同范本
- 智能通風電器具產(chǎn)業(yè)發(fā)展挑戰(zhàn)與對策考核試卷
- 機織服裝生產(chǎn)中的生產(chǎn)流程標準化考核試卷
- 塑料加工中的耐沖擊與抗跌落技術考核試卷
- 期貨市場投資者行為分析服務考核試卷
- 抽紗刺繡工藝的數(shù)字化營銷策略考核試卷
- 基于云計算的智能制造服務考核試卷
- 市政工程標準施工組織設計方案
- 馬爾文粒度儀MS2000原理及應用
- 護理不良事件管理、上報制度及流程
- GB 9706.224-2021醫(yī)用電氣設備第2-24部分:輸液泵和輸液控制器的基本安全和基本性能專用要求
- 鋼棧橋施工與方案
- 《藝術學概論》課件-第一章
- 子宮內(nèi)膜異位癥診療指南完整課件
- 動物寄生蟲病學課件
- 人教版小學三年級下冊數(shù)學應用題專項練習題40614
- 短視頻抖音運營培訓課程
- 生產(chǎn)安全事故應急預案管理辦法知識點課件
評論
0/150
提交評論