




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)管理與治理(全文)胡經(jīng)國本文作者的話:本全文由已在百度文庫發(fā)表的本文2 篇連載文檔匯集而成。特此說明。一、大數(shù)據(jù)管理與Hadoop1、 Hadoop 概述Hadoop 是大數(shù)據(jù)分布式處理框架,是一項(xiàng)開源技術(shù),是當(dāng)今與大數(shù)據(jù)應(yīng)用最為息息相關(guān)的數(shù)據(jù)管理平臺。它主要由Yahoo 創(chuàng)建于 2006 年;一部分基于由 Google 在一些技術(shù)論文中所闡述的思想。它創(chuàng)建不久,不少互聯(lián)網(wǎng)公司采用該技術(shù)并開始對其自身的發(fā)展貢獻(xiàn)力量。在過去幾年,Hadoop 已經(jīng)演變成一種有著基礎(chǔ)設(shè)施組件和相關(guān)工具的復(fù)雜生態(tài)系統(tǒng);而且它被各家供應(yīng)商打包在一起成為商業(yè)Hadoop發(fā)行版本。對于高級分析活動來說,在集群服務(wù)器
2、上運(yùn)行的Hadoop,為建立一個高性能、低成本的大數(shù)據(jù)管理架構(gòu)提供了途徑。隨著人們逐漸意識到其能力的提升, Hadoop 的應(yīng)用蔓延到了其他行業(yè),包括對混合有傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和新型非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序的報(bào)告和分析。其中包括:網(wǎng)絡(luò)點(diǎn)擊流數(shù)據(jù)、在線廣告信息、社交媒體數(shù)據(jù)、醫(yī)療記錄以及來自制造設(shè)備的傳感器數(shù)據(jù)和源于互聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)。2、 Hadoop 核心組件Hadoop 包含了大量開源軟件組件。這些組件擁有用于計(jì)算、處理、管理和分析大量數(shù)據(jù)的核心模型,而這些數(shù)據(jù)則由各種各樣的支撐技術(shù)所包圍。這些 核心組件包括:、 HDFSHDFS (Hadoop Distributed File
3、System)是 Hadoop分布式文件系統(tǒng)。它支 持傳統(tǒng)的分級目錄和文件系統(tǒng);而傳統(tǒng)的分級目錄和文件系統(tǒng)則是將文件分布于Hadoop集群中的存儲節(jié)點(diǎn)上,例如 DataNodes (數(shù)據(jù)節(jié)點(diǎn))。、 MapReduceMapReduce是可以對批量應(yīng)用程序進(jìn)行并行處理的編程模型和執(zhí)行框架。、 YARNYARN (Yet Another Resource Negotiator)是負(fù)責(zé)管理任務(wù)調(diào)度。它為運(yùn)行 中的應(yīng)用程序分配集群資源,并在可用資源出現(xiàn)爭用時進(jìn)行仲裁。它同時還對正在處理中任務(wù)的進(jìn)展進(jìn)行追蹤和監(jiān)控。、 Hadoop CommonHadoop Common是由不同組件使用的一組庫和工具。3
4、、 Hadoop 的開發(fā)管理和應(yīng)用在 Hadoop 集群中,那些核心部分和其他軟件模型,是分層于計(jì)算和數(shù)據(jù)存儲硬件節(jié)點(diǎn)集合之上的。這些節(jié)點(diǎn)通過高速內(nèi)網(wǎng)連接,以形成高性能并行分 布式處理系統(tǒng)。作為一個開源技術(shù)的集合,Hadoop 并不受控于任何一個單獨(dú)的供應(yīng)商;相反的是,它的開發(fā)是由 Apache Software Foundation (Apache軟件基金會)進(jìn)行管理的。 Apache 為用戶提供Hadoop 使用許可;基本上可以讓用戶免費(fèi)、無版稅地使用該軟件。開發(fā)人員可以直接從Apache 的網(wǎng)站下載并自行構(gòu)建Hadoop環(huán)境。但是,由Hadoop 供應(yīng)商提供帶有基本功能的預(yù)構(gòu)建社區(qū)版本。
5、該版本同樣可以免費(fèi)下載,并能在各種硬件平臺上進(jìn)行安裝。同時,還有市場商業(yè)版和企業(yè)版:Hadoop發(fā)行版根據(jù)維護(hù)和支持服務(wù)的不同等級來打包軟件。在某些情況下,供應(yīng)商也會基于 Apache的技術(shù),提供性能和功能方面的增強(qiáng)。例如,通過提供附加的軟件工具來簡化集群配置和管理;或是與外部平臺的數(shù)據(jù)整合。這些商業(yè)產(chǎn)品,讓各種規(guī)模的公司對Hadoop 的接納度越來越高。這是非常有價值的。尤其是當(dāng)商業(yè)公司供應(yīng)商的支持服務(wù)團(tuán)隊(duì),可以啟動一家公司Hadoop 基礎(chǔ)設(shè)施的設(shè)計(jì)和開發(fā),并且能夠引導(dǎo)工具的選擇和高級功能的集成,以快速部署高性能分析解決方案來滿足新興業(yè)務(wù)需求。4、 典型Hadoop 軟件棧組件當(dāng)你拿到一份
6、商業(yè)版本的Hadoop 時,你能從中真正獲得什么呢?除了核心組件,典型的Hadoop發(fā)布版本會包含(但不限于)以下內(nèi)容:、替代數(shù)據(jù)處理和應(yīng)用程序執(zhí)行管理器諸如 Tez 和 Spark 之類的替代數(shù)據(jù)處理和應(yīng)用程序執(zhí)行管理器。它們可以在 YARN 之上運(yùn)行,或是與YARN 并行,以提供集群管理、緩存數(shù)據(jù)管理、以及其他改善處理性能的方法。、列式數(shù)據(jù)庫管理系統(tǒng)Apache HBase是一款列式數(shù)據(jù)庫管理系統(tǒng)。它模仿的是運(yùn)行在HDFS之上Google 的 Big Table 項(xiàng)目。5、 SQL-on-Hadoop 工具諸如Hive, Impala, Stinger, Drill 以及 Spark SQ
7、L 之類的 SQL-on-Hadoop工具。這些工具為直接查詢存儲在HDFS 中的數(shù)據(jù)提供了與SQL 標(biāo)準(zhǔn)不同程度的兼容性。、開發(fā)工具諸如Pig之類的開發(fā)工具,可以幫助開發(fā)人員構(gòu)建 MapReduce項(xiàng)目。、配置管理工具諸如ZooKeeper或是Ambari之類的配置管理工具,可以用來進(jìn)行監(jiān)控和管 理。、分析環(huán)境諸如 Mahout 之類的分析環(huán)境,可以為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和預(yù)測分析提 供分析模型。由于Hadoop是開源的,因此對于Hadoop發(fā)行版你無需付費(fèi)。相反的是, 供應(yīng)商則售賣有不同水平服務(wù)協(xié)議(SLAs)的年度支持訂閱版本。雖然每家供 應(yīng)商都會對自家的附加組件進(jìn)行提升,如此一來也作為H
8、adoop 發(fā)布版的一部分為 Hadoop 社區(qū)做出了貢獻(xiàn)。所有的供應(yīng)商都會積極參與到Apache Hadoop社區(qū)中來。5、 Hadoop 大數(shù)據(jù)管理環(huán)境的管理在 Hadoop 系統(tǒng)之外獲得所需性能,需要一個熟悉IT 專業(yè)的協(xié)調(diào)團(tuán)隊(duì)。該團(tuán)隊(duì)致力于架構(gòu)計(jì)劃、設(shè)計(jì)、開發(fā)、測試和部署,以及運(yùn)行中操作和維護(hù)方面的工作,以確保獲得最佳性能。意識到這一點(diǎn)是非常重要的。對于這樣的IT 團(tuán)隊(duì)通常會有以下要求:需求分析師,基于運(yùn)行于Hadoop 環(huán)境中的應(yīng)用程序類型來評估系統(tǒng)性能需求。系統(tǒng)架構(gòu)師,評估性能需求并設(shè)計(jì)硬件配置。系統(tǒng)工程師,對Hadoop軟件棧進(jìn)行安裝、配置和調(diào)優(yōu)。應(yīng)用程序開發(fā)人員,設(shè)計(jì)并實(shí)現(xiàn)應(yīng)用
9、程序。數(shù)據(jù)管理專家,做數(shù)據(jù)整合、創(chuàng)建數(shù)據(jù)布局并執(zhí)行其他管理任務(wù)。系統(tǒng)管理員,進(jìn)行操作管理和維護(hù)。項(xiàng)目管理人員,監(jiān)督各級棧和應(yīng)用程序開發(fā)工作的實(shí)現(xiàn)。項(xiàng)目經(jīng)理,負(fù)責(zé)Hadoop環(huán)境和優(yōu)先級、應(yīng)用程序開發(fā)和部署的實(shí)現(xiàn)。6、 Hadoop 軟件平臺市場從本質(zhì)上講,作為一個可行的大規(guī)模數(shù)據(jù)管理生態(tài)系統(tǒng),Hadoop 的演化已經(jīng)創(chuàng)造了一個新的軟件市場。它正在轉(zhuǎn)變商業(yè)智能和分析行業(yè)。這已經(jīng)從兩方面進(jìn)行了擴(kuò)展,即:用戶企業(yè)可以運(yùn)行的分析應(yīng)用程序,以及可以作為這些應(yīng)用程序一部分加以收集并進(jìn)行分析的數(shù)據(jù)類型。在Hadoop 中,該市場包括三個獨(dú)立的專業(yè)供應(yīng)商以及其他提供 Hadoop發(fā)行版或功能的公司。對那些提供
10、Hadoop 發(fā)行版本的供應(yīng)商進(jìn)行評估,需要理解所供產(chǎn)品兩個方面的異同。首先是技術(shù)本身:發(fā)行版中包含有哪些不同之處;它們支持什么樣的平臺;而且,最為重要的是,個體供應(yīng)商集成了什么樣的特定組件?其次是服務(wù)和支持模型:對于每類訂閱級別都提供什么樣的支持和SLAs 以及不同的訂閱費(fèi)用?二、數(shù)據(jù)治理與大數(shù)據(jù)平臺設(shè)計(jì)本文議程:數(shù)據(jù)治理的背景和現(xiàn)狀;數(shù)據(jù)治理要素和策略;元數(shù)據(jù)管理;主數(shù)據(jù)管理;數(shù)據(jù)質(zhì)量管理;大數(shù)據(jù)平臺設(shè)計(jì)。1、數(shù)據(jù)治理背景、大數(shù)據(jù)時代凸現(xiàn)數(shù)據(jù)治理重要性;、數(shù)據(jù)治理是大數(shù)據(jù)的基礎(chǔ); 、信息孤島現(xiàn)象嚴(yán)重;、數(shù)據(jù)質(zhì)量問題嚴(yán)重;、數(shù)據(jù)應(yīng)用未得到有效管 理;、數(shù)據(jù)安全問題日益嚴(yán)峻。2、數(shù)據(jù)治理現(xiàn)狀、
11、意識到了問題的嚴(yán)重;、“維持”代替“管理”;、歷史“包 袱”沉重;、相關(guān)方面利益交織,協(xié)調(diào)困難;、方案規(guī)劃容易落地困難; 、過度依賴技術(shù)工具;、對于數(shù)據(jù)沒有明確區(qū)分。3、數(shù)據(jù)治理要素組 織 ( Organization) ; 流 程 、 活 動 與 機(jī) 制 ( Process & Activities & Mechanism);技術(shù)平臺與工具(Platform & Tools);計(jì)劃、制度與標(biāo)準(zhǔn)規(guī)范( Plan & Rule & Standards)。4、數(shù)據(jù)治理策略獲得支持;引入外援;找到“痛點(diǎn)”;確定“起點(diǎn)”;責(zé)任到人;持之以恒;績效評估。5、經(jīng)驗(yàn)總結(jié)標(biāo)準(zhǔn)先行,實(shí)事求是,使用工具,確定方法
12、,獎懲機(jī)制,做好績效。6、實(shí)施建議質(zhì)量:數(shù)據(jù)質(zhì)量提升是目標(biāo);主數(shù)據(jù):主數(shù)據(jù)管理是關(guān)鍵;元數(shù)據(jù):元數(shù)據(jù)管理是基礎(chǔ)。7、元數(shù)據(jù)管理、元數(shù)據(jù)的定義包括:技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、操作元數(shù)據(jù)。、為什么要進(jìn)行元數(shù)據(jù)管理?、數(shù)據(jù)的參考框架;、解決數(shù)據(jù)模糊性;、可視化數(shù)據(jù)流動;、 影響和血緣分析;、推進(jìn)標(biāo)準(zhǔn)化建設(shè);、規(guī)范化數(shù)據(jù)審計(jì)。、經(jīng)驗(yàn)分享、標(biāo)準(zhǔn)領(lǐng)先;、全局治理;、盡快見效;、高層支持;、業(yè)務(wù) 參與;、獎懲機(jī)制。、數(shù)據(jù)定義標(biāo)準(zhǔn)體系標(biāo)準(zhǔn)單詞;標(biāo)準(zhǔn)用語;標(biāo)準(zhǔn)體系;標(biāo)準(zhǔn)域。8、數(shù)據(jù)模型標(biāo)準(zhǔn)化、模型設(shè)計(jì)標(biāo)準(zhǔn)、結(jié)構(gòu)實(shí)體、屬性、關(guān)系、主鍵,范式化等;命名規(guī)則、用語詞典、標(biāo)準(zhǔn)域等。、管理數(shù)據(jù)管理政策、方針等;配置管理、版
13、本管理等。、質(zhì)量準(zhǔn)確性、完整性、實(shí)時性、一致性。、應(yīng)用查詢結(jié)果的準(zhǔn)確性、使用便利性、查詢結(jié)果的迅速性。、實(shí)施路線模型診斷-模型優(yōu)化-設(shè)計(jì)規(guī)范-設(shè)計(jì)指南。按照模型設(shè)計(jì)規(guī)范和指南統(tǒng)一設(shè)計(jì)企業(yè)內(nèi)部數(shù)據(jù)模型。、標(biāo)準(zhǔn)化體系(數(shù)據(jù)定義和模型設(shè)計(jì))、元數(shù)據(jù)管理工具的選擇、元模型易于擴(kuò)展;、界面友好;、安全和系統(tǒng)管理;、配置管 理;、發(fā)布、查詢、報(bào)表功能;、平臺開放;、提前試用。9、主數(shù)據(jù)管理、什么是主數(shù)據(jù)?企業(yè)主數(shù)據(jù)是分散存儲在企業(yè)各系統(tǒng)內(nèi)、對企業(yè)至關(guān)重要的核心業(yè)務(wù)實(shí)體的數(shù)據(jù),比如客戶、合作伙伴、員工等。其特點(diǎn)是:關(guān)鍵、分散、緩慢、共享。、主數(shù)據(jù)類型當(dāng)事人;地域;事物;財(cái)務(wù)和組織。、主數(shù)據(jù)與參考數(shù)據(jù)參考數(shù)據(jù)
14、可以是主數(shù)據(jù),但不一定是主數(shù)據(jù)。、為什么要做主數(shù)據(jù)管理?數(shù)據(jù)冗余;數(shù)據(jù)沖突;難于應(yīng)變;阻礙業(yè)務(wù)。、如何做好主數(shù)據(jù)管理?、經(jīng)常遇到的主數(shù)據(jù)問題業(yè)務(wù)不關(guān)心,業(yè)主很難找,語義不統(tǒng)一。、做好主數(shù)據(jù)管理要點(diǎn)分析生命周期:整理并分析主數(shù)據(jù)的生命周期;識別相關(guān)方:識別并管理主數(shù)據(jù)相關(guān)方;識別含義類型:識別主數(shù)據(jù)含義、上下文、類型。、主數(shù)據(jù)實(shí)施流程、數(shù)據(jù)梳理、主數(shù)據(jù)識別、項(xiàng)目實(shí)施項(xiàng)目實(shí)施要點(diǎn):選擇工具;定制開發(fā);制定標(biāo)準(zhǔn)規(guī)范;確定組織架構(gòu)。、運(yùn)行維護(hù)10、數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量問題體現(xiàn)在以下幾個方面:、數(shù)據(jù)值域;、數(shù)據(jù)定義;、 數(shù)據(jù)完整性;、數(shù)據(jù)有效性;、業(yè)務(wù)規(guī)則;、結(jié)構(gòu)完整性;、數(shù)據(jù)轉(zhuǎn) 換;、數(shù)據(jù)流。11、組
15、織架構(gòu)設(shè)計(jì)業(yè)務(wù)與技術(shù)部門各司其職,共同做好數(shù)據(jù)質(zhì)量管理工作。、業(yè)務(wù)部門統(tǒng)計(jì)部門(業(yè)務(wù)部門)負(fù)責(zé)業(yè)務(wù)規(guī)則的制定,在業(yè)務(wù)層面統(tǒng)管數(shù)據(jù)質(zhì)量和安全。、技術(shù)主管部門技術(shù)主管部門負(fù)責(zé)數(shù)據(jù)集成、使用等過程中的數(shù)據(jù)質(zhì)量,并對數(shù)據(jù)質(zhì)量報(bào)告進(jìn)行定期發(fā)布。、評審委員會技術(shù)部門設(shè)置評審委員會,對數(shù)據(jù)方面的變更進(jìn)行管控,具有技術(shù)方案否決權(quán)。12、數(shù)據(jù)質(zhì)量治理流程、策略和方法、策略反面影響和正面效果征得了領(lǐng)導(dǎo)層關(guān)注;改進(jìn)工作分布實(shí)施,循序漸進(jìn);數(shù)據(jù)質(zhì)量報(bào)告定期發(fā)布。、方法應(yīng)用系統(tǒng)需求和架構(gòu)經(jīng)過嚴(yán)格評審;系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)變更需要進(jìn)行嚴(yán)格評估;數(shù)據(jù)發(fā)生變更時,通報(bào)所有相關(guān)方。、技術(shù)手段從源頭改起,形成良性循環(huán);24 小時監(jiān)控,及時按照預(yù)案處理問
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 泰州環(huán)保球場施工方案
- 繩索操作考試題及答案
- 陜師大歷史復(fù)試題及答案
- 2025年cdfi醫(yī)師上崗考試試題及答案
- 5年級上冊手抄報(bào)全部總結(jié)
- 登鸛雀樓吟誦符號
- arp報(bào)文發(fā)送的描述
- 【無印良品】大眾推廣策劃案 - 副本 - 副本
- 2025年臨汾職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫完美版
- 2025年關(guān)于黨史知識競賽培訓(xùn)題庫及答案
- 2025河南中煙漯河卷煙廠招聘7人易考易錯模擬試題(共500題)試卷后附參考答案
- 糧食儲運(yùn)與質(zhì)量安全基礎(chǔ)知識單選題100道及答案
- 第一篇 專題一 第2講 勻變速直線運(yùn)動 牛頓運(yùn)動定律
- 廣東廣州歷年中考語文現(xiàn)代文閱讀之非連續(xù)性文本閱讀7篇(截至2024年)
- 做自己的英雄主題班會
- 《蘋果SWOT分析》課件
- 2024至2030年中國ICU/CCU病房數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年安徽淮海實(shí)業(yè)集團(tuán)招聘筆試參考題庫含答案解析
- 頸椎病招商課件
- 中醫(yī)治療疼痛性疾病
- 電影《白日夢想家》課件
評論
0/150
提交評論