使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)數(shù)據(jù)倉庫的現(xiàn)代化_第1頁
使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)數(shù)據(jù)倉庫的現(xiàn)代化_第2頁
使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)數(shù)據(jù)倉庫的現(xiàn)代化_第3頁
使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)數(shù)據(jù)倉庫的現(xiàn)代化_第4頁
使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)數(shù)據(jù)倉庫的現(xiàn)代化_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大多數(shù)組織的企業(yè)數(shù)據(jù)倉庫是使用有15-20年歷史的以在線事務(wù)處理(OLTP)為中心的技術(shù)和體系結(jié)構(gòu)構(gòu)建的。近年來,這些系統(tǒng)中聚集了越來越多的數(shù)據(jù),受傳統(tǒng)和移動(dòng)業(yè)務(wù)智能產(chǎn)品的推動(dòng),查詢負(fù)載呈指數(shù)級(jí)增長,這導(dǎo)致數(shù)據(jù)倉庫容易崩潰、超負(fù)載運(yùn)轉(zhuǎn)、成本高昂,可能耗費(fèi)數(shù)小時(shí)才能返回查詢結(jié)果。它們并不滿足業(yè)務(wù)日益增長的數(shù)據(jù)需求,卻管理著數(shù)量不斷增加的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源,而不能在必需的粒度級(jí)別或以充分及時(shí)的方式解答運(yùn)行業(yè)務(wù)所需的問題。是的,我們已經(jīng)對其投入了太多,而不能將其直接淘汰。大數(shù)據(jù)市場動(dòng)態(tài)已經(jīng)促使形成了新的技術(shù)、產(chǎn)品和方法,可用于使這些容易飽和、不靈活的數(shù)據(jù)倉庫現(xiàn)代化,并使它們對業(yè)務(wù)更敏捷地響應(yīng),而不必淘汰現(xiàn)有設(shè)備。本文描述了可以使用企業(yè)現(xiàn)有技能快速實(shí)施并迅速實(shí)現(xiàn)投資回報(bào)的五種戰(zhàn)術(shù)。EMC視點(diǎn)基于大規(guī)模并行處理(MPP)的數(shù)據(jù)庫提供高效利用成本、橫向擴(kuò)展的數(shù)據(jù)倉庫環(huán)境,允許組織利用摩爾定律1提高x86處理器的性能/成本比率。MPP數(shù)據(jù)庫提供非侵入性分析平臺(tái)/數(shù)據(jù)倉庫,用于對海量數(shù)據(jù)執(zhí)行數(shù)據(jù)發(fā)現(xiàn)和挖掘工作。MPP數(shù)據(jù)庫構(gòu)建于并不昂貴的商用群集上,在管理海量詳細(xì)數(shù)據(jù)的同時(shí),可以擴(kuò)展、補(bǔ)充或替代您現(xiàn)有數(shù)據(jù)倉庫的某些部分,還能提供靈活的查詢、報(bào)告、控制面板和分析(請參見圖1)。好處MPP數(shù)據(jù)庫不僅提供與您現(xiàn)有數(shù)據(jù)倉庫相同的許多好處,還提供以下優(yōu)勢:好處可利用更詳細(xì)、更強(qiáng)大的維度數(shù)據(jù)?具有預(yù)測零售狀況和能源消耗?具有預(yù)測零售狀況和能源消耗的季節(jié)性?通過本地化查明借貸或進(jìn)行欺詐曝光?可進(jìn)行數(shù)字媒體歸屬或醫(yī)療保健治療分析的超維度?自動(dòng)參數(shù)化?像任何其他數(shù)據(jù)庫那樣的加載和查詢能力?并行掃描和處理所有節(jié)點(diǎn)?極高的可擴(kuò)展性和優(yōu)化的I/O?易于添加節(jié)點(diǎn)和存儲(chǔ)的線性可擴(kuò)展性?改進(jìn)的查詢和加載性能1摩爾定律是計(jì)算硬件歷史上長期以來的觀察結(jié)果,即集成電路上的晶體管數(shù)目每兩年大約增加一倍。其結(jié)果是,同等成本的計(jì)算能力每18-24個(gè)月便會(huì)翻番一次。/wiki/MPP數(shù)據(jù)倉庫將使更多精細(xì)數(shù)據(jù)用于查詢、報(bào)告以及控制面板深入查看和橫向查看挖掘??梢詫υ敿?xì)數(shù)據(jù)而非數(shù)據(jù)聚合進(jìn)行分析。最新的發(fā)展現(xiàn)在允許您直接在Hadoop數(shù)據(jù)文件系統(tǒng)(HDFS)上構(gòu)建您的數(shù)據(jù)倉庫,以受益于HDFS提供的成本效益、橫向擴(kuò)展體系結(jié)構(gòu)和本機(jī)并行度,同時(shí)使用組織的基于SQL的標(biāo)準(zhǔn)BI工具提供訪問。從分析的角度而言,一旦開發(fā)了某個(gè)模型,并從這些數(shù)據(jù)集中點(diǎn)滴積累了業(yè)務(wù)洞察力,就可以直接將該模型和/或分析洞察力遷移到現(xiàn)有數(shù)據(jù)倉庫中,以便集成到當(dāng)前的業(yè)務(wù)智能環(huán)境中。另外,分析建模也可以在MPP平臺(tái)上執(zhí)行,使其成為生產(chǎn)流程的一部分。好處利用低延遲(高速)數(shù)據(jù)訪問好處利用低延遲(高速)數(shù)據(jù)訪問?推動(dòng)實(shí)時(shí)客戶購置、預(yù)見性維護(hù)或網(wǎng)絡(luò)優(yōu)化決策?根據(jù)當(dāng)前市場或當(dāng)?shù)靥鞖馇闆r按需更新分析模型大數(shù)據(jù)最具有影響的一個(gè)發(fā)展是數(shù)據(jù)庫內(nèi)分析的出現(xiàn)。數(shù)據(jù)庫內(nèi)分析解決了執(zhí)行高級(jí)分析中一個(gè)最大的缺點(diǎn),即,需要將大量數(shù)據(jù)移來移去。這種需要導(dǎo)致許多組織和數(shù)據(jù)科學(xué)家不得不被迫使用聚合表,因?yàn)榉治霭l(fā)掘和發(fā)現(xiàn)流程中非常容易發(fā)生數(shù)據(jù)傳輸問題。數(shù)據(jù)庫內(nèi)分析通過將分析算法移至存儲(chǔ)數(shù)據(jù)的位置,逆轉(zhuǎn)了這一流程,從而加快了建模的開發(fā)和部署。數(shù)據(jù)移動(dòng)的消除帶來了相當(dāng)多的好處:?移動(dòng)幾個(gè)TB的數(shù)據(jù),可能會(huì)耗費(fèi)數(shù)小時(shí)。而使用數(shù)據(jù)庫內(nèi)分析,移動(dòng)數(shù)據(jù)的時(shí)間直降為零。?由于數(shù)據(jù)移動(dòng)在邏輯處理時(shí)間上是最耗時(shí)間的活動(dòng),減少數(shù)據(jù)移動(dòng)則會(huì)將處理時(shí)間減少至原來的1/N,其中,N是處理單元的數(shù)量。對于僅有5個(gè)處理器的系統(tǒng),1TB的處理時(shí)間可以減少至原來的1/16,從193分鐘降為12分鐘(參見圖2)。好處管理眾多的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源?集成非結(jié)構(gòu)化的索賠描述,以減少欺詐性索賠?利用移動(dòng)數(shù)據(jù)生成實(shí)時(shí)促銷?利用傳感器讀數(shù)優(yōu)化收益和定價(jià)Hadoop分布式文件系統(tǒng)(HDFS)提供功能強(qiáng)大但價(jià)格實(shí)惠的方案,以實(shí)現(xiàn)操作數(shù)據(jù)存儲(chǔ)區(qū)(ODS)和數(shù)據(jù)轉(zhuǎn)移區(qū)域的現(xiàn)代化。HDFS是一個(gè)高效利用成本的大型存儲(chǔ)系統(tǒng),具備固有的計(jì)算和分析功能(MapReduce)。HDFS構(gòu)建于商用群集上,簡化了各種數(shù)據(jù)源的采集和存儲(chǔ),這些數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(例如,Web日志和傳感器饋送)或者非結(jié)構(gòu)化數(shù)據(jù)(例如,社交媒體、圖像、視頻和音頻)。一旦納入Hadoop文件系統(tǒng),好處管理眾多的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源?集成非結(jié)構(gòu)化的索賠描述,以減少欺詐性索賠?利用移動(dòng)數(shù)據(jù)生成實(shí)時(shí)促銷?利用傳感器讀數(shù)優(yōu)化收益和定價(jià)一旦采用Hadoop,用戶就可以通過采納新的ELT(提取/加載/轉(zhuǎn)換)模式,極大地強(qiáng)化現(xiàn)有的ELT(提取/加載/轉(zhuǎn)換)例程和開發(fā)新的ELT例程。現(xiàn)有的ETL例程可通過Hadoop的本機(jī)并行特性大大加速,而新的“數(shù)據(jù)濃縮”過程則可以進(jìn)行開發(fā),以生成新的指標(biāo)(頻率、時(shí)間跨度、順序),這些指標(biāo)可能成為更好的業(yè)務(wù)績效預(yù)測系數(shù)。最終的結(jié)果就是一個(gè)為數(shù)據(jù)倉庫和分析環(huán)境同時(shí)饋送數(shù)據(jù)的單一平臺(tái)。這種價(jià)格實(shí)惠、橫向擴(kuò)展的解決方案可用于存儲(chǔ)您的所有數(shù)據(jù)。好處利用從非結(jié)構(gòu)化數(shù)據(jù)源中點(diǎn)滴積累的新指標(biāo)、維度和維度屬性?利用客戶的興趣、熱情、關(guān)聯(lián)和隸屬關(guān)系改善微細(xì)分?利用從非結(jié)構(gòu)化數(shù)據(jù)源中點(diǎn)滴積累的新指標(biāo)、維度和維度屬性?利用客戶的興趣、熱情、關(guān)聯(lián)和隸屬關(guān)系改善微細(xì)分?將傳感器生成的性能數(shù)據(jù)添加到您的制造、供應(yīng)鏈或者產(chǎn)品預(yù)見性維護(hù)模型中使用Hadoop和MapReduce開始構(gòu)建體驗(yàn)的一種簡易方式就是,使用這些技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)源生成新的指標(biāo),這些指標(biāo)可以饋送到企業(yè)數(shù)據(jù)倉庫中。這將提供一種功能,即,利用社交媒體、手機(jī)、消費(fèi)者評(píng)論、醫(yī)生便條或索賠描述等數(shù)據(jù)確定可以成為更好的績效預(yù)測因素的新指標(biāo)。最新的發(fā)展使得組織可以使用其基于SQL的標(biāo)準(zhǔn)BI工具直接在本機(jī)并行的HDFS平臺(tái)中訪問組織的結(jié)構(gòu)化表。性價(jià)比令人難以置信。它還大大簡化了組織處理和分析非結(jié)構(gòu)化數(shù)據(jù)(日志文件、文本文件、研究出版物)的能力,從而找出非結(jié)構(gòu)化數(shù)據(jù)中的主要度量單位,并將該數(shù)據(jù)在同一個(gè)Hadoop環(huán)境中加載為結(jié)構(gòu)化(表格)格式。使用日志文件分析示例:?將日志文件按原樣載入(流入)Hadoop,可采用的文件格式為:.csv格式的HDFS文件,可直接作為外部表映射到查詢,或者作為HBase數(shù)據(jù)庫文件用于存放“粉碎的”事件列表。在這種用途中,HAWQ可以使用HBase引擎過濾結(jié)果集,然后再響應(yīng)?使用MapReduce分析每個(gè)日志記錄,以確定“會(huì)話ID”、“用戶ID”、“開始時(shí)間”、“停止時(shí)間”、“傳輸?shù)臄?shù)據(jù)”等字段?將這些字段加載到仍處于同一個(gè)hadoop環(huán)境下的表結(jié)構(gòu)中?使用基于SQL的標(biāo)準(zhǔn)BI工具查詢該表(參見圖4)。這些新指標(biāo)是從您的詳細(xì)結(jié)構(gòu)化數(shù)據(jù)或新的非結(jié)構(gòu)化數(shù)據(jù)源(例如,社交媒體、手機(jī)或傳感器生成的數(shù)據(jù))中收集的,現(xiàn)在可以很容易地集成到現(xiàn)有業(yè)務(wù)智能查詢、報(bào)告、控制面板和分析(參見圖5)。好處注意:隨著Hadoop繼續(xù)融入關(guān)系數(shù)據(jù)庫市場,實(shí)施此戰(zhàn)術(shù)可以使公司立于不敗之地。能夠在Hadoop上生成指標(biāo)和處理數(shù)據(jù),利用發(fā)展很快的HBase和Hive等工具,以及讓BI工具直接連接到HDFS,這可能會(huì)使數(shù)據(jù)倉庫專業(yè)人員產(chǎn)生疑問:為什么他們需要將數(shù)據(jù)移動(dòng)到一個(gè)關(guān)系數(shù)據(jù)庫。好處?快速地將您的數(shù)據(jù)倉庫環(huán)境擴(kuò)展到使用不常訪問的數(shù)據(jù)源??快速地將您的數(shù)據(jù)倉庫環(huán)境擴(kuò)展到使用不常訪問的數(shù)據(jù)源?支持一次性業(yè)務(wù)分析請求?在移入企業(yè)數(shù)據(jù)倉庫前測試和驗(yàn)證業(yè)務(wù)使用情形數(shù)據(jù)聯(lián)合領(lǐng)域的持續(xù)發(fā)展現(xiàn)已允許組織根據(jù)需要將數(shù)據(jù)倉庫擴(kuò)展到訪問非數(shù)據(jù)倉庫和外部數(shù)據(jù)源。這種“虛擬數(shù)據(jù)倉庫”或擴(kuò)展的數(shù)據(jù)結(jié)構(gòu)可以支持組織快速訪問不常引用的數(shù)據(jù)源的需求,而無需花費(fèi)數(shù)周或數(shù)月的時(shí)間將這類數(shù)據(jù)移動(dòng)到企業(yè)數(shù)據(jù)倉庫。這種數(shù)據(jù)可讓用戶以虛擬方式訪問和分析,如果系統(tǒng)確定需要以更高的頻率訪問這種數(shù)據(jù)源,會(huì)將其置于數(shù)據(jù)倉庫環(huán)境中(參見圖6)。注意:對于大規(guī)模的統(tǒng)計(jì)和計(jì)算機(jī)學(xué)習(xí)建模,則需要將大型數(shù)據(jù)集饋送給模型,因而數(shù)據(jù)聯(lián)合將不再適用。在革命性的、改變游戲規(guī)則的大數(shù)據(jù)開發(fā)領(lǐng)域,數(shù)據(jù)倉庫現(xiàn)代化聽起來有點(diǎn)像進(jìn)化發(fā)展。但是,它目前可以使用現(xiàn)有數(shù)據(jù)倉庫技能來執(zhí)行,這代表著以通過大數(shù)據(jù)技術(shù)獲取立即實(shí)現(xiàn)的商業(yè)價(jià)值和實(shí)現(xiàn)企業(yè)靈活性為目標(biāo)的萬里長征第一步。您還在等什么?EMC全球服務(wù)提供組織所需的戰(zhàn)略指導(dǎo)和技術(shù)專業(yè)知識(shí),用于解決組織面臨的業(yè)務(wù)和信息基礎(chǔ)架構(gòu)難題,并從其信息資產(chǎn)和投資中挖掘最大價(jià)值。我們承諾通過卓越的服務(wù)提供優(yōu)異的總體客戶體驗(yàn)。我們有遍及世界各地的15,000多名專業(yè)人員和支持服務(wù)專家,并有一個(gè)全球聯(lián)盟和合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論