版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)成功關(guān)鍵 --高效地實(shí)現(xiàn)大數(shù)據(jù)的移動(dòng)劉春霞IBM軟件部資深信息整合顧問(wèn)3InfoSphere:維護(hù)信息供應(yīng)鏈信息治理治理質(zhì)量安全和隱私生命周期標(biāo)準(zhǔn)事務(wù)和協(xié)作應(yīng)用業(yè)務(wù)分析應(yīng)用外部信息源分析整合管理多維數(shù)據(jù)集流大數(shù)據(jù)主數(shù)據(jù)內(nèi)容數(shù)據(jù)流信息數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容分析整合和清洗ThirstforInformation可靠信息移動(dòng)的速度敏捷
用戶(hù)想要快速地訪問(wèn)數(shù)據(jù),幾分鐘內(nèi)和小時(shí)級(jí)內(nèi)(如自主的數(shù)據(jù)整合)對(duì)分析的需求兩者都需要!權(quán)威性
在一個(gè)流程框架內(nèi)內(nèi)的可靠信息避免信息冗余需要敏捷和可靠的數(shù)據(jù)訪問(wèn)任何數(shù)據(jù)到大數(shù)據(jù)大數(shù)據(jù)到任何數(shù)據(jù)大數(shù)據(jù)中心批量數(shù)據(jù)整合(用于大數(shù)據(jù))任何數(shù)據(jù)ETL/
ELTETL/
ELTELT加載獲益利用探索性分析方法最佳性能/最小批處理窗口和實(shí)時(shí)流數(shù)據(jù)提取獲益從多種來(lái)源提取數(shù)據(jù):機(jī)器數(shù)據(jù)、社交數(shù)據(jù)、多結(jié)構(gòu)成熟的整合工具,更高的生產(chǎn)力數(shù)據(jù)中心獲益以大數(shù)據(jù)形式產(chǎn)生和分析的數(shù)據(jù)–從不清除用于完成大數(shù)據(jù)運(yùn)行時(shí)內(nèi)的工作的圖形工具將現(xiàn)有的企業(yè)數(shù)據(jù)引入一個(gè)探索性分析平臺(tái)將社交數(shù)據(jù)和機(jī)器數(shù)據(jù)引入一個(gè)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)自動(dòng)化一個(gè)低成本數(shù)據(jù)暫存區(qū)域的工具對(duì)數(shù)據(jù)的推送處理(不是其他方法)BigInsightsHadoopInfoSphereBigInsights的批量數(shù)據(jù)整合集市數(shù)據(jù)倉(cāng)庫(kù)倉(cāng)庫(kù)集市DataStage數(shù)據(jù)庫(kù)FilesFiles文件并行寫(xiě)入DataStage子集并行讀取細(xì)節(jié)和摘要與大數(shù)據(jù)來(lái)源交換信息將企業(yè)信息轉(zhuǎn)移到大數(shù)據(jù)來(lái)源,使它可包含在分析中獲取Hadoop的分析結(jié)果,并將它們應(yīng)用于其他IT解決方案并行性和規(guī)模對(duì)HDFS的支持通過(guò)信息服務(wù)器并行引擎提供了大規(guī)??缮炜s性作業(yè)血統(tǒng)與大洞察來(lái)源/目標(biāo)步驟使用信息服務(wù)器中的擴(kuò)展性功能大數(shù)據(jù)文件組件使用BDFS作為來(lái)源BDFS引入了新來(lái)源選項(xiàng)NamenodeClusterHost和PortBDFS可并行讀取文件模式BDFS可使用Readers選項(xiàng)并行讀取單個(gè)文件BDFS數(shù)據(jù)流程圖名稱(chēng)節(jié)點(diǎn)文件請(qǐng)求BDFS數(shù)據(jù)節(jié)點(diǎn)BDFS數(shù)據(jù)數(shù)據(jù)PXPXBDFS使用多個(gè)讀取器流程并行化HDFS讀取InfoSphereDataStage使用BDFS作為目標(biāo)BDFS引入了新的目標(biāo)選項(xiàng)NamenodeClusterHost和PortBDFS通常寫(xiě)入單個(gè)文件BDFS能夠并行寫(xiě)入多個(gè)文件BDFS示例客戶(hù)情緒緒傾向性性分析作作業(yè)可以以通過(guò)分分析電子子郵件在在InfoSphereBigInsights中執(zhí)行。??蛻?hù)情緒緒傾向性性摘要將將被更新新到倉(cāng)庫(kù)庫(kù)中。InfoSphereDataStage作業(yè)將挑挑選信息息并更新新數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)(使使用SCD階段的客客戶(hù)維度度)可執(zhí)行基基于分類(lèi)類(lèi)的電子子郵件的的風(fēng)險(xiǎn)識(shí)識(shí)別??煽梢詫㈦婋娮余]件件分類(lèi)為為高風(fēng)險(xiǎn)險(xiǎn)和低風(fēng)風(fēng)險(xiǎn)。分析作業(yè)輸出風(fēng)險(xiǎn)分類(lèi)12BDFS:可擴(kuò)展展性和性性能InformationServer––BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB13InformationServer––Bigdataintegration-讀寫(xiě)都具具有近線線性的可可擴(kuò)展能能力-最高可達(dá)達(dá)5.2TB/小時(shí)-DataStage節(jié)點(diǎn)翻倍倍,處理理效率翻翻倍直至至磁盤(pán)資資源全部部占用BDFS:可擴(kuò)展展性和性性能平衡的優(yōu)優(yōu)化–從DataStage生成HadoopMapReduce作業(yè)使用DataStageDesign流程生成成ETL作業(yè)使用BalancedOptimization將其編譯譯為在BigInsights上運(yùn)行。。將支持完全下推推–Hadoop內(nèi)的所有有處理((如果可可能)混合下推推–內(nèi)部的一一些處理理和外部部剩余處處理,具具體取決決于來(lái)源源和目標(biāo)標(biāo)15通過(guò)InformationServer和Hadoop數(shù)據(jù)文件件系統(tǒng)(HDFS)的整合,強(qiáng)強(qiáng)化了IBM在大數(shù)據(jù)據(jù)的領(lǐng)導(dǎo)導(dǎo)地位通過(guò)JobSequencer對(duì)BigInsights和其他MapReduce作業(yè)進(jìn)行行編程調(diào)調(diào)用,結(jié)結(jié)合DataStage和Hadoop實(shí)現(xiàn)端到到端工作作流。利用設(shè)計(jì)計(jì)器用戶(hù)戶(hù)界面和和標(biāo)準(zhǔn)階階段結(jié)構(gòu)構(gòu)來(lái)生成成MapReduce作業(yè),為為用戶(hù)提提供處理理BigData來(lái)源的能能力,可可以使用用Hadoop更高效地地處理這這些來(lái)源源。實(shí)現(xiàn)InfoSphereDataStage和InfoSphereStreams之間的直直接數(shù)據(jù)據(jù)流整合合,結(jié)合合兩個(gè)平平臺(tái)的強(qiáng)強(qiáng)大功能能和應(yīng)用用范圍通過(guò)所有有用例提提供豐富富元數(shù)據(jù)據(jù)支持。。自動(dòng)化的的大數(shù)據(jù)據(jù)作業(yè)生生成從DataStage調(diào)用Oozie工作流Oozie是Hadoop中的一個(gè)個(gè)工作流流計(jì)劃引引擎Oozie提供了一一個(gè)JavaAPI來(lái)調(diào)用用Oozie工作流流調(diào)用者者是Oozie客戶(hù)端端DS可充當(dāng)當(dāng)Oozie客戶(hù)端端使用OozieAPI,我們們構(gòu)建建了一一個(gè)Oozie調(diào)用者者模塊塊該模塊塊是同同步的的成功執(zhí)執(zhí)行工工作流流時(shí)返返回1發(fā)生錯(cuò)錯(cuò)誤時(shí)時(shí)返回回0作業(yè)調(diào)調(diào)度程程序有有一個(gè)個(gè)執(zhí)行行命令令階段段Oozie調(diào)用者者模塊塊從執(zhí)執(zhí)行命命令階階段執(zhí)執(zhí)行使用返返回代代碼在在發(fā)生生錯(cuò)誤誤時(shí)放放棄作作業(yè)序序列序列InfoSphereStreams-InformationServer連接器器1)用戶(hù)希希望向向現(xiàn)有有DataStage作業(yè)添添加Streams分析2)用戶(hù)希希望向向現(xiàn)有有Streams應(yīng)用添添加DataStage處理3)從頭創(chuàng)創(chuàng)建一一個(gè)DataStage作業(yè)和和Streams應(yīng)用。。這些整整合可可能具具有以以下數(shù)數(shù)據(jù)流流:?DataStage->Streams?DataStage->Streams->DataStage?Streams->DataStage聯(lián)邦整整合((用于于大數(shù)數(shù)據(jù)))18分析和和報(bào)告告工具具Web應(yīng)用建模–查詢(xún)–交付搜索–分析–可視化化VivisimoVelocityInfoSphereFederationHive(odbc)InfoSphereDatabaseFederation可能是是IBMVivisimo等大數(shù)數(shù)據(jù)聯(lián)聯(lián)邦解解決方方案的的另一一個(gè)企企業(yè)數(shù)數(shù)據(jù)來(lái)來(lái)源新用戶(hù)戶(hù)以靈活、簡(jiǎn)單單的方方式檢檢索數(shù)數(shù)據(jù)的的能力力–“只需需一次次單擊擊”只需幾幾次單單擊,,便可可在文文件/數(shù)據(jù)庫(kù)庫(kù)與BigInsights之間移移動(dòng)數(shù)數(shù)據(jù)滿(mǎn)足需需求,,以便便:生成用用于個(gè)個(gè)人開(kāi)開(kāi)發(fā)工工作的的沙盒盒用戶(hù)界界面顯顯示了了一些些策略選項(xiàng),,無(wú)需任任何編編碼即即可將將它們們自動(dòng)動(dòng)化。?;谒x的的策略略和源源系統(tǒng)統(tǒng)功能能來(lái)利用InfoSphereDataStage和InfoSphereDataReplication。整合的的設(shè)計(jì)計(jì)和操操作元元數(shù)據(jù)據(jù),用用于內(nèi)置治治理用于大大數(shù)據(jù)據(jù)的InfoSphereDataClick:敏捷捷和可可控的的整合合DB2/
ORACLEInfoSphereDataClickBigInsights分析應(yīng)應(yīng)用數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)轉(zhuǎn)換/復(fù)制分析存存儲(chǔ)分析DS/CDC實(shí)時(shí)整整合((用于于大數(shù)數(shù)據(jù)))20InfoSphere
數(shù)據(jù)復(fù)制應(yīng)用程程序事務(wù)日志高速雙雙向數(shù)數(shù)據(jù)對(duì)實(shí)時(shí)時(shí)信息息的低低延遲遲捕獲獲分析極極大規(guī)規(guī)模的的移動(dòng)動(dòng)信息息每秒TB級(jí)數(shù)據(jù)據(jù),每每天PB級(jí)數(shù)據(jù)據(jù)。分析各各種信信息分析原原生格格式的的各種種信息息–流音頻頻、視視頻、、空間間等信信息非擴(kuò)散散性的的記錄錄捕獲獲從事務(wù)務(wù)數(shù)據(jù)據(jù)庫(kù)日日志中中讀取取數(shù)據(jù)據(jù),將將數(shù)據(jù)據(jù)分發(fā)發(fā)給任任何目目標(biāo)–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS消息隊(duì)隊(duì)列ETLHadoop系統(tǒng)流系統(tǒng)統(tǒng)倉(cāng)庫(kù)21InfoSphereDataClick實(shí)時(shí)數(shù)數(shù)據(jù)高高性能能傳遞遞JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)數(shù)數(shù)據(jù)及及時(shí)性性,動(dòng)態(tài)的的數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)結(jié)合ETL/ELT優(yōu)化批批處理理從源到到目標(biāo)標(biāo)更少少的時(shí)時(shí)間和和處理理即使禁禁止抽抽取,,數(shù)據(jù)據(jù)也可可以獲獲取為轉(zhuǎn)換換清洗洗ETL提供實(shí)實(shí)時(shí)的的數(shù)據(jù)據(jù)降低數(shù)數(shù)據(jù)集集市的的成本本221stClick2ndClick預(yù)選數(shù)數(shù)據(jù)源源和目目標(biāo)Tab頁(yè)上顯顯示的的核對(duì)對(duì)標(biāo)志志表明明所需需的配配置完完成復(fù)查配配置Execution!!!InfoSphereDataClick––點(diǎn)擊兩兩下完完成數(shù)數(shù)據(jù)整整合23頂級(jí)性性能加加速時(shí)時(shí)間價(jià)價(jià)值:InformationServer高速的的NetezzaConnectorInfoSphereInformationServer(Intel?Xeon?E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel?Xeon?E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel?10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel?Xeon?E55202.27GHzStorageSpace:128TB**@4xcompressionratioNetworkCard:Intel?10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespecificoperatingenvironmentandundertheconditionsshownandispresentedasanillustrationonly.Performanceobtainedinotheroperatingenvironmentsmayvary,andcustomersshouldconducttheirowntesting.卸載速度=2.58TB/hour加載速度=2.38TB/hour24大數(shù)據(jù)清洗洗(驗(yàn)證、、充實(shí)和匹匹配)對(duì)傳統(tǒng)數(shù)據(jù)據(jù)和大數(shù)據(jù)據(jù)的統(tǒng)一和整整合訪問(wèn)驗(yàn)證、標(biāo)準(zhǔn)準(zhǔn)化、充實(shí)和匹配配數(shù)據(jù)值得信任的的數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)現(xiàn)了整體視圖業(yè)務(wù)洞察事務(wù)數(shù)據(jù)傳統(tǒng)應(yīng)用源社會(huì)網(wǎng)絡(luò)視頻和照片片整合數(shù)據(jù)質(zhì)量倉(cāng)庫(kù)風(fēng)險(xiǎn)儀表板板流計(jì)算InformationServer提供市場(chǎng)上上最全面的的數(shù)據(jù)集成成和數(shù)據(jù)管管理解決方方案獨(dú)特優(yōu)勢(shì)Business/ITcollaborationondataqualityobjectivesAutomatedbusiness/
ITcollaborationEstablishframeworkfor
metadatalineageUnderstandyourdataIncludes
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《知識(shí)產(chǎn)權(quán)前沿問(wèn)題》課件
- 《支氣管哮喘防治》課件
- 地理(河南)-【八省聯(lián)考】河南、山西、陜西、內(nèi)蒙古、四川、云南、寧夏、青海八省2025年高考綜合改革適應(yīng)性演練
- 《對(duì)標(biāo)管理咨詢(xún)》課件
- 人教版八年級(jí)上冊(cè)地理第2章《中國(guó)的自然環(huán)境》教案
- 小學(xué)數(shù)學(xué)二年級(jí)數(shù)學(xué)加減法練習(xí)題
- 一模閱卷語(yǔ)知作文評(píng)分說(shuō)明南京市一模閱卷語(yǔ)知閱讀評(píng)分細(xì)則
- 上杭一中屆模擬試卷語(yǔ)文試題
- 寵物用品設(shè)計(jì)師職位概述
- 促進(jìn)學(xué)生學(xué)業(yè)成績(jī)提高的班級(jí)計(jì)劃
- 2024年機(jī)動(dòng)車(chē)檢測(cè)站質(zhì)量手冊(cè)程序文件記錄表格合集(根據(jù)補(bǔ)充要求編制)
- 公司未來(lái)發(fā)展規(guī)劃及目標(biāo)制定
- 2023-2024學(xué)年上海市普陀區(qū)三年級(jí)(上)期末數(shù)學(xué)試卷
- 2024年01月11067知識(shí)產(chǎn)權(quán)法期末試題答案
- 2025版國(guó)家開(kāi)放大學(xué)法律事務(wù)專(zhuān)科《民法學(xué)(2)》期末紙質(zhì)考試案例分析題庫(kù)
- 浙江省杭州市錢(qián)塘區(qū)2023-2024學(xué)年四年級(jí)上學(xué)期語(yǔ)文期末試卷
- 小班班本課程《吃飯這件小事》
- 中國(guó)特色大國(guó)外交和推動(dòng)構(gòu)建人類(lèi)命運(yùn)共同體
- 《風(fēng)電場(chǎng)項(xiàng)目經(jīng)濟(jì)評(píng)價(jià)規(guī)范》(NB-T 31085-2016)
- 巢湖地區(qū)地質(zhì)調(diào)查報(bào)告 最終版[沐風(fēng)文苑]
- 生產(chǎn)計(jì)劃流程內(nèi)容培訓(xùn)工廠生產(chǎn)線管理工作總結(jié)匯報(bào)PPT模板
評(píng)論
0/150
提交評(píng)論