大數(shù)據(jù)智能分析解決方案介紹課件_第1頁
大數(shù)據(jù)智能分析解決方案介紹課件_第2頁
大數(shù)據(jù)智能分析解決方案介紹課件_第3頁
大數(shù)據(jù)智能分析解決方案介紹課件_第4頁
大數(shù)據(jù)智能分析解決方案介紹課件_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

AnalyticsandBigDataonPower方案及案例分享AnalyticsandBigDataonPowe目錄大數(shù)據(jù)與分析概述高性能運算Symphony解決方案DB2BLU助力高性能數(shù)據(jù)集市大數(shù)據(jù)案例分析目錄大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述“上個月在瑞士達沃斯舉行的世界經(jīng)濟論壇上,大數(shù)據(jù)是一個熱點話題。在論壇的一份報告《大數(shù)據(jù),大影響》中聲明:數(shù)據(jù)已成為一類新的經(jīng)濟資產(chǎn),就像貨幣或黃金一樣.“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理卻不能理解這些數(shù)據(jù)的意義.”“越來越多的企業(yè)使用大眾媒體去分析公眾對產(chǎn)品的反饋,例如Facebook或Twitter,也有使用網(wǎng)站資源試著“了解客戶,是什么讓他們選擇他們想要的東西”負責(zé)IBM預(yù)測分析項目的迪阿德瓦說。"“大數(shù)據(jù)已抵達Seton醫(yī)療保健家庭,幸運的是,

通過使用這個分析工具,每年超過200萬復(fù)雜病例的患者得到了幫助…”“數(shù)據(jù)是新型石油”

未開采的石油,沒有什么價值。加工及提煉后,將助力世界。

“…現(xiàn)在,沃森正投入到工作中,消化了數(shù)百萬頁的研究,

結(jié)合最佳的臨床實踐和監(jiān)測結(jié)果,以協(xié)助醫(yī)生治療癌癥患者.”奧斯卡情感測量—一種工具,是由洛杉磯時報、IBM和南加州大學(xué)安創(chuàng)新實驗室共同開發(fā)的—分析意見,“主要針對Twitter上共享的百萬條奧斯卡獎項比賽的公共信息做出的分析意見.”“數(shù)據(jù)是新型石油.”CliveHumby“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理大數(shù)據(jù)來自哪里?

截至2011年末網(wǎng)絡(luò)上有超過20

億人現(xiàn)在有300億個RFID記

(2005年時有13億)全球有46億臺照相手機每年售出數(shù)億臺支持GPS的設(shè)備在2009年有7600萬臺智能儀表……

至2014年將達到2億臺每天有超過3億

活躍用戶每天有超過25

TB

日志數(shù)據(jù)每天有超過1億條消息大數(shù)據(jù)來自哪里?

截至2011年末網(wǎng)絡(luò)上有超過20大數(shù)據(jù)的特點綜合分析覆蓋面越來越寬的種類應(yīng)對日益增長的速度有效地處理日益增長的數(shù)量建立大數(shù)據(jù)來源的真實性三分之一商界領(lǐng)袖感到無法信任那些幫助他們做決策的信息50x35ZB20202010300億RFID傳感器和計數(shù)器世界上80%的數(shù)據(jù)是非結(jié)構(gòu)化的大數(shù)據(jù)的特點綜合分析覆蓋面越來越寬的種類應(yīng)對日益增長的速度有大數(shù)據(jù)會影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切從渠道交互到社交媒體,通過分析所有數(shù)據(jù)來源幫助您了解您的每位客戶零延遲操作分析所有可用的操作數(shù)據(jù)并且實時做出反應(yīng),從而優(yōu)化流程。通過成本效益技術(shù)降低IT成本。在速度和規(guī)模上實現(xiàn)新產(chǎn)品創(chuàng)新捕獲所有來源的反饋,分析龐大的市場環(huán)境,研究大量的數(shù)據(jù),從而推動創(chuàng)新。即時的欺詐和風(fēng)險意識通過分析所有可用數(shù)據(jù)來打造更好的欺詐/風(fēng)險模型,用流數(shù)據(jù)交易分析來實時監(jiān)測欺詐利用儀表化資產(chǎn)監(jiān)控資產(chǎn)通過實時數(shù)據(jù)反饋來預(yù)測和預(yù)防維修問題,并且開發(fā)新產(chǎn)品和新服務(wù)。大數(shù)據(jù)會影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)在大數(shù)據(jù)的新世界中,我們必須更換所有陳舊系統(tǒng)大數(shù)據(jù)就是Hadoop較為陳舊的事務(wù)數(shù)據(jù)已經(jīng)不再重要數(shù)據(jù)倉庫已是昨日黃花大數(shù)據(jù)適合熟知互聯(lián)網(wǎng)的企業(yè)。傳統(tǒng)業(yè)務(wù)與大數(shù)據(jù)毫無關(guān)系我們不具備相應(yīng)的需求、預(yù)算或者技能,因此我們不必為此擔(dān)心人們對于大數(shù)據(jù)的觀點是怎樣的大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)人們對于大數(shù)據(jù)的觀點是怎樣的研究顯示了實施大數(shù)據(jù)的4個階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活動級別而劃分為4個小組時,受調(diào)查者在組織行為上表現(xiàn)出顯著的一致性

受調(diào)查者總數(shù)n=1061由于舍入原因,各個比例總和不等于100%6%部署兩個或更多大數(shù)據(jù)計劃,繼續(xù)應(yīng)用高級分析占總受調(diào)查者的百分比執(zhí)行22%試點大數(shù)據(jù)計劃,以驗證價值和需求占總受調(diào)查者的百分比試點47%基于業(yè)務(wù)需求和挑戰(zhàn)開發(fā)戰(zhàn)略和路線圖占總受調(diào)查者的百分比探索24%專注于知識收集和市場觀察占總受調(diào)查者的百分比學(xué)習(xí)研究顯示了實施大數(shù)據(jù)的4個階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活智慧分析數(shù)據(jù)倉庫大數(shù)據(jù)平臺加速器流

計算數(shù)據(jù)倉庫Hadoop

系統(tǒng)信息整合與治理應(yīng)用開發(fā)發(fā)現(xiàn)系統(tǒng)管理內(nèi)容管理數(shù)據(jù)倉庫流計算Hadoop系統(tǒng)信息整合與治理大數(shù)據(jù)平臺系統(tǒng)、存儲和云業(yè)務(wù)分析內(nèi)容

分析決策管理風(fēng)險

分析績效管理商業(yè)智能與預(yù)測分析大數(shù)據(jù)分析內(nèi)容

分析預(yù)測分析決策管理社交媒體分析分析整合與治理IBM提供了全面的、整合化的大數(shù)據(jù)和分析方法智慧分析數(shù)據(jù)倉庫大數(shù)據(jù)平臺加速器流

計算數(shù)據(jù)Hadoop

Hadoop系統(tǒng)管理多樣化海量數(shù)據(jù)企業(yè)級應(yīng)用增強了開源Hadoop能力流計算用于分析流動的數(shù)據(jù)能夠處理分析多種數(shù)據(jù)–通過高級分析運算符來支持結(jié)構(gòu)化,非結(jié)構(gòu)化,視頻,音頻等數(shù)據(jù)倉庫工作負載均衡的MPP架構(gòu),支持高性能的OLAP及混合型的操作和分析負載數(shù)據(jù)可視化企業(yè)級搜索引擎圖形展現(xiàn)海量分析結(jié)果IBM大數(shù)據(jù)平臺

Hadoop系統(tǒng)IBM大數(shù)據(jù)平臺BAO方案整體技術(shù)架構(gòu)從哪里來?是誰?到哪里去?BAO方案整體技術(shù)架構(gòu)從哪里來?是誰?到哪里去?大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫場景模型策略/計劃平衡計分卡預(yù)測/預(yù)報績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險分析企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)倉庫事實表ETL工具數(shù)據(jù)管理基于門戶的Web頁面固定報表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理

行業(yè)情報

ERPHRSCMCRMStatistics外部數(shù)據(jù)財務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)

設(shè)備狀態(tài)客戶信息分析報告ETL:抽取、轉(zhuǎn)換和加載大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫預(yù)數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫場景模型策略/計劃平衡計分卡預(yù)測/預(yù)報績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險分析企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)倉庫事實表ETL工具數(shù)據(jù)管理基于門戶的Web頁面固定報表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理

行業(yè)情報

ERPHRSCMCRMStatistics外部數(shù)據(jù)財務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)

設(shè)備狀態(tài)客戶信息分析報告ETL:抽取、轉(zhuǎn)換和加載電商、微博、社交網(wǎng)站、平安城市等產(chǎn)生大量社交數(shù)據(jù)、日志、圖片、視音頻數(shù)據(jù)….海量數(shù)據(jù)匯總、統(tǒng)計耗時太長,滿足不了業(yè)務(wù)部門的時效性需求;傳統(tǒng)計算模式遇到的困難某些業(yè)務(wù)部門需要實時數(shù)據(jù)分析,數(shù)據(jù)一邊產(chǎn)生,一邊進行分析,以應(yīng)對市場壓力數(shù)據(jù)產(chǎn)生速度快,數(shù)據(jù)量巨大,種類繁多,非結(jié)構(gòu)化數(shù)據(jù)占了80%以上數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫預(yù)測績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前Hadoop并行計算模式HDFS—HadoopDistributedFileSystem。HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(datablocks)的復(fù)制(replicas),并將它們放置在服務(wù)器群的計算節(jié)點中(computenodes),MapReduce就可以在它們所在的節(jié)點上處理這些數(shù)據(jù)了。MapReduceHadoop并行計算模式HDFS—HadoopDistr大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系

超越和補充傳統(tǒng)數(shù)據(jù)處理技術(shù)實時數(shù)據(jù)處理Internet級別海量數(shù)據(jù)存儲與分析傳統(tǒng)數(shù)據(jù)倉庫In-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResultsInfoSphereBigInsights傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系

超越和補充傳統(tǒng)數(shù)據(jù)處理高性能運算Symphony解決方案高性能運算Symphony解決方案大數(shù)據(jù)常見應(yīng)用場景舉例影像管理(各類單據(jù)的掃描件、地圖影像),非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)存儲和分析(XML文件、文本日志文件)典型應(yīng)用:測繪行業(yè)系統(tǒng)、地圖服務(wù)提供商產(chǎn)品、公安部、銀行/稅務(wù)票據(jù)管理、電信詳單日志分析、各類終端采集數(shù)據(jù)分析……常見痛點:存儲成本/性能,關(guān)系型數(shù)據(jù)庫性能/功能問題。業(yè)務(wù)/產(chǎn)品/服務(wù)創(chuàng)新典型應(yīng)用:CDR分析,輿情分析,LBS,廣告精準投放,移動終端服務(wù)/智慧XX(電表數(shù)據(jù)分析、HIS,電子支付),精益生產(chǎn)、反洗錢……常見痛點:實時性、數(shù)據(jù)來源多樣、數(shù)據(jù)量大計算密集型應(yīng)用高性能計算技術(shù)非常適用典型應(yīng)用:保險精算、銀行風(fēng)險分析、信用卡欺詐分析……常見痛點:實時性、多種數(shù)據(jù)源要形成統(tǒng)一視圖大數(shù)據(jù)常見應(yīng)用場景舉例影像管理(各類單據(jù)的掃描件、地圖影像)大數(shù)據(jù)智能分析解決方案介紹課件IBM大數(shù)據(jù)平臺優(yōu)勢1-高性能國內(nèi)運營商進行的基于Hbase的數(shù)據(jù)查詢測試,取得3~15倍的性能優(yōu)勢國內(nèi)運營商進行的基于Hive的數(shù)據(jù)分析測試,取得9~11倍的性能優(yōu)勢數(shù)據(jù)加載場景每核加載速度為x86核的11.18倍數(shù)據(jù)分析場景每核分析速度為x86核的9.63倍IBM大數(shù)據(jù)平臺優(yōu)勢1-高性能國內(nèi)運營商進行的基于Hbase為什么Symphony更快?JobTracker/TaskTracker用C++/C編寫資源管理和任務(wù)管理解耦.支持300并發(fā)jobtrackers;1000并發(fā)jobs/jobtrackerSOA架構(gòu),共享服務(wù)(reuseJVMacrossmanytasks)使用TCP原語和二進制編碼,取代httpandtext/XMLPushprotocolavoidstasktrackerpullingtasksandthedelaycausedbypullinginterval專利的asynchronouspersistencyprotocol以保證可靠性和性能Note:HadoopResultswerepublishedbyClouderaatHadoopWorldeventDec,2011.Hadoopjarexample.jarsleep–mt1–rt1–m5000–r1Testedon10hosts21為什么Symphony更快?JobTracker/TaskIBM大數(shù)據(jù)平臺優(yōu)勢2-高可靠從硬件、文件系統(tǒng)和分布式計算框架所有層面采用高可靠設(shè)計架構(gòu),杜絕基于開源產(chǎn)品的不可靠問題Symphony計算框架:經(jīng)過接近20年全球成功企業(yè)應(yīng)用考驗的高可靠性框架,不僅本身可靠性高,不存在單點故障,而且通過對下層硬件資源的先進管理功能,實現(xiàn)物理資源與邏輯資源的解耦,實現(xiàn)資源的動態(tài)加減和黑名單等機制,徹底解決硬件故障的透明failover問題GPFS-FPO文件系統(tǒng):經(jīng)過20多年全球無數(shù)應(yīng)用驗證的分布式文件系統(tǒng),成熟、可靠,GPFS-FPO采用去中心化設(shè)計(元數(shù)據(jù)分散存儲),天生不存在NameNode的單點故障和可靠性瓶頸問題PowerLinux在RAS特性方面全面領(lǐng)先X86平臺IBM大數(shù)據(jù)平臺優(yōu)勢2-高可靠從硬件、文件系統(tǒng)和分布式計算框IBM大數(shù)據(jù)平臺優(yōu)勢3-好維護IBM大數(shù)據(jù)平臺優(yōu)勢3-好維護IBM大數(shù)據(jù)平臺優(yōu)勢4-高度兼容性Symphony和GPFS具有最廣泛的兼容性,只要是基于Hadoop架構(gòu)標準接口開發(fā)的軟件都可以100%兼容,如HadoopHbase,Pig,Hive,JavaMR,Oozie等各種知名的Hadoop開源方案不僅兼容開源方案,還支持各種商業(yè)分析軟件,如SAS、SPSS、Murex,Algorithmics,Sugard,Calypso,TillingHast等

兼容各種Java、R、C/C++等各種開發(fā)語言,兼容各種文件系統(tǒng)及數(shù)據(jù)庫,如HDFS,GPFS-FPO,RDMBS,MPP等,兼容Linux、Windows、AIX等各種OS平臺,兼容X86、Power等各種硬件平臺,支持虛擬機和物理機混合組網(wǎng)使用IBM大數(shù)據(jù)平臺優(yōu)勢4-高度兼容性Symphony和GPFSIBM大數(shù)據(jù)平臺優(yōu)勢5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁有完全的技術(shù)研發(fā)與支持力量全球26個研發(fā)和銷售機構(gòu),300+的研發(fā)團隊分布在北京和西安兩地強大的QA和服務(wù)支持團隊,強大的本地售后支持力量專業(yè)的定制化開發(fā)團隊業(yè)界公認的大型網(wǎng)格/工作負載管理的領(lǐng)導(dǎo)者全方位的技術(shù)支持服務(wù)評估規(guī)劃與咨詢服務(wù)建設(shè)設(shè)計與實施服務(wù)管理管理與維護支持服務(wù)IBM大數(shù)據(jù)平臺優(yōu)勢5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁IBM大數(shù)據(jù)平臺優(yōu)勢6-高效可靠文件系統(tǒng)IBM大數(shù)據(jù)平臺優(yōu)勢6-高效可靠文件系統(tǒng)GPFS-FPO替換HDFS,更可靠、更高效對于需要隨機I/O的SQL查詢,JAQL查詢等對于需要線性排序的sort操作來說BigInsights提供2至3倍與開源Hadoop技術(shù)的性能文件索引等查找效率17倍于開源Hadoop技術(shù),得益于ClientCache能力Hadoop

Indexing(HDFS)Database

Upload(ext3)WebService

LayerCopyFetchHDFS:

Extracopyoverheadandnetworkfetch,separateclustersforanalyticsanddatabaseHadoopIndexing

+DatabaseUpload(GPFS)WebService

LayerCacheGPFS:

Singleclusterforanalyticsanddatabase,nocopyingrequired,cachingforweblayerWorkloadIsolationProvendataintegrityReplicatedmetadataservicesYahookeeps3copiesof3versionsofHDFSbecauseofunknowndataintegrity[1]QuantcastdeletesfilesonceHDFSis50%full[2][1]CareandFeedingofHadoopClusters,MarcNicosia,Usenix2009

[2]TheKomosDistributedFileSystem,SriramRao,QuantcastInc.GPFS-FPOKeytechnologyLocalityawarenessWriteAffinityMetablocksPipelinedreplicationDistributedrecovery超過20年發(fā)展的成熟的企業(yè)級文件系統(tǒng)vsHDFS

4年發(fā)展歷史IBM企業(yè)級支持的商用軟件vsHDFS開源軟件POSIX兼容,同時支持傳統(tǒng)文件訪問和Hadoop應(yīng)用vsHDFS不兼容POSIX內(nèi)建的安全特性和高可用性(集群管理節(jié)點e.g.)vsHDFSnamenode單點跨數(shù)據(jù)中心復(fù)制容災(zāi)vsHDFS無遠程復(fù)制GPFS-FPO替換HDFS,更可靠、更高效對于需要隨機I/GPFS-FPO去中心化設(shè)計,高性能與高可靠GPFS-FPO去中心化設(shè)計,高性能與高可靠可擴展的IBMSystemsConfiguration初始配置半機柜配置1stThru4th

滿機柜附加滿機柜UsableStorageUpto108TBUpto324TBUpto684TBperrackUpto720TBperrackUserspaceUpto36TBUpto108TBUpto228TBperrackUpto240TBperrack

可擴展得多個入門方式從很小的規(guī)模起步逐步擴大

支持多種工作負載的靈活的

CPU,內(nèi)存,存儲和網(wǎng)絡(luò)

選項可擴展的IBMSystemsConfiguration初始IBMPowerLinux7R1–便捷、高效的入門級產(chǎn)品可靠設(shè)計Singlesocket,2Urack8-core3.55GHzPOWER7processorUpto128GBmemorywith8/16/32GBDIMMs

First32GBincludedinbasepackage高擴展性和強大虛擬化能力Upto24SFFharddrivesper2Ustorageexpansiondrawer(L1S)PowerVM?exploitingintegratedhypervisor8246-L1C/8246-L1SGAonAugustVirtualization&ManagementOperatingSystemsLinuxonlyPOWER7Onesocket,2UrackIBMPowerLinux7R1–便捷、高效的入門級產(chǎn)IBMPowerLinux7R2-高性能、靈活配置OperatingSystemsVirtualization&Management

高系統(tǒng)密度TwoSocket,2URack16-cores3.3GHzand3.55GHzPOWER7processor256GBmaximummemorywith2/4/8GBDIMMs-First32GBincludedin3.55GHzprocessorbasepackage-First64GBincludedin3.3GHzprocessorbasepackageUpto207R2sinasingle42Urack

強大的I/O和硬盤擴展性Upto24SFFharddrivesper2UstorageexpansiondrawerPCIe(Gen1)ExpansionDrawers–4U–twoflavors(L2Sonly)

高效的虛擬化能力PowerVM?exploitingintegratedhypervisorSupportupto10VMs/core,160VMs/serverLinuxonlyPOWER7Twosocket,2Urack8246-L2C/8246-L2SGAonJuneIBMPowerLinux7R2-高性能、靈活配置OIBMStorwizeV7000–在單一系統(tǒng)整合了塊和文件存儲自動存儲分層

基于實時應(yīng)用分析模式的先進的技術(shù),可以自動在存儲層之間遷移數(shù)據(jù)新一代圖形化界面(GUI)

易于使用的數(shù)據(jù)管理圖形化用戶界面,擁有極其簡便的“點選式”系統(tǒng)管理功能性能

針對在線備份、測試和數(shù)據(jù)挖掘,支持更快和更高效的數(shù)據(jù)拷貝VirtualizedStorageSystem300%PerformanceImprovement

Automaticmigrationtohigh-performingSSD’sIBMStorwizeV7000–在單一系統(tǒng)整合了塊XIV系列為應(yīng)用程序提供頂級的性能OracleDataWarehouse(IOPS)OracleDHWWorkloadWatchthevideo:XIVGen3“StraightTalkonPerformance”SASBusinessAnalyticsWorkloadAnalyticsreportscreatedXIV系列為應(yīng)用程序提供頂級的性能OracleDataFlash無處不在的優(yōu)化和調(diào)節(jié)是解決方案的主題Flash將被同時部署在整體架構(gòu)的每一層存儲子系統(tǒng)網(wǎng)絡(luò)設(shè)備PCIe設(shè)備ApplicationServerApplicationServerStoragesystemNetworkStoragebasedRemotereplicationSSDSSDVMVMVMVMVMVMEphemeralStorageHighperf,workingsetDataMoverEasyTierCoordinationDRAMSSDWhy?性能敏感的應(yīng)用程序HDD的性能優(yōu)勢Flash超越內(nèi)存的性價比優(yōu)勢分離的緩存和分層的協(xié)調(diào)是至關(guān)重要的效率數(shù)據(jù)完整性/緩存一致性DRAMFlash無處不在的優(yōu)化和調(diào)節(jié)是解決方案的主題Flash將DB2BLU助力高性能數(shù)據(jù)集市DB2BLU助力高性能數(shù)據(jù)集市使用DB2BLUonPower構(gòu)建高效內(nèi)存數(shù)據(jù)集市

DB2BLU是一種能極大提高OLAP業(yè)務(wù)性能的新技術(shù)DB2BLU為DB2數(shù)據(jù)庫添加列式存儲功能充分利用CPU架構(gòu)的新運行時技術(shù),直接內(nèi)置在DB2內(nèi)核中高達10倍的壓縮比極大提升OLAP查詢性能DB2BLU利用SIMD處理指令獲得更好的性能使用DB2BLUonPower構(gòu)建高效內(nèi)存數(shù)據(jù)集市DCognosBI,帶有BLUAcceleration多平臺軟件分析

數(shù)據(jù)集市

(BLU表)Oracle或Teradata倉庫的性能較差創(chuàng)建表,加載并啟動!即時性能提高處理TB級數(shù)據(jù)無需創(chuàng)建和調(diào)優(yōu)索引/聚合

多平臺軟件的靈活性CognosBI

,帶有BLUAccelerationDB2BLUonPower用例1

–企業(yè)數(shù)據(jù)倉庫卸載

數(shù)據(jù)集市加速EDW應(yīng)用程序OLAP應(yīng)用程序輕松創(chuàng)建和加載

BLUAcceleration內(nèi)存中集市CognosBI多平臺軟件分析

數(shù)據(jù)集市

(BLU表多平臺軟件分析

數(shù)據(jù)集市

(BLU表)ERP或其他事務(wù)性系統(tǒng)輕松創(chuàng)建和加載

BLUAcceleration內(nèi)存中集市事務(wù)性

數(shù)據(jù)庫DB2BLUonPower用例2

–分析數(shù)據(jù)集市

從事務(wù)性數(shù)據(jù)庫創(chuàng)建表,加載并啟動!即時性能提高處理TB級數(shù)據(jù)無需創(chuàng)建和調(diào)優(yōu)索引/聚合

多平臺軟件的靈活性業(yè)務(wù)線分析數(shù)據(jù)集市多平臺軟件分析

數(shù)據(jù)集市

(BLU表)ERP或其他事務(wù)大數(shù)據(jù)智能分析解決方案介紹課件

運營只需加載數(shù)據(jù)就可以啟動像所宣稱的那樣易于評估和執(zhí)行

BI開發(fā)人員和DBA-更快地交付成果無需配置或物理建模無需索引或調(diào)優(yōu)-開箱即用的性能數(shù)據(jù)架構(gòu)師/DBA可專注于業(yè)務(wù)價值,而不是物理設(shè)計

ETL開發(fā)人員無需聚合各個表-更簡單的ETL邏輯更快的加載和轉(zhuǎn)換速度

業(yè)務(wù)分析師真正的即席查詢-無調(diào)優(yōu),無索引針對大型數(shù)據(jù)集提出復(fù)雜的查詢DB2BLU七大特點之一

:簡單易用運營DB2BLU七大特點之一:簡單易用?2013IBMCorporationDB2BLU七大特點之二

:卓越的壓縮

更少的數(shù)據(jù)存儲空間同未壓縮數(shù)據(jù)比較,平均可以節(jié)省95%的數(shù)據(jù)存儲空間只需要存儲表數(shù)據(jù),不需要額外空間來存儲索引等其它類型數(shù)據(jù)應(yīng)用了多種壓縮技術(shù)所有操作都在壓縮數(shù)據(jù)上進行針對不同數(shù)據(jù)類型應(yīng)用最優(yōu)的壓縮算法更多的細節(jié)參考后面的內(nèi)容?2013IBMCorporationDB2BLU七42沒用SIMD技術(shù)的CPU每條指令職能處理一個數(shù)據(jù)DB2BLU七大特點之三

:充分利用CPU的SIMD特性

利用SingleInstructionMultipleData(SIMD)特性增加性能DB2BLU能夠在一個指令中同時對多個數(shù)據(jù)進行操作包括比較,Join,分組和數(shù)學(xué)計算Compare

=2005Compare

=2005Compare

=20052001指令結(jié)果數(shù)據(jù)200220032004200520052006200720082009201020112012Processor

CoreCompare

=20052001指令結(jié)果數(shù)據(jù)200220032004200520062007Compare

=2005Compare

=2005Compare

=2005Compare

=2005Compare

=2005Compare

=20052005Processor

Core42沒用SIMD技術(shù)的CPU每條指令職能處理一個數(shù)據(jù)DB2DB2BLU七大特點之四

:內(nèi)核友好的并行化

更加關(guān)注于服務(wù)器的硬件設(shè)計因素DB2

BLU中對表的查詢將自動以并行化的方式處理將CPU緩存,高速緩存塊(cacheline)的效率最大化QUADCORECPUQUADCORECPUQUADCORECPUQUADCORECPUDB2BLU七大特點之四:內(nèi)核友好的并行化

更加關(guān)?2013IBMCorporation44DB2BLU七大特點之五

:列式存儲

?2013IBMCorporation44?2013IBMCorporation44減少I/O只處理查詢關(guān)注的列中的數(shù)據(jù)直接對相關(guān)列進行運算

所有的運算,Join僅對關(guān)注列進行在必須返回結(jié)果集前,數(shù)據(jù)將不會組合成行的形式提高內(nèi)存中的數(shù)據(jù)密度列中的數(shù)據(jù)在內(nèi)存和存儲中始終保持著壓縮的形態(tài)

卓越的壓縮提供更高的壓縮比10:1(DB2BLU)高效的緩存數(shù)據(jù)被組合成利于緩存和寄存器處理的格式?2013IBMCorporation44DB2BL?2013IBMCorporationDB2BLU七大特點之六

:優(yōu)化內(nèi)存/緩存管理

?2013IBMCorporation?2013IBMCorporation全新的緩存算法使內(nèi)存使用更高效更高的內(nèi)存命中率新算法盡量保證熱點數(shù)據(jù)保存在內(nèi)存中數(shù)據(jù)可以大于內(nèi)存空間不同于常見的內(nèi)存數(shù)據(jù)庫,數(shù)據(jù)不必完全在內(nèi)存中優(yōu)化以減少內(nèi)存和存儲的I/O交互

RAMDISKSNearoptimalcaching?2013IBMCorporationDB2BLU七?2013IBMCorporationDB2BLU七大特點之七

:數(shù)據(jù)跳過

?2013IBMCorporation自動監(jiān)測一段數(shù)據(jù)是否符合查詢的忽略條件能夠節(jié)省大量的I/O,內(nèi)存和CPU資源不需要數(shù)據(jù)庫管理員進行任何定義

?2013IBMCorporationDB2BLU七大數(shù)據(jù)案例分析大數(shù)據(jù)案例分析大數(shù)據(jù)實施案例:某國外大型汽車制造企業(yè)大數(shù)據(jù)平臺大數(shù)據(jù)實施案例:某國外大型汽車制造企業(yè)大數(shù)據(jù)平臺某市智能交通項目某市智能交通項目50IBMPlatformComputing支持多種不同金融應(yīng)用類型工作負載MurexMicrosoftExcelSungardFrontArena,AdaptivAlgorithmicsAlgoRiskMillimanHedge,AlfaPolysysMoodys/FermatCalypsoSASEnterpriseMiner/DataMinerSophis/MisysRisqueGGYAxisOpenlinkKondor+RevolutionRISV應(yīng)用軟件風(fēng)險估值VaR(valueatrisk)信用值調(diào)整CVA(creditvalueadjustmentsforCCR)資產(chǎn)負債建模ALM(assetliabilitymodeling)靈敏度分析信用等級評分抵押分析可變年金建模模型回溯測試

投資組合壓力測試數(shù)據(jù)的提取,轉(zhuǎn)換和加載ETL策略提取Strategymining精算分析50IBMPlatformComputing支持多種不在愛Citi分析網(wǎng)格Citi–計算和數(shù)據(jù)結(jié)合型網(wǎng)格系統(tǒng),主要為風(fēng)險分析在一個共享的網(wǎng)格資源里運行著200

以上不同的

BI

和零售分析應(yīng)用

全球動態(tài)共享的40,000

cores能夠持續(xù)維持70%以上的利用率超強的管理效率–管理者與主機的比為

1:400作業(yè)吞吐量–400,000,000作業(yè)/天14

條不同的業(yè)務(wù)線共享著全球的HPC資源為每個商業(yè)業(yè)務(wù)單元確保SLA

s時間指標,實現(xiàn)廣泛的資源共享4個數(shù)據(jù)中心包含了異構(gòu)的Linux&Windows主機,一處在倫敦,一處在香港,還有兩處在美國

處理國內(nèi)增長的風(fēng)險,定價應(yīng)用和其他的商務(wù)應(yīng)用,與SAS,Murex等集成.異構(gòu)的工作內(nèi)容(批處理,SOA,計劃部署MapReduce)自定義服務(wù),報表和退款實時的監(jiān)控和管理主機,所有全球資產(chǎn)的完全可視化針對整個企業(yè)相關(guān)應(yīng)用和風(fēng)險控制的全球資源分配方案在數(shù)據(jù)中心和功能域基礎(chǔ)上的有關(guān)LOBs和應(yīng)用的彈性的資源分配模式橫跨整個地域的有關(guān)LOBs和應(yīng)用的全球資源共享視圖案例分析–花旗銀行在愛Citi分析網(wǎng)格Citi–計算和數(shù)據(jù)結(jié)合型網(wǎng)格系統(tǒng),根據(jù)銀監(jiān)會的要求,國內(nèi)商業(yè)銀行需要2015年前滿足中國版巴塞爾協(xié)議III對銀行業(yè)風(fēng)險控制的要求,國內(nèi)目前已經(jīng)有多家銀行使用Algo風(fēng)險管理模塊流動性風(fēng)險管理模型屬于計算密集型,RiskWatch階段占任務(wù)的95%以上,可以通過Symphony將RW作業(yè)并行化隨著銀行業(yè)務(wù)及數(shù)據(jù)量的增加,提高計算效率只需要增加Symphony的計算節(jié)點數(shù)目,可擴展性強銀行業(yè)有很多計算模型都可以通過Symphony來解決問題,比如MOSES,CALYPSO,RMATLAB,RLanguage業(yè)務(wù)場景FinancialRisks

1.選擇感興趣的地理區(qū)域客戶挑戰(zhàn):目前基于Algo流動性風(fēng)險分析系統(tǒng)風(fēng)險管理應(yīng)用每周運行一次,每次計算需要100+小時,不能滿足未來應(yīng)用擴展和可靠性需求,不能及時得出風(fēng)險分析結(jié)果XX銀行風(fēng)險管理系統(tǒng)-業(yè)務(wù)描述1/3根據(jù)銀監(jiān)會的要求,國內(nèi)商業(yè)銀行需要2015年前滿足中國版巴塞AlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceSymComputeHosts:6nodes*32cores=192coresSymMasterSchedule,Monitor,ManagementSymMasterCandidateShareStorageSchedule,Monitor,ManagementSchedule,Monitor,ManagementAlgoEngineSymServiceScaleout53AlgoBatchCITICRWAnalysisAlgoEngineClientRequestSingleComputing“使用了PlatformSymphony軟件,計算機資源的利用率大幅提高,Algo計算時間大幅縮短,達到了預(yù)期的技術(shù)指標,且Symphony軟件有豐富的API接口,易于集成其他軟件,為以后的業(yè)務(wù)拓展和升級留下了巨大空間。”--客戶證言方案優(yōu)勢:單節(jié)點情況下客戶的任務(wù)需要100+小時完成,使用Symphony后業(yè)務(wù)計算可以在10小時以內(nèi)完成,速度提高10倍以上;例如:晚上運行風(fēng)險分析任務(wù),次日凌晨可得到分析結(jié)果,滿足業(yè)務(wù)需求;可靠性大大提高,單一節(jié)點故障不影響整體系統(tǒng)運行;銀行業(yè)務(wù)數(shù)據(jù)增加、業(yè)務(wù)計算時間要求縮短,可以通過增加Symphony的節(jié)點來完成銀行風(fēng)險管理系統(tǒng)-方案結(jié)構(gòu)2/3AlgoEngineSymServiceAlgoEngCustomerCaseandPainPointSolutionsResultDemoPointsClientuseAlgofortheriskmanagement.It’sbasedonC/SarchitecturerunningSinglenode.Withthebusinessgrowth,theprocesscyclereached100+hoursperweek.Managementcouldnotgetthereportintheabusinessday.SymphonyScal-outtheAlgoapplicationfromsinglenodeto192nodes.SymphonyactingasmiddlewarerolesgettheAlgoclientinputandschedulethetaskinadistributedgrid.Thetaskscanbeprocessedinthegridconcurrently.SymphonyresponsetoAlgoclientoncethetaskfinished.Showthesingleserverprocessandsayitcannotbefinishedin10hoursandstopit.ShowthesimilarapplicationprocesswithsamedatainSymphonyGridandfinishedin10hours.SeetaskprogressontheGUISeethehostmanagerfromGUISeetheCPU,I/OandshowthefinishtimeClientcangettheresultin10hours.ThetimecanbecontrolledbyaddingmoreserverintheAlgogridwithbusinessgrowthandprocesstimeispredicable.Besides,Symphonyactingasgeneralmiddlewarecanscale-outapplicationlikeMurex,Moses,Calypso,Matlab,Retc.銀行風(fēng)險管理系統(tǒng)-案例總結(jié)3/3CustomerCaseandPainPointSo某市人民檢察院某市人民檢察院客戶行為分析-業(yè)務(wù)流程說明北京電信互聯(lián)網(wǎng)行為標簽系統(tǒng),是匯聚電信用戶通信、終端等上網(wǎng)數(shù)據(jù),解析用戶移動互聯(lián)網(wǎng)流量行為,全角度刻畫用戶,為用戶畫像,細分客戶群的分析系統(tǒng),其輸入數(shù)據(jù)為北京電信用戶DPI上網(wǎng)基礎(chǔ)數(shù)據(jù),輸出為用戶行為分析統(tǒng)計報表。主要功能模塊APP數(shù)據(jù)采集:根據(jù)目前各市場及各省手機應(yīng)用下載情況,選擇建立標準APP庫。站點信息采集:站點信息定期爬取及更新,建立標準URL庫用戶行為解析識別:將用戶的上網(wǎng)訪問信息與app庫進行比對匹配,對用戶日志進行處理,解析用戶下載和使用應(yīng)用產(chǎn)生的記錄分析統(tǒng)計輸出:根據(jù)用戶的應(yīng)用下載、使用行為,輸出滿足客戶需求的各項報表,并上傳數(shù)據(jù)??蛻粜袨榉治?業(yè)務(wù)流程說明北京電信互聯(lián)網(wǎng)行為標簽系統(tǒng),是大數(shù)據(jù)智能分析解決方案介紹課件性能案例:(來自文獻:CloudBurst:highlysensitivereadmappingwithMapReduce):輸入數(shù)據(jù):測序數(shù)據(jù)7.06minllion條36bpreads,人基因組genome(2.87G)軟件環(huán)境:Hadoop0.15.3,CloudBurst硬件環(huán)境:12nodes,24cores(3.2GHzIntelXeon),250G硬盤測試結(jié)果:如下圖,橫坐標為reads數(shù),縱坐標為運行時間,“0、1、2、3、4”為容錯數(shù)。

DNA測序分析平臺:Cloudburst數(shù)據(jù)過濾插入/缺失識別基因組學(xué)-SNP分析流程FastQ-Progressing(MR)FastQC(Single)Crossbow(MR)CloudBurst(MR)Soap2(Single)Crossbow(MR)Soapsnp(Single)融合基因發(fā)現(xiàn)結(jié)構(gòu)變異發(fā)現(xiàn)全基因組關(guān)聯(lián)研究BlueSNP(MR)輸入文件

用戶期望和挑戰(zhàn):性能案例中的數(shù)據(jù)量(7.06minllion條36bpreads,人基因組genome,2.87G)在日常分析的數(shù)據(jù)量中算一般大小。一般對兩個生物學(xué)樣品進行對照分析,每個樣品進行三次重復(fù),產(chǎn)生6倍于性能案例中的數(shù)據(jù)量。而CloudBurst所做的map工作,僅為分析流程中的一步,用戶希望盡快得到結(jié)果進行下一步工作,故6倍數(shù)據(jù)的期望運行時間為2-3h。reads比對SNP識別質(zhì)量控制DNA測序:確定序列中堿基的排列順序,這項工作不僅可以用于物種間的比較研究,也有助于發(fā)現(xiàn)特定基因的功能和性狀表現(xiàn),尤其對第三代遺傳標志(單核苷酸多態(tài)性,SNP)研究有極大的意義?;蚪M測序不但幫助人們探索生命起源和進化的奧秘,也會促進未來的個體化醫(yī)療、生物制藥研發(fā)、農(nóng)植物培養(yǎng)等各種致力于人類福祉的實際應(yīng)用。41h27h13hCloudBurst是第一個可以在Hadoop分布式框架下運行的高通量測序片段定位算法.性能案例:(來自文獻:CloudBurst:highlys計算節(jié)點實時分析平臺Symphony客戶端大數(shù)據(jù)平臺(離線分析)主節(jié)點SSMSymphony計算集群信息入庫卡口流動車輛信息主節(jié)點SSM(備)1.主節(jié)點SSM讀取黑名單數(shù)據(jù)以CommonData形式下發(fā)到各個計算節(jié)點2.Symphony客戶端讀取Message后形成Task提交到集群主節(jié)點3.主節(jié)點SSM分發(fā)接收到的Task到各個計算節(jié)點4.計算節(jié)點運行SI獲取Task內(nèi)容根據(jù)黑名單進行最終的比對分析5.計算節(jié)點將比對成功的記錄發(fā)送到實時預(yù)警平臺6.計算節(jié)點將數(shù)據(jù)持久化到大數(shù)據(jù)平臺實時預(yù)警平臺(110布控)比對結(jié)果計算節(jié)點計算節(jié)點計算節(jié)點分布式集群上做黑名單比對黑名單更新黑名單計算節(jié)點實時分析平臺Symphony大數(shù)據(jù)平臺主節(jié)點SympIBMConfidential指紋、人臉對比系統(tǒng)P7R2P7R2P7R2P7R2Sym主節(jié)點(任務(wù)調(diào)度)內(nèi)存網(wǎng)格(200G人臉特征庫)Sym客戶端人臉樣本200T人臉圖像庫Hbase存儲MapReduce特征轉(zhuǎn)化、加載SOA調(diào)度,并行對比優(yōu)勢(相對傳統(tǒng)數(shù)據(jù)庫方案):海量分布式存儲線性擴展并行對比快速查詢IBMConfidential指紋、人臉對比系統(tǒng)P7R2SXX銀行統(tǒng)一考核數(shù)據(jù)平臺介紹統(tǒng)一考核平臺數(shù)據(jù)庫核心系統(tǒng)票據(jù)系統(tǒng)個貸系統(tǒng)...基金系統(tǒng)MDS考核平臺數(shù)據(jù)倉庫ETL廣州分行平臺數(shù)據(jù)集市南京分行平臺數(shù)據(jù)集市下發(fā)XX分行平臺數(shù)據(jù)集市廣州分行考核流程廣州分行考核數(shù)據(jù)集市南京分行考核數(shù)據(jù)集市南京分行考核流程XX分行考核數(shù)據(jù)集市XX分行考核流程績效及報表查詢績效及報表查詢績效及報表查詢集中存放的全行數(shù)據(jù)倉庫數(shù)據(jù)源分行數(shù)據(jù)集市客戶端?2013IBMCorporationXX銀行統(tǒng)一考核數(shù)據(jù)平臺介紹統(tǒng)一考核平臺數(shù)據(jù)庫核心系統(tǒng)票據(jù)系統(tǒng)一考核數(shù)據(jù)平臺當(dāng)前痛點痛點痛點:各分行考核流程負責(zé)從分行的數(shù)據(jù)集市生成各分行考核數(shù)據(jù)集市。這個過程主要包含多表的關(guān)聯(lián)操作。隨著數(shù)據(jù)量大增大,流程處理的時間也越來越大。執(zhí)行時間過長,對業(yè)務(wù)考核產(chǎn)生影響,業(yè)務(wù)人員經(jīng)常無法及時查詢到自己的考核績效。流程由分行自行開發(fā),總行DBA無法過多介入來保證性能。針對目前平臺痛點的2種可能優(yōu)化方法:優(yōu)化現(xiàn)有的分行的行存儲數(shù)據(jù)集市。利用DB2BLU來管理分行數(shù)據(jù)集市分行考核流程?2013IBMCorporation統(tǒng)一考核數(shù)據(jù)平臺當(dāng)前痛點痛點痛點:各分行考核流程負責(zé)從分行的優(yōu)化方案結(jié)果對比建立額外的索引使用rangepartition分區(qū)表采用頁壓縮技術(shù)收集統(tǒng)計信息調(diào)優(yōu)內(nèi)存配置方案1充分優(yōu)化的行數(shù)據(jù)庫方案2DB2BLUDB2_WORKLOAD=ANALYTICS建庫,加載數(shù)據(jù)運行VSDB2BLU無需繁雜的調(diào)優(yōu)過程取得了19倍的性能提升19X?2013IBMCorporation優(yōu)化方案結(jié)果對比建立額外的索引方案1充分優(yōu)化的行數(shù)據(jù)庫方案

謝謝!謝謝!AnalyticsandBigDataonPower方案及案例分享AnalyticsandBigDataonPowe目錄大數(shù)據(jù)與分析概述高性能運算Symphony解決方案DB2BLU助力高性能數(shù)據(jù)集市大數(shù)據(jù)案例分析目錄大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述“上個月在瑞士達沃斯舉行的世界經(jīng)濟論壇上,大數(shù)據(jù)是一個熱點話題。在論壇的一份報告《大數(shù)據(jù),大影響》中聲明:數(shù)據(jù)已成為一類新的經(jīng)濟資產(chǎn),就像貨幣或黃金一樣.“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理卻不能理解這些數(shù)據(jù)的意義.”“越來越多的企業(yè)使用大眾媒體去分析公眾對產(chǎn)品的反饋,例如Facebook或Twitter,也有使用網(wǎng)站資源試著“了解客戶,是什么讓他們選擇他們想要的東西”負責(zé)IBM預(yù)測分析項目的迪阿德瓦說。"“大數(shù)據(jù)已抵達Seton醫(yī)療保健家庭,幸運的是,

通過使用這個分析工具,每年超過200萬復(fù)雜病例的患者得到了幫助…”“數(shù)據(jù)是新型石油”

未開采的石油,沒有什么價值。加工及提煉后,將助力世界。

“…現(xiàn)在,沃森正投入到工作中,消化了數(shù)百萬頁的研究,

結(jié)合最佳的臨床實踐和監(jiān)測結(jié)果,以協(xié)助醫(yī)生治療癌癥患者.”奧斯卡情感測量—一種工具,是由洛杉磯時報、IBM和南加州大學(xué)安創(chuàng)新實驗室共同開發(fā)的—分析意見,“主要針對Twitter上共享的百萬條奧斯卡獎項比賽的公共信息做出的分析意見.”“數(shù)據(jù)是新型石油.”CliveHumby“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理大數(shù)據(jù)來自哪里?

截至2011年末網(wǎng)絡(luò)上有超過20

億人現(xiàn)在有300億個RFID記

(2005年時有13億)全球有46億臺照相手機每年售出數(shù)億臺支持GPS的設(shè)備在2009年有7600萬臺智能儀表……

至2014年將達到2億臺每天有超過3億

活躍用戶每天有超過25

TB

日志數(shù)據(jù)每天有超過1億條消息大數(shù)據(jù)來自哪里?

截至2011年末網(wǎng)絡(luò)上有超過20大數(shù)據(jù)的特點綜合分析覆蓋面越來越寬的種類應(yīng)對日益增長的速度有效地處理日益增長的數(shù)量建立大數(shù)據(jù)來源的真實性三分之一商界領(lǐng)袖感到無法信任那些幫助他們做決策的信息50x35ZB20202010300億RFID傳感器和計數(shù)器世界上80%的數(shù)據(jù)是非結(jié)構(gòu)化的大數(shù)據(jù)的特點綜合分析覆蓋面越來越寬的種類應(yīng)對日益增長的速度有大數(shù)據(jù)會影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切從渠道交互到社交媒體,通過分析所有數(shù)據(jù)來源幫助您了解您的每位客戶零延遲操作分析所有可用的操作數(shù)據(jù)并且實時做出反應(yīng),從而優(yōu)化流程。通過成本效益技術(shù)降低IT成本。在速度和規(guī)模上實現(xiàn)新產(chǎn)品創(chuàng)新捕獲所有來源的反饋,分析龐大的市場環(huán)境,研究大量的數(shù)據(jù),從而推動創(chuàng)新。即時的欺詐和風(fēng)險意識通過分析所有可用數(shù)據(jù)來打造更好的欺詐/風(fēng)險模型,用流數(shù)據(jù)交易分析來實時監(jiān)測欺詐利用儀表化資產(chǎn)監(jiān)控資產(chǎn)通過實時數(shù)據(jù)反饋來預(yù)測和預(yù)防維修問題,并且開發(fā)新產(chǎn)品和新服務(wù)。大數(shù)據(jù)會影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)在大數(shù)據(jù)的新世界中,我們必須更換所有陳舊系統(tǒng)大數(shù)據(jù)就是Hadoop較為陳舊的事務(wù)數(shù)據(jù)已經(jīng)不再重要數(shù)據(jù)倉庫已是昨日黃花大數(shù)據(jù)適合熟知互聯(lián)網(wǎng)的企業(yè)。傳統(tǒng)業(yè)務(wù)與大數(shù)據(jù)毫無關(guān)系我們不具備相應(yīng)的需求、預(yù)算或者技能,因此我們不必為此擔(dān)心人們對于大數(shù)據(jù)的觀點是怎樣的大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)人們對于大數(shù)據(jù)的觀點是怎樣的研究顯示了實施大數(shù)據(jù)的4個階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活動級別而劃分為4個小組時,受調(diào)查者在組織行為上表現(xiàn)出顯著的一致性

受調(diào)查者總數(shù)n=1061由于舍入原因,各個比例總和不等于100%6%部署兩個或更多大數(shù)據(jù)計劃,繼續(xù)應(yīng)用高級分析占總受調(diào)查者的百分比執(zhí)行22%試點大數(shù)據(jù)計劃,以驗證價值和需求占總受調(diào)查者的百分比試點47%基于業(yè)務(wù)需求和挑戰(zhàn)開發(fā)戰(zhàn)略和路線圖占總受調(diào)查者的百分比探索24%專注于知識收集和市場觀察占總受調(diào)查者的百分比學(xué)習(xí)研究顯示了實施大數(shù)據(jù)的4個階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活智慧分析數(shù)據(jù)倉庫大數(shù)據(jù)平臺加速器流

計算數(shù)據(jù)倉庫Hadoop

系統(tǒng)信息整合與治理應(yīng)用開發(fā)發(fā)現(xiàn)系統(tǒng)管理內(nèi)容管理數(shù)據(jù)倉庫流計算Hadoop系統(tǒng)信息整合與治理大數(shù)據(jù)平臺系統(tǒng)、存儲和云業(yè)務(wù)分析內(nèi)容

分析決策管理風(fēng)險

分析績效管理商業(yè)智能與預(yù)測分析大數(shù)據(jù)分析內(nèi)容

分析預(yù)測分析決策管理社交媒體分析分析整合與治理IBM提供了全面的、整合化的大數(shù)據(jù)和分析方法智慧分析數(shù)據(jù)倉庫大數(shù)據(jù)平臺加速器流

計算數(shù)據(jù)Hadoop

Hadoop系統(tǒng)管理多樣化海量數(shù)據(jù)企業(yè)級應(yīng)用增強了開源Hadoop能力流計算用于分析流動的數(shù)據(jù)能夠處理分析多種數(shù)據(jù)–通過高級分析運算符來支持結(jié)構(gòu)化,非結(jié)構(gòu)化,視頻,音頻等數(shù)據(jù)倉庫工作負載均衡的MPP架構(gòu),支持高性能的OLAP及混合型的操作和分析負載數(shù)據(jù)可視化企業(yè)級搜索引擎圖形展現(xiàn)海量分析結(jié)果IBM大數(shù)據(jù)平臺

Hadoop系統(tǒng)IBM大數(shù)據(jù)平臺BAO方案整體技術(shù)架構(gòu)從哪里來?是誰?到哪里去?BAO方案整體技術(shù)架構(gòu)從哪里來?是誰?到哪里去?大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫場景模型策略/計劃平衡計分卡預(yù)測/預(yù)報績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險分析企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)倉庫事實表ETL工具數(shù)據(jù)管理基于門戶的Web頁面固定報表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理

行業(yè)情報

ERPHRSCMCRMStatistics外部數(shù)據(jù)財務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)

設(shè)備狀態(tài)客戶信息分析報告ETL:抽取、轉(zhuǎn)換和加載大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫預(yù)數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫場景模型策略/計劃平衡計分卡預(yù)測/預(yù)報績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險分析企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)倉庫事實表ETL工具數(shù)據(jù)管理基于門戶的Web頁面固定報表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理

行業(yè)情報

ERPHRSCMCRMStatistics外部數(shù)據(jù)財務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)

設(shè)備狀態(tài)客戶信息分析報告ETL:抽取、轉(zhuǎn)換和加載電商、微博、社交網(wǎng)站、平安城市等產(chǎn)生大量社交數(shù)據(jù)、日志、圖片、視音頻數(shù)據(jù)….海量數(shù)據(jù)匯總、統(tǒng)計耗時太長,滿足不了業(yè)務(wù)部門的時效性需求;傳統(tǒng)計算模式遇到的困難某些業(yè)務(wù)部門需要實時數(shù)據(jù)分析,數(shù)據(jù)一邊產(chǎn)生,一邊進行分析,以應(yīng)對市場壓力數(shù)據(jù)產(chǎn)生速度快,數(shù)據(jù)量巨大,種類繁多,非結(jié)構(gòu)化數(shù)據(jù)占了80%以上數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉庫預(yù)測績效分析價值分析數(shù)據(jù)集市數(shù)據(jù)分析前Hadoop并行計算模式HDFS—HadoopDistributedFileSystem。HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(datablocks)的復(fù)制(replicas),并將它們放置在服務(wù)器群的計算節(jié)點中(computenodes),MapReduce就可以在它們所在的節(jié)點上處理這些數(shù)據(jù)了。MapReduceHadoop并行計算模式HDFS—HadoopDistr大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系

超越和補充傳統(tǒng)數(shù)據(jù)處理技術(shù)實時數(shù)據(jù)處理Internet級別海量數(shù)據(jù)存儲與分析傳統(tǒng)數(shù)據(jù)倉庫In-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResultsInfoSphereBigInsights傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系

超越和補充傳統(tǒng)數(shù)據(jù)處理高性能運算Symphony解決方案高性能運算Symphony解決方案大數(shù)據(jù)常見應(yīng)用場景舉例影像管理(各類單據(jù)的掃描件、地圖影像),非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)存儲和分析(XML文件、文本日志文件)典型應(yīng)用:測繪行業(yè)系統(tǒng)、地圖服務(wù)提供商產(chǎn)品、公安部、銀行/稅務(wù)票據(jù)管理、電信詳單日志分析、各類終端采集數(shù)據(jù)分析……常見痛點:存儲成本/性能,關(guān)系型數(shù)據(jù)庫性能/功能問題。業(yè)務(wù)/產(chǎn)品/服務(wù)創(chuàng)新典型應(yīng)用:CDR分析,輿情分析,LBS,廣告精準投放,移動終端服務(wù)/智慧XX(電表數(shù)據(jù)分析、HIS,電子支付),精益生產(chǎn)、反洗錢……常見痛點:實時性、數(shù)據(jù)來源多樣、數(shù)據(jù)量大計算密集型應(yīng)用高性能計算技術(shù)非常適用典型應(yīng)用:保險精算、銀行風(fēng)險分析、信用卡欺詐分析……常見痛點:實時性、多種數(shù)據(jù)源要形成統(tǒng)一視圖大數(shù)據(jù)常見應(yīng)用場景舉例影像管理(各類單據(jù)的掃描件、地圖影像)大數(shù)據(jù)智能分析解決方案介紹課件IBM大數(shù)據(jù)平臺優(yōu)勢1-高性能國內(nèi)運營商進行的基于Hbase的數(shù)據(jù)查詢測試,取得3~15倍的性能優(yōu)勢國內(nèi)運營商進行的基于Hive的數(shù)據(jù)分析測試,取得9~11倍的性能優(yōu)勢數(shù)據(jù)加載場景每核加載速度為x86核的11.18倍數(shù)據(jù)分析場景每核分析速度為x86核的9.63倍IBM大數(shù)據(jù)平臺優(yōu)勢1-高性能國內(nèi)運營商進行的基于Hbase為什么Symphony更快?JobTracker/TaskTracker用C++/C編寫資源管理和任務(wù)管理解耦.支持300并發(fā)jobtrackers;1000并發(fā)jobs/jobtrackerSOA架構(gòu),共享服務(wù)(reuseJVMacrossmanytasks)使用TCP原語和二進制編碼,取代httpandtext/XMLPushprotocolavoidstasktrackerpullingtasksandthedelaycausedbypullinginterval專利的asynchronouspersistencyprotocol以保證可靠性和性能Note:HadoopResultswerepublishedbyClouderaatHadoopWorldeventDec,2011.Hadoopjarexample.jarsleep–mt1–rt1–m5000–r1Testedon10hosts85為什么Symphony更快?JobTracker/TaskIBM大數(shù)據(jù)平臺優(yōu)勢2-高可靠從硬件、文件系統(tǒng)和分布式計算框架所有層面采用高可靠設(shè)計架構(gòu),杜絕基于開源產(chǎn)品的不可靠問題Symphony計算框架:經(jīng)過接近20年全球成功企業(yè)應(yīng)用考驗的高可靠性框架,不僅本身可靠性高,不存在單點故障,而且通過對下層硬件資源的先進管理功能,實現(xiàn)物理資源與邏輯資源的解耦,實現(xiàn)資源的動態(tài)加減和黑名單等機制,徹底解決硬件故障的透明failover問題GPFS-FPO文件系統(tǒng):經(jīng)過20多年全球無數(shù)應(yīng)用驗證的分布式文件系統(tǒng),成熟、可靠,GPFS-FPO采用去中心化設(shè)計(元數(shù)據(jù)分散存儲),天生不存在NameNode的單點故障和可靠性瓶頸問題PowerLinux在RAS特性方面全面領(lǐng)先X86平臺IBM大數(shù)據(jù)平臺優(yōu)勢2-高可靠從硬件、文件系統(tǒng)和分布式計算框IBM大數(shù)據(jù)平臺優(yōu)勢3-好維護IBM大數(shù)據(jù)平臺優(yōu)勢3-好維護IBM大數(shù)據(jù)平臺優(yōu)勢4-高度兼容性Symphony和GPFS具有最廣泛的兼容性,只要是基于Hadoop架構(gòu)標準接口開發(fā)的軟件都可以100%兼容,如HadoopHbase,Pig,Hive,JavaMR,Oozie等各種知名的Hadoop開源方案不僅兼容開源方案,還支持各種商業(yè)分析軟件,如SAS、SPSS、Murex,Algorithmics,Sugard,Calypso,TillingHast等

兼容各種Java、R、C/C++等各種開發(fā)語言,兼容各種文件系統(tǒng)及數(shù)據(jù)庫,如HDFS,GPFS-FPO,RDMBS,MPP等,兼容Linux、Windows、AIX等各種OS平臺,兼容X86、Power等各種硬件平臺,支持虛擬機和物理機混合組網(wǎng)使用IBM大數(shù)據(jù)平臺優(yōu)勢4-高度兼容性Symphony和GPFSIBM大數(shù)據(jù)平臺優(yōu)勢5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁有完全的技術(shù)研發(fā)與支持力量全球26個研發(fā)和銷售機構(gòu),300+的研發(fā)團隊分布在北京和西安兩地強大的QA和服務(wù)支持團隊,強大的本地售后支持力量專業(yè)的定制化開發(fā)團隊業(yè)界公認的大型網(wǎng)格/工作負載管理的領(lǐng)導(dǎo)者全方位的技術(shù)支持服務(wù)評估規(guī)劃與咨詢服務(wù)建設(shè)設(shè)計與實施服務(wù)管理管理與維護支持服務(wù)IBM大數(shù)據(jù)平臺優(yōu)勢5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁IBM大數(shù)據(jù)平臺優(yōu)勢6-高效可靠文件系統(tǒng)IBM大數(shù)據(jù)平臺優(yōu)勢6-高效可靠文件系統(tǒng)GPFS-FPO替換HDFS,更可靠、更高效對于需要隨機I/O的SQL查詢,JAQL查詢等對于需要線性排序的sort操作來說BigInsights提供2至3倍與開源Hadoop技術(shù)的性能文件索引等查找效率17倍于開源Hadoop技術(shù),得益于ClientCache能力Hadoop

Indexing(HDFS)Database

Upload(ext3)WebService

LayerCopyFetchHDFS:

Extracopyoverheadandnetworkfetch,separateclustersforanalyticsanddatabaseHadoopIndexing

+DatabaseUpload(GPFS)WebService

LayerCacheGPFS:

Singleclusterforanalyticsanddatabase,nocopyingrequired,cachingforweblayerWorkloadIsolationProvendataintegrityReplicatedmetadataservicesYahookeeps3copiesof3versionsofHDFSbecauseofunknowndataintegrity[1]QuantcastdeletesfilesonceHDFSis50%full[2][1]CareandFeedingofHadoopClusters,MarcNicosia,Usenix2009

[2]TheKomosDistributedFileSystem,SriramRao,QuantcastInc.GPFS-FPOKeytechnologyLocalityawarenessWriteAffinityMetablocksPipelinedreplicationDistributedrecovery超過20年發(fā)展的成熟的企業(yè)級文件系統(tǒng)vsHDFS

4年發(fā)展歷史IBM企業(yè)級支持的商用軟件vsHDFS開源軟件POSIX兼容,同時支持傳統(tǒng)文件訪問和Hadoop應(yīng)用vsHDFS不兼容POSIX內(nèi)建的安全特性和高可用性(集群管理節(jié)點e.g.)vsHDFSnamenode單點跨數(shù)據(jù)中心復(fù)制容災(zāi)vsHDFS無遠程復(fù)制GPFS-FPO替換HDFS,更可靠、更高效對于需要隨機I/GPFS-FPO去中心化設(shè)計,高性能與高可靠GPFS-FPO去中心化設(shè)計,高性能與高可靠可擴展的IBMSystemsConfiguration初始配置半機柜配置1stThru4th

滿機柜附加滿機柜UsableStorageUpto108TBUpto324TBUpto684TBperrackUpto720TBperrackUserspaceUpto36TBUpto108TBUpto228TBperrackUpto240TBperrack

可擴展得多個入門方式從很小的規(guī)模起步逐步擴大

支持多種工作負載的靈活的

CPU,內(nèi)存,存儲和網(wǎng)絡(luò)

選項可擴展的IBMSystemsConfiguration初始IBMPowerLinux7R1–便捷、高效的入門級產(chǎn)品可靠設(shè)計Singlesocket,2Urack8-core3.55GHzPOWER7processorUpto128GBmemorywith8/16/32GBDIMMs

First32GBincludedinbasepackage高擴展性和強大虛擬化能力Upto24SFFharddrivesper2Ustorageexpansiondrawer(L1S)PowerVM?exploitingintegratedhypervisor8246-L1C/8246-L1SGAonAugustVirtualization&ManagementOperatingSystemsLinuxonlyPOWER7Onesocket,2UrackIBMPowerLinux7R1–便捷、高效的入門級產(chǎn)IBMPowerLinux7R2-高性能、靈活配置OperatingSystemsVirtualization&Management

高系統(tǒng)密度TwoSocket,2URack16-cores3.3GHzand3.55GHzPOWER7processor256GBmaximummemorywith2/4/8GBDIMMs-First32GBincludedin3.55GHzprocessorbasepackage-First64GBincludedin3.3GHzprocessorbasepackageUpto207R2sinasingle42Urack

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論