大數(shù)據(jù)培訓(xùn)教程大數(shù)據(jù)的來源和動機(jī)_第1頁
大數(shù)據(jù)培訓(xùn)教程大數(shù)據(jù)的來源和動機(jī)_第2頁
大數(shù)據(jù)培訓(xùn)教程大數(shù)據(jù)的來源和動機(jī)_第3頁
大數(shù)據(jù)培訓(xùn)教程大數(shù)據(jù)的來源和動機(jī)_第4頁
大數(shù)據(jù)培訓(xùn)教程大數(shù)據(jù)的來源和動機(jī)_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

BeInternetional大數(shù)據(jù),盛名難負(fù)Agenda1.大數(shù)據(jù)的時代背景2.大數(shù)據(jù)時代的典型技術(shù)1.大數(shù)據(jù)的時代背景大數(shù)據(jù)浪潮興起的主要脈絡(luò)2008年9月,NATURE,“SPECIALS:BigData”12月,計算社區(qū)聯(lián)盟,“BigDataComputing:CreatingRevolutionaryBreakthroughsinCommerce,Science,andSociety”2009年10月,ToyHey,“The4thParadigm:Data-IntensiveScienceDiscovery”2011年2月,SCIENCE,“SPECIALS:DealingwithData”5月,EMCWorld’2011,“CloudMeetsBigData”6月,麥肯錫,“BigData:TheNextFrontierforInnovation,competition,andproductivity”6月,IDC(SponsoredbyEMC),“DIGTIALUNIVERSE:ExtractingValuefromChaos”2012年1月,達(dá)沃斯世界經(jīng)濟(jì)論壇,“BigData,BigImpact:NewPossibilitiesforInternationalDevelopment”3月,美國奧巴馬政府,“BigDataResearchandDevelopmentInitiative”5月,聯(lián)合國,“BigDataforDevelopment:ChallengesandOpportunities”美國政府的大數(shù)據(jù)計劃具有很強(qiáng)烈的宣傳符號色彩3月29日:奧巴馬政府以“BigDataisaBigDeal”為題發(fā)布新聞。宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”以圖增強(qiáng)收集海量數(shù)據(jù)、分析萃取信息的能力。與工業(yè)界、大學(xué)研究界、非營利性機(jī)構(gòu)與管理者一起利用大數(shù)據(jù)所創(chuàng)造的機(jī)會。5月23日:在TechCrunchDisrupt大會上,透露了5項(xiàng)將要頒布的重要聯(lián)邦舉措。其核心是政府開放數(shù)據(jù)計劃,將政府?dāng)?shù)據(jù)和一些企業(yè)數(shù)據(jù)公開,以圖改善美國人的生活方式,進(jìn)而創(chuàng)造工作崗位。6個首先啟動大數(shù)據(jù)計劃的政府部門中,國家科學(xué)基金會的研究內(nèi)容提到要“形成一個包含數(shù)學(xué)、統(tǒng)計基礎(chǔ)和計算機(jī)算法的獨(dú)特科學(xué)”,其他大多是應(yīng)對挑戰(zhàn)的數(shù)據(jù)工程類項(xiàng)目,如國防部高級技術(shù)研究局多尺度異常檢測項(xiàng)目網(wǎng)絡(luò)內(nèi)部威脅項(xiàng)目INSIGHT(網(wǎng)絡(luò)威脅自動識別)MachineReading項(xiàng)目Mind’sEys(機(jī)器視覺)項(xiàng)目VIRAT(軍事圖像分析與預(yù)警)XDATA(半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的計算技術(shù)與軟件工具)ObamaElectionTOPContributor麥肯錫的咨詢報告比較系統(tǒng)的確立了大數(shù)據(jù)的概念更為深遠(yuǎn)的可能是“數(shù)據(jù)科學(xué)”的最終興起Allthemodelsarewrong,andincreasinglyyoucansucceedwithoutthem.-FromPeterNorvig,GOOGLE2007年,已故圖靈獎得主吉姆.格雷(JimGray)在他最后一次演講中描繪了數(shù)據(jù)密集型科研“第四范式”(The4thParadigm)的愿景。即相對于試驗(yàn)科學(xué)(第一范式)、理論科學(xué)(第二范式)、計算科學(xué)(第三范式)而言。數(shù)據(jù)科學(xué)繼承了統(tǒng)計學(xué)的很多東西。。。強(qiáng)調(diào)后見之明(hindsight)或預(yù)見(foresight)而非洞察(insight)強(qiáng)調(diào)相關(guān)關(guān)系(correlation)而非因果關(guān)系(causality)Correlationisenoughandtheendoftheory!*“DataScience”在字眼上最早由EMC提出。。。BigData是什么–用于承載所有的概念BigData的定義–盛名之下,其實(shí)難負(fù)廣義的:大數(shù)據(jù)已經(jīng)不再局限于技術(shù)領(lǐng)域。如今,大數(shù)據(jù)已成為一項(xiàng)業(yè)務(wù)上優(yōu)先考慮的工作任務(wù),因?yàn)樗軌驅(qū)θ蛘辖?jīng)濟(jì)時代的商務(wù)產(chǎn)生深遠(yuǎn)的影響。除了為應(yīng)對長期存在的業(yè)務(wù)挑戰(zhàn)提供解決方案之外,大數(shù)據(jù)還為流程、組織、整個行業(yè)、甚至社會本身的轉(zhuǎn)型激發(fā)了許多新的方式。狹義的:BigData泛指數(shù)據(jù)集的大小,產(chǎn)生的速度和數(shù)據(jù)類型超過了通常的數(shù)據(jù)庫,數(shù)據(jù)管理軟件在限定的時間范圍內(nèi)所能獲取,存儲,管理和分析的范疇。這是一個相對的概念,不能從絕對意義上指明某一個數(shù)值來定義,而且這個相對的標(biāo)準(zhǔn)根據(jù)所處的行業(yè)和客戶的不同千差萬別市場曲線2.大數(shù)據(jù)時代的典型技術(shù)以GOOGLE為代表的互聯(lián)網(wǎng)公司是大數(shù)據(jù)發(fā)展的始作俑者大數(shù)據(jù)可以說發(fā)軔于GOOGLE于2003年陸續(xù)發(fā)表的一些技術(shù)論文-“TheGoogleFileSystem”“MapReduce:SimplifiedDataProcessingonLargeCluster”“Bigtable:ADistributedStorageSystemforStructuredData”HDFS是GFS的開源實(shí)現(xiàn)Fackbook的HayStack解決了海量小文件(如圖片)的存儲問題NoSQL(NotOnlySQL)GOOGLE的BIGTABLEAMAZON的DYNAMOYAHOO的PNUTSACIDvsBASEBasicallyavailableSoftstateEventuallyconsistent以弱一致獲取高可用基于SPANNER的混合型數(shù)據(jù)庫F1(用于GOOGLE的廣告系統(tǒng))融合兼有了BIGTABLE的高擴(kuò)展性與SQL數(shù)據(jù)庫的可用性和功能性BigData的代表技術(shù)

AgileprovisioningElasticcomputepowerScalablestorageresources

Devicemanagement

andanalyticsGeolocationinformationSocialbusiness

interactions

Datastreamsanalysis

HighperformanceInfrastructure

Ultralowresponsetime

HorizontalscalabilityHadoopNoSQLStreaming

PureSQLandRDBMSapproach

BetterhorizontalscalabilitythantraditionalRDBMS

RelativelowhardwareinfrastructureMPPDBSQLOnHadoop數(shù)據(jù)庫的擴(kuò)展,延伸和增強(qiáng)是Hadoop技術(shù)在目前企業(yè)市場最迫切,最可行和可落地的需求Hadoop技術(shù)的可接受度是一個大問題MapReduce運(yùn)算模式與以往的方式大相徑庭,具有比較陡峭的學(xué)習(xí)曲線以Hadoop技術(shù)為平臺的系統(tǒng)的設(shè)計,開發(fā),實(shí)施,運(yùn)維,優(yōu)化對于企業(yè)來說是巨大的挑戰(zhàn)SQL支持為大數(shù)據(jù)技術(shù)的落地打開了一扇大門成熟的社區(qū)和技術(shù)體系架構(gòu)業(yè)界大量的數(shù)據(jù)依然是結(jié)構(gòu)化數(shù)據(jù)Pre-ProcessingHubQuery-ableArchiveExploratoryAnalysisInformationIntegrationDataWarehouseStreamsReal-time

processingHadoopLandingzoneforalldataDataWarehouseHadoopCancombinewithunstructuredinformationDataWarehouse1231.海量數(shù)據(jù)集成預(yù)處理2.歷史數(shù)據(jù)管理系統(tǒng)3.跨域探索性分析+ConsistencyAvailabilityTolerancetonetworkPartitionsCAPTheorem你只能最多同時具備兩個方面分布式計算之MPPShared-Nothing架構(gòu)演進(jìn)共享磁盤例如:InformixXPSOracleRACDB2pureScaleDBSAN/共享磁盤DBDBDB網(wǎng)絡(luò)SAN/FC完全共享例如:SMP服務(wù)器DB磁盤無共享例如:GreenplumDBDBDBDB網(wǎng)絡(luò)磁盤磁盤磁盤磁盤MasterMPP注:藍(lán)灰色表示共享資源動態(tài)數(shù)據(jù)的實(shí)時分析流數(shù)據(jù)結(jié)構(gòu)或非結(jié)構(gòu)化動態(tài)數(shù)據(jù)流流計算實(shí)時對流數(shù)據(jù)進(jìn)行分析計算靜態(tài)數(shù)據(jù)上的歷史數(shù)據(jù)分析批處理模式查詢驅(qū)動:靜態(tài)數(shù)據(jù)提交查詢依靠數(shù)據(jù)庫,數(shù)據(jù)倉庫傳統(tǒng)計算模式流計算模式QueriesMemoryDiskUpdatesMemoryDiskEventDataQueriesAlertsActions流計算3.互聯(lián)網(wǎng)和大數(shù)據(jù)環(huán)境下的金融實(shí)踐這表明了什么?商業(yè)模式的差異是巨大的互聯(lián)網(wǎng)所有的模式都是以客戶中心,流量,入口,體驗(yàn)至上(真正的以人為本),有兩個案例1.XX行的警告短信2.某歐洲企業(yè)的前臺,對于人的尊重,對比其他國內(nèi)企業(yè)傳統(tǒng)行業(yè)怎么賺錢怎么賣怎么盈利互聯(lián)網(wǎng)不懂傳統(tǒng)行業(yè)這是劣勢,也是優(yōu)勢(經(jīng)驗(yàn)是一種桎梏,守成也許適用,但是開拓未必)傳統(tǒng)行業(yè)門口的野蠻人整體趨勢脫媒和轉(zhuǎn)型是中國金融業(yè)當(dāng)前和未來的重要經(jīng)營主題。金融深化加劇金融脫媒效應(yīng),中國金融業(yè)面臨轉(zhuǎn)型和分化。互聯(lián)網(wǎng)金融的快速崛起和迅猛發(fā)展帶來金融脫媒和互聯(lián)網(wǎng)脫媒的雙重挑戰(zhàn)。在這種背景下更新轉(zhuǎn)型思金融重構(gòu)價值鏈,是中國銀行業(yè)的重要變革方向。互聯(lián)網(wǎng)的本質(zhì)是通過技術(shù)手段,解決了信息不對稱的問題,解決了“溝通”的問題,一切仰賴于信息封閉與不對稱產(chǎn)生超額利潤的模式與行業(yè)都會收到?jīng)_擊與挑戰(zhàn)互聯(lián)網(wǎng)法則一.

用戶,個人用戶,尤其是有黏合性的用戶,基于社會、組織、商業(yè)活動關(guān)系構(gòu)成的虛擬社區(qū)用戶,自組織的有目的的群體用戶二.贏者通吃三.分散合作+開放四.用戶體驗(yàn)至上總則:信息對稱、組織扁平、快速響應(yīng),互聯(lián)網(wǎng)代表的是一種平民化思潮互聯(lián)網(wǎng)為金融帶來了什么極為低廉的交易成本(x86&Cloud)更有效的更快速的大數(shù)據(jù)分析方法(BigData&FastData)無組織的組織力量-極致與動態(tài)的個性群體(以客戶為中心)新的自然壟斷平臺與生態(tài)環(huán)境(Unifiedplatform&Ecosystem)加上移動互聯(lián)網(wǎng)之后更是如虎添翼,永遠(yuǎn)在線,模糊了線上線下的邊界(Neveroffline)全新的商業(yè)模式和意識形態(tài)互聯(lián)網(wǎng)金融環(huán)境下中國金融業(yè)面臨的挑戰(zhàn)除了數(shù)據(jù)本身的大規(guī)模增長以外,銀行業(yè)面臨的更大的挑戰(zhàn)是大數(shù)據(jù)帶來的業(yè)務(wù)挑戰(zhàn),這包括:微型企業(yè)貸款市場上,銀行與互聯(lián)網(wǎng)起家的小額貸款公司難以競爭;在互聯(lián)網(wǎng)支付中,網(wǎng)銀支付所占比重越來越低,這使得銀行越來越難以知道客戶的消費(fèi)行為;互聯(lián)網(wǎng)融資模式的出現(xiàn),在未來可能會超過以銀行為中心的間接融資和以交易所為中心的直接融資模式,這會使得銀行逐漸被邊緣化。所有這些挑戰(zhàn),本質(zhì)上是因?yàn)殂y行對于客戶的了解程度,數(shù)據(jù)的理解相對越來越弱數(shù)據(jù)量大PBLevel的挑戰(zhàn)互聯(lián)網(wǎng)化帶來的靈活敏捷性挑戰(zhàn)對于數(shù)據(jù)價值的認(rèn)識與挖掘能力的挑戰(zhàn)互聯(lián)網(wǎng)金融的主要表現(xiàn)形式第三方支付平臺支付寶,快捷支付,PayPal,square移動金融Orange+巴克萊,法國電信網(wǎng)+巴黎銀行,中移動+浦發(fā),M-PESA社交網(wǎng)絡(luò)金融Facebook

F幣,Twitter+PayPal

=

Twitpay網(wǎng)絡(luò)融資平臺P2P,眾籌,阿里小貸,鯰鄉(xiāng)小貸,余額寶以余額寶來分析產(chǎn)品特點(diǎn)有活期存款的流動性,收益遠(yuǎn)高于活期,不設(shè)最低門檻的貨幣基金建行的觀察通過制度規(guī)避監(jiān)管風(fēng)險通過客戶篩選控制市場風(fēng)險借助大數(shù)據(jù)降低流動性風(fēng)險(海量taobao數(shù)據(jù)的深度挖掘,支付寶支付規(guī)律,消費(fèi)模式,實(shí)現(xiàn)實(shí)時流動性預(yù)估)建行的啟示盡快推出類似產(chǎn)品強(qiáng)化“以客戶為中心”的創(chuàng)新意識(用戶想要什么樣的理財產(chǎn)品)加大信息技術(shù)與銀行經(jīng)營管理的深度融合(復(fù)雜的流程通過技術(shù)自動化,簡化)基于海量消費(fèi)數(shù)據(jù)的動態(tài)定價能力是互聯(lián)網(wǎng)金融的核心之一

風(fēng)險的快速準(zhǔn)確定價仰賴多源與維度的信息分析盈利

=

收益

壞賬

–成本價格

&總貸款量

客戶響應(yīng)率

&平均貸款額

價格12價格總業(yè)務(wù)量1價格壞賬率2贏利驅(qū)動成分收支平衡曲線逆向選擇測試模型Price(APR%)9.812壞賬率不斷測試和學(xué)習(xí)Price營業(yè)利潤TP0影響最優(yōu)價格的其它因素:市場競爭經(jīng)濟(jì)狀況Etc...TP1經(jīng)濟(jì)變好及競爭加劇TP2經(jīng)濟(jì)變壞未知的價格彈性價格降低LoanSize貸款量隨價格降低而增加觀察和分析Price最優(yōu)定價CreditLossRate$LoanSizeResponseRateTP考慮費(fèi)用因素Taobao基于大數(shù)據(jù)平臺的數(shù)據(jù)運(yùn)算與挖掘DataArchitectureofTaoBao-ForhugedatavolumeandhugetransactionHorizontalshardinginusercenterUserlogindata(90%log)andusermasterdata(10%log)areseparated,andstoredtodifferentdbclusters,OnlineandofflinedataisseparatedRead-writeseparationintradecenterChoosesuitablepartitionkeyRelievethereadbottleneckofmasterdb,scalereadnodesWriteonlyinonedatabaseforconsistency.DealwithcomplexquerySqlisfromcomplextosimpleMulti-tablejoin->complexqueryonsingletable->queryonprimarykeyRequestsPresentationSpringTradeCenter

ProductCenterCommentCenterUserCenterTairdistributedcacheDataAccessLayerHSFHorizontalshardinginusercenterread-writeseparationintradecenterCASE1CASE2CASE3AddsearchinproductcenterTFSTDDLSharddb,shardtableSupportsubsetofsql:joinisnotsupportednow.Limitedtransaction:notcrossdatabase,specialdatasourcesRead-writeseparationTairDistributedcacheTFSDistributedstorageformassive“small”file(<1M).HSFHighperformanceserviceframeworkforthecommunicationamongmodules業(yè)務(wù)模型?這是企業(yè)的隱私幾乎所有的客戶不愿意告訴其他人仰賴與對于業(yè)務(wù)的熟悉和創(chuàng)新仰賴于基于數(shù)據(jù)的建模數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量非常重要,并且是需要一開始就規(guī)劃和建立的(大多數(shù)傳統(tǒng)企業(yè)并不是這樣)需要數(shù)據(jù)科學(xué)家數(shù)據(jù)分析人員數(shù)據(jù)建模人員模型開發(fā)人員4.成功/失敗案例介紹典型場景與案例序號場景描述1歷史數(shù)據(jù)管理系統(tǒng)/平臺數(shù)據(jù)生命周期,全量數(shù)據(jù)存儲與管理2全息信息庫/渠道整合半結(jié)構(gòu)化,非結(jié)構(gòu)化數(shù)據(jù)與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)倉庫的融合庫3日志分析管理平臺針對運(yùn)維,應(yīng)用日志的存儲,管理與挖掘4用戶情感分析與挖掘文本處理,NLP5市場趨勢與行情挖掘預(yù)測ML,業(yè)務(wù)建模大規(guī)模并行計算能力6高頻實(shí)時交易分析內(nèi)存計算,實(shí)時計算7歷史回放/市場監(jiān)管歷史數(shù)據(jù)管理系統(tǒng)的變種…歷史數(shù)據(jù)管理的現(xiàn)狀與需求1.歷史數(shù)據(jù)時間跨度長、數(shù)據(jù)量大,目前做法主要是從備份系統(tǒng)獲取數(shù)據(jù),操作周期長,數(shù)據(jù)恢復(fù)、提取過程復(fù)雜,對于部分歷史數(shù)據(jù),可能難以提供。2.隨著歷史數(shù)據(jù)的日益增長,歷史數(shù)據(jù)管理應(yīng)用己面臨著數(shù)據(jù)備份恢復(fù)時間長、運(yùn)維成本高、存儲彈性擴(kuò)展能力差、存儲成本高、無法滿足業(yè)務(wù)多維查詢的問題;3.電子影像及文檔服務(wù)平臺則存在海量歷史數(shù)據(jù)離線檢索不便、數(shù)據(jù)備份恢復(fù)時間長的問題。同時,隨著近年來業(yè)務(wù)的發(fā)展,產(chǎn)生了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)整合存儲與聯(lián)動查詢的新需求。4.基于全量數(shù)據(jù)挖掘與建模的需求歷史數(shù)據(jù)HDS能力需求序號能力描述1數(shù)據(jù)導(dǎo)入導(dǎo)出數(shù)據(jù)導(dǎo)入導(dǎo)出1.1數(shù)據(jù)導(dǎo)入從整合層和從數(shù)據(jù)服務(wù)層導(dǎo)入至歷史數(shù)據(jù)平臺,進(jìn)行存儲的能力1.2數(shù)據(jù)導(dǎo)出從歷史數(shù)據(jù)平臺導(dǎo)出至數(shù)據(jù)整合層和數(shù)據(jù)服務(wù)層的能力2數(shù)據(jù)查詢兩種不同類型的查詢2.1簡單查詢基于單表或者兩個表的簡單在線查詢,基于關(guān)鍵id或者時間段的查詢,例如交易明細(xì)類查詢2.2復(fù)雜查詢多表連接查詢,批量在/離線查詢,支持多種查詢謂詞,多維報表類應(yīng)用,分析類型查詢,如審計,司法類查詢3數(shù)據(jù)分析基于應(yīng)用日志進(jìn)行各種海量數(shù)據(jù)數(shù)據(jù)挖掘分析,客戶行為分析,精準(zhǔn)營銷支持等4數(shù)據(jù)歸檔PB級別的歷史數(shù)據(jù)存儲,無需進(jìn)行傳統(tǒng)備份5低成本-高擴(kuò)展基于x86平臺,能夠上千節(jié)點(diǎn)的擴(kuò)展性應(yīng)用場景描述序號項(xiàng)目S1交易明細(xì)查詢S2外部,內(nèi)部司法審計查詢S3應(yīng)用日志分析S4數(shù)據(jù)導(dǎo)入導(dǎo)出S5數(shù)據(jù)模型與挖掘應(yīng)用場景1–歷史交易明細(xì)查詢

業(yè)務(wù)需求針對交易明細(xì),放開給終端用戶進(jìn)行查詢,面向普通用戶和分行支持網(wǎng)銀或者柜臺進(jìn)行在線查詢,服務(wù)器響應(yīng)時間要求為在線SLA或者異步方式針對特殊帳號,如taobao類海量交易帳號,可適當(dāng)延長SLA具體查詢類型用戶帳號+查詢時間段基于單表或者少量表連接應(yīng)用場景2–司法與審計查詢業(yè)務(wù)需求支持離線批量查詢,查詢類型多變,不固定格式有單獨(dú)的審計數(shù)據(jù)庫,如審計庫無數(shù)據(jù),需要在歷史數(shù)據(jù)HDS中進(jìn)行查詢,或能導(dǎo)入至審計數(shù)據(jù)庫針對特殊帳號,如taobao海量交易帳號,可適當(dāng)延長SLA具體查詢類型無具體類型ad-hoc查詢應(yīng)用場景3–應(yīng)用日志分析業(yè)務(wù)需求支持離線批量查詢和分析,查詢類型多變,不固定格式基于應(yīng)用程序日志等日志數(shù)據(jù)進(jìn)行用戶行為,用戶偏好等客戶化分析為精準(zhǔn)營銷進(jìn)行服務(wù)來自外部的半結(jié)構(gòu)化,非結(jié)構(gòu)化數(shù)據(jù)存儲與分析具體查詢類型復(fù)雜查詢,多表關(guān)聯(lián)應(yīng)用場景4–數(shù)據(jù)導(dǎo)入導(dǎo)出業(yè)務(wù)需求交易明細(xì)數(shù)據(jù),加工后的數(shù)據(jù),公共處理的數(shù)據(jù),輕度加工匯總的數(shù)據(jù)以及其他各類數(shù)據(jù)的高速導(dǎo)入導(dǎo)出能力與其他各類源數(shù)據(jù)庫的交互能力高性能,大吞吐量并行導(dǎo)入導(dǎo)出應(yīng)用場景5–數(shù)據(jù)模型與挖掘業(yè)務(wù)需求海量歷史交易數(shù)據(jù)的數(shù)據(jù)建模與挖掘,產(chǎn)生用戶消費(fèi)行為數(shù)據(jù)分析圍繞以客戶為中心的各類應(yīng)用客戶360視圖客戶細(xì)分客戶生命周期管理宏觀經(jīng)濟(jì)類面向互聯(lián)網(wǎng)背景的業(yè)務(wù)探索已經(jīng)展開:服務(wù)營銷DDN專線連接一對一客戶信息綁定(唯一識別)基本的功能賬單、積分、額度。。。消費(fèi)提醒(取代短信?)還款(微信支付???)信息推送(較少)未來LBS->想象空間太大語音->機(jī)器人客服幾個數(shù)字3000千萬持卡人已粉100萬每年上億條的短信費(fèi)用呼叫中心成本技術(shù)性探索也已未雨綢繆:某商業(yè)銀行案例(續(xù))打通社會化大數(shù)據(jù)庫,期待社會化數(shù)據(jù)內(nèi)外通達(dá)如何把品牌價值透過網(wǎng)絡(luò)雜音直擊目標(biāo)客戶,并及時發(fā)現(xiàn)客戶的需求做好精準(zhǔn)服務(wù)是考驗(yàn)自身技術(shù)段位的如果把銀行內(nèi)部的客戶號和新浪的微博號掛接起來,在一定程度上就可以做群體營銷了。外部數(shù)據(jù)引入的動作很關(guān)鍵,把微博、QQ、郵箱等社交化的、能很快找到客戶的方式能通達(dá)起來。跟傳統(tǒng)的數(shù)據(jù)存儲放一起,同等對待,建立一個更加立體豐富的數(shù)據(jù)庫?;拘畔ⅰ酆眯畔?、行為信息、分析信息互聯(lián)網(wǎng)金融模式新浪微博開發(fā)平臺上做了一個繳費(fèi)應(yīng)用——“V繳費(fèi)”國外典型案例:摩根大通已經(jīng)開始使用Hadoop技術(shù)以滿足日益增多的用途,包括詐騙檢驗(yàn)、IT風(fēng)險管理和自助服務(wù)150PB在線存儲數(shù)據(jù)、30,000個數(shù)據(jù)庫和35億個用戶登錄賬號Hadoop能夠存儲大量非結(jié)構(gòu)化數(shù)據(jù),允許公司收集和存儲Web日志、交易數(shù)據(jù)和社交媒體數(shù)據(jù)。數(shù)據(jù)被匯集至一個通用平臺,以方便以客戶為中心的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具的使用。BankingSolutionsTreeImproveCompanyPerformanceCustomerIdentificationCustomerAttractionCustomerRetentionCustomerDevelopmentEntityResolutionTargetCustomerAnalysisEconomicValueAddCustomerSegmentationLook-a-likeModelingOfferOptimizationNetLift/UpliftModelingChurnPredictionCustomerLifetimeValueSentimentAnalysisLoyaltyModelingComplaintsManagementCustomerProfilingUpSell/CrossSellOptimizationMarketBasketAnalysisPropensityModelingOperationsPlanningAdministrative/GeneralFacilitiesManagementIT/SecurityAnalyticsCostAnalysisDecisionSupportBusinessForecastingEventSimulationWorkforceAnalyticsEmployeeChurnEmployeeUtilizationMarketingServices/ProductsManagementConsumerCreditModelingRiskScorecardSpendAnalysisChannelPreferenceProductOptimizationAssetAllocationAnalysisCommercial/BusinessRiskandExposureAnalysisRetirementBenefitsAnalyticsTreasuryManagementAssetManagementModelingGeneralEconomicForecastingPricingStrategiesPortfolioOptimizationRegulatoryAdherenceAnalysisPhase1Phase2Phase3IncreaseSpendEfficiencyCampaignAnalyticsTradePromotionModelingMarketingMixModelingIncreaseCustomerAcquisitionCustomerSegmentationChurnPrediction,LoyaltyProgramAnalytics&TargetingCustomerLifetimeValueCustomerSegmentationSiteSelectionDigitalPresence&SocialMediaAnalyticsCrossChannelCustomerViewIncreaseBasketSizeCorrelationAnalysisAffinityAnalysisCross-sell/Upsell&NBO?Copyright2012EMCCorporation.Allrightsreserved.53發(fā)展方向建議-樣例5.超越大數(shù)據(jù),發(fā)展與展望金融服務(wù)業(yè)“大數(shù)據(jù)”發(fā)展的10大趨勢(Sungard)對更大的歷史數(shù)據(jù)集的需要新的監(jiān)管和合規(guī)要求更加深入的數(shù)據(jù)分析自身風(fēng)險管理框架的完善對風(fēng)險可審性與管理強(qiáng)度的要求利用更多服務(wù)交付渠道帶來的更多數(shù)據(jù)及其分析需求市場中對數(shù)據(jù)處理基礎(chǔ)設(shè)施的大量投資幫助金融服務(wù)業(yè)充分掌握數(shù)據(jù)價值、降低成本并發(fā)現(xiàn)套利需要重新設(shè)計ETL流程以適應(yīng)數(shù)據(jù)擴(kuò)展使用預(yù)測信用風(fēng)險模型移動設(shè)備的普及要求處理和整合非結(jié)構(gòu)化數(shù)據(jù)推動了對數(shù)據(jù)處理算法的需求風(fēng)險管理數(shù)據(jù)集成分析&價值但最大的趨勢可能是。。。金融業(yè)發(fā)展互聯(lián)網(wǎng)金融和大數(shù)據(jù)的一些思考金融的客戶數(shù)據(jù)和交易數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,是進(jìn)行金融互聯(lián)化最大的寶藏之一外部/線上數(shù)據(jù)作為銀行內(nèi)部數(shù)據(jù)的補(bǔ)充,現(xiàn)階段內(nèi)部的客戶行為數(shù)據(jù)和交易數(shù)據(jù)具有最大的價值大數(shù)據(jù)的技術(shù)架構(gòu)不一定馬上能夠解決,重要的是大數(shù)據(jù)應(yīng)用的理念金融機(jī)構(gòu)的比較優(yōu)勢壟斷性的線下能力金融專業(yè)能力強(qiáng)大的資本實(shí)力和雄厚的客戶資源積累了非常多的客戶資金數(shù)據(jù)當(dāng)前金融業(yè)從事互聯(lián)網(wǎng)金融和大數(shù)據(jù)的幾大缺陷戰(zhàn)略上重視度不夠,資源投入不足,缺乏有效的基礎(chǔ)架構(gòu)支持內(nèi)部管理中互聯(lián)網(wǎng)文化與傳統(tǒng)銀行文化存在沖突商業(yè)模式上對互聯(lián)網(wǎng)精神尊重不足銀行創(chuàng)設(shè)的平臺較為封閉,銀行服務(wù)反而是短板大數(shù)據(jù)人才(基礎(chǔ)架構(gòu)人才,應(yīng)用開發(fā)人才,大數(shù)據(jù)分析人才)的缺乏。為什么大數(shù)據(jù)現(xiàn)在在國內(nèi)叫好不叫座深層次的原因,數(shù)據(jù)化,量化管理和決策與我們的文化與習(xí)慣不太契合案例:一個做BI和前端展現(xiàn)的朋友和我講的一個企業(yè)老總的故事,數(shù)據(jù)裁剪不分緣由的問責(zé)制,缺乏支持創(chuàng)新的文化和氛圍現(xiàn)有的基礎(chǔ)架構(gòu)是面向功能性的,而不是面向主題和客戶,導(dǎo)致數(shù)據(jù)的不一致性,質(zhì)量問題和集成性問題。具有政治壁壘屬性技術(shù)的成熟度,最后一公里的實(shí)現(xiàn)缺乏相應(yīng)的技術(shù)人才,咨詢?nèi)瞬藕蜆I(yè)務(wù)人才能夠?qū)嵤┖瓦\(yùn)維的基礎(chǔ)技術(shù)人才–不多將業(yè)務(wù)問題轉(zhuǎn)換為大數(shù)據(jù)架構(gòu)上的模型的咨詢?nèi)瞬浓C非常少運(yùn)用新的技術(shù)力量提供的能力優(yōu)化業(yè)務(wù)模型的業(yè)務(wù)人才–幾乎沒有互聯(lián)網(wǎng)企業(yè)的比較優(yōu)勢創(chuàng)新基因更符合互聯(lián)網(wǎng)精神的企業(yè)文化監(jiān)管套利平臺競爭方面的先發(fā)優(yōu)勢如何將推進(jìn)大數(shù)據(jù)技術(shù)在傳統(tǒng)企業(yè)落地

BigData需要仰賴一個可擴(kuò)展的基礎(chǔ)架構(gòu)和大數(shù)據(jù)團(tuán)隊(duì)2BigData的應(yīng)用需要在一開始就找準(zhǔn)可度量的業(yè)務(wù)價值5圍繞推進(jìn)以客戶為中心的創(chuàng)新1BigData要真正發(fā)揮力量需要依靠先進(jìn)的分析技術(shù)4最初的努力需要著重于內(nèi)部已有數(shù)據(jù)的利用和挖掘3實(shí)驗(yàn)精神和試錯精神-Readytofail!6大數(shù)據(jù)的愿景我堅(jiān)定的相信,如果傳統(tǒng)的行業(yè),金融,電信,醫(yī)療,政府與公共事業(yè)等等,能夠善加利用和挖掘數(shù)據(jù)的寶藏一定會給人民群眾帶來更多的驚喜,便利,大幅的提高客戶的滿意度和生活的幸福感。如同目前的互聯(lián)網(wǎng)企業(yè)一樣對于企業(yè)的影響我的建議IT和業(yè)務(wù)部門需要能夠識別,利用大數(shù)據(jù)處理技術(shù)來給實(shí)際的業(yè)務(wù),商業(yè)和企業(yè)發(fā)展以巨大的幫助CIO和IT領(lǐng)袖需要開始投入資源,或者使用一個實(shí)際的業(yè)務(wù)項(xiàng)目來演練大數(shù)據(jù)技術(shù),鍛煉整個相關(guān)的團(tuán)隊(duì)IT部門將要全面的支持大數(shù)據(jù)的方案,并且這種支持并不是暫時,而是長遠(yuǎn)的在進(jìn)行技術(shù)路線或基礎(chǔ)設(shè)施規(guī)劃時,需要考慮投入適當(dāng)?shù)念A(yù)算,人力和項(xiàng)目來應(yīng)對大數(shù)據(jù)的挑戰(zhàn)企業(yè)的數(shù)據(jù)倉庫和數(shù)據(jù)集市面臨巨大的變革來迎接大數(shù)據(jù)的時代,或者面臨被淘汰的危險考慮使用新興的大數(shù)據(jù)技術(shù)架構(gòu)或適合于本行業(yè)的大數(shù)據(jù)方案來擴(kuò)展和延伸當(dāng)前的企業(yè)數(shù)據(jù)倉庫商業(yè)分析人員在使用大數(shù)據(jù)處理技術(shù)對業(yè)務(wù)提供指導(dǎo)必須要謹(jǐn)慎的考慮數(shù)據(jù)的真實(shí)性和分析結(jié)果的可信度以及數(shù)據(jù)隱私,否者會對商業(yè)產(chǎn)生不可估量的損害上線試點(diǎn)項(xiàng)目或者系統(tǒng),持續(xù)收集反饋信息,積累經(jīng)驗(yàn),與成熟的有經(jīng)驗(yàn)的廠商進(jìn)行合作,確保整體規(guī)劃方向正確,確保初創(chuàng)項(xiàng)目得到最好的咨詢和實(shí)施服務(wù)大數(shù)據(jù)技術(shù)未來的熱點(diǎn)方向大數(shù)據(jù)時代的信息隱私保護(hù)–用戶偏好與客戶把握與隱私保護(hù)為天然的矛盾少數(shù)派報告關(guān)于一切數(shù)字化后,人類無處遁尋的災(zāi)難,信息隱私保護(hù)的問題,對于再無隱秘可言的擔(dān)心。人們會被預(yù)測將要犯罪而被逮捕。黑鏡子第三季關(guān)于虛擬人生的探討基于大數(shù)據(jù)的建模預(yù)測分析技術(shù)[真正帶來價值的部分]統(tǒng)計學(xué)習(xí),機(jī)器學(xué)習(xí)DeepLearning圖片視頻等非結(jié)構(gòu)化數(shù)據(jù)的實(shí)時分析[非結(jié)構(gòu)化數(shù)據(jù)的處理]中文文本的語義級別信息挖掘[NLP,智能問答系統(tǒng)]冬天能穿多少穿多少,夏天能穿多少穿多少。。。StaticwebsiteWebfrontendUserDBQueueAnalyticsDBBackgroundworkersAPIendpointnginx1.5+modsecurity+openssl+bootstrap2postgresql+pgv8+v8hadoop+hive+thrift+OpenJDKRuby+Rails+sass+UnicornRedis+redis-sentinelPython3.0+celery+pyredis+libcurl+ffmpeg+libopencv+nodejs+phantomjsPython2.7+Flask+pyredis+celery+psycopg+postgresql-clientDevelopmentVMQAserverPublicCloudDisasterrecoveryContributor’slaptopProductionServersMultiplicityofStacksMultiplicityofhardwareenvironmentsProductionClusterCustomerDataCenterDoservicesandappsinteractappropriately?CanImigratesmoothlyandquickly?目前傳統(tǒng)IT架構(gòu)-非互聯(lián)網(wǎng)化架構(gòu)日益受到的挑戰(zhàn)超越大數(shù)據(jù),大數(shù)據(jù)已是過去時!Software-DefinedDatacenterNewData-fabricsTheSoftwareDefinedDataCenterNewExperiencesNewBizModelspioneeredbynewConsumer

InternetgiantsInternet-of-thingsPervasivetelemetryMainframeClient-Server&WebCLOUDERAOperateatScaleinahighlyautomatedwayAWSVMW...ETC超越大數(shù)據(jù)-云時代的新平臺建議NextGenerationPlatform大數(shù)據(jù)快數(shù)據(jù)快速迭代開發(fā)與集成FromVMwareFromEMCIaaS云抽象化與應(yīng)用自動部署擴(kuò)容與運(yùn)維新一代金融的IT服務(wù)層次

以云服務(wù)為基礎(chǔ),以數(shù)據(jù)為核心,以分析為手段基礎(chǔ)云服務(wù)數(shù)據(jù)云服務(wù)應(yīng)用云服務(wù)“整合”–互聯(lián)網(wǎng)基礎(chǔ)設(shè)施化,建立互聯(lián)網(wǎng)基礎(chǔ)設(shè)施云服務(wù)平臺,提供支撐互聯(lián)網(wǎng)銀行的IT基礎(chǔ)設(shè)施“創(chuàng)新”–以渠道拓展和風(fēng)控加強(qiáng)兩個層面為基礎(chǔ),去進(jìn)行業(yè)務(wù)、服務(wù)、營銷和服務(wù)創(chuàng)新,提升業(yè)務(wù)“關(guān)鍵”–扎實(shí)的數(shù)據(jù)服務(wù)基礎(chǔ)和云服務(wù)能力是支撐互聯(lián)網(wǎng)銀行各服務(wù)正常和低風(fēng)險運(yùn)轉(zhuǎn)的重要保障新一代金融的IT服務(wù)細(xì)化

數(shù)據(jù)的核心價值數(shù)據(jù)處理融合大數(shù)據(jù)的數(shù)據(jù)倉庫數(shù)據(jù)服務(wù)數(shù)據(jù)管控業(yè)務(wù)創(chuàng)新渠道創(chuàng)新互聯(lián)網(wǎng)、移動、自助等營銷創(chuàng)新整合創(chuàng)新基礎(chǔ)設(shè)施接入和虛擬化管理存儲服務(wù)器網(wǎng)絡(luò)關(guān)鍵客戶賬戶交易數(shù)據(jù)操作系統(tǒng)風(fēng)控創(chuàng)新以數(shù)據(jù)為核心競爭力服務(wù)創(chuàng)新基礎(chǔ)云服務(wù)數(shù)據(jù)云服務(wù)應(yīng)用云服務(wù)...ETC支持開放標(biāo)準(zhǔn)并與開源有效互動以數(shù)據(jù)為中心不與特定云平臺綁定,方便靈活部署針對企業(yè)的需求針對開發(fā)者的需求3個平臺無縫集成1.應(yīng)用虛擬化平臺,支持多種IaaS2.數(shù)據(jù)中心平臺3.應(yīng)用開發(fā)與服務(wù)平臺可伸縮的存儲和計算:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論