大數(shù)據(jù)蘊(yùn)含大價(jià)值(初稿)課件_第1頁(yè)
大數(shù)據(jù)蘊(yùn)含大價(jià)值(初稿)課件_第2頁(yè)
大數(shù)據(jù)蘊(yùn)含大價(jià)值(初稿)課件_第3頁(yè)
大數(shù)據(jù)蘊(yùn)含大價(jià)值(初稿)課件_第4頁(yè)
大數(shù)據(jù)蘊(yùn)含大價(jià)值(初稿)課件_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)蘊(yùn)含大價(jià)值河北移動(dòng)業(yè)務(wù)支撐中心大數(shù)據(jù)蘊(yùn)含大價(jià)值河北移動(dòng)業(yè)務(wù)支撐中心目錄河北移動(dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13目錄河北移動(dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13“大數(shù)據(jù)”和“小數(shù)據(jù)”的不同思考?為什么現(xiàn)在會(huì)有“大數(shù)據(jù)”,以前難道沒(méi)有?為什么現(xiàn)在大數(shù)據(jù)傾向用專門(mén)的解決方案,為什么以前不?為什么大數(shù)據(jù)發(fā)源于互聯(lián)網(wǎng),而不是傳統(tǒng)數(shù)據(jù)密集型企業(yè)?大數(shù)據(jù)解決方案要深度定制,但是…人:硬件人員、Hadoop平臺(tái)人員、工具人員、運(yùn)維人員×31物:何種節(jié)點(diǎn)的規(guī)模才能達(dá)到規(guī)模效應(yīng)?幾個(gè)節(jié)點(diǎn)的Hadoop算不算大數(shù)據(jù)?云計(jì)算的資源動(dòng)態(tài)調(diào)配如何實(shí)現(xiàn)?基于性價(jià)比的選擇買(mǎi)產(chǎn)品:如果定制的效益不如付出的成本,那么采購(gòu)標(biāo)準(zhǔn)的第三方產(chǎn)品是更好的選擇。“小數(shù)據(jù)”大多是這類情況定制:如果定制的效益超過(guò)付出的成本,那么傾向自己進(jìn)行定制。比如Google、Facebook等VS我們的選擇?“大數(shù)據(jù)”和“小數(shù)據(jù)”的不同思考?為什么現(xiàn)在會(huì)有“大數(shù)據(jù)”,“大數(shù)據(jù)BigData”很熱門(mén)“大數(shù)據(jù)BigData”,大概是爆紅速度僅次于云計(jì)算的科技新名詞,過(guò)去一年來(lái),云計(jì)算雖然還是很熱門(mén)的話題,但更熱門(mén)的是大數(shù)據(jù),情況就像幾年前廠商不約而同在談云計(jì)算一樣。業(yè)界逐步開(kāi)始區(qū)分大數(shù)據(jù)和云計(jì)算兩個(gè)概念。前者主要指業(yè)務(wù)問(wèn)題、創(chuàng)新機(jī)會(huì)和技術(shù)平臺(tái),后者主要指按需付費(fèi)、資源動(dòng)態(tài)調(diào)配、自服務(wù)的商業(yè)模式。從大數(shù)據(jù)BigData和云計(jì)算CloudComputing在Google上的搜索趨勢(shì)(100代表最大搜索量)上看,對(duì)大數(shù)據(jù)的關(guān)注已經(jīng)逐步超過(guò)了云計(jì)算。對(duì)大數(shù)據(jù)的需求主要集中在分析Analytics和使用方面?!按髷?shù)據(jù)BigData”很熱門(mén)“大數(shù)據(jù)BigData”,Gartner:HypeCycleforEmergingTechnologies,2012Gartner:HypeCycleforEmergin典型的大數(shù)據(jù)傳感器RFID從2005年的1.3億增加到2010年的30億互聯(lián)網(wǎng)Google每天處理大約24PB的數(shù)據(jù)社交網(wǎng)絡(luò)Facebook每天處理25TB的數(shù)據(jù)Twitter每天處理7TB的數(shù)據(jù)電信中國(guó)移動(dòng)每天產(chǎn)生10TB+話單、30TB+上網(wǎng)日志和100TB+信令數(shù)據(jù)金融每交易周期,紐約證券交易所捕獲1TB的交易信息零售沃爾瑪每小時(shí)要處理100萬(wàn)筆電子交易記錄科研歐洲核子研究中心的強(qiáng)子對(duì)撞機(jī)每秒產(chǎn)生40TB數(shù)據(jù)政府美國(guó)政府擁有848PB數(shù)據(jù),居于美國(guó)第二位數(shù)據(jù)量井噴,據(jù)統(tǒng)計(jì),全球90%的數(shù)據(jù)都是在過(guò)去兩年中生成的。互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、傳感器、科研、金融正在產(chǎn)生越來(lái)越多的數(shù)據(jù)。典型的大數(shù)據(jù)傳感器數(shù)據(jù)量井噴,據(jù)統(tǒng)計(jì),全球90%的數(shù)據(jù)都是在互聯(lián)網(wǎng)上的一分鐘互聯(lián)網(wǎng)上的一分鐘大數(shù)據(jù)的特征——3V有人說(shuō)大數(shù)據(jù)的特征是3V,有的說(shuō)是3V+1V(價(jià)值),有的說(shuō)是3V+1C(處理復(fù)雜性),但是3V是跑不了的,這些體現(xiàn)了大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)的特點(diǎn)。數(shù)據(jù)大(Volume),例如Facebook每天在30萬(wàn)臺(tái)服務(wù)器上處理25Tb數(shù)據(jù)時(shí)效性要求高(Velocity),例如搜索引擎要求在幾分鐘內(nèi)為用戶查詢新聞種類和來(lái)源多樣化(Variety),除了結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)大量產(chǎn)生大數(shù)據(jù)的特征——3V有人說(shuō)大數(shù)據(jù)的特征是3V,有的說(shuō)是3V+大數(shù)據(jù)眾生態(tài)在全球經(jīng)濟(jì)的很多領(lǐng)域,大數(shù)據(jù)在以很多的方式創(chuàng)造價(jià)值。事實(shí)上,研究表明:隨著消費(fèi)者、公司、各個(gè)經(jīng)濟(jì)領(lǐng)域不斷挖掘大數(shù)據(jù)的潛力,我們正處在一個(gè)巨大的浪潮的尖峰,這個(gè)浪潮,就是大數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新、生產(chǎn)效率提高、經(jīng)濟(jì)增長(zhǎng)以及新的競(jìng)爭(zhēng)形式和新的價(jià)值的產(chǎn)生。——《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)率的前沿》麥肯錫全球研究所2011年5月在對(duì)全球100個(gè)國(guó)家及地區(qū)從事30個(gè)行業(yè)的3000名高管進(jìn)行的調(diào)查中,有60%的受訪者表示無(wú)法有效利用所有數(shù)據(jù)。而近期IBM對(duì)64個(gè)國(guó)家及地區(qū)從事19個(gè)行業(yè)的1700名首席營(yíng)銷官開(kāi)展的最新調(diào)查更是進(jìn)一步體現(xiàn)了出這個(gè)問(wèn)題的嚴(yán)峻性:調(diào)查結(jié)果顯示,71%的首席營(yíng)銷官表示他們的企業(yè)沒(méi)有做好充分準(zhǔn)備來(lái)應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn)。

——《IBM-麻省理工斯隆管理學(xué)院評(píng)論》2011年大數(shù)據(jù)不是一個(gè)單獨(dú)的市場(chǎng),它無(wú)處不在,以一切可以想象出的方式影響著商業(yè)。大數(shù)據(jù)的涌入將迫使產(chǎn)品、業(yè)務(wù)和解決方案發(fā)生變化。這種變化非???,企業(yè)可能不得不淘汰要求的現(xiàn)有解決方案。2012年大數(shù)據(jù)將直接或間接拉動(dòng)全球960億美元IT支出,預(yù)計(jì)這一數(shù)據(jù)2013年將達(dá)到1200億美元,2016年達(dá)到2320億美元。新支出將流向社交媒體、社交網(wǎng)絡(luò)分析和內(nèi)容分析。支持大數(shù)據(jù)需要使用大量服務(wù),高達(dá)軟件采購(gòu)支出的20倍。擁有相應(yīng)技能的人才非常稀缺,但需求旺盛?!狦artner2012年10月大數(shù)據(jù)眾生態(tài)在全球經(jīng)濟(jì)的很多領(lǐng)域,大數(shù)據(jù)在以很多的方式創(chuàng)造價(jià)大數(shù)據(jù)各家看點(diǎn)有人認(rèn)為大數(shù)據(jù)是大麻煩,有人認(rèn)為大數(shù)據(jù)是大挑戰(zhàn),有人認(rèn)為大數(shù)據(jù)是大機(jī)遇。還有大知識(shí)、大科技、大利潤(rùn)、大發(fā)展…麻煩各種各樣的海量數(shù)據(jù),從來(lái)不刪除數(shù)據(jù),對(duì)并發(fā)讀取、寫(xiě)入的要求極高,每次可能訪問(wèn)上PB的數(shù)據(jù),真麻煩!挑戰(zhàn)傳統(tǒng)數(shù)據(jù)庫(kù)、小型機(jī)、陣列不是為了大數(shù)據(jù)的業(yè)務(wù)需求設(shè)計(jì)的,非常吃力,成本高,根本無(wú)法支撐。是一個(gè)挑戰(zhàn)!機(jī)遇在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)就是直接的財(cái)富、就是核心的競(jìng)爭(zhēng)力,很多行業(yè),都要相繼跨入一個(gè)數(shù)據(jù)興則企業(yè)興、數(shù)據(jù)強(qiáng)則企業(yè)強(qiáng)的競(jìng)爭(zhēng)時(shí)代!大數(shù)據(jù)各家看點(diǎn)有人認(rèn)為大數(shù)據(jù)是大麻煩,有人認(rèn)為大數(shù)據(jù)是大挑戰(zhàn)大數(shù)據(jù)已經(jīng)上升到美國(guó)政府國(guó)家戰(zhàn)略2010年12月,總統(tǒng)行政辦公室下屬的科技技術(shù)顧問(wèn)委員會(huì),信息技術(shù)顧問(wèn)委員會(huì)向奧巴馬和國(guó)會(huì)提交了《規(guī)劃數(shù)據(jù)未來(lái)》的專門(mén)報(bào)告,該報(bào)告把數(shù)據(jù)收集和使用的工作,提到了戰(zhàn)略的高度?!叭绾问占⒈4?、維護(hù)、管理、分析、共享正在呈指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)是我們必須面對(duì)的一個(gè)重要挑戰(zhàn)。如何保證這些數(shù)據(jù)現(xiàn)在、將來(lái)的完整性和可用性,我們面臨著很多的問(wèn)題和挑戰(zhàn)。如何使用這些數(shù)據(jù),則是另外一個(gè)挑戰(zhàn)。。。。應(yīng)對(duì)好這些挑戰(zhàn),將引導(dǎo)我們?cè)诳蒲?、醫(yī)療、商業(yè)和國(guó)家安全方面開(kāi)創(chuàng)新的成功?!?012年3月29日,奧巴馬政府又進(jìn)一步推進(jìn)了其“大數(shù)據(jù)戰(zhàn)略”。奧巴馬的高級(jí)顧問(wèn)、總統(tǒng)科學(xué)技術(shù)顧問(wèn)委員會(huì)的主席霍爾德倫代表國(guó)防部、能源部等6個(gè)聯(lián)邦政府部門(mén)宣布,將投入2億多美元立即啟動(dòng)“大數(shù)據(jù)發(fā)展研究計(jì)劃”BigDataResearchandDevelopmentInitiative,以推動(dòng)大數(shù)據(jù)的提取、存儲(chǔ)、分析、共享和可視化。美國(guó)政府推出了“大數(shù)據(jù)”戰(zhàn)略,媲美與當(dāng)年克林頓政府時(shí)代的信息高速公路計(jì)劃。奧巴馬希望借助大數(shù)據(jù)來(lái)將美國(guó)經(jīng)濟(jì)帶出泥潭。從基礎(chǔ)建設(shè)、到IT硬件、軟件、網(wǎng)絡(luò),最后到數(shù)據(jù)。大數(shù)據(jù)已經(jīng)上升到美國(guó)政府國(guó)家戰(zhàn)略2010年12月,總統(tǒng)行政辦“與數(shù)俱進(jìn)”:聯(lián)合國(guó)發(fā)布大數(shù)據(jù)政務(wù)白皮書(shū)聯(lián)合國(guó)于2012年7月10日在紐約總部發(fā)布了一份大數(shù)據(jù)政務(wù)白皮書(shū)《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》,總結(jié)了各國(guó)政府如何利用大數(shù)據(jù)更好地服務(wù)和保護(hù)人民。大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)大數(shù)據(jù)對(duì)于聯(lián)合國(guó)和各國(guó)政府來(lái)說(shuō)是一個(gè)歷史性的機(jī)遇,報(bào)告解釋了大數(shù)據(jù)如何幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)指標(biāo)變化,例如收入、失業(yè)、食品價(jià)格等。以愛(ài)爾蘭和美國(guó)的社交網(wǎng)絡(luò)活躍度增長(zhǎng)可以作為失業(yè)率上升的早期征兆為例,表明政府如果能合理分析所掌握的數(shù)據(jù)資源,將能“與數(shù)俱進(jìn)”,快速應(yīng)變。該報(bào)告是聯(lián)合國(guó)“全球脈搏”項(xiàng)目的產(chǎn)物?!叭蛎}搏”是聯(lián)合國(guó)發(fā)起的一個(gè)全新項(xiàng)目,旨在利用消費(fèi)互聯(lián)網(wǎng)的數(shù)據(jù)推動(dòng)全球發(fā)展。利用自然語(yǔ)言解碼軟件,可以對(duì)社交網(wǎng)絡(luò)和手機(jī)短信中的信息進(jìn)行情緒分析,從而對(duì)失業(yè)率增加、區(qū)域性開(kāi)支降低或疾病暴發(fā)等進(jìn)行預(yù)測(cè)。建議聯(lián)合國(guó)成員國(guó)建設(shè)“脈搏實(shí)驗(yàn)室”“PulseLabs”網(wǎng)絡(luò)開(kāi)發(fā)大數(shù)據(jù)的潛在價(jià)值?!芭c數(shù)俱進(jìn)”:聯(lián)合國(guó)發(fā)布大數(shù)據(jù)政務(wù)白皮書(shū)聯(lián)合國(guó)于2012年7駕馭大數(shù)據(jù)能夠改變什么?——傳感器、智慧地球2011年3月11日日本大地震發(fā)生后僅9分鐘,美國(guó)國(guó)家海洋和大氣管理局(NOAA)就發(fā)布了詳細(xì)的海嘯預(yù)警。NOAA通過(guò)對(duì)海洋傳感器獲得的實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算機(jī)模擬,制作的海嘯影響模型出現(xiàn)在各大網(wǎng)站。1962年,經(jīng)過(guò)“圣灰星期三”風(fēng)暴后,美國(guó)陸軍工程部和美國(guó)國(guó)家海洋與大氣管理局共同建設(shè)了一個(gè)傳感器監(jiān)測(cè)系統(tǒng),對(duì)興風(fēng)作浪的海洋進(jìn)行監(jiān)測(cè)。2005年,浮標(biāo)上安裝了更高端的傳感器,用來(lái)監(jiān)測(cè)海浪方向。2009年,系統(tǒng)再次升級(jí),開(kāi)始著手建立一個(gè)覆蓋全美海岸線的精確海浪監(jiān)測(cè)網(wǎng)絡(luò)。這些傳感器以分秒為單位,將數(shù)據(jù)源源不斷實(shí)時(shí)傳回。還記得《后天》里面那個(gè)場(chǎng)景?駕馭大數(shù)據(jù)能夠改變什么?——傳感器、智慧地球2011年3月1駕馭大數(shù)據(jù)能夠改變什么?——情感分析、輿情分析通過(guò)對(duì)BBS、博客、微博中內(nèi)容的分析,政府、企業(yè)和個(gè)人可以了解當(dāng)前輿論情況,公眾對(duì)待某一事物的看法。目前圍繞這個(gè)產(chǎn)業(yè),催生了一大撥的創(chuàng)新公司。通過(guò)分析15萬(wàn)條關(guān)于劉翔的微博,分詞并析取出其中使用的字詞。在分析中,我們發(fā)現(xiàn),為劉翔吶喊助威的聲音占了統(tǒng)治地位,然而也有微博用戶激烈地批評(píng)劉翔。這是我們第一次能對(duì)如此數(shù)量的中國(guó)用戶進(jìn)行數(shù)據(jù)可視化和情感分析在所有關(guān)于劉翔的微博中出現(xiàn)的最顯著的名詞和形容詞。結(jié)點(diǎn)越大表明越多人使用過(guò)這個(gè)詞。兩個(gè)結(jié)點(diǎn)離得越近表明它們一起出現(xiàn)在同一用戶微博中的頻率越高。我們?cè)跇?gòu)造出的這個(gè)圖中,可以非常明顯地發(fā)現(xiàn)劉翔支持者所用的詞語(yǔ)(右下)以及批評(píng)者所有的詞語(yǔ)(左上)的巨大區(qū)別。駕馭大數(shù)據(jù)能夠改變什么?——情感分析、輿情分析通過(guò)對(duì)BBS、駕馭大數(shù)據(jù)能夠改變什么?——語(yǔ)言、文字分析奧巴馬和羅姆尼辯論情況分析。駕馭大數(shù)據(jù)能夠改變什么?——語(yǔ)言、文字分析奧巴馬和羅姆尼辯論駕馭大數(shù)據(jù)能夠改變什么?——社會(huì)化網(wǎng)絡(luò)分析分析在社交網(wǎng)絡(luò)上談?wù)摰那闆r以及分享的購(gòu)物情況,來(lái)發(fā)現(xiàn)失業(yè)率變化情況和經(jīng)濟(jì)發(fā)展?fàn)顩r。駕馭大數(shù)據(jù)能夠改變什么?——社會(huì)化網(wǎng)絡(luò)分析分析在社交網(wǎng)絡(luò)上談駕馭大數(shù)據(jù)能夠改變什么?——社交網(wǎng)絡(luò)分析、微博營(yíng)銷電信行業(yè)、傳媒業(yè)借助社交網(wǎng)絡(luò)分析,對(duì)客戶的通話數(shù)據(jù)、微博連接進(jìn)行分析,能夠識(shí)別出這部分“影響者”。社交分析并不是分析單一用戶的通話記錄和微博信息,而是分析各用戶所處的社交網(wǎng)絡(luò)。圈子識(shí)別關(guān)鍵成員識(shí)別傳播影響分析重入網(wǎng)用戶識(shí)別雙機(jī)雙卡用戶識(shí)別六度空間理論關(guān)系強(qiáng)度分析駕馭大數(shù)據(jù)能夠改變什么?——社交網(wǎng)絡(luò)分析、微博營(yíng)銷電信行業(yè)、駕馭大數(shù)據(jù)能夠改變什么?——客戶特征與交叉銷售以及更多今年年初,美國(guó)一名男子闖入了他家附近的Target店鋪(Target是一家美國(guó)零售連鎖超市)。“你們?cè)趺茨苓@樣!”男人向店鋪經(jīng)理大吼到,“你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券,她才17歲啊!”店鋪經(jīng)理不知道發(fā)生了什么,立刻向來(lái)者道歉,表明那肯定是個(gè)誤會(huì)。然而,經(jīng)理沒(méi)有意識(shí)到,公司正在運(yùn)行一套大數(shù)據(jù)系統(tǒng)。一個(gè)月后,這個(gè)憤怒的父親打來(lái)電話道歉,因?yàn)門(mén)arget發(fā)來(lái)的嬰兒用品促銷廣告并不是誤發(fā),他的女兒的確懷孕了?!都~約時(shí)報(bào)》報(bào)道更多:反恐(萬(wàn)維信息觸角計(jì)劃與建言計(jì)劃),庫(kù)存管理(沃爾瑪?shù)腞etailLink)、賣數(shù)據(jù)!大數(shù)據(jù)驅(qū)動(dòng)市場(chǎng)營(yíng)銷、驅(qū)動(dòng)成本控制、驅(qū)動(dòng)產(chǎn)品和服務(wù)創(chuàng)新、驅(qū)動(dòng)管理和決策的創(chuàng)新、驅(qū)動(dòng)商業(yè)模式的創(chuàng)新。駕馭大數(shù)據(jù)能夠改變什么?——客戶特征與交叉銷售以及更多今年年駕馭大數(shù)據(jù)能夠改變什么?——算法交易、欺詐檢測(cè)欺詐檢測(cè):監(jiān)控信用卡使用,當(dāng)檢測(cè)的信用卡在很短的時(shí)間內(nèi)并且相距甚遠(yuǎn)的位置已連續(xù)被使用,檢測(cè)到欺詐行為,拒絕卡的使用算法交易:及時(shí)發(fā)現(xiàn)存在的交易機(jī)會(huì),每次一小筆,毫秒級(jí)交易,每天進(jìn)行數(shù)量眾多的交易。已經(jīng)成為趨勢(shì)金融交易是最能體現(xiàn)大數(shù)據(jù)的Velocity特性的,機(jī)會(huì)稍縱即逝,甚至券商對(duì)連接到交易主機(jī)的網(wǎng)線長(zhǎng)度都有至關(guān)重要的訴求。算法交易成為趨勢(shì),但也導(dǎo)致了一次小型的股災(zāi)。駕馭大數(shù)據(jù)能夠改變什么?——算法交易、欺詐檢測(cè)欺詐檢測(cè):監(jiān)控?cái)?shù)字競(jìng)選團(tuán)隊(duì)我們會(huì)在此次競(jìng)選活動(dòng)中對(duì)每個(gè)事件進(jìn)行數(shù)據(jù)分析。”團(tuán)隊(duì)聘請(qǐng)了一大批分析員,人數(shù)規(guī)模甚至達(dá)到了2008年競(jìng)選時(shí)數(shù)據(jù)分析部門(mén)的五倍(據(jù)了解大概100多人)整合信息資源奧巴馬競(jìng)選團(tuán)隊(duì)的一位官員表示:“我們知道,民主黨的問(wèn)題就在于擁有了大多的數(shù)據(jù)庫(kù),且沒(méi)有哪兩個(gè)數(shù)據(jù)庫(kù)是相同的”。因此,在總統(tǒng)競(jìng)選前的18個(gè)月,競(jìng)選團(tuán)隊(duì)就創(chuàng)建了一個(gè)龐大系統(tǒng),這一系統(tǒng)可以將民調(diào)者、注資者、工作人員、消費(fèi)者、社交媒體以及“搖擺州”主要的民主黨投票人的信息進(jìn)行整合。競(jìng)選結(jié)果預(yù)測(cè)奧巴馬的數(shù)據(jù)分析團(tuán)隊(duì)此前曾在關(guān)鍵州收集數(shù)據(jù),并建立了4條投票數(shù)據(jù)流,用于拼湊出當(dāng)?shù)剡x民的詳細(xì)數(shù)據(jù)模型。奧巴馬的數(shù)據(jù)分析團(tuán)隊(duì)可以更清楚的了解每類人群和地區(qū)選民在任何時(shí)刻的投票傾向。開(kāi)辟第二戰(zhàn)場(chǎng)奧巴馬競(jìng)選團(tuán)隊(duì)首次利用Facebook這些社交網(wǎng)絡(luò)進(jìn)行大規(guī)模的游說(shuō),就像此前挨家挨戶敲門(mén)拉票的方式一樣。數(shù)據(jù)還幫助奧巴馬競(jìng)選團(tuán)隊(duì)更好的作出了廣告購(gòu)買(mǎi)的決策。在選擇廣告投放渠道時(shí),他們沒(méi)有依靠外部顧問(wèn),而是基于內(nèi)部數(shù)據(jù)得出結(jié)論。奧巴馬連任的機(jī)密:“大數(shù)據(jù)”制勝的四大法寶數(shù)字競(jìng)選團(tuán)隊(duì)我們會(huì)在此次競(jìng)選活動(dòng)中對(duì)每個(gè)事件進(jìn)行數(shù)據(jù)分析?!蹦夸浐颖币苿?dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13目錄河北移動(dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13應(yīng)對(duì)“大數(shù)據(jù)”的技術(shù)世界正在從“大量”的“小數(shù)據(jù)”,向“少量”的“大數(shù)據(jù)”演進(jìn)。原來(lái)按通用需求所設(shè)計(jì)的產(chǎn)品越來(lái)越不實(shí)用,專用化和深度定制成為應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的技術(shù)趨勢(shì)。代碼和數(shù)據(jù)不分類代碼+文件通用關(guān)系數(shù)據(jù)庫(kù)+應(yīng)用代碼層次型數(shù)據(jù)庫(kù)網(wǎng)狀型數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)處理技術(shù)OLTP數(shù)據(jù)庫(kù)內(nèi)存數(shù)據(jù)庫(kù)OLAP數(shù)據(jù)庫(kù)MPP數(shù)據(jù)庫(kù)科學(xué)計(jì)算數(shù)據(jù)庫(kù)NOSQLHadoop/MR流處理初始期IT系統(tǒng)較少,較為專業(yè),采取深度定制、耦合的方式,軟硬件由同一廠商提供。發(fā)展期IT系統(tǒng)暴增,軟件行業(yè)開(kāi)始形成,通用數(shù)據(jù)庫(kù)得到大量應(yīng)用,提供標(biāo)準(zhǔn)化和分層。大數(shù)據(jù)期IT系統(tǒng)整合、減少,但是數(shù)據(jù)量和復(fù)雜度變大。平臺(tái)技術(shù)開(kāi)始重新由通用變?yōu)閷S?,并且通過(guò)深度耦合得到更高的效率。OneSizefitsall?應(yīng)對(duì)“大數(shù)據(jù)”的技術(shù)世界正在從“大量”的“小數(shù)據(jù)”,向“少量根據(jù)我們自身情況主要關(guān)注的四項(xiàng)技術(shù)沒(méi)有銀彈,大數(shù)據(jù)時(shí)代也是如此。就我們的大數(shù)據(jù)需求來(lái)說(shuō),需要主要關(guān)注四項(xiàng)技術(shù)/產(chǎn)品,它們的主要特點(diǎn)、代表產(chǎn)品和解決的大數(shù)據(jù)問(wèn)題如下:Hadoop:非結(jié)構(gòu)化或批量簡(jiǎn)單匯總、非實(shí)時(shí)處理、數(shù)據(jù)挖掘MPP數(shù)據(jù)庫(kù):結(jié)構(gòu)化、關(guān)聯(lián)性分析、即席分析NoSql:結(jié)構(gòu)化或非結(jié)構(gòu)化存儲(chǔ)與實(shí)時(shí)查詢流處理:實(shí)時(shí)數(shù)據(jù)處理過(guò)濾,規(guī)則匹配根據(jù)我們自身情況主要關(guān)注的四項(xiàng)技術(shù)沒(méi)有銀彈,大數(shù)據(jù)時(shí)代也是如四種技術(shù)之Hadoop/MRHadoop,包括HDFS和其上的MR,被認(rèn)為是解決大數(shù)據(jù)中必不可少的一項(xiàng)技術(shù)和產(chǎn)品。它能輕易實(shí)現(xiàn)各種批量數(shù)據(jù)處理,而且因?yàn)槠湓O(shè)計(jì)的簡(jiǎn)化,能輕易分布到海量的X86服務(wù)器上,2000、3000節(jié)點(diǎn)的Hadoop場(chǎng)景是較為常見(jiàn)的。優(yōu)點(diǎn)處理各種結(jié)構(gòu)的數(shù)據(jù)靈活的處理方式,通過(guò)Java編寫(xiě)MR框架易于擴(kuò)展、伸縮,達(dá)到3000節(jié)點(diǎn)以上(因其非對(duì)等節(jié)點(diǎn)模型設(shè)計(jì))缺點(diǎn)(對(duì)原生解決方案而言)對(duì)靈活的查詢的支持和響應(yīng)速度流水線操作優(yōu)化Map和Reduce大量數(shù)據(jù)交換問(wèn)題案例:淘寶、支付寶、騰訊產(chǎn)品:BC-ETL/OC-ETL/SmartMiner儲(chǔ)備:兩期云計(jì)算ETL在經(jīng)分中應(yīng)用研究,目前在開(kāi)展四省試點(diǎn)四種技術(shù)之Hadoop/MRHadoop,包括HDFS和其上四種技術(shù)之MPPDB2004年以后出現(xiàn)了一些新型的MPPDB,例如GreenPlum、Vertica、AsterData等。它們借鑒云計(jì)算的成功,設(shè)計(jì)為部署在低成本的X86通用硬件上,通過(guò)副本的方式保證高可用。由于其sharenothing架構(gòu)以及SQL接口均為成熟技術(shù),輕易獲得了大量廠商和工具的支持。優(yōu)點(diǎn)接口友好,支持度高,兼容性強(qiáng)可以處理復(fù)雜的查詢查詢響應(yīng)時(shí)間快缺點(diǎn)(對(duì)原生解決方案而言)只能處理結(jié)構(gòu)化數(shù)據(jù)高并發(fā)查詢和操作困難由于其Hash數(shù)據(jù)分布方式、對(duì)數(shù)據(jù)的保存、并發(fā)等精妙的設(shè)計(jì)方式限定了可擴(kuò)展性。通常沒(méi)有經(jīng)過(guò)專門(mén)優(yōu)化的話限定在100節(jié)點(diǎn)之下。案例:聯(lián)通、eBay產(chǎn)品:GP/Vertica等儲(chǔ)備:完成了新型數(shù)據(jù)倉(cāng)庫(kù)測(cè)試節(jié)點(diǎn)1節(jié)點(diǎn)2節(jié)點(diǎn)3…本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)以太網(wǎng)交換機(jī)CPUMEMCPUMEMCPUMEMCPUMEM四種技術(shù)之MPPDB2004年以后出現(xiàn)了一些新型的MPP四種技術(shù)之NoSQL隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)在應(yīng)付web2.0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動(dòng)態(tài)網(wǎng)站已經(jīng)顯得力不從心,暴露了很多難以克服的問(wèn)題,而非關(guān)系型的數(shù)據(jù)庫(kù)則由于其本身的特點(diǎn)得到了非常迅速的發(fā)展。優(yōu)點(diǎn)為少量大并發(fā)數(shù)據(jù)寫(xiě)入和讀出優(yōu)化數(shù)據(jù)模式可以靈活變更可擴(kuò)展性強(qiáng)缺點(diǎn)(對(duì)原生解決方案而言)與應(yīng)用深度耦合,高度定制化,對(duì)應(yīng)用要求較高接口一般為私有案例:亞馬遜、LinkedIn產(chǎn)品:Hbase/MongoDB儲(chǔ)備:云詳單查詢的試點(diǎn)四種技術(shù)之NoSQL隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的四種技術(shù)之Stream其他技術(shù)在處理時(shí)效性方面都無(wú)法達(dá)到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的地步,但是在某些場(chǎng)景,比如算法交易、欺詐檢測(cè)、實(shí)時(shí)營(yíng)銷等方面,需要從大量的信息中及時(shí)發(fā)現(xiàn)潛在模式,這種情況下,就要使用流處理的技術(shù)——Stream。優(yōu)點(diǎn)基本內(nèi)存處理,速度快可并行,可擴(kuò)展編程方式靈活,可以處理復(fù)雜結(jié)構(gòu)數(shù)據(jù)缺點(diǎn)不保證事務(wù)完整難以處理某些大數(shù)據(jù)類型,比如需要查表之類的案例:XX銀行產(chǎn)品:Storm/S4儲(chǔ)備:正在開(kāi)展流處理研究四種技術(shù)之Stream其他技術(shù)在處理時(shí)效性方面都無(wú)法達(dá)到實(shí)時(shí)河北移動(dòng)有各種各樣的“大數(shù)據(jù)”需求數(shù)據(jù)特征處理特征使用特征1.數(shù)據(jù)單位存儲(chǔ)價(jià)值不同高價(jià)值:CRM\BOSS的各類資料數(shù)據(jù)、賬單、清單低價(jià)值:日志、網(wǎng)頁(yè)中價(jià)值:高價(jià)值中長(zhǎng)期數(shù)據(jù)和低價(jià)值收斂數(shù)據(jù)20%的結(jié)構(gòu)化數(shù)據(jù)提供80%的價(jià)值。2.實(shí)時(shí)要求不同分鐘、小時(shí)、日、周、月3.數(shù)據(jù)類型不同結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化1.調(diào)度模式不同批量任務(wù)、小批量任務(wù)、流式處理2.加工特征不同關(guān)聯(lián)整合處理匯總,拋棄輸入?yún)R總,不拋棄輸入關(guān)聯(lián)+匯總更新,不保留歷史1.使用角色不同業(yè)務(wù)人員:低操作能力IT分析師:中操作能力數(shù)據(jù)科學(xué)家:高技術(shù)能力2.使用方式不同消息型:向一線推送瀏覽型:決策層簡(jiǎn)單處理型:業(yè)務(wù)人員復(fù)雜處理探索型:分析師高級(jí)編程型:不直接使用型:機(jī)器處理Ad-hoc類使用成為趨勢(shì)企業(yè)級(jí)數(shù)據(jù)中心具有典型的大數(shù)據(jù)發(fā)展趨勢(shì),即3V特征(volumn海量、variety多樣、velocity高速處理)。如何應(yīng)對(duì)經(jīng)分海量數(shù)據(jù)處理壓力,需要分析企業(yè)級(jí)數(shù)據(jù)中心的數(shù)據(jù)特征、使用特征和處理特征。河北移動(dòng)有各種各樣的“大數(shù)據(jù)”需求數(shù)據(jù)特征處理特征使用特征1將上述四種基礎(chǔ)能力池化,開(kāi)放提供給不同的需求使用不同的需求可能會(huì)使用不同的技術(shù),同一個(gè)需求也有相近的幾種方式可以選擇,而且這些大數(shù)據(jù)技術(shù)都在不斷的發(fā)展之中。為了保持架構(gòu)的靈活性,應(yīng)該采取云計(jì)算的方法,將這些技術(shù)能力池化,通過(guò)“市場(chǎng)”這支看不見(jiàn)的手來(lái)調(diào)節(jié)需求,做好資源的動(dòng)態(tài)劃撥。企業(yè)數(shù)據(jù)中心SaaSDaaSIaaSRaaSX86資源池存儲(chǔ)資源池高性能硬件資源池MPP數(shù)據(jù)庫(kù)池Hadoop池NoSQL池(軟件即服務(wù))(資源即服務(wù))(數(shù)據(jù)即服務(wù))(基礎(chǔ)設(shè)施即服務(wù))PaaS(平臺(tái)即服務(wù))ETL工具……數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)管理自助分析工具自助服務(wù)自助取數(shù)自助分析數(shù)據(jù)導(dǎo)入導(dǎo)出……常規(guī)應(yīng)用集團(tuán)客戶分析終端分析流量分析…..網(wǎng)絡(luò)資源池流處理池將上述四種基礎(chǔ)能力池化,開(kāi)放提供給不同的需求使用不同的需求可目錄應(yīng)對(duì)大數(shù)據(jù)的技術(shù)河北移動(dòng)的機(jī)會(huì)3什么是大數(shù)據(jù)?12目錄應(yīng)對(duì)大數(shù)據(jù)的技術(shù)河北移動(dòng)的機(jī)會(huì)3什么是大數(shù)據(jù)?12抓住大數(shù)據(jù)機(jī)遇,實(shí)現(xiàn)信息運(yùn)營(yíng),探索移動(dòng)互聯(lián)網(wǎng)新盈利模式在線統(tǒng)計(jì)功能按模塊開(kāi)放給合作伙伴,模塊包括:互聯(lián)網(wǎng)輿情分析、熱點(diǎn)業(yè)務(wù)分析、終端類型占比、移動(dòng)商盟商家排名、用戶偏好分析等等合作伙伴可在線訂購(gòu)和開(kāi)通各個(gè)模塊如果現(xiàn)有數(shù)據(jù)信息產(chǎn)品不能滿足合作伙伴的需求,那么合作伙伴可在線提出幫扶申請(qǐng)幫扶方式有兩種,一是定制信息產(chǎn)品;二是由輔助運(yùn)營(yíng)團(tuán)隊(duì)制定針對(duì)性解決方案并線上交付各種行業(yè)報(bào)告都以書(shū)店形式進(jìn)行售賣合作伙伴可以預(yù)覽和訂購(gòu),但所有下載報(bào)告均設(shè)置有信息安全權(quán)限在線統(tǒng)計(jì)分析購(gòu)買(mǎi)行業(yè)報(bào)告提出專項(xiàng)幫扶需求河北移動(dòng)企業(yè)級(jí)數(shù)據(jù)中心首先實(shí)現(xiàn)對(duì)內(nèi)的服務(wù),然后應(yīng)當(dāng)對(duì)外開(kāi)放,像淘寶開(kāi)放平臺(tái)那樣吸引外部開(kāi)發(fā)者進(jìn)駐,在不影響客戶隱私的前提下充分挖掘大數(shù)據(jù)價(jià)值,發(fā)現(xiàn)商機(jī),并將大數(shù)據(jù)應(yīng)用推給那些需要他們的人和企業(yè),比如零售、交通、旅游等等。抓住大數(shù)據(jù)機(jī)遇,實(shí)現(xiàn)信息運(yùn)營(yíng),探索移動(dòng)互聯(lián)網(wǎng)新盈利模式在線統(tǒng)互聯(lián)網(wǎng)業(yè)界思想借鑒馬云的目標(biāo):未來(lái)將讓整個(gè)社會(huì)去分享數(shù)據(jù)。我們的目標(biāo):讓整個(gè)企業(yè)分享數(shù)據(jù)。需要容納變化的支撐模式,大數(shù)據(jù)的處理技術(shù),孕育和適應(yīng)業(yè)務(wù)變化。數(shù)據(jù)時(shí)代:核心不再是分析數(shù)據(jù),而是分享數(shù)據(jù)。數(shù)據(jù)是越用越值錢(qián),不像是一瓶水,你喝過(guò)我不能再喝。數(shù)據(jù)是你用過(guò)增值,他用過(guò)再增值。信息時(shí)代:基于我比別人聰明的基礎(chǔ)上面的,收集了很多數(shù)據(jù),編好以后給別人,這稱之為信息處理過(guò)的。數(shù)據(jù)是相信別人比我聰明,你把原始數(shù)據(jù)交給別人了,讓比你聰明的人去處理。變化的業(yè)務(wù)模式?更大規(guī)模的數(shù)據(jù)處理?更復(fù)雜的處理邏輯?多平臺(tái)數(shù)據(jù)融合?自助分析能力?對(duì)外開(kāi)放與合作?互聯(lián)網(wǎng)業(yè)界思想借鑒馬云的目標(biāo):未來(lái)將讓整個(gè)社會(huì)去分享數(shù)據(jù)。我聯(lián)通的大數(shù)據(jù)實(shí)踐互聯(lián)網(wǎng)服務(wù)提供商早就建立了自己的大數(shù)據(jù)平臺(tái),比如阿里云、騰訊云平臺(tái)、新浪云平臺(tái)。就連同為電信運(yùn)營(yíng)商的中國(guó)聯(lián)通也開(kāi)始將大數(shù)據(jù)平臺(tái)投入應(yīng)用。Hadoop/NoSQL平臺(tái)(目前172個(gè)節(jié)點(diǎn))集中采集各省的上網(wǎng)日志,提供智能管道、網(wǎng)絡(luò)優(yōu)化、客戶服務(wù)、用戶分析、外部監(jiān)管五大應(yīng)用MPPDB平臺(tái)(二期擴(kuò)容至220個(gè)節(jié)點(diǎn))聯(lián)通集中化經(jīng)分一期試用了GP搭建分布式數(shù)據(jù)庫(kù)平臺(tái),二期即將進(jìn)行擴(kuò)容,對(duì)B\O\M的三域數(shù)據(jù)進(jìn)行統(tǒng)一加工和分析呈現(xiàn)聯(lián)通的大數(shù)據(jù)實(shí)踐互聯(lián)網(wǎng)服務(wù)提供商早就建立了自己的大數(shù)據(jù)平臺(tái),電信的大數(shù)據(jù)戰(zhàn)略電信的大數(shù)據(jù)戰(zhàn)略集團(tuán)大數(shù)據(jù)規(guī)劃思路1、基于云資源池進(jìn)行建設(shè);2、構(gòu)建主數(shù)據(jù)倉(cāng)庫(kù)集群、深度分析庫(kù)集群以及hadoop云平臺(tái);3、考慮到多廠家數(shù)據(jù)庫(kù)的問(wèn)題,構(gòu)建透明訪問(wèn)層;4、數(shù)據(jù)采集處理,未考慮實(shí)時(shí)處理的需求,主要在于其不直接面向生產(chǎn)一線,更多的是數(shù)據(jù)融合分析;5、系統(tǒng)管理采用統(tǒng)一的云管維平臺(tái);集團(tuán)大數(shù)據(jù)規(guī)劃思路1、基于云資源池進(jìn)行建設(shè);他省大數(shù)據(jù)規(guī)劃思路廣西決策支持域ASS統(tǒng)一數(shù)據(jù)接入中心統(tǒng)一云化ETL預(yù)處理平臺(tái)能力服務(wù)中心關(guān)系數(shù)據(jù)倉(cāng)庫(kù)分布式數(shù)據(jù)庫(kù)(MPP庫(kù))統(tǒng)一數(shù)據(jù)訪問(wèn)數(shù)據(jù)封裝基礎(chǔ)功能組件應(yīng)用組裝配置對(duì)外服務(wù)支撐分析應(yīng)用中心基礎(chǔ)分析應(yīng)用挖掘分析應(yīng)用自助分析應(yīng)用實(shí)時(shí)分析應(yīng)用數(shù)據(jù)質(zhì)量管理中心實(shí)時(shí)庫(kù)B域數(shù)據(jù)源O域數(shù)據(jù)源M域數(shù)據(jù)源互聯(lián)網(wǎng)數(shù)據(jù)實(shí)時(shí)信令數(shù)據(jù)101111111、增加實(shí)時(shí)庫(kù),進(jìn)行實(shí)時(shí)數(shù)據(jù)處理;2、保留原來(lái)的關(guān)系型數(shù)據(jù)倉(cāng)庫(kù);3、構(gòu)建統(tǒng)一的Hadoop預(yù)處理平臺(tái);4、基于具體的網(wǎng)絡(luò)分析應(yīng)用-四網(wǎng)協(xié)同,接入網(wǎng)絡(luò)數(shù)據(jù)源;他省大數(shù)據(jù)規(guī)劃思路廣西決策支持域ASS統(tǒng)一數(shù)據(jù)接入中心統(tǒng)一云河北移動(dòng)企業(yè)級(jí)數(shù)據(jù)中心愿景

企業(yè)級(jí)數(shù)據(jù)中心是通過(guò)數(shù)據(jù)拉通企業(yè)各IT系統(tǒng)的平臺(tái),通過(guò)制定數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)融合分析,信息服務(wù)等手段向IT系統(tǒng)、業(yè)務(wù)人員、管理層、終端客戶提供數(shù)據(jù)服務(wù),推動(dòng)戰(zhàn)略轉(zhuǎn)型提升精細(xì)化管理水平成本收益精細(xì)化資源分配精細(xì)化員工績(jī)效精細(xì)化業(yè)務(wù)拓展精準(zhǔn)化營(yíng)銷效益最大化營(yíng)銷商機(jī)最多化提升營(yíng)銷精準(zhǔn)化效果豐富數(shù)據(jù)產(chǎn)品數(shù)據(jù)轉(zhuǎn)化資產(chǎn)推動(dòng)資產(chǎn)變現(xiàn)提升數(shù)據(jù)開(kāi)放能力目標(biāo)愿景:以數(shù)據(jù)為核心驅(qū)動(dòng)管理變革,構(gòu)建企業(yè)精細(xì)化運(yùn)營(yíng)管理生態(tài)體系。企業(yè)級(jí)數(shù)據(jù)中心數(shù)據(jù)從數(shù)據(jù)到知識(shí)的挑戰(zhàn)和跨越知識(shí)&信息開(kāi)放式平臺(tái)高性能要求低成本建設(shè)定義原則河北移動(dòng)企業(yè)級(jí)數(shù)據(jù)中心愿景企業(yè)級(jí)數(shù)據(jù)中心是通過(guò)警惕!大數(shù)據(jù)也可能是大麻煩大數(shù)據(jù)改變了原有商業(yè)軟硬件購(gòu)買(mǎi)方式,沒(méi)有了工業(yè)標(biāo)準(zhǔn)可以依靠,一切都是深度定制,在人員需求和合作伙伴方面均有不一樣的特征需要考慮。防止被合作伙伴綁定因?yàn)榇髷?shù)據(jù)方案都是專業(yè)的,深度定制的,缺乏標(biāo)準(zhǔn)的。貿(mào)然采用某一合作伙伴的產(chǎn)品不僅不能達(dá)到深度定制,貼近實(shí)際需求的目的,而且會(huì)帶來(lái)被深度綁定的危險(xiǎn),更換合作伙伴將變得難上加難。況且,辛辛苦苦與合作伙伴打造出來(lái)的產(chǎn)品頃刻間就會(huì)被售賣到競(jìng)爭(zhēng)對(duì)手手中,沒(méi)有任何技術(shù)優(yōu)勢(shì)可言,這也是互聯(lián)網(wǎng)企業(yè)這種以IT為核心競(jìng)爭(zhēng)力的企業(yè)選擇自行開(kāi)發(fā)的原因。注意成本結(jié)構(gòu)變動(dòng)大數(shù)據(jù)時(shí)代,占據(jù)IT構(gòu)建成本主要部分的小型機(jī)、磁盤(pán)陣列將被廉價(jià)的X86所代替,原來(lái)七/三開(kāi)的硬軟件支出將變?yōu)槿?七開(kāi)。在享受這一部分成本降低的同時(shí),應(yīng)注意補(bǔ)充資源到軟件部分,投入更多的開(kāi)發(fā)、運(yùn)維和架構(gòu)人員去進(jìn)行各種軟件的集成與深度定制,應(yīng)對(duì)不可靠、大規(guī)模硬件環(huán)境帶來(lái)的挑戰(zhàn)。思考和抉擇:像傳統(tǒng)那樣購(gòu)買(mǎi)像互聯(lián)網(wǎng)公司一樣自己干警惕!大數(shù)據(jù)也可能是大麻煩大數(shù)據(jù)改變了原有商業(yè)軟硬件購(gòu)買(mǎi)方式投入資源和人員,提前布局,應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)21世紀(jì)什么最珍貴,當(dāng)然是人才!大數(shù)據(jù)的上下層精密耦合和平臺(tái)的深度定制,將比傳統(tǒng)解決方案更加需要人才。從來(lái)沒(méi)有一個(gè)企業(yè)是依靠合作伙伴為主成功建立了大數(shù)據(jù)平臺(tái),也沒(méi)有一個(gè)企業(yè)是購(gòu)買(mǎi)產(chǎn)品來(lái)解決了大數(shù)據(jù)問(wèn)題。除非我們認(rèn)為IT后續(xù)將同質(zhì)化,否則應(yīng)該從現(xiàn)在就開(kāi)始儲(chǔ)備。人才培養(yǎng)資源投入提前布局培養(yǎng)專家。培養(yǎng)MPP數(shù)據(jù)庫(kù)、Hadoop、NoSQL的專家培養(yǎng)架構(gòu)師。培養(yǎng)懂得中國(guó)移動(dòng)大數(shù)據(jù)需求的架構(gòu)師培養(yǎng)開(kāi)發(fā)運(yùn)維人員。培養(yǎng)在深度定制和工具開(kāi)發(fā)方面的人才,組建開(kāi)發(fā)團(tuán)隊(duì)。首先建立實(shí)驗(yàn)平臺(tái)。對(duì)技術(shù)進(jìn)行驗(yàn)證和熟悉其次建立大數(shù)據(jù)平臺(tái),逐步補(bǔ)充MPP、Hadoop、NoSQL、流處理等多種能力在其中開(kāi)展預(yù)研課題。開(kāi)展MPP數(shù)據(jù)庫(kù)測(cè)試、Hadoop平臺(tái)架構(gòu)研究、NoSQL選型、流處理研究等多項(xiàng)預(yù)研課題。利用現(xiàn)有環(huán)境進(jìn)行試點(diǎn),積累經(jīng)驗(yàn)。對(duì)云ETL、云數(shù)據(jù)庫(kù)、流處理等多項(xiàng)技術(shù)利用現(xiàn)有的一經(jīng)和省經(jīng)進(jìn)行嘗試。投入資源和人員,提前布局,應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)21世紀(jì)什么最珍貴,大數(shù)據(jù)蘊(yùn)含大價(jià)值(初稿)課件演講完畢,謝謝觀看!演講完畢,謝謝觀看!大數(shù)據(jù)蘊(yùn)含大價(jià)值河北移動(dòng)業(yè)務(wù)支撐中心大數(shù)據(jù)蘊(yùn)含大價(jià)值河北移動(dòng)業(yè)務(wù)支撐中心目錄河北移動(dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13目錄河北移動(dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13“大數(shù)據(jù)”和“小數(shù)據(jù)”的不同思考?為什么現(xiàn)在會(huì)有“大數(shù)據(jù)”,以前難道沒(méi)有?為什么現(xiàn)在大數(shù)據(jù)傾向用專門(mén)的解決方案,為什么以前不?為什么大數(shù)據(jù)發(fā)源于互聯(lián)網(wǎng),而不是傳統(tǒng)數(shù)據(jù)密集型企業(yè)?大數(shù)據(jù)解決方案要深度定制,但是…人:硬件人員、Hadoop平臺(tái)人員、工具人員、運(yùn)維人員×31物:何種節(jié)點(diǎn)的規(guī)模才能達(dá)到規(guī)模效應(yīng)?幾個(gè)節(jié)點(diǎn)的Hadoop算不算大數(shù)據(jù)?云計(jì)算的資源動(dòng)態(tài)調(diào)配如何實(shí)現(xiàn)?基于性價(jià)比的選擇買(mǎi)產(chǎn)品:如果定制的效益不如付出的成本,那么采購(gòu)標(biāo)準(zhǔn)的第三方產(chǎn)品是更好的選擇?!靶?shù)據(jù)”大多是這類情況定制:如果定制的效益超過(guò)付出的成本,那么傾向自己進(jìn)行定制。比如Google、Facebook等VS我們的選擇?“大數(shù)據(jù)”和“小數(shù)據(jù)”的不同思考?為什么現(xiàn)在會(huì)有“大數(shù)據(jù)”,“大數(shù)據(jù)BigData”很熱門(mén)“大數(shù)據(jù)BigData”,大概是爆紅速度僅次于云計(jì)算的科技新名詞,過(guò)去一年來(lái),云計(jì)算雖然還是很熱門(mén)的話題,但更熱門(mén)的是大數(shù)據(jù),情況就像幾年前廠商不約而同在談云計(jì)算一樣。業(yè)界逐步開(kāi)始區(qū)分大數(shù)據(jù)和云計(jì)算兩個(gè)概念。前者主要指業(yè)務(wù)問(wèn)題、創(chuàng)新機(jī)會(huì)和技術(shù)平臺(tái),后者主要指按需付費(fèi)、資源動(dòng)態(tài)調(diào)配、自服務(wù)的商業(yè)模式。從大數(shù)據(jù)BigData和云計(jì)算CloudComputing在Google上的搜索趨勢(shì)(100代表最大搜索量)上看,對(duì)大數(shù)據(jù)的關(guān)注已經(jīng)逐步超過(guò)了云計(jì)算。對(duì)大數(shù)據(jù)的需求主要集中在分析Analytics和使用方面。“大數(shù)據(jù)BigData”很熱門(mén)“大數(shù)據(jù)BigData”,Gartner:HypeCycleforEmergingTechnologies,2012Gartner:HypeCycleforEmergin典型的大數(shù)據(jù)傳感器RFID從2005年的1.3億增加到2010年的30億互聯(lián)網(wǎng)Google每天處理大約24PB的數(shù)據(jù)社交網(wǎng)絡(luò)Facebook每天處理25TB的數(shù)據(jù)Twitter每天處理7TB的數(shù)據(jù)電信中國(guó)移動(dòng)每天產(chǎn)生10TB+話單、30TB+上網(wǎng)日志和100TB+信令數(shù)據(jù)金融每交易周期,紐約證券交易所捕獲1TB的交易信息零售沃爾瑪每小時(shí)要處理100萬(wàn)筆電子交易記錄科研歐洲核子研究中心的強(qiáng)子對(duì)撞機(jī)每秒產(chǎn)生40TB數(shù)據(jù)政府美國(guó)政府擁有848PB數(shù)據(jù),居于美國(guó)第二位數(shù)據(jù)量井噴,據(jù)統(tǒng)計(jì),全球90%的數(shù)據(jù)都是在過(guò)去兩年中生成的?;ヂ?lián)網(wǎng)、社交網(wǎng)絡(luò)、傳感器、科研、金融正在產(chǎn)生越來(lái)越多的數(shù)據(jù)。典型的大數(shù)據(jù)傳感器數(shù)據(jù)量井噴,據(jù)統(tǒng)計(jì),全球90%的數(shù)據(jù)都是在互聯(lián)網(wǎng)上的一分鐘互聯(lián)網(wǎng)上的一分鐘大數(shù)據(jù)的特征——3V有人說(shuō)大數(shù)據(jù)的特征是3V,有的說(shuō)是3V+1V(價(jià)值),有的說(shuō)是3V+1C(處理復(fù)雜性),但是3V是跑不了的,這些體現(xiàn)了大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)的特點(diǎn)。數(shù)據(jù)大(Volume),例如Facebook每天在30萬(wàn)臺(tái)服務(wù)器上處理25Tb數(shù)據(jù)時(shí)效性要求高(Velocity),例如搜索引擎要求在幾分鐘內(nèi)為用戶查詢新聞種類和來(lái)源多樣化(Variety),除了結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)大量產(chǎn)生大數(shù)據(jù)的特征——3V有人說(shuō)大數(shù)據(jù)的特征是3V,有的說(shuō)是3V+大數(shù)據(jù)眾生態(tài)在全球經(jīng)濟(jì)的很多領(lǐng)域,大數(shù)據(jù)在以很多的方式創(chuàng)造價(jià)值。事實(shí)上,研究表明:隨著消費(fèi)者、公司、各個(gè)經(jīng)濟(jì)領(lǐng)域不斷挖掘大數(shù)據(jù)的潛力,我們正處在一個(gè)巨大的浪潮的尖峰,這個(gè)浪潮,就是大數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新、生產(chǎn)效率提高、經(jīng)濟(jì)增長(zhǎng)以及新的競(jìng)爭(zhēng)形式和新的價(jià)值的產(chǎn)生?!洞髷?shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)率的前沿》麥肯錫全球研究所2011年5月在對(duì)全球100個(gè)國(guó)家及地區(qū)從事30個(gè)行業(yè)的3000名高管進(jìn)行的調(diào)查中,有60%的受訪者表示無(wú)法有效利用所有數(shù)據(jù)。而近期IBM對(duì)64個(gè)國(guó)家及地區(qū)從事19個(gè)行業(yè)的1700名首席營(yíng)銷官開(kāi)展的最新調(diào)查更是進(jìn)一步體現(xiàn)了出這個(gè)問(wèn)題的嚴(yán)峻性:調(diào)查結(jié)果顯示,71%的首席營(yíng)銷官表示他們的企業(yè)沒(méi)有做好充分準(zhǔn)備來(lái)應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn)。

——《IBM-麻省理工斯隆管理學(xué)院評(píng)論》2011年大數(shù)據(jù)不是一個(gè)單獨(dú)的市場(chǎng),它無(wú)處不在,以一切可以想象出的方式影響著商業(yè)。大數(shù)據(jù)的涌入將迫使產(chǎn)品、業(yè)務(wù)和解決方案發(fā)生變化。這種變化非常快,企業(yè)可能不得不淘汰要求的現(xiàn)有解決方案。2012年大數(shù)據(jù)將直接或間接拉動(dòng)全球960億美元IT支出,預(yù)計(jì)這一數(shù)據(jù)2013年將達(dá)到1200億美元,2016年達(dá)到2320億美元。新支出將流向社交媒體、社交網(wǎng)絡(luò)分析和內(nèi)容分析。支持大數(shù)據(jù)需要使用大量服務(wù),高達(dá)軟件采購(gòu)支出的20倍。擁有相應(yīng)技能的人才非常稀缺,但需求旺盛?!狦artner2012年10月大數(shù)據(jù)眾生態(tài)在全球經(jīng)濟(jì)的很多領(lǐng)域,大數(shù)據(jù)在以很多的方式創(chuàng)造價(jià)大數(shù)據(jù)各家看點(diǎn)有人認(rèn)為大數(shù)據(jù)是大麻煩,有人認(rèn)為大數(shù)據(jù)是大挑戰(zhàn),有人認(rèn)為大數(shù)據(jù)是大機(jī)遇。還有大知識(shí)、大科技、大利潤(rùn)、大發(fā)展…麻煩各種各樣的海量數(shù)據(jù),從來(lái)不刪除數(shù)據(jù),對(duì)并發(fā)讀取、寫(xiě)入的要求極高,每次可能訪問(wèn)上PB的數(shù)據(jù),真麻煩!挑戰(zhàn)傳統(tǒng)數(shù)據(jù)庫(kù)、小型機(jī)、陣列不是為了大數(shù)據(jù)的業(yè)務(wù)需求設(shè)計(jì)的,非常吃力,成本高,根本無(wú)法支撐。是一個(gè)挑戰(zhàn)!機(jī)遇在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)就是直接的財(cái)富、就是核心的競(jìng)爭(zhēng)力,很多行業(yè),都要相繼跨入一個(gè)數(shù)據(jù)興則企業(yè)興、數(shù)據(jù)強(qiáng)則企業(yè)強(qiáng)的競(jìng)爭(zhēng)時(shí)代!大數(shù)據(jù)各家看點(diǎn)有人認(rèn)為大數(shù)據(jù)是大麻煩,有人認(rèn)為大數(shù)據(jù)是大挑戰(zhàn)大數(shù)據(jù)已經(jīng)上升到美國(guó)政府國(guó)家戰(zhàn)略2010年12月,總統(tǒng)行政辦公室下屬的科技技術(shù)顧問(wèn)委員會(huì),信息技術(shù)顧問(wèn)委員會(huì)向奧巴馬和國(guó)會(huì)提交了《規(guī)劃數(shù)據(jù)未來(lái)》的專門(mén)報(bào)告,該報(bào)告把數(shù)據(jù)收集和使用的工作,提到了戰(zhàn)略的高度?!叭绾问占?、保存、維護(hù)、管理、分析、共享正在呈指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)是我們必須面對(duì)的一個(gè)重要挑戰(zhàn)。如何保證這些數(shù)據(jù)現(xiàn)在、將來(lái)的完整性和可用性,我們面臨著很多的問(wèn)題和挑戰(zhàn)。如何使用這些數(shù)據(jù),則是另外一個(gè)挑戰(zhàn)。。。。應(yīng)對(duì)好這些挑戰(zhàn),將引導(dǎo)我們?cè)诳蒲小⑨t(yī)療、商業(yè)和國(guó)家安全方面開(kāi)創(chuàng)新的成功?!?012年3月29日,奧巴馬政府又進(jìn)一步推進(jìn)了其“大數(shù)據(jù)戰(zhàn)略”。奧巴馬的高級(jí)顧問(wèn)、總統(tǒng)科學(xué)技術(shù)顧問(wèn)委員會(huì)的主席霍爾德倫代表國(guó)防部、能源部等6個(gè)聯(lián)邦政府部門(mén)宣布,將投入2億多美元立即啟動(dòng)“大數(shù)據(jù)發(fā)展研究計(jì)劃”BigDataResearchandDevelopmentInitiative,以推動(dòng)大數(shù)據(jù)的提取、存儲(chǔ)、分析、共享和可視化。美國(guó)政府推出了“大數(shù)據(jù)”戰(zhàn)略,媲美與當(dāng)年克林頓政府時(shí)代的信息高速公路計(jì)劃。奧巴馬希望借助大數(shù)據(jù)來(lái)將美國(guó)經(jīng)濟(jì)帶出泥潭。從基礎(chǔ)建設(shè)、到IT硬件、軟件、網(wǎng)絡(luò),最后到數(shù)據(jù)。大數(shù)據(jù)已經(jīng)上升到美國(guó)政府國(guó)家戰(zhàn)略2010年12月,總統(tǒng)行政辦“與數(shù)俱進(jìn)”:聯(lián)合國(guó)發(fā)布大數(shù)據(jù)政務(wù)白皮書(shū)聯(lián)合國(guó)于2012年7月10日在紐約總部發(fā)布了一份大數(shù)據(jù)政務(wù)白皮書(shū)《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》,總結(jié)了各國(guó)政府如何利用大數(shù)據(jù)更好地服務(wù)和保護(hù)人民。大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)大數(shù)據(jù)對(duì)于聯(lián)合國(guó)和各國(guó)政府來(lái)說(shuō)是一個(gè)歷史性的機(jī)遇,報(bào)告解釋了大數(shù)據(jù)如何幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)指標(biāo)變化,例如收入、失業(yè)、食品價(jià)格等。以愛(ài)爾蘭和美國(guó)的社交網(wǎng)絡(luò)活躍度增長(zhǎng)可以作為失業(yè)率上升的早期征兆為例,表明政府如果能合理分析所掌握的數(shù)據(jù)資源,將能“與數(shù)俱進(jìn)”,快速應(yīng)變。該報(bào)告是聯(lián)合國(guó)“全球脈搏”項(xiàng)目的產(chǎn)物?!叭蛎}搏”是聯(lián)合國(guó)發(fā)起的一個(gè)全新項(xiàng)目,旨在利用消費(fèi)互聯(lián)網(wǎng)的數(shù)據(jù)推動(dòng)全球發(fā)展。利用自然語(yǔ)言解碼軟件,可以對(duì)社交網(wǎng)絡(luò)和手機(jī)短信中的信息進(jìn)行情緒分析,從而對(duì)失業(yè)率增加、區(qū)域性開(kāi)支降低或疾病暴發(fā)等進(jìn)行預(yù)測(cè)。建議聯(lián)合國(guó)成員國(guó)建設(shè)“脈搏實(shí)驗(yàn)室”“PulseLabs”網(wǎng)絡(luò)開(kāi)發(fā)大數(shù)據(jù)的潛在價(jià)值?!芭c數(shù)俱進(jìn)”:聯(lián)合國(guó)發(fā)布大數(shù)據(jù)政務(wù)白皮書(shū)聯(lián)合國(guó)于2012年7駕馭大數(shù)據(jù)能夠改變什么?——傳感器、智慧地球2011年3月11日日本大地震發(fā)生后僅9分鐘,美國(guó)國(guó)家海洋和大氣管理局(NOAA)就發(fā)布了詳細(xì)的海嘯預(yù)警。NOAA通過(guò)對(duì)海洋傳感器獲得的實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算機(jī)模擬,制作的海嘯影響模型出現(xiàn)在各大網(wǎng)站。1962年,經(jīng)過(guò)“圣灰星期三”風(fēng)暴后,美國(guó)陸軍工程部和美國(guó)國(guó)家海洋與大氣管理局共同建設(shè)了一個(gè)傳感器監(jiān)測(cè)系統(tǒng),對(duì)興風(fēng)作浪的海洋進(jìn)行監(jiān)測(cè)。2005年,浮標(biāo)上安裝了更高端的傳感器,用來(lái)監(jiān)測(cè)海浪方向。2009年,系統(tǒng)再次升級(jí),開(kāi)始著手建立一個(gè)覆蓋全美海岸線的精確海浪監(jiān)測(cè)網(wǎng)絡(luò)。這些傳感器以分秒為單位,將數(shù)據(jù)源源不斷實(shí)時(shí)傳回。還記得《后天》里面那個(gè)場(chǎng)景?駕馭大數(shù)據(jù)能夠改變什么?——傳感器、智慧地球2011年3月1駕馭大數(shù)據(jù)能夠改變什么?——情感分析、輿情分析通過(guò)對(duì)BBS、博客、微博中內(nèi)容的分析,政府、企業(yè)和個(gè)人可以了解當(dāng)前輿論情況,公眾對(duì)待某一事物的看法。目前圍繞這個(gè)產(chǎn)業(yè),催生了一大撥的創(chuàng)新公司。通過(guò)分析15萬(wàn)條關(guān)于劉翔的微博,分詞并析取出其中使用的字詞。在分析中,我們發(fā)現(xiàn),為劉翔吶喊助威的聲音占了統(tǒng)治地位,然而也有微博用戶激烈地批評(píng)劉翔。這是我們第一次能對(duì)如此數(shù)量的中國(guó)用戶進(jìn)行數(shù)據(jù)可視化和情感分析在所有關(guān)于劉翔的微博中出現(xiàn)的最顯著的名詞和形容詞。結(jié)點(diǎn)越大表明越多人使用過(guò)這個(gè)詞。兩個(gè)結(jié)點(diǎn)離得越近表明它們一起出現(xiàn)在同一用戶微博中的頻率越高。我們?cè)跇?gòu)造出的這個(gè)圖中,可以非常明顯地發(fā)現(xiàn)劉翔支持者所用的詞語(yǔ)(右下)以及批評(píng)者所有的詞語(yǔ)(左上)的巨大區(qū)別。駕馭大數(shù)據(jù)能夠改變什么?——情感分析、輿情分析通過(guò)對(duì)BBS、駕馭大數(shù)據(jù)能夠改變什么?——語(yǔ)言、文字分析奧巴馬和羅姆尼辯論情況分析。駕馭大數(shù)據(jù)能夠改變什么?——語(yǔ)言、文字分析奧巴馬和羅姆尼辯論駕馭大數(shù)據(jù)能夠改變什么?——社會(huì)化網(wǎng)絡(luò)分析分析在社交網(wǎng)絡(luò)上談?wù)摰那闆r以及分享的購(gòu)物情況,來(lái)發(fā)現(xiàn)失業(yè)率變化情況和經(jīng)濟(jì)發(fā)展?fàn)顩r。駕馭大數(shù)據(jù)能夠改變什么?——社會(huì)化網(wǎng)絡(luò)分析分析在社交網(wǎng)絡(luò)上談駕馭大數(shù)據(jù)能夠改變什么?——社交網(wǎng)絡(luò)分析、微博營(yíng)銷電信行業(yè)、傳媒業(yè)借助社交網(wǎng)絡(luò)分析,對(duì)客戶的通話數(shù)據(jù)、微博連接進(jìn)行分析,能夠識(shí)別出這部分“影響者”。社交分析并不是分析單一用戶的通話記錄和微博信息,而是分析各用戶所處的社交網(wǎng)絡(luò)。圈子識(shí)別關(guān)鍵成員識(shí)別傳播影響分析重入網(wǎng)用戶識(shí)別雙機(jī)雙卡用戶識(shí)別六度空間理論關(guān)系強(qiáng)度分析駕馭大數(shù)據(jù)能夠改變什么?——社交網(wǎng)絡(luò)分析、微博營(yíng)銷電信行業(yè)、駕馭大數(shù)據(jù)能夠改變什么?——客戶特征與交叉銷售以及更多今年年初,美國(guó)一名男子闖入了他家附近的Target店鋪(Target是一家美國(guó)零售連鎖超市)?!澳銈?cè)趺茨苓@樣!”男人向店鋪經(jīng)理大吼到,“你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券,她才17歲??!”店鋪經(jīng)理不知道發(fā)生了什么,立刻向來(lái)者道歉,表明那肯定是個(gè)誤會(huì)。然而,經(jīng)理沒(méi)有意識(shí)到,公司正在運(yùn)行一套大數(shù)據(jù)系統(tǒng)。一個(gè)月后,這個(gè)憤怒的父親打來(lái)電話道歉,因?yàn)門(mén)arget發(fā)來(lái)的嬰兒用品促銷廣告并不是誤發(fā),他的女兒的確懷孕了?!都~約時(shí)報(bào)》報(bào)道更多:反恐(萬(wàn)維信息觸角計(jì)劃與建言計(jì)劃),庫(kù)存管理(沃爾瑪?shù)腞etailLink)、賣數(shù)據(jù)!大數(shù)據(jù)驅(qū)動(dòng)市場(chǎng)營(yíng)銷、驅(qū)動(dòng)成本控制、驅(qū)動(dòng)產(chǎn)品和服務(wù)創(chuàng)新、驅(qū)動(dòng)管理和決策的創(chuàng)新、驅(qū)動(dòng)商業(yè)模式的創(chuàng)新。駕馭大數(shù)據(jù)能夠改變什么?——客戶特征與交叉銷售以及更多今年年駕馭大數(shù)據(jù)能夠改變什么?——算法交易、欺詐檢測(cè)欺詐檢測(cè):監(jiān)控信用卡使用,當(dāng)檢測(cè)的信用卡在很短的時(shí)間內(nèi)并且相距甚遠(yuǎn)的位置已連續(xù)被使用,檢測(cè)到欺詐行為,拒絕卡的使用算法交易:及時(shí)發(fā)現(xiàn)存在的交易機(jī)會(huì),每次一小筆,毫秒級(jí)交易,每天進(jìn)行數(shù)量眾多的交易。已經(jīng)成為趨勢(shì)金融交易是最能體現(xiàn)大數(shù)據(jù)的Velocity特性的,機(jī)會(huì)稍縱即逝,甚至券商對(duì)連接到交易主機(jī)的網(wǎng)線長(zhǎng)度都有至關(guān)重要的訴求。算法交易成為趨勢(shì),但也導(dǎo)致了一次小型的股災(zāi)。駕馭大數(shù)據(jù)能夠改變什么?——算法交易、欺詐檢測(cè)欺詐檢測(cè):監(jiān)控?cái)?shù)字競(jìng)選團(tuán)隊(duì)我們會(huì)在此次競(jìng)選活動(dòng)中對(duì)每個(gè)事件進(jìn)行數(shù)據(jù)分析?!眻F(tuán)隊(duì)聘請(qǐng)了一大批分析員,人數(shù)規(guī)模甚至達(dá)到了2008年競(jìng)選時(shí)數(shù)據(jù)分析部門(mén)的五倍(據(jù)了解大概100多人)整合信息資源奧巴馬競(jìng)選團(tuán)隊(duì)的一位官員表示:“我們知道,民主黨的問(wèn)題就在于擁有了大多的數(shù)據(jù)庫(kù),且沒(méi)有哪兩個(gè)數(shù)據(jù)庫(kù)是相同的”。因此,在總統(tǒng)競(jìng)選前的18個(gè)月,競(jìng)選團(tuán)隊(duì)就創(chuàng)建了一個(gè)龐大系統(tǒng),這一系統(tǒng)可以將民調(diào)者、注資者、工作人員、消費(fèi)者、社交媒體以及“搖擺州”主要的民主黨投票人的信息進(jìn)行整合。競(jìng)選結(jié)果預(yù)測(cè)奧巴馬的數(shù)據(jù)分析團(tuán)隊(duì)此前曾在關(guān)鍵州收集數(shù)據(jù),并建立了4條投票數(shù)據(jù)流,用于拼湊出當(dāng)?shù)剡x民的詳細(xì)數(shù)據(jù)模型。奧巴馬的數(shù)據(jù)分析團(tuán)隊(duì)可以更清楚的了解每類人群和地區(qū)選民在任何時(shí)刻的投票傾向。開(kāi)辟第二戰(zhàn)場(chǎng)奧巴馬競(jìng)選團(tuán)隊(duì)首次利用Facebook這些社交網(wǎng)絡(luò)進(jìn)行大規(guī)模的游說(shuō),就像此前挨家挨戶敲門(mén)拉票的方式一樣。數(shù)據(jù)還幫助奧巴馬競(jìng)選團(tuán)隊(duì)更好的作出了廣告購(gòu)買(mǎi)的決策。在選擇廣告投放渠道時(shí),他們沒(méi)有依靠外部顧問(wèn),而是基于內(nèi)部數(shù)據(jù)得出結(jié)論。奧巴馬連任的機(jī)密:“大數(shù)據(jù)”制勝的四大法寶數(shù)字競(jìng)選團(tuán)隊(duì)我們會(huì)在此次競(jìng)選活動(dòng)中對(duì)每個(gè)事件進(jìn)行數(shù)據(jù)分析?!蹦夸浐颖币苿?dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13目錄河北移動(dòng)的機(jī)會(huì)應(yīng)對(duì)大數(shù)據(jù)的技術(shù)2什么是大數(shù)據(jù)?13應(yīng)對(duì)“大數(shù)據(jù)”的技術(shù)世界正在從“大量”的“小數(shù)據(jù)”,向“少量”的“大數(shù)據(jù)”演進(jìn)。原來(lái)按通用需求所設(shè)計(jì)的產(chǎn)品越來(lái)越不實(shí)用,專用化和深度定制成為應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的技術(shù)趨勢(shì)。代碼和數(shù)據(jù)不分類代碼+文件通用關(guān)系數(shù)據(jù)庫(kù)+應(yīng)用代碼層次型數(shù)據(jù)庫(kù)網(wǎng)狀型數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)處理技術(shù)OLTP數(shù)據(jù)庫(kù)內(nèi)存數(shù)據(jù)庫(kù)OLAP數(shù)據(jù)庫(kù)MPP數(shù)據(jù)庫(kù)科學(xué)計(jì)算數(shù)據(jù)庫(kù)NOSQLHadoop/MR流處理初始期IT系統(tǒng)較少,較為專業(yè),采取深度定制、耦合的方式,軟硬件由同一廠商提供。發(fā)展期IT系統(tǒng)暴增,軟件行業(yè)開(kāi)始形成,通用數(shù)據(jù)庫(kù)得到大量應(yīng)用,提供標(biāo)準(zhǔn)化和分層。大數(shù)據(jù)期IT系統(tǒng)整合、減少,但是數(shù)據(jù)量和復(fù)雜度變大。平臺(tái)技術(shù)開(kāi)始重新由通用變?yōu)閷S?,并且通過(guò)深度耦合得到更高的效率。OneSizefitsall?應(yīng)對(duì)“大數(shù)據(jù)”的技術(shù)世界正在從“大量”的“小數(shù)據(jù)”,向“少量根據(jù)我們自身情況主要關(guān)注的四項(xiàng)技術(shù)沒(méi)有銀彈,大數(shù)據(jù)時(shí)代也是如此。就我們的大數(shù)據(jù)需求來(lái)說(shuō),需要主要關(guān)注四項(xiàng)技術(shù)/產(chǎn)品,它們的主要特點(diǎn)、代表產(chǎn)品和解決的大數(shù)據(jù)問(wèn)題如下:Hadoop:非結(jié)構(gòu)化或批量簡(jiǎn)單匯總、非實(shí)時(shí)處理、數(shù)據(jù)挖掘MPP數(shù)據(jù)庫(kù):結(jié)構(gòu)化、關(guān)聯(lián)性分析、即席分析NoSql:結(jié)構(gòu)化或非結(jié)構(gòu)化存儲(chǔ)與實(shí)時(shí)查詢流處理:實(shí)時(shí)數(shù)據(jù)處理過(guò)濾,規(guī)則匹配根據(jù)我們自身情況主要關(guān)注的四項(xiàng)技術(shù)沒(méi)有銀彈,大數(shù)據(jù)時(shí)代也是如四種技術(shù)之Hadoop/MRHadoop,包括HDFS和其上的MR,被認(rèn)為是解決大數(shù)據(jù)中必不可少的一項(xiàng)技術(shù)和產(chǎn)品。它能輕易實(shí)現(xiàn)各種批量數(shù)據(jù)處理,而且因?yàn)槠湓O(shè)計(jì)的簡(jiǎn)化,能輕易分布到海量的X86服務(wù)器上,2000、3000節(jié)點(diǎn)的Hadoop場(chǎng)景是較為常見(jiàn)的。優(yōu)點(diǎn)處理各種結(jié)構(gòu)的數(shù)據(jù)靈活的處理方式,通過(guò)Java編寫(xiě)MR框架易于擴(kuò)展、伸縮,達(dá)到3000節(jié)點(diǎn)以上(因其非對(duì)等節(jié)點(diǎn)模型設(shè)計(jì))缺點(diǎn)(對(duì)原生解決方案而言)對(duì)靈活的查詢的支持和響應(yīng)速度流水線操作優(yōu)化Map和Reduce大量數(shù)據(jù)交換問(wèn)題案例:淘寶、支付寶、騰訊產(chǎn)品:BC-ETL/OC-ETL/SmartMiner儲(chǔ)備:兩期云計(jì)算ETL在經(jīng)分中應(yīng)用研究,目前在開(kāi)展四省試點(diǎn)四種技術(shù)之Hadoop/MRHadoop,包括HDFS和其上四種技術(shù)之MPPDB2004年以后出現(xiàn)了一些新型的MPPDB,例如GreenPlum、Vertica、AsterData等。它們借鑒云計(jì)算的成功,設(shè)計(jì)為部署在低成本的X86通用硬件上,通過(guò)副本的方式保證高可用。由于其sharenothing架構(gòu)以及SQL接口均為成熟技術(shù),輕易獲得了大量廠商和工具的支持。優(yōu)點(diǎn)接口友好,支持度高,兼容性強(qiáng)可以處理復(fù)雜的查詢查詢響應(yīng)時(shí)間快缺點(diǎn)(對(duì)原生解決方案而言)只能處理結(jié)構(gòu)化數(shù)據(jù)高并發(fā)查詢和操作困難由于其Hash數(shù)據(jù)分布方式、對(duì)數(shù)據(jù)的保存、并發(fā)等精妙的設(shè)計(jì)方式限定了可擴(kuò)展性。通常沒(méi)有經(jīng)過(guò)專門(mén)優(yōu)化的話限定在100節(jié)點(diǎn)之下。案例:聯(lián)通、eBay產(chǎn)品:GP/Vertica等儲(chǔ)備:完成了新型數(shù)據(jù)倉(cāng)庫(kù)測(cè)試節(jié)點(diǎn)1節(jié)點(diǎn)2節(jié)點(diǎn)3…本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)本節(jié)點(diǎn)存儲(chǔ)備份節(jié)點(diǎn)存儲(chǔ)以太網(wǎng)交換機(jī)CPUMEMCPUMEMCPUMEMCPUMEM四種技術(shù)之MPPDB2004年以后出現(xiàn)了一些新型的MPP四種技術(shù)之NoSQL隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)在應(yīng)付web2.0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動(dòng)態(tài)網(wǎng)站已經(jīng)顯得力不從心,暴露了很多難以克服的問(wèn)題,而非關(guān)系型的數(shù)據(jù)庫(kù)則由于其本身的特點(diǎn)得到了非常迅速的發(fā)展。優(yōu)點(diǎn)為少量大并發(fā)數(shù)據(jù)寫(xiě)入和讀出優(yōu)化數(shù)據(jù)模式可以靈活變更可擴(kuò)展性強(qiáng)缺點(diǎn)(對(duì)原生解決方案而言)與應(yīng)用深度耦合,高度定制化,對(duì)應(yīng)用要求較高接口一般為私有案例:亞馬遜、LinkedIn產(chǎn)品:Hbase/MongoDB儲(chǔ)備:云詳單查詢的試點(diǎn)四種技術(shù)之NoSQL隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的四種技術(shù)之Stream其他技術(shù)在處理時(shí)效性方面都無(wú)法達(dá)到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的地步,但是在某些場(chǎng)景,比如算法交易、欺詐檢測(cè)、實(shí)時(shí)營(yíng)銷等方面,需要從大量的信息中及時(shí)發(fā)現(xiàn)潛在模式,這種情況下,就要使用流處理的技術(shù)——Stream。優(yōu)點(diǎn)基本內(nèi)存處理,速度快可并行,可擴(kuò)展編程方式靈活,可以處理復(fù)雜結(jié)構(gòu)數(shù)據(jù)缺點(diǎn)不保證事務(wù)完整難以處理某些大數(shù)據(jù)類型,比如需要查表之類的案例:XX銀行產(chǎn)品:Storm/S4儲(chǔ)備:正在開(kāi)展流處理研究四種技術(shù)之Stream其他技術(shù)在處理時(shí)效性方面都無(wú)法達(dá)到實(shí)時(shí)河北移動(dòng)有各種各樣的“大數(shù)據(jù)”需求數(shù)據(jù)特征處理特征使用特征1.數(shù)據(jù)單位存儲(chǔ)價(jià)值不同高價(jià)值:CRM\BOSS的各類資料數(shù)據(jù)、賬單、清單低價(jià)值:日志、網(wǎng)頁(yè)中價(jià)值:高價(jià)值中長(zhǎng)期數(shù)據(jù)和低價(jià)值收斂數(shù)據(jù)20%的結(jié)構(gòu)化數(shù)據(jù)提供80%的價(jià)值。2.實(shí)時(shí)要求不同分鐘、小時(shí)、日、周、月3.數(shù)據(jù)類型不同結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化1.調(diào)度模式不同批量任務(wù)、小批量任務(wù)、流式處理2.加工特征不同關(guān)聯(lián)整合處理匯總,拋棄輸入?yún)R總,不拋棄輸入關(guān)聯(lián)+匯總更新,不保留歷史1.使用角色不同業(yè)務(wù)人員:低操作能力IT分析師:中操作能力數(shù)據(jù)科學(xué)家:高技術(shù)能力2.使用方式不同消息型:向一線推送瀏覽型:決策層簡(jiǎn)單處理型:業(yè)務(wù)人員復(fù)雜處理探索型:分析師高級(jí)編程型:不直接使用型:機(jī)器處理Ad-hoc類使用成為趨勢(shì)企業(yè)級(jí)數(shù)據(jù)中心具有典型的大數(shù)據(jù)發(fā)展趨勢(shì),即3V特征(volumn海量、variety多樣、velocity高速處理)。如何應(yīng)對(duì)經(jīng)分海量數(shù)據(jù)處理壓力,需要分析企業(yè)級(jí)數(shù)據(jù)中心的數(shù)據(jù)特征、使用特征和處理特征。河北移動(dòng)有各種各樣的“大數(shù)據(jù)”需求數(shù)據(jù)特征處理特征使用特征1將上述四種基礎(chǔ)能力池化,開(kāi)放提供給不同的需求使用不同的需求可能會(huì)使用不同的技術(shù),同一個(gè)需求也有相近的幾種方式可以選擇,而且這些大數(shù)據(jù)技術(shù)都在不斷的發(fā)展之中。為了保持架構(gòu)的靈活性,應(yīng)該采取云計(jì)算的方法,將這些技術(shù)能力池化,通過(guò)“市場(chǎng)”這支看不見(jiàn)的手來(lái)調(diào)節(jié)需求,做好資源的動(dòng)態(tài)劃撥。企業(yè)數(shù)據(jù)中心SaaSDaaSIaaSRaaSX86資源池存儲(chǔ)資源池高性能硬件資源池MPP數(shù)據(jù)庫(kù)池Hadoop池NoSQL池(軟件即服務(wù))(資源即服務(wù))(數(shù)據(jù)即服務(wù))(基礎(chǔ)設(shè)施即服務(wù))PaaS(平臺(tái)即服務(wù))ETL工具……數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)管理自助分析工具自助服務(wù)自助取數(shù)自助分析數(shù)據(jù)導(dǎo)入導(dǎo)出……常規(guī)應(yīng)用集團(tuán)客戶分析終端分析流量分析…..網(wǎng)絡(luò)資源池流處理池將上述四種基礎(chǔ)能力池化,開(kāi)放提供給不同的需求使用不同的需求可目錄應(yīng)對(duì)大數(shù)據(jù)的技術(shù)河北移動(dòng)的機(jī)會(huì)3什么是大數(shù)據(jù)?12目錄應(yīng)對(duì)大數(shù)據(jù)的技術(shù)河北移動(dòng)的機(jī)會(huì)3什么是大數(shù)據(jù)?12抓住大數(shù)據(jù)機(jī)遇,實(shí)現(xiàn)信息運(yùn)營(yíng),探索移動(dòng)互聯(lián)網(wǎng)新盈利模式在線統(tǒng)計(jì)功能按模塊開(kāi)放給合作伙伴,模塊包括:互聯(lián)網(wǎng)輿情分析、熱點(diǎn)業(yè)務(wù)分析、終端類型占比、移動(dòng)商盟商家排名、用戶偏好分析等等合作伙伴可在線訂購(gòu)和開(kāi)通各個(gè)模塊如果現(xiàn)有數(shù)據(jù)信息產(chǎn)品不能滿足合作伙伴的需求,那么合作伙伴可在線提出幫扶申請(qǐng)幫扶方式有兩種,一是定制信息產(chǎn)品;二是由輔助運(yùn)營(yíng)團(tuán)隊(duì)制定針對(duì)性解決方案并線上交付各種行業(yè)報(bào)告都以書(shū)店形式進(jìn)行售賣合作伙伴可以預(yù)覽和訂購(gòu),但所有下載報(bào)告均設(shè)置有信息安全權(quán)限在線統(tǒng)計(jì)分析購(gòu)買(mǎi)行業(yè)報(bào)告提出專項(xiàng)幫扶需求河北移動(dòng)企業(yè)級(jí)數(shù)據(jù)中心首先實(shí)現(xiàn)對(duì)內(nèi)的服務(wù),然后應(yīng)當(dāng)對(duì)外開(kāi)放,像淘寶開(kāi)放平臺(tái)那樣吸引外部開(kāi)發(fā)者進(jìn)駐,在不影響客戶隱私的前提下充分挖掘大數(shù)據(jù)價(jià)值,發(fā)現(xiàn)商機(jī),并將大數(shù)據(jù)應(yīng)用推給那些需要他們的人和企業(yè),比如零售、交通、旅游等等。抓住大數(shù)據(jù)機(jī)遇,實(shí)現(xiàn)信息運(yùn)營(yíng),探索移動(dòng)互聯(lián)網(wǎng)新盈利模式在線統(tǒng)互聯(lián)網(wǎng)業(yè)界思想借鑒馬云的目標(biāo):未來(lái)將讓整個(gè)社會(huì)去分享數(shù)據(jù)。我們的目標(biāo):讓整個(gè)企業(yè)分享數(shù)據(jù)。需要容納變化的支

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論