大數(shù)據(jù)知識(shí)匯總_第1頁(yè)
大數(shù)據(jù)知識(shí)匯總_第2頁(yè)
大數(shù)據(jù)知識(shí)匯總_第3頁(yè)
大數(shù)據(jù)知識(shí)匯總_第4頁(yè)
大數(shù)據(jù)知識(shí)匯總_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

照蛆丑明什年駿鹿妃■犯第一手大數(shù)據(jù)時(shí)代TOC\o"1-5"\h\z\o"CurrentDocument"海量數(shù)據(jù)1\o"CurrentDocument"大數(shù)據(jù)定義1\o"CurrentDocument"大數(shù)據(jù)分析1大數(shù)據(jù)處理2\o"CurrentDocument"大數(shù)據(jù)時(shí)代你準(zhǔn)備好了嗎3\o"CurrentDocument"大數(shù)據(jù)分析殺手銅6\o"CurrentDocument"Hadoop和云計(jì)算的關(guān)系6\o"CurrentDocument"企業(yè)該如何面對(duì)云計(jì)算7海量數(shù)據(jù)數(shù)據(jù):是載荷或記錄信息的按一定規(guī)則排列組合的物理符號(hào)??梢允菙?shù)字、文字、圖像,也可以是計(jì)算機(jī)代碼。對(duì)信息的接收始于對(duì)數(shù)據(jù)的接收,對(duì)信息的獲取只能通過(guò)對(duì)數(shù)據(jù)背景的解讀。海量數(shù)據(jù):數(shù)據(jù)量太大,導(dǎo)致要么是無(wú)法在較短時(shí)間內(nèi)迅速解決,要么是數(shù)據(jù)太大,導(dǎo)致無(wú)法一次性裝入內(nèi)存。海量數(shù)據(jù)分析處理:當(dāng)前,越來(lái)越多的業(yè)務(wù)部門(mén)都需要操作海量數(shù)據(jù),如規(guī)劃部門(mén)的規(guī)劃數(shù)據(jù),水利部門(mén)的水文、水利數(shù)據(jù),氣象部門(mén)的氣象數(shù)據(jù),這些部門(mén)處理的數(shù)據(jù)量通常都非常大。它包括各種空間數(shù)據(jù)、報(bào)表統(tǒng)計(jì)數(shù)據(jù)、文字、聲音、圖像、超文本等各種環(huán)境和文化數(shù)據(jù)信息,從大規(guī)模的、沒(méi)有關(guān)系的數(shù)據(jù)中獲得我們所需要的信息,我們稱之為海量數(shù)據(jù)分析處理。大數(shù)據(jù)定義巨量資料(bigdata),或稱大數(shù)據(jù)、海量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊?!按髷?shù)據(jù)”是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過(guò)數(shù)據(jù)的整合共享,交叉復(fù)用,形成的智力資源和知識(shí)服務(wù)能力。大數(shù)據(jù)二海量數(shù)據(jù)+多變的數(shù)量類型。大數(shù)據(jù)分析越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。基于此,大數(shù)據(jù)分析的方法理論有哪些呢?大數(shù)據(jù)分析的五個(gè)基本方面PredictiveAnalyticCapabilities(預(yù)測(cè)性分析能力)數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。AnalyticVisualizations(可視化分析)不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾聽(tīng)到結(jié)果。SemanticEngines(語(yǔ)義引擎)我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。DataMiningAlgorithms(數(shù)據(jù)挖掘算法)可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。假如大數(shù)據(jù)真的是下一個(gè)重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來(lái)的好處,而不僅僅是挑戰(zhàn)。大數(shù)據(jù)處理大數(shù)據(jù)處理數(shù)據(jù)時(shí)代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實(shí)有很多,但是根據(jù)長(zhǎng)時(shí)間的實(shí)踐,筆者總結(jié)了一個(gè)基本的大數(shù)據(jù)處理流程,并且這個(gè)流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,以及挖掘。采集大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。導(dǎo)入/預(yù)處理雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。挖掘與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的K-Means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主大數(shù)據(jù)時(shí)代你準(zhǔn)備好了嗎2011年3月11日日本大地震發(fā)生后,美國(guó)國(guó)家海洋和大氣管理局(NOAA),通過(guò)分析海量的數(shù)據(jù),包括陸基、海岸、海洋、海洋生物資源和大氣層等的信息數(shù)據(jù),僅9分鐘后,就發(fā)布了詳細(xì)的海嘯預(yù)警;NOAA每年的IT預(yù)算高達(dá)10億美元,雖然花費(fèi)巨大,但樂(lè)此不疲,因?yàn)檫@些信息關(guān)乎生命,這些數(shù)據(jù)可以拯救生命,改變世界。在這個(gè)信息爆炸的時(shí)代,面對(duì)海量信息,你準(zhǔn)備好了嗎?近年來(lái)互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)終端和物聯(lián)網(wǎng)迅猛發(fā)展。日漸復(fù)雜的企業(yè)客戶信息數(shù)據(jù),網(wǎng)店交易記錄,視頻監(jiān)控終端產(chǎn)生的信息數(shù)據(jù),博客、微博、照片、自創(chuàng)視頻等,數(shù)據(jù)每秒都在爆炸產(chǎn)生……;全球在2010年正式進(jìn)入ZB時(shí)代,根據(jù)IDC的預(yù)計(jì),到2020年全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2009年,數(shù)據(jù)量將增長(zhǎng)44倍。2012年3月,奧巴馬政府公布大數(shù)據(jù)計(jì)劃,首批宣布投資2億美元。工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來(lái)——毋庸置疑,我們已進(jìn)入“大數(shù)據(jù)時(shí)代”,大數(shù)據(jù)正在改變商業(yè),生活甚至政府。曾經(jīng)是攝影代名詞的柯達(dá)在自己132歲時(shí)轟然倒下;同時(shí),1962創(chuàng)建的零售之王沃爾瑪,連續(xù)多年蟬聯(lián)零售商第一;擁有350名員工的FaceBook僅僅只用了8年時(shí)間,上市首日市值達(dá)1152億美元,成為歷史上規(guī)模最大一宗科技公司IPO。變化帶來(lái)的不僅僅是挑戰(zhàn),更是機(jī)遇,甚至是彎道超車的機(jī)會(huì)。挑戰(zhàn)與機(jī)遇面前人人平等,那么生存,發(fā)展,超越的銀彈是什么呢?銀彈就是大數(shù)據(jù),就是大數(shù)據(jù)中的大價(jià)值。沃爾瑪是最早通過(guò)利用大數(shù)據(jù)而受益的企業(yè)之一,通過(guò)對(duì)消費(fèi)者的購(gòu)物行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,沃爾瑪成為最了解顧客購(gòu)物習(xí)慣的零售商,并創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例。沃爾瑪一度擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),數(shù)據(jù)中心的數(shù)據(jù)量已經(jīng)是美國(guó)國(guó)會(huì)圖書(shū)館的167倍。Facebook每秒鐘都在生成海量的結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),一對(duì)一的消費(fèi)驅(qū)動(dòng)模式中蘊(yùn)含著用戶的消費(fèi)傾向,“數(shù)據(jù)”的挖掘分析大幅提升廣告的精確投放效果,并且可以通過(guò)用戶行為預(yù)測(cè)多個(gè)行業(yè)的發(fā)展趨勢(shì),蘊(yùn)含巨大的商業(yè)價(jià)值。Facebook1152億美元的IPO很大程度是對(duì)大數(shù)據(jù)中大價(jià)值的認(rèn)同。大數(shù)據(jù)時(shí)代,管理大數(shù)據(jù),挖掘大數(shù)據(jù)中的大價(jià)值,就抓住了機(jī)遇,也就能立于不敗之地。要把握大數(shù)據(jù),挖據(jù)出大數(shù)據(jù)中的價(jià)值,從技術(shù)的角度來(lái)說(shuō),兩個(gè)問(wèn)題需要解決:數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)的分析。大數(shù)據(jù)的Volume屬性一一“海量數(shù)據(jù)”一詞從七十年代延展至今,正在發(fā)生從量變到質(zhì)變的飛躍。所謂質(zhì)變是說(shuō),從來(lái)沒(méi)有一個(gè)時(shí)期要如此依賴數(shù)據(jù),同時(shí),傳統(tǒng)的數(shù)據(jù)處理和數(shù)據(jù)管理技術(shù)正在受到當(dāng)今“海量數(shù)據(jù)”的直接挑戰(zhàn)。(一)ZB級(jí)的數(shù)據(jù)管理和數(shù)據(jù)分析,不是傳統(tǒng)的IT服務(wù)器、磁帶、縱向擴(kuò)展設(shè)備能夠承載的,數(shù)量級(jí)和復(fù)雜程度到達(dá)一個(gè)層級(jí),引導(dǎo)企業(yè)進(jìn)行信息化技術(shù)和企業(yè)業(yè)務(wù)的革新。傳統(tǒng)利用SPSS統(tǒng)計(jì)分析軟件建模的方式已經(jīng)有些力不從心,而如果采用抽樣統(tǒng)計(jì)分析的方式,有些新的用戶行為特征或業(yè)務(wù)趨勢(shì)就會(huì)被忽略。(二)世界經(jīng)濟(jì)形勢(shì)趨緊,高額的IT預(yù)算,究竟應(yīng)該在哪里投入。據(jù)調(diào)查企業(yè)目前73%的預(yù)算都用在基本業(yè)務(wù)運(yùn)轉(zhuǎn)上,剩下的才對(duì)商業(yè)運(yùn)營(yíng)有支撐作用。CIO的苦痛在于IT設(shè)施不斷的膨脹,僅僅是因?yàn)闃I(yè)務(wù)的數(shù)量漲了,沒(méi)有給企業(yè)經(jīng)營(yíng)帶來(lái)真正的增值。(三)據(jù)統(tǒng)計(jì),ZB級(jí)的數(shù)據(jù)中,80%以上是半結(jié)構(gòu)化,非結(jié)構(gòu)化數(shù)據(jù)。為了應(yīng)對(duì)“大數(shù)據(jù)”浪潮,很多企業(yè)在具備一定結(jié)構(gòu)化處理能力的基礎(chǔ)上,將非結(jié)構(gòu)化數(shù)據(jù)依托給了Hadoop。但當(dāng)深入探索之后,有投資人給出了這樣的感受——使用Hadoop構(gòu)建分析性查詢,會(huì)變成類似用錘子來(lái)建造房屋的活動(dòng):特定的數(shù)據(jù)模式分析任務(wù)中性能低的可怕;高昂的后期開(kāi)發(fā)和維護(hù)任務(wù)成本;企業(yè)信息孤島;數(shù)據(jù)單點(diǎn)故障。那么是否說(shuō)明了,“大數(shù)據(jù)”帶來(lái)企業(yè)業(yè)務(wù)革命性挑戰(zhàn)真是存在呢?答案是Yes。那么是否說(shuō)明了,“大數(shù)據(jù)”需要革命性技術(shù)革新呢?答案是No。展開(kāi)“大數(shù)據(jù)”的畫(huà)卷,我們能夠看到的是如下現(xiàn)狀:眾多企業(yè)都在為大數(shù)據(jù)時(shí)代的到來(lái)作出反應(yīng),數(shù)據(jù)庫(kù)廠家提供的昂貴的結(jié)構(gòu)化數(shù)據(jù)解決方案無(wú)法適應(yīng)企業(yè)收緊IT預(yù)算,同時(shí)要進(jìn)行海量數(shù)據(jù)分析的要求;企業(yè)將目光轉(zhuǎn)向Hadoop開(kāi)源系統(tǒng),但處于進(jìn)退兩難的境地。IT廠商也同時(shí)意識(shí)到了這個(gè)問(wèn)題,紛紛將Hadoop集成進(jìn)入大數(shù)據(jù)解決方案,以此迎合Hadoop已經(jīng)在大數(shù)據(jù)領(lǐng)域占領(lǐng)的一席之地;上述的簡(jiǎn)單嫁接,企業(yè)處于業(yè)務(wù)系統(tǒng)、歸檔系統(tǒng)、數(shù)據(jù)分析系統(tǒng)相互隔離導(dǎo)致的尷尬境地,同時(shí)面臨高額的TCO對(duì)IT預(yù)算的困擾;應(yīng)對(duì)上述現(xiàn)狀,華為推出了乂位一體的大數(shù)據(jù)存儲(chǔ)解決方案。方案中,海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)一體化存儲(chǔ);統(tǒng)一的并行任務(wù)調(diào)度框架支撐結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)清洗、數(shù)據(jù)分析;海量數(shù)據(jù)的生命周期管理,支持歷史數(shù)據(jù)的歸檔、壓縮、掉電策略;歷史數(shù)據(jù)仍納入海量數(shù)據(jù)的引擎管理;同時(shí),通過(guò)海量非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容感知(元數(shù)據(jù)管理),建立海量非結(jié)構(gòu)化數(shù)據(jù)的搜索引擎,加速熱點(diǎn)數(shù)據(jù)的快速訪問(wèn)。華為大數(shù)據(jù)存儲(chǔ)解決方案通過(guò)融合的方案,多樣化數(shù)據(jù)統(tǒng)一存儲(chǔ)、分析、備份和歸檔,解決了信息孤島,也解決了隨著業(yè)務(wù)的發(fā)展,對(duì)量和性能不斷拔高的需求;同時(shí),又能根據(jù)需求的變化對(duì)容量和性能進(jìn)行擴(kuò)容,保持低廉的TCO。我們能看到順應(yīng)大數(shù)據(jù)潮流,從而獲得成功的Facebook、沃爾瑪?shù)?,我們也看到在大?shù)據(jù)潮流下企業(yè)積極尋求轉(zhuǎn)型,70%企業(yè)客戶正在近5年和未來(lái)5年投入進(jìn)行IT基礎(chǔ)設(shè)施的改革。大數(shù)據(jù),正在改變世界;華為存儲(chǔ)應(yīng)需而變,貼合業(yè)務(wù)需要;融合之道,助力大數(shù)據(jù)時(shí)代把握住大數(shù)據(jù),把握住大數(shù)據(jù)的大價(jià)值,把握住未來(lái)。原文鏈接:/311/12418811.shtml;參L簿畝信息技術(shù)瑁刈中心上二廣www.Eittc.c6rr開(kāi)防云時(shí)世號(hào)野.鑰幡大散建第一隆大數(shù)據(jù)分析殺手銅Hadoop和MapReduce能夠提煉大數(shù)據(jù)。Hadoop是一個(gè)開(kāi)放源碼的分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),主要面向存儲(chǔ)和處理結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化、真正意義上的大數(shù)據(jù)(通常成百上千的丁8甚至PB級(jí)別數(shù)據(jù))應(yīng)用。網(wǎng)絡(luò)點(diǎn)擊和社交媒體分析應(yīng)用,正在極大地推動(dòng)應(yīng)用需求。Hadoop提供的MapReduce(和其他一些環(huán)境)是處理大數(shù)據(jù)集理想解決方案。MapReduce能將大數(shù)據(jù)問(wèn)題分解成多個(gè)子問(wèn)題,將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上,然后將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。Hadoop可以運(yùn)行在低成本的硬件產(chǎn)品之上,通過(guò)擴(kuò)展可以成為商業(yè)存儲(chǔ)和數(shù)據(jù)分析的替代方案。它已經(jīng)成為很多互聯(lián)網(wǎng)巨頭,比如AOL、eHarmony(美國(guó)在線約會(huì)網(wǎng)站)、易趣、Facebook、Twitter和Netflix大數(shù)據(jù)分析的主要解決方案。也有更多傳統(tǒng)的巨頭公司比如摩根大通銀行,也正在考慮采用這一解決方案。Hadoop和云計(jì)算的關(guān)系Hadoop主要是由HDFS和MapReduce組成,HDFS是一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem),MapReduce則是用于并行處理大數(shù)據(jù)集的軟件框架。因此,Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,它是一種技術(shù)的實(shí)現(xiàn)。Hadoop是Apache基金會(huì)下的一款開(kāi)源軟件,它實(shí)現(xiàn)了包括分布式文件系統(tǒng)HDFS和MapReduce框架在內(nèi)的云計(jì)算軟件平臺(tái)的基礎(chǔ)架構(gòu),并且在其上整合了包括數(shù)據(jù)庫(kù)、云計(jì)算管理、數(shù)據(jù)倉(cāng)儲(chǔ)等一系列平臺(tái),其已成為工業(yè)界和學(xué)術(shù)界進(jìn)行云計(jì)算應(yīng)用和研究的標(biāo)準(zhǔn)平臺(tái)。Hadoop現(xiàn)在已經(jīng)廣泛應(yīng)用于包括國(guó)外的FaceBook,Twitter,Yahoo!等公司,國(guó)內(nèi)的百度,阿里等,Hadoop運(yùn)行在數(shù)以千計(jì)的服務(wù)器和數(shù)以萬(wàn)計(jì)的CPU的集群上?;贖adoop,用戶可編寫(xiě)處理海量數(shù)據(jù)的分布式并行程序,并將其運(yùn)行于由成百上千個(gè)結(jié)點(diǎn)組成的大規(guī)模計(jì)算機(jī)集群上。Hadoop已被全球幾大IT公司用作其”云計(jì)算”環(huán)境中的重要基礎(chǔ)軟件,如:雅虎正在開(kāi)發(fā)基于Hadoop的開(kāi)源項(xiàng)目Pig,這是一個(gè)專注于海量數(shù)據(jù)集分析的分布式計(jì)算程序。亞馬遜公司則基于Hadoop推出了AmazonS3(AmazonSimpleStorageService,提供可靠,快速,可擴(kuò)展的網(wǎng)絡(luò)存儲(chǔ)服務(wù)。因此,Hadoop是云計(jì)算中一部分技術(shù)的實(shí)現(xiàn),而不是全部。云計(jì)算是繼1980年代大型計(jì)算機(jī)到客戶端-服務(wù)器的大轉(zhuǎn)變之后的又一種巨變,但云計(jì)算的概念其實(shí)早已提出很久,早在上世紀(jì)60年代,麥卡錫就提出了把計(jì)算能力作為一種像水和電一樣的公用事業(yè)提供給用戶的理念,這成為云計(jì)算;參L簿畝信息技術(shù)瑁刈中心上二廣www.Eittc.corr開(kāi)防云HT世號(hào)野.鑰幡大散建第一隆思想的起源。在20世紀(jì)80年代網(wǎng)格計(jì)算、90年代公用計(jì)算,21世紀(jì)初虛擬化技術(shù)、SOA、SaaS應(yīng)用的支撐下,云計(jì)算作為一種新興的資源使用和交付模式逐漸為學(xué)界和產(chǎn)業(yè)界所認(rèn)知。因此,云計(jì)算的存在只是一種新的商業(yè)計(jì)算模型和服務(wù)模式。因此可以得出一個(gè)結(jié)論:Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,它是一種技術(shù)的實(shí)現(xiàn),是云計(jì)算技術(shù)中重要的組成部分,云計(jì)算的概念更廣泛且偏向業(yè)務(wù)而不是必須拘泥于某項(xiàng)具體技術(shù),云計(jì)算的存在只是一種新的商業(yè)計(jì)算模型和服務(wù)模式。因此,云計(jì)算才會(huì)出現(xiàn)“橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同”,各種各樣層出不窮的理解。企業(yè)該如何面對(duì)云計(jì)算北京時(shí)間2月20日消息,在云計(jì)算方面,很多企業(yè)和IT高管經(jīng)常想的問(wèn)題是:我們應(yīng)該用私密云?公共云?還是混合云?我們的舊系統(tǒng)怎么辦?我們到哪找建立云的技術(shù)?然而在問(wèn)這些問(wèn)題前,需要思考另一個(gè)、甚至更重要的問(wèn)題:我們真正想要實(shí)現(xiàn)的是什么?在匆忙奔向云時(shí),問(wèn)這個(gè)問(wèn)題的人不夠多。這是Kusnetzky公司創(chuàng)始人和前IDC分析師丹?庫(kù)斯內(nèi)茨基(DanKusnetzky),在VIRTuAlley最近舉行的網(wǎng)絡(luò)直播(由戴爾贊助)中提出的觀點(diǎn)。他警告到,太多組織都因趕時(shí)髦而匆忙投入云,而沒(méi)有徹底評(píng)估該業(yè)務(wù)的價(jià)值所在。他稱,在某些方面,云沒(méi)有什么新的東西。相反,其“是多個(gè)長(zhǎng)期趨勢(shì)的產(chǎn)物,只有少部分新技術(shù)以略微新的方式出現(xiàn)”。如果說(shuō)有什么區(qū)別的話,云實(shí)際上是新階段的IT外包。丹?庫(kù)斯內(nèi)茨基還稱,“云計(jì)算只不過(guò)是外包IT業(yè)務(wù)的新環(huán)節(jié)”,是將技術(shù)管理轉(zhuǎn)給專業(yè)第三方的多年努力的頂點(diǎn)。所有形式的外包——包括云一一都是在其他人的數(shù)據(jù)中心管理IT。但一旦企業(yè)開(kāi)始認(rèn)識(shí)到云提供的優(yōu)勢(shì),就會(huì)開(kāi)啟以前甚至沒(méi)有考慮到的新可能性。丹繼續(xù)稱,這些潛在的優(yōu)勢(shì)遠(yuǎn)不止簡(jiǎn)單的降低成本。例如,技術(shù)資源有限但過(guò)于分散的組織會(huì)發(fā)現(xiàn),云是有吸引力的選擇。在數(shù)據(jù)中心之外云可讓業(yè)務(wù)的另一個(gè)因素成為可能的是敏捷性。丹指出,組織“可能只在某一時(shí)期需要大量計(jì)算資源”,如零售業(yè)務(wù)只在假日前幾個(gè)月需要高水平計(jì)算能力。他還表示,或者“一個(gè)研究機(jī)構(gòu)可能需要大量資源來(lái)測(cè)試想法,在那他們進(jìn)行規(guī)劃、思考,他們需要測(cè)試一些要求相當(dāng)多計(jì)算資源的新模型”。對(duì)于一些組織如金融服務(wù),成本可能不是問(wèn)題。相反,上市時(shí)間才是關(guān)鍵,而這正是云可以發(fā)揮作用的地方。丹指出:“在金融服務(wù)領(lǐng)域,有時(shí)新的服務(wù)可能帶來(lái)數(shù)百萬(wàn)甚至數(shù)十億美元的收入。事實(shí)上,他們支付幾百美元購(gòu)買一個(gè)或另一個(gè)資源并不重要,而如何快速、可靠地開(kāi)發(fā)工作流并使之在線和出售產(chǎn)品才是重要的?!痹谕瞥鲈菩袆?dòng)上有三個(gè)需要考慮的關(guān)鍵因素:?問(wèn):這次旅行真的有必要嗎?“在我們嘗試和選擇哪個(gè)工具可以幫助處理這個(gè)過(guò)程前,一開(kāi)始就問(wèn)企業(yè)'你想要實(shí)現(xiàn)什么?'是有好處的”,丹建議,“他們真的要將他們?cè)谧龅氖乱频絼e的地方?或者他們做的夠好嗎?信息技術(shù)常常集中在'足夠好‘的東西上。通過(guò)努力達(dá)到卓越,你在做的事可能不再需要。足夠好常常就足夠了。”?知道自己的目標(biāo)和方向。丹指出:“或者你最后停留在其他地方。如果你只是以一個(gè)工具開(kāi)始或以一個(gè)服務(wù)開(kāi)始,不停地開(kāi)發(fā),卻不知道你的真正架構(gòu)需求是什么,結(jié)果可能會(huì)一團(tuán)糟,很難處理,實(shí)際上成本可能更高?!?當(dāng)你制定計(jì)劃時(shí),要一直考慮安全性、可靠性和可管理性?!皠e指望你以后在購(gòu)買產(chǎn)品時(shí)考慮這些,這真的必須一起考慮,否則就不會(huì)有很好的效果。大數(shù)據(jù)應(yīng)用問(wèn)題TOC\o"1-5"\h\z\o"CurrentDocument"大數(shù)據(jù)時(shí)代到了8大數(shù)據(jù)蘊(yùn)含大價(jià)值9針對(duì)行業(yè)的定制化大數(shù)據(jù)分析9大數(shù)據(jù)應(yīng)用成功的關(guān)鍵11大數(shù)據(jù)時(shí)代到了大數(shù)據(jù)時(shí)代無(wú)可爭(zhēng)議的來(lái)臨了,源自全球數(shù)十年的技術(shù)積累,但僅用了最近兩三年時(shí)間,便迅速滲透到各個(gè)行業(yè)。相比十幾年前的互聯(lián)網(wǎng)泡沫,大數(shù)據(jù)的發(fā)展趨勢(shì)更加實(shí)際、與企業(yè)業(yè)務(wù)緊密相關(guān)、盈利模式也更加清晰。業(yè)界幾乎一致認(rèn)同,由大數(shù)據(jù)推動(dòng)的行業(yè)變革,將會(huì)對(duì)企業(yè)競(jìng)爭(zhēng)模式產(chǎn)生顛覆性影響。但另一方面,企業(yè)真正利用大數(shù)據(jù)分析并獲得價(jià)值的商業(yè)案例仍然少之又少。在世界杯期間,IBM和騰訊展開(kāi)了一場(chǎng)以社交大數(shù)據(jù)分析為基礎(chǔ)的全新媒體報(bào)道模式的探索,在這次合作中,利用IBM社交大數(shù)據(jù)技術(shù),騰訊實(shí)現(xiàn)了針對(duì)微博等社交媒體平臺(tái)上的信息進(jìn)行大數(shù)據(jù)分析,開(kāi)創(chuàng)了緊抓球迷需求的、更新穎、;參L簿畝信息技術(shù)瑁刈中心上二廣www.Eittc.c6rr開(kāi)防云時(shí)世號(hào)野.鑰幡大散建第一隆更生動(dòng)、更個(gè)性化的世界杯賽事報(bào)道,實(shí)現(xiàn)了全新的賽事體驗(yàn)。不過(guò)這個(gè)案例僅僅展現(xiàn)了大數(shù)據(jù)技術(shù)和能力的一部分,社交大數(shù)據(jù)分析價(jià)值遠(yuǎn)不止于此。大數(shù)據(jù)的商業(yè)價(jià)值,也需要我們從更廣闊的視角來(lái)理解。大數(shù)據(jù)蘊(yùn)含大價(jià)值首先,大數(shù)據(jù)分析為何如此重要?這是因?yàn)槲覀冋麄€(gè)社會(huì)生活模式、消費(fèi)模式都在不斷發(fā)生改變:截至2013年6月底,我國(guó)網(wǎng)民數(shù)量達(dá)到5.91億,較2012年底增加2656萬(wàn)人。手機(jī)網(wǎng)民規(guī)模達(dá)4.64億,網(wǎng)民中使用手機(jī)上網(wǎng)的人群占比提升至78.5%;即時(shí)通信在網(wǎng)民中的覆蓋率達(dá)到了86.9%,其中微信覆蓋率為61.9%;社交網(wǎng)站(包含QQ空間)覆蓋率為60.7%,微博覆蓋率為55.4%。數(shù)據(jù)顯示,社交媒體已經(jīng)成為企業(yè)尋找客戶資源的最大的數(shù)據(jù)庫(kù),以及收集反饋和傳播市場(chǎng)信息的主要途徑。這些看似隨意和雜亂無(wú)章的社交大數(shù)據(jù)中,其實(shí)蘊(yùn)含著無(wú)窮的價(jià)值,是企業(yè)未來(lái)的利潤(rùn)來(lái)源。客戶的生活和消費(fèi)模式正在發(fā)生改變,每個(gè)企業(yè)都在這場(chǎng)巨大的變革中尋求著新的技術(shù)和能力,希望在大數(shù)據(jù)的變革浪潮中抓住成功機(jī)會(huì)。可喜的是,中國(guó)的CMO已經(jīng)意識(shí)到營(yíng)銷管理在將來(lái)的巨大變化,并且已經(jīng)開(kāi)始在投資/整合技術(shù)與分析方面做出相應(yīng)的準(zhǔn)備。在IBM每年實(shí)施的調(diào)研中,中國(guó)的CMO列出了可能對(duì)企業(yè)營(yíng)銷管理產(chǎn)生影響的13個(gè)因素,其中“數(shù)據(jù)爆炸”排名第一,占到85%的比例;排名第二的因素則是“社交媒體”,占到了75%的比例。調(diào)研還顯示了CMO為了應(yīng)對(duì)數(shù)據(jù)爆炸和社交媒體所愿意進(jìn)行的改變,其中70%的CMO認(rèn)為“技術(shù)投資”是應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的首要任務(wù)。針對(duì)行業(yè)的定制化大數(shù)據(jù)分析社交大數(shù)據(jù)應(yīng)該為企業(yè)提供社交環(huán)境下客戶全生命周期的支持,從初期了解客戶、了解市場(chǎng)開(kāi)始,進(jìn)而影響到產(chǎn)品設(shè)計(jì)和服務(wù)流程改進(jìn),并滲透到銷售的環(huán)節(jié),最終留住老客戶并拉動(dòng)新客戶。所以我們看到企業(yè)的大數(shù)據(jù)應(yīng)用應(yīng)該是一個(gè)閉環(huán)的流程,并且需要針對(duì)不同的行業(yè)特征提供定制化的解決方案。我們首先需要理解客戶的行業(yè)應(yīng)用特征,了解客戶對(duì)大數(shù)據(jù)分析的期望和需求,梳理大數(shù)據(jù)分析的框架結(jié)構(gòu),對(duì)數(shù)據(jù)來(lái)源進(jìn)行歸類和分析,讓數(shù)據(jù)分析的引;參L簿畝信息技術(shù)瑁刈中心上二廣www.Eittc.c6rr開(kāi)防云時(shí)世號(hào)野.鑰幡大散建第一隆擎理解這些信息及其背后蘊(yùn)含的潛在價(jià)值,并針對(duì)不同的客戶需求建立大數(shù)據(jù)分析的模型,這樣大數(shù)據(jù)分析架構(gòu)才能夠真正適應(yīng)不同行業(yè)的個(gè)性化需求。從技術(shù)角度看,巴西世界杯可說(shuō)是一次跑在數(shù)據(jù)上的世界杯。在互聯(lián)網(wǎng)時(shí)代下,用戶通過(guò)移動(dòng)終端在社交媒體上創(chuàng)造了海量的信息,IBM和騰訊充分利用了身邊的海量社交信息,了解并引爆觀眾的焦點(diǎn),并從媒體的角度加以解讀。這樣的報(bào)道模式不僅僅是騰訊的專利,在更多體育賽事中,社交大數(shù)據(jù)都得到更充分的利用。IBM結(jié)緣體育已經(jīng)幾十年,參與支持了奧運(yùn)會(huì)、四大滿貫網(wǎng)球賽事等多項(xiàng)體育盛會(huì)的報(bào)道。今天體育賽事的報(bào)道和傳播需求已經(jīng)發(fā)生了很大的變化,具體包括三點(diǎn):一、面向的受眾更加細(xì)分。今天媒體面對(duì)的受眾不再是抽象的一群人,而是具象的某一類、甚至某一個(gè)人。就像在騰訊世界杯報(bào)道中,我們?yōu)槊课磺蛐堑那蛎岳L制差異化的個(gè)性形象圖一樣,媒體需要了解每個(gè)人的特點(diǎn)和喜好,并進(jìn)行針對(duì)性的傳播。因此,每個(gè)受眾的個(gè)體都需要發(fā)聲并獲得相應(yīng)的反饋。二、獲得真實(shí)的聲音。媒體長(zhǎng)期以來(lái)希望了解受眾的反饋,但是反饋是否真實(shí)非常重要。傳統(tǒng)的市場(chǎng)調(diào)研往往帶有一定的局限性,取樣數(shù)量有限,也并不能真實(shí)反應(yīng)受眾最直接的想法和觀點(diǎn)。社交大數(shù)據(jù)平臺(tái)則很好的補(bǔ)足了這一點(diǎn),每個(gè)受眾都在社交平臺(tái)上自由的吐槽或者贊揚(yáng)某位球星的表現(xiàn),這是最真實(shí)的觀點(diǎn)和情緒的表達(dá),因而格外寶貴。三、從單向傳播轉(zhuǎn)為雙向互動(dòng)。對(duì)媒體來(lái)說(shuō),500萬(wàn)收視觀眾和500萬(wàn)積極互動(dòng)的受眾是非常大的區(qū)別,這些積極的互動(dòng)群體可以促進(jìn)媒體的二次傳播,強(qiáng)化媒體的影響力,進(jìn)而幫助媒體行業(yè)促進(jìn)自己的收入、銷售和后續(xù)發(fā)展。大數(shù)據(jù)不僅驅(qū)動(dòng)傳媒行業(yè)發(fā)生變革,更多行業(yè)都在這場(chǎng)大數(shù)據(jù)浪潮中發(fā)生改變。舉例來(lái)說(shuō),在快消品行業(yè)中,當(dāng)客戶購(gòu)買一杯飲料時(shí),究竟是喜歡飲料的口感、還是包裝時(shí)尚感、還是更看重低熱健康這些因素,對(duì)飲料供應(yīng)商來(lái)說(shuō)是十分寶貴的信息。社交媒體平臺(tái)提供了最廣泛的人群樣本和最真實(shí)的用戶反饋,通過(guò)社交大數(shù)據(jù)分析,飲料供應(yīng)商了解用戶購(gòu)買飲料的背后原因,就能調(diào)整產(chǎn)品定位,推出適合目標(biāo)消費(fèi)人群的產(chǎn)品。而在航空業(yè)中,航空企業(yè)家開(kāi)通航線往往涉及到巨大的成本投入,一條航線開(kāi)通后,即使只有30多個(gè)人乘坐,也必須按時(shí)起飛。如果能夠通過(guò)社交大數(shù)據(jù);參L簿畝信息技術(shù)瑁刈中心上二廣www.Eittc.c6rr開(kāi)防云時(shí)世號(hào)野.鑰幡大散建第一隆分析年輕人的度假、旅游的熱點(diǎn)區(qū)域,和偏愛(ài)喜好,就能夠判斷開(kāi)通一條航線之后的航空收益,并針對(duì)不同的度假人群,如年輕情侶、成熟家庭等推出不同的定制服務(wù)。針對(duì)不同行業(yè)的定制化大數(shù)據(jù)需求,IBM提供了強(qiáng)大的大數(shù)據(jù)支持團(tuán)隊(duì)幫助客戶應(yīng)用大數(shù)據(jù)分析,例如IBM研究院團(tuán)隊(duì)對(duì)Watson認(rèn)知計(jì)算有深入把握,了解如何通過(guò)Watson認(rèn)知計(jì)算平臺(tái)進(jìn)行客戶的情感、性格和行為分析;IBM全球信息科技服務(wù)團(tuán)隊(duì)則基于Softlayer云計(jì)算平臺(tái)為大數(shù)據(jù)基礎(chǔ)架構(gòu)提供了強(qiáng)勁的支持;IBM全球業(yè)務(wù)咨詢服務(wù)團(tuán)隊(duì)擁有多年行業(yè)服務(wù)經(jīng)驗(yàn),對(duì)媒體、交通、零售、金融、電信等多個(gè)行業(yè)核心業(yè)務(wù)擁有深入理解,幫助客戶從自身需求出發(fā),制定合理的大數(shù)據(jù)執(zhí)行戰(zhàn)略。這些力量的融合才使得大數(shù)據(jù)的價(jià)值能夠真正釋放。大數(shù)據(jù)的應(yīng)用前景遠(yuǎn)遠(yuǎn)不止于此。伴隨著信息科技的進(jìn)步,計(jì)算、存儲(chǔ)能力的持續(xù)提升,開(kāi)采這些大數(shù)據(jù)金礦將成為更普遍和必要的商業(yè)競(jìng)爭(zhēng)手段。數(shù)據(jù)將成為企業(yè)做大做強(qiáng)的戰(zhàn)略性資產(chǎn),甚至推動(dòng)行業(yè)融合兼并。對(duì)國(guó)家來(lái)說(shuō),數(shù)據(jù)資源以及對(duì)數(shù)據(jù)資源的利用水平,更是體現(xiàn)一個(gè)國(guó)家綜合國(guó)力的重要組成部分,成為陸、海、空權(quán)益之外的另一種國(guó)家核心資產(chǎn)。大數(shù)據(jù)目前已經(jīng)成為萬(wàn)眾矚目的焦點(diǎn),已經(jīng)有眾多企業(yè)在拼命把自己的數(shù)據(jù)投付使用、希望借此為重要決策提供支持。盡管大數(shù)據(jù)宣傳與炒作可謂如火如荼,但仍有企業(yè)始終保持中立態(tài)度,即計(jì)劃在“合適的時(shí)間”著手實(shí)施或者表示不打算接觸大數(shù)據(jù)項(xiàng)目。而在那些已經(jīng)親身實(shí)踐大數(shù)據(jù)項(xiàng)目的企業(yè)中,多數(shù)遭遇失敗、而且往往是掉進(jìn)了同樣的幾個(gè)陷阱當(dāng)中。取得大數(shù)據(jù)項(xiàng)目成功的關(guān)鍵在于構(gòu)建一套迭代型方案,鼓勵(lì)現(xiàn)有員工參與并使用,從而在一系列無(wú)關(guān)緊要的失敗中學(xué)習(xí)知識(shí)并積累經(jīng)驗(yàn)。大數(shù)據(jù)絕對(duì)是項(xiàng)轉(zhuǎn)折性的偉大技術(shù)成果。根據(jù)Gartner公司的調(diào)查,2013年中64%的受訪企業(yè)表示已經(jīng)購(gòu)買或者正計(jì)劃在大數(shù)據(jù)系統(tǒng)領(lǐng)域進(jìn)行投資,這一比例高于2012年調(diào)查中的58%。越來(lái)越多的企業(yè)開(kāi)始深入探索自己的數(shù)據(jù),嘗試?yán)锰N(yùn)藏在其中的信息最大程度減少客戶流失、分析財(cái)務(wù)風(fēng)險(xiǎn)并改善客戶體驗(yàn)。大數(shù)據(jù)項(xiàng)目遭遇失敗的八個(gè)理由在這64%認(rèn)同大數(shù)據(jù)思路的受訪者中,又有30%已經(jīng)在大數(shù)據(jù)技術(shù)方面投入資金、19%計(jì)劃在未來(lái)一年中進(jìn)行投資、另外15%則計(jì)劃在未來(lái)兩年內(nèi)進(jìn)行投資。不過(guò)在Gartner的全部720位調(diào)查對(duì)象中,只有不到8%已經(jīng)實(shí)際部署了大數(shù)據(jù)技術(shù)方案。這樣的結(jié)果實(shí)在很糟糕,不過(guò)造成項(xiàng)目失敗的理由明顯更加糟糕:大多數(shù)企業(yè)根本不知道自己在邁入大數(shù)據(jù)領(lǐng)域后應(yīng)該做些什么。難怪現(xiàn)在有那么多企業(yè)開(kāi)出可觀的薪酬數(shù)字來(lái)招徠并雇用數(shù)據(jù)科學(xué)家,目前其平均收入已經(jīng)達(dá)到每年12萬(wàn)3千美元。八種導(dǎo)致失敗的理由由于眾多企業(yè)在探索自有數(shù)據(jù)的過(guò)程中完全是在胡打誤撞,因此在意識(shí)到這一點(diǎn)后、他們決定向能帶來(lái)更具可預(yù)測(cè)性方案的專業(yè)人士求援(包括認(rèn)為數(shù)據(jù)科學(xué)家能夠奇跡般地隨手化解他們面臨的現(xiàn)實(shí)難題,甚至還有不少更夸張的預(yù)期)。GartnerwngrSvetlanaSicular為我們匯總出八種導(dǎo)致大數(shù)據(jù)項(xiàng)目失敗的常見(jiàn)原因,它們分別是:?管理層阻力。盡管數(shù)據(jù)當(dāng)中包含大量重要信息,但FortuneKnowledge公司發(fā)現(xiàn)有62%的企業(yè)領(lǐng)導(dǎo)者仍然傾向于相信自己的直覺(jué),更有61%的受訪者認(rèn)為領(lǐng)導(dǎo)者的實(shí)際洞察力在決策過(guò)程中擁有高于數(shù)據(jù)分析結(jié)論的優(yōu)先參考價(jià)值。?選擇錯(cuò)誤的使用方法。企業(yè)往往會(huì)犯下兩種錯(cuò)誤,要么構(gòu)建起一套過(guò)分激進(jìn)、自己根本無(wú)法駕馭的大數(shù)據(jù)項(xiàng)目,要么嘗試?yán)脗鹘y(tǒng)數(shù)據(jù)技術(shù)處理大數(shù)據(jù)問(wèn)題。無(wú)論是哪種情況,都很有可能導(dǎo)致項(xiàng)目陷入困境。?提出錯(cuò)誤的問(wèn)題。數(shù)據(jù)科學(xué)非常復(fù)雜,其中包含專業(yè)知識(shí)門(mén)類(需要深入了解銀行、零售或者其它行業(yè)的實(shí)際業(yè)務(wù)狀況);數(shù)學(xué)與統(tǒng)計(jì)學(xué)經(jīng)驗(yàn)以及編程技能等等。很多企業(yè)所雇用的數(shù)據(jù)科學(xué)家只了解數(shù)學(xué)與編程方面的知識(shí),卻欠缺最重要的技能組成部分:對(duì)相關(guān)行業(yè)的了解。Sicular的觀點(diǎn)很對(duì),她表示大家最好能從企業(yè)內(nèi)部出發(fā)尋找數(shù)據(jù)科學(xué)家,因?yàn)椤皩W(xué)習(xí)Hadoop比學(xué)習(xí)相關(guān)行業(yè)的知識(shí)更簡(jiǎn)單”。?缺乏必要的技能組合。這項(xiàng)理由與“提出錯(cuò)誤的問(wèn)題”緊密相關(guān)。很多大數(shù)據(jù)項(xiàng)目之所以陷入困境甚至最終失敗,正是因?yàn)椴痪邆浔匾南嚓P(guān)技能。通常負(fù)責(zé)此類項(xiàng)目的都是IT技術(shù)人員一一而他們往往無(wú)法向數(shù)據(jù)提出足以指導(dǎo)決策的正確問(wèn)題。?在大數(shù)據(jù)技術(shù)之外遇到了其它意外狀況。數(shù)據(jù)分析僅僅是大數(shù)據(jù)項(xiàng)目當(dāng)中的組成部分之一,訪問(wèn)并處理數(shù)據(jù)的能力同樣重要。除此之外,常常被忽略的因素還有網(wǎng)絡(luò)傳輸能力限制與人員培訓(xùn)等等。-與企業(yè)戰(zhàn)略存在沖突。要讓大數(shù)據(jù)項(xiàng)目獲得成功,大家必須擺脫將其作為單一“項(xiàng)目”的思路、真正把它當(dāng)成企業(yè)使用數(shù)據(jù)的核心方式。問(wèn)題在于,其它部門(mén)的價(jià)值或者戰(zhàn)略目標(biāo)有可能在優(yōu)先級(jí)方面高于大數(shù)據(jù),這種沖突往往會(huì)令我們有力無(wú)處使。?大數(shù)據(jù)孤島。大數(shù)據(jù)供應(yīng)商總愛(ài)談?wù)摗皵?shù)據(jù)湖”或者“數(shù)據(jù)中樞”,但事實(shí)上很多企業(yè)建立起來(lái)的只能算是“數(shù)據(jù)水坑兒”,各個(gè)水坑兒之間存在著明顯的邊界——例如市場(chǎng)營(yíng)銷數(shù)據(jù)水坑兒與制造數(shù)據(jù)水坑兒等等。需要強(qiáng)調(diào)的是,只有盡量緩和不同部門(mén)之間的隔閡并將各方的數(shù)據(jù)流匯總起來(lái),大數(shù)據(jù)才能真正發(fā)揮自身價(jià)值。?回避問(wèn)題。有時(shí)候我們可以肯定或者懷疑數(shù)據(jù)會(huì)迫使自身做出一些原本希望盡量避免的運(yùn)營(yíng)舉措,例如制藥行業(yè)之所以如此排斥情感分析機(jī)制、是因?yàn)樗麄儾幌M麑⒉涣几弊饔脠?bào)告給美國(guó)食品藥品管理局并承擔(dān)隨之而來(lái)的法律責(zé)任。在這份理由清單中,大家可能已經(jīng)發(fā)現(xiàn)了一個(gè)共同的主題:無(wú)論我們?nèi)绾胃叨汝P(guān)注數(shù)據(jù)本身,都會(huì)有人為因素介入進(jìn)來(lái)。即使我們努力希望獲取對(duì)數(shù)據(jù)的全面控制權(quán),大數(shù)據(jù)處理流程最終還是由人來(lái)打理的,其中包括眾多初始決策——例如選擇哪些數(shù)據(jù)進(jìn)行收集與分析、向分析結(jié)論提出哪些問(wèn)題等等。通過(guò)迭代實(shí)現(xiàn)創(chuàng)新由于很多企業(yè)似乎根本無(wú)力建立起自己的大數(shù)據(jù)項(xiàng)目,再加上大多數(shù)大數(shù)據(jù)項(xiàng)目往往最終遭遇失敗,因此將迭代機(jī)制引入大數(shù)據(jù)是非常必要的。這不會(huì)迫使企業(yè)向咨詢企業(yè)或者供應(yīng)商支付大量費(fèi)用,大家最好能構(gòu)建起由內(nèi)部員工參與的免費(fèi)數(shù)據(jù)實(shí)驗(yàn)方案。鑒于幾乎所有主要大數(shù)據(jù)技術(shù)都屬于開(kāi)源成果,因此建立起一套“初始規(guī)模較小、能夠快速發(fā)現(xiàn)問(wèn)題”的方案其實(shí)完全可行。更重要的是,很多平臺(tái)都能像云服務(wù)那樣立即起效且成本低廉,從而進(jìn)一步降低了進(jìn)行項(xiàng)目實(shí)驗(yàn)與發(fā)現(xiàn)錯(cuò)誤的資金投入。大數(shù)據(jù)的關(guān)注重點(diǎn)在于提出正確的問(wèn)題,這也是讓企業(yè)內(nèi)部員工參與項(xiàng)目如;參t簿畝信息技術(shù)瑁刈中心mwww.Eittc.corr開(kāi)防云時(shí)世塑羚.鑰幡大散建第一部此重要的理由。但即使擁有卓越的相關(guān)行業(yè)知識(shí),如果根本無(wú)法開(kāi)始提出問(wèn)題的流程、企業(yè)仍然無(wú)法收集到正確的數(shù)據(jù)。這類問(wèn)題也應(yīng)該被納入預(yù)期并作好相應(yīng)準(zhǔn)備。解決問(wèn)題的關(guān)鍵在于使用靈活而開(kāi)放的數(shù)據(jù)基礎(chǔ)設(shè)施,保證其允許企業(yè)員工不斷調(diào)整實(shí)際方案、直到他們的努力獲得理想的回饋。通過(guò)這種方式,企業(yè)能夠消除恐懼并最終以迭代為武器順利邁向大數(shù)據(jù)有效使用的勝利彼岸。大數(shù)據(jù)應(yīng)用TOC\o"1-5"\h\z\o"CurrentDocument"大數(shù)據(jù)概念14大數(shù)據(jù)分析殺手銅15\o"CurrentDocument"大數(shù)據(jù)改變未來(lái)15\o"CurrentDocument"思維與應(yīng)用的鴻溝16\o"CurrentDocument"大數(shù)據(jù)落地16大數(shù)據(jù)概念巨量資料(bigdata),或稱大數(shù)據(jù)、海量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊?!按髷?shù)據(jù)”是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過(guò)數(shù)據(jù)的整合共享,交叉復(fù)用,形成的智力資源和知識(shí)服務(wù)能力。大數(shù)據(jù)二海量數(shù)據(jù)+多變的數(shù)量類型。大數(shù)據(jù)熱潮源于數(shù)據(jù)生產(chǎn)及收集的能力和速度的大幅提升。但在營(yíng)銷領(lǐng)域,大數(shù)據(jù)實(shí)踐依然剛剛開(kāi)始。雖然91%的公司高層營(yíng)銷管理人員認(rèn)為成功的品牌需要使用客戶數(shù)據(jù)來(lái)做營(yíng)銷決策,但只有35%的公司會(huì)收集社交媒體數(shù)據(jù)、19%會(huì)收集移動(dòng)數(shù)據(jù)。IBM的超級(jí)計(jì)算機(jī)Watson2011年在美國(guó)著名電視問(wèn)答節(jié)目《Jeopardy》上擊敗節(jié)目歷史上最厲害的兩位選手后,便一舉成名。它能夠以極快的速度處理數(shù)百萬(wàn)份以人類文字語(yǔ)言書(shū)寫(xiě)的文件一一一般來(lái)說(shuō),電腦處理傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)文件毫無(wú)問(wèn)題,但Waston的絕招在于同樣可以閱讀非結(jié)構(gòu)性文件,即那些電子郵件、新聞報(bào)告、網(wǎng)站中的信息。最終,花旗銀行花大價(jià)錢(qián)聘請(qǐng)了Watson,要借用它對(duì)這些文件的處理能力來(lái)幫助決定應(yīng)該對(duì)一個(gè)客戶提供哪些新的產(chǎn)品和服務(wù)。它的第一份工作很可能是降低欺詐案件概率,以及搜尋哪些客戶有信用度降低的跡象。這是大數(shù)據(jù)時(shí)代的一個(gè)故事。大數(shù)據(jù)分析殺手銅Hadoop和MapReduce能夠提煉大數(shù)據(jù)。Hadoop是一個(gè)開(kāi)放源碼的分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),主要面向存儲(chǔ)和處理結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化、真正意義上的大數(shù)據(jù)(通常成百上千的丁8甚至PB級(jí)別數(shù)據(jù))應(yīng)用。網(wǎng)絡(luò)點(diǎn)擊和社交媒體分析應(yīng)用,正在極大地推動(dòng)應(yīng)用需求。Hadoop提供的MapReduce(和其他一些環(huán)境)是處理大數(shù)據(jù)集理想解決方案。MapReduce能將大數(shù)據(jù)問(wèn)題分解成多個(gè)子問(wèn)題,將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上,然后將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。Hadoop可以運(yùn)行在低成本的硬件產(chǎn)品之上,通過(guò)擴(kuò)展可以成為商業(yè)存儲(chǔ)和數(shù)據(jù)分析的替代方案。它已經(jīng)成為很多互聯(lián)網(wǎng)巨頭,比如AOL、eHarmony(美國(guó)在線約會(huì)網(wǎng)站)、易趣、Facebook、Twitter和Netflix大數(shù)據(jù)分析的主要解決方案。也有更多傳統(tǒng)的巨頭公司比如摩根大通銀行,也正在考慮采用這一解決方案。大數(shù)據(jù)改變未來(lái)大數(shù)據(jù)熱潮最近的一次推力來(lái)自于2011年10月份McKinsey&Company發(fā)布的報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿(BigData:NextFrontierofInnovation,Competition,Productive)》。報(bào)告指出,大數(shù)據(jù)源于數(shù)據(jù)生產(chǎn)和收集的能力和速度的大幅提升一一由于越來(lái)越多的人、設(shè)備和傳感器通過(guò)數(shù)字網(wǎng)絡(luò)連接起來(lái),產(chǎn)生、傳送、分享和訪問(wèn)數(shù)據(jù)的能力也得到徹底變革。2010年,超過(guò)40億人(世界人口的60%)在使用手機(jī),其中約12%擁有智能電話一一其滲透率以每年20%以上的速度增長(zhǎng)。如今,3000多萬(wàn)聯(lián)網(wǎng)傳感器節(jié)點(diǎn)分布在交通、汽車、工業(yè)、公用事業(yè)和零售部門(mén),其數(shù)量正以每年30%以上的速度增長(zhǎng)。大數(shù)據(jù)趨勢(shì)將會(huì)在5個(gè)方面提供價(jià)值:數(shù)據(jù)的高透明度及廣泛可獲取性:一些制造商正試圖集成多種系統(tǒng)的數(shù)據(jù),甚至從外部供應(yīng)商和客戶處獲取數(shù)據(jù)來(lái)共同制造產(chǎn)品。以汽車這類先進(jìn)制造行業(yè)為例,全球供應(yīng)商生產(chǎn)著成千上萬(wàn)的部件。集成度更高的平臺(tái)將使公司及其供應(yīng)鏈合作伙伴在設(shè)計(jì)階段就開(kāi)始協(xié)作。決策驗(yàn)證對(duì)競(jìng)爭(zhēng)方式的影響:大數(shù)據(jù)可能使決策制定發(fā)生根本性的改變。利用可控實(shí)驗(yàn),公司可驗(yàn)證假設(shè)、分析結(jié)果以指導(dǎo)投資決策及運(yùn)作改變。應(yīng)用于廣泛的實(shí)時(shí)的用戶定制及其對(duì)企業(yè)的影響:面向用戶的企業(yè)已長(zhǎng)期利用數(shù)據(jù)來(lái)細(xì)分和定位用戶。大數(shù)據(jù)實(shí)現(xiàn)了用戶定制的質(zhì)的飛躍,使得實(shí)時(shí)個(gè)性化;參L簿畝信息技術(shù)瑁刈中心上二廣www.Eittc.c6rr開(kāi)防云時(shí)世號(hào)野.鑰幡大散建第一隆成為可能。下一代零售商通過(guò)互聯(lián)網(wǎng)點(diǎn)擊流可跟蹤個(gè)體用戶的行為,更新其偏愛(ài),并實(shí)時(shí)模仿其可能的行為。大數(shù)據(jù)對(duì)管理的改變及替代作用:大數(shù)據(jù)能進(jìn)一步提高算法和機(jī)器分析的作用。一些制造商利用算法來(lái)分析來(lái)自生產(chǎn)線的傳感數(shù)據(jù),創(chuàng)建自動(dòng)調(diào)節(jié)過(guò)程以減少損失,避免成本高昂(且有時(shí)具危險(xiǎn)性)的人工干預(yù),最終增加產(chǎn)出。建立基于數(shù)據(jù)的商業(yè)模型:大數(shù)據(jù)催生了新類型的公司,其能建立由信息驅(qū)動(dòng)的商業(yè)模型。許多公司都在價(jià)值鏈中發(fā)揮中間作用,通過(guò)商業(yè)交易創(chuàng)建極具價(jià)值的“排出數(shù)據(jù)”。如一家運(yùn)輸公司收集了大量的全球產(chǎn)品出貨信息,并專門(mén)建立一個(gè)部門(mén)負(fù)責(zé)向經(jīng)濟(jì)預(yù)測(cè)方銷售數(shù)據(jù)。思維與應(yīng)用的鴻溝大數(shù)據(jù)的價(jià)值聽(tīng)起來(lái)十分鼓舞人心,而在實(shí)際的營(yíng)銷活動(dòng)中,營(yíng)銷人對(duì)大數(shù)據(jù)的應(yīng)用情況又如何?ColumbiaBusinessSchool今年推出報(bào)告《MarketingROIintheEraofBigData》中指出,雖然91%的公司高層營(yíng)銷管理人員認(rèn)為成功的品牌需要使用客戶數(shù)據(jù)來(lái)做營(yíng)銷決策,然而觀察他們收集數(shù)據(jù)的類型,只有35%的公司會(huì)收集社交媒體數(shù)據(jù)、19%會(huì)收集移動(dòng)數(shù)據(jù);其中51%的人指出在他們組織內(nèi)部缺乏分享客戶數(shù)據(jù)的機(jī)制,阻礙了他們有效衡量營(yíng)銷ROI,45%的人認(rèn)為公司沒(méi)有利用數(shù)據(jù)有效地將營(yíng)銷溝通個(gè)性化。營(yíng)銷領(lǐng)域真正的進(jìn)展似乎并不符合大數(shù)據(jù)熱浪的如火如荼之勢(shì),正如報(bào)告撰寫(xiě)者指出,“我們希望了解到底現(xiàn)在人們?cè)谟脭?shù)據(jù)做營(yíng)銷這條路上走了多遠(yuǎn),大數(shù)據(jù)的熱潮是否真正地促使?fàn)I銷者實(shí)踐的改變,但迄今為止,營(yíng)銷領(lǐng)域的大數(shù)據(jù)實(shí)踐依然剛剛開(kāi)始,在許多公司組織中,有效利用數(shù)據(jù)做營(yíng)銷的實(shí)際進(jìn)展要落后于人們實(shí)際的意愿?!蹦敲矗诖髷?shù)據(jù)熱潮撲面而來(lái)的時(shí)候,究竟給營(yíng)銷者帶來(lái)哪些機(jī)遇和挑戰(zhàn)?我們系統(tǒng)梳理營(yíng)銷產(chǎn)業(yè)鏈上的相關(guān)各方觀點(diǎn)與案例,希望能給企業(yè)加入大數(shù)據(jù)營(yíng)銷做出參考。大數(shù)據(jù)落地如果將這兩個(gè)數(shù)據(jù)源進(jìn)行對(duì)接,并且能夠保持實(shí)時(shí)更新,營(yíng)銷的游戲規(guī)則將會(huì)隨之而變:消費(fèi)者洞察和預(yù)測(cè)分析這兩個(gè)營(yíng)銷最重要的領(lǐng)域,會(huì)獲得前所未有的價(jià)值發(fā)掘。什么樣的實(shí)時(shí)優(yōu)惠對(duì)某個(gè)用戶更有效?基于此用戶的偏好,哪種網(wǎng)絡(luò)頁(yè)面能產(chǎn)生更好的服務(wù)效果?當(dāng)一個(gè)潛在客戶填寫(xiě)了網(wǎng)頁(yè)表格后,跟他敲定一筆交易的可能性有多大?在一天的特定時(shí)間段中,哪種促銷方式最有效?當(dāng)一個(gè)用戶被營(yíng)銷活動(dòng)覆蓋到后,他在六個(gè)月內(nèi)購(gòu)買的機(jī)會(huì)有多大?在大數(shù)據(jù)時(shí)代,這些問(wèn)題都會(huì)找到答案。對(duì)于營(yíng)銷這一原本就屬于數(shù)據(jù)驅(qū)動(dòng)的領(lǐng)域,大數(shù)據(jù)提供了一個(gè)前所未有的機(jī)會(huì),用先前不能做到的方式來(lái)挖掘消費(fèi)者洞察。那么在大數(shù)據(jù)時(shí)代之前,我們通常利用哪些營(yíng)銷數(shù)據(jù)?答案是:CRM系統(tǒng)中的顧客信息、廣告效果、展覽等線下活動(dòng)的效果等。這些數(shù)據(jù)來(lái)源都提供了一些信息,但是并不足夠給出一個(gè)重要的洞察和發(fā)現(xiàn)。讓我們?cè)賮?lái)另外一批信息數(shù)據(jù):官方網(wǎng)站登錄數(shù)據(jù)、社交媒體數(shù)據(jù)、郵件數(shù)據(jù)、地理位置數(shù)據(jù)等。這些信息源在幾年前可能并不存在,而這些就是“大數(shù)據(jù)”所指的非結(jié)構(gòu)性或者叫做多元機(jī)構(gòu)性數(shù)據(jù),它們更

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論