




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據云圖如何在大數(shù)據時代尋找下一個大機遇\h01在大數(shù)據時代尋找下一個大機遇\h無法預測之殤\h追求數(shù)量,還是追求速度\h谷歌自駕車的美好未來\h數(shù)據、算法和速度,更加智能的計算機\h02可視化,在數(shù)據中發(fā)掘機遇的重要工具\h可視化,1張圖片等于1000個字\h圖形藝術,數(shù)據界的達·芬奇\hFacebook,圖片和分享的力量\h可視化的乘數(shù)效應,更快地吸收更多的信息\h03大數(shù)據改寫商業(yè)規(guī)則\h一夜走紅的大數(shù)據\h谷歌的大數(shù)據行動\h亞馬遜的步步緊逼\h將信息變成一種競爭優(yōu)勢\h實時響應,大數(shù)據用戶的新要求\h04醫(yī)療與健康:借助大數(shù)據量化自我\h量化自我,關注個人健康\hCellMiner,對抗癌癥的新工具\h智能的城市,更好的生活\h移動手機,貼身的醫(yī)生\h05社交網絡:大數(shù)據下的人際關系\h為什么網上找不到真愛\h遺失的數(shù)據,計算機亂點鴛鴦譜\h愛情實驗室的預言\hFacebook,在線人際關系網絡\h06教育:大數(shù)據助你更有效地學習\h適應性學習體系\h可汗學院與Codecademy,打造線上教育體系\h線上線下結合,未來的教育趨勢\h應對數(shù)據超載\h07設計:從大數(shù)據中汲取靈感\(zhòng)hFacebook,設計不受短期數(shù)據支配\h蘋果,少而精是設計的核心\h福特與馬自達,以人為本的汽車設計理念\h數(shù)據激發(fā)創(chuàng)造力\h08大數(shù)據云圖,揭開機遇的神秘面紗\hLinux,開源技術需要商業(yè)支援\h亞馬遜,數(shù)據在云端\h云的挑戰(zhàn)\hCloudera領銜大數(shù)據基礎設施\h從潘多拉到Netflix,大數(shù)據應用程序改變生活\h數(shù)據即服務\h數(shù)據清理\h數(shù)據保密\h大數(shù)據產業(yè)前景展望\h09誰是下一個上市的數(shù)十億美元項目\h大數(shù)據操作回路\h信號與噪聲\h大數(shù)據反饋回路\h大數(shù)據資產的崛起\h創(chuàng)建一個數(shù)十億美元的公司需要什么\h大數(shù)據領域的合作趨勢\h學Zillow,尋找大數(shù)據“空白”\h從“空白”中提取最大價值\h10大數(shù)據營銷\h技術接軌商業(yè)\h像媒體公司一樣思考\h從谷歌到寶潔,營銷面對新的機遇與挑戰(zhàn)\h自動化營銷\h為營銷創(chuàng)建高容量和高價值的內容\h用投資回報率評價營銷效果雖然地震的發(fā)生已有百萬年之久,我們也掌握了與其相關的眾多數(shù)據,但我們還是無法準確地預測出地震發(fā)生的時間和地點。每年有成千上萬的人因此喪命,而一次地震帶來的物質損失就有千億美元之多。問題就在于,根據我們所掌握的數(shù)據,地震和即將發(fā)生的地震之間相去甚遠,直到即將發(fā)生的地震真正發(fā)生之后,兩者間的區(qū)別才消失。但是到那時候,顯然已經為時晚矣。可是,如果科學家在每次分析數(shù)據時一發(fā)現(xiàn)疑似地震就預警的話,恐怕會出現(xiàn)大量要求疏散的假警報。更何況,就像喊狼來了的小男孩一樣,人們最終會厭煩假警報從而決定不疏散,這樣一來,一旦真的發(fā)生地震,人們就將處于危險之中。無法預測之殤實現(xiàn)準確預測需要一些真實的因素。我們必須掌握足夠多的歷史數(shù)據來識別模式——與這些模式相關的事件必須始終發(fā)生。而且我們必須有區(qū)分疑似事件和真實事件的能力,即眾所周知的排除誤報。但是,僅僅是準確預測還遠遠不夠。要讓預測派上用場,我們還必須具備根據預測及早并快速采取行動的能力。當?shù)卣鹫嬲l(fā)生的時候,相關數(shù)據會非常清晰地表現(xiàn)出來,例如地動山搖。而且一旦其威力夠大的話,停電、爆炸、有毒氣體溢出、火災爆發(fā)都可能出現(xiàn)。\h[1]當然,到那個時候,也就不再需要大量的計算機和天才科學家們來預測災禍了。所以要起到效用,當下的數(shù)據必須預先與過去的數(shù)據進行匹配,而且要給我們留下足夠多的行動時間。如果在地震發(fā)生的前幾秒才完成匹配的話,也就沒什么作用了。我們需要足夠多的時間得出結論、調動各方資助力量并疏散群眾。而且,我們必須具備快速分析數(shù)據的能力,只有這樣,數(shù)據分析才能發(fā)揮效用。試想一下,假如我們擁有足夠多的數(shù)據,它們能讓我們提前一天預測到地震的發(fā)生,而我們卻花費了兩天時間進行數(shù)據分析,那這些數(shù)據和我們的預測結果就起不到什么作用了。因此,從本質上來說,準確預測地震既是大數(shù)據的機遇又是挑戰(zhàn)。單純擁有數(shù)據還遠遠不夠。我們既要掌握足夠多的相關數(shù)據,又要具備快速分析并處理這些數(shù)據的能力,只有這樣,我們才能爭取到足夠多的行動時間。越是即將逼近的事情,越需要我們快速地實現(xiàn)準確預測。不過,在某種程度上,這種預測適用于收益遞減規(guī)律。就算我們能在瞬間完成對預測地震所需的海量數(shù)據的分析處理,如果沒有留下足夠的時間將群眾調離危險區(qū)域,這種分析就沒什么意義。準確預測需要更多、更好的數(shù)據2012年10月22日,6名工程師因為在預測地震時誤導村民,均被判處有期徒刑6年。這次地震發(fā)生在2009年的意大利拉奎拉鎮(zhèn)(L'Aquila),300名村民因此喪生。大數(shù)據能幫助地質學家實現(xiàn)更好的預測嗎?每年,世界各地約有7000次里氏4.0或更高級別的地震發(fā)生。地震測量有兩種,一是著名的里氏震級,二是更現(xiàn)代的矩震級。前者是依據地震所含的能量定級,而后者是通過地震所釋放的能量認定地震等級。預測地震的時候,有三個關鍵問題必須找到答案:何時、何地、何種震級?在《庸醫(yī)游戲》(TheCharlatanGame)中,楊百翰大學的馬修·瑪貝(MatthewA.Mabey)認為,雖然地震有預兆,“但是我們仍然無法通過它們可靠、有效地預測地震”。相反,我們能做的就是盡可能地為地震做好準備——它的發(fā)生頻率遠比我們想象的要大得多。這些準備包括在設計、修建橋梁和其他建筑的時候就把地震考慮在內,并且準備好齊全的地震應急包,一旦發(fā)生大地震,這些基礎設施和群眾都能有更充足的準備。就像我們小學時都學過的一樣,地震是由構造板塊相互擠壓造成的——構造板塊則是偶爾會漂移的陸地板塊。這種板塊擠壓發(fā)生在地球深處,而且各個板塊的相互運動復雜難懂。因此,有用的地震數(shù)據來之不易,而要弄明白是什么地質運動導致了地震,基本上不現(xiàn)實。歸根結底,準確地預測地震,即回答何時、何地、何種震級這三個問題,需要掌握促使地震發(fā)生的不同自然因素,以及揭示它們之間復雜的相互運動的更多、更好的數(shù)據。大數(shù)據的關鍵之處正在于此:預測不同于預報??茖W家能預報地震,但是他們無法預測地震。1906年舊金山發(fā)生地震,導致3000余人傷亡,而其何時會再次遭遇這樣的地震?科學家們不能斷言??茖W家們只能預報某個地方、某個具體的時間段內發(fā)生某級地震的可能性。例如,他們只能說未來30年,舊金山灣有80%的可能性會發(fā)生里氏8.4級地震,但他們無法完全確定地說出何時何地會發(fā)生地震,或者發(fā)生幾級地震。這就是預測和預報之間的差異。不過,雖然準確預測地震還有很長的路要走,但是黑暗中尚有一線光明,那就是,科學家已經越來越多地為地震受害者爭取到那么幾秒鐘的時間了。傳統(tǒng)的地震探測儀需要花費3000美金甚至更多,而如今基本的地震探測只需通過連接至標配計算機的廉價的探測儀就可實現(xiàn),甚至只需通過使用如今很多移動設備內置的動作感應功能就可實現(xiàn),而這些功能原本是為了導航和游戲設計的。斯坦福大學的“地震捕捉者網絡”(Quake-CatcherNetwork,QCN)由參與分布式地震檢測網絡的大約200個志愿者的計算機組成。有時候,這個監(jiān)測網絡能提前10秒鐘提醒可能會受災的人群。也許10秒鐘看上去不長,但是卻很重要,因為這意味著你是搭乘運行的電梯還是走樓梯,是走到開闊處去還是躲到桌子下面。“地震捕捉者網絡”就是一個會生成大量數(shù)據的廉價監(jiān)測網絡的典型例子。以前,要捕捉和存儲如此多的數(shù)據耗資巨大,但是,正如我們在接下來的章節(jié)會談到的一樣,近期的技術進步使得這些數(shù)據的捕捉和存儲成本大大降低——有時候甚至比過去便宜了九成都不止。能得到更多、更好的數(shù)據不只為計算機實現(xiàn)更精明的決策提供了更多的可能性;也使人類變得更聰明了。更多的數(shù)據,更聰明的大腦如果你想變得更聰明,現(xiàn)在不必再為此獨自傷神了。最近的研究為你帶來了一個好消息:通過增加儲存的信息量可以擴張腦容量。為了獲得駕照,倫敦的計程車司機必須通過一個名為“知識”(theKnowledge)的嚴厲考試,以此證明他們已經熟知倫敦市中心的25000條街道布局和20000個地標位置。這些申請者完成所有任務一般需要3~4年,那么,在這些倫敦計程車司機完成“知識”考試的培訓課程之后,真的變得更聰明了嗎?結果證明的確如此。追求數(shù)量,還是追求速度科學家一度認為人的大腦容量是固定的。但是倫敦大學醫(yī)學院惠康基金會神經影像中心(WellcomeTrustCentreforNeuroimaging)的埃莉諾·馬奎爾(EleanorMaguire)教授通過研究發(fā)現(xiàn),大腦本質上是有“彈性”的,其容量可以隨著時間而改變。這項研究追蹤調查了79名計程車司機的學習進展,其中只有39名司機最終通過了考試。那些沒有通過考試的人為自己找了很多的借口,比如說缺乏時間和金錢等,但學習如此龐大的信息體系難度不小卻是關鍵因素之一。據倫敦城市網站顯示,整個倫敦只有25000名計程車司機,換言之,每一條街道大約只有一個司機。研究顯示,經過多年來對倫敦街道資料的學習,這些參與測驗的司機大腦中下丘腦海馬區(qū)的灰質有所增多。也就是說,為了儲存必要的數(shù)據,這些司機確實新生了很多腦細胞,從而最終使他們變得更聰明。然而,這些記憶能力的改善是需要付出代價的。據馬奎爾教授另一研究顯示,對這些擁有更大海馬區(qū)的司機們來說,他們通過視覺信息學習新路線的能力下降了。對計算機而言,優(yōu)勢通常需要犧牲其他方面來換取。儲存大量的數(shù)據就意味著需要花費更長的時間進行處理。而儲存的數(shù)據越少,得出結果的速度就越快,但是這些結果也就越沒有根據。拿計算機程序來說,商店里的計算機通過分析已售商品的銷售數(shù)據,可以為以后的銷售作出預測。如果計算機程序只能獲取到季度銷售數(shù)據,那么肯定會處理得很快,但是這些數(shù)據也許不夠詳盡,難以提供有效信息。商場經理可能清楚特定的產品在某個時間段內需求量大,但卻難以制訂出對每天或每小時的銷售情況產生影響的價格決策或者產品布局決策。相反地,如果計算機程序能夠記錄每分鐘的銷售數(shù)據,并通過這些數(shù)據分析歷史銷售情況,那么就有了更精細的數(shù)據資料,可以更好地預測未來的銷售。\h[2]不過,這需要花費更多的時間。而且,由于數(shù)據龐大,程序也許不能一次就把所有的數(shù)據處理完,而只能對其中的一部分數(shù)據進行處理。效率的力量令人驚訝的是,在倫敦擁有執(zhí)照的計程車司機能夠記住整個倫敦市的地圖(包括查令十字街方圓10公里的地方),而不需要實際的地圖和GPS導航。如果司機不必時刻緊握方向盤并注意路面情況,也無須快速判斷行駛路線的話,查看地圖也不失為一個可行的辦法。在慢節(jié)奏的國家,司機也許會在一開始就計劃好一條線路,然后在必要時停車,隨時對線路作出調整。但問題在于,在倫敦擁擠的街道上,司機絕不會有時間慢慢地計算、再計算。因此,司機必須記下整個倫敦的地圖。計算機系統(tǒng)差不多一直在做這件事,即在處理大量數(shù)據的基礎上輸出結果:計算機系統(tǒng)將所有的數(shù)據儲存在一個存儲體系中,有時全部儲存在記憶體系中,有時分散儲存于許多不同的物理系統(tǒng)中。我們會在接下來的幾章對此做詳細介紹,還包括一些快速分析數(shù)據的其他途徑。幸運的是,如果你想要腦容量更大,記住倫敦城市地圖并不是擴大你大腦海馬區(qū)的唯一方式。另外一項研究帶來的好消息是,鍛煉身體也可以使你的腦容量變大。隨著年齡的增長,大腦會隨之萎縮,通往記憶的通道也會受損。該研究選取120名老人做實驗,發(fā)現(xiàn)鍛煉身體使他們的海馬區(qū)擴大了2%,而海馬區(qū)與改善記憶功能密切相關。換言之,保持大腦足夠的血液流通能防止我們變遲鈍。因此,如果你想保持聰明才智,鍛煉身體吧!然而,和人類不同,計算機不可能通過到健身房鍛煉就增強記憶儲存能力。對計算機的記憶存儲而言有三種選擇:擴大內存容量;通過調度讓需要處理的數(shù)據進出存儲系統(tǒng);壓縮數(shù)據。很多數(shù)據是多余的。回想一下你剛寫的那句話,或者剛做的一些大數(shù)字的乘法。計算機通過壓縮重復的字母、單詞甚至整個短語,從而節(jié)省出很多空間。擴大計算機的記憶存取能力代價十分昂貴。一般來說,記憶存取越快就越昂貴。一項消息顯示,隨機存取存儲器(RAM)的存取速度是磁盤存儲器的10萬倍,但價格也貴了100倍。不僅記憶存取本身價格不菲,記憶存取量增加的話,隨之而來的其他花費也不低。一臺計算機一般只能裝配一定量的記憶芯片,而且每個記憶棒也只能容納一定量的記憶芯片。電源和制冷裝置的容量也同樣需要考慮。電子線路越多,消耗的電能也就越多;消耗電能越多,產生的熱量越多。熱量需要散發(fā),而這一過程又需要更多的電能(并產生更多的熱)。這些因素綜合起來就使看似簡單的擴大記憶容量的任務變得相當復雜了。或者,計算機也可以僅僅使用原始記憶存儲器,對儲存的必要信息進行內外交換。比方說,計算機并不需要一次查看所有可獲取的交通事故和股票價格數(shù)據,因此計算機能在加載昨天數(shù)據的同時,替換掉前天的數(shù)據,依此類推。這個方法的問題在于,如果你要找出維持數(shù)天、數(shù)周甚至是數(shù)年之久的模式,那么進出交替所有數(shù)據就非常耗時,而且不容易總結出模式。與機器相比,人類不需要很多能量就可以讓大腦發(fā)揮更多作用。大腦在“持續(xù)地吸吮大量的能量”,但是這些能量與計算機相比簡直微不足道?!耙粋€成年人大腦運轉功率大約只有12瓦特,是一個標準的60瓦燈泡功率的1/5?!毕啾戎?,“IBM公司的沃森(Watson)超級計算機雖然擊敗了《危險邊緣》(Jeopardy!)節(jié)目的冠軍,但它需要90個IBMPower750服務器支持,每個服務器功效大概是1000瓦。”而且,每個服務器重約54千克。因此,說到大數(shù)據,其挑戰(zhàn)之一是使計算機變得更智能,挑戰(zhàn)之二是使其變得更有效率。計算機戰(zhàn)勝人腦?2011年2月16日,IBM打造的“沃森”超級計算機在《危險邊緣》節(jié)目中擊敗了兩名冠軍選手,贏得了77147美元。事實上,為了獎勵“沃森”在人機大戰(zhàn)中的獲勝,它得到了100萬美元的獎勵。但是“沃森”真的和節(jié)目中的其他兩位選手一樣聰明嗎?“沃森”能獨立思考嗎?研發(fā)、建造“沃森”大約花費了3億美元的研發(fā)投資——它擁有2億頁的存儲容量以及大約2800個處理器,毫無疑問,回答《危險邊緣》的問題,“沃森”非常在行。但很難說“沃森”的智商和電影《2001太空漫游》(2001:ASpaceOdyssey)中高智能計算機HAL表現(xiàn)出的智商是一樣的。“沃森”沒法理解節(jié)目中的另一個選手肯·詹寧斯(KenJennings)在節(jié)目中給出的最終答案,也無法像肯·詹寧斯一樣玩冷幽默——肯·詹寧斯的“戰(zhàn)敗宣言”寫道:“我,代表我自己,歡迎這位新的計算機霸主”。更重要的是,“沃森”無法聽懂人類語言,相反地,“沃森”只能以書面文本的形式處理《危險邊緣》中提出的問題。計算機如何聽懂人類語言為什么“沃森”無法理解人類的語言呢?因為“沃森”的設計者認為,要創(chuàng)建一個計算機系統(tǒng)使沃森能正確回答《危險邊緣》的問題已經夠復雜的了,而一旦把理解人類語言這個問題再引入進來,這種復雜度還要再加深一層。雖然在識別人類語言這一問題上,我們已經取得了重大進展,但是離完美解決這一問題還有很長的路要走。正如查爾姆斯理工大學(ChalmersInstituteofTechnology)的馬庫斯·福斯伯格(MarkusForsberg)所指出的一樣:理解人類語言可不是件簡單的事情。語言看上去至少滿足大數(shù)據的一些要求。通過分析無數(shù)的語言,計算機可以建立起識別模式,而當計算機再次碰到該語言的時候能夠識別它。但計算機在試著識別語言的時候仍面臨著很多挑戰(zhàn)。正如福斯伯格所說,我們不僅使用語言的真實聲音來辨別它,而且還運用了大量的語境知識來理解它。盡管單詞“two”和“too”的發(fā)音相同,但它們的意義大不相同。而這只是識別語言的眾多復雜性的開端而已。還有其他復雜性因素,例如我們說話的語速、口音、背景聲音和語言本身的連貫性——我們不會每說一個字就停一下,因此把單個的詞轉換成文本來理解并不是解決語言識別問題的可取的方法。即使是組建文字也并非易事,看看以下由福斯伯格提出的例句便略知一二。這些例句讀音相近,意思卻有天壤之別。It'snoteasytowreckanicebeach;It'snoteasytorecognizespeech;It'snoteasytowreckanicebeach.歸功于現(xiàn)代計算機的能力和速度,加之先進的模式識別方法,計算機正不斷改進。微軟研發(fā)組織的管理者表示,公司研發(fā)的最新語音識別技術比之前的版本精準度提高了30%,換言之,舊版本每4~5個字中有1個字會識別錯誤,而新版本每7~8個字才會出現(xiàn)1個錯誤。模式識別也會常常用于機器翻譯等任務,不過用過谷歌翻譯的用戶都明白,這些技術仍需不斷完善。同樣地,計算機要想能夠創(chuàng)作具有原創(chuàng)價值的專著,還有一段很長的路要走。有趣的是,人們一直在做這樣的嘗試。在最近的一項實驗中,一位程序員創(chuàng)建了一系列的虛擬程序,來模仿猴子在鍵盤上隨意打字,目的則在于回答“猴子是否可以再創(chuàng)莎翁作品”這個經典問題。不過計算機正在不斷地變得更加聰明,如今甚至聰明到可以進行自我操縱的程度。谷歌自駕車的美好未來如果你使用網絡,就多少會用到谷歌地圖。谷歌的搜索引擎聞名于世,占據了市場主導地位,而谷歌地圖也已累積了超過20PB的數(shù)據。換言之,這些數(shù)據需要超過82000個MacBookPro硬盤(每個硬盤容量為256GB)才能存儲下來。而所有的這些數(shù)據都已經被自駕車所運用了嗎?答案是:的確如此。根據負責谷歌自駕車項目的斯坦福大學塞巴斯蒂安·特倫(SebastianThrun)教授所說,谷歌將一系列地圖數(shù)據和實時激光檢測系統(tǒng)、多個雷達、GPS以及其他設備檢測到的信息相結合,使得系統(tǒng)能夠“看到”交通流量、交通信號燈和路況。自駕車不僅承諾會使道路更加安全,也會通過更好地利用行駛車輛間的空隙使道路更加暢通。據可靠消息,在美國每年約有43000人死于車禍,而每年全球死于車禍的人數(shù)為525萬人。谷歌自駕車雖然還不能自行思考,但是它們在模式匹配上能大有作為。通過結合地圖上的現(xiàn)有數(shù)據和車輛傳感器收集的實時數(shù)據,車輛可以制訂駕駛決策。通過將不同的交通信號燈的樣子與數(shù)據庫進行比對,自駕車可以決定何時啟動、何時停下。當然,如果沒有以下三大要素,這一切不過是空中樓閣。而這三大要素是大數(shù)據的普遍主題:車上的計算機系統(tǒng)可以獲取大量數(shù)據。車輛要充分使用傳感器接收的有關其他車輛的位置、障礙物、交通信號燈還有地形等各類實時信息。雖然當下這些傳感器的價格非常昂貴,一輛自駕車配備的所有設備的總價值在15萬美元左右,但在未來它的價格有望迅速走低。自駕車要能夠快速處理所有數(shù)據,并制訂下一步的實時決策。這一切都是由后座上的少量計算機設備和大量軟件實現(xiàn)。想想60幾年前,成功預測了艾森豪威爾總統(tǒng)選舉結果UNIVAC計算機,可是有一個車庫那么大呢。計算機如何讓欺詐無所遁形以上的一切內容都顯示出計算機非常擅長快速地進行模式匹配,這對于道路行駛或其他方面都非常有用。比如對于檢測欺詐行為來說,快速地進行模式匹配就顯得尤為重要。我們中的很多人都可能接到過來自信用卡公司反欺詐部門令人毛骨悚然的電話。電話中,我們被告知自己的信用卡信息很可能已經被盜,而此時此刻正有騙子在某個社區(qū)五金店以你的名字刷卡消費。引起他們的懷疑的原因可能是,這個剛剛談到的社區(qū)五金店,離你有8000公里遠??梢酝瑫r處理大量數(shù)據的計算機可以作出更好的決定,而這些決定會影響我們的日常生活。試想一下你最近一次用信用卡在線支付的場景。當點下“提交”按鈕時,付款頁面的操作會引發(fā)一系列的事件:進行中的交易會被計算機用一套復雜的算法來確定是你本人在操作,還是他人在盜用你的信用卡。問題是,要確定是他人在盜用信用卡還是本人在使用信用卡很不容易。數(shù)據泄露的情況這么嚴重,加之網絡上能找到的你的個人信息如此之多,所以在很多時候,盜用者對你的了解可能和你對自己的了解差不多。計算機系統(tǒng)通過一些基本的方式來識別你是不是本人:它會驗證信息。當你把電話打進銀行卡所在的銀行時,銀行會詢問你的名字、居住地以及你母親的娘家姓,然后將你所說的信息和在銀行文件上記載的信息相比對。也許,銀行還會查看你打進來的電話號碼是否就是他記錄的號碼。如果這些信息都吻合的話,你很有可能就是本人。計算機系統(tǒng)也會評估你的一系列數(shù)據點,看這是否能成為證實你是本人的佐證,或者至少減少你是冒名頂替者的可能性?;谶@些數(shù)據點,該系統(tǒng)至少能夠生成一個置信度。如果你住在洛杉磯,而你確實是從洛杉磯打進的電話,那你的置信度就會提高。然而,如果你住在洛杉磯卻從多倫多打進電話,則有可能降低置信度。更高級的評分機制(也稱為算法)會把你的數(shù)據和盜用者的數(shù)據進行比對。如果打電話的人和盜用者的數(shù)據點有很多的相同點,這可能意味著打電話的人是盜用者。如果網站用戶不是從過去的常用地登錄(比方說俄羅斯,而他大部分時候都是從美國登錄),而且他輸錯了幾次密碼,那他有可能是一個盜用者。計算機系統(tǒng)會將所有這些特征與你以及盜用者的普遍行為模式進行比對,以確定置信度應上升還是下降。如果與你平常的行為有很大的出入,或者說與盜用者的行為模式有許多匹配之處,置信度會降低。而若是與你的平常行為有很多匹配之處,置信度則會上升。然而,對計算機來說,這樣的分析存在兩方面的問題:它需要非常多的數(shù)據,來識別你以及盜用者的普遍行為模式;在計算機已經識別了你們的行為模式之后,它需要在將你的行為與這些模式進行比對的同時,還能夠處理上百萬其他用戶的指令。因此提到數(shù)據分析應用,計算機能通過兩種方式變得更加智能:提升用以檢測正常行為和異常行為的算法準確度;加大可同時處理的數(shù)據量。真正考驗計算機和計程車司機的就是快速作出決策。倫敦的計程車司機和自駕車司機一樣,需要了解向哪邊拐彎,而且要根據交通和其他現(xiàn)實條件,一次次地作出判斷。類似地,欺詐檢測系統(tǒng)需要在幾秒鐘之內決定是否同意你的交易操作。正如科技公司Terracotta的首席執(zhí)行官羅賓·吉爾斯洛普(RobinGilthorpe)所說,“沒有人想被‘拒絕’,特別是在電子商務領域?!比绻痪芙^交易的是客戶本人,這就不僅僅意味著丟了一筆生意,還意味著多了一個對你的服務不滿意的客戶。但是拒絕欺詐性交易又是確保非欺詐性交易的關鍵。如早期的貝寶(PayPal)分析專家邁克·格林菲爾德(MikeGreenfield)所指出的一樣,點對點支付公司貝寶率先發(fā)現(xiàn),公司必須早早創(chuàng)建對抗欺詐的技術,沒有這些技術,貝寶公司就沒法生存下來,而人們也沒法像現(xiàn)在這樣簡單、快捷地進行購買支付和相互轉賬。數(shù)據、算法和速度,更加智能的計算機作為人類,我們依然在作出不好的決策,例如闖紅燈、拐錯彎,或者得出錯誤的結論。但是就如我們本章所說,通過改變我們的行為,我們可以變得更聰明。我們也看到技術能幫助我們提升效率和減少錯誤。比方說,自動駕駛的汽車可以幫助我們避免闖紅燈或者走錯路。為了使計算機變得更智能,也就是說讓計算機能夠作出更好的決策和預測,這里有三個發(fā)揮效用的主要因素:數(shù)據、算法和速度。沒有足夠的數(shù)據,就很難識別出模式。當然,足夠的數(shù)據并不是指所有數(shù)據。大數(shù)據意味著在足夠的數(shù)據上進行分析的同時,創(chuàng)建能識別出模式的算法,也意味著它能夠對我們的分析結果進行驗證,以確定我們的結論是否正確。以某一天的數(shù)據作為樣本可能沒什么意義,但是以10年內的數(shù)據作為樣本則有可能得出結論。同時,如果我們無法快速地處理數(shù)據,就算是擁有世界上的所有數(shù)據也沒用。如果你排隊結賬的時候,需要等上10分鐘讓欺詐檢測算法來確定你是否能使用你的信用卡的話,估計這張信用卡你也不會再用了。同理,如果自駕車需要更多的時間來決定是往前開還是停下來,并以蝸牛爬行的速度行駛的話,沒有人會使用自駕車的。因此速度也是至關重要的一個因素。我們知道計算機在完成某些任務的時候非常高效,例如在試圖辨別欺詐的時候快速分析海量的交易行為。但是與人類相比,它們在完成一些任務上仍然不盡如人意,比方說將口語轉換成文本。而開啟大數(shù)據時代最大的機遇之一,即被稱為非結構化數(shù)據的領域,我們將在接下來的章節(jié)中探索分析。假設你第一次來到華盛頓特區(qū)——美利堅合眾國的首都,你很興奮,激動地想參觀白宮和所有的紀念碑、博物館。從一個地方趕到另一個地方,你需要利用當?shù)氐慕煌ㄏ到y(tǒng)——地鐵。這看上去挺簡單的,但問題是:你沒有地圖,不知道怎么走。\h[3]拋開地圖,設想一下服務臺里有一個好心人,他遞給你一份按字母順序排列的站名、線路名和坐標清單。理論上來說,這就夠了,要弄清楚怎么搭乘華盛頓的地鐵,你已經掌握了所有的信息。但事實上,要靠這份信息弄清楚搭哪條線路,在哪個站上車、下車,簡直是一場噩夢。不過,幸運的是,服務臺有一種地圖來傳達這些數(shù)據信息,那就是華盛頓地鐵圖。地圖上每條線路的所有站點都是按照順序用不同顏色標記出來的,你還可以在上面看到線路交叉的站點。如此一來,要知道在哪里換乘,就很容易了。可以說突然之間,弄清楚如何搭乘地鐵變成了輕而易舉的事情。地鐵圖呈獻給你的不僅是數(shù)據信息,更是清晰的認知。你不僅知道了該搭乘哪條線路,還大概知道了到達目的地需要花多長時間。無須多想,你就能知道到達目的地有8個站,每個站之間大概需要幾分鐘,因而你可以計算出從你所在的位置到“航空航天博物館”要花上20多分鐘。除此之外,地鐵圖上的路線不僅標注了名字或終點站,還用了不用的顏色——紅、黃、藍、綠、橙來幫助你辨認。每條線路用的是不同的顏色,如此一來,不管是在地圖上還是地鐵外的墻壁上,只要你想查找地鐵線路,都能通過顏色快速辨別。將信息可視化能有效抓住人們的注意力。有的信息如果通過單純的數(shù)字和文字來傳達,可能需要花費數(shù)分鐘甚至幾小時,甚至可能無法傳達;但是通過顏色、布局、標記和其他元素的融合,圖形卻能夠在幾秒鐘之內就把這些信息傳達給我們。理清楚了頭緒,你發(fā)現(xiàn)其實華盛頓特區(qū)只有86個地鐵站。東京地鐵系統(tǒng)包括東京地鐵公司(TokyoMetro)和都營地鐵公司(theToei)兩大地鐵運營系統(tǒng),一共有274個站。算上東京更大片區(qū)的所有鐵路系統(tǒng),東京一共有882個車站。要是沒有地圖的話,人們將很難了解這么多的站臺信息。數(shù)據與圖形倘若你使用過電子表格,你就會發(fā)現(xiàn),要從填滿數(shù)字的單元格中發(fā)現(xiàn)走勢有多么困難。在電影《黑客帝國》(TheMatrix)中,數(shù)字看上去就像圖形,而圖形看上去又像數(shù)字,因此,理解起來并不困難。這就是諸如微軟電子表格軟件(MicrosoftExcel)和蘋果電子表格軟件(AppleNumbers)這類程序內置圖表生成功能的原因之一。一般來說,我們在看一個餅狀圖或條形圖的時候,更容易發(fā)現(xiàn)事物的變化走勢。我們在制訂決策的時候了解事物的變化走勢至關重要。不管是討論銷售數(shù)據還是健康數(shù)據,一個簡單的數(shù)據點通常不足以告訴我們事情的整個變化走勢。投資者常常要試著評估一個公司的業(yè)績,一種方法就是及時查看公司在某一特定時刻的數(shù)據。比方說,管理團隊在評估某一特定季度的銷售業(yè)績和利潤時,若沒有將之前幾個季度的情況考慮進去的話,他們可能會總結說公司運營狀況良好。但是,投資者很難從數(shù)據中看出公司每個季度的業(yè)績增幅都在減少。因此從理論上看,公司的銷售業(yè)績和利潤似乎還不錯,但事實上,如果不想辦法來增加銷量,公司很快就會走向破產。管理者或投資者在了解公司業(yè)務發(fā)展趨勢的時候,內部環(huán)境信息是重要指標之一。管理者和投資者同時也需要了解外部環(huán)境,因為外部環(huán)境能讓他們了解自己的公司相對于其他公司運營情況如何。在不了解公司外部運營環(huán)境時,如果某個季度銷售業(yè)績下滑,管理者就有可能會錯誤地認為公司的運營情況不好??墒聦嵣希N售業(yè)績下滑的原因可能是由大的行業(yè)問題引起的,例如,房地產行業(yè)受房屋修建量減少的影響,航空業(yè)受出行減少的影響等。外部環(huán)境是指同行業(yè)的其他公司在同一段時間內的運營情況。不了解外部環(huán)境,管理者就很難洞悉究竟是什么導致了公司的業(yè)務受損。即使管理者了解了內部環(huán)境和外部環(huán)境,但要想僅通過抽象的數(shù)字來看出端倪還是很困難的,而圖形可以幫助他們解決這一問題??梢暬?,1張圖片等于1000個字1張圖片等于1000個字。為什么這樣說呢?正如大衛(wèi)·麥克坎德萊斯(DavidMcCandless)所說的那樣,“可視化是壓縮知識的一種方式”。減少數(shù)據量是一種壓縮方式,如采用速記、簡寫的方式來表示一個詞或者一組詞。但是,數(shù)據經過壓縮之后,雖然更容易存儲,卻讓人難以理解。然而,圖片不僅可以容納大量信息,還是一種便于理解的表現(xiàn)方式。在大數(shù)據里,這樣的圖片就叫作“可視化”。地鐵圖、餅狀圖和條形圖都是可視化的表現(xiàn)方式。乍一看,可視化似乎很簡單。但由于種種原因,要理解起來并不容易。首先,它很難滿足人們希望將所有數(shù)據相互銜接并出現(xiàn)在同一個地方的愿望。其次,內部環(huán)境和外部環(huán)境的數(shù)據信息可能存儲在兩個不同的地方。行業(yè)數(shù)據可能存儲在市場調查報告之中,而公司的具體銷售數(shù)據則存儲在公司的數(shù)據庫中。而且,這兩種數(shù)據的存儲模式也有細微的差別。公司的銷售數(shù)據可能是按天更新存儲的,而可用的行業(yè)數(shù)據可能只有季度數(shù)據。最后,數(shù)據信息不統(tǒng)一的叫法也使我們難以理解數(shù)據真正想傳達的信息。例如,硬盤驅動器在行業(yè)報告中被稱為“硬盤驅動器”,但在內部銷售數(shù)據庫中可能被叫作“產品編號”。但是,通過獲取所有這些數(shù)據信息,并將之繪制成圖表,數(shù)據就不再是簡單的數(shù)據了,它變成了知識??梢暬且环N壓縮知識的形式,因為看似簡單的圖片卻包含了大量結構化或非結構化的數(shù)據信息。它用不同的線條、顏色將這些信息進行壓縮,然后快速、有效地傳達出數(shù)據表示的含義。圖形藝術,數(shù)據界的達·芬奇提到數(shù)據可視化,沒有人在這個領域的影響能超過愛德華·塔夫特(EdwardTufte)?!都~約時報》將塔夫特稱作“數(shù)據界的列奧納多·達·芬奇”。1982年,塔夫特出版了20世紀最具代表性的書籍之一——《定量信息的視覺展示》(TheVisualDisplayofQuantitativeIn-formation)。盡管他最初的職業(yè)是教授政治科學,但塔夫特將畢生的精力都投入到了信息設計的理解和教學上面。塔夫特的一大貢獻就是,他聚焦于將每一個數(shù)據都做成圖示物——無一例外。塔夫特的信息圖形不僅能傳達信息,甚至被很多人看作是藝術品。塔夫特指出,可視化不僅能作為商業(yè)工具發(fā)揮作用,還能以一種視覺上引人入勝的方式傳達數(shù)據信息。視覺信息強大的科學解釋盡管塔夫特推廣的一些圖像方法不是很實用,但目前眾所周知,信息圖已經成為了傳達信息時廣受歡迎的方法。然而,信息圖也并非完美。和大數(shù)據的其他方面一樣,關于數(shù)據的可視化表達為何如此引人入勝是有科學解釋的。在一篇博文中,塔夫特引用了一篇發(fā)表在《當代生物學》(CurrentBiology)上的文章,文章描述了我們的視覺能吸納多少信息。根據那篇文章,美國賓夕法尼亞大學醫(yī)學院的研究人員估計,人類視網膜“視覺輸入(信息)的速度可以和以太網的傳輸速度相媲美”。在研究中,研究者將一只取自豚鼠的完好視網膜和一臺叫作“多電極陣列”的設備連接起來,該設備可以測量神經節(jié)細胞中的電脈沖峰值。神經節(jié)細胞將信息從視網膜傳達到大腦?;谶@一研究,科學家們能夠估算出所有神經節(jié)細胞傳遞信息的速度。其中一只豚鼠視網膜含有大概100000個神經節(jié)細胞,然后,相應地,科學家們就能夠計算出人類視網膜中的細胞每秒能傳遞多少數(shù)據。人類視網膜中大約包含1000000個神經節(jié)細胞,算上所有的細胞,人類視網膜能以大約每秒10兆的速度傳達信息。一位來自丹麥的著名科學作家陶·諾瑞錢德(TorN?rretranders)制作了一張圖片,圖片將上面的研究置于現(xiàn)實背景下,以展示我們感觀的帶寬。在圖中,他證明了我們通過視覺接收的信息比其他任何一種感官都多。如果我們通過視覺接收信息的速度和計算機網絡相當,那么我們通過觸覺接受信息的速度就只有它的1/10——相當于一個USB密匙與計算機連接的速度。我們的嗅覺和聽覺接收信息的速度更慢,大約是觸覺接收速度的1/10,相當于硬盤與計算機連接的速度。同樣,我們通過味蕾接收信息的速度也很慢。換句話說,我們通過視覺接收信息的速度比其他感官接收信息的速度快了10~100倍。因此,可視化能傳達龐大的信息量也就容易理解了。如果包含大量數(shù)據的信息被壓縮成了充滿知識的圖片,那我們接收這些信息的速度會更快。但這并不是可視化數(shù)據表示法如此強大的唯一原因。另一個原因是我們喜歡分享,尤其喜歡分享圖片。Facebook,圖片和分享的力量2012年11月22日,圖片分享應用Instagram的用戶分享了很多照片。這是Instagram史上最忙的一天,該應用程序的用戶當天分享的照片量是前一天的兩倍,那是因為11月22日這天恰好是感恩節(jié)。Instagram的用戶上傳了大概1000萬張圖片,這些圖片上都寫著以感恩為主題的祝福。說得委婉些,很多是關于火雞圖案的圖片,當然也有愛人的照片。目前,每個月大約有9000萬人都在使用這項服務。2012年年初,F(xiàn)acebook以10億美元收購了Instagram。Facebook在圖片分享方面并不輸給Instagram。Facebook的用戶在2011年年末,每天的圖片平均下載量達到了2.5億張,每月大概達到了75億張。當然,我們喜歡照片還有另一個原因,那就是現(xiàn)在拍照很容易。就在幾年前,我們還需要考慮該拍攝什么,不該拍攝什么——而現(xiàn)在影像隨處可見。在以前,如果我們的膠卷快用完了,還得省著最后一點下一次用。但現(xiàn)在,數(shù)碼相機、智能手機和便宜的存儲設備使我們可以拍攝多得數(shù)不清的數(shù)碼照片?,F(xiàn)在,幾乎每部智能手機都有內置攝像頭。這就意味著,我們不但可以隨意拍照,還可以輕松地上傳或分享這些照片。這種輕松、自在的拍攝和分享圖片的過程充滿了樂趣和價值。因此,當我們遇到有趣的信息圖時,很自然地想分享它們。和照片一樣,如今制作信息圖也要比以前容易得多。公司制作這類信息圖的動機也多了。2011年2月,搜索引擎巨頭谷歌公司改變其算法來獎勵高質量的網頁,尤其是“具有諸如調查、深度報道、有思想深度的分析等這類原創(chuàng)內容和信息的網站”。結果,公司的營銷人員發(fā)現(xiàn),要想讓公司的網站在谷歌搜索排名中靠前,他們就得更加努力。但一個擁有有限信息資源的營銷人員該做些什么來讓搜索更加吸引人呢?答案是制作一張信息圖。信息圖可以吸納廣泛的數(shù)據資源,使這些數(shù)據相互吻合,然后編造一個引人入勝的故事——涉及網頁瀏覽器的時候,就講關于瀏覽器戰(zhàn)爭的故事;涉及集體融資的時候,就講提供就業(yè)機會的故事。博主和記者們想方設法地在自己的文章中加進類似的圖片,因為讀者喜歡看圖片,同時也樂于分享這些圖片。最有效的信息圖還是被不斷重復分享的圖片。其中有一些圖片在網上瘋傳,它們在社交網站如Twitter、Facebook、LinkedIn以及我們傳統(tǒng)但實用的郵件里,被分享了數(shù)千次甚至上百萬次。由于信息圖制作需求的增加,幫助制作這類圖形的公司和服務也隨之增多。2011年成立的信息圖制作工具Visual.ly在其網站上展示了超過25000張信息圖。未來Visual.ly的商務模式還會擴大,從網站上能明顯看出,人們對使用視覺信息傳達知識有著巨大的需求。其他公司,例如QlikTech公司和它推出的QlikView產品、TableauSoftware公司和Spotfire公司提供的TIBCO產品有助于人們在做報告、分析和市場營銷時創(chuàng)建引人入勝的可視化效果。2010年,谷歌推出了“谷歌公共數(shù)據瀏覽器”(GooglePublicDataExplorer),使得人們能在線瀏覽公共數(shù)據。公共數(shù)據集使用可視化工具的企業(yè)客戶在提到可視化時通常會想到儀表盤(dashboard)的生成。儀表盤將有關銷售、市場營銷和供應鏈的數(shù)據轉換成管理人員易于查看的含義豐富的圖表?,F(xiàn)在,可視化的作用得到進一步的延伸。公共數(shù)據集是指可以公開獲取的政府或政府相關部門經常搜集的數(shù)據。人口普查是收集數(shù)據的一種形式,1790年美國人口普查局首次進行了美國人口普查。這次人口普查使美國政府獲取了大量與美國人口相關的信息,其中包括人口的組成及其地理分布。正如數(shù)據故事家漢斯·羅斯林(HansRosling)所闡釋的,這些數(shù)據對于人們了解人口變化、國家興衰以及戰(zhàn)勝嬰兒死亡率與其他流行病的進程尤為重要。羅斯林像足球解說員回放比賽錄像一樣,用數(shù)據可視化(尤其是公共數(shù)據)來述說與數(shù)據相關的事實。羅斯林賦予了數(shù)據生命力。但他并不是將數(shù)據像動畫片一樣播放出來,而是將數(shù)據繪制成圖表,然后進行演示。例如,數(shù)據走勢是怎樣隨著時間的變化而變化的,或是不同國家的相對人口或收入在四五十年里是怎樣演變的。這種動畫效果使數(shù)據具有了生命力,羅斯林和他的兒子、兒媳婦所開發(fā)的軟件成了谷歌公共數(shù)據瀏覽器的基礎。一直以來,很多著名的可視化信息中所使用的公共數(shù)據都是通過新穎、吸引人的方式來呈現(xiàn)的。Visual.ly在其網站刊有一篇名為《12張定格歷史的偉大可視化圖片》的文章里,展示了一些類似的圖片。其中的一些可視化圖片表明,恰當?shù)膱D片可以非常有效地傳達信息。例如約翰·斯諾(JohnSnow)關于1854年倫敦爆發(fā)霍亂的圖片,形象地解釋了被污染的井水是霍亂傳播的罪魁禍首。大約在同一時間,現(xiàn)代護理教育的奠基人弗洛倫斯·南丁格爾(FlorenceNightingale)制作了另一張拯救了眾多生命的著名圖表。南丁格爾用鋸齒圖將復雜的統(tǒng)計信息形象、生動地展示給了眾多觀眾。更重要的是,南丁格爾的圖表表明英國軍隊中的很多疾病是可以避免的:士兵們死亡的原因多數(shù)是由于非作戰(zhàn)因素造成的,因此,她成功地說服了政府使用衛(wèi)生設施來降低死亡率。實時可視化很多信息圖提供的信息從本質上看是靜態(tài)的,即使是羅斯林制作的吸引人的動態(tài)圖,其本質也是由靜止的歷史數(shù)據構成的。通常來說,制作信息圖需要花費很長的時間和精力:它需要數(shù)據,需要展示有趣的故事,還需要以圖標將數(shù)據以一種吸引人的方式呈現(xiàn)出來。但是工作到這里還沒結束。圖表只有經過發(fā)布、加工、分享和查看之后才具有真正的價值。當然,到那時,數(shù)據已經成了幾周或幾個月前的舊數(shù)據了。那么,在展示可視化數(shù)據時要怎樣在吸引人的同時又保證其時效性呢?數(shù)據要具有實時性價值,必須滿足以下三個條件:數(shù)據本身必須要有價值;必須有足夠的存儲空間和計算機處理能力來存儲和分析數(shù)據;必須要有一種巧妙的方法及時將數(shù)據可視化,而不用花費幾天或幾周的時間。想了解數(shù)百萬人是如何看待實時性事件,并將他們的想法以可視化的形式展示出來的想法看似遙不可及,但其實很容易達成。我們只要看看2012年的美國總統(tǒng)選舉就知道原因了。在過去的幾十年,投票需要民意測試者打電話或親自詢問每個選民的意見。通過將少數(shù)選民的投票和統(tǒng)計抽樣方法結合起來,民意測試者就能預測選舉的結果,并總結出人們對重要政治事件的看法。尼爾森(Nielsen)使用同樣的統(tǒng)計法來調查電視收視率,康姆斯克(Comscore)則用這個方法來調查網絡市場。尼爾森最初進行媒體調查時,使用了一種設備來調查1000個人收聽的是什么電臺。隨后,公司將類似的方法運用于電視節(jié)目,“尼爾森收視率”(Nielsenratings)從此廣為人知。這種調查方法至今仍被廣泛沿用,但在其他領域,大數(shù)據正改變著我們的調查方法。要說最近幾年,有哪家公司對我們調查公眾意見產生了更大的影響,那就是Twitter——它有一個叫作“情感分析”(Sentimentanalysis)的工具。事實上,Twitter可能是擁有大數(shù)據資源的公司中最被低估的公司之一。2012年10月,Twitter的用戶每天在網絡上發(fā)送的推文大約有5億條,對于人工生成的信息來說,這是一個相當可觀的數(shù)字。Twitter成立于2006年,最初還完全沒有發(fā)送推文的功能。通過分析推文中使用的詞語,計算機程序不僅可以發(fā)現(xiàn)流行的話題,即受到更多關注的話題,還可以得出人們感覺如何、持什么觀點的結論。捕捉和存儲數(shù)據只是像Twitter這樣的公司所面臨的大數(shù)據挑戰(zhàn)中的一部分。為了分析這些數(shù)據,公司開發(fā)了Twitter數(shù)據流(tweetstream),即支持每秒發(fā)送5000條或更多推文的功能。在特殊時期,如總統(tǒng)選舉辯論期間,用戶發(fā)送的推文更多,大約每秒2萬條。然后公司又要分析這些推文所使用的語言,找出通用詞匯,最后將所有的數(shù)據以可視化的形式呈現(xiàn)出來。要處理數(shù)量龐大且具有時效性的數(shù)據很困難,但并不是不可能。Twitter為大家熟知的數(shù)據流入口(firehoseaccess)配備了編程接口。像Twitter一樣,Gnip公司也開始提供類似的渠道。其他公司如BrightContext,提供實時情感分析工具。在2012年總統(tǒng)選舉辯論期間,《華盛頓郵報》在觀眾觀看辯論的時候使用BrightContext的實時情感模式來調查和繪制情感圖表。實時調查公司Topsy將大約2000億條推文編入了索引,為Twitter的政治索引提供了被稱為“Twindex”的技術支持。Vizzuality公司專門繪制地理空間數(shù)據,并為《華爾街日報》選舉圖提供技術支持。與電話投票耗時長且每場面談通常要花費大約20美元相比,上述公司所采用的實時調查只需花費幾個計算周期,并且沒有規(guī)模限制。另外,它還可以將收集到的數(shù)據及時進行可視化處理。但信息實時可視化并不只是在網上不停地展示實時信息而已?!肮雀柩坨R”(GoogleGlass)被《時代周刊》稱為2012年最好的發(fā)明?!八恢瞥梢桓毖坨R的形狀,增強了現(xiàn)實感,使之成為我們日常生活的一部分?!睂?,我們不僅可以在計算機和手機上看可視化呈現(xiàn)的數(shù)據,還能邊四處走動邊設想或理解這個物質世界。這聽起來像是科幻小說中才有的情節(jié),但其實不然?,F(xiàn)在,購買一副谷歌眼鏡需要花費高達1500美元的費用,但就像其他新科技一樣,谷歌眼鏡也會隨著時間的流逝變得更小、更便宜。圖像的多變性,計算機在識別中遇到麻煩諷刺的是,雖然計算機在處理大量文本信息的時候無人能敵,但在分析可視化信息時卻顯得尤為吃力。回想一下上一次的情景。你照了幾百張照片,想找一個網站或軟件能幫你自動刪除照得不好的照片,并將相關的照片歸類分組;或能自動辨認照片中的人物并和這些人分享這些照片。從更大范圍上來說,你希望像Facebook這樣的公司可以將不好的照片過濾出來,而亞馬遜可以判斷書本中的文字描述與對應的圖片是否相符。盡管如今與圖片識別和圖片描述有關的科技發(fā)展得如此迅速,而且這些問題看上去計算機很容易就能解決,要大量進行這種分析仍然頗具挑戰(zhàn)。麻省理工學院和哈佛大學的科學家們,在他們所著的一篇《為什么現(xiàn)實生活中識別可視物體這么困難?》(WhyIsReal-WorldVisualObjectRecognitionHard?)的論文中說道:“我們可以輕松識別可視物體,這種輕松正是計算機識別的難處。主要挑戰(zhàn)就是圖像的多變性——例如物體的位置、大小、方位、姿勢、亮度等,任何一個物體都可以在視網膜上投射下無數(shù)個不同的圖像?!焙唵握f來,圖像變化多端,因此很難分辨不同的圖片是否包含了相同的人或物。而且,圖案識別也更加困難;盡管要在一個句子中找出“總統(tǒng)”這個單詞很容易,在上百萬個句子中找出它來也相對簡單,但要在圖片中找出擁有“總統(tǒng)”這個頭銜的人卻困難重重。讓某個人描述一張圖片的特征很容易,但要描述上百萬張圖片該怎么辦呢?為了解決圖片特征問題,像亞馬遜和Facebook這樣的公司開始向眾包市場,如oDesk平臺和亞馬遜土耳其機器人(AmazonMechanicalTurk)\h[4]尋求幫助。在這些市場中,滿足特定條件的版主在通過了某項測試之后便有權使用圖片,并對這些圖片進行描繪和過濾。如今的計算機比較擅長幫我們制作可視化效果。而在將來,隨著像谷歌眼鏡這樣的產品不斷演變,它們能更好地幫我們理解實時的可視化信息。打造最好的可視化效果要說有哪個行業(yè)能更好地理解信息可視化的重要性,那一定是廣告行業(yè)了。廣告行業(yè)是為數(shù)不多的利用大數(shù)據新科技的先鋒行業(yè)之一。如果對于“圖片是一種強大的交流方式”還有任何疑問的話,那么我們只需看看美國公司每年在電視廣告上高達700億美元的花費就知道答案了。正如市場調研公司明略行(MillwardBrown)的全球首席分析師奈杰爾·霍利斯(NigelHollis)指出的那樣,如果不起作用,公司是不會在電視廣告上花費那么多錢的。\h[5]霍利斯認為,人們對電視廣告的影響感到迷惑是因為他們認為廣告商想要他們看了廣告馬上采取行動,而他們并不會這么做。這也正是他們的錯誤認識所在。品牌廣告的成功并不是呼喚人們立即行動或爭論,而是要給人們留下積極的印象來影響人們?;衾菇忉屨f:“最好的廣告是使用圖片、朗朗上口的廣告詞和故事情節(jié)將人們的注意力吸引到產品的品牌上面。尤其是將注意力放在那些動人的、容易記住的廣告短片的理念上,那些廣告沖破了我們的心理防線,播下了影響我們行為的記憶種子?!笔聦嵣希恍V告商還在傳送可視化圖像時采用了更加先進的方法。他們通過一種叫作“神經營銷學”(neuromarketing)的科學方法來判斷哪種可視化效果最好。神經營銷學使用“功能磁共振成像”(fMRI)和其他科技來觀察在面對各種各樣廣告方式的時候,大腦的哪個部分會興奮起來。營銷人員甚至能通過場景模擬來確定廣告放在哪里會產生最好的效果,例如將廣告放在廣告牌上還是公交車的車身上。因此,可視化不僅是一種傳遞大量信息的有效途徑,它還和大腦直接聯(lián)系在一起,并能觸動情感,引起化學反應。可視化可能是傳遞數(shù)據信息最有效的方法之一。研究表明,不僅可視化本身很重要,何時、何地、以何種形式呈現(xiàn)對可視化來說也至關重要。通過設置正確的場景,選擇恰當?shù)念伾踔吝x擇一天中合適的時間,可視化可以更有效地傳達隱藏在大量數(shù)據中的真知灼見。著名的媒介理論家馬歇爾·麥克盧漢(MarshallMcLuhan)曾經說過:“媒介即信息。”現(xiàn)在,科學證據證明了在傳遞信息時環(huán)境和傳輸?shù)闹匾浴?梢暬某藬?shù)效應,更快地吸收更多的信息正如我們在本章看到的那樣,可視化和數(shù)據是相伴而生的。當然也有計算機不需要人為干涉就能單獨處理數(shù)據的例子。例如,當要處理數(shù)十億條搜索查詢的時候,要想人為地找出與查詢結果相匹配的文本廣告是根本不可能的。同樣,計算機系統(tǒng)非常善于自動定價,并在百萬多個交易中快速判斷出哪些具有欺騙性。但仍存在這樣一些情況:人類可以根據數(shù)據作出更好的決策。我們擁有更多可用的數(shù)據,但這并不意味著我們就能更輕松地從這些數(shù)據中得出更好的見解。事實上,情況恰好是相反的。我們擁有的數(shù)據越多,從數(shù)據中提取出具有實踐意義的見解就顯得越發(fā)重要。將這些數(shù)據可視化,可能是指導我們行動的最強大的機制之一。可視化這么有效的原因是(正如我們之前提到的那樣),我們的眼睛可以向大腦傳送高吞吐量的信息,也許比我們的其他一些感官所傳遞的信息量要高好幾百倍??梢暬梢詫⑹聦嵢谌霐?shù)據,并引起情感反應。它可以將大量數(shù)據壓縮成便于使用的知識。將可視化壓縮后的知識和視覺傳輸?shù)母咄掏铝啃畔⑾嘟Y合,你就能收獲可視化的乘數(shù)效應——更快地吸收更多的數(shù)據。大數(shù)據研究不僅關乎數(shù)據本身,它還關乎數(shù)據傳輸?shù)耐緩揭约拔覀冇脭?shù)據干什么。大數(shù)據不僅僅是科學家、數(shù)據分析師或工程師的研究領域,從我們看到的圖表到每天上班途中對我們進行連番轟炸的廣告,數(shù)據無處不在。社會化媒體平臺正在改變著我們的交流方式,同時使文本信息和具有深遠影響的可視化知識得到了更為廣泛的傳播。正確的可視化使數(shù)據不再是簡單的文本或數(shù)字,它能反映出事件在商業(yè)圈或更大環(huán)境下的實際影響,例如全球健康這樣的大問題。搜索引擎巨頭谷歌就是大數(shù)據的縮影。行業(yè)研究公司康姆斯克的調查結果顯示,僅2012年3月這一個月,谷歌處理的搜索請求就高達122億次。除了存儲搜索結果中出現(xiàn)的網站鏈接外,谷歌還能存儲人們的所有搜索行為,這就使該公司能以驚人的洞察力掌握搜索行為的時間、內容以及它們是如何進行的。這些對數(shù)據的洞察力意味著谷歌可以優(yōu)化其廣告,使之從網絡流量中獲益,這是其他公司所不能企及的。另外,谷歌不僅可以追蹤人的行為,還可以預測人們接下來會采取怎樣的行動。換句話說,在你行動之前,谷歌就已經知道你在尋找什么了。這種對大量的人機數(shù)據進行捕捉、存儲和分析,并根據這些數(shù)據作出預測的能力就是我們所說的大數(shù)據。一夜走紅的大數(shù)據為什么大數(shù)據會在一夜之間迅速走紅呢?為什么《紐約時報》會把2012年稱為“大數(shù)據的跨界年度”?大數(shù)據之所以會在2012年進入主流大眾的視野,緣于三種趨勢的合力。第一,許多高端消費公司加大了對大數(shù)據的應用。社交網絡巨擘Facebook使用大數(shù)據來追蹤用戶。通過識別你所熟知的其他人,F(xiàn)acebook可以給出好友推薦建議。用戶的好友數(shù)目越多,他與Facebook的黏度就越高。好友越多同時也就意味著用戶分享的照片越多、發(fā)布的狀態(tài)更新越頻繁、玩的游戲也越多樣化。商業(yè)社交網站LinkedIn則使用大數(shù)據為求職者和招聘單位之間建立關聯(lián)。有了LinkedIn,獵頭公司就不再需要對潛在雇員進行意外訪問。只需一個簡單的搜索,他們就可以找到潛在雇員,并與他們進行聯(lián)系。同樣,求職者也可以通過聯(lián)系網站上的其他人,將自己推銷給潛在的負責招聘的經理。LinkedIn的首席執(zhí)行官杰夫·韋納(JeffWeiner)近日曾談到該網站的未來發(fā)展及其經濟圖表——一個能實時識別“經濟機會趨勢”的全球經濟數(shù)字圖表。實現(xiàn)該圖表及其預測能力時所面臨的挑戰(zhàn)就是一個大數(shù)據問題。第二,F(xiàn)acebook與LinkedIn兩家公司都是在2012年上市的。Facebook在納斯達克上市,LinkedIn在紐約證券交易所上市。從表面上來看,谷歌和這兩家公司都是消費品公司,而實質上,它們是名副其實的大數(shù)據企業(yè)。除了這兩家公司以外,Splunk公司(一家為大中型企業(yè)提供運營智能的大數(shù)據企業(yè))也在2012年完成了上市。這些企業(yè)的公開上市使華爾街對大數(shù)據業(yè)務的興趣日漸濃厚。因此,硅谷的風險投資家們開始前赴后繼地為大數(shù)據企業(yè)提供資金,這真是前所未有的狀況!大數(shù)據將引發(fā)下一波重大轉變,在這場轉變中,硅谷有望在未來幾年取代華爾街。作為Facebook的早期投資者,AccelPartners投資機構在2011年年末宣布為大數(shù)據提供1億美元的投資,2012年年初,AccelPartners支出了第一筆投資。著名的風險投資公司安德森·霍洛維茨(AndreessenHorowitz)、Greylock公司也針對這一領域進行了大量的投資。第三,商業(yè)用戶,例如亞馬遜、Facebook、LinkedIn和其他以數(shù)據為核心的消費產品,也開始期待以一種同樣便捷的方式來獲得大數(shù)據的使用體驗。既然互聯(lián)網零售商亞馬遜可以為用戶推薦一些閱讀書目、電影和產品,為什么這些產品所在的企業(yè)卻做不到呢?比如,為什么汽車租賃公司不能明智地決定將哪一輛車提供給租車人呢?畢竟,該公司擁有客戶的租車歷史和現(xiàn)有可用車輛庫存記錄。隨著新技術的出現(xiàn),公司不僅能夠了解到特定市場的公開信息,還能了解到有關會議、重大事項及其他可能會影響市場需求的信息。通過將內部供應鏈與外部市場數(shù)據相結合,公司可以更加精確地預測出可用的車輛類型和可用時間。類似地,通過將這些內部數(shù)據和外部數(shù)據相結合,零售商每天都可以利用這種混合式數(shù)據確定產品價格和擺放位置。通過考慮從產品供應到消費者的購物習慣這一系列事件的數(shù)據(包括哪種產品賣得比較好),零售商就可以提升消費者的平均購買量,從而獲得更高的利潤。谷歌的大數(shù)據行動谷歌的規(guī)模使其得以實施一系列大數(shù)據方法,而這些方法是大多數(shù)企業(yè)根本不曾具備的。谷歌的優(yōu)勢之一是其擁有一支軟件工程師隊伍,這些工程師能為該公司提供前所未有的大數(shù)據技術。多年來,谷歌還不得不處理大量的非結構化數(shù)據,例如網頁、圖片等,它不同于傳統(tǒng)的結構化數(shù)據,例如寫有姓名和地址的表格。谷歌的另一個優(yōu)勢是它的基礎設施。就谷歌搜索引擎本身的設計而言,數(shù)不勝數(shù)的服務器保證了谷歌搜索引擎之間的無縫連接。如果出現(xiàn)更多的處理或存儲信息需求,抑或某臺服務器崩潰時,谷歌的工程師們只需添加服務器就能保證搜索引擎的正常運行。據估計,谷歌的服務器總數(shù)超過100萬個。谷歌在設計軟件的時候一直沒有忘記自己所擁有的強大的基礎設施。MapReduce和GoogleFileSystem就是兩個典型的例子?!哆B線》雜志在2012年暑期的報道稱,這兩種技術“重塑了谷歌建立搜索索引的方式”。許多公司現(xiàn)在都開始接受Hadoop開源代碼——MapReduce和GoogleFileSystem開發(fā)的一個開源衍生產品。Hadoop能夠在多臺計算機上實施分布式大數(shù)據處理。當其他公司剛剛開始利用Hadoop開源代碼時,谷歌在多年前就已經開始大數(shù)據技術的應用了,事實上,當其他公司開始接受Hadoop開源代碼時,谷歌已經將重點轉移到其他新技術上了,這在同行中占據了絕對優(yōu)勢。這些新技術包括內容索引系統(tǒng)Caffeine、映射關系系統(tǒng)Pregel以及量化數(shù)據查詢系統(tǒng)Dremel。如今,谷歌正在進一步開放數(shù)據處理領域,并將其和更多第三方共享,例如它最近剛剛推出的BigQuery服務。該項服務允許使用者對超大量數(shù)據集進行交互式分析,其中“超大量”意味著數(shù)十億行的數(shù)據。BigQuery就是基于云的數(shù)據分析需求。此前,許多第三方企業(yè)只能通過購買昂貴的安裝軟件來建立自己的基礎設施,才能進行大數(shù)據分析。隨著BigQuery這一類服務的推出,企業(yè)可以對大型數(shù)據集進行分析,而無須巨大的前期投資。除此以外,谷歌還擁有大量的機器數(shù)據,這些數(shù)據是人們在谷歌網站進行搜索及經過其網絡時所產生的。每當用戶輸入一個搜索請求時,谷歌就會知道他在尋找什么,所有人類在互聯(lián)網上的行為都會留下“足跡”,而谷歌具備絕佳的技術對這些“足跡”進行捕捉和分析。不僅如此,除搜索之外,谷歌還有許多獲取數(shù)據的途徑。企業(yè)會安裝“谷歌分析”(GoogleAnalytics)之類的產品來追蹤訪問者在其站點的“足跡”,而谷歌也可獲得這些數(shù)據。利用“谷歌廣告聯(lián)盟”(GoogleAdsense),網站還會將來自谷歌廣告客戶網的廣告展示在其各自的站點上,因此,谷歌不僅可以洞察自己網站上廣告的展示效果,對其他廣告發(fā)布站點的展示效果也一覽無余。將所有這些數(shù)據集合在一起,我們可以看到:企業(yè)不僅可以從最好的技術中獲益,同樣還可以從最好的信息中獲益。在信息技術方面,許多企業(yè)可謂耗資巨大,然而谷歌所進行的龐大投入和所獲得的巨大成功,卻罕有企業(yè)能望其項背。亞馬遜的步步緊逼谷歌并不是唯一一個推行大數(shù)據的大型技術公司。互聯(lián)網零售商亞馬遜已經采取了一些激進的舉措,并很可能成為谷歌數(shù)據驅動領域的最大威脅。分析者預測,截至2015年,亞馬遜營收將超過1000億美元,即將超過沃爾瑪,成為世界最大的零售商。如同谷歌一樣,亞馬遜也要處理海量數(shù)據,只不過它處理的數(shù)據帶有更強的電商傾向。每次,當消費者們在亞馬遜網站上搜索想看的電視節(jié)目或想買的產品時,亞馬遜就會增加對該消費者的了解?;谙M者的搜索行為和產品購買行為,亞馬遜就可以知道接下來應該為消費者推薦什么產品。而亞馬遜的聰明之處遠不止于此。它還會在網站上持續(xù)不斷地測試新的設計方案,從而找出轉化率最高的方案。你會認為亞馬遜網站上的某段頁面文字只是碰巧出現(xiàn)的嗎?那就請你再好好想想吧。整個網站的布局、字體大小、顏色、按鈕以及其他所有設計,其實都是在經過多次審慎測試后的最優(yōu)結果。\h[6]數(shù)據驅動的方法并不僅限于以上領域。根據亞馬遜一位前任員工的說法,亞馬遜的企業(yè)文化就是冷冰冰的數(shù)據驅動文化。數(shù)據會告訴你什么是有效的、什么是無效的,新的商業(yè)投資項目必須要有數(shù)據支撐。對數(shù)據的長期關注使亞馬遜能夠以更低的價格提供更好的服務。消費者往往會直接去亞馬遜網站搜索商品并進行購買,谷歌之類的搜索引擎則完全被拋諸腦后。爭奪消費者控制權這一戰(zhàn)爭的硝煙還在不斷彌漫。如今,蘋果、亞馬遜、谷歌以及微軟,這4家公認的巨頭不僅在互聯(lián)網上進行廝殺,還將其爭斗延伸至移動領域。隨著消費者把越來越多的時間花費在手機和平板電腦等移動設備上,他們坐在計算機前的時間已經變得越來越少,因此,那些能成功地讓消費者購買他們的移動設備的企業(yè),將會在銷售和獲取消費者行為信息方面具備更大的優(yōu)勢。企業(yè)掌握的消費者群體和個體信息越多,它就越能更好地制定內容、廣告和產品。令人難以置信的是,從支撐新興技術企業(yè)的基礎設施到消費內容的移動設備,亞馬遜的觸角已觸及到更為廣闊的領域。亞馬遜在幾年前就預見了將作為電子商務平臺基礎結構的服務器和存儲基礎設施開放給其他人的價值。“亞馬遜網絡服務”(AmazonWebService,以下簡稱AWS)是亞馬遜公司知名的面向公眾的云服務提供者,能為新興企業(yè)和老牌公司提供可擴展的運算資源。雖然AWS成立的時間不長,但已有分析者估計它每年的銷售額超過15億美元。這種運算資源為企業(yè)開展大數(shù)據行動鋪平了道路。當然,企業(yè)依然可以繼續(xù)投資建立以私有云為形式的自有基礎設施,而且很多企業(yè)還會這樣做。但是如果企業(yè)想盡快利用額外的、可擴展的運算資源,它們還可以方便、快捷地在亞馬遜的公共云上使用多個服務器。如今亞馬遜引領潮流、備受矚目,靠的不僅是它自己的網站和KindleFire之類的新移動設備,支持著數(shù)千個熱門站點的基礎設施同樣功不可沒。AWS帶來的結果是,大數(shù)據分析不再需要企業(yè)在IT上投入固定成本。如今,獲取數(shù)據、分析數(shù)據都能夠在云端簡單、迅速地完成。換句話說,如今,企業(yè)有能力獲取和分析大規(guī)模的數(shù)據——而在過去,它們則會因為無法存儲而不得不拋棄它。將信息變成一種競爭優(yōu)勢AWS之類的服務與Hadoop之類的開源技術相結合,意味著企業(yè)終于能夠嘗到信息技術在多年以前向世人所描繪的果實。數(shù)十年來,人們對所謂的“信息技術”的關注一直偏重于其中的“技術”部分。首席信息官(CIO)的職責就是購買和管理服務器、存儲設備和網絡。而如今,信息以及對信息的分析、存儲和預測的能力,正成為一種競爭優(yōu)勢(見圖3—1)。信息技術剛剛興起的時候,較早應用信息技術的企業(yè)能夠更快地發(fā)展,超越他人。微軟在20世紀90年代就樹立并鞏固了它的地位,這不僅得益于它開發(fā)了世界上應用最為廣泛的操作系統(tǒng),還在于當時它在公司內部將電子郵件作為標準的溝通機制。事實上,在許多企業(yè)仍在猶豫是否采用電子郵件的時候,電子郵件已經成為微軟討論招聘、產品決策、市場戰(zhàn)略之類事務的標準溝通機制。雖然群發(fā)電子郵件的交流在如今已是司空見慣,但在當時,這樣的舉措讓微軟較之其他未采用電子郵件的公司具有更多的速度和協(xié)作優(yōu)勢。接受大數(shù)據并在不同的組織之間民主化地使用數(shù)據,將會給企業(yè)帶來與之相似的優(yōu)勢。諸如谷歌和Facebook之類的企業(yè)已經從“數(shù)據民主”中獲益。通過將內部數(shù)據分析平臺開放給所有跟自己公司相關的分析師、管理者和執(zhí)行者,谷歌、Facebook以及其他一些公司已經讓組織中的所有成員都能提出跟商業(yè)有關的數(shù)據問題、獲得答案并迅速行動。正如Facebook的前任大數(shù)據領導人阿施什·圖蘇爾(AshishThusoo)所言,新技術已經將我們的話題從“儲存什么數(shù)據”轉化到“我們怎樣處理更多的數(shù)據”這一話題上了。以Facebook為例,它將大數(shù)據推廣成為內部的服務,這意味著該服務不僅是為工程師設計的,也是為終端用戶,即生產線管理人員設計的,他們需要運用“查詢”來找出有效的方案。因此,管理者們不再需要花費幾天或是幾周的時間,來找出網站的哪些改變最有效,或者哪些廣告方式的效果最好。他們可以使用內部的大數(shù)據服務,而這些服務本身就是為了滿足他們的需求而設計的,這使得數(shù)據分析的結果很容易在員工之間共享。過去的20年是信息技術的時代,接下來的20年的主題仍會是信息技術。這些企業(yè)能夠更快地處理數(shù)據,而公共數(shù)據資源和內部數(shù)據資源一體化將帶來獨特的洞見,使他們能夠遠遠超越競爭對手。正如“大數(shù)據創(chuàng)新空間曲線”(BigDataStart-upSpaceCurve)的創(chuàng)始人和首席技術官安德魯·羅杰斯(J.AndrewRogers)所言,“你分析數(shù)據的速度越快,它的預測價值就越大”。企業(yè)如今正在漸漸遠離批量處理數(shù)據的方式(即先存儲數(shù)據,之后再慢慢進行分析處理)而轉向實時分析數(shù)據來獲取競爭優(yōu)勢。對于高管們而言,好消息是:來自于大數(shù)據的信息優(yōu)勢不再只屬于谷歌、亞馬遜之類的大企業(yè)。Hadoop之類的開源技術讓其他企業(yè)可以擁有同樣的優(yōu)勢。無論是老牌財富100強企業(yè)還是新興初創(chuàng)公司,都能夠以合理的價格利用大數(shù)據來獲得競爭優(yōu)勢。數(shù)據價格下降,數(shù)據需求上升與以往相比,大數(shù)據帶來的顛覆不僅是可以獲取和分析更多數(shù)據的能力,更重要的是,獲取和分析等量數(shù)據的價格也正在顯著下降。但是價格“蒸蒸日下”,需求卻蒸蒸日上。這種略帶諷刺的關系正如所謂的“杰文斯悖論”(JevonsParadox)\h[7]一樣??萍歼M步使儲存和分析數(shù)據的方式變得更有效率,與此同時,公司也將對此做出更多的數(shù)據分析。簡而言之,這就是為什么大數(shù)據能夠帶來商業(yè)上的顛覆性變化。從亞馬遜到谷歌,從IBM到惠普和微軟,大量的大型技術公司紛紛投身于大數(shù)據;而基于大數(shù)據解決方案,更多初創(chuàng)型企業(yè)如雨后春筍般涌現(xiàn),提供基于云服務和開源的大數(shù)據解決方案。大公司致力于橫向的大數(shù)據解決方案,與此同時,小公司則以垂直行業(yè)的關鍵應用為重。有些產品可以優(yōu)化銷售效率,而有些產品則通過將不同渠道的營銷業(yè)績與實際的產品使用數(shù)據相聯(lián)系,來為未來營銷活動提供建議。這些大數(shù)據應用程序(BigDataApplications)意味著小公司不必在內部開發(fā)或配備所有大數(shù)據技術;在大多數(shù)情況下,它們可以利用基于云端的服務來解決數(shù)據分析需求。大數(shù)據應用程序的興起大數(shù)據應用程序在大數(shù)據空間掀起了又一輪波浪。行業(yè)分析公司451集團在分析過大數(shù)據的投資前景后發(fā)布報道稱,截至2011年11月,已對大數(shù)據相關的基礎設施投資了大約3.5億美元。\h[8]從那時起,投資者相繼將大量資金投入到現(xiàn)有的基礎設施中,又為Hadoop軟件的商業(yè)供應商Cloudera投資了6500萬美元,此外,還為其他公司提供了投資。與此同時,企業(yè)并沒有停留在大數(shù)據基礎設施上,而是將重點轉向了大數(shù)據的應用,智能運營公司Splunk就是這樣。從歷史上來說,企業(yè)必須利用自主生成的腳本文件來分析日志文件(一種由網絡設備和IT系統(tǒng)中的服務器生成的文件),相對而言,這是一種人工處理程序。IT管理員不僅要維護服務器、網絡工作設備和軟件的基礎設施,他們還要建立自己的腳本工具,從而確定因這些系統(tǒng)所引發(fā)的問題的根源。這些系統(tǒng)會產生海量的數(shù)據;每當用戶登陸或訪問一個文件時,一旦軟件出現(xiàn)警告或顯示錯誤,管理者就需要對這些數(shù)據進行處理,他們必須弄清楚究竟是怎么一回事。有了大數(shù)據應用程序之后,企業(yè)不再需要自己動手創(chuàng)建工具。他們可以利用預先設置的應用程序從而專注于他們的業(yè)務經營。比如,利用Splunk公司的軟件,就可以搜索IT日志,并直觀看到有關登陸位置和頻率的統(tǒng)計,進而輕松地找到基礎設施存在的問題。當然,企業(yè)的軟件主要是安裝類軟件,也就是說,它必須安裝在客戶的網站中。基于云端的大數(shù)據應用程序承諾,它們不會要求企業(yè)安裝任何硬件或軟件。在某些方面,它們可以被認為是軟件即服務(SoftwareasaService,SaaS)后的下一個合乎邏輯的步驟。軟件即服務是通過互聯(lián)網向客戶交付產品的一種新形式,現(xiàn)已經發(fā)展得較為完善。十幾年前,客戶關系管理(CRM)軟件服務提供商Salesforce首先推出了“無軟件”的概念,這一概念已經成為基于云計算的客戶關系管理軟件的事實標準,這種軟件會幫助企業(yè)管理他們的客戶列表和客戶關系。通過軟件運營服務轉化后,軟件可以被隨時隨地地使用,企業(yè)幾乎不需要對軟件進行維護。大數(shù)據應用程序把著眼點放在這些軟件存儲的數(shù)據上,從而改變了這些軟件公司的性質。換句話說,大數(shù)據應用程序具備將技術企業(yè)轉化為“有價值的信息企業(yè)”的潛力。舉個例子,oPower公司可以改變能量的消耗方式。通過與75家不同的公用事業(yè)企業(yè)合作,該公司可以追蹤約5000萬美國家庭的能源消耗狀況。該公司利用智能電表設備(一種追蹤家庭能源使用的設備)中儲存的數(shù)據,能為消費者提供能源消耗的具體報告。即使能源消耗數(shù)據出現(xiàn)一個小小的變動,也會對千家萬戶造成很大的影響。就像谷歌可以根據消費者在互聯(lián)網上的行為追蹤到海量的數(shù)據一樣,oPower公司也擁有大量的能源使用數(shù)據。這種數(shù)據最終會賦予oPower公司以及像oPower公司之類的公司截然不同的洞察力。目前該公司已經開始通過提供能源報告來繼續(xù)建立其信息資產,這些數(shù)據資源和分析產品向我們展示了未來大數(shù)據商業(yè)的雛形。然而,大數(shù)據應用程序不僅僅出現(xiàn)在技術世界里。在技術世界之外,企業(yè)還在不斷研發(fā)更多的數(shù)據應用程序,這些程序將對我們的日常生活產生重大的影響。舉例來說,有些產品會追蹤與健康相關的指標并為我們提出建議,從而改善人類的行為。這類產品還能減少肥胖、提高生活質量、降低醫(yī)療成本。實時響應,大數(shù)據用戶的新要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥理學復習計劃的制定與執(zhí)行試題及答案
- 六年級語文能力提高計劃試題及答案
- 透視2024年統(tǒng)計學考試命題思路題及答案
- 2024年寵物營養(yǎng)問題解析試題及答案
- 2025年乘用車變速器齒輪合作協(xié)議書
- 2024年二手車評估師試題集錦及答案
- 2024年質檢員考試中常見誤區(qū)及試題及答案
- 電競賓館面試題及答案
- 2024年藥理學考試的考情分析與試題答案
- 寵物營養(yǎng)師培養(yǎng)計劃的關鍵點試題及答案
- 電網工程設備材料信息參考價(2024年第四季度)
- 電子產品生產工藝流程手冊
- 2023-爾雅《星海求知:天文學的奧秘》課后章節(jié)答案
- LY/T 1955-2022林地保護利用規(guī)劃林地落界技術規(guī)程
- 專練11(30題)(網格作圖題)2022中考數(shù)學考點500題(吉林)解析版
- GB/T 1936.1-2009木材抗彎強度試驗方法
- 馬克思主義唯物史觀課件
- 工商企業(yè)管理專業(yè)案例分析報告
- DB15T 2403-2021肉羊育種數(shù)據管理規(guī)范
- 口腔種植專用病歷【范本模板】
- 《空中領航學》4.2 確定飛機位置
評論
0/150
提交評論