大數(shù)據(jù)導(dǎo)論(第2版) 課件全套 周斌斌 項(xiàng)目1-8 大數(shù)據(jù)與大數(shù)據(jù)時代- 大數(shù)據(jù)在云端_第1頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件全套 周斌斌 項(xiàng)目1-8 大數(shù)據(jù)與大數(shù)據(jù)時代- 大數(shù)據(jù)在云端_第2頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件全套 周斌斌 項(xiàng)目1-8 大數(shù)據(jù)與大數(shù)據(jù)時代- 大數(shù)據(jù)在云端_第3頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件全套 周斌斌 項(xiàng)目1-8 大數(shù)據(jù)與大數(shù)據(jù)時代- 大數(shù)據(jù)在云端_第4頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件全套 周斌斌 項(xiàng)目1-8 大數(shù)據(jù)與大數(shù)據(jù)時代- 大數(shù)據(jù)在云端_第5頁
已閱讀5頁,還剩1129頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目1大數(shù)據(jù)與大數(shù)據(jù)時代目錄1任務(wù)1.1:進(jìn)入大數(shù)據(jù)時代

【導(dǎo)讀案例】準(zhǔn)確預(yù)測地震

【任務(wù)描述】

【知識準(zhǔn)備】進(jìn)入大數(shù)據(jù)時代【作業(yè)】【實(shí)訓(xùn)操作】ETI公司的背景信息2任務(wù)1.2:熟悉大數(shù)據(jù)的定義【導(dǎo)讀案例】準(zhǔn)確預(yù)測地震討論:(1)請記錄下你曾經(jīng)親歷或者聽說過的地震事件:(2)針對地球上頻發(fā)的地震災(zāi)害,請盡可能多地列舉你所認(rèn)為的地震大數(shù)據(jù)內(nèi)容?(3)認(rèn)識大數(shù)據(jù),對地震活動的方方面面(預(yù)報(bào)、預(yù)測與災(zāi)害減輕等)有什么意義?(4)請簡單記述你所知道的上一周內(nèi)發(fā)生的國

際、國內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)熟悉大數(shù)據(jù)與大數(shù)據(jù)時代的發(fā)生和發(fā)展。(2)深入理解:為什么說“數(shù)據(jù)已經(jīng)成為了一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,可以創(chuàng)造新的經(jīng)濟(jì)利益?!保?)熟悉大數(shù)據(jù)的描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析?!局R準(zhǔn)備】進(jìn)入大數(shù)據(jù)時代信息社會所帶來的好處是顯而易見的:每個人口袋里都揣有一部手機(jī),每臺辦公桌上都放著一臺電腦,每間辦公室內(nèi)都連接到局域網(wǎng)甚至互聯(lián)網(wǎng)。半個世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面和深度地融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導(dǎo)致了信息形態(tài)的變化——量變引起了質(zhì)變。天文學(xué)——信息爆炸的起源1.1.11.1.1天文學(xué)——信息爆炸的起源綜合觀察社會各個方面的變化趨勢,我們能真正意識到信息爆炸或者說大數(shù)據(jù)的時代已經(jīng)到來。以天文學(xué)為例,2000年斯隆數(shù)字巡天項(xiàng)目(見圖1-2)啟動的時候,位于新墨西哥州的望遠(yuǎn)鏡在短短幾周內(nèi)收集到的數(shù)據(jù),就比世界天文學(xué)歷史上總共收集的數(shù)據(jù)還要多。到了2010年,信息檔案已經(jīng)高達(dá)1.4×242字節(jié)。不過,預(yù)計(jì)2016年在智利投入使用的大型視場全景巡天望遠(yuǎn)鏡能在五天之內(nèi)就獲得同樣多的信息。1.1.1天文學(xué)——信息爆炸的起源圖1-2美國斯隆數(shù)字巡天望遠(yuǎn)鏡1.1.1天文學(xué)——信息爆炸的起源天文學(xué)領(lǐng)域發(fā)生的變化在社會各個領(lǐng)域都在發(fā)生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了十年才完成了三十億對堿基對的排序。大約十年之后,世界范圍內(nèi)的基因儀每15分鐘就可以完成同樣的工作。在金融領(lǐng)域,美國股市每天的成交量高達(dá)70億股,而其中三分之二的交易都是由建立在數(shù)學(xué)模型和算法之上的計(jì)算機(jī)程序自動完成的,這些程序運(yùn)用海量數(shù)據(jù)來預(yù)測利益和降低風(fēng)險(xiǎn)。1.1.1天文學(xué)——信息爆炸的起源互聯(lián)網(wǎng)公司更是要被數(shù)據(jù)淹沒了。谷歌公司每天要處理超過24拍字節(jié)(PB,250字節(jié))的數(shù)據(jù),這意味著其每天的數(shù)據(jù)處理量是美國國家圖書館所有紙質(zhì)出版物所含數(shù)據(jù)量的上千倍。臉書(Facebook)這個創(chuàng)立不過十來年的公司,每天更新的照片量超過1000萬張,每天人們在網(wǎng)站上點(diǎn)擊“喜歡”(Like)按鈕或者寫評論大約有三十億次,這就為臉書公司挖掘用戶喜好提供了大量的數(shù)據(jù)線索。與此同時,谷歌(Google)的子公司YouTube每月接待多達(dá)8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。推特(Twitter)上的信息量幾乎每年翻一番,每天都會發(fā)布超過4億條微博。1.1.1天文學(xué)——信息爆炸的起源從科學(xué)研究到醫(yī)療保險(xiǎn),從銀行業(yè)到互聯(lián)網(wǎng),各個不同的領(lǐng)域都在講述著一個類似的故事,那就是爆發(fā)式增長的數(shù)據(jù)量。這種增長超過了我們創(chuàng)造機(jī)器的速度,甚至超過了我們的想象。我們周圍到底有多少數(shù)據(jù)?增長的速度有多快?許多人試圖測量出一個確切的數(shù)字。盡管測量的對象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學(xué)安嫩伯格通信學(xué)院的馬丁?希爾伯特進(jìn)行了一個比較全面的研究,他試圖得出人類所創(chuàng)造、存儲和傳播的一切信息的確切數(shù)目。他的研究范圍不僅包括書籍、圖畫、電子郵件、照片、音樂、視頻(模擬和數(shù)字),還包括電子游戲、電話、汽車導(dǎo)航和信件。馬丁?希爾伯特還以收視率和收聽率為基礎(chǔ),對電視、電臺這些廣播媒體進(jìn)行了研究。1.1.1天文學(xué)——信息爆炸的起源據(jù)他估算,僅在2007年,人類存儲的數(shù)據(jù)就超過了300艾字節(jié)(260字節(jié))。下面這個比喻應(yīng)該可以幫助人們更容易地理解這意味著什么:一部完整的數(shù)字電影可以壓縮成一個GB的文件,而一個艾字節(jié)相當(dāng)于10億GB,一個澤字節(jié)(ZB,270字節(jié))則相當(dāng)于1024艾字節(jié)??傊?,這是一個非常龐大的數(shù)量。1.1.1天文學(xué)——信息爆炸的起源有趣的是,在2007年的數(shù)據(jù)中,只有7%是存儲在報(bào)紙、書籍、圖片等媒介上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù)。模擬數(shù)據(jù)也稱為模擬量,相對于數(shù)字量而言,指的是取值范圍是連續(xù)的變量或者數(shù)值,例如聲音、圖像、溫度、壓力等。模擬數(shù)據(jù)一般采用模擬信號,例如用一系列連續(xù)變化的電磁波或電壓信號來表示。數(shù)字?jǐn)?shù)據(jù)也稱為數(shù)字量,相對于模擬量而言,指的是取值范圍是離散的變量或者數(shù)值。數(shù)字?jǐn)?shù)據(jù)則采用數(shù)字信號,例如用一系列斷續(xù)變化的電壓脈沖(如用恒定的正電壓表示二進(jìn)制數(shù)1,用恒定的負(fù)電壓表示二進(jìn)制數(shù)0)或光脈沖來表示。1.1.1天文學(xué)——信息爆炸的起源但在不久之前,情況卻完全不是這樣的。雖然1960年就有了“信息時代”和“數(shù)字村鎮(zhèn)”的概念,在2000年的時候,數(shù)字存儲信息仍只占全球數(shù)據(jù)量的四分之一,當(dāng)時,另外四分之三的信息都存儲在報(bào)紙、膠片、黑膠唱片和盒式磁帶這類媒介上。早期數(shù)字信息的數(shù)量并不多。對于長期在網(wǎng)上沖浪和購書的人來說,那只是一個微小的部分。事實(shí)上,在1986年的時候,世界上約40%的計(jì)算能力都在袖珍計(jì)算器上運(yùn)行,那時候,所有個人電腦的處理能力之和還沒有所有袖珍計(jì)算器處理能力之和高。但是因?yàn)閿?shù)字?jǐn)?shù)據(jù)的快速增長,整個局勢很快就顛倒過來了。按照希爾伯特的說法,數(shù)字?jǐn)?shù)據(jù)的數(shù)量每三年多就會翻一倍。相反,模擬數(shù)據(jù)的數(shù)量則基本上沒有增加。1.1.1天文學(xué)——信息爆炸的起源到2013年,世界上存儲的數(shù)據(jù)達(dá)到約1.2澤字節(jié),其中非數(shù)字?jǐn)?shù)據(jù)只占不到2%。這樣大的數(shù)據(jù)量意味著什么?如果把這些數(shù)據(jù)全部記在書中,這些書可以覆蓋整個美國52次。如果將之存儲在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以伸到月球。公元前3世紀(jì),埃及的托勒密二世竭力收集了當(dāng)時所有的書寫作品,所以偉大的亞歷山大圖書館(見圖1-3)可以代表世界上所有的知識量。亞歷山大圖書館藏書豐富,有據(jù)可考的超過50000卷(紙草卷),包括《荷馬史詩》、《幾何原本》等。但是,當(dāng)數(shù)字?jǐn)?shù)據(jù)洪流席卷世界之后,每個地球人都可以獲得大量的數(shù)據(jù)信息,相當(dāng)于當(dāng)時亞歷山大圖書館存儲的數(shù)據(jù)總量的320倍之多。1.1.1天文學(xué)——信息爆炸的起源圖1-3舉世聞名的古代文化中心

——亞歷山大圖書館,毀于3世紀(jì)末的戰(zhàn)火1.1.1天文學(xué)——信息爆炸的起源事情真的在快速發(fā)展。人類存儲信息量的增長速度比世界經(jīng)濟(jì)的增長速度快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增長速度則比世界經(jīng)濟(jì)的增長速度快9倍。難怪人們會抱怨信息過量,因?yàn)槊總€人都受到了這種極速發(fā)展的沖擊。歷史學(xué)家伊麗莎白?愛森斯坦發(fā)現(xiàn),1453~1503年,這50年之間大約印刷了800萬本書籍,比1200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當(dāng)時的歐洲還占據(jù)了世界上相當(dāng)部分的信息存儲份額),而如今大約每三年就能增長一倍。1.1.1天文學(xué)——信息爆炸的起源這種增長意味著什么呢?彼特?諾維格是谷歌的人工智能專家,也曾任職于美國宇航局噴氣推進(jìn)實(shí)驗(yàn)室,他喜歡把這種增長與圖畫進(jìn)行類比。首先,他要我們想想來自法國拉斯科洞穴壁畫上的標(biāo)志性的馬(見圖1-4)。這些畫可以追溯到一萬七千年之前的舊石器時代。然后,再想想畢加索畫的馬,看起來和那些洞穴壁畫沒有多大的差別。事實(shí)上,畢加索看到那些洞穴壁畫的時候就曾開玩笑說:“自那以后,我們就再也沒有創(chuàng)造出什么東西了。”1.1.1天文學(xué)——信息爆炸的起源圖1-4拉斯科洞穴壁畫1.1.1天文學(xué)——信息爆炸的起源回想一下壁畫上的那匹馬。當(dāng)時要畫一幅馬需要花費(fèi)很久的時間,而現(xiàn)在不需要那么久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說,想象一下,現(xiàn)在我們能每秒鐘播放24幅不同形態(tài)的馬的圖片,這就是一種由量變導(dǎo)致的質(zhì)變:一部電影與一幅靜態(tài)的畫有本質(zhì)上的區(qū)別!大數(shù)據(jù)也一樣,量變導(dǎo)致質(zhì)變。物理學(xué)和生物學(xué)都告訴我們,當(dāng)我們改變規(guī)模時,事物的狀態(tài)有時也會發(fā)生改變。1.1.1天文學(xué)——信息爆炸的起源以納米技術(shù)為例。納米技術(shù)專注于把東西變小而不是變大。其原理就是當(dāng)事物到達(dá)分子級別時,它的物理性質(zhì)就會發(fā)生改變。一旦你知道這些新的性質(zhì),你就可以用同樣的原料來做以前無法做的事情。銅本來是用來導(dǎo)電的物質(zhì),但它一旦到達(dá)納米級別就不能在磁場中導(dǎo)電了。銀離子具有抗菌性,但當(dāng)它以分子形式存在的時候,這種性質(zhì)會消失。一旦到達(dá)納米級別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當(dāng)我們增加所利用的數(shù)據(jù)量時,也就可以做很多在小數(shù)據(jù)量的基礎(chǔ)上無法完成的事情。1.1.1天文學(xué)——信息爆炸的起源有時候,我們認(rèn)為約束自己生活的那些限制,對于世間萬物都有著同樣的約束力。事實(shí)上,盡管規(guī)律相同,但是我們能夠感受到的約束,很可能只對我們這樣尺度的事物起作用。對于人類來說,唯一一個最重要的物理定律便是萬有引力定律。這個定律無時無刻不在控制著我們。但對于細(xì)小的昆蟲來說,重力是無關(guān)緊要的。對它們而言,物理宇宙中有效的約束是表面張力,這個張力可以讓它們在水上自由行走而不會掉下去。但人類對于表面張力毫不在意。1.1.1天文學(xué)——信息爆炸的起源大數(shù)據(jù)的科學(xué)價(jià)值和社會價(jià)值正是體現(xiàn)在這里。一方面,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的來源。另一方面,大數(shù)據(jù)已經(jīng)撼動了世界的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會的其他各個領(lǐng)域。盡管我們還處在大數(shù)據(jù)時代的初期,但我們的日常生活已經(jīng)離不開它了。大數(shù)據(jù)的發(fā)展1.1.21.1.2大數(shù)據(jù)的發(fā)展如果僅僅是從數(shù)據(jù)量的角度來看的話,大數(shù)據(jù)在過去就已經(jīng)存在了。例如,波音的噴氣發(fā)動機(jī)每30分鐘就會產(chǎn)生10TB的運(yùn)行信息數(shù)據(jù),安裝有4臺發(fā)動機(jī)的大型客機(jī),每次飛越大西洋就會產(chǎn)生640TB的數(shù)據(jù)。世界各地每天有超過2.5萬架的飛機(jī)在工作,可見其數(shù)據(jù)量是何等龐大。生物技術(shù)領(lǐng)域中的基因組分析,以及以NASA(美國國家航空航天局)為中心的太空開發(fā)領(lǐng)域,從很早就開始使用十分昂貴的高端超級計(jì)算機(jī)來對龐大的數(shù)據(jù)進(jìn)行分析和處理了。1.1.2大數(shù)據(jù)的發(fā)展現(xiàn)在和過去的區(qū)別之一,就是大數(shù)據(jù)已經(jīng)不僅產(chǎn)生于特定領(lǐng)域中,而且還產(chǎn)生于我們每天的日常生活中,臉書、推特、領(lǐng)英(LinkedIn)、微信、QQ等社交媒體上的文本數(shù)據(jù)就是最好的例子。而且,盡管我們無法得到全部數(shù)據(jù),但大部分?jǐn)?shù)據(jù)可以通過公開的API(應(yīng)用程序編程接口)相對容易地進(jìn)行采集。在B2C(商家對顧客)企業(yè)中,使用文本挖掘(textmining)和情感分析等技術(shù),就可以分析消費(fèi)者對于自家產(chǎn)品的評價(jià)。1.1.2大數(shù)據(jù)的發(fā)展1.硬件性價(jià)比提高與軟件技術(shù)進(jìn)步計(jì)算機(jī)性價(jià)比的提高,磁盤價(jià)格的下降,利用通用服務(wù)器對大量數(shù)據(jù)進(jìn)行高速處理的軟件技術(shù)Hadoop的誕生,以及隨著云計(jì)算的興起,甚至已經(jīng)無需自行搭建這樣的大規(guī)模環(huán)境——上述這些因素,大幅降低了大數(shù)據(jù)存儲和處理的門檻。因此,過去只有像NASA這樣的研究機(jī)構(gòu)以及屈指可數(shù)的幾家特大企業(yè)才能做到的對大量數(shù)據(jù)的深入分析,現(xiàn)在只要極小的成本和時間就可以完成。無論是剛剛創(chuàng)業(yè)的公司還是存在多年的公司,也無論是中小企業(yè)還是大企業(yè),都可以對大數(shù)據(jù)進(jìn)行充分的利用。1.1.2大數(shù)據(jù)的發(fā)展(1)計(jì)算機(jī)性價(jià)比的提高。承擔(dān)數(shù)據(jù)處理任務(wù)的計(jì)算機(jī),其處理能力遵循摩爾定律,一直在不斷進(jìn)化。所謂摩爾定律,是美國英特爾公司共同創(chuàng)始人之一的高登?摩爾(GordonMoore,1929-)于1965年提出的一個觀點(diǎn),即“半導(dǎo)體芯片的集成度,大約每18個月會翻一番”。從家電賣場中所陳列的電腦規(guī)格指標(biāo)就可以一目了然地看出,現(xiàn)在以同樣的價(jià)格能夠買到的計(jì)算機(jī),其處理能力已經(jīng)和過去不可同日而語了。1.1.2大數(shù)據(jù)的發(fā)展(2)磁盤價(jià)格的下降。除了CPU性能的提高,硬盤等存儲器(數(shù)據(jù)的存儲裝置)的價(jià)格也明顯下降。2000年的硬盤驅(qū)動器平均每GB容量的單價(jià)約為16美元到19美元,而現(xiàn)在卻只有7美分(換算成人民幣的話,就相當(dāng)于4~5毛錢的樣子),相當(dāng)于下降到了10年前的230~270分之一。除了價(jià)格,存儲器在重量方面也產(chǎn)生了巨大的進(jìn)步。1982年日立最早開發(fā)的1.2GB硬盤驅(qū)動器重量約為250磅(約合113千克)。而現(xiàn)在,32GB的微型SD卡重量卻只有0.5克左右,技術(shù)進(jìn)步的速度相當(dāng)驚人。1.1.2大數(shù)據(jù)的發(fā)展(3)大規(guī)模數(shù)據(jù)分布式處理技術(shù)Hadoop。這是一種可以在通用服務(wù)器上運(yùn)行的開源分布式處理技術(shù),它的誕生成為了目前大數(shù)據(jù)浪潮的第一推動力。如果只是結(jié)構(gòu)化數(shù)據(jù)不斷增長,用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫,或者是其衍生技術(shù),就可以進(jìn)行存儲和處理了,但這樣的技術(shù)無法對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理。Hadoop的最大特征,就是能夠?qū)Υ罅糠墙Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行高速處理。1.1.2大數(shù)據(jù)的發(fā)展2.云計(jì)算的普及大數(shù)據(jù)的處理環(huán)境現(xiàn)在在很多情況下并不一定要自行搭建了。例如,使用亞馬遜的云計(jì)算服務(wù)EC2(ElasticComputeCloud)和S3(SimpleStorageService),就可以在無需自行搭建大規(guī)模數(shù)據(jù)處理環(huán)境的前提下,以按用量付費(fèi)的方式,來使用由計(jì)算機(jī)集群組成的計(jì)算處理環(huán)境和大規(guī)模數(shù)據(jù)存儲環(huán)境了。此外,在EC2和S3上還利用預(yù)先配置的Hadoop工作環(huán)境提供了“EMR”(ElasticMapReduce)服務(wù)。利用這樣的云計(jì)算環(huán)境,即使是資金不太充裕的創(chuàng)業(yè)型公司,也可以進(jìn)行大數(shù)據(jù)的分析了。1.1.2大數(shù)據(jù)的發(fā)展實(shí)際上,在美國,新的IT創(chuàng)業(yè)公司如雨后春筍般不斷出現(xiàn),它們通過利用亞馬遜的云計(jì)算環(huán)境,對大數(shù)據(jù)進(jìn)行處理,從而催生出新型的服務(wù)。這些公司如網(wǎng)絡(luò)廣告公司Razorfish、提供預(yù)測航班起飛晚點(diǎn)等“航班預(yù)報(bào)”服務(wù)的FlightCaster、對消費(fèi)電子產(chǎn)品價(jià)格走勢進(jìn)行預(yù)測的D等。1.1.2大數(shù)據(jù)的發(fā)展3.大數(shù)據(jù)作為BI的進(jìn)化形式認(rèn)識大數(shù)據(jù),我們還需要理解BI(BusinessIntelligence,商業(yè)智能)的潮流和大數(shù)據(jù)之間的關(guān)系。對企業(yè)內(nèi)外所存儲的數(shù)據(jù)進(jìn)行系統(tǒng)的集中、整理和分析,從而獲得對各種商務(wù)決策有價(jià)值的知識和觀點(diǎn),這樣的概念、技術(shù)及行為稱為BI。大數(shù)據(jù)作為BI的進(jìn)化形式,充分利用后不僅能夠高效地預(yù)測未來,也能夠提高預(yù)測的準(zhǔn)確率。1.1.2大數(shù)據(jù)的發(fā)展BI的概念是1989年由時任美國高德納(Gartner)咨詢公司的分析師HowardDresner所提出的。Dresner當(dāng)時提出的觀點(diǎn)是,應(yīng)該將過去100%依賴信息系統(tǒng)部門來完成的銷售分析、客戶分析等業(yè)務(wù),通過讓作為數(shù)據(jù)使用者的管理人員以及一般商務(wù)人員等最終用戶來親自參與,從而實(shí)現(xiàn)決策的迅速化以及生產(chǎn)效率的提高。1.1.2大數(shù)據(jù)的發(fā)展BI通過分析由業(yè)務(wù)過程和信息系統(tǒng)生成的數(shù)據(jù)讓一個組織能夠獲取企業(yè)績效的內(nèi)在認(rèn)識。分析的結(jié)果可以用于改進(jìn)組織績效,或者通過修正檢測出的問題來管理和引導(dǎo)業(yè)務(wù)過程。商務(wù)智能在企業(yè)中使用大數(shù)據(jù)分析,并且這種分析通常會被整合到企業(yè)數(shù)據(jù)倉庫中以執(zhí)行分析查詢。如圖1-5所示,商務(wù)智能的輸出能以儀表板顯示,它允許管理者訪問和分析數(shù)據(jù),且可以潛在地改進(jìn)分析查詢,從而對數(shù)據(jù)進(jìn)行深入挖掘。1.1.2大數(shù)據(jù)的發(fā)展圖1-5商務(wù)智能用于改善商業(yè)應(yīng)用,將數(shù)據(jù)倉庫中的數(shù)據(jù)以及儀表板的分析查詢結(jié)合起來1.1.2大數(shù)據(jù)的發(fā)展BI的主要目的是分析從過去到現(xiàn)在發(fā)生了什么、為什么會發(fā)生,并做出報(bào)告。也就是說,是將過去和現(xiàn)在進(jìn)行可視化的一種方式。例如,過去一年中商品A的銷售額如何,它在各個門店中的銷售額又分別如何。然而,現(xiàn)在的商業(yè)環(huán)境變化十分劇烈。對于企業(yè)今后的活動來說,在將過去和現(xiàn)在進(jìn)行可視化的基礎(chǔ)上,預(yù)測出接下來會發(fā)生什么顯得更為重要。也就是說,從看到現(xiàn)在到預(yù)測未來,BI也正在經(jīng)歷著不斷的進(jìn)化。1.1.2大數(shù)據(jù)的發(fā)展要對未來進(jìn)行預(yù)測,從龐大的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)則和模式的數(shù)據(jù)挖掘(DataMining)是一種非常有用的手段。為了讓數(shù)據(jù)挖掘的執(zhí)行更加高效,就要使用能夠從大量數(shù)據(jù)中自動學(xué)習(xí)知識和有用規(guī)則的機(jī)器學(xué)習(xí)技術(shù)。從特性上來說,機(jī)器學(xué)習(xí)對數(shù)據(jù)的要求是越多越好。也就是說,它和大數(shù)據(jù)可謂是天生一對。一直以來,機(jī)器學(xué)習(xí)的瓶頸在于如何存儲并高效處理學(xué)習(xí)所需的大量數(shù)據(jù)。然而,隨著硬盤單價(jià)的大幅下降、Hadoop的誕生,以及云計(jì)算的普及,這些問題正逐步得以解決?,F(xiàn)實(shí)中,對大數(shù)據(jù)應(yīng)用機(jī)器學(xué)習(xí)的實(shí)例正在不斷涌現(xiàn)。1.1.2大數(shù)據(jù)的發(fā)展4.從交易數(shù)據(jù)分析到交互數(shù)據(jù)分析對從像“賣出了一件商品”、“一位客戶解除了合同”這樣的交易數(shù)據(jù)中得到的“點(diǎn)”信息進(jìn)行統(tǒng)計(jì)還不夠,我們想要得到的是“為什么賣出了這件商品”、“為什么這個客戶離開了”這樣的上下文(背景)信息。而這樣的信息,需要從與客戶之間產(chǎn)生的交互數(shù)據(jù)這種“線”信息中來探索。以非結(jié)構(gòu)化數(shù)據(jù)為中心的大數(shù)據(jù)分析需求的不斷高漲,也正是這種趨勢的一個反映。例如,像亞馬遜這樣運(yùn)營電商網(wǎng)站的企業(yè),可以通過網(wǎng)站的點(diǎn)擊流數(shù)據(jù),追蹤用戶在網(wǎng)站內(nèi)的行為,從而對用戶從訪問網(wǎng)站到最終購買商品的行為路線進(jìn)行分析。這種點(diǎn)擊流數(shù)據(jù),正是表現(xiàn)客戶與公司網(wǎng)站之間相互作用的一種交互數(shù)據(jù)。1.1.2大數(shù)據(jù)的發(fā)展舉個例子,如果知道通過點(diǎn)擊站內(nèi)廣告最終購買產(chǎn)品的客戶比例較高,那么針對其他客戶,就可以根據(jù)其過去的點(diǎn)擊記錄來展示他可能感興趣的商品廣告,從而提高其最終購買商品的概率。或者,如果知道很多用戶都會從某一個特定的頁面離開網(wǎng)站,就可以下功夫來改善這個頁面的可用性。通過交互數(shù)據(jù)分析所得到的價(jià)值是非常之大的。對于消費(fèi)品公司來說,可以通過客戶的會員數(shù)據(jù)、購物記錄、呼叫中心通話記錄等數(shù)據(jù)來尋找客戶解約的原因。隨著“社交化CRM”呼聲的高漲,越來越多的企業(yè)都開始利用微信、Twitter等社交媒體來提供客戶支持服務(wù)了。上述這些都是表現(xiàn)與客戶之間交流的交互數(shù)據(jù),只要推進(jìn)對這些交互數(shù)據(jù)的分析,就可以越來越清晰地掌握客戶離開的原因。1.1.2大數(shù)據(jù)的發(fā)展一般來說,網(wǎng)絡(luò)上的數(shù)據(jù)比真實(shí)世界中的數(shù)據(jù)更加容易收集,因此來自網(wǎng)絡(luò)的交互數(shù)據(jù)也得到了越來越多的利用。不過,今后隨著傳感器等物態(tài)探測技術(shù)的發(fā)展和普及,在真實(shí)世界中對交互數(shù)據(jù)的利用也將不斷推進(jìn)。例如,在超市中,可以將由植入購物車中的IC標(biāo)簽收集到的顧客行動路線數(shù)據(jù)和POS等銷售數(shù)據(jù)相結(jié)合,從而分析出顧客買或不買某種商品的理由,這樣的應(yīng)用現(xiàn)在已經(jīng)開始出現(xiàn)了?;蛘?,也可以像前面講過的那樣,通過分析監(jiān)控?cái)z像機(jī)的視頻資料,來分析店內(nèi)顧客的行為。以前也并不是沒有對店內(nèi)的購買行為進(jìn)行分析的方法,不過,那種分析大多是由調(diào)查員肉眼觀察并記錄的,這種記錄是非數(shù)字化的,成本很高,而且收集到的數(shù)據(jù)也比較有限。1.1.2大數(shù)據(jù)的發(fā)展進(jìn)一步講,今后更為重要的是對連接網(wǎng)絡(luò)世界和真實(shí)世界的交互數(shù)據(jù)進(jìn)行分析。在市場營銷中,O2O(OnlinetoOffline,線上與線下的結(jié)合)已經(jīng)逐步成為一個熱門的關(guān)鍵詞。所謂O2O,就是指網(wǎng)絡(luò)上的信息(在線)對真實(shí)世界(線下)的購買行為產(chǎn)生的影響。舉例來說,很多人在準(zhǔn)備購買一種商品時會先到評論網(wǎng)站去查詢商品的價(jià)格和評價(jià),然后再到實(shí)體店去購買該商品。在O2O中,網(wǎng)絡(luò)上的哪些信息會對實(shí)際來店顧客的消費(fèi)行為產(chǎn)生關(guān)聯(lián),對這種線索的分析,即對交互數(shù)據(jù)的分析,顯得尤為重要。重新認(rèn)識數(shù)據(jù)1.1.31.1.3重新認(rèn)識數(shù)據(jù)如今,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。但在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會被認(rèn)為已經(jīng)沒有用處了。比方說,在飛機(jī)降落之后,票價(jià)數(shù)據(jù)就沒有用了(對谷歌而言,則是一個檢索命令完成之后)。譬如某城市的公交車因?yàn)閮r(jià)格不依賴于起點(diǎn)和終點(diǎn),所以能夠反映重要通勤信息的數(shù)據(jù)被工作人員“自作主張”地丟棄了——設(shè)計(jì)人員如果沒有大數(shù)據(jù)的理念,就會丟失掉很多有價(jià)值的數(shù)據(jù)。數(shù)據(jù)已經(jīng)成為了一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,可以創(chuàng)造新的經(jīng)濟(jì)利益。事實(shí)上,一旦思維轉(zhuǎn)變過來,數(shù)據(jù)就能被巧妙地用來激發(fā)新產(chǎn)品和新型服務(wù)。數(shù)據(jù)的奧妙只為謙遜、愿意聆聽且掌握了聆聽手段的人所知。1.1.3重新認(rèn)識數(shù)據(jù)最初,大數(shù)據(jù)這個概念是指需要處理的信息量過大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時所能使用的內(nèi)存量,因此工程師們必須改進(jìn)處理數(shù)據(jù)的工具。這導(dǎo)致了新的處理技術(shù)的誕生,例如谷歌的MapReduce和開源Hadoop平臺。這些技術(shù)使得人們可以處理的數(shù)據(jù)量大大增加。更重要的是,這些數(shù)據(jù)不再需要用傳統(tǒng)的數(shù)據(jù)庫表格來整齊地排列,這些都是傳統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)化查詢語言(SQL)的要求,而非關(guān)系型數(shù)據(jù)庫(NoSQL)就不再有這些要求。一些可以消除僵化的層次結(jié)構(gòu)和一致性的技術(shù)也出現(xiàn)了。同時,因?yàn)榛ヂ?lián)網(wǎng)公司可以收集大量有價(jià)值的數(shù)據(jù),而且有利用這些數(shù)據(jù)的強(qiáng)烈的利益驅(qū)動力,所以互聯(lián)網(wǎng)公司順理成章地成為了最新處理技術(shù)的領(lǐng)銜實(shí)踐者。1.1.3重新認(rèn)識數(shù)據(jù)今天,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉,大數(shù)據(jù)還是改變市場、組織機(jī)構(gòu),以及政府與公民關(guān)系的方法。大數(shù)據(jù)時代對我們的生活,以及與世界交流的方式都提出了挑戰(zhàn)。數(shù)據(jù)集與數(shù)據(jù)分析1.1.41.1.4數(shù)據(jù)集與數(shù)據(jù)分析我們把一組或者一個集合的相關(guān)聯(lián)的數(shù)據(jù)稱作數(shù)據(jù)集。數(shù)據(jù)集中的每一個成員數(shù)據(jù),都應(yīng)與數(shù)據(jù)集中的其他成員擁有相同的特征或者屬性。以下是一些數(shù)據(jù)集的例子:存儲在一個文本文件中的推文一個文件夾中的圖像文件存儲在一個CSⅤ格式文件中的從數(shù)據(jù)庫中提取出來的行數(shù)據(jù)存儲在一個XML文件中的歷史氣象觀測數(shù)據(jù)例如XML數(shù)據(jù)、關(guān)系型數(shù)據(jù)和圖像數(shù)據(jù)就是三種不同數(shù)據(jù)格式的數(shù)據(jù)集。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析數(shù)據(jù)分析是一個通過處理數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)一些深層知識、模式、關(guān)系或是趨勢的過程。數(shù)據(jù)分析的總體目標(biāo)是做出更好的決策。舉個簡單的例子,通過分析冰淇淋的銷售額數(shù)據(jù),發(fā)現(xiàn)一天中冰淇淋甜筒的銷量與當(dāng)天氣溫的關(guān)系。這個分析結(jié)果可以幫助商店根據(jù)天氣預(yù)報(bào)來決定每天應(yīng)該訂購多少冰淇淋。通過數(shù)據(jù)分析,我們可以對分析過的數(shù)據(jù)建立起關(guān)系與模式。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析數(shù)據(jù)分析學(xué)是一個包含數(shù)據(jù)分析,且比數(shù)據(jù)分析更為寬泛的概念。數(shù)據(jù)分析學(xué)這門學(xué)科涵蓋了對整個數(shù)據(jù)生命周期的管理,而數(shù)據(jù)生命周期包含了數(shù)據(jù)收集、數(shù)據(jù)清理、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲以及數(shù)據(jù)管理等過程。此外,數(shù)據(jù)分析學(xué)還涵蓋了分析方法、科學(xué)技術(shù)、自動化分析工具等。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析學(xué)發(fā)展了數(shù)據(jù)分析在高度可擴(kuò)展的、大量分布式技術(shù)和框架中的應(yīng)用,使之有能力處理大量的來自不同信息源的數(shù)據(jù)。大數(shù)據(jù)分析(學(xué))的生命周期通常會對大量非結(jié)構(gòu)化且未經(jīng)處理過的數(shù)據(jù)進(jìn)行識別、獲取、準(zhǔn)備和分析等操作,從這些數(shù)據(jù)中提取出能夠作為模式識別的輸入,或者加入現(xiàn)有的企業(yè)數(shù)據(jù)庫的有效信息。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析不同的行業(yè)會以不同的方式使用大數(shù)據(jù)分析工具和技術(shù),例如:在商業(yè)組織中,利用大數(shù)據(jù)的分析結(jié)果能降低運(yùn)營開銷,還有助于優(yōu)化決策。在科研領(lǐng)域,大數(shù)據(jù)分析能夠確認(rèn)一個現(xiàn)象的起因,并且能基于此提出更為精確的預(yù)測。在服務(wù)業(yè)領(lǐng)域,比如公眾行業(yè),大數(shù)據(jù)分析有助于人們以更低的開銷提供更好的服務(wù)。大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過去的經(jīng)驗(yàn)或者直覺。根據(jù)分析結(jié)果的不同,我們大致可以將分析歸為4類,即描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析不同的分析類型將需要不同的技術(shù)和分析算法。這意味著在傳遞多種類型的分析結(jié)果的時候,可能會有大量不同的數(shù)據(jù)、存儲、處理要求。如圖1-6所示,生成高質(zhì)量的分析結(jié)果將加大分析環(huán)境的復(fù)雜性和開銷。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析圖1-6從描述性分析到規(guī)范性分析,價(jià)值和復(fù)雜性都在不斷提升1.1.4數(shù)據(jù)集與數(shù)據(jù)分析1.描述性分析描述性分析往往是對已經(jīng)發(fā)生的事件進(jìn)行問答和總結(jié)。這種形式的分析需要將數(shù)據(jù)置于生成信息的上下文中考慮。相關(guān)問題可能包括:過去12個月的銷售量如何?根據(jù)事件嚴(yán)重程度和地理位置分類,收到的求助電話的數(shù)量如何?每一位銷售經(jīng)理的月銷售額是多少?據(jù)估計(jì),生成的分析結(jié)果80%都是自然可描述的。描述性分析提供了較低的價(jià)值,但也只需要相對基礎(chǔ)的訓(xùn)練集。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析進(jìn)行描述性分析常常借助OLTP、CRM、ERP等信息系統(tǒng)經(jīng)過描述性分析工具的處理生成的即席報(bào)表或者數(shù)據(jù)儀表板(dashboard)。報(bào)表常常是靜態(tài)的,并且是以數(shù)據(jù)表格或圖表形式呈現(xiàn)的歷史數(shù)據(jù)。查詢處理往往基于企業(yè)內(nèi)部存儲的可操作數(shù)據(jù),例如客戶關(guān)系管理系統(tǒng)(CRM)或者企業(yè)資源規(guī)劃系統(tǒng)(ERP)。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析2.診斷性分析診斷性分析旨在尋求一個已經(jīng)發(fā)生的事件的發(fā)生原因。這類分析的目標(biāo)是通過獲取一些與事件相關(guān)的信息來回答有關(guān)的問題,最后得出事件發(fā)生的原因。相關(guān)的問題可能包括:為什么Q2商品比Q1賣得多?為什么來自東部地區(qū)的求助電話比來自西部地區(qū)的要多?為什么最近三個月內(nèi)病人再入院的比率有所提升?1.1.4數(shù)據(jù)集與數(shù)據(jù)分析診斷性分析比描述性分析提供了更加有價(jià)值的信息,但同時也要求更加高級的訓(xùn)練集。診斷性分析常常需要從不同的信息源搜集數(shù)據(jù),并將它們以一種易于進(jìn)行下鉆和上卷分析的結(jié)構(gòu)加以保存。而診斷性分析的結(jié)果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢。診斷性分析是基于分析處理系統(tǒng)中的多維數(shù)據(jù)進(jìn)行的,而且,與描述性分析相比,它的查詢處理更加復(fù)雜。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析3.預(yù)測性分析預(yù)測性分析常在需要預(yù)測一個事件的結(jié)果時使用。通過預(yù)測性分析,信息將得到增值,這種增值主要表現(xiàn)在信息之間是如何相關(guān)的。這種相關(guān)性的強(qiáng)度和重要性構(gòu)成了基于過去事件對未來進(jìn)行預(yù)測的模型的基礎(chǔ)。這些用于預(yù)測性分析的模型與過去已經(jīng)發(fā)生的事件的潛在條件是隱式相關(guān)的,理解這一點(diǎn)很重要。如果這些潛在的條件改變了,那么用于預(yù)測性分析的模型也需要進(jìn)行更新。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析預(yù)測性分析提出的問題常常以假設(shè)的形式出現(xiàn),例如:如果消費(fèi)者錯過了一個月的還款,那么他們無力償還貸款的幾率有多大?如果以藥品B來代替藥品A的使用,那么這個病人生存的幾率有多大?如果一個消費(fèi)者購買了商品A和商品B,那么他購買商品C的概率有多大?預(yù)測性分析嘗試著預(yù)測事件的結(jié)果,而預(yù)測則基于模式、趨勢以及來自于歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的期望。這將讓我們能夠分辨風(fēng)險(xiǎn)與機(jī)遇。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析這種類型的分析涉及包含外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)的大數(shù)據(jù)集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價(jià)值,同時也要求更加高級的訓(xùn)練集。如圖1-7所示,這種工具通常通過提供用戶友好的前端接口對潛在的錯綜復(fù)雜的數(shù)據(jù)進(jìn)行抽象。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析圖1-7預(yù)測性分析能夠提供用戶友好型的前端接口1.1.4數(shù)據(jù)集與數(shù)據(jù)分析4.規(guī)范性分析規(guī)范性分析建立在預(yù)測性分析的結(jié)果之上,用來規(guī)范需要執(zhí)行的行動。其注重的不僅是哪項(xiàng)操作最佳,還包括了其原因。換句話說,規(guī)范性分析提供了經(jīng)得起質(zhì)詢的結(jié)果,因?yàn)樗鼈兦度肓饲榫忱斫獾脑?。因此,這種分析常常用來建立優(yōu)勢或者降低風(fēng)險(xiǎn)。下面是兩個這類問題的樣例:這三種藥品中,哪一種能提供最好的療效?何時才是拋售一只股票的最佳時機(jī)?1.1.4數(shù)據(jù)集與數(shù)據(jù)分析規(guī)范性分析比其他三種分析的價(jià)值都高,同時還要求最高級的訓(xùn)練集,甚至是專門的分析軟件和工具。這種分析將計(jì)算大量可能出現(xiàn)的結(jié)果,并且推薦出最佳選項(xiàng)。解決方案從解釋性的到建議性的均有,同時還能包括各種不同情境的模擬。這種分析能將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)結(jié)合起來。內(nèi)部數(shù)據(jù)可能包括當(dāng)前和過去的銷售數(shù)據(jù)、消費(fèi)者信息、產(chǎn)品數(shù)據(jù)和商業(yè)規(guī)則。外部數(shù)據(jù)可能包括社會媒體數(shù)據(jù)、天氣情況、政府公文等等。如圖1-8所示,規(guī)范性分析涉及利用商業(yè)規(guī)則和大量的內(nèi)外部數(shù)據(jù)來模擬事件結(jié)果,并且提供最佳的做法。1.1.4數(shù)據(jù)集與數(shù)據(jù)分析圖1-8規(guī)范性分析通過引入商業(yè)規(guī)則、內(nèi)部數(shù)據(jù)以及外部數(shù)據(jù)來進(jìn)行深入徹底的分析1.1.4數(shù)據(jù)集與數(shù)據(jù)分析5.關(guān)鍵績效指標(biāo)(KPI)關(guān)鍵績效指標(biāo)(KPI)是一種用來衡量一次業(yè)務(wù)過程是否成功的度量標(biāo)準(zhǔn)。它與企業(yè)整體的戰(zhàn)略目標(biāo)和任務(wù)相聯(lián)系。同時,它常常用來識別經(jīng)營業(yè)績中的一些問題,以及闡釋一些執(zhí)行標(biāo)準(zhǔn)。因此,KPI通常是一個測量企業(yè)整體績效的特定方面的定量參考指標(biāo)。KPI常常通過專門的儀表板顯示。儀表板將多個關(guān)鍵績效指標(biāo)聯(lián)合起來展示,并且將實(shí)測值與關(guān)鍵績效指標(biāo)閾值相比較?!咀鳂I(yè)】4選1標(biāo)準(zhǔn)選擇題,必做?!緦?shí)訓(xùn)操作】ETI公司的背景信息課后實(shí)訓(xùn)操作,必做。下周上課前批改,不得補(bǔ)交(除請假外)。目錄1任務(wù)1.1:進(jìn)入大數(shù)據(jù)時代

【導(dǎo)讀案例】準(zhǔn)確預(yù)測地震

【任務(wù)描述】

【知識準(zhǔn)備】進(jìn)入大數(shù)據(jù)時代【作業(yè)】【實(shí)訓(xùn)操作】ETI公司的背景信息2任務(wù)1.2:熟悉大數(shù)據(jù)的定義【導(dǎo)讀案例】得數(shù)據(jù)者得天下討論:(1)為什么工業(yè)和信息化部原部長苗圩說:“大數(shù)據(jù)是‘21世紀(jì)的石油和金礦’”?(2)中國是人口大國、制造業(yè)大國、互聯(lián)網(wǎng)大國、物聯(lián)網(wǎng)大國,為什么說:“中國具備數(shù)據(jù)強(qiáng)國潛力,2020年數(shù)據(jù)規(guī)模將位居第一”?(3)請闡述,為什么說“得數(shù)據(jù)者得天下”?(4)請簡單記述你所知道的上一周內(nèi)發(fā)生的國

際、國內(nèi)或者身邊的大事。【任務(wù)描述】(1)熟悉大數(shù)據(jù)的狹義與廣義的定義。(2)熟悉大數(shù)據(jù)的3V與5V特征。(3)熟悉大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)類型?!局R準(zhǔn)備】熟悉大數(shù)據(jù)的定義最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”(BigData)這個概念。如今,這個概念幾乎應(yīng)用到了所有人類致力于發(fā)展的領(lǐng)域中。大數(shù)據(jù)的定義1.2.11.2.1大數(shù)據(jù)的定義所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。對大量數(shù)據(jù)進(jìn)行分析,并從中獲得有用觀點(diǎn),這種做法在一部分研究機(jī)構(gòu)和大企業(yè)中,過去就已經(jīng)存在了?,F(xiàn)在的大數(shù)據(jù)和過去相比,主要有三點(diǎn)區(qū)別:第一,隨著社交媒體和傳感器網(wǎng)絡(luò)等的發(fā)展,在我們身邊正產(chǎn)生出大量且多樣的數(shù)據(jù);第二,隨著硬件和軟件技術(shù)的發(fā)展,數(shù)據(jù)的存儲、處理成本大幅下降;第三,隨著云計(jì)算的興起,大數(shù)據(jù)的存儲、處理環(huán)境已經(jīng)沒有必要自行搭建。1.2.1大數(shù)據(jù)的定義所謂“用現(xiàn)有的一般技術(shù)難以管理”,例如是指用目前在企業(yè)數(shù)據(jù)庫占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫無法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)?;蛘咭部梢哉f,是指由于數(shù)據(jù)量的增大,導(dǎo)致對數(shù)據(jù)的查詢(Query)響應(yīng)時間超出允許范圍的龐大數(shù)據(jù)。研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。1.2.1大數(shù)據(jù)的定義麥肯錫說:“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、營理和分析的能力。這是一個被故意設(shè)計(jì)成主觀性的定義,并且是一個關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即并不定義大于一個特定數(shù)字的TB才叫大數(shù)據(jù)。因?yàn)殡S著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會增長;并且定義隨不同的行業(yè)也有變化,這依賴于在一個特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB?!彪S著“大數(shù)據(jù)”的出現(xiàn),數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用正逐漸成為行業(yè)人士爭相追捧的利潤焦點(diǎn),在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。大數(shù)據(jù)的3V和5V特征1.2.21.2.2大數(shù)據(jù)的3V和5V特征從字面來看,“大數(shù)據(jù)”這個詞可能會讓人覺得只是容量非常大的數(shù)據(jù)集合而已。但容量只不過是大數(shù)據(jù)特征的一個方面,如果只拘泥于數(shù)據(jù)量,就無法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因?yàn)椤坝矛F(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個因素所造成的。IBM說:“可以用3個特征相結(jié)合來定義大數(shù)據(jù):數(shù)量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V,即龐大容量、極快速度和種類豐富的數(shù)據(jù)”(見圖1-9)。1.2.2大數(shù)據(jù)的3V和5V特征圖1-9按數(shù)量、種類和速度來定義大數(shù)據(jù)1.2.2大數(shù)據(jù)的3V和5V特征1.Volume(數(shù)量)用現(xiàn)有技術(shù)無法管理的數(shù)據(jù)量,從現(xiàn)狀來看,基本上是指從幾十TB到幾PB這樣的數(shù)量級。當(dāng)然,隨著技術(shù)的進(jìn)步,這個數(shù)值也會不斷變化。最初考慮到數(shù)據(jù)的容量,是指被大數(shù)據(jù)解決方案所處理的數(shù)據(jù)量大,并且在持續(xù)增長。數(shù)據(jù)容量大能夠影響數(shù)據(jù)的獨(dú)立存儲和處理需求,同時還能對數(shù)據(jù)準(zhǔn)各、數(shù)據(jù)恢復(fù)、數(shù)據(jù)管理的操作產(chǎn)生影響。如今,存儲的數(shù)據(jù)數(shù)量正在急劇增長中,我們存儲所有事物,包括:環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等。有關(guān)數(shù)據(jù)量的對話已從TB級別轉(zhuǎn)向PB級別,并且不可避免地會轉(zhuǎn)向ZB級別??墒?,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長,可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。1.2.2大數(shù)據(jù)的3V和5V特征典型的生成大量數(shù)據(jù)的數(shù)據(jù)源包括:在線交易,例如官方在線銷售點(diǎn)和網(wǎng)銀??蒲袑?shí)驗(yàn),例如大型強(qiáng)子對撞機(jī)和阿塔卡瑪大型毫米及次毫米波陣列望遠(yuǎn)鏡。傳感器,例如GPS傳感器,RFID標(biāo)簽,智能儀表或者信息技術(shù)。社交媒體、臉書、推特、微信、QQ等。1.2.2大數(shù)據(jù)的3V和5V特征2.Variety(種類、多樣性)數(shù)據(jù)多樣性指的是大數(shù)據(jù)解決方案需要支持多種不同格式、不同類型的數(shù)據(jù)。數(shù)據(jù)多樣性給企業(yè)帶來的挑戰(zhàn)包括數(shù)據(jù)聚合、數(shù)據(jù)交換、數(shù)據(jù)處理和數(shù)據(jù)存儲等。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。1.2.2大數(shù)據(jù)的3V和5V特征種類表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫是很難存儲的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,在這些數(shù)據(jù)中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù)。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)來分析顧客購買行為的案例。1.2.2大數(shù)據(jù)的3V和5V特征例如,美國高級文具制造商萬寶龍(Montblane)過去是憑經(jīng)驗(yàn)和直覺來決定商品陳列布局的,現(xiàn)在嘗試?yán)帽O(jiān)控?cái)z像頭對顧客在店內(nèi)的行為進(jìn)行分析。通過分析監(jiān)控?cái)z像機(jī)的數(shù)據(jù),將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。美國移動運(yùn)營商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控?cái)z像機(jī),可以統(tǒng)計(jì)來店人數(shù),還可以追蹤顧客在店內(nèi)的行動路線、在展臺前停留的時間,甚至是試用了哪一款手機(jī)、試用了多長時間等,對顧客在店內(nèi)的購買行為進(jìn)行分析。1.2.2大數(shù)據(jù)的3V和5V特征3.Velocity(速度,速率)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個重要特征。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)產(chǎn)生得很快,在極短的時間內(nèi)就能聚集起大量的數(shù)據(jù)集。從企業(yè)的角度來說,數(shù)據(jù)的速率代表數(shù)據(jù)從進(jìn)入企業(yè)邊緣到能夠馬上進(jìn)行處理的時間。處理快速的數(shù)據(jù)輸入流,需要企業(yè)設(shè)計(jì)出彈性的數(shù)據(jù)處理方案,同時也需要強(qiáng)大的數(shù)據(jù)存儲能力。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過程中對它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。1.2.2大數(shù)據(jù)的3V和5V特征根據(jù)數(shù)據(jù)源的不同,速率不可能一直很快。例如,核磁共振掃描圖像不會像高流量Web服務(wù)器的日志條目生成速度那么快。例如一分鐘內(nèi)能夠生成下列數(shù)據(jù):35萬條推文、300小時的YouTube視頻、1.71億份電子郵件,以及330GB飛機(jī)引擎的傳感器數(shù)據(jù)。又如,遍布全國的便利店在24小時內(nèi)產(chǎn)生的POS機(jī)數(shù)據(jù),電商網(wǎng)站中由用戶訪問所產(chǎn)生的網(wǎng)站點(diǎn)擊流數(shù)據(jù),高峰時達(dá)到每秒近萬條的微信短文,全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。1.2.2大數(shù)據(jù)的3V和5V特征IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個V一一Veracity(真實(shí)和準(zhǔn)確)?!爸挥姓鎸?shí)而準(zhǔn)確的數(shù)據(jù)才能讓對數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性?!?.2.2大數(shù)據(jù)的3V和5V特征IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說:“大數(shù)據(jù)是一個貌似不知道從哪里冒出來的大的動力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流,并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過云和虛擬化存儲設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動著大數(shù)據(jù)。大數(shù)據(jù)不是一個‘事物’,而是一個跨多個信息技術(shù)領(lǐng)域的動力/活動。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計(jì)用于:通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)。”1.2.2大數(shù)據(jù)的3V和5V特征這個定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即大數(shù)據(jù)量、多樣性和高速之外,還增添了一個新特征:價(jià)值??紤]到非結(jié)構(gòu)化數(shù)據(jù)的較低信噪比需要,數(shù)據(jù)真實(shí)性(Veracity)隨后也被添加到這個特征列表中。最終,其目的是執(zhí)行能夠及時向企業(yè)傳遞高價(jià)值、高質(zhì)量結(jié)果的分析。除了數(shù)據(jù)真實(shí)性和時間,價(jià)值也受如下幾個生命周期相關(guān)的因素影響:數(shù)據(jù)是否存儲良好?數(shù)據(jù)有價(jià)值的部分是否在數(shù)據(jù)清洗的時候被刪除了?數(shù)據(jù)分析時我們提出的問題是正確的嗎?數(shù)據(jù)分析的結(jié)果是否準(zhǔn)確地傳達(dá)給了做決策的人員?1.2.2大數(shù)據(jù)的3V和5V特征大數(shù)據(jù)實(shí)現(xiàn)的主要價(jià)值可以基于下面3個評價(jià)準(zhǔn)則中的1個或多個進(jìn)行評判:它提供了更有用的信息嗎?它改進(jìn)了信息的精確性嗎?它改進(jìn)了響應(yīng)的及時性嗎?總之,大數(shù)據(jù)是個動態(tài)的定義,不同行業(yè)根據(jù)其應(yīng)用的不同有著不同的理解,其衡量標(biāo)準(zhǔn)也在隨著技術(shù)的進(jìn)步而改變。廣義的大數(shù)據(jù)1.2.31.2.3廣義的大數(shù)據(jù)狹義上,大數(shù)據(jù)的定義著眼點(diǎn)于數(shù)據(jù)的性質(zhì)上,我們在廣義層面上再為大數(shù)據(jù)下一個定義(見圖l-10)。圖1-10廣義的大數(shù)據(jù)1.2.3廣義的大數(shù)據(jù)“所謂大數(shù)據(jù),是一個綜合性概念,它包括因具備3V(Volume/Variety/Velocity)特征而難以進(jìn)行管理的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行存儲、處理、分析的技術(shù),以及能夠通過分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織?!薄按鎯?、處理、分析的技術(shù)”,指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴(kuò)展性的NoSQL數(shù)據(jù)庫,以及機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等;“能夠通過分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學(xué)家”這類人才,以及能夠?qū)Υ髷?shù)據(jù)進(jìn)行有效運(yùn)用的組織。大數(shù)據(jù)的結(jié)構(gòu)類型1.2.41.2.4大數(shù)據(jù)的結(jié)構(gòu)類型大數(shù)據(jù)具有多種形式,從高度結(jié)構(gòu)化的財(cái)務(wù)數(shù)據(jù),到文本文件、多媒體文件和基因定位圖的任何數(shù)據(jù),都可以稱為大數(shù)據(jù)。數(shù)據(jù)量大是大數(shù)據(jù)的一致特征。由于數(shù)據(jù)自身的復(fù)雜性,作為一個必然的結(jié)果,處理大數(shù)據(jù)的首選方法就是在并行計(jì)算的環(huán)境中進(jìn)行大規(guī)模并行處理(MassivelyParallelProcessing,MPP),這使得同時發(fā)生的并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實(shí)際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,這需要不同的技術(shù)和工具來處理和分析。大數(shù)據(jù)最突出的特征是它的結(jié)構(gòu)。圖1-11顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的增長趨勢,由圖可知,未來數(shù)據(jù)增長的80%~90%將來自于不是結(jié)構(gòu)化的數(shù)據(jù)類型(半、準(zhǔn)和非結(jié)構(gòu)化)。1.2.4大數(shù)據(jù)的結(jié)構(gòu)類型圖1-11數(shù)據(jù)增長日益趨向非結(jié)構(gòu)化1.2.4大數(shù)據(jù)的結(jié)構(gòu)類型雖然圖1-11顯示了4種不同的、相分離的數(shù)據(jù)類型,實(shí)際上,有時這些數(shù)據(jù)類型是可以被混合在一起的。例如,有一個傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)保存著一個軟件支持呼叫中心的通話日志,這里有典型的結(jié)構(gòu)化數(shù)據(jù),比如日期/時間戳、機(jī)器類型、問題類型、操作系統(tǒng),這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),比如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術(shù)問題和解決方案的實(shí)際通話描述。另外一種可能是與結(jié)構(gòu)化數(shù)據(jù)有關(guān)的實(shí)際通話的語音日志或者音頻文字實(shí)錄。即使是現(xiàn)在,大多數(shù)分析人員還無法分析這種通話日志歷史數(shù)據(jù)庫中的最普通和高度結(jié)構(gòu)化的數(shù)據(jù),因?yàn)橥诰蛭谋拘畔⑹且豁?xiàng)強(qiáng)度很大的工作,并且無法簡單地實(shí)現(xiàn)自動化。1.2.4大數(shù)據(jù)的結(jié)構(gòu)類型人們通常最熟悉結(jié)構(gòu)化數(shù)據(jù)的分析,然而,半結(jié)構(gòu)化數(shù)據(jù)(XML)、“準(zhǔn)”結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)站地址字符串)和非結(jié)構(gòu)化數(shù)據(jù)代表了不同的挑戰(zhàn),需要不同的技術(shù)來分析。除了三種基本的數(shù)據(jù)類型以外,還有一種重要的數(shù)據(jù)類型為元數(shù)據(jù)。元數(shù)據(jù)提供了一個數(shù)據(jù)集的特征和結(jié)構(gòu)信息。這種數(shù)據(jù)主要由機(jī)器生成,并且能夠添加到數(shù)據(jù)集中。搜尋元數(shù)據(jù)對于大數(shù)據(jù)存儲、處理和分析是至關(guān)重要的一步,因?yàn)樵獢?shù)據(jù)提供了數(shù)據(jù)系譜信息,以及數(shù)據(jù)處理的起源。元數(shù)據(jù)的例子包括:XML文件中提供作者和創(chuàng)建日期信息的標(biāo)簽;數(shù)碼照片中提供文件大小和分辨率的屬性文件?!咀鳂I(yè)】討論:【實(shí)訓(xùn)操作】為ETI公司確定數(shù)據(jù)特征與類型討論:《大數(shù)據(jù)導(dǎo)論》中國鐵道出版社2018.10項(xiàng)目2大數(shù)據(jù)時代思維變革目錄1任務(wù)2.1:理解思維轉(zhuǎn)變之一:樣本=總體2任務(wù)2.2:理解思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性3任務(wù)2.3:理解思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系【導(dǎo)讀案例】亞馬遜推薦系統(tǒng)討論:(1)你熟悉亞馬遜等電商網(wǎng)站的推薦系統(tǒng)嗎?請列舉一個這樣的實(shí)例(你選擇購買什么商品,網(wǎng)站又給你推薦了其他什么商品)。(2)亞馬遜書評組和林登推薦系統(tǒng)各自成功的基礎(chǔ)是什么?(3)為什么書評組最終輸給了推薦系統(tǒng)?請說說你的觀點(diǎn)。(4)請簡單記述你所知道的上一周內(nèi)發(fā)生的國

際、國內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)熟悉大數(shù)據(jù)時代思維變革的基本概念和主要內(nèi)容;(2)回顧在傳統(tǒng)情況下,人們分析信息,了解世界的主要方法;(3)熟悉大數(shù)據(jù)時代人們思維變革的第一個轉(zhuǎn)變,即“分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣”?!局R準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣人類使用數(shù)據(jù)已經(jīng)有相當(dāng)長一段時間了,無論是日常進(jìn)行的大量非正式觀察,還是過去幾個世紀(jì)以來在專業(yè)層面上用高級算法進(jìn)行的量化研究,都與數(shù)據(jù)有關(guān)。在數(shù)字化時代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數(shù)據(jù)。而“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系。實(shí)際上,大數(shù)據(jù)的精髓在于我們分析信息時的三個轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會的方法,這三個轉(zhuǎn)變是相互聯(lián)系和相互作用的?!局R準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣19世紀(jì)以來,當(dāng)面臨大量數(shù)據(jù)時,社會都依賴于采樣分析。但是采樣分析是信息缺乏時代和信息流通受限制的模擬數(shù)據(jù)時代的產(chǎn)物。以前我們通常把這看成是理所當(dāng)然的限制,但高性能數(shù)字技術(shù)的流行讓我們意識到,這其實(shí)是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來了更高的精確性,也讓我們看到了一些以前無法發(fā)現(xiàn)的細(xì)節(jié)——大數(shù)據(jù)讓我們更清楚地看到了樣本無法揭示的細(xì)節(jié)信息。大數(shù)據(jù)時代的第一個轉(zhuǎn)變,是要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本?!局R準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣很長以來,因?yàn)橛涗?、儲存和分析?shù)據(jù)的工具不夠好,為了讓分析變得簡單,人們會把數(shù)據(jù)量縮減到最少,人們依據(jù)少量數(shù)據(jù)進(jìn)行分析,而準(zhǔn)確分析大量數(shù)據(jù)一直都是一種挑戰(zhàn)。如今,信息技術(shù)的條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來會越來越多。【知識準(zhǔn)備】分析更多數(shù)據(jù)而不再是只依賴于隨機(jī)采樣在某些方面,人們依然沒有完全意識到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力,還是在信息匱乏的假設(shè)下做很多事情,假定自己只能收集到少量信息。這是一個自找實(shí)現(xiàn)的過程。人們甚至發(fā)展了一些使用盡可能少的信息的技術(shù)。例如,統(tǒng)計(jì)學(xué)的一個目的就是用盡可能少的數(shù)據(jù)來證實(shí)盡可能重大的發(fā)現(xiàn)。事實(shí)上,我們形成了一種習(xí)慣,那就是在制度、處理過程和激勵機(jī)制中盡可能地減少數(shù)據(jù)的使用。小數(shù)據(jù)時代的隨機(jī)采樣2.1.12.1.1小數(shù)據(jù)時代的隨機(jī)采樣數(shù)千年來,政府一直都試圖通過收集信息來管理國民,只是到最近,小企業(yè)和個人才有可能擁有大規(guī)模收集和分類數(shù)據(jù)的能力,而此前,大規(guī)模的計(jì)數(shù)則是政府的事情。以人口普查為例。據(jù)說古代埃及曾進(jìn)行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒(見圖2-2)主導(dǎo)實(shí)施的人口普查,提出了“每個人都必須納稅”。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣圖2-2奧古斯都愷撒2.1.1小數(shù)據(jù)時代的隨機(jī)采樣1086年的《末日審判書》對當(dāng)時英國的人口、土地和財(cái)產(chǎn)做了一個前所未有的全面記載?;始椅瘑T穿越整個國家對每個人、每件事都做了記載,后來這本書用《圣經(jīng)》中的《末日審判書》命名,因?yàn)槊總€人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。然而,人口普查是一項(xiàng)耗資且費(fèi)時的事情,盡管如此,當(dāng)時收集的信息也只是一個大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)確記錄下每個人的信息。實(shí)際上,“人口普查”這個詞來源于拉丁語的“censere”,本意就是推測、估算。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣三百多年前,一個名叫約翰·格朗特的英國縫紉用品商提出了一個很有新意的方法,來推算出鼠疫時期倫敦的人口數(shù),這種方法就是后來的統(tǒng)計(jì)學(xué)。這個方法不需要一個人一個人地計(jì)算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。雖然后來證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用清點(diǎn)這種“野蠻”的方法。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣考慮到人口普查的復(fù)雜性以及耗時耗費(fèi)的特點(diǎn),政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬人口的時候每5年普查一次。美國憲法規(guī)定每10年進(jìn)行一次人口普查,而隨著國家人口越來越多,只能以百萬計(jì)數(shù)。但是到19世紀(jì)為止,即使這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過了人口普查局統(tǒng)計(jì)分析的能力。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣中國的人口調(diào)查有近4000年的歷史,留下了豐富的人口史料。但是,在封建制度下,歷代政府都是為了征稅、抽丁等才進(jìn)行人口調(diào)查,因而隱瞞匿報(bào)人口的現(xiàn)象十分嚴(yán)重,調(diào)查統(tǒng)計(jì)的口徑也很不一致。具有近代意義的人口普查,在1949年以前有過兩次:一次是清宣統(tǒng)元年(1909)進(jìn)行的人口清查,另一次是民國17年(1928)國民政府試行的全國人口調(diào)查。前者多數(shù)省僅調(diào)查戶數(shù)而無人口數(shù),推算出當(dāng)時中國人口約為3.7億多人,包括邊民戶數(shù)總計(jì)約為4億人口。后者只規(guī)定調(diào)查常住人口,沒有規(guī)定標(biāo)準(zhǔn)時間。經(jīng)過3年時間,也只對13個省進(jìn)行了調(diào)查,其他未調(diào)查的省的人數(shù)只進(jìn)行了估算。調(diào)查加估算的結(jié)果,全國人口約為4.75億人。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣新中國建立后,先后于1953、1964和1982年舉行過3次人口普查,1990年進(jìn)行了第4次全國人口普查。前3次人口普查是不定期進(jìn)行的,自1990年開始改為定期進(jìn)行。根據(jù)《中華人民共和國統(tǒng)計(jì)法實(shí)施細(xì)則》和國務(wù)院的決定以及國務(wù)院2010年頒布的《全國人口普查條例》規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度(見圖2-3)。兩次普查之間,進(jìn)行一次簡易人口普查。2020年為第七次全國人口普查時間。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣圖2-3中國人口普查2.1.1小數(shù)據(jù)時代的隨機(jī)采樣新中國第一次人口普查的標(biāo)準(zhǔn)時間是1953年6月30日24時,所謂人口普查的標(biāo)準(zhǔn)時間,就是規(guī)定一個時間點(diǎn),無論普查員入戶登記在哪一天進(jìn)行,登記的人口及其各種特征都是反映那個時間點(diǎn)上的情況。根據(jù)上述規(guī)定,不管普查員在哪天進(jìn)行入戶登記,普查對象所申報(bào)的都應(yīng)該是標(biāo)準(zhǔn)時間的情況。通過這個標(biāo)準(zhǔn)時間,所有普查員普查登記完成后,經(jīng)過匯總就可以得到全國人口的總數(shù)和各種人口狀況的數(shù)據(jù)。1953年11月1日發(fā)布了人口普查的主要數(shù)據(jù),當(dāng)時全國人口總數(shù)為601938035人。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣第六次人口普查的標(biāo)準(zhǔn)時間是2010年11月1日零時。2011年4月,發(fā)布了第六次全國人口普查主要數(shù)據(jù)。此次人口普查登記的全國總?cè)丝跒?339724852人。比2000年第五次人口普查相比,10年增加7390萬人,增長5.84%,年平均增長0.57%,比1990年到2000年年均1.07%的長率下降了0.5個百分點(diǎn)。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣美國在1880年進(jìn)行的人口普查,耗時8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時的。1890年進(jìn)行的人口普查,預(yù)計(jì)要花費(fèi)13年的時間來匯總數(shù)據(jù)。然而,因?yàn)槎愂辗謹(jǐn)偤蛧鴷砣藬?shù)確定都是建立在人口的基礎(chǔ)上的,必須獲得正確且及時的數(shù)據(jù)。很明顯,當(dāng)人們被數(shù)據(jù)淹沒的時候,已有的數(shù)據(jù)處理工具已經(jīng)難以應(yīng)付了,所以就需要有新技術(shù)。后來,美國人口普查局就和美國發(fā)明家赫爾曼?霍爾瑞斯(被稱為現(xiàn)代自動計(jì)算之父)簽訂了一個協(xié)議,用他的穿孔卡片制表機(jī)(見圖2-4)來完成1890年的人口普查。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣圖2-4霍爾瑞斯普查機(jī)2.1.1小數(shù)據(jù)時代的隨機(jī)采樣經(jīng)過大量的努力,霍爾瑞斯成功地在1年時間內(nèi)完成了人口普查的數(shù)據(jù)匯總工作。這簡直就是一個奇跡,它標(biāo)志著自動處理數(shù)據(jù)的開端,也為后來IBM公司的成立奠定了基礎(chǔ)。但是,將其作為收集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進(jìn)行統(tǒng)計(jì)。這么麻煩的情況下,很難想象如果不足十年就要進(jìn)行一次人口普查應(yīng)該怎么辦。對于一個跨越式發(fā)展的國家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是當(dāng)數(shù)量無比龐大時,這又不太現(xiàn)實(shí)。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當(dāng)?shù)姆椒ā?934年,波蘭統(tǒng)計(jì)學(xué)家耶日·奈曼指出,這只會導(dǎo)致更多更大的漏洞。事實(shí)證明,問題的關(guān)鍵是選擇樣本時的隨機(jī)性。統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但事實(shí)上,研究表明,當(dāng)樣本數(shù)量達(dá)到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣認(rèn)為樣本選擇的隨機(jī)性比樣本數(shù)量更重要,這種觀點(diǎn)是非常有見地的。這種觀點(diǎn)為我們開辟了一條收集信息的新道路。通過收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精準(zhǔn)度的推斷。因此,政府每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只在每十年進(jìn)行一次。事實(shí)上,政府也這樣做了。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機(jī)采樣的方法對經(jīng)濟(jì)和人口進(jìn)行200多次小規(guī)模的調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時,隨機(jī)采樣就成為應(yīng)對信息采集困難的辦法。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對生產(chǎn)出來的每個產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問題變成了社會科學(xué)問題。隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠(yuǎn)。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣在美國總統(tǒng)大選中,以固定電話用戶為基礎(chǔ)進(jìn)行投票民調(diào)就面臨了這樣的問題,采樣缺乏隨機(jī)性,因?yàn)闆]有考慮到只使用移動電話的用戶——這些用戶一般更年輕和更熱愛自由,不考慮這些用戶,自然就得不到正確的預(yù)測。2008年在奧巴馬與麥凱恩之間進(jìn)行的美國總統(tǒng)大選中,蓋洛普咨詢公司、皮尤研究中心、美國廣播公司和《華盛頓郵報(bào)》社這些主要的民調(diào)組織都發(fā)現(xiàn),如果不把移動用戶考慮進(jìn)來,民意測試的結(jié)果就會出現(xiàn)三個點(diǎn)的偏差,而一旦考慮進(jìn)來,偏差就只有一個點(diǎn)。鑒于這次大選的票數(shù)差距極其微弱,這已經(jīng)是非常大的偏差了。2.1.1小數(shù)據(jù)時代的隨機(jī)采樣更糟糕的是,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯誤率會大大增加。因此,當(dāng)人們想了解更深層次的細(xì)分領(lǐng)域的情況時,隨機(jī)采樣的方法就不可取了。在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。隨機(jī)采樣就像是模擬照片打印,遠(yuǎn)看很不錯,但是一旦聚焦某個點(diǎn),就會變得模糊不清。隨機(jī)采樣也需要嚴(yán)密的安排和執(zhí)行。人們只能從采樣數(shù)據(jù)中得出事先設(shè)計(jì)好的問題的結(jié)果。所以雖說隨機(jī)采樣是一條捷徑,但它并不適用于一切情況,因?yàn)檫@種調(diào)查結(jié)果缺乏延展性,即調(diào)查得出的數(shù)據(jù)不可以重新分析以實(shí)現(xiàn)計(jì)劃之外的目的。大數(shù)據(jù)與喬布斯的癌癥治療2.1.22.1.2大數(shù)據(jù)與喬布斯的癌癥治療我們來看一下DNA分析。由于技術(shù)成本大幅下跌以及在醫(yī)學(xué)方面的廣闊前景,個人基因排序成為了一門新興產(chǎn)業(yè)(見圖2-5)。從2007年起,硅谷的新興科技公司23andme就開始分析人類基因,價(jià)格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會導(dǎo)致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對某人的一小部分DNA進(jìn)行排序,標(biāo)注出幾十個特定的基因缺陷。這只是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最后,23andme只能回答其標(biāo)注過的基因組表現(xiàn)出來的問題。發(fā)現(xiàn)新標(biāo)注時,該人的DNA必須重新排序,更準(zhǔn)確地說,是相關(guān)的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問題,但不能回答事先未考慮到的問題。2.1.2大數(shù)據(jù)與喬布斯的癌癥治療圖2-5世界民族基因總圖(美國)2.1.2大數(shù)據(jù)與喬布斯的癌癥治療蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬美元的費(fèi)用,這是23andme報(bào)價(jià)的幾百倍之多。所以,他得到的不是一個只有一系列標(biāo)記的樣本,他得到了包括整個基因密碼的數(shù)據(jù)文檔。對于一個普通的癌癥患者,醫(yī)生只能期望她的DNA排列同試驗(yàn)中使用的樣本足夠相似。但是,史蒂夫?喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時更換另一種藥。喬布斯曾經(jīng)開玩笑地說:“我要么是第一個通過這種方式戰(zhàn)勝癌癥的人,要么就是最后一個因?yàn)檫@種方式死于癌癥的人?!彪m然他的愿望都沒有實(shí)現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長了好幾年。全數(shù)據(jù)模式:樣本=總體2.1.32.1.3全數(shù)據(jù)模式:樣本=總體采樣的目的是用最少的數(shù)據(jù)得到最多的信息,而當(dāng)我們可以獲得海量數(shù)據(jù)的時候,采樣就沒有什么意義了。如今,計(jì)算和制表已經(jīng)不再困難,感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和微信等被動地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對這些數(shù)據(jù)進(jìn)行處理。但是,數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變,而我們的方法和思維卻沒有跟上這種改變。在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生。如果可能的話,我們會收集所有的數(shù)據(jù),即“樣本=總體”。2.1.3全數(shù)據(jù)模式:樣本=總體“樣本=總體”是指我們能對數(shù)據(jù)進(jìn)行深度探討。在上面提到的有關(guān)采樣的例子中,用采樣的方法分析情況,正確率可達(dá)97%。對于某些事物來說,3%的錯誤率是可以接受的。但是你無法得到一些微觀細(xì)節(jié)的信息,甚至還會失去對某些特定子類別進(jìn)行進(jìn)一步研究的能力。我們不能滿足于正態(tài)分布一般中庸平凡的景象。生活中有很多事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析法卻無法捕捉到這些細(xì)節(jié)。2.1.3全數(shù)據(jù)模式:樣本=總體谷歌流感趨勢預(yù)測不是依賴于隨機(jī)樣本,而是分析了全美國幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個數(shù)據(jù)庫,而不是對一個小樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測出某個特定城市的流感狀況。所以,我們現(xiàn)在經(jīng)常會放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲能力,也需要最先進(jìn)的分析技術(shù)。同時,簡單廉價(jià)的數(shù)據(jù)收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價(jià)。但是現(xiàn)在,解決這些難題已經(jīng)變得簡單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。2.1.3全數(shù)據(jù)模式:樣本=總體通過使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會在大量數(shù)據(jù)中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進(jìn)行對比。這是一個大數(shù)據(jù)問題。而且,因?yàn)榻灰资羌磿r的,所以你的數(shù)據(jù)分析也應(yīng)該是即時的。2.1.3全數(shù)據(jù)模式:樣本=總體然而,使用所有的數(shù)據(jù)并不代表這是一項(xiàng)艱巨的任務(wù)。大數(shù)據(jù)中的“大”不是絕對意義上的大,雖然在大多數(shù)情況下是這個意思。谷歌流感趨勢預(yù)測建立在數(shù)億的數(shù)學(xué)模型上,而它們又建立在數(shù)十億數(shù)據(jù)節(jié)點(diǎn)的基礎(chǔ)之上。完整的人體基因組有約30億個堿基對。但這只是單純的數(shù)據(jù)節(jié)點(diǎn)的絕對數(shù)量,不代表它們就是大數(shù)據(jù)。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。谷歌流感趨勢和喬布斯的醫(yī)生們采取的就是大數(shù)據(jù)的方法。因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。是大數(shù)據(jù)讓我們發(fā)現(xiàn)了流感的傳播區(qū)域和對抗癌癥需要針對的那部分DNA。它讓我們能清楚分析微觀層面的情況。2.1.3全數(shù)據(jù)模式:樣本=總體當(dāng)然,有些時候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€資源有限的時代。但是更多時候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。社會科學(xué)是被“樣本=總體”撼動得最厲害的學(xué)科。隨著大數(shù)據(jù)分析取代了樣本分析,社會科學(xué)不再單純依賴于分析實(shí)證數(shù)據(jù)。這門學(xué)科過去曾非常依賴樣本分析、研究和調(diào)查問卷。當(dāng)記錄下來的是人們的平常狀態(tài),也就不用擔(dān)心在做研究和調(diào)查問卷時存在的偏見了。現(xiàn)在,我們可以收集過去無法收集到的信息,不管是通過移動電話表現(xiàn)出的關(guān)系,還是通過推特信息表現(xiàn)出的感情。更重要的是,我們現(xiàn)在也不再依賴抽樣調(diào)查了。2.1.3全數(shù)據(jù)模式:樣本=總體我們總是習(xí)慣把統(tǒng)計(jì)抽樣看作文明得以建立的牢固基石,就如同幾何學(xué)定理和萬有引力定律一樣。但是統(tǒng)計(jì)抽樣其實(shí)只是為了在技術(shù)受限的特定時期,解決當(dāng)時存在的一些特定問題而產(chǎn)生的,其歷史尚不足一百年。如今,技術(shù)環(huán)境已經(jīng)有了很大的改善。在大數(shù)據(jù)時代進(jìn)行抽樣分析就像是在汽車時代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。慢慢地,我們會完全拋棄樣本分析?!咀鳂I(yè)】討論:【實(shí)訓(xùn)操作】搜索與分析,體驗(yàn)“樣本=總體”討論:目錄1任務(wù)2.1:理解思維轉(zhuǎn)變之一:樣本=總體2任務(wù)2.2:理解思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性3任務(wù)2.3:理解思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系【導(dǎo)讀案例】得數(shù)據(jù)者得天下討論:(1)請?jiān)诶斫獾幕A(chǔ)上簡單闡述:什么是數(shù)據(jù)驅(qū)動?(2)請簡單闡述:本文為什么說“數(shù)據(jù)驅(qū)動≠大數(shù)據(jù)”?(3)請簡單分析數(shù)據(jù)驅(qū)動與大數(shù)據(jù)的練習(xí)與區(qū)別。(4)請簡單記述你所知道的上一周內(nèi)發(fā)生的國際、國內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)熟悉大數(shù)據(jù)時代思維變革的基本概念和主要內(nèi)容;(2)回顧在傳統(tǒng)情況下,人們分析信息,了解世界的主要方法;(3)熟悉大數(shù)據(jù)時代人們思維變革的第二個轉(zhuǎn)變,即“不再熱衷于追求精確度”?!局R準(zhǔn)備】不再熱衷于追求精確度當(dāng)我們測量事物的能力受限時,關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。直到今天,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,數(shù)據(jù)庫引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以我們必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面,我們已經(jīng)意識到了差別。例如,一個小商店在晚上打烊的時候要把收銀臺里的每分錢都數(shù)清楚,但是我們不會、也不可能用“分”這個單位去精確度量國民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大,對精確度的癡迷將減弱?!局R準(zhǔn)備】不再熱衷于追求精確度達(dá)到精確需要有專業(yè)的數(shù)據(jù)庫。針對小數(shù)據(jù)量和特定事情,追求精確性依然是可行的,比如一個人的銀行賬戶上是否有足夠的錢開具支票。但是,在這個大數(shù)據(jù)時代,很多時候,追求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論