版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1.大數(shù)據(jù)時代的思維變革1.大數(shù)據(jù)時代的思維變革——更好“更好”——不是因果關(guān)系,而是相關(guān)關(guān)系知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。關(guān)聯(lián)物,預(yù)測的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?997年,24歲的格雷格·林登(Greg
Linden)在華盛頓大學(xué)就讀博士,研究人工智能,閑暇之余,他會在網(wǎng)上賣書。他的網(wǎng)店運營才兩年就已經(jīng)生意興隆。林登被亞馬遜聘為軟件工程師,以確保網(wǎng)站的正常運行。詹姆斯·馬庫斯(James
arcus)回憶說:“推薦信息往往為你提供與你以前購買物品有微小差異的產(chǎn)品,并且循環(huán)往復(fù)?!闭材匪埂ゑR庫斯從1996年到2001年都是亞馬遜的書評家,在他的回憶錄《亞馬遜》(Amazonia)里,他說道:“那種感覺就像你和一群腦殘在一起逛書店?!睋?jù)說亞馬遜銷售額的三分之一都是來自于它的個性化推薦系統(tǒng)。林登與亞馬遜推薦系統(tǒng)1997年,林登,亞馬遜,推薦書籍1998年“item-to-item”協(xié)同過濾技術(shù)書評團隊被解散評論家所創(chuàng)造的銷售業(yè)績計算機生成內(nèi)容所產(chǎn)生的銷售業(yè)績海明威作品與菲茨杰拉德的書知道是什么就夠了,沒必要知道為什么
據(jù)說亞馬遜銷售額的三分之一都是來自于它的個性化推薦系統(tǒng)。在大數(shù)據(jù)時代之前,相關(guān)關(guān)系的應(yīng)用很少。因為數(shù)據(jù)很少而且收集數(shù)據(jù)很費時費力,所以統(tǒng)計學(xué)家們喜歡找到一個關(guān)聯(lián)物,然后收集與之相關(guān)的數(shù)據(jù)進行相關(guān)關(guān)系分析來評測這個關(guān)聯(lián)物的優(yōu)劣。那么,如何尋找這個關(guān)聯(lián)物呢?除了僅僅依靠相關(guān)關(guān)系,專家們還會使用一些建立在理論基礎(chǔ)上的假想來指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物。這些理論就是一些抽象的觀點,關(guān)于事物是怎樣運作的。然后收集與關(guān)聯(lián)物相關(guān)的數(shù)據(jù)來進行相關(guān)關(guān)系分析,以證明這個關(guān)聯(lián)物是否真的合適。如果不合適,人們通常會固執(zhí)地再次嘗試,因為擔(dān)心可能是數(shù)據(jù)收集的錯誤,而最終卻不得不承認一開始的假想甚至假想建立的基礎(chǔ)都是有缺陷和必須修改的。這種對假想的反復(fù)試驗促進了學(xué)科的發(fā)展。但是這種發(fā)展非常緩慢,因為個人以及團體的偏見會蒙蔽我們的雙眼,導(dǎo)致我們在設(shè)立假想、應(yīng)用假想和選擇關(guān)聯(lián)物的過程中犯錯誤。總之,這是一個煩瑣的過程,只適用于小數(shù)據(jù)時代。關(guān)聯(lián)物,預(yù)測的關(guān)鍵
相關(guān)關(guān)系:相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系。強和弱
通過給我們找到一個現(xiàn)象的良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測未來。實例:沃爾瑪——蛋撻與颶風(fēng)生活中的相關(guān)關(guān)系身高與前臂的長度小數(shù)據(jù)時代的相關(guān)關(guān)系大數(shù)據(jù)時代的相關(guān)關(guān)系–谷歌流感預(yù)測:5億個數(shù)學(xué)模型建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心。數(shù)據(jù)驅(qū)動的關(guān)于大數(shù)據(jù)的相關(guān)關(guān)系分析法,取代了基于假想的易出錯的方法。大數(shù)據(jù)的相關(guān)關(guān)系分析法更準確、更快,而且不易受偏見的影響。實例FICO提出“遵從醫(yī)囑評分”一系列變量→是否按時吃藥益百利預(yù)測個人收入信用卡交易記錄→預(yù)測個人收入1$證明一個人的收入狀況10$中英人壽保險公司申請人的健康隱患信用報告、市場分析報告→高血壓、糖尿病和抑郁癥5$血液尿液樣本130$美國折扣零售商塔吉特懷孕預(yù)測UPS與汽車修理預(yù)測UPS國際快遞公司從2000年就開始使用預(yù)測性分析來監(jiān)測自己全美60000輛車規(guī)模的車隊,這樣就能及時地進行防御性的修理。如果車在路上拋錨損失會非常大,因為那樣就需要再派一輛車,會造成延誤和再裝載的負擔(dān),并消耗大量的人力物力,所以以前UPS每兩三年就會對車輛的零件進行定時更換。但這種方法不太有效,因為有的零件并沒有什么毛病就被換掉了。通過監(jiān)測車輛的各個部位,UPS如今只需要更換需要更換的零件,從而節(jié)省了好幾百萬美元。有一次,監(jiān)測系統(tǒng)甚至幫助UPS發(fā)現(xiàn)了一個新車的一個零件有問題,因此免除了可能會造成的困擾。預(yù)測分析法一個能發(fā)現(xiàn)可能的流行歌曲的算法系統(tǒng)防止機器失效和建筑倒塌異常情況與正常情況
通過找出一個關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測未來。實例:UPS與汽車維修預(yù)測–2000年,60000輛收集和分析數(shù)據(jù)的花費比出現(xiàn)停產(chǎn)的損失小得多。
當(dāng)收集、存儲和分析數(shù)據(jù)的成本較高的時候,應(yīng)該適當(dāng)?shù)貋G棄一些數(shù)據(jù)。醫(yī)療設(shè)備獲取病人的數(shù)據(jù)安大略理工大學(xué)IBM醫(yī)院卡羅琳·麥格雷戈檢測處理即時的病人信息早產(chǎn)兒病情診斷16個數(shù)據(jù)點1260/秒在明顯感染癥狀出現(xiàn)的24小時之前,可發(fā)現(xiàn)早產(chǎn)兒的穩(wěn)定是病情感染前的準備..幸福的非線性關(guān)系多年來,經(jīng)濟學(xué)家和政治家一直錯誤地認為收入水平和幸福感是成正比的。我們從數(shù)據(jù)圖表上可以看到,雖然統(tǒng)計工具呈現(xiàn)的是一種線性關(guān)系,但事實上,它們之間存在一種更復(fù)雜的動態(tài)關(guān)系:對于收入水平在1萬美元以下的人來說,一旦收入增
加,幸福感會隨之提升;但對于收入水平在1萬美元以上的人來說,幸福感并不會隨著收入水平提高而提升。如果能發(fā)現(xiàn)這層關(guān)系,我們看到的就應(yīng)該是一條曲線,而不是統(tǒng)計工具分析出來的直線。當(dāng)我們說人類是通過因果關(guān)系了解世界時,我們指的是我們在理解和解釋世界各種現(xiàn)象時使用的兩種基本方法:一種是通過快速、虛幻的因果關(guān)系,還有一種就是通過緩慢、有條不紊的因果關(guān)系。大數(shù)據(jù)會改變這兩種基本方法在我們認識世界時所扮演的角色。是什么,而不是為什么
在小數(shù)據(jù)時代,相關(guān)關(guān)系分析和因果分析都不容易,都耗費巨大,都要從建立假設(shè)開始。非線性關(guān)系小數(shù)據(jù)時代,計算機能力的不足限制了非線性關(guān)系的研究實例:幸福的非線性關(guān)系因果關(guān)系是否存在不費力的快速思維費力的慢性思維實例:感冒、狂犬疫苗
我們的直接愿望就是了解因果關(guān)系。即使無因果聯(lián)系存在,我們也還是會假定其存在。
研究證明,這只是我們的認知方式,與每個人的文化背景、生長環(huán)境以及教育水平是無關(guān)的。當(dāng)我們看到兩件事情接連發(fā)生的時候,我們會習(xí)慣性地從因果關(guān)系的角度來看待它們。看看下面的三句話:–弗雷德的父母遲到了;供應(yīng)商快到了;弗雷德生氣了?!ダ椎聻槭裁瓷鷼?
快速思維模式使人們偏向用因果聯(lián)系來看待周圍的一切,即使這種關(guān)系并不存在。–冬天不戴帽子和感冒事實證明,一般來說,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,這也只適用于七分之一的案例中。無論如何,就算沒有狂犬疫苗,這個小男孩活下來的概率還是有85%??袢呙邕@個例子來說,1885年7月6日,法國化學(xué)家路易·巴斯德(Louis
Pasteur)接診了一個9歲的小孩約瑟夫·梅斯特(Joseph
Meister),他被帶有狂犬病
毒的狗咬了。巴斯德剛剛研發(fā)出狂犬疫苗,也實驗驗證過效果了。梅斯特的父母就懇求巴斯德給他們的兒子注射一針。巴斯德做了,梅斯特活了下來。發(fā)布會上,巴斯德因為把一個小男孩從死神手中救出而大受褒獎。一般來說,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。例如,Kaggle,一家為所有人提供數(shù)據(jù)挖掘競賽平臺的公司,舉辦了關(guān)于二手車的質(zhì)量競賽。二手車經(jīng)銷商將二手車數(shù)據(jù)提供給參加比賽的統(tǒng)計學(xué)家,統(tǒng)計學(xué)家們用這些數(shù)據(jù)建立一個算法系統(tǒng)來預(yù)測經(jīng)銷商拍賣的哪些車有可能出現(xiàn)質(zhì)量問題。相關(guān)關(guān)系分析表明,橙色的車有質(zhì)量問題的可能性只有其他車的一半。當(dāng)我們讀到這里的時候,不禁也會思考其中的原因。難道是因為橙色車的車主更愛車,所以車被保護得更好嗎?或是這種顏色的車子在制造方面更精良些嗎?還是因為橙色的車更顯眼、出車禍的概率更小,所以轉(zhuǎn)手的時候,各方面的性能保持得更好?馬上,我們就陷入了各種各樣謎一樣的假設(shè)中。若要找出相關(guān)關(guān)系,我們可以用數(shù)學(xué)方法,但如果是因果關(guān)系的話,這卻是行不通的。所以,我們沒必要一定要找出相關(guān)關(guān)系背后的原因,當(dāng)我們知道了“是什么”的時候,“為什么”其實沒那么重要了,否則就會催生一些滑稽的想法。比方說上面提到的例子里,我們是不是應(yīng)該建議車主把車漆成橙色呢?畢竟,這樣就說明車子的質(zhì)量更過硬??!相關(guān)關(guān)系很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都是很清晰的。而我們一旦把因果關(guān)系考慮進去,這些視角就有可能被蒙蔽掉。–實例:kaggle二手車質(zhì)量競賽橙色的車
因果是相關(guān)關(guān)系的一種。相關(guān)關(guān)系分析通常情況下能取代因果關(guān)系起作用,即使不可取代的情況下,它也能指導(dǎo)因果關(guān)系起作用。–實例:曼哈頓沙井蓋的爆炸聯(lián)合愛迪生電力公司(Con
Edison)每年都會對沙井蓋進行常規(guī)檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學(xué)的統(tǒng)計學(xué)家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,比如說通過研究以前出現(xiàn)過的問題、基礎(chǔ)設(shè)施之間的聯(lián)系,進而預(yù)測出可能會出現(xiàn)問題并且需要維修的沙井蓋。如此一來,它們就只要把自己的人力物力集中在維修這些沙井蓋上。這是一個復(fù)雜的大數(shù)據(jù)問題。光在紐約,地下電纜就有15萬公里,都足夠環(huán)繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務(wù)設(shè)施,其中很多設(shè)施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。盡管1880以來的數(shù)據(jù)都保存著,卻很雜亂,因為從沒想過要用來進行數(shù)據(jù)分析。這些數(shù)據(jù)都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數(shù)據(jù)雜亂一點也不為過。改變,從操作開始實例:曼哈頓沙井蓋爆炸–每年,因沙井蓋內(nèi)部失火,紐約每年有很多沙井蓋會發(fā)生爆炸。
聯(lián)合愛迪生電力公司(ConEdison)每年都會對沙井蓋進行常規(guī)檢查和維修。
2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學(xué)的統(tǒng)計學(xué)家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,預(yù)測出可能會出現(xiàn)問題并且需要維修的沙井蓋。聯(lián)合愛迪生電力公司(Con
Edison)每年都會對沙井蓋進行常規(guī)檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學(xué)的統(tǒng)計學(xué)家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,比如說通過研究以前出現(xiàn)過的問題、基礎(chǔ)設(shè)施之間的聯(lián)系,進而預(yù)測出可能會出現(xiàn)問題并且需要維修的沙井蓋。如此一來,它們就只要把自己的人力物力集中在維修這些沙井蓋上。這是一個復(fù)雜的大數(shù)據(jù)問題。光在紐約,地下電纜就有15萬公里,都足夠環(huán)繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務(wù)設(shè)施,其中很多設(shè)施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。盡管1880以來的數(shù)據(jù)都保存著,卻很雜亂,因為從沒想過要用來進行數(shù)據(jù)分析。這些數(shù)據(jù)都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數(shù)據(jù)雜亂一點也不為過。改變,從操作開始這是一個復(fù)雜的大數(shù)據(jù)問題。僅紐約,地下電纜就有15萬公里;曼哈頓有大約51000個沙井蓋和服務(wù)設(shè)施,很多設(shè)施都是在愛迪生那個時代建成的有二十分之一的電纜在1930年之前就鋪好了。1880以來的數(shù)據(jù)都保存著,卻很雜亂,聯(lián)合愛迪生電力公司(Con
Edison)每年都會對沙井蓋進行常規(guī)檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯(lián)合愛迪生電力公司向哥倫比亞大學(xué)的統(tǒng)計學(xué)家求助,希望他們通過對一些歷史數(shù)據(jù)的研究,比如說通過研究以前出現(xiàn)過的問題、基礎(chǔ)設(shè)施之間的聯(lián)系,進而預(yù)測出可能會出現(xiàn)問題并且需要維修的沙井蓋。如此一來,它們就只要把自己的人力物力集中在維修這些沙井蓋上。這是一個復(fù)雜的大數(shù)據(jù)問題。光在紐約,地下電纜就有15萬公里,都足夠環(huán)繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務(wù)設(shè)施,其中很多設(shè)施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。盡管1880以來的數(shù)據(jù)都保存著,卻很雜亂,因為從沒想過要用來進行數(shù)據(jù)分析。這些數(shù)據(jù)都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數(shù)據(jù)雜亂一點也不為過。改變,從操作開始這是一個復(fù)雜的大數(shù)據(jù)問題。僅紐約,地下電纜就有15萬公里;曼哈頓有大約51000個沙井蓋和服務(wù)設(shè)施,很多設(shè)施都是在愛迪生那個時代建成的有二十分之一的電纜在1930年之前就鋪好了。1880以來的數(shù)據(jù)都保存著,卻很雜亂,負責(zé)這個項目的統(tǒng)計學(xué)家辛西亞·魯?。–ynthia
Rudin)回憶道:乍看這些數(shù)據(jù)的時候,我們從未想過能從這些未經(jīng)處理的數(shù)據(jù)中找出想要的信息。我打印了一個關(guān)于所有電纜的表格。如果把這個表格卷起來的話,除非你在地上拖,不然你絕對提不起它來。而我們需要處理的就是這么多沒有處理過的數(shù)據(jù)。只有理解了這些數(shù)據(jù),才能從中淘金,并傾己所有創(chuàng)建一個好的預(yù)測模型。
負責(zé)這個項目的統(tǒng)計學(xué)家辛西亞·魯?。–ynthiaRudin)將雜亂的數(shù)據(jù)整理好給機器處理發(fā)現(xiàn)了大型沙井蓋爆炸的106種預(yù)警情況。在布朗克斯(Bronx)的電網(wǎng)測試中,他們對2008年中期之前的數(shù)據(jù)都進行了分析,并利用這些數(shù)據(jù)預(yù)測了2009年會出現(xiàn)問題的沙井蓋。
預(yù)測效果非常好,在他們列出的前10%的高危沙井蓋名單里,有44%的沙井蓋都發(fā)生了嚴重的事故。
最重要的因素是這些電纜的使用年限和有沒有出現(xiàn)過問題。2008年,《連線》雜志主編克里斯·安德森(Chris
Anderson)就指出:“數(shù)據(jù)爆炸使得科學(xué)的研究方法都落伍了。”后來,他又在《拍字節(jié)時代》(The
Petabyte
Age)的封面故事中講到,大量的數(shù)據(jù)從某種程度上意味著“理論的終結(jié)”。安德森也表示,用一系列的因果關(guān)系來驗證各種猜想的傳統(tǒng)研究范式已經(jīng)不實用了,如今它已經(jīng)被無需理論指導(dǎo)的純粹的相關(guān)關(guān)系研究所取代。大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒ù罅康臄?shù)據(jù)從某種程度上意味著“理論的終結(jié)”?!?008年,《連線》主編克里斯·安德森大數(shù)據(jù)是在理論的基礎(chǔ)上形成的。理論貫穿于大數(shù)據(jù)的整個過程。–數(shù)據(jù)的收集、分析、結(jié)果解讀接下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年企業(yè)文化節(jié)慶典活動策劃執(zhí)行合同3篇
- 二零二五版綠色環(huán)保產(chǎn)業(yè)孵化合作協(xié)議3篇
- 二零二五年度工業(yè)地產(chǎn)租賃及市場推廣協(xié)議3篇
- 二零二五版文化產(chǎn)業(yè)股權(quán)重組及投資合同3篇
- 二零二五年度房地產(chǎn)公司股東財務(wù)預(yù)算與成本控制協(xié)議3篇
- 初二的生活作文300字集合9篇
- 2025年度新能源充電設(shè)施建設(shè)與運營管理合同4篇
- 2025年柴油產(chǎn)品環(huán)保認證與推廣服務(wù)合同樣本4篇
- 二零二五版?zhèn)€人二手車貸款擔(dān)保合同5篇
- 臨時資料管理員聘用協(xié)議(2024年版)
- 金蛇納瑞企業(yè)2025年會慶典
- 安保服務(wù)評分標準
- T-SDLPA 0001-2024 研究型病房建設(shè)和配置標準
- (人教PEP2024版)英語一年級上冊Unit 1 教學(xué)課件(新教材)
- 全國職業(yè)院校技能大賽高職組(市政管線(道)數(shù)字化施工賽項)考試題庫(含答案)
- 2024胃腸間質(zhì)瘤(GIST)診療指南更新解讀 2
- 光儲電站儲能系統(tǒng)調(diào)試方案
- 2024年二級建造師繼續(xù)教育題庫及答案(500題)
- 小學(xué)數(shù)學(xué)二年級100以內(nèi)連加連減口算題
- 建設(shè)單位如何做好項目管理
- 三年級上遞等式計算400題
評論
0/150
提交評論