疑讀《大數(shù)據(jù)時(shí)代》6--相關(guān)關(guān)系與因果關(guān)系的辯證_第1頁
疑讀《大數(shù)據(jù)時(shí)代》6--相關(guān)關(guān)系與因果關(guān)系的辯證_第2頁
疑讀《大數(shù)據(jù)時(shí)代》6--相關(guān)關(guān)系與因果關(guān)系的辯證_第3頁
疑讀《大數(shù)據(jù)時(shí)代》6--相關(guān)關(guān)系與因果關(guān)系的辯證_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、唐人家居電商相關(guān)關(guān)系與因果關(guān)系的辯證-疑讀大數(shù)據(jù)時(shí)代6By唐人大數(shù)據(jù)時(shí)代給出的大數(shù)據(jù)時(shí)代的第三個(gè)特征,是“不是因果關(guān)系,而是 相關(guān)關(guān)系”。無論是因果關(guān)系還是相關(guān)關(guān)系,在書中都是指兩個(gè)變量之間的關(guān)系, 是數(shù)據(jù)中最簡單的關(guān)系。因果關(guān)系與相關(guān)關(guān)系有什么關(guān)系?為什么“不是因果關(guān)系而是相關(guān)關(guān)系”?所謂“不是因果關(guān)系而是相關(guān)關(guān)系”有什么問題嗎?相關(guān)關(guān)系之重要性首先談?wù)劄槭裁词窍嚓P(guān)關(guān)系,談?wù)劥髷?shù)據(jù)時(shí)代相關(guān)關(guān)系的重要性。邁爾大叔用亞馬遜的圖書推薦系統(tǒng),引出了相關(guān)關(guān)系的重要性,因?yàn)檫@個(gè)相 關(guān)關(guān)系,成為線上商城在向?yàn)g覽網(wǎng)頁的網(wǎng)友推薦有關(guān)商品的基本算法。 我們通常 把這種根據(jù)相關(guān)關(guān)系推薦的商品稱為關(guān)聯(lián)商品。地球人基

2、本上都知道這種相關(guān)關(guān)系:如果購買商品A的消費(fèi)者中有相當(dāng)部分 也購買了商品B,那就可以認(rèn)為商品A和B是相關(guān)聯(lián)的,所以當(dāng)再有消費(fèi)者購買 商品A時(shí),就向他推薦商品B。邁爾大叔對(duì)相關(guān)關(guān)系的評(píng)價(jià)是:“關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵”。他說:“知道是 什么就夠了,沒必要知道為什么。在大數(shù)據(jù)時(shí)代,我們不必非得知道現(xiàn)象 背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲?!彪S之又列舉了沃爾瑪將蛋撻與颶風(fēng)用品放在一起銷售的案列。在這個(gè)例子 里,蛋撻與颶風(fēng)用品一起購買的關(guān)聯(lián)行為就是“是什么”,邁爾大叔認(rèn)為沒有必 要探究為什么颶風(fēng)來了美國人民喜歡吃蛋撻。你認(rèn)為有必要知道“為什么”嗎?我認(rèn)為, 至少?zèng)]有必要說“沒有必要知道 為什么”。另外,在預(yù)測(cè)

3、分析中更多應(yīng)用的不是簡單的兩個(gè)變量之間的相關(guān)關(guān)系,而是一組變量與某個(gè)變量之間的相關(guān)關(guān)系。關(guān)于這一點(diǎn),邁爾大叔基本上沒有解釋, 只是在某些案列里用十分驚訝的語氣進(jìn)行了感嘆,如在例舉美國個(gè)人消費(fèi)信用評(píng) 估公司“遵從醫(yī)囑評(píng)分”時(shí)介紹說:它分析一系列的變量來確定這個(gè)人是否會(huì)按 時(shí)吃藥,包括一些看起來有點(diǎn)怪異的變量。比方說,一個(gè)人在某地居住了多久, 這個(gè)人結(jié)婚了沒有,他多久換一個(gè)工作以及他是否有私家車。事實(shí)上,美國個(gè)人消費(fèi)信用評(píng)估公司使用了多個(gè)在邁爾大叔看起來非常奇怪 的變量來預(yù)測(cè)一個(gè)人是否會(huì)按照醫(yī)囑吃藥。 接下來連續(xù)介紹的益佰利的個(gè)人收入 評(píng)分、Aviva的健康預(yù)測(cè)模型、還有塔吉特的懷孕預(yù)測(cè)等,都不是

4、簡單的相關(guān)關(guān) 系分析。而是更加復(fù)雜的多元回歸分析。其中最可能使用的分析方法應(yīng)該是一種 被稱為Logistic Regression的分析方法。從邁爾大叔對(duì)這些案例以及其他相關(guān)案例的描述來看,他很可能并不太了解這樣的分析方法。為何不是因果關(guān)系?因果關(guān)系就是對(duì)相關(guān)關(guān)系問個(gè)為什么。 我們來看看為什么邁爾大叔說是 “不 是因果關(guān)系”。首先是沒有必要知道:大數(shù)據(jù)卻顯示,還有另外一個(gè)在某些方面更有用的方 法。亞馬遜的推薦系統(tǒng)梳理出了有趣的相關(guān)關(guān)系,但不知道背后的原因。知道是 什么就夠了,沒必要知道為什么。這句話說白了,就是機(jī)器分析發(fā)現(xiàn)了兩個(gè)變量之間的相關(guān)性, 那就足夠做關(guān) 聯(lián)商品推薦了,你用不著去分析為什

5、么它們是關(guān)聯(lián)的。另一個(gè)“不是因果關(guān)系”的原因,則有點(diǎn)難以理解。邁爾大叔說:專家們還會(huì)使用一些建立在理論基礎(chǔ)上的假想來指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián) 物。這些理論就是一些抽象的觀點(diǎn),關(guān)于事物是怎樣運(yùn)作的。然后收集與關(guān)聯(lián)物 相關(guān)的數(shù)據(jù)來進(jìn)行相關(guān)關(guān)系分析,以證明這個(gè)關(guān)聯(lián)物是否真的合適。如果不合適, II唐人家居電商人們通常會(huì)固執(zhí)地再次嘗試,因?yàn)閾?dān)心可能是數(shù)據(jù)收集的錯(cuò)誤,而最終卻不得不 承認(rèn)一幵始的假想甚至假想建立的基礎(chǔ)都是有缺陷和必須修改的。這種對(duì)假想的 反復(fù)試驗(yàn)促進(jìn)了學(xué)科的發(fā)展。但是這種發(fā)展非常緩慢,因?yàn)閭€(gè)人以及團(tuán)體的偏見 會(huì)蒙蔽我們的雙眼,導(dǎo)致我們?cè)谠O(shè)立假想、應(yīng)用假想和選擇關(guān)聯(lián)物的過程中犯錯(cuò) 誤??傊?/p>

6、這是一個(gè)煩瑣的過程,只適用于小數(shù)據(jù)時(shí)代。如果不太能夠理解的話,白話一下:上面邁爾大叔描述了一般社會(huì)科學(xué)(如 心理學(xué)、社會(huì)學(xué)等)研究的過程,即首先進(jìn)行科學(xué)的理論假設(shè),然后通過數(shù)據(jù)的 相關(guān)分析來證明其理論假設(shè)的正確與否。這個(gè)理論假設(shè),就是解決“為什么”的問題。看來邁爾大叔把數(shù)據(jù)的關(guān)聯(lián)分析局限于二維的數(shù)據(jù)分析,局限于他描述的社會(huì)科學(xué)的研究過程,并且認(rèn)為傳統(tǒng)的關(guān)聯(lián)分析一定必須回答“為什么”關(guān)聯(lián)。相關(guān)關(guān)系與因果關(guān)系相關(guān)關(guān)系回答了兩個(gè)變量之間是否關(guān)聯(lián),而因果關(guān)系卻要回答這兩個(gè)變量為 什么關(guān)聯(lián)。邁爾大叔的第三個(gè)有關(guān)大數(shù)據(jù)時(shí)代的特征,也是最受爭議的。即使是該書的譯者,也在序中指出該特征總結(jié)的偏差??赡苓~爾大叔

7、在其著書時(shí)也意識(shí)到這個(gè)問題, 所以也沒有把話說死,保留了 一點(diǎn)余地:因果關(guān)系還是有用的,但是它將不再被看成是意義來源的基礎(chǔ)。在大 數(shù)據(jù)時(shí)代,即使很多情況下,我們依然指望用因果關(guān)系來說明我們所發(fā)現(xiàn)的相互 聯(lián)系,但是,我們知道因果關(guān)系只是一種特殊的相關(guān)關(guān)系??梢钥吹?,邁爾大叔是在兩個(gè)很狹隘的思想指導(dǎo)下得到大數(shù)據(jù)時(shí)代“不是因果關(guān)系,而是相關(guān)關(guān)系”的結(jié)論:一是因果關(guān)系只來自理論假設(shè)和數(shù)據(jù)驗(yàn)證的學(xué) 術(shù)研究;二是事物間的關(guān)系只是兩個(gè)事物間的相互關(guān)系。我們拿在邁爾大叔書中反復(fù)提到卻從來沒有任何說明的預(yù)測(cè)分析技術(shù)Logistic Regression來說,這是一個(gè)絕對(duì)出現(xiàn)在小數(shù)據(jù)時(shí)代的分析技術(shù),而 且在小數(shù)據(jù)時(shí)代就被廣泛應(yīng)用。在運(yùn)用該分析方法建立預(yù)測(cè)模型時(shí), 很可能是將 iii唐人家居電商所有能夠獲得的變量放進(jìn)去分析, 看哪些變量具有預(yù)測(cè)的能力。這時(shí)分析人員只 是關(guān)注邁爾大叔所謂的相關(guān)關(guān)系(事實(shí)是在多維分析中,兩個(gè)變量之間的關(guān)系要 比簡單的相關(guān)關(guān)系復(fù)雜得多.)0當(dāng)預(yù)測(cè)模型建成后,分析人員會(huì)對(duì)預(yù)測(cè)模型中的 一些變量嘗試進(jìn)行解釋,即試圖得到因果關(guān)系。又一次,因?yàn)橹R(shí)的局 限以及思維的狹隘,邁爾大叔錯(cuò)誤地理解了大數(shù)據(jù) 時(shí)代的特征。這是疑讀大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論