大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法比較0001_第1頁
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法比較0001_第2頁
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法比較0001_第3頁
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法比較0001_第4頁
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法比較0001_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法比較 基于理念分析和比較研究方法, 對大數(shù)據(jù)的分析方 法和傳統(tǒng)統(tǒng)計(jì)學(xué)分析方法的關(guān)聯(lián)性和差異進(jìn)行了對比分析, 從方法的 基本思想、量化形式、數(shù)據(jù)來源、分析范式、分析方法、分析視角等 角度揭示了兩種社會科學(xué)分析方法存在的聯(lián)系與差異。隨著信息技術(shù)的日益發(fā)展與普及, 信息以及數(shù)據(jù)在社會經(jīng)濟(jì)發(fā)展 過程中發(fā)揮的作用越來越重要?,F(xiàn)如今, “大數(shù)據(jù) ”時(shí)代已經(jīng)來臨,于 是如何更有效地利用數(shù)據(jù)快速做出科學(xué)決策也已成為眾多企業(yè)甚至 是國家所共同關(guān)注的焦點(diǎn)問題。在數(shù)據(jù)處理和分析方法方面, 統(tǒng)計(jì) 學(xué)以及在其基礎(chǔ)上發(fā)展而來的實(shí)證統(tǒng)計(jì)方法是當(dāng)前的主流, 這些方 法可以幫助數(shù)據(jù)持有者從大量的數(shù)據(jù)中挖掘

2、有價(jià)值的信息, 并為其相 關(guān)決策提供理論支撐和方法支持。 然而,傳統(tǒng)的實(shí)證統(tǒng)計(jì)方法在最新 出現(xiàn)的大數(shù)據(jù)情境下, 卻呈現(xiàn)出了諸多缺陷, 例如傳統(tǒng)數(shù)據(jù)收集方法 無法實(shí)現(xiàn)大規(guī)模 (甚至是總體 )數(shù)據(jù)的收集,傳統(tǒng)統(tǒng)計(jì)方法和分析軟件 無法處理大規(guī)模數(shù)據(jù),等等。于是,在將傳統(tǒng)統(tǒng)計(jì)學(xué)方法應(yīng)用于最新 的大數(shù)據(jù)情境和問題之前, 需要首先明確大數(shù)據(jù)所要求的處理方法與 傳統(tǒng)的統(tǒng)計(jì)學(xué)處理方法存在哪些關(guān)聯(lián)和區(qū)別, 然后才能夠決定是否可 以應(yīng)用既有統(tǒng)計(jì)學(xué)理論和方法來處理某些大數(shù)據(jù)問題。1 大數(shù)據(jù)的界定根據(jù)一位美國學(xué)者的研究,大數(shù)據(jù)可以被定義為: it means data that 's too ,big too

3、 fast, or too hard for existing tools to process。也 就是說,該學(xué)者認(rèn)為:在關(guān)于大數(shù)據(jù)的所有定義中,他傾向于將之定 義為那類“太大”、“太快”,或現(xiàn)存工具 “太難”處理的數(shù)據(jù)。一般而言, 大數(shù)據(jù)的特征可以概括為四個(gè) V:一是量大 (Volume);二是流動性大 (Velocity),典型的如微博 ;三是種類多 (Variety),多樣性,有結(jié)構(gòu)化數(shù) 據(jù),也有半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù) ;四是價(jià)值大 (Value),這些大規(guī)模數(shù) 據(jù)可以為持有企業(yè)或者組織創(chuàng)造出巨大的商業(yè)或社會價(jià)值。Victor 在其最新著作大數(shù)據(jù)時(shí)代 生活、工作與思維的大變 革中指出,

4、大數(shù)據(jù)時(shí)代,思維方式要發(fā)生 3 個(gè)變革:第一,要分析 與事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量數(shù)據(jù)樣本;要總體,不要樣本。第二,要樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。第 三,不再探求難以捉摸的因果關(guān)系,應(yīng)該更加注重相關(guān)關(guān)系。這些變 革反映出了大數(shù)據(jù)處理方式與傳統(tǒng)統(tǒng)計(jì)學(xué)分析方法的很多關(guān)聯(lián)以及 主要不同。因此,下面我們分別針對兩者的聯(lián)系和區(qū)別進(jìn)行討論。2大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法的聯(lián)系從 18 世紀(jì)中葉至今,統(tǒng)計(jì)學(xué)已經(jīng)經(jīng)歷了兩百多年的發(fā)展歷程, 不論是基礎(chǔ)理論還是社會應(yīng)用都極其堅(jiān)實(shí)而豐富。 大數(shù)據(jù)作為一種新 興的事物規(guī)律認(rèn)知和挖掘思維, 也將會對人類的價(jià)值體系、 知識體系 和生活方式產(chǎn)生重要影響

5、, 甚至引發(fā)重大改變。 作為兩種認(rèn)知世界和 事物規(guī)律的基本方法,它們在以下兩個(gè)方面存在緊密關(guān)聯(lián)。(1) 挖掘事物規(guī)律的基本思想一致。統(tǒng)計(jì)學(xué) (statistics)探索事物規(guī) 律的基本方法是: 通過利用概率論建立數(shù)學(xué)模型, 收集所觀察系統(tǒng)的 數(shù)據(jù),進(jìn)行量化分析和總結(jié),做出推斷和預(yù)測,為相關(guān)決策提供依據(jù) 和參考。對于大數(shù)據(jù),維克托指出,大數(shù)據(jù)思維的來臨使人類第一次 有機(jī)會和條件, 在非常多的領(lǐng)域和非常深入的層次獲得和使用全面數(shù) 據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù), 深入探索現(xiàn)實(shí)世界的規(guī)律,獲取過去不可 能獲取的知識。 通過這兩個(gè)定義可以看出, 不論是傳統(tǒng)的統(tǒng)計(jì)學(xué)方法 還是新興的大數(shù)據(jù)分析方法, 都是以數(shù)據(jù)為

6、基礎(chǔ)來揭示事物特征以及 發(fā)展趨勢的。(2) 均采用量化分析方式。 大數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)化, 也就是一 種把各種各樣現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程。 不論是傳統(tǒng) 統(tǒng)計(jì)學(xué)中所應(yīng)用的數(shù)據(jù) (定性和定量數(shù)據(jù) ),還是大數(shù)據(jù)時(shí)代即將被轉(zhuǎn) 化和采用其他形式數(shù)據(jù) (如文字、圖像等 ),最終都是通過量化分析方 法來揭示數(shù)據(jù)中所蘊(yùn)含的事物特征與發(fā)展趨勢。3大數(shù)據(jù)與統(tǒng)計(jì)學(xué)分析方法的區(qū)別(1)基礎(chǔ)數(shù)據(jù)不同。在大數(shù)據(jù)時(shí)代, 我們可以獲得和分析更多的數(shù) 據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù), 而不再依 賴于隨機(jī)抽樣。這意味著, 與傳統(tǒng)統(tǒng)計(jì)學(xué)數(shù)據(jù)相比,大數(shù)據(jù)不僅規(guī)模 大,變化速度快,而且數(shù)據(jù)來源、類

7、型、收集方法都有根本性變化。 在數(shù)據(jù)來源方面,在大數(shù)據(jù)背景下,我們需要的紛繁多樣的 數(shù)據(jù)可以分布于全球多個(gè)服務(wù)器上, 因此我們可以獲得體量巨大的數(shù) 據(jù),甚至是關(guān)于總體的所有數(shù)據(jù)。 而統(tǒng)計(jì)學(xué)中的數(shù)據(jù)多是經(jīng)由抽樣調(diào) 查而獲得的局部數(shù)據(jù),因此我們能夠掌握的事 “小數(shù)據(jù)量 ”。這種情況 下,因?yàn)樾枰治龅臄?shù)據(jù)很少, 所以必須盡可能精確的量化我們的數(shù) 據(jù)。綜上,大數(shù)據(jù)情況下,分析人員可以擁有大量數(shù)據(jù),因而不需要 對一個(gè)現(xiàn)象刨根問底,只需要掌握事物大體的發(fā)展方向即可;然而傳統(tǒng)的小數(shù)據(jù)情況下則需要十分注意所獲得數(shù)據(jù)的精確度。 在數(shù)據(jù)類型與收集方面,在既往模式下,數(shù)據(jù)的收集是耗時(shí) 且耗力的,大數(shù)據(jù)時(shí)代所提出的

8、 “數(shù)據(jù)化 ”方式,將使得對所需數(shù)據(jù)的 收集變得更加容易和高效。 除了傳統(tǒng)的數(shù)字化數(shù)據(jù), 就連圖像、方位、 文本的字、詞、句、段落等等,世間萬物都可以成為大數(shù)據(jù)范疇下的 數(shù)據(jù)。屆時(shí),一切自然或者社會現(xiàn)象的事件都可以被轉(zhuǎn)化為數(shù)據(jù),我 們會意識到本質(zhì)上整個(gè)世界都是由信息構(gòu)成的。(2)分析范式不同。在小數(shù)據(jù)時(shí)代, 我們往往是假想世界是如何運(yùn) 行的,然后通過收集和分析數(shù)據(jù)來驗(yàn)證這種假想。也就是說,傳統(tǒng)統(tǒng)計(jì)實(shí)證分析的基本范式為: (基于文獻(xiàn) )提出理論假設(shè) -收集相關(guān)數(shù)據(jù)并 進(jìn)行統(tǒng)計(jì)分析 -驗(yàn)證理論假設(shè)的真?zhèn)巍H欢?,在不久的將來,我們?會在大數(shù)據(jù)背景下探索世界, 不再受限制于傳統(tǒng)的思維模式和特定領(lǐng) 域

9、里隱含的固有偏見, 我們對事物的研究始于數(shù)據(jù), 并可以發(fā)現(xiàn)以前 不曾發(fā)現(xiàn)的聯(lián)系。換言之, 大數(shù)據(jù)背景下,探索事物規(guī)律的范式可以 概括為:數(shù)據(jù)觀察與收集 數(shù)據(jù)分析 描述事物特征 / 關(guān)系。(3) 數(shù)據(jù)分析方法不同。 傳統(tǒng)統(tǒng)計(jì)學(xué)主要是基于樣本的 “推斷分析 ”, 而大數(shù)據(jù)情境下則是基于總體數(shù)據(jù)的 “實(shí)際分析 ”,即直接得出總體特 征,并可以分析出這些特征出現(xiàn)的概率。(4) 分析視角不同。傳統(tǒng)的實(shí)證統(tǒng)計(jì)意在弄清事物之間的內(nèi)在聯(lián)系 和作用機(jī)制, 但大數(shù)據(jù)思維模式認(rèn)為因果關(guān)系是沒有辦法驗(yàn)證的, 因 此需要關(guān)注的是事物之間的相關(guān)關(guān)系。大數(shù)據(jù)并沒有改變因果關(guān)系, 但使因果關(guān)系變得意義不大, 因而大數(shù)據(jù)的思維是告訴我們 “是什么 ” 而不是“為什么”。換言之,大數(shù)據(jù)思維認(rèn)為相關(guān)關(guān)系盡管不能準(zhǔn)確地 告知我們某事件為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生, 因此相關(guān)關(guān)系的發(fā)現(xiàn)就可以產(chǎn)生經(jīng)濟(jì)和社會價(jià)值了。4結(jié)語綜上,相對于傳統(tǒng)而言,大數(shù)據(jù)思維主要包括三個(gè)重大轉(zhuǎn)變。首 先,要分析與某事物相關(guān)的所有數(shù)據(jù), 而不是依靠分析捎來能夠的數(shù) 據(jù)樣本 ;其次,研究人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論