大數(shù)據(jù)與統(tǒng)計學(xué)_第1頁
大數(shù)據(jù)與統(tǒng)計學(xué)_第2頁
大數(shù)據(jù)與統(tǒng)計學(xué)_第3頁
大數(shù)據(jù)與統(tǒng)計學(xué)_第4頁
大數(shù)據(jù)與統(tǒng)計學(xué)_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與統(tǒng)計學(xué)第一頁,編輯于星期六:十六點八分。引言

作為歸納分析的科學(xué),統(tǒng)計學(xué)可以從亞里士多德的“城邦政情”算起,但作為一門數(shù)據(jù)分析的科學(xué)則應(yīng)從配第的《政治算術(shù)》算起。

300多年來,統(tǒng)計學(xué)圍繞如何收集、整理和分析數(shù)據(jù)這一主線而發(fā)展,構(gòu)建起了龐大、多元、融合的應(yīng)用方法體系,幫助解決了各個領(lǐng)域大量復(fù)雜的現(xiàn)實問題。統(tǒng)計學(xué)的發(fā)展,是根據(jù)數(shù)據(jù)的型態(tài)和問題的本質(zhì)來改變的,不是因為我們會做他背后的數(shù)學(xué)而發(fā)展的。不要因為(統(tǒng)計的)問題困難而去做它;也不要因為它難而不做。(賀吉士J.L.Hodges,1922-2000)

R.C.Rao:統(tǒng)計的分析形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。大數(shù)據(jù)時代的來臨,迫使統(tǒng)計學(xué)站在一個新的起點上。第二頁,編輯于星期六:十六點八分。

1998年,《科學(xué)》雜志刊登的一篇介紹計算機軟件HiQ的文章《大數(shù)據(jù)的處理程序》中第一次正式使用了大數(shù)據(jù)(bigdata)一詞。2008年9月《自然》雜志出版“bigdata”??W罱鼛啄?,關(guān)于大數(shù)據(jù)的文獻(xiàn)迅速增加,但絕大多數(shù)出于計算機領(lǐng)域的學(xué)者之手,較少有基于統(tǒng)計學(xué)視角的深度學(xué)術(shù)討論。第三頁,編輯于星期六:十六點八分。一、對大數(shù)據(jù)的認(rèn)識

最早與大數(shù)據(jù)概念有關(guān)的學(xué)科:天文學(xué)、氣象學(xué)和基因?qū)W,一開始就依賴于海量數(shù)據(jù)分析方法。但從現(xiàn)代意義上看,大數(shù)據(jù)可以說是計算機與互聯(lián)網(wǎng)相結(jié)合的產(chǎn)物,前者實現(xiàn)了數(shù)據(jù)的數(shù)字化,后者實現(xiàn)了數(shù)據(jù)的網(wǎng)絡(luò)化。大數(shù)據(jù)的本意是,所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。

4V特點:Volume、Velocity、Variety、Value。第四頁,編輯于星期六:十六點八分。大數(shù)據(jù)自古有之?人類曾經(jīng)開展過的人口普查、產(chǎn)業(yè)普查等數(shù)據(jù),是否屬于大數(shù)據(jù)?在計算機技術(shù)與網(wǎng)絡(luò)化未得到充分發(fā)展以前,人們自然難以聯(lián)想出大數(shù)據(jù)這個概念。從統(tǒng)計學(xué)的角度看,大數(shù)據(jù)不是主要基于人工設(shè)計而獲得有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是主要基于現(xiàn)代信息技術(shù)與工具自動記錄、儲存、能連續(xù)擴(kuò)充、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能力的一切類型的數(shù)據(jù),最大特征是數(shù)字化基礎(chǔ)上的數(shù)據(jù)化。一定程度上看,大數(shù)據(jù)并不是一個嚴(yán)格的概念,而是一個比喻式的稱呼。第五頁,編輯于星期六:十六點八分。(一)如何理解大數(shù)據(jù)的“大”一是“全體”的意思,即大數(shù)據(jù)就是全體數(shù)據(jù),并且數(shù)據(jù)量必須達(dá)到一定的規(guī)模。二是“可擴(kuò)充”的意思,即大數(shù)據(jù)就是可以不斷擴(kuò)充容量的數(shù)據(jù),任何數(shù)據(jù)一旦發(fā)生就可以被記錄、被吸收。三是“有待挖掘”的意思,即大數(shù)據(jù)就是有待挖掘的數(shù)據(jù)。大數(shù)據(jù)可能包含著豐富的、具有大價值的信息,但被超大量的數(shù)據(jù)所掩蓋、所分散而導(dǎo)致價值密度低,只有挖掘才能發(fā)現(xiàn)。第六頁,編輯于星期六:十六點八分。(二)如何理解大數(shù)據(jù)的“數(shù)據(jù)”歷史告訴我們,數(shù)據(jù)的含義是隨著人類認(rèn)識社會與自然現(xiàn)象的視野的變化、以及認(rèn)識能力與技術(shù)水平的提升而改變的,經(jīng)歷了從傳統(tǒng)運算型數(shù)據(jù)到現(xiàn)代數(shù)字化數(shù)據(jù)的變化過程。把一切信息都看成數(shù)據(jù)是當(dāng)今社會的一個特征,是一個自然進(jìn)化的結(jié)果。大數(shù)據(jù)中的數(shù)據(jù)其實就是一切可以通過數(shù)字化手段記錄的信息。大數(shù)據(jù)除了結(jié)構(gòu)型數(shù)據(jù)與非結(jié)構(gòu)型數(shù)據(jù)的分類外,還可作以下分類:第七頁,編輯于星期六:十六點八分。如果從大數(shù)據(jù)產(chǎn)生的途徑或渠道來看,大數(shù)據(jù)可以分為社交網(wǎng)絡(luò)數(shù)據(jù)、人機交換數(shù)據(jù)和感應(yīng)數(shù)據(jù)(機器數(shù)據(jù))。如果從功能上看,大數(shù)據(jù)可以分為交易型數(shù)據(jù)、流程型數(shù)據(jù)和交互型數(shù)據(jù)。需要特別指出的是,網(wǎng)絡(luò)數(shù)據(jù)在大數(shù)據(jù)中占有特殊的份量,又可分為自媒體數(shù)據(jù)、日志數(shù)據(jù)和富媒體數(shù)據(jù)三類。從時間維度上,還可以把網(wǎng)絡(luò)大數(shù)據(jù)分為以用戶數(shù)據(jù)、日志數(shù)據(jù)為代表的歷史數(shù)據(jù),以及以視頻監(jiān)控數(shù)據(jù)和流媒體數(shù)據(jù)等為代表的流式數(shù)據(jù),其中歷史數(shù)據(jù)蘊含著大量有價值的信息?;跀?shù)據(jù)的分類,儲存數(shù)據(jù)與管理的方式——數(shù)據(jù)庫也有兩種類型:關(guān)系型數(shù)據(jù)庫(SQL接口)和非關(guān)系型數(shù)據(jù)庫(NOSQL接口)。第八頁,編輯于星期六:十六點八分。(三)大數(shù)據(jù)是不是好數(shù)據(jù)?首先,大數(shù)據(jù)不會自動產(chǎn)生好的分析結(jié)果,不會自動把隱藏其中的秘密呈現(xiàn)出來,如果數(shù)據(jù)不完整、取舍不當(dāng)或遭受破壞,那么就會產(chǎn)生錯誤的結(jié)論。其次,大數(shù)據(jù)是動態(tài)的,具有階段性特征,同樣的關(guān)聯(lián)詞在不同時段可能具有不同的含義,圍繞關(guān)聯(lián)詞的話題會隨著時間的推移而會發(fā)生某些偏離,從而導(dǎo)致有偏的結(jié)論。第三,對于我們所關(guān)心的研究主題,可能會受到大量沒有實際意義、實際內(nèi)容甚至虛假信息的干擾,讓我們面對一堆數(shù)據(jù)無從下手,大數(shù)據(jù)變成了大迷惑,甚至變成了大錯誤。第四,大數(shù)據(jù)中有很多小數(shù)據(jù)問題,這些問題并不會隨著數(shù)據(jù)的增加而消失,反而可能更嚴(yán)重。第九頁,編輯于星期六:十六點八分。二、數(shù)據(jù)的變化與統(tǒng)計分析方法的發(fā)展(一)數(shù)據(jù)的變化回顧歷史可以發(fā)現(xiàn),數(shù)據(jù)的變化與統(tǒng)計分析方法的發(fā)展呈現(xiàn)高度吻合的關(guān)系。有一種觀點認(rèn)為,數(shù)據(jù)的變化過程可以分為三大階段:數(shù)據(jù)的產(chǎn)生、科學(xué)數(shù)據(jù)的形成和大數(shù)據(jù)的誕生。第十頁,編輯于星期六:十六點八分。數(shù)據(jù)的產(chǎn)生:

數(shù)的產(chǎn)生基于以下三個要素,一是數(shù),二是量,三是計量單位。數(shù)起源于人類祖先對“多”或“少”的認(rèn)識,阿拉伯?dāng)?shù)字的產(chǎn)生實現(xiàn)了數(shù)的抽象性和可計算性。數(shù)的概念及數(shù)的基本邏輯關(guān)系形成以后,人們將數(shù)的神秘性作為探尋與研究的目標(biāo)之一,不斷建立起更加完備的、抽象的數(shù)的體系。以數(shù)為基礎(chǔ),測量、計量和比較事物就有了精確表達(dá)的語言,這在實踐中就表現(xiàn)為量,它是客觀事物所具有的能體現(xiàn)差異程度的一種屬性,是事物可以用數(shù)來表現(xiàn)的規(guī)定性,包括量的規(guī)模、量的關(guān)系、量的變化、量的界限與量的規(guī)律。在以數(shù)來表示事物的特征并采用了科學(xué)的計量單位后,就產(chǎn)生了真正意義上的數(shù)據(jù)——有根據(jù)的數(shù)。第十一頁,編輯于星期六:十六點八分??茖W(xué)數(shù)據(jù)的形成:

科學(xué)數(shù)據(jù)的形成得益于對數(shù)據(jù)的科學(xué)研究,是在科學(xué)研究過程中基于科學(xué)設(shè)計、通過有針對的觀察和測量獲得的、用以認(rèn)知自然現(xiàn)象和社會現(xiàn)象的變化規(guī)律或用以驗證已有理論假設(shè)的數(shù)據(jù)。哲學(xué)家培根所倡導(dǎo)的“實驗觀察-歸納分析”的方法思想和笛卡爾所倡導(dǎo)的數(shù)理演繹方法,將數(shù)據(jù)的使用提高到了科學(xué)方法論的地位,使數(shù)據(jù)成為了科學(xué)研究的基本要素,并使如何科學(xué)收集數(shù)據(jù)成為了研究課題。近代科學(xué)將數(shù)據(jù)融于自然科學(xué)研究范式的實踐,不僅提高了人類認(rèn)識事物的精確性,更為重要的是其逐步形成的數(shù)學(xué)化思維與方程表達(dá)式解決了不同物理量之間的數(shù)值關(guān)系表達(dá)問題,從而為開展相關(guān)事物之間的定量研究提供了途徑。第十二頁,編輯于星期六:十六點八分。

17世紀(jì)的自然哲學(xué)家開普勒對第谷大量的天文觀察數(shù)據(jù)的使用,推導(dǎo)出了行星運動三大定律;伽利略對地球表面物體運動的數(shù)據(jù)測量建立了自由落體運動規(guī)律;牛頓利用大量的天文觀察數(shù)據(jù)和實驗測量數(shù)據(jù),創(chuàng)立了牛頓力學(xué)體系??茖W(xué)數(shù)據(jù)因其所具有的共享性與精確性等特點而成為了科學(xué)研究的普適語言。在自然科學(xué)對數(shù)據(jù)進(jìn)行科學(xué)研究的同時,社會科學(xué)領(lǐng)域也對數(shù)據(jù)進(jìn)行了科學(xué)范式的研究,并發(fā)現(xiàn)了例如平均人、恩格爾系數(shù)、基尼系數(shù)等定律。就統(tǒng)計學(xué)而言,它的產(chǎn)生與發(fā)展過程就是對科學(xué)數(shù)據(jù)進(jìn)行研究的過程,每一種統(tǒng)計分析方法都是在對科學(xué)數(shù)據(jù)進(jìn)行科學(xué)研究的基礎(chǔ)上形成的。第十三頁,編輯于星期六:十六點八分。大數(shù)據(jù)的誕生:

20世紀(jì)中期開始的生物基因測序研究所積累的大量數(shù)據(jù),面臨著如何理解和處理的新挑戰(zhàn)。同樣的問題逐漸蔓延到各個學(xué)科領(lǐng)域,包括天文學(xué)研究,基本粒子研究,氣象學(xué)研究和社會學(xué)研究等。

1966年,國際科技數(shù)據(jù)委員會(CODATA)成立,旨在促進(jìn)全球科技數(shù)據(jù)的共享。面對海量數(shù)據(jù)、快速增加的數(shù)據(jù),人們開始重新審視和定義數(shù)據(jù)。如果說計算機技術(shù)等的快速發(fā)展,是大數(shù)據(jù)產(chǎn)生的基礎(chǔ)因素,那么人類對數(shù)據(jù)理念的深化、對數(shù)據(jù)多樣性的追求、對信息的永不滿足,是大數(shù)據(jù)產(chǎn)生的內(nèi)在因素。以非結(jié)構(gòu)化數(shù)據(jù)為主體的大數(shù)據(jù),正在改變著一切,而以大數(shù)據(jù)為研究對象,通過挖掘、提取等手段探尋現(xiàn)象內(nèi)在規(guī)律的學(xué)科——數(shù)據(jù)科學(xué)也應(yīng)運而生。第十四頁,編輯于星期六:十六點八分。

總結(jié):數(shù)據(jù)產(chǎn)生之初,其根本的功能就是體現(xiàn)事物或現(xiàn)象的量的大小或多少,便于計數(shù)與比較,數(shù)據(jù)大多自然獲得、被動利用;科學(xué)數(shù)據(jù)以研究與管理為目的,一般是主動獲得、主動利用;而大數(shù)據(jù)的特征則是豐富的數(shù)據(jù)資源與主動獲得數(shù)據(jù)相結(jié)合,數(shù)據(jù)類型多樣化。當(dāng)然,數(shù)據(jù)的演變是一個漸進(jìn)的過程,它不是簡單的一種形式代替另一種形式,而是一個由簡單到復(fù)雜的各種形式相互包容、不斷豐富的過程。第十五頁,編輯于星期六:十六點八分。(二)統(tǒng)計分析方法的發(fā)展如果說數(shù)據(jù)是表現(xiàn)事物特征的精確語言、認(rèn)知世界的重要工具、治理國家的必備依據(jù)和科學(xué)研究的必備條件,那么數(shù)據(jù)分析則是讓數(shù)據(jù)充分說話、最大限度發(fā)揮功能、有效滿足不同需要的根本要求。在科學(xué)數(shù)據(jù)研究基礎(chǔ)上形成的具有通用性質(zhì)的方法就是統(tǒng)計方法??v觀統(tǒng)計學(xué)發(fā)展史,統(tǒng)計數(shù)據(jù)大體上經(jīng)歷了這樣一個過程:只能收集到少量的數(shù)據(jù)—盡量多地收集數(shù)據(jù)—科學(xué)利用樣本數(shù)據(jù)—綜合利用各類數(shù)據(jù)—選擇使用大數(shù)據(jù),而統(tǒng)計分析經(jīng)歷了不同階段,相應(yīng)地產(chǎn)生了大量觀察法、統(tǒng)計分組法、綜合指標(biāo)法、歸納推斷法、模型方程法和數(shù)據(jù)挖掘法等分析方法,并且借助計算機及其軟件的程度也越來越深。第十六頁,編輯于星期六:十六點八分。配第的《政治算術(shù)》和格朗特的《關(guān)于死亡表的自然觀察和政治觀察》,開啟了社會經(jīng)濟(jì)現(xiàn)象數(shù)據(jù)分析的先河。但他們所能運用的數(shù)據(jù)資源非常有限,只能算是最初級形態(tài)的數(shù)據(jù)而非真正意義上的科學(xué)數(shù)據(jù)。他們的分析方法現(xiàn)在看來十分簡單,但在當(dāng)時非常了不起,其數(shù)據(jù)加方法的思想影響至今,特別是他們所倡導(dǎo)的大量觀察法、統(tǒng)計分組法成為了統(tǒng)計學(xué)最基本的研究方法。特別是,格朗特通過不完整但足夠量的登記數(shù)據(jù)初步發(fā)現(xiàn)了大數(shù)法則,提出了數(shù)據(jù)簡約的概念,通過推算方法初創(chuàng)了生命表,探討了數(shù)據(jù)的可信性問題,并提出了人口數(shù)的推算公式。沒有他們這種將數(shù)據(jù)與方法相結(jié)合的“形”,就不可能產(chǎn)生統(tǒng)計的“學(xué)”。第十七頁,編輯于星期六:十六點八分。隨著數(shù)據(jù)分析意義的顯現(xiàn),以及受到大量觀察法的影響,人們開始盡可能多地收集數(shù)據(jù),包括登記數(shù)據(jù)、普查數(shù)據(jù)、測量數(shù)據(jù)、實驗數(shù)據(jù)和觀察數(shù)據(jù)。統(tǒng)計學(xué)也進(jìn)入到了科學(xué)數(shù)據(jù)研究階段。社會經(jīng)濟(jì)領(lǐng)域的數(shù)據(jù)一般都是登記數(shù)據(jù)與調(diào)查數(shù)據(jù),為了科學(xué)表明數(shù)據(jù)的意義,實現(xiàn)數(shù)據(jù)表現(xiàn)與現(xiàn)象內(nèi)涵的統(tǒng)一,就產(chǎn)生了用統(tǒng)計指標(biāo)來表現(xiàn)數(shù)據(jù)特征的方法,即統(tǒng)計指標(biāo)法。隨著分工細(xì)化、記錄數(shù)據(jù)增加,在社會經(jīng)濟(jì)領(lǐng)域出現(xiàn)了成組、成群相關(guān)的數(shù)據(jù),以及專門調(diào)查獲得的數(shù)據(jù)(例如人口調(diào)查、產(chǎn)業(yè)調(diào)查等),逐漸產(chǎn)生了各種運用統(tǒng)計指標(biāo)體系進(jìn)行綜合分析的方法,例如綜合評價法、主成分分析法、聚類評判法等。第十八頁,編輯于星期六:十六點八分。

為了從數(shù)量上弄清楚經(jīng)濟(jì)運行過程中各部門、各環(huán)節(jié)之間的關(guān)系,人們研究發(fā)明了投入產(chǎn)出分析法。為了科學(xué)核算經(jīng)濟(jì)活動成果,掌握經(jīng)濟(jì)總產(chǎn)出的構(gòu)成與去向,在經(jīng)濟(jì)學(xué)原理和科學(xué)指標(biāo)內(nèi)涵的基礎(chǔ)上,產(chǎn)生和發(fā)展了國民經(jīng)濟(jì)核算法。為了掌握物價的綜合變動,反映復(fù)雜現(xiàn)象的發(fā)展方向,產(chǎn)生了綜合指數(shù)分析法。為了掌握社會經(jīng)濟(jì)現(xiàn)象變動規(guī)律、預(yù)測未來發(fā)展趨勢,產(chǎn)生了時間序列分析法。第十九頁,編輯于星期六:十六點八分。基于實驗數(shù)據(jù),統(tǒng)計學(xué)產(chǎn)生了概率論、分布理論、回歸分析方法、小樣本分布理論和假設(shè)檢驗方法。眾所周知,14世紀(jì)歐洲以骰子為工具的賭博非常盛行,圍繞骰子可能出現(xiàn)的情況和賭本分配問題,再加上取球、拋擲硬幣等實驗,帕斯卡、費馬、惠更斯、伯努利、狄莫弗等人共同研究建立了概率論,發(fā)明了大數(shù)定律,發(fā)現(xiàn)了二項分布與超幾何分布,并為正態(tài)分布理論的建立奠定了基礎(chǔ)。隨著概率論被引入到統(tǒng)計學(xué)中,幫助解決了人口推算、壽命保險、生命表編制、產(chǎn)品質(zhì)量控制等諸多比賭博更為復(fù)雜的現(xiàn)實問題。第二十頁,編輯于星期六:十六點八分。

同樣,高爾頓通過對遺傳學(xué)實驗數(shù)據(jù)(甜豌豆種植的實驗數(shù)據(jù))以及抽樣觀察數(shù)據(jù)(親子身高的觀察數(shù)據(jù)),發(fā)現(xiàn)了回歸現(xiàn)象,發(fā)明了在各個領(lǐng)域得到廣泛應(yīng)用的回歸分析法并提出了相關(guān)系數(shù)的初步概念(相關(guān)指數(shù)),奠定了模型方程法的基礎(chǔ),極大地提高了人們開展統(tǒng)計分析的能力。戈賽特則利用釀酒公司僅有的小樣本實驗數(shù)據(jù),發(fā)明了著名的小樣本“t”分布理論,推進(jìn)了推斷統(tǒng)計方法的發(fā)展。費歇爾基于人為的女士品茶的實驗數(shù)據(jù)和達(dá)爾文關(guān)于施肥方法影響作物高度的實驗數(shù)據(jù)的研究,構(gòu)建了假設(shè)檢驗的基本方法并得到了廣泛的應(yīng)用。第二十一頁,編輯于星期六:十六點八分?;谟^察數(shù)據(jù),統(tǒng)計學(xué)產(chǎn)生了誤差正態(tài)分布和最小平方法。對天文觀察數(shù)據(jù)研究而形成的誤差正態(tài)分布和最小平方法在統(tǒng)計學(xué)中具有極重要的地位。開普勒的觀察數(shù)據(jù),經(jīng)過伽利略、辛普森、拉普拉斯等人的探求,最終由高斯導(dǎo)出了著名的誤差正態(tài)分布。凱特勒等統(tǒng)計學(xué)家及時地將拉普拉斯的中心極限定理與高斯的誤差正態(tài)理論運用于社會數(shù)據(jù)的研究,使正態(tài)分布的應(yīng)用盛行一時。在誤差理論基礎(chǔ)上,高斯、勒讓德等人發(fā)現(xiàn)了最小平方法,并迅速從天文學(xué)和測地學(xué)的數(shù)據(jù)研究應(yīng)用擴(kuò)展到其他領(lǐng)域,尤其是與回歸分析相結(jié)合后成為了統(tǒng)計分析最常用的方法,至今仍為主流。皮爾遜對生物觀察數(shù)據(jù)的研究,形成了皮爾遜分布族,提出了參數(shù)估計矩法,發(fā)展了相關(guān)分析法。第二十二頁,編輯于星期六:十六點八分。數(shù)據(jù)的獲得需要投入,并且有些數(shù)據(jù)難以得到全體數(shù)據(jù)。人們自然想到:能否通過總體中部分個體的數(shù)據(jù)來達(dá)到認(rèn)識總體特征、繼而進(jìn)行統(tǒng)計分析的目的?隨著概率論、中心極限定理與正態(tài)分布理論的產(chǎn)生與發(fā)展,這種愿望成為了可能。經(jīng)過拉普拉斯、凱爾、馬哈拉諾比斯、鮑萊、費歇爾、尼曼等人的抽樣實踐與理論探求,隨機抽樣理論在20世紀(jì)得到了迅速發(fā)展,并產(chǎn)生了多種具體的抽樣方式。基于樣本數(shù)據(jù)的歸納推斷方法—包括參數(shù)估計與假設(shè)檢驗在實踐中得到了廣泛的應(yīng)用,抽樣調(diào)查數(shù)據(jù)一度成為了統(tǒng)計分析的主要數(shù)據(jù)來源,如何用盡量小的樣本得到盡量精確的推斷成為了抽樣研究的核心問題。用抽樣法獲取數(shù)據(jù)已得到了100年的充分肯定。第二十三頁,編輯于星期六:十六點八分。如今,人類邁入了智能化的時代,數(shù)據(jù)的產(chǎn)生有了新的方式——電子化、數(shù)字化、多樣化、可保存、可擴(kuò)充、可兼容的大數(shù)據(jù)。這是一種基于科學(xué)技術(shù)而產(chǎn)生的、既具有科學(xué)數(shù)據(jù)的特征又超越于科學(xué)數(shù)據(jù)的、完全不一樣的數(shù)據(jù)。

2007年,已故圖靈獎獲得者吉姆·

格雷(JimGray)在題為《第四科學(xué)研究范式:密集型數(shù)據(jù)挖掘》的演講中提到,科學(xué)經(jīng)歷幾千年的歷史演變形成了四個關(guān)鍵性的科學(xué)范式,第四個就是近幾年出現(xiàn)的數(shù)據(jù)挖掘或eScience范式。顯然,從第二個研究范式開始都依賴于數(shù)據(jù)的研究。新的研究范式需要新的數(shù)據(jù)研究方法,這對統(tǒng)計學(xué)來說既是機遇又是挑戰(zhàn)。第二十四頁,編輯于星期六:十六點八分。

總結(jié):之前,我們手中的數(shù)據(jù)量相對不足,對數(shù)據(jù)的研究是“由薄變厚”,把“小”數(shù)據(jù)變“大”,而在“數(shù)據(jù)大爆炸”時代,我們要做的是把數(shù)據(jù)“由厚變薄”,去冗分類、去粗存精。大數(shù)據(jù)時代,將呈現(xiàn)出“一方面數(shù)據(jù)很豐富、但另一方面信息又很匱乏”的現(xiàn)象,迫使人們對數(shù)據(jù)分析產(chǎn)生強烈的需求。所以,大數(shù)據(jù)分析實際上可以理解為兩個過程,一是把數(shù)據(jù)由大變小的過程,比喻為物理過程;二是從處理過的數(shù)據(jù)中提取價值的過程,比喻為化學(xué)過程。第二十五頁,編輯于星期六:十六點八分。三、統(tǒng)計學(xué)的新發(fā)展——大數(shù)據(jù)分析(一)大數(shù)據(jù)分析是數(shù)據(jù)科學(xué)賦予統(tǒng)計學(xué)的新任務(wù)目前,人們對大數(shù)據(jù)的研究主要是將其作為一種研究方法或一種新的知識發(fā)現(xiàn)工具,還沒有把數(shù)據(jù)本身作為主要的研究目標(biāo)。大數(shù)據(jù)分析的目的就是要通過對歷史數(shù)據(jù)的分析和挖掘,科學(xué)總結(jié)與發(fā)現(xiàn)其中蘊藏的規(guī)律和模式,并結(jié)合源源不斷的動態(tài)數(shù)據(jù)去預(yù)測事物未來的發(fā)展趨勢。如果說從商業(yè)的角度看,大數(shù)據(jù)要求我們改變數(shù)據(jù)思維、重視數(shù)據(jù)資產(chǎn)、實現(xiàn)數(shù)據(jù)價值(數(shù)據(jù)變現(xiàn)),那么統(tǒng)計學(xué)的任務(wù)就是通過大數(shù)據(jù)分析去幫助實現(xiàn)這個目的。第二十六頁,編輯于星期六:十六點八分。對于統(tǒng)計學(xué)來說,開展大數(shù)據(jù)分析就是積極投身于數(shù)據(jù)科學(xué)研究之中。數(shù)據(jù)科學(xué)(datascience或dataology)一詞早在1960年就由彼得·諾爾提出。1996年,在日本東京召開的題為“數(shù)據(jù)科學(xué),分類和相關(guān)方法”的分類國際聯(lián)合會上,第一次將數(shù)據(jù)科學(xué)作為會議的主題詞。2001年,美國統(tǒng)計學(xué)教授威廉.S.克利夫蘭首次將數(shù)據(jù)科學(xué)作為一門獨立的學(xué)科,認(rèn)為數(shù)據(jù)科學(xué)是統(tǒng)計學(xué)領(lǐng)域擴(kuò)展到與以數(shù)據(jù)作為先進(jìn)計算對象相結(jié)合的部分,并建立了數(shù)據(jù)科學(xué)的6個技術(shù)領(lǐng)域。2001年以后,國際科技數(shù)據(jù)委員會,以及有關(guān)學(xué)者創(chuàng)辦的了關(guān)于數(shù)據(jù)科學(xué)的刊物,發(fā)表以統(tǒng)計應(yīng)用方法研究所有與數(shù)據(jù)有關(guān)的成果。2012年由springer出版集團(tuán)創(chuàng)辦了“EPJDataScience”。第二十七頁,編輯于星期六:十六點八分。

可以預(yù)見,數(shù)據(jù)科學(xué)的產(chǎn)生將催生一批新的研究方向,如地理信息科學(xué)、生物信息科學(xué)、生命組學(xué)等。數(shù)據(jù)科學(xué)的重點是數(shù)據(jù)處理技術(shù)問題還是數(shù)據(jù)分析問題?開展大數(shù)據(jù)分析、發(fā)展數(shù)據(jù)科學(xué)并不是要否定原來的統(tǒng)計分析方法,而是要補充、完善和創(chuàng)新統(tǒng)計分析方法。事實上,統(tǒng)計學(xué)業(yè)已形成的一些思想與方法在大數(shù)據(jù)分析中仍有用武之地,只是要求統(tǒng)計學(xué)者具有更加廣闊的視野,更加重視統(tǒng)計分布背后的知識和規(guī)律。第二十八頁,編輯于星期六:十六點八分。(二)大數(shù)據(jù)分析面臨的挑戰(zhàn)對于習(xí)慣于結(jié)構(gòu)化數(shù)據(jù)研究的統(tǒng)計學(xué)來說,大數(shù)據(jù)分析顯然是一種嶄新的挑戰(zhàn)。挑戰(zhàn)來自于大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性,其中復(fù)雜性最為根本。復(fù)雜性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的根本所在,它主要表現(xiàn)為類型復(fù)雜性、結(jié)構(gòu)復(fù)雜性和內(nèi)在模式復(fù)雜性三個方面,從而使得大數(shù)據(jù)的存儲與分析產(chǎn)生多方面的困難。另外,網(wǎng)絡(luò)大數(shù)據(jù)通常是高維的。第二十九頁,編輯于星期六:十六點八分。復(fù)雜性必然帶來不確定性。大數(shù)據(jù)的不確定性表現(xiàn)為數(shù)據(jù)本身的不確定性、模型的不確定性和學(xué)習(xí)的不確定性,從而給大數(shù)據(jù)建模和學(xué)習(xí)造成困難。大數(shù)據(jù)的不確定性與傳統(tǒng)數(shù)據(jù)的不確定性有何不同?是否存在“可能世界模型”?——在一定的結(jié)構(gòu)規(guī)范下將數(shù)據(jù)的每一種狀態(tài)都加以刻畫?針對學(xué)習(xí)的不確定性,非參模型方法的提出為自動學(xué)習(xí)提供了一種思路,但如何分布式、并行地應(yīng)用到網(wǎng)絡(luò)大數(shù)據(jù)的處理上?第三十頁,編輯于星期六:十六點八分。涌現(xiàn)性是網(wǎng)絡(luò)大數(shù)據(jù)有別于其它數(shù)據(jù)的關(guān)鍵特性,是大數(shù)據(jù)動態(tài)變化、擴(kuò)展、演化的結(jié)果,表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性,其在度量、研判與預(yù)測上的困難使得網(wǎng)絡(luò)數(shù)據(jù)難以被駕馭。模式的涌現(xiàn)性——社會網(wǎng)絡(luò)模型的變化行為的涌現(xiàn)性——有較大相似性的個體之間容易建立社會關(guān)系,使得網(wǎng)絡(luò)在演化過程中自發(fā)地形成相互分離的連通塊。智慧的涌現(xiàn)性——對來自大量自發(fā)個體的語義進(jìn)行互相融合和連接而形成通用語義,整個過程隨著數(shù)據(jù)的變化而持續(xù)演進(jìn)。第三十一頁,編輯于星期六:十六點八分。

總結(jié):在大數(shù)據(jù)環(huán)境下,傳統(tǒng)的高維表達(dá)、結(jié)構(gòu)描述和群體行為分析方法不能準(zhǔn)確表示網(wǎng)絡(luò)大數(shù)據(jù)在異構(gòu)性、交互性、時效性、突發(fā)性等方面的特點,傳統(tǒng)的“假設(shè)-模型-檢驗”的統(tǒng)計方法受到了質(zhì)疑,而從“數(shù)據(jù)”到“數(shù)據(jù)”的第四范式還沒有真正建立,急需一個新的理論體系來指導(dǎo),建立新的分析模型。第三十二頁,編輯于星期六:十六點八分。(三)大數(shù)據(jù)分析的突破口大數(shù)據(jù)分析涉及三個維度——時間、空間和數(shù)據(jù)本身,其中時間維度又包含生命周期、數(shù)據(jù)的時間態(tài)、流化與增量、時效等元素,空間維度又包含三元空間、粒度、數(shù)據(jù)傳輸與遷移、數(shù)據(jù)空間等元素,數(shù)據(jù)維度則體現(xiàn)為多源、異質(zhì)、異構(gòu)。如何從三個維度的整體上對大數(shù)據(jù)的特性與復(fù)雜性進(jìn)行深入的解析,系統(tǒng)掌握大數(shù)據(jù)的不確定性特征,繼而構(gòu)建高效的大數(shù)據(jù)計算模型,成為了大數(shù)據(jù)分析的突破口,具體表現(xiàn)為以下幾個方面:第三十三頁,編輯于星期六:十六點八分。首先,要系統(tǒng)了解大數(shù)據(jù)的基礎(chǔ)性問題。大數(shù)據(jù)的基礎(chǔ)性問題包括:大數(shù)據(jù)的內(nèi)在機理——大數(shù)據(jù)的演化與傳播規(guī)律、生命周期,數(shù)據(jù)科學(xué)與社會學(xué)、經(jīng)濟(jì)學(xué)等之間的互動機制,以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性等等。將與計算機科學(xué)、統(tǒng)計學(xué)、人工智能、數(shù)學(xué)、社會科學(xué)等有關(guān),離不開對相關(guān)學(xué)科領(lǐng)域知識與研究方法的借鑒。

同時,由于大數(shù)據(jù)往往以獨特的、復(fù)雜關(guān)聯(lián)的網(wǎng)絡(luò)形式出現(xiàn),因此還必須對大數(shù)據(jù)背后的網(wǎng)絡(luò)進(jìn)行深入的分析,例如能刻畫出大數(shù)據(jù)背后網(wǎng)絡(luò)共性的網(wǎng)絡(luò)平均路徑長度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等性質(zhì)和參數(shù),這是開展復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)分析的基礎(chǔ)。第三十四頁,編輯于星期六:十六點八分。其次,要深入研究大數(shù)據(jù)的復(fù)雜性規(guī)律。包括數(shù)據(jù)的時間規(guī)律、空間規(guī)律和數(shù)據(jù)本身規(guī)律。再復(fù)雜的數(shù)據(jù)也有規(guī)律可循。只有掌握數(shù)據(jù)的復(fù)雜性規(guī)律,才能找到大數(shù)據(jù)分析的切入口,才能理解大數(shù)據(jù)復(fù)雜模式的本質(zhì)特征和生成機理,進(jìn)而簡化大數(shù)據(jù)的表征,指導(dǎo)大數(shù)據(jù)計算模型和算法的設(shè)計。

就統(tǒng)計學(xué)而言,就是要研究大數(shù)據(jù)在時空維度上的數(shù)據(jù)分布、內(nèi)在結(jié)構(gòu)、動態(tài)變化和相關(guān)相聯(lián)的復(fù)雜性規(guī)律,對表現(xiàn)多元變量分布規(guī)律的方法加以改進(jìn),關(guān)注大數(shù)據(jù)處理的可擴(kuò)展性,探索多型態(tài)關(guān)聯(lián)數(shù)據(jù)之間的多維、異構(gòu)、隱性的關(guān)聯(lián)特征,并基于統(tǒng)計設(shè)想和大數(shù)據(jù)驅(qū)動相結(jié)合的方式去探索大數(shù)據(jù)復(fù)雜模式的生成機理及其背后的物理意義,最終形成大數(shù)據(jù)計算與分析的方法論。第三十五頁,編輯于星期六:十六點八分。再次,要科學(xué)度量大數(shù)據(jù)的復(fù)雜性特征。數(shù)據(jù)分析的前提是研究對象特征的度量與計算,但大數(shù)據(jù)的復(fù)雜性導(dǎo)致了大數(shù)據(jù)分析計算的復(fù)雜程度猛烈激增,單靠傳統(tǒng)的數(shù)據(jù)計算模式基本不行,亟需建立面向大數(shù)據(jù)計算分析的復(fù)雜性度量理論,探索大數(shù)據(jù)高效計算模型和方法。因此,我們要尋找科學(xué)度量復(fù)雜性特征的方法。

就統(tǒng)計學(xué)而言,需要運用各種統(tǒng)計方法剖析異構(gòu)關(guān)聯(lián)大數(shù)據(jù)的復(fù)雜性特征的基本因素,以及這些因素之間的內(nèi)在聯(lián)系、外在指標(biāo)和度量方法,進(jìn)而研究基于先進(jìn)計算技術(shù)的數(shù)據(jù)復(fù)雜性度量模型,尋求近似計算理論和優(yōu)化算法框架,構(gòu)建尋找面向計算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法??傊芯坑行б仔械臄?shù)據(jù)表示方法是開展大數(shù)據(jù)分析必須解決的技術(shù)難題之一。第三十六頁,編輯于星期六:十六點八分。第四,大膽創(chuàng)新大數(shù)據(jù)的計算模式。大數(shù)據(jù)計算模式即數(shù)據(jù)密集型計算模式。面對大數(shù)據(jù),傳統(tǒng)的“假設(shè)—采樣—驗證”的模式已經(jīng)難以有效分析大數(shù)據(jù)的內(nèi)在規(guī)律、提取其蘊含的真實價值,因為數(shù)據(jù)的可計算性與可度量性基礎(chǔ)已經(jīng)發(fā)生了很大的變化,需要重新定義和構(gòu)建。為此,需要突破傳統(tǒng)的“數(shù)據(jù)圍繞機器轉(zhuǎn)”的計算模式,發(fā)展以數(shù)據(jù)為中心的、推送式的大數(shù)據(jù)計算理論與模式,設(shè)計可行的、有利于深度分析的計算算法。

就統(tǒng)計學(xué)而言,需要研究針對大數(shù)據(jù)的非確定性理論,突破傳統(tǒng)的“獨立同分布”假設(shè),在探討分布式、流式算法的基礎(chǔ)上,構(gòu)建大數(shù)據(jù)分析的計算框架??傊?,要基于數(shù)據(jù)的智能方法,著力研究解決復(fù)雜問題的“海量數(shù)據(jù)+簡單邏輯”的方法。第三十七頁,編輯于星期六:十六點八分。(四)需要達(dá)成的幾點共識要把數(shù)據(jù)處理技術(shù)的突破與統(tǒng)計分析方法的創(chuàng)新相結(jié)合。要把碎片化數(shù)據(jù)處理與整體統(tǒng)計分析相結(jié)合。要把大數(shù)據(jù)分析與小數(shù)據(jù)研究相結(jié)合。要把時空維度和數(shù)據(jù)維度相結(jié)合。要把相關(guān)關(guān)系的發(fā)現(xiàn)與因果規(guī)律的研究相結(jié)合。要把探索性分析與驗證性分析、抽樣分析與全數(shù)據(jù)分析相結(jié)合。第三十八頁,編輯于星期六:十六點八分。四、改變統(tǒng)計思維統(tǒng)計思維的變化應(yīng)該以一個永恒不變的主題為前提,那就是通過數(shù)據(jù)分析揭示事物的真相,這個真相就是事物的生存規(guī)律、聯(lián)系規(guī)律和發(fā)展規(guī)律。也就是說要以數(shù)據(jù)背后的數(shù)據(jù)去還原事物的本來面目,達(dá)到求真的目的。第三十九頁,編輯于星期六:十六點八分。首先,認(rèn)識數(shù)據(jù)的思維要變化

從來源上看,傳統(tǒng)的數(shù)據(jù)收集具有很強的針對性,數(shù)據(jù)的提供者大多確定,身份特征可識別,有的還可以進(jìn)行事后核對;但大數(shù)據(jù)通常來源于物聯(lián)網(wǎng),不是為了特定的數(shù)據(jù)收集目的而產(chǎn)生,而是人們一切可記錄的信號,并且身份識別十分困難。從某種意義上講,大數(shù)據(jù)來源的微觀基礎(chǔ)是很難追溯的。第四十頁,編輯于星期六:十六點八分。

從類型上看,傳統(tǒng)數(shù)據(jù)基本上是結(jié)構(gòu)型數(shù)據(jù),格式化、有標(biāo)準(zhǔn);但大數(shù)據(jù)更多的是非結(jié)構(gòu)型數(shù)據(jù)或異構(gòu)數(shù)據(jù),包括了一切可記錄、可存儲的標(biāo)識,多樣化、無標(biāo)準(zhǔn),并且不同的網(wǎng)絡(luò)信息系統(tǒng)有不同的數(shù)據(jù)識別方式,相互之間也沒用統(tǒng)一的數(shù)據(jù)分類標(biāo)準(zhǔn)。而且,現(xiàn)在有的數(shù)據(jù)庫是非關(guān)系型的數(shù)據(jù)庫,不需要預(yù)先設(shè)定記錄結(jié)構(gòu)。第四十一頁,編輯于星期六:十六點八分。結(jié)構(gòu)化數(shù)據(jù),可用二維表結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)的數(shù)據(jù),如數(shù)字、符號??芍苯佑嫈?shù)、計量、計算的數(shù)據(jù)。特點:先有結(jié)構(gòu)、再有數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù),不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等,特點:先有數(shù)據(jù)、再有結(jié)構(gòu);半結(jié)構(gòu)化數(shù)據(jù),介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),例如HTML文檔。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。第四十二頁,編輯于星期六:十六點八分。

從量化方式上看,傳統(tǒng)數(shù)據(jù)的量化處理方式已經(jīng)較為完善,但大數(shù)據(jù)中大量的非結(jié)構(gòu)化數(shù)據(jù)如何量化、如何從中提取信息、如何與結(jié)構(gòu)化數(shù)據(jù)對接是一個嶄新的問題。可以說,大數(shù)據(jù)是雜亂的、不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論