大數(shù)據(jù)與統(tǒng)計講述_第1頁
大數(shù)據(jù)與統(tǒng)計講述_第2頁
大數(shù)據(jù)與統(tǒng)計講述_第3頁
大數(shù)據(jù)與統(tǒng)計講述_第4頁
大數(shù)據(jù)與統(tǒng)計講述_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、1大 數(shù) 據(jù) 與 統(tǒng) 計張芃國家統(tǒng)計局統(tǒng)計資料管理中心2大數(shù)據(jù)與統(tǒng)計3大數(shù)據(jù)來了 聯(lián)合國: 2012年,大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇 OECD研究報告:使用大數(shù)據(jù)做決策 美國 2010年:規(guī)劃數(shù)字化的未來 2012年: Big Data is a Big Deal 2013年:實現(xiàn)政府信息公開化和機器可讀化總統(tǒng)令 中國 2012年:中國通信學會大數(shù)據(jù)專家委員會 大數(shù)據(jù)發(fā)展戰(zhàn)略4什么是大數(shù)據(jù)從技術角度看:1KB:2101MB:2201GB:2301TB:2401PB:2501EB:2601ZB:2701YB:2801BB:2905從概念看: 維基百科:“大數(shù)據(jù)”是由數(shù)量巨大、結構復雜、類型眾多數(shù)據(jù)構

2、成的數(shù)據(jù)集合, 是基于云計算的數(shù)據(jù)處理與應用模式,通過數(shù)據(jù)的整合共享、 交叉復用形成的智力資源和知識服務能力。 特點:6個V Volume:數(shù)據(jù)量大 Variety: 數(shù)據(jù)類型多 Velocity:處理速度快 Value:應用價值大 Vender:獲取與發(fā)送的方式自由靈活 Veracity:真實準確性 大數(shù)據(jù)是對海量信息進行分析,從而收集有價值的見解、發(fā)現(xiàn)規(guī)律和預言復雜問題答案的技巧與科學。7從特征看: 樣本=總體 接受不精確 相關關系更重要8對中國統(tǒng)計而言,大數(shù)據(jù)并不新鮮 所謂“大數(shù)據(jù)”不過是 全面統(tǒng)計的理念與方法在信息化時代的升華 是成熟了的電子商務與數(shù)據(jù)挖掘技術相結合的產(chǎn)物 是統(tǒng)計分析與

3、預測在電子化、信息化、網(wǎng)絡化社會的新實踐9大數(shù)據(jù)的價值 對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟價值的來源 大數(shù)據(jù)時代已經(jīng)撼動了世界的方方面面 核心思想:用規(guī)模劇增來改變現(xiàn)狀10為什么會出現(xiàn)大數(shù)據(jù) 計算機技術提高 數(shù)據(jù)采集自動化 數(shù)據(jù)存儲能力倍增 以計算機技術為基礎的 數(shù)據(jù)應用進程的歷史推動11翱翔翱翔化蝶化蝶破繭破繭結蛹結蛹蠶動蠶動起源起源數(shù)據(jù)應用的前世今生數(shù)據(jù)應用的前世今生12起源起源從數(shù)據(jù)到知識的挑戰(zhàn)和跨越從數(shù)據(jù)到知識的挑戰(zhàn)和跨越1946年人類歷史上第一臺電子計算機在美國費城問世。計算機的主要設計者馮諾依曼被后世稱為“計算機之父”。馮諾依曼13從數(shù)據(jù)到知識的挑戰(zhàn)和跨越從數(shù)據(jù)到知識的挑戰(zhàn)和跨越赫伯

4、特西蒙1947年卡內(nèi)基梅隆大學的赫伯特西蒙開始研究決策支持系統(tǒng),這是現(xiàn)代數(shù)據(jù)應用概念最早的起源和起點。14結蛹結蛹數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)埃德加科德1970年IBM研究員埃德加科德發(fā)明了關系型數(shù)據(jù)庫,解決了快速組織、存儲和讀取數(shù)據(jù)的問題,被譽為“關系型數(shù)據(jù)庫之父”。15數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)1988年為解決不同運營系統(tǒng)的數(shù)據(jù)集成問題,IBM的兩名研究員Barry Devlin和Paul Murphy創(chuàng)造性的提出“數(shù)據(jù)倉庫”的概念,但沒有進一步提出實際的架構和設計。Barry DevlinPaul Murphy16數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)比爾恩門1992年比

5、爾恩門第一次給出了數(shù)據(jù)倉庫的清晰定義和操作性很強的實戰(zhàn)法則,真正拉開了數(shù)據(jù)倉庫走向大規(guī)模應用的序幕。比爾恩門被譽為“數(shù)據(jù)倉庫之父”,他強調(diào)數(shù)據(jù)的一致性,主張由頂至底的構建方法。17數(shù)據(jù)倉庫之厚積薄發(fā)數(shù)據(jù)倉庫之厚積薄發(fā)拉爾夫金博爾1996年斯坦福大學博士,拉爾夫金博爾出版數(shù)據(jù)倉庫的工具,認為務實的數(shù)據(jù)倉庫應該從下往上。他認同了比爾恩門對于數(shù)據(jù)倉庫的定義,卻在具體的構建方法上和他分庭抗禮。18蠶動蠶動聯(lián)機分析之驚艷聯(lián)機分析之驚艷埃德加科德1993年發(fā)明關系型數(shù)據(jù)庫的埃德加科德再立新功,他立足數(shù)據(jù)倉庫的新基礎,詳盡的闡述了構建聯(lián)機分析的十二條原則。19破繭破繭數(shù)據(jù)挖掘之智能生命的產(chǎn)生數(shù)據(jù)挖掘之智能生

6、命的產(chǎn)生德斯納1989年德斯納提出了數(shù)據(jù)應用的概念和定義,強調(diào)了數(shù)據(jù)應用是一系列以事實為支持,輔助決策的技術和方法的集合,獲得了業(yè)界的廣泛認同。20化蝶化蝶可視化信息的華麗上演可視化信息的華麗上演弗羅倫斯南丁格爾1855年弗羅倫斯南丁格爾把克里米亞戰(zhàn)爭中戰(zhàn)斗死亡和非戰(zhàn)斗死亡的士兵數(shù)量制作成圖表。這份視覺效果強烈的圖表,催生了一座醫(yī)院,改變了一個制度。21可視化信息的華麗上演可視化信息的華麗上演奧巴馬2010年3月,奧巴馬任命專人運用“數(shù)據(jù)可視化”的技術推進聯(lián)邦政府專項資金使用情況的透明度。22大數(shù)據(jù)時代對統(tǒng)計將產(chǎn)生怎樣的影響 非精準化 非結構化 非樣本化 非滯后性統(tǒng)計如何應對大數(shù)據(jù)時代 理念革

7、命化 采集自動化 存儲規(guī)?;?挖掘深度化 分析技術化 展現(xiàn)可視化 發(fā)布即時化 人才復合化24理念革命化:思維觀念的改變真的那么重要嗎?數(shù)據(jù)的價值在哪里?數(shù)據(jù)需要精準碼?如何采集數(shù)據(jù)?指標體系重要嗎?因果關系還是相關關系?統(tǒng)計需要預測嗎?26經(jīng)濟總量經(jīng)濟發(fā)展的先行指標和指示器全國GDP與CRI變動趨勢分析27經(jīng)濟總量經(jīng)濟發(fā)展的先行指標和指示器全國財政收入與CRI變動趨勢分析28采集自動化:文字變成數(shù)據(jù)方位變成數(shù)據(jù)溝通變成數(shù)據(jù)一切事物變成數(shù)據(jù) 什么意思? 真可以! 過去我喜歡一個人 現(xiàn)在我喜歡一個人30存儲規(guī)模化:在過去50年中,數(shù)字存儲成本大約每兩年削減一半, 而存儲密度則增加了5000萬倍。3

8、1挖掘深度化: 數(shù)據(jù)挖掘:是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、 先前未知的并有潛在價值的信息的非平凡過程。 是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術。32l數(shù)據(jù)挖掘步驟:數(shù)據(jù)準備:從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集尋找規(guī)律:用某種方法將數(shù)據(jù)集所含的規(guī)律找出來結果展示:盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來33l數(shù)據(jù)挖掘的技術基礎:人工智能機器學習模式識別統(tǒng)計學數(shù)據(jù)庫可視化技術34l數(shù)據(jù)挖掘的任務:關聯(lián)分析聚類分析分類分析異常分析特定群組分析演變分析35分析技術化: 現(xiàn)實:簡單的圖表、數(shù)據(jù)對比、數(shù)字文字化 大數(shù)據(jù)時代:數(shù)字工具、數(shù)學模型、機器智

9、能36GDP、財政收入與企業(yè)注冊資本之間的線性關系示意圖經(jīng)濟總量主體發(fā)展與經(jīng)濟社會發(fā)展的關聯(lián)37展現(xiàn)可視化:數(shù)據(jù)可視化:是指將大型數(shù)據(jù)集中地以圖形、圖像形式表示, 并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。38數(shù)據(jù)可視化的技術基礎: 幾何技術 像素技術 圖標技術 圖層技術 圖像技術 分布式技術 統(tǒng)計技術39數(shù)據(jù)可視化的基本思想: 依據(jù)數(shù)據(jù)及其內(nèi)在模式和關系, 利用計算機生成的圖像來獲得深入認識和知識 利用人類感覺系統(tǒng)的廣闊帶寬,來解釋錯綜復雜的過程、 以及來源多樣的大型數(shù)據(jù)集合的內(nèi)在規(guī)律40數(shù)數(shù)據(jù)利用的技據(jù)利用的技術發(fā)術發(fā)展展歷歷程程實際實際也是價也是價值值探求的摸索探求的摸索歷歷程

10、程數(shù)據(jù)庫數(shù)據(jù)倉庫OLAP聯(lián)機分析技術數(shù)據(jù)挖掘可視化展現(xiàn)價值應用統(tǒng)計分析GIS技術4120122012年奧巴馬政府預算開支的可視化展示年奧巴馬政府預算開支的可視化展示一眼就可以看出,赤字約占美國總支出的1/3,個人所得稅是美國政府最大的財政來源,而國防支出是其最大的支出。(圖片來源:華盛頓郵報,2010年2月1日)42左邊為強制性開支,右邊為自主性開支。強制開支中最大的圓為醫(yī)療保險和醫(yī)療補助,其為綠色,表示較去年增加了,鼠標停留處顯示其大小為1.18億,較去年增加了8.4,是強制性開支中最大的一塊。(圖片來源于網(wǎng)絡)20132013年奧巴馬政府預算開支的可視化展示年奧巴馬政府預算開支的可視化展示

11、43多種直觀的圖表展示方式44示例示例示例示例45示例示例示例示例4647整體分布48 GIS(地理信息分析系統(tǒng))市場主體3D分析 49發(fā)布即時化:美國麻省理工學院承擔的一項“十億價格項目”(Billion Price Project)是基于學術研究方法對全世界海量網(wǎng)上零全世界海量網(wǎng)上零售價格售價格進行價格指數(shù)計算為判斷通脹趨勢提供信息每天實時實時收取5050萬條萬條互聯(lián)網(wǎng)上的商品信息,是美國政府統(tǒng)計收集的5 5倍倍每日網(wǎng)上價格指數(shù)每日網(wǎng)上價格指數(shù) Daily Online Price Index50基于淘寶網(wǎng)、天貓網(wǎng)、支付寶等網(wǎng)絡平臺的數(shù)據(jù)編制大體反映國內(nèi)網(wǎng)絡零售渠道的一般物價變動。包含價格

12、指數(shù)系列和實物交易量指數(shù)系列分為九大基本分類指數(shù)權重為成交金額的比例采用鏈式加權的拉氏指數(shù)法計算,并逐級計算淘寶網(wǎng)絡零售價格指數(shù)淘寶網(wǎng)絡零售價格指數(shù) ISPI51上海鋼聯(lián)中國大宗商品價格指數(shù)與國家統(tǒng)計局PPI、CPI走勢對比圖 作為中國領先的大宗商品咨詢平臺,上海鋼聯(lián)電子商務股份有限公司通過其資訊采集系統(tǒng),編制了上海鋼聯(lián)中國大宗商品價格指數(shù)。它以產(chǎn)值作為權重,同時考慮在地區(qū)因素影響基礎上,對9大類行業(yè)的基礎產(chǎn)品價格數(shù)據(jù)進行處理合成而得。 52人才復合化: 谷歌首席經(jīng)濟學家哈爾.范里安: “數(shù)據(jù)非常之多而且具有戰(zhàn)略重要性,但真正缺少的是從數(shù)據(jù)中提取價值的能力。 這也就是為什么統(tǒng)計學家、數(shù)據(jù)庫管理者和掌握機器理論的人是真正了不起的人。”資料中心怎么辦 統(tǒng)計資料的大數(shù)據(jù)中心 統(tǒng)計網(wǎng)絡的大數(shù)據(jù)中心 統(tǒng)計服務的大數(shù)據(jù)中心 統(tǒng)計歷史的大數(shù)據(jù)中心正確認識大數(shù)據(jù) 重視非結構化不等于不要結構化,而是要 做到從非結構化到結構化 接受不準確和混雜不等于不要準確性 強調(diào)總體、全數(shù)據(jù)不等于蔑視或取消抽樣 強化相關分析不等于不要因果分析 大數(shù)據(jù)分析得出的結論也是有偏的55數(shù)數(shù)相連,數(shù)數(shù)相通 經(jīng)濟數(shù)社會數(shù)人口數(shù),數(shù)數(shù)相連 過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論