統(tǒng)計學(xué)(第二版)第十一章大數(shù)據(jù)時代統(tǒng)計學(xué)的變革與發(fā)展_第1頁
統(tǒng)計學(xué)(第二版)第十一章大數(shù)據(jù)時代統(tǒng)計學(xué)的變革與發(fā)展_第2頁
統(tǒng)計學(xué)(第二版)第十一章大數(shù)據(jù)時代統(tǒng)計學(xué)的變革與發(fā)展_第3頁
統(tǒng)計學(xué)(第二版)第十一章大數(shù)據(jù)時代統(tǒng)計學(xué)的變革與發(fā)展_第4頁
統(tǒng)計學(xué)(第二版)第十一章大數(shù)據(jù)時代統(tǒng)計學(xué)的變革與發(fā)展_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十一章 大數(shù)據(jù)時代統(tǒng)計學(xué)的變革與發(fā)展第一節(jié) 大數(shù)據(jù)概述第二節(jié) 大數(shù)據(jù)時代統(tǒng)計工作的變化第三節(jié) 大數(shù)據(jù)時代對統(tǒng)計學(xué)的影響第四節(jié) Python在大數(shù)據(jù)中的運(yùn)用本章教學(xué)目的、重難點(diǎn)教學(xué)目的:通過本章的學(xué)習(xí),要求學(xué)生了解大數(shù)據(jù)的起源、概念;理解大數(shù)據(jù)時代統(tǒng)計工作的變化;掌握大數(shù)據(jù)時代統(tǒng)計工作的流程;理解Python在大數(shù)據(jù)中的運(yùn)用。教學(xué)重點(diǎn)及難點(diǎn):教學(xué)重點(diǎn):大數(shù)據(jù)的起源與概念;大數(shù)據(jù)時代統(tǒng)計工作的流程。教學(xué)難點(diǎn):Python在大數(shù)據(jù)中的運(yùn)用。 第一節(jié) 大數(shù)據(jù)的起源與概念一、引言 阿里巴巴提供精準(zhǔn)的大數(shù)據(jù),協(xié)助寧波市公安機(jī)關(guān)和農(nóng)業(yè)執(zhí)法部門成功破獲案件。行動中,警方搗毀制假生產(chǎn)流水線9條,查獲假冒美國“

2、杜邦”、瑞士“先正達(dá)”等品牌農(nóng)藥6個品種25噸、假冒農(nóng)藥注冊商標(biāo)標(biāo)識200余萬件,并通過開展國際警務(wù)合作,成功抓獲藏匿于境外的犯罪嫌疑人,摧毀其在境外設(shè)立的輻射東盟全境的大型制假倉儲窩點(diǎn)。利用電商大數(shù)據(jù)資源,對網(wǎng)絡(luò)交易信息進(jìn)行篩查、整合、分析,提高對侵權(quán)假冒行為的發(fā)現(xiàn)、甄別和精準(zhǔn)打擊能力。 互聯(lián)網(wǎng)時代,人類幾乎所有的行為都會留下痕跡,表現(xiàn)為各種行為數(shù)據(jù)。在大數(shù)據(jù)時代,統(tǒng)計研究對象、方法技術(shù)均在發(fā)生劇烈的變化。了解大數(shù)據(jù)及大數(shù)據(jù)時代統(tǒng)計學(xué)的變革與發(fā)展,有助于更好地學(xué)習(xí)和應(yīng)用統(tǒng)計學(xué)。 二、大數(shù)據(jù)的概念起源與特點(diǎn)1.大數(shù)據(jù)的起源格雷布林克(Grobelink.M)在紐約時報2012年2月的一篇專欄中

3、稱,“大數(shù)據(jù)時代”已經(jīng)降臨。隨著信息科學(xué)技術(shù)的高速度發(fā)展,當(dāng)前獲取和儲存數(shù)據(jù)信息的能力不斷增強(qiáng),且成本不斷下降,這使得大數(shù)據(jù)的實現(xiàn)成為可能,越來越多的領(lǐng)域也收到大數(shù)據(jù)的影響。二、大數(shù)據(jù)的概念起源與特點(diǎn)2.大數(shù)據(jù)的概念把大數(shù)據(jù)作為研究對象,從數(shù)據(jù)本身和處理數(shù)據(jù)的技術(shù)兩個方面理解大數(shù)據(jù),這樣理解大數(shù)據(jù)就有狹義和廣義之分。狹義:大數(shù)據(jù)是指數(shù)據(jù)的結(jié)構(gòu)形式和規(guī)模,是從數(shù)據(jù)的字面意義理解;廣義:大數(shù)據(jù)不僅包括數(shù)據(jù)的結(jié)構(gòu)形式和數(shù)據(jù)的規(guī)模,還包括處理數(shù)據(jù)的技術(shù)。二、大數(shù)據(jù)的概念起源與特點(diǎn)3.從統(tǒng)計學(xué)科與計算機(jī)科學(xué)的性質(zhì)出發(fā),可以這樣來定義“大數(shù)據(jù)”:指那些超過傳統(tǒng)數(shù)據(jù)系統(tǒng)處理能力、超越經(jīng)典統(tǒng)計思想研究范圍、不

4、借用網(wǎng)絡(luò)無法用主流軟件工具及技術(shù)進(jìn)行單機(jī)分析的復(fù)雜數(shù)據(jù)的集合。對于這一數(shù)據(jù)集合,有目的地進(jìn)行設(shè)計、獲取、管理、分析,揭示隱藏在其中的有價值的模式和知識;大數(shù)據(jù)的三個層次如圖所示:二、大數(shù)據(jù)的概念起源與特點(diǎn)大數(shù)據(jù)的特點(diǎn)大量性ADBC多樣性價值性高速性特點(diǎn)第二節(jié) 大數(shù)據(jù)時代統(tǒng)計工作的變化 一、轉(zhuǎn)變抽樣調(diào)查工作思想傳統(tǒng)的統(tǒng)計學(xué)觀點(diǎn):是建立在數(shù)據(jù)收集和處理能力受到限制的基礎(chǔ)上的,其特點(diǎn)是通過局部樣本進(jìn)行統(tǒng)計推斷,從而了解總體的規(guī)律性。 大數(shù)據(jù)時代的觀點(diǎn):數(shù)據(jù)資料收集和數(shù)據(jù)處理能力對統(tǒng)計分析工作的影響越來越小,我們面對的數(shù)據(jù)樣本就是過去資料的總和,樣本就是總體,通過對所有與事物相關(guān)的數(shù)據(jù)進(jìn)行分析,既有利

5、于了解總體,又有利于了解局部。二、轉(zhuǎn)變對數(shù)據(jù)精確性的要求 傳統(tǒng)的統(tǒng)計學(xué)觀點(diǎn):要求獲得的數(shù)據(jù)一般具有完整性、精確性( 或準(zhǔn)確性) 、可比性與一致性等性質(zhì)。在小數(shù)據(jù)時代對數(shù)據(jù)精確性要求相對于其他要求是最嚴(yán)格的。 大數(shù)據(jù)時代的觀點(diǎn):由于數(shù)據(jù)來源廣泛和數(shù)據(jù)處理技術(shù)的不斷進(jìn)步,數(shù)據(jù)的不精確性是允許的,我們應(yīng)該接受紛繁復(fù)雜的各類數(shù)據(jù),不應(yīng)一味追求數(shù)據(jù)的精確性,以免因小失大。三、轉(zhuǎn)變數(shù)據(jù)關(guān)系分析的重點(diǎn) 傳統(tǒng)的統(tǒng)計學(xué)觀點(diǎn):一般在處理數(shù)據(jù)時,會預(yù)先假定事物之間存在某種因果關(guān)系,然后在此因果關(guān)系假定的基礎(chǔ)上構(gòu)建模型并驗證預(yù)先假定的因果關(guān)系。 大數(shù)據(jù)時代的觀點(diǎn):分析數(shù)據(jù)不再探求難以琢磨的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)

6、關(guān)系。四、大數(shù)據(jù)時代統(tǒng)計分析的流程 二三一四海量信息數(shù)據(jù)的采集接收來自各領(lǐng)域各方面的客戶端數(shù)據(jù)。大數(shù)據(jù)的統(tǒng)計分析利用分布式數(shù)據(jù)庫、分布式計算集群等對海量數(shù)據(jù)進(jìn)行分析和分類匯總。大數(shù)據(jù)的預(yù)處理在導(dǎo)入基礎(chǔ)上進(jìn)行簡單的清洗和預(yù)處理工作。大數(shù)據(jù)的深度挖掘現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計算,從而滿足一些高級別數(shù)據(jù)分析的需求。第三節(jié) 大數(shù)據(jù)時代對統(tǒng)計學(xué)的影響 一、大數(shù)據(jù)時代統(tǒng)計學(xué)的變化1.數(shù)據(jù)類型的擴(kuò)大2.數(shù)據(jù)來源的不同3.統(tǒng)計軟件的增多4.統(tǒng)計質(zhì)量得以提高5.統(tǒng)計成本得以降低二、大數(shù)據(jù)對統(tǒng)計學(xué)的促進(jìn)1.豐富了統(tǒng)計學(xué)的內(nèi)容:統(tǒng)計學(xué)不僅要注重與其他學(xué)科的結(jié)合,更需要注重自身學(xué)科的提高,在原理、技術(shù)、方法等方

7、面認(rèn)真鉆研,與時俱進(jìn),謀求創(chuàng)新與突破。2.促使統(tǒng)計學(xué)快速發(fā)展:統(tǒng)計學(xué)可以與大數(shù)據(jù)進(jìn)行合作,不僅可以做到以小見大,還可以做到由繁入簡,在大數(shù)據(jù)的基礎(chǔ)上大大提高統(tǒng)計效率、模型擬合度和推斷準(zhǔn)確性。第四節(jié) Python在大數(shù)據(jù)中的運(yùn)用一、Python簡介Python, 是一種面向?qū)ο蟮慕忉屝陀嬎銠C(jī)程序設(shè)計語言,Python是純粹的自由軟件,源代碼和解釋器CPython遵循GPL(GNUGeneral Public License)協(xié)議。Python語法簡潔清晰,特色之一是強(qiáng)制用空白符(white space)作為語句縮。Python具有豐富和強(qiáng)大的庫。它常被昵稱為膠水語言,能夠把用其他語言制作的各種模

8、塊(尤其是C/C+)很輕松地聯(lián)結(jié)在一起。二、Python在大數(shù)據(jù)中的運(yùn)用 主要應(yīng)用包括以下方面:系統(tǒng)編程圖形處理數(shù)學(xué)處理數(shù)據(jù)庫編程網(wǎng)絡(luò)編程數(shù)據(jù)分析ABCDEF二、Python在大數(shù)據(jù)中的運(yùn)用 大數(shù)據(jù)一般分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),包括各種格式的辦公文本、圖片、報表、音頻、視頻等。對統(tǒng)計學(xué)習(xí)而言,最大的考驗是如何對這些海量的數(shù)據(jù)信息進(jìn)行充分的開發(fā),找出數(shù)據(jù)之間隱藏的規(guī)律與關(guān)系。 Python 對于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析有很好的應(yīng)用。Python 可以直接處理上 G 的數(shù)據(jù),在大數(shù)據(jù)分析中,Python 適合對海量數(shù)據(jù)進(jìn)行處理。三、基于python的網(wǎng)絡(luò)爬蟲 1.網(wǎng)

9、絡(luò)爬蟲是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本,廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。它們可以自動采集所有其能夠訪問到的頁面內(nèi)容,以供搜索引擎做進(jìn)一步處理(分檢整理下載的頁面),從而使得用戶能更快地檢索到他們需要的信息。三、基于python的網(wǎng)絡(luò)爬蟲 如果我們把互聯(lián)網(wǎng)比作一張大的蜘蛛網(wǎng),數(shù)據(jù)便是存放于蜘蛛網(wǎng)的各個節(jié)點(diǎn),而爬蟲就是一只小蜘蛛,沿著網(wǎng)絡(luò)抓取自己的獵物(數(shù)據(jù))。三、基于python的網(wǎng)絡(luò)爬蟲 2.爬蟲的工作原理爬蟲一般從一個或者多個初始URL (Uniform Resource Locator,統(tǒng)一資源定位符)開始,下載網(wǎng)頁內(nèi)容,然后通過搜索或是內(nèi)容匹配手段,獲取網(wǎng)頁中感興趣的內(nèi)容,同時不斷從當(dāng)前頁面提取新的URL,根據(jù)網(wǎng)頁抓取策略,按一定的順序放入待抓取URL隊列中,整個過程循環(huán)執(zhí)行,一直到滿足系統(tǒng)相應(yīng)的停止條件,然后對這些被抓取的數(shù)據(jù)進(jìn)行清洗,整理,并建立索引,存

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論