版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、電子課件第3章 數(shù)據(jù)思維第3章 數(shù)據(jù)思維3.1 數(shù)據(jù)思維的產(chǎn)生大數(shù)據(jù)是指無(wú)法在有限時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其進(jìn)行獲取、存儲(chǔ)、管理和處理的數(shù)據(jù)集合?!?V”特征:Volume(數(shù)據(jù)量大,一般PB級(jí)以上)Variety(類(lèi)型繁多,兼有結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù))Velocity(速度快,產(chǎn)生速度和分析、處理速度要求)Value(價(jià)值價(jià)值密度低但挖掘潛力大)狹義上,大數(shù)據(jù)指那些具有4V特征的數(shù)據(jù)本身廣義上,還包括了能處理這類(lèi)數(shù)據(jù)的人員、技術(shù)和組織3.1.1 科學(xué)研究上的四種范式2007年圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專(zhuān)家吉姆格雷博士提出,人類(lèi)自古以來(lái)在科學(xué)研究上先后經(jīng)歷了經(jīng)驗(yàn)、理論、計(jì)算和數(shù)據(jù)四種范式。實(shí)驗(yàn)科學(xué)
2、:科學(xué)研究主要依靠實(shí)驗(yàn)和驗(yàn)證來(lái)進(jìn)行理念科學(xué):采用各種數(shù)學(xué)、幾何、物理理論構(gòu)建問(wèn)題模型和解決方案計(jì)算科學(xué):計(jì)算機(jī)仿真和計(jì)算成為科學(xué)研究的利器,它允許根據(jù)第二種范式中總結(jié)的理論來(lái)模擬復(fù)雜的現(xiàn)實(shí)世界問(wèn)題數(shù)據(jù)趨動(dòng)科學(xué)或數(shù)據(jù)密集型科學(xué):以數(shù)據(jù)來(lái)趨動(dòng)的科學(xué)3.1.2 信息時(shí)代與計(jì)算思維計(jì)算機(jī)科學(xué)家周以真計(jì)算思維是運(yùn)用計(jì)算機(jī)科學(xué)的基礎(chǔ)概念進(jìn)行問(wèn)題求解、系統(tǒng)設(shè)計(jì)、以及人類(lèi)行為理解等涵蓋計(jì)算機(jī)科學(xué)之廣度的一系列思維活動(dòng)。信息時(shí)代是一個(gè)以計(jì)算機(jī)技術(shù)為主導(dǎo)的時(shí)代。抽象(Abstraction)自動(dòng)化(Automation)3.1.3 大數(shù)據(jù)時(shí)代與數(shù)據(jù)思維科學(xué)家和研究人員不斷地研究和提升技術(shù)把精力放在“I”上,也就是
3、信息本身數(shù)據(jù)上“IT”(信息技術(shù))信息時(shí)代大數(shù)據(jù)時(shí)代一方面為的是能夠把更多問(wèn)題轉(zhuǎn)化為可計(jì)算問(wèn)題,另一方面還要不斷改進(jìn)算法、優(yōu)化算法,讓計(jì)算機(jī)的計(jì)算能力、存儲(chǔ)能力能夠和問(wèn)題所需的運(yùn)算力相匹配。一是每天有大量數(shù)據(jù)產(chǎn)生,二是這些數(shù)據(jù)現(xiàn)在通過(guò)大數(shù)據(jù)技術(shù)可以被存儲(chǔ)、處理和利用了。3.1.3 大數(shù)據(jù)時(shí)代與數(shù)據(jù)思維“IT”(信息技術(shù))思維轉(zhuǎn)變:全樣抽樣效率精確相關(guān)因果1. 以全體數(shù)據(jù)取代隨機(jī)樣本(全數(shù)據(jù)思維模式)小數(shù)據(jù)時(shí)代,由于技術(shù)條件的限制,總體的獲得非常困難,于是人們不得不依靠統(tǒng)計(jì)學(xué)上的采樣方法來(lái)對(duì)部分?jǐn)?shù)據(jù)進(jìn)行獲取,再依靠相應(yīng)的規(guī)則對(duì)總體進(jìn)行估計(jì)。大數(shù)據(jù)在傳感器網(wǎng)絡(luò)和云技術(shù)的支撐下,擁有了簡(jiǎn)單廉價(jià)的數(shù)據(jù)
4、收集方法,足夠的數(shù)據(jù)存儲(chǔ)、處理和分析能力,實(shí)現(xiàn)了“樣本=總體”的夢(mèng)想。2. 以混雜性取代精確性(容錯(cuò)性思維模式)傳統(tǒng)的思維模式要求我們一再求精(precision):數(shù)據(jù)要精確小數(shù)據(jù)時(shí)代是以有限的樣本來(lái)估計(jì)總體,如果樣本數(shù)據(jù)不精確,則會(huì)“失之毫厘、謬以千里”;算法要精小數(shù)據(jù)時(shí)代受限于單個(gè)CPU計(jì)算能力、內(nèi)存的大小,算法太復(fù)雜程序根本無(wú)法運(yùn)行。大數(shù)據(jù)時(shí)代我們則不必為了追求這兩方面的精確性再付出高昂的代價(jià)。大數(shù)據(jù)的雜體現(xiàn)在:第一,來(lái)源很雜:可能是來(lái)自各種關(guān)系型數(shù)據(jù)庫(kù)(實(shí)時(shí)數(shù)據(jù))、可能來(lái)自數(shù)據(jù)倉(cāng)庫(kù)(歷史數(shù)據(jù))、可能來(lái)自互聯(lián)網(wǎng)(爬蟲(chóng)數(shù)據(jù));第二,數(shù)據(jù)的形式也很雜:結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)、準(zhǔn)結(jié)構(gòu)型數(shù)據(jù)
5、、無(wú)結(jié)構(gòu)型數(shù)據(jù)。3. 以相關(guān)性取代因果關(guān)系(相關(guān)性思維模式)相關(guān)性思維模式指導(dǎo)我們,知道“是什么”就夠了,而不一定必須知道“為什么”。以相關(guān)關(guān)系替代因果關(guān)系為出發(fā)點(diǎn)作為問(wèn)題解決的方向,可以大大提高人類(lèi)探索世界的效率。關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)也可以作為因果關(guān)系研究的起點(diǎn)3.1.4數(shù)據(jù)思維的培養(yǎng)像“數(shù)據(jù)科學(xué)家”一樣思考重視數(shù)據(jù)理解數(shù)據(jù)化善于發(fā)現(xiàn)數(shù)據(jù)的價(jià)值學(xué)做數(shù)據(jù)分析、提升編程素養(yǎng)1. 重視數(shù)據(jù)數(shù)據(jù)(data)對(duì)現(xiàn)實(shí)世界的抽象,從數(shù)據(jù)的角度出發(fā)看待世界,一切皆數(shù)據(jù)。數(shù)據(jù)思維要求人們,除了利用數(shù)據(jù)完成傳統(tǒng)的事務(wù)處理,還要重視數(shù)據(jù)的分析,通過(guò)數(shù)據(jù)分析把數(shù)據(jù)轉(zhuǎn)變位商業(yè)資本,形成新的經(jīng)濟(jì)利益增長(zhǎng)點(diǎn)。數(shù)據(jù)科學(xué)(Data
6、 Science)是為自然科學(xué)和社會(huì)科學(xué)研究提供一種新的方法,稱(chēng)為科學(xué)研究的數(shù)據(jù)方法,其目的在于揭示自然界和人類(lèi)行為現(xiàn)象和規(guī)律(知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘)。2. 理解數(shù)據(jù)化大數(shù)據(jù)的核心動(dòng)力是“數(shù)據(jù)化”,它是一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^(guò)程。它的出現(xiàn)遠(yuǎn)早于計(jì)算機(jī)的出現(xiàn),但計(jì)算機(jī)無(wú)疑提高了它的效率?!皵?shù)據(jù)化”和“數(shù)字化”是完全不同的概念。數(shù)字化是指把模擬數(shù)據(jù)“0、1化”成計(jì)算機(jī)可以處理的數(shù)據(jù)“0、1化”的數(shù)據(jù)可能還需要“數(shù)據(jù)化”后才能對(duì)它進(jìn)行無(wú)窮無(wú)盡的分析與挖掘3. 善于發(fā)現(xiàn)數(shù)據(jù)的價(jià)值在沒(méi)有數(shù)據(jù)意識(shí)的人眼中,數(shù)據(jù)是靜止和陳舊的。有數(shù)據(jù)意識(shí)的從業(yè)者,不僅能看到數(shù)據(jù)的基本用途,還會(huì)考慮數(shù)據(jù)的潛在用
7、途,在現(xiàn)在或?qū)?lái)不斷發(fā)掘它們的商業(yè)價(jià)值、科學(xué)價(jià)值和社會(huì)價(jià)值。4. 學(xué)做數(shù)據(jù)分析、提升編程素養(yǎng)廣義的數(shù)據(jù)分析,它包含了狹義的數(shù)據(jù)分析與數(shù)據(jù)挖掘狹義的數(shù)據(jù)分析側(cè)重于統(tǒng)計(jì)學(xué)上的分析,一般可借助成熟的分析工具(如Excel、SPSS、SAS等),分析結(jié)果往往是準(zhǔn)確的統(tǒng)計(jì)量,再經(jīng)過(guò)人的推理演繹來(lái)獲得結(jié)論數(shù)據(jù)挖掘則可以看作數(shù)據(jù)分析的高級(jí)階段,它主要是從大量的數(shù)據(jù)中挖掘出未知的、且有價(jià)值的信息和知識(shí),重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)“知識(shí)規(guī)則”,它更側(cè)重機(jī)器能通過(guò)自學(xué)習(xí)來(lái)對(duì)未來(lái)進(jìn)行預(yù)測(cè),一般需要有一定的編程基礎(chǔ)“數(shù)據(jù)的奧妙只為謙遜、愿意聆聽(tīng)且掌握了聆聽(tīng)手段的人所知”3.2 數(shù)據(jù)分析流程及相關(guān)技術(shù)從數(shù)據(jù)思維的角度出發(fā),任何
8、一項(xiàng)任務(wù)都可以抽象為一組IPO過(guò)程,即輸入一組數(shù)據(jù)、進(jìn)行數(shù)據(jù)處理和輸出結(jié)果數(shù)據(jù)的過(guò)程。順著這個(gè)思路,我們需要考慮以下幾個(gè)問(wèn)題:需要收集哪些數(shù)據(jù)、數(shù)據(jù)從哪里來(lái)?獲得的數(shù)據(jù)怎樣滿足分析算法輸入需求?數(shù)據(jù)需要怎樣的分析處理?是統(tǒng)計(jì)分析還是挖掘分析。輸出數(shù)據(jù)以什么樣的方式呈現(xiàn)?文本、表格還是圖形。3.2.1 數(shù)據(jù)收集數(shù)據(jù)從其被獲取的途徑而言,可分為兩類(lèi),即:企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)Web爬蟲(chóng)是一種程序,它可以自動(dòng)化地“瀏覽”Web中的信息,然后根據(jù)制定的規(guī)則高效下載和提取數(shù)據(jù)。理論上,互聯(lián)網(wǎng)上的數(shù)據(jù)都可以通過(guò)爬蟲(chóng)技術(shù)來(lái)獲取,但在實(shí)際操作時(shí)是需要考慮很多問(wèn)題的,如:是否遵守了行業(yè)的Robots協(xié)議,是否涉
9、及侵犯?jìng)€(gè)人數(shù)據(jù)隱私,爬蟲(chóng)爬取的速度是否過(guò)快、量過(guò)大,導(dǎo)致對(duì)方服務(wù)器壓力過(guò)大,影響了對(duì)方的正常業(yè)務(wù)等等。當(dāng)然,對(duì)抓取下來(lái)的數(shù)據(jù)的用途也是考慮的因素,如是作為個(gè)人學(xué)習(xí)、研究之用,那么要求會(huì)寬松一些,但如是作為商業(yè)用途的,那還需要充分考慮相關(guān)的法律法規(guī)。Python爬蟲(chóng)研究?jī)?nèi)容及相關(guān)技術(shù):網(wǎng)頁(yè)數(shù)據(jù)抓?。ňW(wǎng)絡(luò)庫(kù)的使用,如:Urllib庫(kù),Requests庫(kù)等)頁(yè)面分析(靜、動(dòng)態(tài)網(wǎng)頁(yè)知識(shí),開(kāi)發(fā)者工具的運(yùn)行等)信息提?。╔path,Beautiful Soup庫(kù),正則表達(dá)式等)數(shù)據(jù)存儲(chǔ)(Pandas文件存儲(chǔ)和SQLite數(shù)據(jù)庫(kù)存儲(chǔ)等)異步數(shù)據(jù)處理(Ajax異步數(shù)據(jù)抓取,Selenium庫(kù)等)爬蟲(chóng)框架(Sc
10、rapy庫(kù)等)3.2.2 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理可能包括以下幾個(gè)方面:數(shù)據(jù)選擇:根據(jù)分析與挖掘目標(biāo)選擇合適的數(shù)據(jù),包括表的選擇、記錄(行)的選擇和屬性(列)選擇;數(shù)據(jù)清洗:提高選擇好的數(shù)據(jù)的質(zhì)量,一般包括對(duì)缺失值、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)的處理,數(shù)據(jù)類(lèi)型的轉(zhuǎn)換等;數(shù)據(jù)創(chuàng)建:根據(jù)分析和挖掘算法的需要,在原有數(shù)據(jù)的基礎(chǔ)上生成新的屬性或記錄;數(shù)據(jù)合并:利用表連接等方式將幾個(gè)數(shù)據(jù)集合并在一起;數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合分析和挖掘的格式,包括數(shù)據(jù)類(lèi)型、編碼格式、文件存儲(chǔ)格式等。3.2.3數(shù)據(jù)分析衡量數(shù)據(jù)集中趨勢(shì)的常用指標(biāo)主要有:均值、中位數(shù)和眾數(shù)。均值:即一組數(shù)據(jù)的算術(shù)平均值,它的特點(diǎn)是容易受極值點(diǎn)的影響,當(dāng)
11、數(shù)據(jù)集中存在極值點(diǎn)時(shí),均值對(duì)數(shù)據(jù)集中趨勢(shì)的判斷就會(huì)不準(zhǔn)確。這時(shí)可以改用中位數(shù)或眾數(shù)來(lái)對(duì)數(shù)據(jù)的中心趨勢(shì)進(jìn)行評(píng)判。中位數(shù):數(shù)據(jù)按照從小到大的順序排列時(shí)位于最中間的那個(gè)數(shù)即為中位數(shù)。當(dāng)數(shù)據(jù)的個(gè)數(shù)為奇數(shù)時(shí),中位數(shù)即為位于正中間的那個(gè)數(shù);當(dāng)數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí),中位數(shù)為中間兩個(gè)數(shù)的平均值。中位數(shù)不受極值影響,具有極值不敏感性。眾數(shù):數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)字,即頻數(shù)最大的數(shù)值即為眾數(shù)。眾數(shù)可能不止一個(gè),也具有極值不敏感性,且眾數(shù)不僅能用于數(shù)值型數(shù)據(jù),還可用于非數(shù)值型數(shù)據(jù)。衡量數(shù)據(jù)分散程度的常用指標(biāo)有:極差:極差是數(shù)據(jù)中最大值與最小值之差,它描述了數(shù)據(jù)的范圍,但無(wú)法反映其分布。極差對(duì)對(duì)異常值敏感,異常值的存在導(dǎo)
12、致極差產(chǎn)生很強(qiáng)的誤導(dǎo)性。方差:統(tǒng)計(jì)中的方差(即樣本方差)是各個(gè)樣本數(shù)據(jù)和平均數(shù)之差的平方和 的平均數(shù)。反映了隨機(jī)變量(統(tǒng)計(jì)數(shù)據(jù))與均值的偏離程度。但方差與被處理數(shù)據(jù)的量綱并不一致的(經(jīng)過(guò)了平方計(jì)算),處理結(jié)果不能讓人直觀體會(huì)這種偏離程度的大小,于是引入標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差是方差的平方根,由于標(biāo)準(zhǔn)差和均值的量綱是一致的,在描述一個(gè)波動(dòng)范圍時(shí)標(biāo)準(zhǔn)差比方差更為方便、直觀。3.2.4 數(shù)據(jù)可視化即使建模的目的是增加對(duì)數(shù)據(jù)的了解,所獲得的了解也需要進(jìn)行組織,并以一種客戶(hù)容易理解的、更直觀的、更方便溝通的方式呈現(xiàn)出來(lái),可視化起到的正是這樣的作用。所謂“一圖勝千言”,數(shù)據(jù)可視化旨在借助于圖形化手段,將數(shù)據(jù)
13、以視覺(jué)形式來(lái)呈現(xiàn),清晰有效地傳達(dá)與溝通信息,幫助人們理解數(shù)據(jù)中蘊(yùn)藏的規(guī)律和現(xiàn)象。從最終的效果上看,數(shù)據(jù)可視化可分為是靜態(tài)可視化與交互可視化。靜態(tài)數(shù)據(jù)可視化,如圖表和地圖是幾個(gè)世紀(jì)以來(lái)人們一直在使用工具;而交互式的數(shù)據(jù)可視化則與電腦和移動(dòng)設(shè)備的出現(xiàn)分不開(kāi),通過(guò)這些電子設(shè)備,人們可以通過(guò)程序或儀表盤(pán)隨時(shí)調(diào)整各類(lèi)參數(shù),并馬上看到不同的可視化結(jié)果。交互式的數(shù)據(jù)可視化其實(shí)不神秘,Excel中的數(shù)據(jù)透視圖實(shí)現(xiàn)的就是這樣一種效果;其它功能更為強(qiáng)大、交互性更強(qiáng)、效果更為酷炫的可視化工具包括:Python的各種可視化第三方庫(kù)(Matplotlib庫(kù)、Seaborn庫(kù)等),以及各種商業(yè)智能與分析平臺(tái),如:Tableau等。數(shù)據(jù)可視化將大量的高維度繁瑣數(shù)據(jù)以一種直觀的圖表的形式展現(xiàn)出來(lái),使得數(shù)據(jù)在閱讀方面變得極為便捷,使數(shù)據(jù)更加客觀、更具說(shuō)服力。數(shù)據(jù)可視化不僅用于數(shù)據(jù)分析流程的最后階段結(jié)果呈現(xiàn),它也是數(shù)據(jù)挖掘數(shù)據(jù)理解階段的關(guān)鍵輔助工具,幫助我們從多側(cè)面更好地理解數(shù)據(jù),找到規(guī)律,從而調(diào)整使用的分析方法和更合理地設(shè)定模型參數(shù)。以下哪項(xiàng)并不屬于大數(shù)據(jù)的“4V”特征VlueAVrietyBVlocityCVltageD提交單選題1分大數(shù)據(jù)時(shí)代的容錯(cuò)性思維模式體現(xiàn)在以下哪點(diǎn)?( )樣本=總體 A以混雜性取代精確性 B提交以相關(guān)關(guān)系取代因果關(guān)系 C以全體數(shù)據(jù)取代樣本D單選
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度股權(quán)質(zhì)押資產(chǎn)重組合同示范文本3篇
- 二零二五年度鋼材倉(cāng)儲(chǔ)物流服務(wù)合同9篇
- 二零二五年度路燈照明設(shè)施安全檢測(cè)合同樣本2篇
- 二零二五年度:勞動(dòng)合同法實(shí)務(wù)操作與案例分析合同3篇
- 二零二五年度船舶建造與設(shè)備安裝合同2篇
- 二零二五年度農(nóng)產(chǎn)品質(zhì)量檢測(cè)合同范本3篇
- 二零二五年度安置房買(mǎi)賣(mài)合同電子支付與結(jié)算規(guī)范3篇
- 3、2025年度綠色出行接送機(jī)服務(wù)合同范本2篇
- 二零二五年度文化創(chuàng)意產(chǎn)業(yè)合作開(kāi)發(fā)合同范本3篇
- 家里陪護(hù)合同(2篇)
- 手術(shù)室護(hù)理實(shí)踐指南2023年
- 電力安全工作規(guī)程(變電部分)課件
- 新人教版六年級(jí)下冊(cè)數(shù)學(xué)全冊(cè)課件
- 環(huán)保設(shè)施安全風(fēng)險(xiǎn)告知卡
- 卵石地層樁基旋挖鉆施工方案
- 江蘇對(duì)口單招英語(yǔ)考綱詞匯總結(jié)
- (完整word版)手卡模板
- GB/T 4091-2001常規(guī)控制圖
- GB/T 13912-2020金屬覆蓋層鋼鐵制件熱浸鍍鋅層技術(shù)要求及試驗(yàn)方法
- GB 18399-2001棉花加工機(jī)械安全要求
- 陜西省延安市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
評(píng)論
0/150
提交評(píng)論