版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
探索性數(shù)據(jù)分析肖波中央民族大學(xué)探索式數(shù)據(jù)分析統(tǒng)計(jì)推理總體和樣本建立模型概率分布探索式數(shù)據(jù)分析科學(xué)數(shù)據(jù)處理數(shù)據(jù)科學(xué)家的角色案例研究探索性數(shù)據(jù)分析所謂探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,以下簡(jiǎn)稱EDA),是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。數(shù)據(jù)每天都在產(chǎn)生我們生活的世界是復(fù)雜的,隨機(jī)的和不確定的。同時(shí)它又是一個(gè)生成大數(shù)據(jù)的機(jī)器。當(dāng)我們通勤于地鐵和出租車時(shí),當(dāng)我們的血液流經(jīng)我們的身體時(shí),當(dāng)我們通過瀏覽器在因特網(wǎng)購(gòu)物、發(fā)郵件、完成工作和看股票時(shí),當(dāng)我們行動(dòng)、飲食、與朋友談話時(shí),當(dāng)工廠生產(chǎn)出產(chǎn)品時(shí),所有這一切都在生成數(shù)據(jù)。1.統(tǒng)計(jì)推理一旦你持有了全部數(shù)據(jù),你就某種程度上掌握了這個(gè)世界或抓住了世界的軌跡。但是你不可能在一個(gè)有幾百萬數(shù)據(jù)的大型Excel表或數(shù)據(jù)庫上遍歷,獲取圖形,理解現(xiàn)實(shí)和處理它所生成的數(shù)據(jù)。故你需要一個(gè)新的理念,去簡(jiǎn)化這些捕獲的數(shù)據(jù),使之更加容易理解,方法更加簡(jiǎn)潔,使得數(shù)據(jù)適合于建立數(shù)學(xué)模型和函數(shù)。這就是大家知道的統(tǒng)計(jì)方法。
從現(xiàn)實(shí)到數(shù)據(jù)又從數(shù)據(jù)回到現(xiàn)實(shí)的全過程就叫統(tǒng)計(jì)推理。2.總體與樣本總體是指某一事物的全體成員。它可以是任何對(duì)象,如推特、照片或星球的全體。如果我們可以測(cè)度這些對(duì)象的特征,我們就要有一個(gè)完整的觀測(cè)集。通常用常數(shù)N來表示對(duì)于總體的觀測(cè)數(shù)量??傮w中的N個(gè)單獨(dú)個(gè)體就是樣本。獲取樣本的過程叫采樣。3.抽樣
當(dāng)我們抽樣時(shí),我們是抽取總體中的一個(gè)大小為N的子集,以便對(duì)總體進(jìn)行推理和得出某種結(jié)論。從總體取得子集有各種不同的方法。你要確保合理的采樣機(jī)制,因?yàn)樗赡転閿?shù)據(jù)帶來偏差并扭曲結(jié)果。所以樣本并不是總體收縮了的“小我”版本。一旦發(fā)生這種情況,你的所有結(jié)論都是錯(cuò)誤的和歪曲了的。抽樣案例研究
在BigCorp公司郵件的案例中,你可以制作一個(gè)全體雇員的表,然后從所有他們已發(fā)送的郵件中隨機(jī)選擇十分之一。這些郵件就是你的樣本。你也可以每天從發(fā)送的郵件中隨機(jī)抽取十分之一作為你的樣本。
兩個(gè)方法都是有道理的,兩方法也都抽取了同樣樣本個(gè)數(shù)。但是如果你用得到的樣本計(jì)算平均每個(gè)人發(fā)送的郵件個(gè)數(shù)和用樣本來估算BigCorp公司每個(gè)雇員發(fā)送郵件數(shù)的概率分布,你也許會(huì)得到完全不同的答案。
4.大數(shù)據(jù)時(shí)代的總體和樣本
大數(shù)據(jù)時(shí)代我們無時(shí)不在地記錄所有用戶的行為,我們就可以觀察所有的事物嗎?還需要考慮總體和樣本嗎?上例中如果我們?nèi)〉昧怂械泥]件,我們還需要抽樣嗎?大數(shù)據(jù)也需要抽樣
在當(dāng)前大數(shù)據(jù)的熱門討論中,人們主要聚焦于用Hadoop這樣的企業(yè)解決方案來應(yīng)對(duì)大數(shù)據(jù)引起的工程和計(jì)算挑戰(zhàn),忽略了抽樣這一合理的解決方法??墒窃贕oogle公司軟件工程師,數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家一直在使用抽樣方法。
你需要多少數(shù)據(jù)取決于你的目標(biāo)是什么。對(duì)于目標(biāo)為分析和推理來說沒必要取得全部時(shí)間的全部數(shù)據(jù)。而在有的情況下,出于服務(wù)目的,為了取得正確的信息以潤(rùn)色一個(gè)用戶界面時(shí)(可視化圖形),對(duì)于特殊的用戶就需要全部信息。案例研究:大數(shù)據(jù)隱含的偏見如果你在颶風(fēng)桑迪之前和之后立即分析數(shù)據(jù)。你會(huì)認(rèn)為大部分人在桑迪前在超市購(gòu)物,桑迪后在舉辦派對(duì)??墒鞘聦?shí)是大部分推特用戶是紐約人,首先他們比海岸新澤西人用戶多得多。其次是海岸新澤西人在擔(dān)心他們的房子受損去找維護(hù)材料,他們沒有時(shí)間去上推特。換言之,你使用推特的數(shù)據(jù)來理解的話你會(huì)認(rèn)為颶風(fēng)桑迪沒有那么糟糕。你得出這樣的結(jié)論是因?yàn)槟悴捎昧孙Z風(fēng)桑迪的推特用戶數(shù)據(jù)的一個(gè)子集(他們不能代表全體美國(guó)人)。缺席的人因?yàn)樾蝿?shì)所迫沒時(shí)間去上推特。如果你沒有結(jié)合實(shí)地情況和充分了解颶風(fēng)桑迪,你將無法對(duì)結(jié)果做出正確的解釋。5.樣本與采樣分布
在統(tǒng)計(jì)學(xué)中我們經(jīng)常用數(shù)學(xué)模型來模擬總體與樣本之間的關(guān)系。故我們總是要做一些能反應(yīng)真實(shí)的簡(jiǎn)化了的假設(shè)。用過程產(chǎn)生的數(shù)據(jù)來建立數(shù)學(xué)模型和圖形。
我們只觀察生成過程中特殊的一部分?jǐn)?shù)據(jù),這就叫樣本。
由這種采樣產(chǎn)生的不確定性有個(gè)名字叫:采樣分布。6.采樣取得的新數(shù)據(jù)類型(傳統(tǒng):十進(jìn)制數(shù)值,二進(jìn)制)文本:電郵,推特,報(bào)刊文章記錄:用戶級(jí)數(shù)據(jù),時(shí)間戳事件數(shù)據(jù),格式化登錄文件地理位置信息:網(wǎng)絡(luò)數(shù)據(jù)傳感器數(shù)據(jù)圖像、視頻數(shù)據(jù)7.大數(shù)據(jù)的定義“大”是相對(duì)的。構(gòu)造一個(gè)類似于1PB這樣的閾值是沒有意義的,它聽起來太絕對(duì)。只有當(dāng)數(shù)據(jù)的數(shù)據(jù)量大的成為一種挑戰(zhàn)時(shí)才能稱之為“大”。它是一個(gè)由于數(shù)據(jù)量大已經(jīng)無法求解(內(nèi)存,外存,復(fù)雜性,處理速度都無法滿足)時(shí)的相對(duì)的術(shù)語。上世紀(jì)七十年代與現(xiàn)在的“大”意義完全不同?!按蟆敝改銦o法在一臺(tái)計(jì)算機(jī)上調(diào)試它。不同的公司和個(gè)人有不同的適合于他們的計(jì)算資源。若作為一個(gè)科學(xué)家他不能把數(shù)據(jù)匹配到一個(gè)計(jì)算機(jī)上時(shí)就可稱之為大,一旦發(fā)生它必須去學(xué)習(xí)新的工具和方法。8.大數(shù)據(jù)時(shí)代不再需要采樣嗎?有人認(rèn)為大數(shù)據(jù)時(shí)代特征是:搜集和使用大量的數(shù)據(jù)而不是采集少量樣本可承受數(shù)據(jù)的混亂放棄追究原因他們進(jìn)一步認(rèn)為大數(shù)據(jù)不需要理解原因,只要給定足夠大數(shù)據(jù)就行了。他們還認(rèn)為不需要擔(dān)心采樣錯(cuò)誤,因?yàn)樗鼜淖置嫔现v是沿著真理的軌跡走的。因?yàn)樵诖髷?shù)據(jù)研究中:
令樣本個(gè)數(shù)“N=ALL”。
真的能做到“N=ALL"?事實(shí)上是從來做不到。我們往往失去了我們最應(yīng)該關(guān)心的東西。例如就像有人說的那樣,因特網(wǎng)監(jiān)督從來未實(shí)施過。因?yàn)槲覀冏钕胱サ姆浅B斆骱图夹g(shù)精良的罪犯從來沒有抓住過。因?yàn)樗麄兛偸窍任覀円徊?。大量例子中一個(gè)是選舉夜間民意測(cè)驗(yàn),即使我們絕對(duì)調(diào)查了每一個(gè)離開測(cè)驗(yàn)站的人,我們也任然沒有把握誰會(huì)決定不來投票。對(duì)這些人我們本應(yīng)該與之談話使之了解投票意愿的。進(jìn)一步說,我們關(guān)于N=ALL的假設(shè)是大數(shù)據(jù)時(shí)代最大的問題。上述案例中,人們不投票的原因包括沒有時(shí)間,沒有意愿和各種未說明的放棄投票的非正常原因。有些人可能做兼職工作并花費(fèi)時(shí)間于通勤中,沒有出現(xiàn)而使得統(tǒng)計(jì)投票時(shí)沒有他們。9.數(shù)據(jù)不是客觀的另外一個(gè)關(guān)于假定N=ALL的依據(jù)是數(shù)據(jù)是客觀的。相信數(shù)據(jù)是客觀的或“數(shù)據(jù)會(huì)說話”是完全錯(cuò)誤的。而且要當(dāng)心他們變換其他說法。你試圖比較一下以完全相同的資格招收的男雇員和女雇員。你會(huì)發(fā)現(xiàn)女雇員更容易毫無前兆的離職。與男性比較她們會(huì)對(duì)工作環(huán)境提出更多負(fù)面反饋意見。你的模型將在下次招聘時(shí)在同樣條件下傾向于男性。而沒有去檢討你的公司在對(duì)待女性方面存在的不足。N=1
對(duì)于N=ALL的一個(gè)極端說法是N=1。意思是樣本的個(gè)數(shù)為1。在過去樣本個(gè)數(shù)為1是很荒唐的事。你從一個(gè)單個(gè)的實(shí)體上無從做出任何推理。它是如此荒唐。但是N=1在大數(shù)據(jù)時(shí)代具有新的含義。對(duì)于一個(gè)人我們可以記錄海量的信息。事實(shí)上,我們?yōu)榱送评砜赡軓乃麄兊男袨楹褪录线M(jìn)行了采樣(如電話,擊鍵)。這就是用戶級(jí)的模擬化。10.建立模型
人類用不同表達(dá)方式來試圖理解他們周圍的世界,建筑物的體系屬性通過藍(lán)圖和縮小的三維形式來表示。分子生物學(xué)家用三維可視化連接形式表示蛋白質(zhì)的結(jié)構(gòu)。數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家則用代表數(shù)據(jù)的圖形和結(jié)構(gòu)的數(shù)學(xué)函數(shù)來描述數(shù)據(jù)生成過程中的不確定性和隨機(jī)性。這種形式就是模型的概念。統(tǒng)計(jì)模型在你進(jìn)行編程以前最好勾畫一張圖來顯示怎么來處理與你的模型相關(guān)的內(nèi)容。思考一下應(yīng)首先考慮那些因素?誰影響了誰?什么引起了什么?如何檢驗(yàn)它們等?
但是不同的人有不同的思維方式。有的人就喜歡用數(shù)學(xué)術(shù)語來表示這些關(guān)系。數(shù)學(xué)表達(dá)式一般會(huì)含有一些參數(shù),但是參數(shù)的值是未知的。
在數(shù)學(xué)表達(dá)式中常數(shù)用希臘字母表示,數(shù)據(jù)用拉丁字母表示。例如你有兩個(gè)數(shù)據(jù)x和y,它們之間具有線性關(guān)系,可以記作y=α+βx。不知道α和β的實(shí)際值。所以它們是參數(shù)。
有的人喜歡首先用箭頭畫一個(gè)數(shù)據(jù)流圖。顯示事物間如如何相互影響和什么事多次發(fā)生。這在選擇方程前給他們一個(gè)形象的圖形理解。建模是一種藝術(shù)
你有什么訣竅可以生成數(shù)據(jù)模型嗎?事實(shí)上建模一半是科學(xué),一半是藝術(shù)。盡管建模是所有事情的關(guān)鍵,遺憾的是你在哪里也得不到多少指導(dǎo)。你必須假定許多現(xiàn)實(shí)的隱含結(jié)構(gòu)。這也是模型工作的一部分。我們應(yīng)該有一個(gè)標(biāo)準(zhǔn)答案告訴你們?nèi)绾巫龀鲞x擇和解釋,但是現(xiàn)在還沒有一個(gè)公認(rèn)的標(biāo)準(zhǔn)。我們只能深思熟慮并反復(fù)地去修改它。11.探索性數(shù)據(jù)分析(Exploratory
Data
Analysis)
一個(gè)啟動(dòng)的好方法是做探索性數(shù)據(jù)分析(EDA)。這就意味著對(duì)你的數(shù)據(jù)集通過繪圖來建立直觀感覺。EDA很有用,只要你不斷嘗試,出錯(cuò)和再嘗試必有效果。最好的辦法就是由淺入深,由簡(jiǎn)到繁。做你能想到的也許是最愚蠢的事,但它最終結(jié)果可能并不壞。比如你可以通過畫直方圖和散點(diǎn)圖來開始觀察數(shù)據(jù)。然后你就記下結(jié)果。也許結(jié)果會(huì)是錯(cuò)誤的,但是這沒有什么關(guān)系。接著按圖形選擇一個(gè)函數(shù)。寫下來后你自己要仔細(xì)想:對(duì)這函數(shù)有什么感覺嗎?為什么沒有?將會(huì)有什么樣的發(fā)展?一開始簡(jiǎn)單,逐步復(fù)雜化,做出假設(shè)并去驗(yàn)證。
你可以使用發(fā)散的語句如“我假設(shè)我的用戶自然地形成5個(gè)簇,因?yàn)槲衣牭戒N售代表談到他們時(shí)與五種不同類型人談話?!?。接著你就可以用你自己的話找出方程并開始編程。力求模型簡(jiǎn)單
記住從簡(jiǎn)單開始總是好的。在模型的簡(jiǎn)單和精確之間有一個(gè)權(quán)衡。簡(jiǎn)單模型易于解釋和理解。通常一個(gè)粗放的,簡(jiǎn)單的模型可達(dá)到你90%的目的且只花幾個(gè)小時(shí)就可建立和匹配好。而作一個(gè)復(fù)雜的模型花幾個(gè)月也就達(dá)到92%的目的。12.樣本概率分布沒有計(jì)算機(jī)的時(shí)代,科學(xué)家觀察實(shí)際世界現(xiàn)象,對(duì)其進(jìn)行檢測(cè),并且記下它頻繁出現(xiàn)的數(shù)據(jù)的表現(xiàn)圖形。經(jīng)典的例子是人類的身高遵從正態(tài)分布,形狀想一個(gè)鍾的形狀。也叫也叫哥西分布,這是由數(shù)學(xué)家高斯命名的。其他常用的形狀在它們被觀察到后都被命名(如普爾森分布和韋伯分布)。其他像伽馬分布和指數(shù)分布由相應(yīng)的數(shù)學(xué)對(duì)象而得名。一般是通過實(shí)驗(yàn)檢測(cè)獲取的形狀來近似逼近于一個(gè)帶有參數(shù)的數(shù)學(xué)函數(shù)。參數(shù)可以通過數(shù)據(jù)來估計(jì)。正態(tài)分布正態(tài)分布函數(shù)其參數(shù)μ是一個(gè)平均的中值,控制分布的中心(因?yàn)槭菍?duì)稱分布)。參數(shù)σ控制分布式如何展開。這是一般的函數(shù)形式。在特定的實(shí)際世界現(xiàn)象里。這些參數(shù)都有具體的數(shù)值。它們是通過數(shù)據(jù)估計(jì)來取得。隨機(jī)變量x或y可以指定一個(gè)概率分布p(x)。把x映射到一個(gè)正實(shí)數(shù)。為了使之成為一個(gè)概率密度函數(shù),必須限制p(x)函數(shù)取值在曲線面積之下積分值.為1,則可解釋為概率。一些常見的概率分布13.模型匹配匹配意味著使用觀測(cè)到的數(shù)據(jù)來估計(jì)模型的參數(shù)。你用你的數(shù)據(jù)為證據(jù)來近似實(shí)際數(shù)學(xué)處理并產(chǎn)生數(shù)據(jù)。匹配模型經(jīng)常涉及到優(yōu)選法和算法。像最大似然法之類就可幫助取得參數(shù)。
事實(shí)上,在你估計(jì)參數(shù)的時(shí)候它就是個(gè)估算器,意思是說它本身就是數(shù)據(jù)的函數(shù)。模型匹配好后你可以寫成y=7.2+4.5x的樣子。例子中告訴你兩個(gè)變量之間的關(guān)系,根據(jù)你的假定,它們是一種線性模式。
匹配好模型是在你開始編程的前提,你的程序?qū)⒁x入數(shù)據(jù),你要指定你在選擇的函數(shù)。R或者Python語言將使用內(nèi)置的優(yōu)化方法給出相應(yīng)數(shù)據(jù)最好的參數(shù)值。錯(cuò)誤匹配你會(huì)被反復(fù)提醒關(guān)于錯(cuò)誤匹配的問題,這個(gè)問題這會(huì)成為你的夢(mèng)魘。過度匹配是一個(gè)術(shù)語,用來指你用一個(gè)數(shù)據(jù)集來估計(jì)你的模型,但是你采集的樣本并不適合于你的模型。14.探索性數(shù)據(jù)分析(EDA)方法EDA
的基本工具是畫圖和綜合統(tǒng)計(jì)學(xué)。一般講,它是研究數(shù)據(jù)的系統(tǒng)化方法。畫出變量的分布(直方圖),畫出數(shù)據(jù)的時(shí)間序列,變換變量,使用矩陣研究變量間的關(guān)系,生成綜合條件結(jié)果。很少去計(jì)算平均值,最小最大值等。EDA需要的工具也很多,你想要理解數(shù)據(jù)。理解它的形狀,根據(jù)你的理解去處理數(shù)據(jù)。EDA是你分析數(shù)據(jù)的工具。它不能證明任何事情。
15.EDA的作用凡是做數(shù)據(jù)分析的人都要先做EDA的主要理由是為了得到數(shù)據(jù)的靈感。為了做分布函數(shù)的比較,為了審驗(yàn)數(shù)據(jù)(確保數(shù)據(jù)達(dá)到你期望的規(guī)模,符合你要的格式),去發(fā)現(xiàn)數(shù)據(jù)丟失,數(shù)據(jù)超界和總結(jié)數(shù)據(jù)的特征。
數(shù)據(jù)是由日志生成的。EDA也可幫助調(diào)試處理。例如數(shù)據(jù)的模式在登錄時(shí)可能是錯(cuò)誤的需要修改。如果你不調(diào)試糾正問題,你將會(huì)認(rèn)為的模式是真實(shí)的。我們一起工作的工程師在這些方面總會(huì)對(duì)你很有幫助。
最后要說,EDA幫助你確保產(chǎn)品符合最初的要求。
16、EDA與可視化的區(qū)別盡管EDA牽扯到許多可視化需求。我們還是要區(qū)別一下EDA與可視化有什么不同。EDA是在數(shù)據(jù)分析之前,而可視化用于我們的結(jié)果,是在數(shù)據(jù)分析之后。對(duì)于EDA來說圖形只是為了幫助你理解。
EDA也可用來改進(jìn)我們的算法。比如你想開發(fā)一個(gè)矩陣算法,你可以把內(nèi)容展示給用戶,這樣做是為了開發(fā)出一個(gè)廣受歡迎的產(chǎn)品出來。在你決定吸引眼球之前(例如最高的點(diǎn)擊率,收到大量的評(píng)論,評(píng)論超過閾值,提高平均權(quán)重)。最好的辦法是觀察數(shù)據(jù)的行為并動(dòng)手去實(shí)踐。畫一下圖并進(jìn)行比較使得你走的更遠(yuǎn)。賽過你得到數(shù)據(jù)后以為你了解而立即進(jìn)行回歸計(jì)算。對(duì)于分析員和科學(xué)家來說,沒有經(jīng)過EDA階段就處理數(shù)據(jù)是一個(gè)傷害。要抓住機(jī)會(huì)使之成為處理的一部分。17.數(shù)據(jù)科學(xué)處理清洗數(shù)據(jù)我們先從原始日志數(shù)據(jù)開始,奧林匹克記錄,雇員郵件,或被記錄的一般材料(當(dāng)我們占據(jù)原始數(shù)據(jù)的時(shí)候,許多活動(dòng)數(shù)據(jù)已缺失了)。為了分析用首先要清洗數(shù)據(jù):合并,清除,填補(bǔ)或其他行為。為了做這件事我們要使用工具像Python,Shell
Scrapt,R或SQL,或者都用。
逐漸我們的數(shù)據(jù)得到了好的格式,就像下面的列:
Name|event|year|gender|event
time
這是一個(gè)典型的統(tǒng)計(jì)學(xué)開端。得到一個(gè)干凈、有序的數(shù)據(jù)集。但是真實(shí)世界可沒有這么典型。
EDA我們有了干凈的數(shù)據(jù)集就可以開始EDA了。在EDA的課程中我們知道數(shù)據(jù)不會(huì)那么干凈,由于丟失、重復(fù)、錯(cuò)誤和數(shù)據(jù)沒有正確的記錄。如果這樣只能回去再采集更多的數(shù)據(jù)或花更多時(shí)間去清洗。
數(shù)據(jù)挖掘接著使用某個(gè)算法像k-近鄰法(k-NN),線性回歸,貝葉斯等等來設(shè)計(jì)我們的模型。模型的選擇根據(jù)我們要解決問題的類型。當(dāng)然它可能是一個(gè)分類問題,預(yù)測(cè)問題或基本標(biāo)識(shí)問題。
數(shù)據(jù)產(chǎn)品下面我們可以解釋、報(bào)告、或傳輸我們的結(jié)果。我們用報(bào)告的形式交給老板或合作者手里。可以在雜志上發(fā)表或在大會(huì)上作學(xué)術(shù)報(bào)告。
同時(shí)我們的成果可能成為一個(gè)“數(shù)據(jù)產(chǎn)品”的原型。例如一個(gè)郵件垃圾分類器,一個(gè)搜索算法或一個(gè)推送系統(tǒng)。與統(tǒng)計(jì)學(xué)的不同點(diǎn)在于數(shù)據(jù)產(chǎn)品又回饋給了真實(shí)世界。用戶與產(chǎn)品交互又產(chǎn)生更多的數(shù)據(jù),形成一個(gè)反饋循環(huán)。
通過循環(huán)你可以調(diào)整任何分析中你的模型引起的問題。你的模型不僅可以預(yù)測(cè)未來,還可以影響未來。
產(chǎn)品化的數(shù)據(jù)產(chǎn)品與用戶的交互在一端而事實(shí)在另一端,不能認(rèn)為你使用的數(shù)據(jù)產(chǎn)品是萬能的。公共政策由統(tǒng)計(jì)模型確定,健康保險(xiǎn)、選舉調(diào)查會(huì)受到廣泛的影響。你應(yīng)該觀察和理解變化的現(xiàn)象,擴(kuò)展模型去適應(yīng)之。
18.數(shù)據(jù)科學(xué)家的角色數(shù)據(jù)科學(xué)家的工作可以認(rèn)為數(shù)據(jù)科學(xué)處理是作為一種科學(xué)方法與現(xiàn)實(shí)的結(jié)合。分幾個(gè)階段實(shí)施:
提問做背景研究構(gòu)造假設(shè)通過實(shí)驗(yàn)驗(yàn)證假設(shè)分析數(shù)據(jù)和做出去結(jié)論發(fā)布結(jié)果19.建模的三個(gè)主要算法線性回歸k-NN(k近鄰算法)k-平均算法20.EDA案例一某燈泡生產(chǎn)廠商測(cè)試某種新型燈泡的燃燒壽命,如下數(shù)據(jù)表格列出了200個(gè)燈泡樣本的可使用小時(shí)數(shù)。要求建立燈泡燃燒壽命數(shù)學(xué)模型。200個(gè)燈泡壽命數(shù)據(jù):1.直方圖>hist(x)>hist(x,breaks=15)繪出直方圖和密度估計(jì)曲線和正態(tài)分布的概率密度曲線>hist(x,freq=FALSE)>lines(density(x),col="blue")>w<-min(x):max(x)>lines(w,dnorm(w,mean(x),sd(x)),col="red")繪出200個(gè)燈泡使用時(shí)間的經(jīng)驗(yàn)分布圖和相應(yīng)的正態(tài)分布圖>plot(ecdf(x),verticals=TRUE,do.p=FALSE)>w<-min(x):max(x)>lines(w,pnorm(w,mean(x),sd(x)))畫出數(shù)據(jù)的正態(tài)QQ圖和正態(tài)QQ曲線,判斷樣本是否來自正態(tài)總體qqnorm(x);qqline(x)因此,根據(jù)Q-Q圖可以得出數(shù)據(jù)呈正態(tài)分布的結(jié)論EDA案例二為了對(duì)全球經(jīng)濟(jì)的發(fā)展趨勢(shì)和世界頂級(jí)公司的經(jīng)營(yíng)狀況做一些研究,可以從公共網(wǎng)站上下載數(shù)據(jù),用軟件JMP略作整理之后可以得到如表一所示的數(shù)據(jù)表,其中包含了上榜公司的名稱、所屬行業(yè)、所屬國(guó)家、上榜年份、上榜排名、市場(chǎng)價(jià)值、資產(chǎn)額、銷售額、利潤(rùn)額等9個(gè)變量,總計(jì)14000條記錄(每年2000條,從2004年至2010年共7個(gè)年度)。表一:畫出泡泡圖:泡大小表示利潤(rùn)。中企:其他EDA案例假如對(duì)一組2人的飲酒者所飲酒類進(jìn)行調(diào)查,把飲酒者按紅酒(1)、白酒(2)、黃酒(3)、啤酒(4)、分成四類。調(diào)查數(shù)據(jù)如下:3,4,1,1,3,4,3,3,1,3,2,1,2,1,2,3,2,3,1,1,1,1,4,3,1。用拼圖分析如下:>drink=c(3,4,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【培訓(xùn)課件】顧問式營(yíng)銷技術(shù)探討
- 產(chǎn)后排尿困難的健康宣教
- 共點(diǎn)力作用下物體的平衡課件
- 孕期陰道炎的健康宣教
- 《論述類總復(fù)習(xí)》課件
- JJF(陜) 043-2020 非接觸式視頻引伸計(jì)校準(zhǔn)規(guī)范
- JJF(黔) 80-2024 經(jīng)皮黃疸測(cè)試儀校準(zhǔn)規(guī)范
- 【大學(xué)課件】網(wǎng)絡(luò)安全基礎(chǔ)
- 社會(huì)實(shí)踐活動(dòng)豐富教研內(nèi)容計(jì)劃
- 財(cái)務(wù)道德在職業(yè)中的重要性計(jì)劃
- 泳池合伙協(xié)議
- 倉(cāng)庫盤點(diǎn)管理流程
- TD-T 1049-2016 礦山土地復(fù)墾基礎(chǔ)信息調(diào)查規(guī)程
- 計(jì)算機(jī)應(yīng)用基礎(chǔ) Excel制作行業(yè)狀況調(diào)查表
- 中國(guó)傳統(tǒng)節(jié)日演示文稿
- 重大火災(zāi)事故隱患檢查表
- 默納克電梯故障代碼(珍藏版)
- 中國(guó)臺(tái)灣茂迪MT4090 LCR測(cè)試儀 數(shù)字式電橋
- 【課件】第三章+第四節(jié)+配合物與超分子高二化學(xué)人教版(2019)選擇性必修2
- 高速鐵路客運(yùn)乘務(wù)的畢業(yè)四篇
- GB/T 20221-2006無壓埋地排污、排水用硬聚氯乙烯(PVC-U)管材
評(píng)論
0/150
提交評(píng)論