探索性數(shù)據(jù)分析

上傳人：2*** IP屬地：湖北上傳時間：2023-02-01 格式：PPT 頁數(shù)：56 大?。?.24MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩51頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

探索性數(shù)據(jù)分析肖波中央民族大學(xué)探索式數(shù)據(jù)分析統(tǒng)計推理總體和樣本建立模型概率分布探索式數(shù)據(jù)分析科學(xué)數(shù)據(jù)處理數(shù)據(jù)科學(xué)家的角色案例研究探索性數(shù)據(jù)分析所謂探索性數(shù)據(jù)分析（ExploratoryDataAnalysis，以下簡稱EDA），是指對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗假定下進(jìn)行探索，通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。數(shù)據(jù)每天都在產(chǎn)生我們生活的世界是復(fù)雜的，隨機(jī)的和不確定的。同時它又是一個生成大數(shù)據(jù)的機(jī)器。當(dāng)我們通勤于地鐵和出租車時，當(dāng)我們的血液流經(jīng)我們的身體時，當(dāng)我們通過瀏覽器在因特網(wǎng)購物、發(fā)郵件、完成工作和看股票時，當(dāng)我們行動、飲食、與朋友談話時，當(dāng)工廠生產(chǎn)出產(chǎn)品時，所有這一切都在生成數(shù)據(jù)。1.統(tǒng)計推理一旦你持有了全部數(shù)據(jù)，你就某種程度上掌握了這個世界或抓住了世界的軌跡。但是你不可能在一個有幾百萬數(shù)據(jù)的大型Excel表或數(shù)據(jù)庫上遍歷，獲取圖形，理解現(xiàn)實和處理它所生成的數(shù)據(jù)。故你需要一個新的理念，去簡化這些捕獲的數(shù)據(jù)，使之更加容易理解，方法更加簡潔，使得數(shù)據(jù)適合于建立數(shù)學(xué)模型和函數(shù)。這就是大家知道的統(tǒng)計方法。

從現(xiàn)實到數(shù)據(jù)又從數(shù)據(jù)回到現(xiàn)實的全過程就叫統(tǒng)計推理。2.總體與樣本總體是指某一事物的全體成員。它可以是任何對象，如推特、照片或星球的全體。如果我們可以測度這些對象的特征，我們就要有一個完整的觀測集。通常用常數(shù)N來表示對于總體的觀測數(shù)量。總體中的N個單獨(dú)個體就是樣本。獲取樣本的過程叫采樣。3.抽樣

當(dāng)我們抽樣時，我們是抽取總體中的一個大小為N的子集，以便對總體進(jìn)行推理和得出某種結(jié)論。從總體取得子集有各種不同的方法。你要確保合理的采樣機(jī)制，因為它可能為數(shù)據(jù)帶來偏差并扭曲結(jié)果。所以樣本并不是總體收縮了的“小我”版本。一旦發(fā)生這種情況，你的所有結(jié)論都是錯誤的和歪曲了的。抽樣案例研究

在BigCorp公司郵件的案例中，你可以制作一個全體雇員的表，然后從所有他們已發(fā)送的郵件中隨機(jī)選擇十分之一。這些郵件就是你的樣本。你也可以每天從發(fā)送的郵件中隨機(jī)抽取十分之一作為你的樣本。

兩個方法都是有道理的，兩方法也都抽取了同樣樣本個數(shù)。但是如果你用得到的樣本計算平均每個人發(fā)送的郵件個數(shù)和用樣本來估算BigCorp公司每個雇員發(fā)送郵件數(shù)的概率分布，你也許會得到完全不同的答案。

4.大數(shù)據(jù)時代的總體和樣本

大數(shù)據(jù)時代我們無時不在地記錄所有用戶的行為，我們就可以觀察所有的事物嗎？還需要考慮總體和樣本嗎？上例中如果我們?nèi)〉昧怂械泥]件，我們還需要抽樣嗎？大數(shù)據(jù)也需要抽樣

在當(dāng)前大數(shù)據(jù)的熱門討論中，人們主要聚焦于用Hadoop這樣的企業(yè)解決方案來應(yīng)對大數(shù)據(jù)引起的工程和計算挑戰(zhàn)，忽略了抽樣這一合理的解決方法。可是在Google公司軟件工程師，數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家一直在使用抽樣方法。

你需要多少數(shù)據(jù)取決于你的目標(biāo)是什么。對于目標(biāo)為分析和推理來說沒必要取得全部時間的全部數(shù)據(jù)。而在有的情況下，出于服務(wù)目的，為了取得正確的信息以潤色一個用戶界面時（可視化圖形），對于特殊的用戶就需要全部信息。案例研究：大數(shù)據(jù)隱含的偏見如果你在颶風(fēng)桑迪之前和之后立即分析數(shù)據(jù)。你會認(rèn)為大部分人在桑迪前在超市購物，桑迪后在舉辦派對?？墒鞘聦嵤谴蟛糠滞铺赜脩羰羌~約人，首先他們比海岸新澤西人用戶多得多。其次是海岸新澤西人在擔(dān)心他們的房子受損去找維護(hù)材料，他們沒有時間去上推特。換言之，你使用推特的數(shù)據(jù)來理解的話你會認(rèn)為颶風(fēng)桑迪沒有那么糟糕。你得出這樣的結(jié)論是因為你采用了颶風(fēng)桑迪的推特用戶數(shù)據(jù)的一個子集（他們不能代表全體美國人）。缺席的人因為形勢所迫沒時間去上推特。如果你沒有結(jié)合實地情況和充分了解颶風(fēng)桑迪，你將無法對結(jié)果做出正確的解釋。5.樣本與采樣分布

在統(tǒng)計學(xué)中我們經(jīng)常用數(shù)學(xué)模型來模擬總體與樣本之間的關(guān)系。故我們總是要做一些能反應(yīng)真實的簡化了的假設(shè)。用過程產(chǎn)生的數(shù)據(jù)來建立數(shù)學(xué)模型和圖形。

我們只觀察生成過程中特殊的一部分?jǐn)?shù)據(jù)，這就叫樣本。

由這種采樣產(chǎn)生的不確定性有個名字叫：采樣分布。6.采樣取得的新數(shù)據(jù)類型（傳統(tǒng)：十進(jìn)制數(shù)值，二進(jìn)制）文本：電郵，推特，報刊文章記錄：用戶級數(shù)據(jù)，時間戳事件數(shù)據(jù)，格式化登錄文件地理位置信息：網(wǎng)絡(luò)數(shù)據(jù)傳感器數(shù)據(jù)圖像、視頻數(shù)據(jù)7.大數(shù)據(jù)的定義“大”是相對的。構(gòu)造一個類似于1PB這樣的閾值是沒有意義的，它聽起來太絕對。只有當(dāng)數(shù)據(jù)的數(shù)據(jù)量大的成為一種挑戰(zhàn)時才能稱之為“大”。它是一個由于數(shù)據(jù)量大已經(jīng)無法求解（內(nèi)存，外存，復(fù)雜性，處理速度都無法滿足）時的相對的術(shù)語。上世紀(jì)七十年代與現(xiàn)在的“大”意義完全不同。“大”指你無法在一臺計算機(jī)上調(diào)試它。不同的公司和個人有不同的適合于他們的計算資源。若作為一個科學(xué)家他不能把數(shù)據(jù)匹配到一個計算機(jī)上時就可稱之為大，一旦發(fā)生它必須去學(xué)習(xí)新的工具和方法。8.大數(shù)據(jù)時代不再需要采樣嗎？有人認(rèn)為大數(shù)據(jù)時代特征是：搜集和使用大量的數(shù)據(jù)而不是采集少量樣本可承受數(shù)據(jù)的混亂放棄追究原因他們進(jìn)一步認(rèn)為大數(shù)據(jù)不需要理解原因，只要給定足夠大數(shù)據(jù)就行了。他們還認(rèn)為不需要擔(dān)心采樣錯誤，因為它從字面上講是沿著真理的軌跡走的。因為在大數(shù)據(jù)研究中：

令樣本個數(shù)“N=ALL”。

真的能做到“N=ALL"?事實上是從來做不到。我們往往失去了我們最應(yīng)該關(guān)心的東西。例如就像有人說的那樣，因特網(wǎng)監(jiān)督從來未實施過。因為我們最想抓的非常聰明和技術(shù)精良的罪犯從來沒有抓住過。因為他們總是先我們一步。大量例子中一個是選舉夜間民意測驗，即使我們絕對調(diào)查了每一個離開測驗站的人，我們也任然沒有把握誰會決定不來投票。對這些人我們本應(yīng)該與之談話使之了解投票意愿的。進(jìn)一步說，我們關(guān)于N=ALL的假設(shè)是大數(shù)據(jù)時代最大的問題。上述案例中，人們不投票的原因包括沒有時間，沒有意愿和各種未說明的放棄投票的非正常原因。有些人可能做兼職工作并花費(fèi)時間于通勤中，沒有出現(xiàn)而使得統(tǒng)計投票時沒有他們。9.數(shù)據(jù)不是客觀的另外一個關(guān)于假定N=ALL的依據(jù)是數(shù)據(jù)是客觀的。相信數(shù)據(jù)是客觀的或“數(shù)據(jù)會說話”是完全錯誤的。而且要當(dāng)心他們變換其他說法。你試圖比較一下以完全相同的資格招收的男雇員和女雇員。你會發(fā)現(xiàn)女雇員更容易毫無前兆的離職。與男性比較她們會對工作環(huán)境提出更多負(fù)面反饋意見。你的模型將在下次招聘時在同樣條件下傾向于男性。而沒有去檢討你的公司在對待女性方面存在的不足。N=1

對于N=ALL的一個極端說法是N=1。意思是樣本的個數(shù)為1。在過去樣本個數(shù)為1是很荒唐的事。你從一個單個的實體上無從做出任何推理。它是如此荒唐。但是N=1在大數(shù)據(jù)時代具有新的含義。對于一個人我們可以記錄海量的信息。事實上，我們?yōu)榱送评砜赡軓乃麄兊男袨楹褪录线M(jìn)行了采樣（如電話，擊鍵）。這就是用戶級的模擬化。10.建立模型

人類用不同表達(dá)方式來試圖理解他們周圍的世界，建筑物的體系屬性通過藍(lán)圖和縮小的三維形式來表示。分子生物學(xué)家用三維可視化連接形式表示蛋白質(zhì)的結(jié)構(gòu)。數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家則用代表數(shù)據(jù)的圖形和結(jié)構(gòu)的數(shù)學(xué)函數(shù)來描述數(shù)據(jù)生成過程中的不確定性和隨機(jī)性。這種形式就是模型的概念。統(tǒng)計模型在你進(jìn)行編程以前最好勾畫一張圖來顯示怎么來處理與你的模型相關(guān)的內(nèi)容。思考一下應(yīng)首先考慮那些因素？誰影響了誰？什么引起了什么？如何檢驗它們等？

但是不同的人有不同的思維方式。有的人就喜歡用數(shù)學(xué)術(shù)語來表示這些關(guān)系。數(shù)學(xué)表達(dá)式一般會含有一些參數(shù)，但是參數(shù)的值是未知的。

在數(shù)學(xué)表達(dá)式中常數(shù)用希臘字母表示，數(shù)據(jù)用拉丁字母表示。例如你有兩個數(shù)據(jù)x和y，它們之間具有線性關(guān)系，可以記作y=α+βx。不知道α和β的實際值。所以它們是參數(shù)。

有的人喜歡首先用箭頭畫一個數(shù)據(jù)流圖。顯示事物間如如何相互影響和什么事多次發(fā)生。這在選擇方程前給他們一個形象的圖形理解。建模是一種藝術(shù)

你有什么訣竅可以生成數(shù)據(jù)模型嗎？事實上建模一半是科學(xué)，一半是藝術(shù)。盡管建模是所有事情的關(guān)鍵，遺憾的是你在哪里也得不到多少指導(dǎo)。你必須假定許多現(xiàn)實的隱含結(jié)構(gòu)。這也是模型工作的一部分。我們應(yīng)該有一個標(biāo)準(zhǔn)答案告訴你們?nèi)绾巫龀鲞x擇和解釋，但是現(xiàn)在還沒有一個公認(rèn)的標(biāo)準(zhǔn)。我們只能深思熟慮并反復(fù)地去修改它。11.探索性數(shù)據(jù)分析(Exploratory

Data

Analysis)

一個啟動的好方法是做探索性數(shù)據(jù)分析(EDA)。這就意味著對你的數(shù)據(jù)集通過繪圖來建立直觀感覺。EDA很有用，只要你不斷嘗試，出錯和再嘗試必有效果。最好的辦法就是由淺入深，由簡到繁。做你能想到的也許是最愚蠢的事，但它最終結(jié)果可能并不壞。比如你可以通過畫直方圖和散點(diǎn)圖來開始觀察數(shù)據(jù)。然后你就記下結(jié)果。也許結(jié)果會是錯誤的，但是這沒有什么關(guān)系。接著按圖形選擇一個函數(shù)。寫下來后你自己要仔細(xì)想：對這函數(shù)有什么感覺嗎？為什么沒有？將會有什么樣的發(fā)展？一開始簡單，逐步復(fù)雜化，做出假設(shè)并去驗證。

你可以使用發(fā)散的語句如“我假設(shè)我的用戶自然地形成5個簇，因為我聽到銷售代表談到他們時與五種不同類型人談話。”。接著你就可以用你自己的話找出方程并開始編程。力求模型簡單

記住從簡單開始總是好的。在模型的簡單和精確之間有一個權(quán)衡。簡單模型易于解釋和理解。通常一個粗放的，簡單的模型可達(dá)到你90%的目的且只花幾個小時就可建立和匹配好。而作一個復(fù)雜的模型花幾個月也就達(dá)到92%的目的。12.樣本概率分布沒有計算機(jī)的時代，科學(xué)家觀察實際世界現(xiàn)象，對其進(jìn)行檢測，并且記下它頻繁出現(xiàn)的數(shù)據(jù)的表現(xiàn)圖形。經(jīng)典的例子是人類的身高遵從正態(tài)分布，形狀想一個鍾的形狀。也叫也叫哥西分布，這是由數(shù)學(xué)家高斯命名的。其他常用的形狀在它們被觀察到后都被命名（如普爾森分布和韋伯分布）。其他像伽馬分布和指數(shù)分布由相應(yīng)的數(shù)學(xué)對象而得名。一般是通過實驗檢測獲取的形狀來近似逼近于一個帶有參數(shù)的數(shù)學(xué)函數(shù)。參數(shù)可以通過數(shù)據(jù)來估計。正態(tài)分布正態(tài)分布函數(shù)其參數(shù)μ是一個平均的中值，控制分布的中心（因為是對稱分布）。參數(shù)σ控制分布式如何展開。這是一般的函數(shù)形式。在特定的實際世界現(xiàn)象里。這些參數(shù)都有具體的數(shù)值。它們是通過數(shù)據(jù)估計來取得。隨機(jī)變量x或y可以指定一個概率分布p(x)。把x映射到一個正實數(shù)。為了使之成為一個概率密度函數(shù)，必須限制p(x)函數(shù)取值在曲線面積之下積分值.為1，則可解釋為概率。一些常見的概率分布13.模型匹配匹配意味著使用觀測到的數(shù)據(jù)來估計模型的參數(shù)。你用你的數(shù)據(jù)為證據(jù)來近似實際數(shù)學(xué)處理并產(chǎn)生數(shù)據(jù)。匹配模型經(jīng)常涉及到優(yōu)選法和算法。像最大似然法之類就可幫助取得參數(shù)。

事實上，在你估計參數(shù)的時候它就是個估算器，意思是說它本身就是數(shù)據(jù)的函數(shù)。模型匹配好后你可以寫成y=7.2+4.5x的樣子。例子中告訴你兩個變量之間的關(guān)系，根據(jù)你的假定，它們是一種線性模式。

匹配好模型是在你開始編程的前提，你的程序?qū)⒁x入數(shù)據(jù)，你要指定你在選擇的函數(shù)。R或者Python語言將使用內(nèi)置的優(yōu)化方法給出相應(yīng)數(shù)據(jù)最好的參數(shù)值。錯誤匹配你會被反復(fù)提醒關(guān)于錯誤匹配的問題，這個問題這會成為你的夢魘。過度匹配是一個術(shù)語，用來指你用一個數(shù)據(jù)集來估計你的模型，但是你采集的樣本并不適合于你的模型。14.探索性數(shù)據(jù)分析（EDA)方法EDA

的基本工具是畫圖和綜合統(tǒng)計學(xué)。一般講，它是研究數(shù)據(jù)的系統(tǒng)化方法。畫出變量的分布（直方圖），畫出數(shù)據(jù)的時間序列，變換變量，使用矩陣研究變量間的關(guān)系，生成綜合條件結(jié)果。很少去計算平均值，最小最大值等。EDA需要的工具也很多，你想要理解數(shù)據(jù)。理解它的形狀，根據(jù)你的理解去處理數(shù)據(jù)。EDA是你分析數(shù)據(jù)的工具。它不能證明任何事情。

15.EDA的作用凡是做數(shù)據(jù)分析的人都要先做EDA的主要理由是為了得到數(shù)據(jù)的靈感。為了做分布函數(shù)的比較，為了審驗數(shù)據(jù)（確保數(shù)據(jù)達(dá)到你期望的規(guī)模，符合你要的格式），去發(fā)現(xiàn)數(shù)據(jù)丟失，數(shù)據(jù)超界和總結(jié)數(shù)據(jù)的特征。

數(shù)據(jù)是由日志生成的。EDA也可幫助調(diào)試處理。例如數(shù)據(jù)的模式在登錄時可能是錯誤的需要修改。如果你不調(diào)試糾正問題，你將會認(rèn)為的模式是真實的。我們一起工作的工程師在這些方面總會對你很有幫助。

最后要說，EDA幫助你確保產(chǎn)品符合最初的要求。

16、EDA與可視化的區(qū)別盡管EDA牽扯到許多可視化需求。我們還是要區(qū)別一下EDA與可視化有什么不同。EDA是在數(shù)據(jù)分析之前，而可視化用于我們的結(jié)果，是在數(shù)據(jù)分析之后。對于EDA來說圖形只是為了幫助你理解。

EDA也可用來改進(jìn)我們的算法。比如你想開發(fā)一個矩陣算法，你可以把內(nèi)容展示給用戶，這樣做是為了開發(fā)出一個廣受歡迎的產(chǎn)品出來。在你決定吸引眼球之前（例如最高的點(diǎn)擊率，收到大量的評論，評論超過閾值，提高平均權(quán)重）。最好的辦法是觀察數(shù)據(jù)的行為并動手去實踐。畫一下圖并進(jìn)行比較使得你走的更遠(yuǎn)。賽過你得到數(shù)據(jù)后以為你了解而立即進(jìn)行回歸計算。對于分析員和科學(xué)家來說，沒有經(jīng)過EDA階段就處理數(shù)據(jù)是一個傷害。要抓住機(jī)會使之成為處理的一部分。17.數(shù)據(jù)科學(xué)處理清洗數(shù)據(jù)我們先從原始日志數(shù)據(jù)開始，奧林匹克記錄，雇員郵件，或被記錄的一般材料（當(dāng)我們占據(jù)原始數(shù)據(jù)的時候，許多活動數(shù)據(jù)已缺失了）。為了分析用首先要清洗數(shù)據(jù)：合并，清除，填補(bǔ)或其他行為。為了做這件事我們要使用工具像Python,Shell

Scrapt,R或SQL，或者都用。

逐漸我們的數(shù)據(jù)得到了好的格式，就像下面的列：

Name|event|year|gender|event

time

這是一個典型的統(tǒng)計學(xué)開端。得到一個干凈、有序的數(shù)據(jù)集。但是真實世界可沒有這么典型。

EDA我們有了干凈的數(shù)據(jù)集就可以開始EDA了。在EDA的課程中我們知道數(shù)據(jù)不會那么干凈，由于丟失、重復(fù)、錯誤和數(shù)據(jù)沒有正確的記錄。如果這樣只能回去再采集更多的數(shù)據(jù)或花更多時間去清洗。

數(shù)據(jù)挖掘接著使用某個算法像k-近鄰法（k-NN)，線性回歸，貝葉斯等等來設(shè)計我們的模型。模型的選擇根據(jù)我們要解決問題的類型。當(dāng)然它可能是一個分類問題，預(yù)測問題或基本標(biāo)識問題。

數(shù)據(jù)產(chǎn)品下面我們可以解釋、報告、或傳輸我們的結(jié)果。我們用報告的形式交給老板或合作者手里。可以在雜志上發(fā)表或在大會上作學(xué)術(shù)報告。

同時我們的成果可能成為一個“數(shù)據(jù)產(chǎn)品”的原型。例如一個郵件垃圾分類器，一個搜索算法或一個推送系統(tǒng)。與統(tǒng)計學(xué)的不同點(diǎn)在于數(shù)據(jù)產(chǎn)品又回饋給了真實世界。用戶與產(chǎn)品交互又產(chǎn)生更多的數(shù)據(jù)，形成一個反饋循環(huán)。

通過循環(huán)你可以調(diào)整任何分析中你的模型引起的問題。你的模型不僅可以預(yù)測未來，還可以影響未來。

產(chǎn)品化的數(shù)據(jù)產(chǎn)品與用戶的交互在一端而事實在另一端，不能認(rèn)為你使用的數(shù)據(jù)產(chǎn)品是萬能的。公共政策由統(tǒng)計模型確定，健康保險、選舉調(diào)查會受到廣泛的影響。你應(yīng)該觀察和理解變化的現(xiàn)象，擴(kuò)展模型去適應(yīng)之。

18.數(shù)據(jù)科學(xué)家的角色數(shù)據(jù)科學(xué)家的工作可以認(rèn)為數(shù)據(jù)科學(xué)處理是作為一種科學(xué)方法與現(xiàn)實的結(jié)合。分幾個階段實施：

提問做背景研究構(gòu)造假設(shè)通過實驗驗證假設(shè)分析數(shù)據(jù)和做出去結(jié)論發(fā)布結(jié)果19.建模的三個主要算法線性回歸k-NN(k近鄰算法)k-平均算法20.EDA案例一某燈泡生產(chǎn)廠商測試某種新型燈泡的燃燒壽命，如下數(shù)據(jù)表格列出了200個燈泡樣本的可使用小時數(shù)。要求建立燈泡燃燒壽命數(shù)學(xué)模型。200個燈泡壽命數(shù)據(jù)：1.直方圖>hist(x)>hist(x,breaks=15)繪出直方圖和密度估計曲線和正態(tài)分布的概率密度曲線>hist(x,freq=FALSE)>lines(density(x),col="blue")>w<-min(x):max(x)>lines(w,dnorm(w,mean(x),sd(x)),col="red")繪出200個燈泡使用時間的經(jīng)驗分布圖和相應(yīng)的正態(tài)分布圖>plot(ecdf(x),verticals=TRUE,do.p=FALSE)>w<-min(x):max(x)>lines(w,pnorm(w,mean(x),sd(x)))畫出數(shù)據(jù)的正態(tài)QQ圖和正態(tài)QQ曲線，判斷樣本是否來自正態(tài)總體qqnorm(x);qqline(x)因此，根據(jù)Q-Q圖可以得出數(shù)據(jù)呈正態(tài)分布的結(jié)論EDA案例二為了對全球經(jīng)濟(jì)的發(fā)展趨勢和世界頂級公司的經(jīng)營狀況做一些研究，可以從公共網(wǎng)站上下載數(shù)據(jù)，用軟件JMP略作整理之后可以得到如表一所示的數(shù)據(jù)表，其中包含了上榜公司的名稱、所屬行業(yè)、所屬國家、上榜年份、上榜排名、市場價值、資產(chǎn)額、銷售額、利潤額等9個變量，總計14000條記錄（每年2000條，從2004年至2010年共7個年度）。表一：畫出泡泡圖：泡大小表示利潤。中企：其他EDA案例假如對一組2人的飲酒者所飲酒類進(jìn)行調(diào)查，把飲酒者按紅酒（1）、白酒（2）、黃酒（3）、啤酒（4）、分成四類。調(diào)查數(shù)據(jù)如下：3,4,1,1,3,4,3,3,1,3,2,1,2,1,2,3,2,3,1,1,1,1,4,3,1。用拼圖分析如下：>drink=c(3,4,

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

探索性數(shù)據(jù)分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔