0-數(shù)據(jù)分析概述-(1)資料_第1頁
0-數(shù)據(jù)分析概述-(1)資料_第2頁
0-數(shù)據(jù)分析概述-(1)資料_第3頁
0-數(shù)據(jù)分析概述-(1)資料_第4頁
0-數(shù)據(jù)分析概述-(1)資料_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析

山東交通學(xué)院李曉燕數(shù)據(jù)分析先導(dǎo)課

大數(shù)據(jù)處理技術(shù)數(shù)學(xué)分析概率論與數(shù)理統(tǒng)計(jì)高等代數(shù)并行課后續(xù)課數(shù)據(jù)挖掘技術(shù)Matlab及應(yīng)用數(shù)學(xué)模型與實(shí)驗(yàn)

課程地位專業(yè)任選課/第4學(xué)期/56學(xué)時(shí)/3.5學(xué)分2024/8/17

內(nèi)容及學(xué)時(shí)安排數(shù)據(jù)描述性分析

1023456報(bào)告2+2

7聚類分析8

判別分析8

主成分與典型相關(guān)分析8回歸分析12MABLAB基礎(chǔ)812024/8/17參考資料《MATLAB數(shù)據(jù)分析與應(yīng)用:40個(gè)案例分析》(第2版),謝中華著,北京航空航天大學(xué)出版社;《數(shù)據(jù)分析方法》,梅長林、范金城編,高等教育出版社;《應(yīng)用多元統(tǒng)計(jì)分析》,高惠璇編,北京大學(xué)出版社;《使用統(tǒng)計(jì)方法與SAS系統(tǒng)》,高惠璇編,北京大學(xué)出版社;《多元統(tǒng)計(jì)分析》(二版),何曉群編,中國人民大學(xué)出版社;《應(yīng)用回歸分析》(二版),何曉群編,中國人民大學(xué)出版社;《統(tǒng)計(jì)建模與R軟件》,薛毅編著,清華大學(xué)出版社;《應(yīng)用多元統(tǒng)計(jì)分析》(第二版),沃爾夫?qū)?哈德勒,利奧波德.西馬著,陳詩一譯.2024/8/17參考資料2024/8/17考核方式考核:期末成績(閉卷考試+上機(jī)考試):50%。平時(shí)成績(作業(yè)40%+考勤20%+報(bào)告40%):50%。課程作業(yè)(1)作業(yè)題目在網(wǎng)絡(luò)教學(xué)平臺(tái)公布,按格式要求,以電子版方式通過平臺(tái)提交。(2)每位學(xué)生應(yīng)保留每次作業(yè)備份直到課程結(jié)束。(3)雷同的作業(yè)均按0分計(jì)算。2024/8/17大報(bào)告:要求:(1)調(diào)研,收集數(shù)據(jù);(2)數(shù)據(jù)處理;(3)選合適的數(shù)學(xué)模型建模;(4)2-3人一組,寫一篇大論文上交。做PPT匯報(bào),10-20分鐘,提問2-3個(gè)問題。論文和答辯各占60、40分。老師占70%,學(xué)生30%。

2024/8/17目的要求:掌握各種方法的原理和應(yīng)用范圍,會(huì)建立模型;用Matlab等軟件進(jìn)行統(tǒng)計(jì)分析,熟悉輸出結(jié)果,進(jìn)行解釋。建議:理論應(yīng)用并重:理論重點(diǎn)是思路,應(yīng)用重點(diǎn)是實(shí)踐重視練習(xí):多做練習(xí)加深理解,實(shí)際操作熟悉軟件不缺課:內(nèi)容前后呼應(yīng),缺課不利學(xué)習(xí)

“師傅領(lǐng)進(jìn)門,修行在個(gè)人”。2024/8/17數(shù)據(jù)分析概述2課程體系及應(yīng)用1數(shù)據(jù)分析的概念3統(tǒng)計(jì)學(xué)產(chǎn)生及發(fā)展5數(shù)據(jù)的分布4常用軟件及應(yīng)用2024/8/17你想過下面的問題嗎?如何根據(jù)抽樣數(shù)據(jù)研究該年級(jí)學(xué)生的學(xué)習(xí)成績?用各科成績總和作為綜合指標(biāo),比較成績差異;根據(jù)各科成績相近程度對(duì)學(xué)生進(jìn)行分類(文科成績好與理科好);研究各科成績間關(guān)系(物理與數(shù)學(xué)成績,文科與理科成績).某年級(jí)抽6名學(xué)生5門課期末成績序號(hào)政治語文外語數(shù)學(xué)物理

19994931001002998896999731009881961004938888999651009172967867573889789數(shù)據(jù)分析是以各變量n次觀測組成的數(shù)據(jù)矩陣為依據(jù),依實(shí)際問題需要進(jìn)行分析數(shù)據(jù)矩陣“數(shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!”、“我不能做無米之炊!”—Sherlock·福爾摩斯

概述2024/8/17

1數(shù)據(jù)分析概述

1.1數(shù)據(jù)分析的概念

數(shù)據(jù)分析:以數(shù)據(jù)為依據(jù),以統(tǒng)計(jì)方法為理論、計(jì)算機(jī)及統(tǒng)計(jì)軟件為工具,挖掘數(shù)據(jù)統(tǒng)計(jì)規(guī)律。通過收集數(shù)據(jù)--整理數(shù)據(jù)--分析數(shù)據(jù),提取有用信息并形成結(jié)論,最大化發(fā)揮數(shù)據(jù)資料的功能和發(fā)揮作用。2024/8/17數(shù)據(jù)分析研究的過程確定目標(biāo)1概述2024/8/171.2數(shù)據(jù)的來源與分類搜集渠道一手?jǐn)?shù)據(jù)

專門調(diào)查或試驗(yàn)直接得到二手?jǐn)?shù)據(jù)

媒體、機(jī)構(gòu)發(fā)布間接得到收集方式觀測數(shù)據(jù)

不可控制條件下被動(dòng)收集試驗(yàn)數(shù)據(jù)

可控條件下主動(dòng)收集數(shù)據(jù)維度時(shí)間序列數(shù)據(jù)—按時(shí)間順序收集的數(shù)據(jù),時(shí)間維度橫截面數(shù)據(jù)—同一時(shí)間點(diǎn)不同對(duì)象的數(shù)據(jù),個(gè)體維度1概述2024/8/172課程體系及應(yīng)用

大部分學(xué)科都涉及數(shù)據(jù)分析工作,因此數(shù)據(jù)分析幾乎可與任一學(xué)科結(jié)合起來。如生物統(tǒng)計(jì)(biostatistics)、經(jīng)濟(jì)計(jì)量學(xué)(econometrics)、生物信息(bioinformation)和數(shù)據(jù)挖掘(Data

Mining)的方法主體都是統(tǒng)計(jì)。2024/8/17概率統(tǒng)計(jì)描述性分析參數(shù)估計(jì)假設(shè)檢驗(yàn)方差分析回歸分析典型相關(guān)分析主成分分析典型相關(guān)分析聚類分析判別分析多元統(tǒng)計(jì)的理論基礎(chǔ)多元數(shù)據(jù)的統(tǒng)計(jì)推斷變量間的相互關(guān)系簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)分類與判別(歸類問題)課程體系2024/8/17

數(shù)據(jù)分析的應(yīng)用1.教育學(xué)7.服裝工業(yè)2.醫(yī)學(xué)8.經(jīng)濟(jì)學(xué)3.氣象學(xué)9.農(nóng)業(yè)4.環(huán)境科學(xué)10.社會(huì)科學(xué)5.考古地質(zhì)11.文學(xué)6.生物學(xué)12.其他基因鑒定種群分類成績預(yù)測分類排名診斷病例藥物研究天氣預(yù)報(bào)災(zāi)情預(yù)防環(huán)境監(jiān)測污染治理礦產(chǎn)預(yù)測考古斷代服裝設(shè)計(jì)型號(hào)確定灌區(qū)分類品種篩選信用評(píng)價(jià)經(jīng)濟(jì)決策青少年犯罪研究

虛詞頻數(shù)鑒定作品交通體育軍事心理學(xué)3.氣象學(xué)--天氣預(yù)報(bào)雷達(dá)圖/product/radar/index/procode/JC_RADAR_AZ9531_JB2024/8/174.環(huán)境科學(xué)--分析污染氣體濃度,布局監(jiān)測點(diǎn),污染治理./cysc/ny/gdxw/201301/24/t20130124_21325056.shtml5.處理地質(zhì)觀測數(shù)據(jù),進(jìn)行礦產(chǎn)預(yù)測、構(gòu)造解釋、工程勘探等.2024/8/17

應(yīng)用案例及選題參考美國選舉例子:誰會(huì)在1936選舉中獲勝?AlfLondon還是

F.D.R.(羅斯福)?

LiteraryDigest(文摘)送出一千萬份問卷(返回二百四十萬份)后,預(yù)測London會(huì)贏.而Gallop(蓋洛普)只問了5000人說

Roosevelt(羅斯福)會(huì)贏.最后羅斯福和蓋洛普都贏了.文摘倒閉了.2024/8/17大學(xué)排名:非常敏感的問題。不同機(jī)構(gòu)得出不同結(jié)果;如何理解這些結(jié)果呢?如何對(duì)學(xué)生成績進(jìn)行綜合評(píng)價(jià)?--主成分公司信用評(píng)價(jià):一些公司試圖得到貸款時(shí)無不良記錄。如何根據(jù)它們的財(cái)務(wù)和商業(yè)資料來判斷一個(gè)公司的信用等級(jí)呢?我國東部和西部概念比較籠統(tǒng)。如何選擇一些指標(biāo)來把各省,或各市縣甚至村進(jìn)行分類呢?DNA鑒定、蝴蝶的分類--聚類分析如何才能夠客觀得到電視節(jié)目收視率,以確定廣告價(jià)格是否合理呢?確定紅樓夢前四十和后四十回是否曹雪芹一人寫?2課程體系及應(yīng)用2024/8/17高中成績和大學(xué)成績是否密切相關(guān)?地震與油價(jià)上漲有關(guān)嗎?--相關(guān)分析水質(zhì)污染和那些因素有關(guān)?如何確定重金屬污染源?--回歸如何設(shè)計(jì)調(diào)查問卷,收集數(shù)據(jù),調(diào)查大學(xué)生喜歡的手機(jī)品牌?電影票房影響因素有哪些?客戶流失分析2課程體系及應(yīng)用2024/8/17社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)理統(tǒng)計(jì)政治算術(shù)國勢學(xué)派最早流派之一。創(chuàng)始人德國康令(H.Conring1606-81)和阿享瓦爾(G.Achenwall1719—72).采用文字記述形式,把重要事項(xiàng)系統(tǒng)整理羅列(報(bào)表).創(chuàng)始人格朗特(J.Graunt1620—74)和威廉.配第(W.Petty1623-87)。主張以數(shù)字、重量和尺度來說話,用圖表形式概括數(shù)字資料.創(chuàng)始人比利時(shí)凱特勒(L.A.J.Quetelet1796-74),產(chǎn)生19世紀(jì)中,把概率論引進(jìn)統(tǒng)計(jì)學(xué),為統(tǒng)計(jì)數(shù)量分析奠定數(shù)理基礎(chǔ)(數(shù)學(xué)統(tǒng)計(jì)學(xué)院).代表人恩格爾(1821-96)和梅爾(1841-1925).19世紀(jì)后興起德國,融會(huì)國勢和政治算術(shù)學(xué)派觀點(diǎn),把政府統(tǒng)計(jì)和社會(huì)調(diào)查融合起來,形成社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)學(xué),影響較大.(經(jīng)濟(jì)管理學(xué)院).3統(tǒng)計(jì)學(xué)的發(fā)展與其他學(xué)科關(guān)系統(tǒng)計(jì)學(xué)的產(chǎn)生:17世紀(jì)中葉,英國威廉配第《政治算術(shù)》問世.

2024/8/173統(tǒng)計(jì)學(xué)的發(fā)展歷史上著名的統(tǒng)計(jì)學(xué)家JacobBernoulli(伯努利)(1654-1705)EdmondHalley(哈雷)(1656-1742)DeMoivre(棣莫弗)(1667-1754)ThomasBayes(貝葉斯)(1702-1761)LeonhardEuler(歐拉)(1707-1783)PierreSimonLaplace(拉普拉斯)(1749-1827)AdrienMarieLegendre(勒讓德)(1752-1833)ThomasRobertMalthus(馬爾薩斯)(1766-1834)FriedrichGauss(高斯)(1777-1855)JohannGregorMendel(孟德爾)(1822-1884)KarlPearson(皮爾遜)(1857-1936)RonaldAylmerFisher(費(fèi)希爾)(1890-1962)JerzyNeyman(奈曼)(1894-1981)EgonSharpePearson(皮爾遜)(1895-1980)WilliamFeller(費(fèi)勒)(1906-1970).C.R.勞教授(1920-)ThomasRobertMalthus(馬爾薩斯)PierreSimonLaplace(拉普拉斯)LeonhardEuler(歐拉)FriedrichGauss(高斯)JohannGregorMendel(孟德爾)2024/8/17統(tǒng)計(jì)學(xué)與數(shù)學(xué)的關(guān)系數(shù)學(xué)思維以演繹為主

每個(gè)人都要死的蘇格拉底是人所以蘇格拉底要死的---數(shù)學(xué)的思維過程統(tǒng)計(jì)各領(lǐng)域利用幾乎所有數(shù)學(xué);但統(tǒng)計(jì)本身的數(shù)學(xué)為具體目標(biāo)服務(wù),一般不形成數(shù)學(xué)體系。統(tǒng)計(jì)以歸納為主,兼有演繹路口每過去20輛小轎車,有100輛自行車通過平均每10個(gè)轎車載12于是你認(rèn)為小轎車和自行車在路口運(yùn)載能力為24:100---典型的統(tǒng)計(jì)思維過程2024/8/17統(tǒng)計(jì)學(xué)與計(jì)算機(jī)的關(guān)系最初計(jì)算機(jī)僅僅是為科學(xué)計(jì)算而設(shè)計(jì)和建造的。統(tǒng)計(jì)是大型計(jì)算機(jī)最早用戶,由于統(tǒng)計(jì)和數(shù)據(jù)打交道,沒有計(jì)算機(jī)的發(fā)展統(tǒng)計(jì)就沒有前途.計(jì)算機(jī)和統(tǒng)計(jì)的發(fā)展相輔相成2024/8/17統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的關(guān)系統(tǒng)計(jì)學(xué)內(nèi)容上假設(shè)檢驗(yàn)和參數(shù)估計(jì)時(shí)間上統(tǒng)計(jì)學(xué)是經(jīng)典學(xué)科。研究優(yōu)勢

統(tǒng)計(jì)學(xué)科的數(shù)據(jù)挖掘側(cè)重于算法理論和技術(shù)應(yīng)用數(shù)據(jù)挖掘內(nèi)容上分析數(shù)據(jù)中的結(jié)構(gòu)、模式并產(chǎn)生特定形式的信息,是統(tǒng)計(jì)學(xué)的補(bǔ)充和擴(kuò)展。時(shí)間上計(jì)算機(jī)和大數(shù)據(jù)催生的新學(xué)科研究優(yōu)勢

計(jì)算機(jī)學(xué)科的數(shù)據(jù)挖掘側(cè)重算法開發(fā)和軟件實(shí)現(xiàn)

都是數(shù)據(jù)分析處理技術(shù)。依托學(xué)科背景,從各自優(yōu)勢角度做同一件事2024/8/17ExcelSPSSRMATLABSAS數(shù)據(jù)分析功能強(qiáng)大,統(tǒng)計(jì)分析領(lǐng)域巨無霸。全球100強(qiáng)91家用SAS。需一定編程技術(shù),價(jià)高科學(xué)計(jì)算以編程為主軟件,應(yīng)用廣泛,有統(tǒng)計(jì)包。免費(fèi)開源,編程方便,可從網(wǎng)上下載軟件包和程序。學(xué)統(tǒng)計(jì)用的多,主要問題沒有“傻瓜化”易操作,功能全,價(jià)格低。非統(tǒng)計(jì)工作者的選擇數(shù)據(jù)表格軟件,畫圖和簡單統(tǒng)計(jì)分析功能(需裝數(shù)據(jù)分析功能)4常用統(tǒng)計(jì)軟件介紹python面向?qū)ο蟆⒔忉屝统绦蛟O(shè)計(jì)語言,開源軟件,語法簡潔,能把其他語言模塊(C++)結(jié)合。應(yīng)用于處理系統(tǒng)管理任務(wù)和Web編程。2024/8/17FORTRANGAUSSEviewsS-PLUSArcGis地理信息處理軟件,空間統(tǒng)計(jì)分析Minitab、Statistica:功能強(qiáng)大齊全,“傻瓜化”,不普遍。處理回歸和時(shí)間序列的軟件應(yīng)用廣、歷史長、速度快、功能強(qiáng)、有統(tǒng)計(jì)包。需編程,操作不易。4常用統(tǒng)計(jì)軟件介紹搞經(jīng)濟(jì)的喜歡,編程強(qiáng)。中國用的不多282024/8/175常見的參數(shù)分布及數(shù)字特征292024/8/17X為一維總體,分布函數(shù)

5.1一維總體分布302024/8/17(1)正態(tài)分布(2)對(duì)數(shù)正態(tài)分布

.密度背景:如一變量可看成許多獨(dú)立因子之積,近似正態(tài)分布.如股票投資長益可看成每天收益率的乘積.5.2常用的參數(shù)分布類型312024/8/17(3)指數(shù)分布

背景:產(chǎn)品失效是偶然失效時(shí),壽命服從指數(shù)分布,失效率與時(shí)間無關(guān).從任一時(shí)刻算壽命服從相同指數(shù)分布.(4)Gamma分布

背景:表示早期、偶發(fā)、耗損失效等不同壽命分布,比指數(shù)、正態(tài)分布更具普遍性。適用于各種形式的分布.,,322024/8/17(5)Weibull分布

(6)Beta分布

背景:瑞典物理學(xué)家WallodiWeibull于1939年引進(jìn),是可靠性分析及壽命檢驗(yàn)的理論基礎(chǔ).背景:取值在一有限區(qū)間的分布,可當(dāng)作取值在區(qū)間總體的概率模式.332024/8/17其它分布舉例

,

分布:

分布:

分布:

樣本342024/8/17抽樣分布二項(xiàng)分布:

泊松分布:

均勻分布:

,

分布:

分布:

分布:

352024/8/175.1一維總體分布—總體p分位數(shù)

數(shù)字特征

2024/8/17置信區(qū)間---置信區(qū)間2024/8/17復(fù)習(xí)概率論與數(shù)理統(tǒng)計(jì)知識(shí)1.分布函數(shù)、概率密度2.常見分布F、t、正態(tài)分布密度3.數(shù)字特征期望、方差4.置信區(qū)間2024/8/171.1.2多元統(tǒng)計(jì)分析研究內(nèi)容和方法

1.多元統(tǒng)計(jì)的理論基礎(chǔ)多維隨機(jī)向量及多維正態(tài)隨機(jī)向量及由此定義的各種多元統(tǒng)計(jì)量,推導(dǎo)其分布并研究性質(zhì)、抽樣分布理論——概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)描述性分析.2.多元數(shù)據(jù)的統(tǒng)計(jì)推斷參數(shù)估計(jì)和假設(shè)檢驗(yàn)問題.特別是多元正態(tài)分布的均值向量及協(xié)方差陣的估計(jì)和假設(shè)檢驗(yàn)等問題——數(shù)據(jù)描述性分析等.3.變量間的相互關(guān)系1)相互依賴關(guān)系:分析一或多個(gè)變量是否依賴于另一些變量的變化,建立變量間定量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論