統(tǒng)計建模-數(shù)據(jù)描述分析課件_第1頁
統(tǒng)計建模-數(shù)據(jù)描述分析課件_第2頁
統(tǒng)計建模-數(shù)據(jù)描述分析課件_第3頁
統(tǒng)計建模-數(shù)據(jù)描述分析課件_第4頁
統(tǒng)計建模-數(shù)據(jù)描述分析課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

概率統(tǒng)計建模李新民數(shù)學科學學院概率統(tǒng)計建模題(1)CUMCM1993-B:足球隊排名問題;(2)CUMCM2001-B:公交車調(diào)度問題;(3)CUMCM2002-B:彩票中的數(shù)學問題;(4)CUMCM2004-D:公務員招聘問題;(5)CUMCM2005-A:長江水質的評價和預測問題;(6)CUMCM2006-B:艾滋病療法評價與預測問題;(7)CUMCM2007-A:中國人口預測問題(8)CUMCM2008-D:NBA賽程的分析與評價問題(9)CUMCM2009-B:眼科病床的合理安排(10)CUMCM2010-B:上海世博會影響分析與評價(11)CUMCM2011-A:城市表層土壤重金屬污染分析(12)CUMCM2012-A:葡萄酒的評價(13)CUMCM2013-A:車道被占用對城市道路通行能力的影響主要內(nèi)容統(tǒng)計軟件及描述性統(tǒng)計回歸分析方差分析多元統(tǒng)計分析統(tǒng)計軟件及描述性統(tǒng)計SPSS統(tǒng)計軟件非專業(yè)統(tǒng)計人員的首選統(tǒng)計軟件SPSS采用類似EXCEL表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便的從其他數(shù)據(jù)庫中讀入數(shù)據(jù)。其統(tǒng)計過程包括了常用的、較為成熟的統(tǒng)計過程,完全可以滿足非統(tǒng)計專業(yè)人士的工作需要。SPSS的功能樣本數(shù)據(jù)的描述和預處理;假設檢驗(包括參數(shù)檢驗、非參數(shù)檢驗及其他檢驗);方差分析相關分析回歸分析聚類分析判別分析因子分析時間序列分析SPSS的窗口類型數(shù)據(jù)編輯窗口程序編輯窗口輸出窗口簡式輸出窗口1、數(shù)據(jù)編輯窗口:(1)啟動SPSS直接進入

(2)文件→新建→數(shù)據(jù)文件

File/New/Data2、程序編輯窗口:文件→新建→語句文件

File/New/Syntax3、輸出窗口:

現(xiàn)實統(tǒng)計方法運行輸出的結果,對輸出結果可以進行模塊裁剪、編輯、存檔等利用頻數(shù)分析可以方便地對數(shù)據(jù)按組進行歸納整理,對變量的數(shù)據(jù)有一個整體上的認識。(1)建立數(shù)據(jù)文件:例1.sav(2)選擇統(tǒng)計方法:Analyze→Descriptive

Statistics→Frequencies,送入變量,點擊確定(3)輸出結果:例1:對某大學10名學生測量他們的血壓x,得到如下數(shù)據(jù):120120

120134128102130132126126頻數(shù)分析其他:描述統(tǒng)計分析Descriptive等

,圖表

SPSS統(tǒng)計圖條圖散點圖線圖直方圖餅圖面積圖箱式圖正態(tài)Q-Q圖正態(tài)P-P圖質量控制圖Pareto圖自回歸曲線圖高低圖

交互相關圖序列圖頻譜圖誤差線圖

統(tǒng)計圖匯總在對數(shù)據(jù)進行深入加工之前,總應該對數(shù)據(jù)有所印象。可以借助于圖形和簡單的運算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個近似的描述。

一、定量變量的圖表示:

1.直方圖對于一個定量變量,比如某個地區(qū)(地區(qū)1)測量了163個高三男生的身高(S3height1.txt)。用圖形來表示這個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大體分布或“形狀”的一個辦法是畫直方圖(histogram)。圖1就是利用這個數(shù)據(jù)由SPSS軟件所畫的直方圖。該圖的橫坐標是身高區(qū)間,這里每一格代表5cm的身高范圍(格子寬度因不同的數(shù)據(jù)性質或要求而定,這里的格子寬度為5cm),而縱坐標為各種身高區(qū)間的身高的頻數(shù)。

直方圖2.盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖2的左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個地區(qū)(地區(qū)2)的高三學生的身高。盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點);按照SPSS的默認選項,如果所有樣本中的數(shù)目都在離四分位點1.5倍盒子長度之內(nèi),則線的端點為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨點出3.莖葉圖

在直方圖和盒形圖中,很難恢復數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復數(shù)據(jù)以地區(qū)1高三男生身高為例(圖3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個數(shù)字001223344代表九個數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個頻數(shù)(比如第一行有9個數(shù)目,第二行有17個等等);可以看出最長的一行為從165cm到169cm的一段(有35個數(shù))。4.散點圖

數(shù)據(jù)會有兩個變量,如美國男士和女士初婚年限數(shù)據(jù)(marriage.txt)。該數(shù)據(jù)描述了自1900年到1998年男女第一次婚姻延續(xù)的時間。這里年份是一個變量,婚姻延續(xù)時間是第二個變量。由于不可能將所有人的婚姻年限都給出來,所以每年就取了一個中間的值(中位數(shù))作為代表。散點圖二、定性變量的圖表示:

1.餅圖定性變量(或屬性變量,分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例。下面用SPSS繪的圖5(餅圖,piechart)表示了說世界各種主要語言人數(shù)的比例.餅圖2.條形圖而用同樣數(shù)據(jù)畫的圖6稱為條形圖(barchart)。從每一條可以看出講各種語言的實際人數(shù),而且分別給出了每個語種中母語和日常使用的人數(shù)(在圖中并排放置)。條形圖顯示比例不如餅圖直觀。條形圖三、統(tǒng)計量可用少量所謂匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)來描述定量變量的數(shù)據(jù)。這些數(shù)字是從樣本數(shù)據(jù)得來的,因而也是樣本的函數(shù),任何樣本的函數(shù),只要不包含總體的未知參數(shù),都稱為統(tǒng)計量(statistic)。樣本的隨機性決定統(tǒng)計量的隨機性(統(tǒng)計量也是隨機變量)1.數(shù)據(jù)的“位置”-集中程度數(shù)據(jù)有位置嗎?這里三個數(shù)據(jù)的位置一樣嗎?“位置”一般是關于數(shù)據(jù)中某變量觀測值的“中心位置”或者數(shù)據(jù)分布的中心(center或centertendency)。和這種“位置”有關的統(tǒng)計量就稱為位置統(tǒng)計量(locationstatistic)。位置統(tǒng)計量當然不一定都是描述“中心”了,比如后面要講的k百分位數(shù)(或k%分位數(shù))。最常用的位置統(tǒng)計量:算術平均數(shù),它在統(tǒng)計中叫做均值(mean);嚴格地說叫做樣本均值(samplemean),以區(qū)別于總體均值。如果記樣本中的觀測值為x1,…,xn,則樣本均值定義為(樣本)中位數(shù)(median)是數(shù)據(jù)按照大小排列之后位于中間的那個數(shù)(如果樣本量為奇數(shù)),或者中間兩個數(shù)目的平均(如果樣本量為偶數(shù))。由于中位數(shù)不易被極端值影響,所以中位數(shù)比均值穩(wěn)健(robust)。上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),firstquantile,thirdquantile)則分別位于(按大小排列的)數(shù)據(jù)的上下四分之一的地方。一般地還稱上四分位數(shù)為75百分位數(shù)(75pecentile,有75%的觀測值小于它),下四分位數(shù)為25百分位數(shù)(有25%的觀測值小于它)。一般地,k百分位數(shù)(k-pecentile)意味著有k%的觀測值小于它。如果令a=k%,則k百分位數(shù)也稱為a分位數(shù)(a-quantile)。樣本中出現(xiàn)最多的數(shù)目,稱為眾數(shù)(mode)2.數(shù)據(jù)的“尺度”-離散程度這兩個數(shù)據(jù)“胖瘦”一樣嗎?從前面兩個高三男生身高數(shù)據(jù)的盒形圖。左邊的數(shù)據(jù)平均要高些,但右邊的數(shù)據(jù)散布范圍要小得多。統(tǒng)計中有許多尺度統(tǒng)計量。一般來說,數(shù)據(jù)越分散,尺度統(tǒng)計量的值越大。極差(range);就是極大值和極小值之間的差。前面兩個高三男生身高數(shù)據(jù)的極差分別為50cm和32cm。盒形圖盒子的長度為兩個四分位數(shù)之差,稱為四分位數(shù)極差或四分位間距(interquantilerange);它描述了中間半數(shù)觀測值的散布情況。極差和四分位極差實際上各自只依賴于兩個值,信息量太少。另一個常用的尺度統(tǒng)計量為(樣本)標準差(standarddeviation)。度量樣本中各數(shù)值到均值距離的一種平均。標準差實際上是方差(variance)的平方根。如果記樣本中的觀測值為x1,…,xn,則樣本方差為兩個均值一樣,但右邊的要“胖”些,方差為左邊的一倍三、統(tǒng)計中幾個重要的概率分布1.二項分布:用B(n,p)或Bin(n,p)表示它基于可重復的有兩結果的相同獨立試驗(每次試驗成功概率相同)的分布例如拋硬幣。每個進入某商場的顧客是否購買某商品每個被調(diào)查者是否認可某種產(chǎn)品每一個新出嬰兒的性別。概率公式:這里為二項式系數(shù),或記為p(k)表示n次Bernoulli試驗中成功k次的概率,p為每次試驗成功的概率。圖4.1九個二項分布B(5,p)(p=0.1到0.9)的概率分布圖

另一個常用離散分布是Poisson分布(翻譯成“泊松分布”或“普阿松分布”)。它可以認為是衡量某種事件在一定期間出現(xiàn)的數(shù)目的概率。比如說在一定時間內(nèi)顧客的人數(shù)、打入電話總機電話的個數(shù)、放射性物質放射出來并到達某區(qū)域的粒子數(shù)等等。參數(shù)為l的Poisson分布變量的概率分布為(p(k)表示Poisson變量等于k的概率)參數(shù)為3、6、10的Poisson分布(只標出了20之內(nèi)的部分)

離散型隨機變量的數(shù)學期望

(expectedvalue)離散型隨機變量X的所有可能取值xi與其取相對應的概率pi乘積之和描述離散型隨機變量取值的集中程度記為或E(X)計算公式為離散型隨機變量的方差

(variance)隨機變量X的每一個取值與期望值的離差平方和的數(shù)學期望,記為2

或D(X)描述離散型隨機變量取值的分散程度計算公式為方差的平方根稱為標準差,記為或離散型數(shù)學期望和方差

(例題分析)【例】一家電腦配件供應商聲稱,他所提供的配件100個中擁有次品的個數(shù)及概率如下表次品數(shù)X=xi0123概率P(X=xi)pi0.750.120.080.05每100個配件中的次品數(shù)及概率分布求該供應商次品數(shù)的數(shù)學期望和標準差

連續(xù)變量的分布取連續(xù)值的變量,如高度、長度、重量、時間、距離等等;它們被稱為連續(xù)變量(continuousvariable)。換言之,一個隨機變量如果能夠在一區(qū)間(無論這個區(qū)間多么小)內(nèi)取任何值,則該變量稱為在此區(qū)間內(nèi)是連續(xù)的,其分布稱為連續(xù)型概率分布。它們的概率分布很難準確地用離散變量概率的條形圖表示。

正態(tài)分布在市場上的精制鹽很多是一公斤袋裝,上面標有“凈含量1kg”的字樣。但當你用稍微精確一些的天平稱那些袋裝鹽的重量時,會發(fā)現(xiàn)有些可能會重些,有些可能會輕些;但都是在1kg左右。多數(shù)離1kg不遠,離1kg越近就越可能出現(xiàn),離1kg越遠就越不可能。一般認為這種重量分布近似地服從最常用的正態(tài)分布(normaldistribution,又叫高斯分布,Gaussiandistribution)。近似地服從正態(tài)分布的變量很常見,象測量誤差、商品的重量或尺寸、某年齡人群的身高和體重等等。在一定條件下,許多不是正態(tài)分布的樣本均值在樣本量很大時,也可用正態(tài)分布來近似。正態(tài)分布的密度曲線是一個對稱的鐘型曲線(最高點在均值處)。正態(tài)分布也是一族分布,各種正態(tài)分布根據(jù)它們的均值和標準差不同而有區(qū)別。一個正態(tài)分布用N(m,s)表示;其中m為均值,而s為標準差。也常用N(m,s2)來表示,這里s2為方差(標準差的平方)。標準差為1的正態(tài)分布N(0,1)稱為標準正態(tài)分布(standardnormaldistribution)。標準正態(tài)分布的密度函數(shù)用f(x)表示。任何具有正態(tài)分布N(m,s2)的隨機變量X都可以用簡單的變換:

Z=(X-m)/s,成為標準正態(tài)隨機變量。兩條正態(tài)分布的密度曲線。左邊是N(-2,0.5)分布,右邊是N(0,1)分布

正態(tài)分布隨機變量X的密度函數(shù)曲線呈中間高兩邊低、對稱的鐘形,期望(均值)和方差分別為68%的數(shù)值落在距均值左右1個標準差的范圍內(nèi),即

P{μ?σ≤X≤μ+σ}=0.68;95%的數(shù)值落在距均值左右2個標準差的范圍內(nèi),即

P{μ?2σ≤X≤μ+2σ}=0.95;99.7%的數(shù)值落在距均值左右3個標準差的范圍內(nèi),即

P{μ?3σ≤X≤μ+3σ}=0.997.例4(noodle.txt)某廠家生產(chǎn)的掛面包裝上寫明“凈含量450克”。在用天平稱量了商場中的48包掛面之后,得到樣本量為48的關于掛面重量(單位:克)的一個樣本:

參數(shù)檢驗與置信區(qū)間提出原假設:選擇統(tǒng)計方法:Analyze→Means→One-simpleTtest,在底部Testvalue框輸入檢驗值450具體判斷:根據(jù)t分布計算出顯著性概率(在許多書中稱為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論