數(shù)學(xué)建模中的統(tǒng)計(jì)方法

上傳人：q*** IP屬地：湖北上傳時(shí)間：2023-02-04 格式：PPT 頁(yè)數(shù)：119 大?。?12KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩114頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

建模中的統(tǒng)計(jì)方法2013年數(shù)學(xué)建模暑期培訓(xùn)選講主講勾明內(nèi)容要點(diǎn)：一、幾個(gè)案例二、實(shí)用的統(tǒng)計(jì)方法

三、幾種特殊方法

四、常用的統(tǒng)計(jì)軟件五、實(shí)例分析案例一：本科生就業(yè)影響因素分析

據(jù)有關(guān)統(tǒng)計(jì)表明，具有大學(xué)以上學(xué)歷者占中國(guó)全部勞動(dòng)者的比例非常低，中國(guó)的高等教育也正在處于“精英教育”向大眾化的高等教育過(guò)渡階段。社會(huì)對(duì)于高學(xué)歷人才的總體需求大于畢業(yè)生的總?cè)藬?shù)，但最近幾年大學(xué)畢業(yè)生找工作卻有越來(lái)越難的趨勢(shì)。特別自1999年起，中國(guó)高校連年大幅擴(kuò)招。其中，2000年擴(kuò)招60.9萬(wàn)人，增幅38.16%；2001年擴(kuò)招29.4萬(wàn)人，增幅13.3%。目前中國(guó)在校大學(xué)生已突破1350萬(wàn)人，這種大力度推進(jìn)高校擴(kuò)招的方式對(duì)于中國(guó)在21世紀(jì)實(shí)施人才戰(zhàn)略，建設(shè)現(xiàn)代化強(qiáng)國(guó)，具有極為重要的意義，但隨著大幅擴(kuò)招，也產(chǎn)生了教育質(zhì)量滑坡以及就業(yè)形式嚴(yán)峻等問(wèn)題。根據(jù)問(wèn)卷調(diào)查的數(shù)據(jù)，對(duì)各種影響因素進(jìn)行描述，頻數(shù)分析，并分析影響就業(yè)的顯著因素，建立數(shù)學(xué)模型并給出一些相關(guān)的建議，為同學(xué)們以后就業(yè)提供一定的參考。案例二：中國(guó)35個(gè)主要城市購(gòu)房能力比較分析現(xiàn)在，房?jī)r(jià)越來(lái)越成為人們的一個(gè)中心議題，上至中央領(lǐng)導(dǎo)，下至普通民眾，可以說(shuō)，人人談房?jī)r(jià)，而住房作為拉動(dòng)我國(guó)經(jīng)濟(jì)的三駕馬車(chē)之一，對(duì)國(guó)民經(jīng)濟(jì)的作用更是舉足輕重。房子，無(wú)論對(duì)國(guó)家還是個(gè)人，其重要性不言而喻，它牽動(dòng)著絕大多數(shù)中國(guó)人的神經(jīng)，我們中大多數(shù)人也面臨購(gòu)房壓力。但是，由于中國(guó)幅員遼闊，在各地區(qū)由于經(jīng)濟(jì)發(fā)展水平低于差距等種種因素，各地區(qū)房?jī)r(jià)不盡相同。根據(jù)所給的資料，分析：各地房?jī)r(jià)是否合理？各地區(qū)之間的居民購(gòu)房能力有無(wú)明顯差異？若有差異，哪些地區(qū)購(gòu)房能力相對(duì)較強(qiáng)，哪些地區(qū)購(gòu)房能力相對(duì)較弱？如何建立適當(dāng)?shù)臄?shù)學(xué)模型進(jìn)行描述？案例三：中國(guó)35個(gè)主要城市經(jīng)濟(jì)效益分析根據(jù)35個(gè)主要城市某年關(guān)于年底總?cè)丝?、地區(qū)生產(chǎn)總值（GDP）、工業(yè)總產(chǎn)值、客運(yùn)總量、貨運(yùn)總量、地方財(cái)政預(yù)算內(nèi)收入、固定資產(chǎn)投資總額、城鄉(xiāng)居民儲(chǔ)蓄年末余額、在崗職工平均人數(shù)、在崗職工工資總額10個(gè)指標(biāo)的數(shù)據(jù)，以期對(duì)這些城市的經(jīng)濟(jì)效益進(jìn)行橫向和縱向的比較，找出它們之間的差別并分析原因，同時(shí)針對(duì)個(gè)別城市分析其自身經(jīng)濟(jì)效益的發(fā)展趨勢(shì)。建模方法運(yùn)籌優(yōu)化概率方法統(tǒng)計(jì)方法微分方程隨機(jī)分析數(shù)學(xué)規(guī)劃建模方法……實(shí)用的統(tǒng)計(jì)方法

數(shù)據(jù)的描述性統(tǒng)計(jì)統(tǒng)計(jì)推斷相關(guān)分析方差分析回歸分析因子分析聚類(lèi)分析數(shù)據(jù)的描述性統(tǒng)計(jì)在對(duì)數(shù)據(jù)進(jìn)行深入加工之前，總應(yīng)該對(duì)數(shù)據(jù)有所印象。可以借助于圖形和簡(jiǎn)單的運(yùn)算，來(lái)了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的，其特征也反映了總體的特征。對(duì)數(shù)據(jù)的描述也是對(duì)其總體的一個(gè)近似的描述。數(shù)據(jù)的描述性統(tǒng)計(jì)初步整理和直觀描述（頻數(shù)表和直方圖）進(jìn)一步加工、提取有用信息（計(jì)算統(tǒng)計(jì)量）位置的統(tǒng)計(jì)量：均值和中位數(shù)變異程度的統(tǒng)計(jì)量：標(biāo)準(zhǔn)差、方差、極差分布形態(tài)的統(tǒng)計(jì)量：偏度、峰度公交車(chē)調(diào)度方案的優(yōu)化模型（2001）文獻(xiàn)【2，p6】，對(duì)模型I的描述性分析，通過(guò)直方圖，得出上行、下行各時(shí)間段最大客容量的雙峰直方圖，對(duì)各時(shí)間段的車(chē)次給出了一個(gè)初步的調(diào)度方案。數(shù)據(jù)的描述性統(tǒng)計(jì)分布形態(tài)的統(tǒng)計(jì)量：偏度（skewness）、峰度(kurtosis)偏度：RV標(biāo)準(zhǔn)化的三階中心距。反映分布的對(duì)稱性峰度：隨機(jī)變量標(biāo)準(zhǔn)化的四階中心距。>0,右偏態(tài)，此時(shí)數(shù)據(jù)位于均值右邊的比位于左邊多>3,表示分布有沉重的尾巴，說(shuō)明樣本中含有較多遠(yuǎn)離均值的數(shù)據(jù)偏度為：-1.233，<0.左偏態(tài)，說(shuō)明數(shù)據(jù)位于均值左邊的比位于右邊多峰度為1.009，<3.細(xì)尾分布92年施肥方案數(shù)據(jù)分析：數(shù)據(jù)的描述性統(tǒng)計(jì)數(shù)據(jù)的探索性分析數(shù)據(jù)的概率分布三大分布及他們之間的關(guān)系。統(tǒng)計(jì)推斷假設(shè)檢驗(yàn)參數(shù)估計(jì)點(diǎn)估計(jì)(估計(jì)方法及評(píng)判的標(biāo)準(zhǔn))區(qū)間估計(jì)相關(guān)分析但是僅僅有滿意顧客的比例是不夠的；商家希望了解什么是影響顧客觀點(diǎn)的因素，及這些因素如何起作用對(duì)于現(xiàn)實(shí)世界，不僅要知其然，而且要知其所以然。顧客對(duì)商品和服務(wù)的反映對(duì)于企業(yè)是至關(guān)重要的，類(lèi)似地，醫(yī)療衛(wèi)生部門(mén)不能僅僅知道某流行病的發(fā)病率，而且想知道什么變量影響發(fā)病率，以及如何影響。

目前的問(wèn)題是：如何相關(guān)（相關(guān)程度多大）？

如何度量他們的相關(guān)性？如何判斷這些因素（變量）是否相關(guān)？

相關(guān)分析Pearson相關(guān)系數(shù)：Pearson相關(guān)矩陣：做散點(diǎn)圖初步判斷兩個(gè)變量間是否存在相關(guān)趨勢(shì)，是否為直線趨勢(shì)，以及數(shù)據(jù)中是否存在異常點(diǎn)計(jì)算相關(guān)系數(shù)R>0正相關(guān)，R<0負(fù)相關(guān)R的絕對(duì)值越接近1，表示兩個(gè)變量愈接近線性關(guān)系，R絕對(duì)值等于1時(shí)，兩者為完全線性關(guān)系R的絕對(duì)值越接近0，表示兩個(gè)變量愈沒(méi)有線性關(guān)系，R絕對(duì)值等于0時(shí)，兩者為完全沒(méi)有線性關(guān)系R的絕對(duì)值大于0.8時(shí)，視為高度相關(guān)

R的絕對(duì)值介于0.5-0.8時(shí)，視為中度相關(guān)

R的絕對(duì)值小于0.3時(shí)，視為不相關(guān)處理方法：“深發(fā)展”和“四川長(zhǎng)虹”在中國(guó)股市上像一對(duì)孿生姐妹，它們的發(fā)展表現(xiàn)出同升、同降的現(xiàn)象。它們是否具有一定的內(nèi)在聯(lián)系？如果存在內(nèi)在聯(lián)系，那么根據(jù)任一股票的變化能否判斷另一股票的變動(dòng)趨勢(shì)？由于兩者都是龍頭股，根據(jù)它們的變動(dòng)進(jìn)而能否對(duì)大盤(pán)的變動(dòng)做出推測(cè)？X1:“深發(fā)展”日收盤(pán)價(jià)X2:“四川長(zhǎng)虹”日收盤(pán)價(jià)X3：“深證指數(shù)”日收盤(pán)價(jià)X4：“上證指數(shù)”日收盤(pán)價(jià)分析要求：（1）探求個(gè)股與個(gè)股、個(gè)股與大盤(pán)間是否有典型的相關(guān)關(guān)系（2）如果有，它們是否服從某種模型？（3）更進(jìn)一步，如果服從某種模型，能否根據(jù)這種模型做一些預(yù)測(cè)用于支持投資決策？案例分析：股票分析“深發(fā)展”與深證指數(shù)的散點(diǎn)圖“四川長(zhǎng)虹”與上證指數(shù)的散點(diǎn)圖“深發(fā)展”與深證指數(shù)的相關(guān)系數(shù)“四川長(zhǎng)虹”與上證指數(shù)的相關(guān)系數(shù)相關(guān)系數(shù)矩陣“深發(fā)展”與“四川長(zhǎng)虹”的相關(guān)系數(shù)方差分析單因素方差分析多因素方差分析單因素方差分析一、單因素方差分析的基本思想單因素方差分析用來(lái)研究一個(gè)控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。主要解決多于兩個(gè)總體樣本或變量間均值的比較問(wèn)題。是一種對(duì)多個(gè)總體樣本的均值是否存在顯著差異的檢驗(yàn)方法。二、應(yīng)用的條件服從方差分析的三個(gè)假設(shè)：1、觀測(cè)變量各總體服從正態(tài)分布。2、觀測(cè)變量各總體的方差相同。3、觀測(cè)變量各總體獨(dú)立的。總離差平方和及組內(nèi)、組間離差平方和令：總離差平方和：組間離差平方和：組內(nèi)離差平方和：SST=SSA+SSE四、基本步驟五、結(jié)果解釋step1：明確觀測(cè)變量和控制變量。step2：剖析觀測(cè)變量的方差。step3：通過(guò)比較觀測(cè)變量總離差平方和各部分所占的比例，推斷控制變量是否給觀測(cè)變量帶來(lái)了顯著影響。在觀測(cè)變量總離差平方和中，如果組間離差平方所占比例較大，則說(shuō)明觀測(cè)變量的變動(dòng)主要是由控制變量引起的，可以主要由控制變量來(lái)解釋，控制變量給觀測(cè)變量帶來(lái)了顯著影響；反之，如果組間離差平方所占比例較小，則說(shuō)明觀測(cè)變量的變動(dòng)不是主要由控制變量引起的，不可以主要由控制變量來(lái)解釋，控制變量的不同水平?jīng)]有給觀測(cè)變量帶來(lái)顯著影響，觀測(cè)變量值的變動(dòng)是由隨機(jī)變量因素引起的。

單因素方差分析單因素方差分析，是指僅分析一個(gè)因素對(duì)試驗(yàn)結(jié)果的影響是否顯著的問(wèn)題。例：用火焰原子吸收光譜法測(cè)定試樣中的鉍，研究溶液的酸度對(duì)測(cè)定吸光度的影響，得到如下結(jié)果，求分析酸含量的變化對(duì)測(cè)定結(jié)果的影響是否顯著？含酸量(%)012340.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.1730.1440.1530.1630.1830.174平均值0.1420.1530.1610.1830.174在方差分析中，把所有數(shù)據(jù)之間的差異叫做總變差。產(chǎn)生總變差的原因有兩類(lèi)，一類(lèi)是條件變差（本例中即是酸度的影響），另一類(lèi)就是試驗(yàn)誤差。方差分析解決這個(gè)問(wèn)題的辦法就是：1、從總變差中區(qū)分出試驗(yàn)變差和條件變差，也就是將不同因素的影響給區(qū)分開(kāi)來(lái)。2、利用F檢驗(yàn)比較這兩個(gè)變差的大小，確定出主要變差。3、根據(jù)主要的變差，去選擇較好的分析條件，或確定進(jìn)一步試驗(yàn)的方向。方差分析的基本思想方差分析的依據(jù)是建立在變差平方和具有加和性的基礎(chǔ)上的。因此，如果用變差平方和來(lái)表征測(cè)定結(jié)果的總變差，那么總變差的平方和就等于各變異因素形成的變差平方和的總和。方差分析的基本思想，就是將總變差分解為各構(gòu)成部分之和，然后對(duì)它們作統(tǒng)計(jì)檢驗(yàn)?？傋儾睿?/p>

其中m為試驗(yàn)水平數(shù)，n為重復(fù)次數(shù)，自由度vT=mn–1=N–1條件變差(組間方差)每一組的測(cè)定平均值和總平均值差值的平方和再乘以重復(fù)次數(shù)：

自由度vA=m–1試驗(yàn)誤差(組內(nèi)方差)各組內(nèi)的每次測(cè)定值和組內(nèi)平均值差值的平方和：

自由度ve=m(n–1)=N–m總變差的分解定義

我們的目的是研究溶液的酸度對(duì)測(cè)定吸光度的影響，為此，需要做一些基本假定，把所研究的問(wèn)題歸結(jié)為一個(gè)統(tǒng)計(jì)問(wèn)題，然后用方差分析的方法進(jìn)行解決。

單因子方差分析的統(tǒng)計(jì)模型

在例中我們只考察了一個(gè)因子，稱其為單因子試驗(yàn)。通常，在單因子試驗(yàn)中，記因子為A,設(shè)其有r個(gè)水平，記為A1,A2,…,Ar。在每一水平下考察的指標(biāo)可以看成一個(gè)總體，因?yàn)楝F(xiàn)共有r個(gè)水平，故有r個(gè)總體，假定：各總體的方差相同:12=22=…=r2=2

；(即，具有方差齊次性)從每一總體中抽取的樣本是相互獨(dú)立的，即所有的試驗(yàn)結(jié)果yij

都相互獨(dú)立。每一總體均為正態(tài)總體，記為N(i,i2)，i＝1,2,…,r；

我們要比較各水平下的均值是否相同,即要對(duì)如下的一個(gè)假設(shè)進(jìn)行檢驗(yàn):H0

：1

=2=…=r

備擇假設(shè)為H1

：1,2,…,r不全相等在不會(huì)引起誤解的情況下，H1通?？墒÷圆粚?xiě)。如果檢驗(yàn)結(jié)果為H0成立，因子A的r個(gè)水平均值相同，稱因子A的r個(gè)水平間沒(méi)有顯著差異，簡(jiǎn)稱因子A不顯著；反之，當(dāng)H0不成立時(shí)，因子A的r個(gè)水平均值不全相同，這時(shí)稱因子A的不同水平間有顯著差異，簡(jiǎn)稱因子A顯著。

一般情況下，在水平Ai下的試驗(yàn)結(jié)果yij與該水平下的指標(biāo)均值i一般總是有差距的，記ij=yiji，ij稱為隨機(jī)誤差。于是有yij=

i+ij

ij~N(0,2)且ij相互獨(dú)立，i,i

2均為未知參數(shù)稱為單因素試驗(yàn)方差分析的數(shù)學(xué)模型。方差分析的基本思想就是通過(guò)條件誤差和隨機(jī)誤差的比較來(lái)判斷假設(shè)H0是否成立。如果條件誤差比隨機(jī)誤差大得多，我們就認(rèn)為因素A的不同水平對(duì)試驗(yàn)結(jié)果有顯著影響，從而拒絕H0

；如果條件誤差與隨機(jī)誤差得數(shù)值差別不大，則認(rèn)為因素A的不同水平對(duì)試驗(yàn)結(jié)果沒(méi)有顯著影響，從而接受H0

；檢驗(yàn)統(tǒng)計(jì)量當(dāng)H0為真時(shí)，對(duì)給定的，可作如下判斷：若F=<F(fA,fe)，則說(shuō)明因子A不顯著。該檢驗(yàn)的p值也可利用統(tǒng)計(jì)軟件求出，若以Y記服從F(fA,fe)的隨機(jī)變量，則檢驗(yàn)的p值為p=P(YF)。如果F>F(fA,fe)，則認(rèn)為因子A顯著；當(dāng)H0為真，即i間的差距不大，則因素A的各個(gè)水平對(duì)總體的影響應(yīng)差不多，SSA中也應(yīng)只含有隨機(jī)誤差，因而F的值不應(yīng)太大，如果F值很大，超過(guò)臨界值F0.05，就應(yīng)當(dāng)否定H0，即認(rèn)為之間有顯著差異；若F>F0.01時(shí)，稱為有高度顯著差異，或A因素高度顯著。例1含酸量(%)01234

0.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.173

0.1440.1530.1630.1830.174平均值0.1420.1520.1600.1830.174Ti0.4250.4560.4810.5490.5220.3946PTi2/ni0.060210.069310.077120.100470.090830.3979QA0.060220.069320.077130.100480.090830.3980Rx=[0.1400.1530.1600.181 0.175;0.141 0.150 0.158 0.185 0.173;0.144 0.153 0.163 0.183 0.174];Anova1(x’);例1方差來(lái)源變差平方和自由度平均變差平方和F臨界值SSA3.30E-0348.26E-04(SSA/vA)/(SSe/ve)=221.2F0.05,4,103.48SSe3.73E-05103.73E-06F0.01,4,105.99SST3.34E-03142.39E-04結(jié)論：酸度對(duì)測(cè)定結(jié)果有非常顯著的影響方差分析要注意以下幾點(diǎn)1、從理論上可推知，當(dāng)ve很小時(shí)，F(xiàn)檢驗(yàn)的靈敏度是很低的，ve很大時(shí)，靈敏度就高。增加實(shí)驗(yàn)次數(shù)，有利于靈敏度提高。一般ve應(yīng)在5-10，如達(dá)不到，須將

放寬至0.20。2、當(dāng)F值特別小時(shí)，表明可能取樣或測(cè)量中有系統(tǒng)誤差，一般不應(yīng)發(fā)生，一旦發(fā)生就應(yīng)仔細(xì)尋找原因，決不能放過(guò)。3、試驗(yàn)應(yīng)采取隨機(jī)的方式，而不能按照先后次序（例如溫度從高到低）。因?yàn)橛锌赡茉谡麄€(gè)試驗(yàn)過(guò)程中，前后尺度掌握不均，或者有其它因素也在有規(guī)律或周期性地變化。4、如果是評(píng)定實(shí)驗(yàn)室之間及實(shí)驗(yàn)室內(nèi)部的精度，當(dāng)F

F時(shí)，就說(shuō)明實(shí)驗(yàn)室之間的精度與實(shí)驗(yàn)室內(nèi)部的精度是一致的。雙因素方差分析1、多因素全面試驗(yàn)的試驗(yàn)設(shè)計(jì)方法類(lèi)型交差分組：每個(gè)因素的每個(gè)水平與其它因素的所有水平都要搭配到，試驗(yàn)A和B處于完全平等的地位系統(tǒng)分組：先按A的a個(gè)水平分成a組，然后在不同的組里再按B的水平來(lái)分組，如果有第三個(gè)，還可再安排C，它們的各自水平數(shù)不必相同，也不需要均勻搭配混合分組：可以使其中兩個(gè)先采用一種分組方法，然后對(duì)第三個(gè)采取另一種方法于是有yij=

+αi+βj+ij

ij~N(0,2)且ij相互獨(dú)立，，αi，βj,i

均為未知參數(shù)式稱為雙因素試驗(yàn)方差分析的數(shù)學(xué)模型。我們要比較各水平下的均值是否相同,即要作如下的假設(shè)檢驗(yàn):。要判斷因素A的影響是否顯著就等價(jià)于檢驗(yàn)假設(shè)H01

：α

=α

2=…=αr=0要判斷因素B的影響是否顯著就等價(jià)于檢驗(yàn)假設(shè)

H02

：β1=β2=…=βr=0

雙因素方差分析1、交叉分組的雙因素試驗(yàn) 設(shè)因素A有l(wèi)個(gè)水平，A1,A2……Al,因素B有m個(gè)水平B1,B2……Bm,在每一組合（Ai,Bj）下進(jìn)行一次試驗(yàn)，得到觀察值A(chǔ)ij，其方差分析計(jì)算方法如下：

雙因素方差分析表例2：為考察蒸餾水的pH值和硫酸銅溶液濃度對(duì)化驗(yàn)血清中白蛋白的球蛋白的影響，將蒸餾水pH值(A)和硫酸銅濃度(B)分成如下的水平進(jìn)行試驗(yàn)：水平因素1234pH值(A)5.405.605.705.80硫酸銅濃度(B)0.040.080.10

A1A2A3A4TjB(TjB)2/lB13.52.62.01.49.522.56B22.32.01.50.86.610.89B32.01.91.20.35.47.29TiA7.86.54.72.5

(TiA)2/m20.2814.087.362.0821.5414.377.692.69T21.5P38.5QA43.8QB40.7R46.3x=[3.5 2.6 2.0 1.4;2.3 2.0 1.5 0.8;2.0 1.9 1.2 0.3];Anova2(x’);結(jié)果方差來(lái)源變差平方和自由度平均變差平方和F臨界值SSA5.2931.7640.9F0.01,3,69.78SSB2.2221.1125.8F0.01,2,610.92SSe0.2660.043結(jié)論：A和B對(duì)測(cè)定白蛋白與球蛋白的影響非常顯著，其中A因素(pH值)的影響比B因素(CuSO4濃度)影響更大。某企業(yè)在制定某商品的廣告策略時(shí)，收集了該商品在不同地區(qū)采用不同廣告形式促銷(xiāo)后的銷(xiāo)售額數(shù)據(jù)，希望對(duì)廣告形式和地區(qū)是否對(duì)商品銷(xiāo)售額產(chǎn)生影響進(jìn)行分析。案例分析：廣告形式、地區(qū)對(duì)銷(xiāo)售額的影響F值較大,F值的相伴概率小于或等于用戶給定的顯著性水平a,則拒絕H0,認(rèn)為不同水平下各總體均值有顯著差異;F值較小,F值的相伴概率大于用戶給定的顯著性水平a,則不能拒絕H0,可以認(rèn)為不同水平下各總體均值無(wú)顯著差異.廣告形式對(duì)銷(xiāo)售額的單因素方差分析結(jié)果可以看到：觀測(cè)變量銷(xiāo)售額的離差平方總和為26169.306；如果僅考慮廣告形式單個(gè)因素的影響，則銷(xiāo)售額總變差中，不同廣告形式可解釋的變差為5866.083，抽樣誤差引起的變差為20303.222，它們的方差分別為1955.361和145.023，相除所得的F統(tǒng)計(jì)量的觀測(cè)值為13.43，對(duì)應(yīng)的概率P值近似為0。如果顯著水平為0.05，由于P值<0，則應(yīng)拒絕原假設(shè)，認(rèn)為不同廣告形式銷(xiāo)售額產(chǎn)生了顯著影響，不同廣告形式對(duì)銷(xiāo)售額的影響效應(yīng)不全為0。地區(qū)對(duì)銷(xiāo)售額的單因素方差分析結(jié)果可以看到：觀測(cè)變量銷(xiāo)售額的離差平方總和為26169.306；如果僅考慮地區(qū)單個(gè)因素的影響，則銷(xiāo)售額總變差中，不同地區(qū)可解釋的變差為9265.306，抽樣誤差引起的變差為16904.0，它們的方差分別為545.018和134.159，相除所得的F統(tǒng)計(jì)量的觀測(cè)值為4.062，對(duì)應(yīng)的概率P值近似為0。如果顯著水平為0.05，由于P值<0.05，則應(yīng)拒絕原假設(shè)，認(rèn)為不同地區(qū)銷(xiāo)售額產(chǎn)生了顯著影響，不同地區(qū)對(duì)銷(xiāo)售額的影響效應(yīng)不全為0?；貧w分析回歸分析：是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。主要包括：一元線性回歸多元線性回歸非線性回歸逐步回歸Logistic回歸這里，稱為偏回歸系數(shù)?；貧w分析的數(shù)學(xué)模型：從1978年改革開(kāi)放以來(lái)，中國(guó)國(guó)民經(jīng)濟(jì)一直保持著較高的增長(zhǎng)速度，人民生活水平大幅提高。但近年來(lái)由于全球競(jìng)爭(zhēng)加劇，中國(guó)對(duì)外開(kāi)放程度的加深，國(guó)民經(jīng)濟(jì)的發(fā)展面臨著很大的挑戰(zhàn)。財(cái)政收入水平的高低是反映一國(guó)經(jīng)濟(jì)實(shí)力的重要標(biāo)志。在一定時(shí)期內(nèi)，財(cái)政收入規(guī)模大小受許多因素的影響，如國(guó)民生產(chǎn)總值大小、進(jìn)出口額、社會(huì)從業(yè)人員數(shù)多少、稅收規(guī)模大小、稅率高低因素等。分析要求：（1）分析影響財(cái)政收入的有哪些因素，對(duì)財(cái)政收入影響最大的又是哪些因素。（2）分析各因素對(duì)財(cái)政收入的影響程度，說(shuō)明各個(gè)影響因素重要程度不同的原因。（3）對(duì)五各省市的財(cái)政收入作單獨(dú)考察，分析影響各省市財(cái)政收入的影響因素。案例分析：財(cái)政收入決定因素分析財(cái)政收入與稅收的關(guān)系財(cái)政收入與GNP的關(guān)系全國(guó)財(cái)政收入回歸模型的建立財(cái)政收入與進(jìn)出口額的關(guān)系財(cái)政收入與從業(yè)人數(shù)的關(guān)系建立多元回歸模型四元線性回歸模型結(jié)論：從模型上可以看出（1）其他收入對(duì)財(cái)政收入增長(zhǎng)的直接作用最大，稅收形成的作用次之。國(guó)民生產(chǎn)總值的作用微弱。（2）從業(yè)人數(shù)與財(cái)政收入呈負(fù)相關(guān)關(guān)系，說(shuō)明隨著從業(yè)人員人數(shù)的增多，并沒(méi)有相應(yīng)的明顯增加財(cái)政收入。它實(shí)際反映了人均勞動(dòng)生產(chǎn)率較低，潛在失業(yè)現(xiàn)象較為嚴(yán)重，生產(chǎn)方式多為勞動(dòng)密集型，且勞動(dòng)者整體素質(zhì)不高。這與我國(guó)實(shí)際的就業(yè)狀況比較吻合。各地區(qū)財(cái)政收入多元回歸分析（北京市）財(cái)政收入與從業(yè)人數(shù)的散點(diǎn)圖（北京市）財(cái)政收入與從業(yè)人數(shù)的散點(diǎn)圖（全國(guó)）變量剔除后兩模型比較分析主成分分析與因子分析主成分分析主要是一種降維的思想。原先有幾個(gè)變量，最多有幾個(gè)主成分。因子分析的基本目的在于：用少數(shù)幾個(gè)隨機(jī)變量刻畫(huà)較多變量之間的協(xié)方差關(guān)系。這少數(shù)的隨機(jī)變量是不可觀測(cè)的，人們稱之為“因子（factor）”。基本思路是：根據(jù)相關(guān)性大小將變量分組，使得組內(nèi)的變量之間具有較高的相關(guān)性，不同組內(nèi)的變量之間相關(guān)性較低

。

因子分析而因子分析是事先確定要找?guī)讉€(gè)成分，或叫因子（factor）（比如兩個(gè)），那就找兩個(gè)。主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分的p×p矩陣.而對(duì)于觀測(cè)值X=(x1,…,xp),其中xi=(x1i,…,xni),i=1,…,p,的樣本相關(guān)陣第(ij)-元素為X=(X1,…,Xp)的相關(guān)陣為第(ij)-元素為的p×p矩陣,其中sij為第i和第j觀測(cè)的樣本相關(guān)系數(shù)關(guān)于特征值和特征向量特征方程|R-lI|=0的解為特征值l,這里B為一個(gè)p維正定方陣.l通常有p個(gè)根l1≥l2≥…≥lp.滿足(R-liI)xi=0的向量xi為li的特征向量.對(duì)任意向量a有性質(zhì)前m個(gè)主成分的累積貢獻(xiàn)率:這里R為X的樣本相關(guān)陣,第i個(gè)特征值li=ai’Rai=V(ai’x);ai為第i個(gè)特征向量.Cov(ai’x,aj’x)=0.這里aij為第i個(gè)特征向量的第j個(gè)分量;第i個(gè)主成分的載荷平方和為該主成分的方差,等于其特征值li.所選的m個(gè)主成分對(duì)變量xj的總方差貢獻(xiàn)為主成分負(fù)荷(載荷,loading):Yi與Xj的相關(guān)系數(shù):因子分析數(shù)學(xué)模型

矩陣表示為：設(shè)有n個(gè)樣本，每個(gè)樣本由p個(gè)指標(biāo)來(lái)描述，且每個(gè)指標(biāo)都已標(biāo)準(zhǔn)化即每個(gè)指標(biāo)的樣本均值為零，方差為1。正交因子模型為：

mi=變量i的均值ei=第i個(gè)特殊因子Fi=第i個(gè)公共因子aij=第i個(gè)變量在第j個(gè)因子上的載荷不能觀測(cè)的值滿足下列條件：F和e獨(dú)立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是對(duì)角矩陣，

正交因子模型：X-m=AF+eF為公共因子向量,每個(gè)公共因子(如Fi)是對(duì)模型中每個(gè)變量都起作用的因子;而e為特殊因子向量,每個(gè)特殊因子(如ei)只對(duì)一個(gè)變量(第i個(gè))起作用.因子分析的方法在于估計(jì)S=AA’+Y和Y,再分解以得到A.X的協(xié)方差陣S可以分解成這里l1≥l2≥…≥lp為S的特征值;而e1,…,ep為相應(yīng)的特征向量(e1,…,ep為主成分的系數(shù),因此稱為主成分法).上面分解總是取和數(shù)的重要的頭幾項(xiàng)來(lái)近似.X的協(xié)方差陣S可以近似為(如Y忽略)如Y不忽略,S可以近似為應(yīng)用中,S可以用樣本相關(guān)陣R代替.正交模型X=m+AF+e的協(xié)方差結(jié)構(gòu)

根據(jù)前面模型，可得出下面結(jié)果：上面sii2=Sjaij2+yi2中,Sjaij2稱為共性方差(公共方差或變量共同度commonvariance,communalities)，而yi2稱為特殊方差.變量共同度刻畫(huà)全部公共因子對(duì)變量Xi的總方差所做的貢獻(xiàn).的統(tǒng)計(jì)意義就是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),表示Xi依賴Fj的份量,這里eij是相應(yīng)于特征值li的特征向量ei的第j個(gè)分量.因子載荷陣中各列元素的平方和Sj=Siaij2稱為公共因子Fj對(duì)X諸變量的方差貢獻(xiàn)之總和因子載荷令T為任意m正交方陣(TT’=T’T=I),則X-m=AF+e=ATT’F+e=A*F*+e,這里A*=AT,F*=T’F.因此S=AA’+Y=ATT’A’+Y=(A*)(A*)’+Y因此,因子載荷A只由一個(gè)正交陣T決定.載荷A*=AT與A都給出同一個(gè)表示.由AA’=(A*)(A*)’對(duì)角元給出的共性方差,也不因T的選擇而改變.正交變換T相當(dāng)于剛體旋轉(zhuǎn)(或反射),因子載荷A的正交變換AT稱為因子旋轉(zhuǎn)

估計(jì)的協(xié)方差陣或相關(guān)陣,殘差陣,特殊方差及共性方差都不隨旋轉(zhuǎn)而變.

這里“殘差陣”為協(xié)方差陣或相關(guān)陣與估計(jì)的AA’+Y之差.因子旋轉(zhuǎn)的一個(gè)準(zhǔn)則為最大方差準(zhǔn)則.它使旋轉(zhuǎn)后的因子載荷的總方差達(dá)到最大.如即要選變換T使下式最大(計(jì)算機(jī)循環(huán)算法)需要由X=AF變成F=bX.或

Fj=bj1X1+…+bjpXpj=1,…,m,

稱為因子得分(函數(shù)).

這通常用加權(quán)最小二乘法或回歸法等來(lái)求得.總結(jié)

模型X=m+AF+e因子分析的步驟1．根據(jù)問(wèn)題選取原始變量；

2．求其相關(guān)陣R,探討其相關(guān)性；

3．從R求解初始公共因子F及因子載荷矩陣A(主成分法或最大似然法)4．因子旋轉(zhuǎn)；

5．由X=AF到F=bX(因子得分函數(shù))

6．根據(jù)因子得分值進(jìn)行進(jìn)一步分析.例題分析以02級(jí)信息與計(jì)算科學(xué)專業(yè)45名畢業(yè)生的22門(mén)課的考試成績(jī)?yōu)榛举Y料，對(duì)學(xué)生的成績(jī)進(jìn)行因子分析.原始數(shù)據(jù)來(lái)自02信息與計(jì)算科學(xué)學(xué)生的學(xué)籍管理檔案（注：此處沒(méi)有考慮每門(mén)課程的教學(xué)時(shí)數(shù)；考查課的成績(jī)根據(jù)正態(tài)分布曲線下的面積應(yīng)用進(jìn)行了標(biāo)準(zhǔn)化，英語(yǔ)三個(gè)學(xué)期的成績(jī)之和記為英語(yǔ)成績(jī)；體育成績(jī)?nèi)〉谝粚W(xué)期的成績(jī)；不及格的科目按第一次考試成績(jī)計(jì)算）。

表2：檢驗(yàn)結(jié)果表2給出了KMO檢驗(yàn)和巴特利特球形檢驗(yàn)的結(jié)果。其中KMO統(tǒng)計(jì)量為0.874接近于1，說(shuō)明變量間的相關(guān)性極強(qiáng)，因子分析的效果非常好。巴特利特球形檢驗(yàn)給出的相伴概率為0.000小于顯著性水平0.05因此拒絕零假設(shè)，認(rèn)為適合于因子分析。巴特利特微球度檢驗(yàn)以原有變量相關(guān)系數(shù)矩陣為出發(fā)點(diǎn)，其原假設(shè)是：相關(guān)系數(shù)矩陣是單位陣，即相關(guān)系數(shù)矩陣為對(duì)角陣且主對(duì)角元素均為1。巴特利特球度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量根據(jù)相關(guān)系數(shù)矩陣的行列式計(jì)算得到，且近似服從卡方分布。如果該統(tǒng)計(jì)量的觀測(cè)值比較大，且對(duì)應(yīng)的概率p-值小于給定的顯著性水平，則應(yīng)拒絕原假設(shè)，認(rèn)為相關(guān)系數(shù)矩陣不太可能是單位陣，原有變量適合作因子分析；反之，如果檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值比較小且對(duì)應(yīng)的概率p-值大于給定的顯著性水平，則不能拒絕原假設(shè)，可以認(rèn)為相關(guān)系數(shù)矩陣與單位陣無(wú)顯著差別，原有變量不適合做因子分析。巴特利（Bartlett）系數(shù)KMO檢驗(yàn)統(tǒng)計(jì)量是用于比較變量間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo)，數(shù)學(xué)定義為：KMO的統(tǒng)計(jì)量取值在0~1之間。當(dāng)所有變量間的簡(jiǎn)單相關(guān)系數(shù)平方和遠(yuǎn)遠(yuǎn)大于偏相關(guān)系數(shù)平方和時(shí)，KMO值接近1。KMO值越接近1，意味著變量間的相關(guān)性越強(qiáng)，原有變量越適合作因子分析；當(dāng)所有變量的簡(jiǎn)單相關(guān)系數(shù)平方和越接近0時(shí)，KMO值越接近0，KMO值越接近于0，意味著變量間的相關(guān)性越弱，原有變量越不適合作因子分析。Kaiser給出了常用的KMO度量標(biāo)準(zhǔn)；0.9以上表示非常適合；0.8表示適合；0.7表示一般；0.6表示不太適合；0.5以下表示極不適合。第一因子變量中數(shù)學(xué)分析1、數(shù)學(xué)分析2，高等代數(shù)1、高等代數(shù)2、空間解析幾何都有較大的載荷，這些課程大部分是專業(yè)基礎(chǔ)課，因此第一因子可以定義為數(shù)學(xué)專業(yè)基礎(chǔ)理論因子。在第一因子變量各科載荷中，數(shù)學(xué)分析和高等代數(shù)較大，說(shuō)明數(shù)學(xué)分析和高等代數(shù)對(duì)第一因子變量的影響較大。第二因子變量中C語(yǔ)言程序設(shè)計(jì)，數(shù)據(jù)結(jié)構(gòu)與算法，離散數(shù)學(xué)都有較大的載荷，這些課程大部分是計(jì)算機(jī)專業(yè)基礎(chǔ)因子。第三因子變量中概率論與數(shù)理統(tǒng)計(jì)，復(fù)變函數(shù)，常微分方程，哲學(xué)原理，運(yùn)籌學(xué)都有較大的載荷，這些大部分是三年級(jí)開(kāi)設(shè)的數(shù)學(xué)專業(yè)課程，因此我們把第三因子變量定義為數(shù)學(xué)專業(yè)能力因子。（為什么會(huì)有哲學(xué)原理呢？因?yàn)檎軐W(xué)原理有很強(qiáng)的邏輯相關(guān)性，這正好與數(shù)學(xué)專業(yè)的培養(yǎng)學(xué)生邏輯思維能力相吻合）。

第四因子變量中數(shù)字信號(hào)處理，數(shù)字圖像處理，面向?qū)ο蟮某绦蛟O(shè)計(jì)都有較大的載荷，這些課程都是大學(xué)三年級(jí)開(kāi)設(shè)的是在計(jì)算機(jī)基礎(chǔ)理論的前提下應(yīng)用計(jì)算機(jī)基礎(chǔ)理論解決實(shí)際問(wèn)題的課程，反映了學(xué)生解決實(shí)際問(wèn)題的能力水平，因此定義為計(jì)算機(jī)能力因子。第五個(gè)因子變量中體育基本上占了全部載荷，這正好和我們說(shuō)的德智體全面發(fā)展相結(jié)合，說(shuō)明體育也是很重要的，定義為體育因子。

第六因子變量中大學(xué)英語(yǔ)載荷最大，達(dá)到了0.825說(shuō)明英語(yǔ)在大學(xué)生的學(xué)習(xí)中地位非常重要，定義為英語(yǔ)素質(zhì)因子。

第七因子變量中毛澤東思想概論和鄧小平理論概論思想道德教育都有很大的載荷，定義為思想理論素質(zhì)因子，這幾門(mén)課程是學(xué)習(xí)其它課程的理論指導(dǎo)學(xué)科，不論大學(xué)生以后從事哪方面的工作都離不開(kāi)毛澤東鄧小平理論指導(dǎo)，思想道德理論基礎(chǔ)又為大學(xué)生的思想素質(zhì)打下了堅(jiān)實(shí)的基礎(chǔ)。

表6：因子轉(zhuǎn)換矩陣

因子課程名稱潛在變量Factor1數(shù)學(xué)分析1、2，高等代數(shù)1、2空間解析幾何數(shù)學(xué)基礎(chǔ)能力Factor2C語(yǔ)言程序設(shè)計(jì)，數(shù)據(jù)結(jié)構(gòu)與算法，離散數(shù)學(xué)計(jì)算機(jī)基礎(chǔ)能力Factor3概率論與數(shù)理統(tǒng)計(jì)，復(fù)變函數(shù)，常微分方程，哲學(xué)原理，運(yùn)籌學(xué)數(shù)學(xué)專業(yè)能力Factor4數(shù)字信號(hào)處理，數(shù)字圖像處理，面向?qū)ο蟪绦蛟O(shè)計(jì)計(jì)算機(jī)能力Factor5體育體育因子Factor6英語(yǔ)英語(yǔ)因子Factor7毛澤東思想概論，鄧小平理論概論，思想道德修養(yǎng)思想理論因子因子分析和主成分分析的一些注意事項(xiàng)：可以看出，因子分析和主成分分析都依賴于原始變量，也只能反映原始變量的信息。所以原始變量的選擇很重要。另外，如果原始變量都本質(zhì)上獨(dú)立，那么降維就可能失敗，這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān)，降維效果就越好。在得到分析的結(jié)果時(shí)，并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問(wèn)題的性質(zhì)，選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系應(yīng)用因子分析法進(jìn)行分析的步驟如下：1、根據(jù)研究問(wèn)題選取原始變量；2、對(duì)原始變量進(jìn)行標(biāo)準(zhǔn)化并求其相關(guān)矩陣，分析變量之間的相關(guān)性；3、求解初始公共因子及因子載荷矩陣；4、因子旋轉(zhuǎn)；5、因子得分；6、根據(jù)因子得分進(jìn)行進(jìn)一步分析聚類(lèi)分析案例分析：中國(guó)35個(gè)主要城市經(jīng)濟(jì)效益分析根據(jù)35個(gè)主要城市某年關(guān)于年底總?cè)丝?、地區(qū)生產(chǎn)總值（GDP）、工業(yè)總產(chǎn)值、客運(yùn)總量、貨運(yùn)總量、地方財(cái)政預(yù)算內(nèi)收入、固定資產(chǎn)投資總額、城鄉(xiāng)居民儲(chǔ)蓄年末余額、在崗職工平均人數(shù)、在崗職工工資總額10個(gè)指標(biāo)的數(shù)據(jù)，以期對(duì)這些城市的經(jīng)濟(jì)效益進(jìn)行橫向和縱向的比較，找出它們之

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)學(xué)建模中的統(tǒng)計(jì)方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)學(xué)建模中的統(tǒng)計(jì)方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔