數(shù)學(xué)建模中的統(tǒng)計(jì)方法_第1頁
數(shù)學(xué)建模中的統(tǒng)計(jì)方法_第2頁
數(shù)學(xué)建模中的統(tǒng)計(jì)方法_第3頁
數(shù)學(xué)建模中的統(tǒng)計(jì)方法_第4頁
數(shù)學(xué)建模中的統(tǒng)計(jì)方法_第5頁
已閱讀5頁,還剩114頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

建模中的統(tǒng)計(jì)方法2013年數(shù)學(xué)建模暑期培訓(xùn)選講主講勾明內(nèi)容要點(diǎn):一、幾個(gè)案例二、實(shí)用的統(tǒng)計(jì)方法

三、幾種特殊方法

四、常用的統(tǒng)計(jì)軟件五、實(shí)例分析案例一:本科生就業(yè)影響因素分析

據(jù)有關(guān)統(tǒng)計(jì)表明,具有大學(xué)以上學(xué)歷者占中國全部勞動(dòng)者的比例非常低,中國的高等教育也正在處于“精英教育”向大眾化的高等教育過渡階段。社會(huì)對于高學(xué)歷人才的總體需求大于畢業(yè)生的總?cè)藬?shù),但最近幾年大學(xué)畢業(yè)生找工作卻有越來越難的趨勢。特別自1999年起,中國高校連年大幅擴(kuò)招。其中,2000年擴(kuò)招60.9萬人,增幅38.16%;2001年擴(kuò)招29.4萬人,增幅13.3%。目前中國在校大學(xué)生已突破1350萬人,這種大力度推進(jìn)高校擴(kuò)招的方式對于中國在21世紀(jì)實(shí)施人才戰(zhàn)略,建設(shè)現(xiàn)代化強(qiáng)國,具有極為重要的意義,但隨著大幅擴(kuò)招,也產(chǎn)生了教育質(zhì)量滑坡以及就業(yè)形式嚴(yán)峻等問題。根據(jù)問卷調(diào)查的數(shù)據(jù),對各種影響因素進(jìn)行描述,頻數(shù)分析,并分析影響就業(yè)的顯著因素,建立數(shù)學(xué)模型并給出一些相關(guān)的建議,為同學(xué)們以后就業(yè)提供一定的參考。案例二:中國35個(gè)主要城市購房能力比較分析現(xiàn)在,房價(jià)越來越成為人們的一個(gè)中心議題,上至中央領(lǐng)導(dǎo),下至普通民眾,可以說,人人談房價(jià),而住房作為拉動(dòng)我國經(jīng)濟(jì)的三駕馬車之一,對國民經(jīng)濟(jì)的作用更是舉足輕重。房子,無論對國家還是個(gè)人,其重要性不言而喻,它牽動(dòng)著絕大多數(shù)中國人的神經(jīng),我們中大多數(shù)人也面臨購房壓力。但是,由于中國幅員遼闊,在各地區(qū)由于經(jīng)濟(jì)發(fā)展水平低于差距等種種因素,各地區(qū)房價(jià)不盡相同。根據(jù)所給的資料,分析:各地房價(jià)是否合理?各地區(qū)之間的居民購房能力有無明顯差異?若有差異,哪些地區(qū)購房能力相對較強(qiáng),哪些地區(qū)購房能力相對較弱?如何建立適當(dāng)?shù)臄?shù)學(xué)模型進(jìn)行描述?案例三:中國35個(gè)主要城市經(jīng)濟(jì)效益分析根據(jù)35個(gè)主要城市某年關(guān)于年底總?cè)丝?、地區(qū)生產(chǎn)總值(GDP)、工業(yè)總產(chǎn)值、客運(yùn)總量、貨運(yùn)總量、地方財(cái)政預(yù)算內(nèi)收入、固定資產(chǎn)投資總額、城鄉(xiāng)居民儲(chǔ)蓄年末余額、在崗職工平均人數(shù)、在崗職工工資總額10個(gè)指標(biāo)的數(shù)據(jù),以期對這些城市的經(jīng)濟(jì)效益進(jìn)行橫向和縱向的比較,找出它們之間的差別并分析原因,同時(shí)針對個(gè)別城市分析其自身經(jīng)濟(jì)效益的發(fā)展趨勢。建模方法運(yùn)籌優(yōu)化概率方法統(tǒng)計(jì)方法微分方程隨機(jī)分析數(shù)學(xué)規(guī)劃建模方法……實(shí)用的統(tǒng)計(jì)方法

數(shù)據(jù)的描述性統(tǒng)計(jì)統(tǒng)計(jì)推斷相關(guān)分析方差分析回歸分析因子分析聚類分析數(shù)據(jù)的描述性統(tǒng)計(jì)在對數(shù)據(jù)進(jìn)行深入加工之前,總應(yīng)該對數(shù)據(jù)有所印象??梢越柚趫D形和簡單的運(yùn)算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個(gè)近似的描述。數(shù)據(jù)的描述性統(tǒng)計(jì)初步整理和直觀描述(頻數(shù)表和直方圖)進(jìn)一步加工、提取有用信息(計(jì)算統(tǒng)計(jì)量)位置的統(tǒng)計(jì)量:均值和中位數(shù)變異程度的統(tǒng)計(jì)量:標(biāo)準(zhǔn)差、方差、極差分布形態(tài)的統(tǒng)計(jì)量:偏度、峰度公交車調(diào)度方案的優(yōu)化模型(2001)文獻(xiàn)【2,p6】,對模型I的描述性分析,通過直方圖,得出上行、下行各時(shí)間段最大客容量的雙峰直方圖,對各時(shí)間段的車次給出了一個(gè)初步的調(diào)度方案。數(shù)據(jù)的描述性統(tǒng)計(jì)分布形態(tài)的統(tǒng)計(jì)量:偏度(skewness)、峰度(kurtosis)偏度:RV標(biāo)準(zhǔn)化的三階中心距。反映分布的對稱性峰度:隨機(jī)變量標(biāo)準(zhǔn)化的四階中心距。>0,右偏態(tài),此時(shí)數(shù)據(jù)位于均值右邊的比位于左邊多>3,表示分布有沉重的尾巴,說明樣本中含有較多遠(yuǎn)離均值的數(shù)據(jù)偏度為:-1.233,<0.左偏態(tài),說明數(shù)據(jù)位于均值左邊的比位于右邊多峰度為1.009,<3.細(xì)尾分布92年施肥方案數(shù)據(jù)分析:數(shù)據(jù)的描述性統(tǒng)計(jì)數(shù)據(jù)的探索性分析數(shù)據(jù)的概率分布三大分布及他們之間的關(guān)系。統(tǒng)計(jì)推斷假設(shè)檢驗(yàn)參數(shù)估計(jì)點(diǎn)估計(jì)(估計(jì)方法及評判的標(biāo)準(zhǔn))區(qū)間估計(jì)相關(guān)分析但是僅僅有滿意顧客的比例是不夠的;商家希望了解什么是影響顧客觀點(diǎn)的因素,及這些因素如何起作用對于現(xiàn)實(shí)世界,不僅要知其然,而且要知其所以然。顧客對商品和服務(wù)的反映對于企業(yè)是至關(guān)重要的,類似地,醫(yī)療衛(wèi)生部門不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,以及如何影響。

目前的問題是:如何相關(guān)(相關(guān)程度多大)?

如何度量他們的相關(guān)性?如何判斷這些因素(變量)是否相關(guān)?

相關(guān)分析Pearson相關(guān)系數(shù):Pearson相關(guān)矩陣:做散點(diǎn)圖初步判斷兩個(gè)變量間是否存在相關(guān)趨勢,是否為直線趨勢,以及數(shù)據(jù)中是否存在異常點(diǎn)計(jì)算相關(guān)系數(shù)R>0正相關(guān),R<0負(fù)相關(guān)R的絕對值越接近1,表示兩個(gè)變量愈接近線性關(guān)系,R絕對值等于1時(shí),兩者為完全線性關(guān)系R的絕對值越接近0,表示兩個(gè)變量愈沒有線性關(guān)系,R絕對值等于0時(shí),兩者為完全沒有線性關(guān)系R的絕對值大于0.8時(shí),視為高度相關(guān)

R的絕對值介于0.5-0.8時(shí),視為中度相關(guān)

R的絕對值小于0.3時(shí),視為不相關(guān)處理方法:“深發(fā)展”和“四川長虹”在中國股市上像一對孿生姐妹,它們的發(fā)展表現(xiàn)出同升、同降的現(xiàn)象。它們是否具有一定的內(nèi)在聯(lián)系?如果存在內(nèi)在聯(lián)系,那么根據(jù)任一股票的變化能否判斷另一股票的變動(dòng)趨勢?由于兩者都是龍頭股,根據(jù)它們的變動(dòng)進(jìn)而能否對大盤的變動(dòng)做出推測?X1:“深發(fā)展”日收盤價(jià)X2:“四川長虹”日收盤價(jià)X3:“深證指數(shù)”日收盤價(jià)X4:“上證指數(shù)”日收盤價(jià)分析要求:(1)探求個(gè)股與個(gè)股、個(gè)股與大盤間是否有典型的相關(guān)關(guān)系(2)如果有,它們是否服從某種模型?(3)更進(jìn)一步,如果服從某種模型,能否根據(jù)這種模型做一些預(yù)測用于支持投資決策?案例分析:股票分析“深發(fā)展”與深證指數(shù)的散點(diǎn)圖“四川長虹”與上證指數(shù)的散點(diǎn)圖“深發(fā)展”與深證指數(shù)的相關(guān)系數(shù)“四川長虹”與上證指數(shù)的相關(guān)系數(shù)相關(guān)系數(shù)矩陣“深發(fā)展”與“四川長虹”的相關(guān)系數(shù)方差分析單因素方差分析多因素方差分析單因素方差分析一、單因素方差分析的基本思想單因素方差分析用來研究一個(gè)控制變量的不同水平是否對觀測變量產(chǎn)生了顯著影響。主要解決多于兩個(gè)總體樣本或變量間均值的比較問題。是一種對多個(gè)總體樣本的均值是否存在顯著差異的檢驗(yàn)方法。二、應(yīng)用的條件服從方差分析的三個(gè)假設(shè):1、觀測變量各總體服從正態(tài)分布。2、觀測變量各總體的方差相同。3、觀測變量各總體獨(dú)立的??傠x差平方和及組內(nèi)、組間離差平方和令:總離差平方和:組間離差平方和:組內(nèi)離差平方和:SST=SSA+SSE四、基本步驟五、結(jié)果解釋step1:明確觀測變量和控制變量。step2:剖析觀測變量的方差。step3:通過比較觀測變量總離差平方和各部分所占的比例,推斷控制變量是否給觀測變量帶來了顯著影響。在觀測變量總離差平方和中,如果組間離差平方所占比例較大,則說明觀測變量的變動(dòng)主要是由控制變量引起的,可以主要由控制變量來解釋,控制變量給觀測變量帶來了顯著影響;反之,如果組間離差平方所占比例較小,則說明觀測變量的變動(dòng)不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平?jīng)]有給觀測變量帶來顯著影響,觀測變量值的變動(dòng)是由隨機(jī)變量因素引起的。

單因素方差分析單因素方差分析,是指僅分析一個(gè)因素對試驗(yàn)結(jié)果的影響是否顯著的問題。例:用火焰原子吸收光譜法測定試樣中的鉍,研究溶液的酸度對測定吸光度的影響,得到如下結(jié)果,求分析酸含量的變化對測定結(jié)果的影響是否顯著?含酸量(%)012340.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.1730.1440.1530.1630.1830.174平均值0.1420.1530.1610.1830.174在方差分析中,把所有數(shù)據(jù)之間的差異叫做總變差。產(chǎn)生總變差的原因有兩類,一類是條件變差(本例中即是酸度的影響),另一類就是試驗(yàn)誤差。方差分析解決這個(gè)問題的辦法就是:1、從總變差中區(qū)分出試驗(yàn)變差和條件變差,也就是將不同因素的影響給區(qū)分開來。2、利用F檢驗(yàn)比較這兩個(gè)變差的大小,確定出主要變差。3、根據(jù)主要的變差,去選擇較好的分析條件,或確定進(jìn)一步試驗(yàn)的方向。方差分析的基本思想方差分析的依據(jù)是建立在變差平方和具有加和性的基礎(chǔ)上的。因此,如果用變差平方和來表征測定結(jié)果的總變差,那么總變差的平方和就等于各變異因素形成的變差平方和的總和。方差分析的基本思想,就是將總變差分解為各構(gòu)成部分之和,然后對它們作統(tǒng)計(jì)檢驗(yàn)??傋儾睿?/p>

其中m為試驗(yàn)水平數(shù),n為重復(fù)次數(shù),自由度vT=mn–1=N–1條件變差(組間方差)每一組的測定平均值和總平均值差值的平方和再乘以重復(fù)次數(shù):

自由度vA=m–1試驗(yàn)誤差(組內(nèi)方差)各組內(nèi)的每次測定值和組內(nèi)平均值差值的平方和:

自由度ve=m(n–1)=N–m總變差的分解定義

我們的目的是研究溶液的酸度對測定吸光度的影響,為此,需要做一些基本假定,把所研究的問題歸結(jié)為一個(gè)統(tǒng)計(jì)問題,然后用方差分析的方法進(jìn)行解決。

單因子方差分析的統(tǒng)計(jì)模型

在例中我們只考察了一個(gè)因子,稱其為單因子試驗(yàn)。通常,在單因子試驗(yàn)中,記因子為A,設(shè)其有r個(gè)水平,記為A1,A2,…,Ar。在每一水平下考察的指標(biāo)可以看成一個(gè)總體,因?yàn)楝F(xiàn)共有r個(gè)水平,故有r個(gè)總體,假定:各總體的方差相同:12=22=…=r2=2

;(即,具有方差齊次性)從每一總體中抽取的樣本是相互獨(dú)立的,即所有的試驗(yàn)結(jié)果yij

都相互獨(dú)立。每一總體均為正態(tài)總體,記為N(i,i2),i=1,2,…,r;

我們要比較各水平下的均值是否相同,即要對如下的一個(gè)假設(shè)進(jìn)行檢驗(yàn):H0

:1

=2=…=r

備擇假設(shè)為H1

:1,2,…,r不全相等在不會(huì)引起誤解的情況下,H1通常可省略不寫。如果檢驗(yàn)結(jié)果為H0成立,因子A的r個(gè)水平均值相同,稱因子A的r個(gè)水平間沒有顯著差異,簡稱因子A不顯著;反之,當(dāng)H0不成立時(shí),因子A的r個(gè)水平均值不全相同,這時(shí)稱因子A的不同水平間有顯著差異,簡稱因子A顯著。

一般情況下,在水平Ai下的試驗(yàn)結(jié)果yij與該水平下的指標(biāo)均值i一般總是有差距的,記ij=yiji,ij稱為隨機(jī)誤差。于是有yij=

i+ij

ij~N(0,2)且ij相互獨(dú)立,i,i

2均為未知參數(shù)稱為單因素試驗(yàn)方差分析的數(shù)學(xué)模型。方差分析的基本思想就是通過條件誤差和隨機(jī)誤差的比較來判斷假設(shè)H0是否成立。如果條件誤差比隨機(jī)誤差大得多,我們就認(rèn)為因素A的不同水平對試驗(yàn)結(jié)果有顯著影響,從而拒絕H0

;如果條件誤差與隨機(jī)誤差得數(shù)值差別不大,則認(rèn)為因素A的不同水平對試驗(yàn)結(jié)果沒有顯著影響,從而接受H0

;檢驗(yàn)統(tǒng)計(jì)量當(dāng)H0為真時(shí),對給定的,可作如下判斷:若F=<F(fA,fe),則說明因子A不顯著。該檢驗(yàn)的p值也可利用統(tǒng)計(jì)軟件求出,若以Y記服從F(fA,fe)的隨機(jī)變量,則檢驗(yàn)的p值為p=P(YF)。如果F>F(fA,fe),則認(rèn)為因子A顯著;當(dāng)H0為真,即i間的差距不大,則因素A的各個(gè)水平對總體的影響應(yīng)差不多,SSA中也應(yīng)只含有隨機(jī)誤差,因而F的值不應(yīng)太大,如果F值很大,超過臨界值F0.05,就應(yīng)當(dāng)否定H0,即認(rèn)為之間有顯著差異;若F>F0.01時(shí),稱為有高度顯著差異,或A因素高度顯著。例1含酸量(%)01234

0.1400.1530.1600.1810.175吸光度0.1410.1500.1580.1850.173

0.1440.1530.1630.1830.174平均值0.1420.1520.1600.1830.174Ti0.4250.4560.4810.5490.5220.3946PTi2/ni0.060210.069310.077120.100470.090830.3979QA0.060220.069320.077130.100480.090830.3980Rx=[0.1400.1530.1600.181 0.175;0.141 0.150 0.158 0.185 0.173;0.144 0.153 0.163 0.183 0.174];Anova1(x’);例1方差來源變差平方和自由度平均變差平方和F臨界值SSA3.30E-0348.26E-04(SSA/vA)/(SSe/ve)=221.2F0.05,4,103.48SSe3.73E-05103.73E-06F0.01,4,105.99SST3.34E-03142.39E-04結(jié)論:酸度對測定結(jié)果有非常顯著的影響方差分析要注意以下幾點(diǎn)1、從理論上可推知,當(dāng)ve很小時(shí),F(xiàn)檢驗(yàn)的靈敏度是很低的,ve很大時(shí),靈敏度就高。增加實(shí)驗(yàn)次數(shù),有利于靈敏度提高。一般ve應(yīng)在5-10,如達(dá)不到,須將

放寬至0.20。2、當(dāng)F值特別小時(shí),表明可能取樣或測量中有系統(tǒng)誤差,一般不應(yīng)發(fā)生,一旦發(fā)生就應(yīng)仔細(xì)尋找原因,決不能放過。3、試驗(yàn)應(yīng)采取隨機(jī)的方式,而不能按照先后次序(例如溫度從高到低)。因?yàn)橛锌赡茉谡麄€(gè)試驗(yàn)過程中,前后尺度掌握不均,或者有其它因素也在有規(guī)律或周期性地變化。4、如果是評定實(shí)驗(yàn)室之間及實(shí)驗(yàn)室內(nèi)部的精度,當(dāng)F

F時(shí),就說明實(shí)驗(yàn)室之間的精度與實(shí)驗(yàn)室內(nèi)部的精度是一致的。雙因素方差分析1、多因素全面試驗(yàn)的試驗(yàn)設(shè)計(jì)方法類型交差分組:每個(gè)因素的每個(gè)水平與其它因素的所有水平都要搭配到,試驗(yàn)A和B處于完全平等的地位系統(tǒng)分組:先按A的a個(gè)水平分成a組,然后在不同的組里再按B的水平來分組,如果有第三個(gè),還可再安排C,它們的各自水平數(shù)不必相同,也不需要均勻搭配混合分組:可以使其中兩個(gè)先采用一種分組方法,然后對第三個(gè)采取另一種方法于是有yij=

+αi+βj+ij

ij~N(0,2)且ij相互獨(dú)立,,αi,βj,i

2

均為未知參數(shù)式稱為雙因素試驗(yàn)方差分析的數(shù)學(xué)模型。我們要比較各水平下的均值是否相同,即要作如下的假設(shè)檢驗(yàn):。要判斷因素A的影響是否顯著就等價(jià)于檢驗(yàn)假設(shè)H01

:α

1

2=…=αr=0要判斷因素B的影響是否顯著就等價(jià)于檢驗(yàn)假設(shè)

H02

:β1=β2=…=βr=0

雙因素方差分析1、交叉分組的雙因素試驗(yàn) 設(shè)因素A有l(wèi)個(gè)水平,A1,A2……Al,因素B有m個(gè)水平B1,B2……Bm,在每一組合(Ai,Bj)下進(jìn)行一次試驗(yàn),得到觀察值A(chǔ)ij,其方差分析計(jì)算方法如下:

雙因素方差分析表例2:為考察蒸餾水的pH值和硫酸銅溶液濃度對化驗(yàn)血清中白蛋白的球蛋白的影響,將蒸餾水pH值(A)和硫酸銅濃度(B)分成如下的水平進(jìn)行試驗(yàn):水平因素1234pH值(A)5.405.605.705.80硫酸銅濃度(B)0.040.080.10

A1A2A3A4TjB(TjB)2/lB13.52.62.01.49.522.56B22.32.01.50.86.610.89B32.01.91.20.35.47.29TiA7.86.54.72.5

(TiA)2/m20.2814.087.362.0821.5414.377.692.69T21.5P38.5QA43.8QB40.7R46.3x=[3.5 2.6 2.0 1.4;2.3 2.0 1.5 0.8;2.0 1.9 1.2 0.3];Anova2(x’);結(jié)果方差來源變差平方和自由度平均變差平方和F臨界值SSA5.2931.7640.9F0.01,3,69.78SSB2.2221.1125.8F0.01,2,610.92SSe0.2660.043結(jié)論:A和B對測定白蛋白與球蛋白的影響非常顯著,其中A因素(pH值)的影響比B因素(CuSO4濃度)影響更大。某企業(yè)在制定某商品的廣告策略時(shí),收集了該商品在不同地區(qū)采用不同廣告形式促銷后的銷售額數(shù)據(jù),希望對廣告形式和地區(qū)是否對商品銷售額產(chǎn)生影響進(jìn)行分析。案例分析:廣告形式、地區(qū)對銷售額的影響F值較大,F值的相伴概率小于或等于用戶給定的顯著性水平a,則拒絕H0,認(rèn)為不同水平下各總體均值有顯著差異;F值較小,F值的相伴概率大于用戶給定的顯著性水平a,則不能拒絕H0,可以認(rèn)為不同水平下各總體均值無顯著差異.廣告形式對銷售額的單因素方差分析結(jié)果可以看到:觀測變量銷售額的離差平方總和為26169.306;如果僅考慮廣告形式單個(gè)因素的影響,則銷售額總變差中,不同廣告形式可解釋的變差為5866.083,抽樣誤差引起的變差為20303.222,它們的方差分別為1955.361和145.023,相除所得的F統(tǒng)計(jì)量的觀測值為13.43,對應(yīng)的概率P值近似為0。如果顯著水平為0.05,由于P值<0,則應(yīng)拒絕原假設(shè),認(rèn)為不同廣告形式銷售額產(chǎn)生了顯著影響,不同廣告形式對銷售額的影響效應(yīng)不全為0。地區(qū)對銷售額的單因素方差分析結(jié)果可以看到:觀測變量銷售額的離差平方總和為26169.306;如果僅考慮地區(qū)單個(gè)因素的影響,則銷售額總變差中,不同地區(qū)可解釋的變差為9265.306,抽樣誤差引起的變差為16904.0,它們的方差分別為545.018和134.159,相除所得的F統(tǒng)計(jì)量的觀測值為4.062,對應(yīng)的概率P值近似為0。如果顯著水平為0.05,由于P值<0.05,則應(yīng)拒絕原假設(shè),認(rèn)為不同地區(qū)銷售額產(chǎn)生了顯著影響,不同地區(qū)對銷售額的影響效應(yīng)不全為0?;貧w分析回歸分析:是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。主要包括:一元線性回歸多元線性回歸非線性回歸逐步回歸Logistic回歸這里,稱為偏回歸系數(shù)?;貧w分析的數(shù)學(xué)模型:從1978年改革開放以來,中國國民經(jīng)濟(jì)一直保持著較高的增長速度,人民生活水平大幅提高。但近年來由于全球競爭加劇,中國對外開放程度的加深,國民經(jīng)濟(jì)的發(fā)展面臨著很大的挑戰(zhàn)。財(cái)政收入水平的高低是反映一國經(jīng)濟(jì)實(shí)力的重要標(biāo)志。在一定時(shí)期內(nèi),財(cái)政收入規(guī)模大小受許多因素的影響,如國民生產(chǎn)總值大小、進(jìn)出口額、社會(huì)從業(yè)人員數(shù)多少、稅收規(guī)模大小、稅率高低因素等。分析要求:(1)分析影響財(cái)政收入的有哪些因素,對財(cái)政收入影響最大的又是哪些因素。(2)分析各因素對財(cái)政收入的影響程度,說明各個(gè)影響因素重要程度不同的原因。(3)對五各省市的財(cái)政收入作單獨(dú)考察,分析影響各省市財(cái)政收入的影響因素。案例分析:財(cái)政收入決定因素分析財(cái)政收入與稅收的關(guān)系財(cái)政收入與GNP的關(guān)系全國財(cái)政收入回歸模型的建立財(cái)政收入與進(jìn)出口額的關(guān)系財(cái)政收入與從業(yè)人數(shù)的關(guān)系建立多元回歸模型四元線性回歸模型結(jié)論:從模型上可以看出(1)其他收入對財(cái)政收入增長的直接作用最大,稅收形成的作用次之。國民生產(chǎn)總值的作用微弱。(2)從業(yè)人數(shù)與財(cái)政收入呈負(fù)相關(guān)關(guān)系,說明隨著從業(yè)人員人數(shù)的增多,并沒有相應(yīng)的明顯增加財(cái)政收入。它實(shí)際反映了人均勞動(dòng)生產(chǎn)率較低,潛在失業(yè)現(xiàn)象較為嚴(yán)重,生產(chǎn)方式多為勞動(dòng)密集型,且勞動(dòng)者整體素質(zhì)不高。這與我國實(shí)際的就業(yè)狀況比較吻合。各地區(qū)財(cái)政收入多元回歸分析(北京市)財(cái)政收入與從業(yè)人數(shù)的散點(diǎn)圖(北京市)財(cái)政收入與從業(yè)人數(shù)的散點(diǎn)圖(全國)變量剔除后兩模型比較分析主成分分析與因子分析主成分分析主要是一種降維的思想。原先有幾個(gè)變量,最多有幾個(gè)主成分。因子分析的基本目的在于:用少數(shù)幾個(gè)隨機(jī)變量刻畫較多變量之間的協(xié)方差關(guān)系。這少數(shù)的隨機(jī)變量是不可觀測的,人們稱之為“因子(factor)”。基本思路是:根據(jù)相關(guān)性大小將變量分組,使得組內(nèi)的變量之間具有較高的相關(guān)性,不同組內(nèi)的變量之間相關(guān)性較低

。

因子分析而因子分析是事先確定要找?guī)讉€(gè)成分,或叫因子(factor)(比如兩個(gè)),那就找兩個(gè)。主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分的p×p矩陣.而對于觀測值X=(x1,…,xp),其中xi=(x1i,…,xni),i=1,…,p,的樣本相關(guān)陣第(ij)-元素為X=(X1,…,Xp)的相關(guān)陣為第(ij)-元素為的p×p矩陣,其中sij為第i和第j觀測的樣本相關(guān)系數(shù)關(guān)于特征值和特征向量特征方程|R-lI|=0的解為特征值l,這里B為一個(gè)p維正定方陣.l通常有p個(gè)根l1≥l2≥…≥lp.滿足(R-liI)xi=0的向量xi為li的特征向量.對任意向量a有性質(zhì)前m個(gè)主成分的累積貢獻(xiàn)率:這里R為X的樣本相關(guān)陣,第i個(gè)特征值li=ai’Rai=V(ai’x);ai為第i個(gè)特征向量.Cov(ai’x,aj’x)=0.這里aij為第i個(gè)特征向量的第j個(gè)分量;第i個(gè)主成分的載荷平方和為該主成分的方差,等于其特征值li.所選的m個(gè)主成分對變量xj的總方差貢獻(xiàn)為主成分負(fù)荷(載荷,loading):Yi與Xj的相關(guān)系數(shù):因子分析數(shù)學(xué)模型

矩陣表示為:設(shè)有n個(gè)樣本,每個(gè)樣本由p個(gè)指標(biāo)來描述,且每個(gè)指標(biāo)都已標(biāo)準(zhǔn)化即每個(gè)指標(biāo)的樣本均值為零,方差為1。正交因子模型為:

mi=變量i的均值ei=第i個(gè)特殊因子Fi=第i個(gè)公共因子aij=第i個(gè)變量在第j個(gè)因子上的載荷不能觀測的值滿足下列條件:F和e獨(dú)立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是對角矩陣,

正交因子模型:X-m=AF+eF為公共因子向量,每個(gè)公共因子(如Fi)是對模型中每個(gè)變量都起作用的因子;而e為特殊因子向量,每個(gè)特殊因子(如ei)只對一個(gè)變量(第i個(gè))起作用.因子分析的方法在于估計(jì)S=AA’+Y和Y,再分解以得到A.X的協(xié)方差陣S可以分解成這里l1≥l2≥…≥lp為S的特征值;而e1,…,ep為相應(yīng)的特征向量(e1,…,ep為主成分的系數(shù),因此稱為主成分法).上面分解總是取和數(shù)的重要的頭幾項(xiàng)來近似.X的協(xié)方差陣S可以近似為(如Y忽略)如Y不忽略,S可以近似為應(yīng)用中,S可以用樣本相關(guān)陣R代替.正交模型X=m+AF+e的協(xié)方差結(jié)構(gòu)

根據(jù)前面模型,可得出下面結(jié)果:上面sii2=Sjaij2+yi2中,Sjaij2稱為共性方差(公共方差或變量共同度commonvariance,communalities),而yi2稱為特殊方差.變量共同度刻畫全部公共因子對變量Xi的總方差所做的貢獻(xiàn).的統(tǒng)計(jì)意義就是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),表示Xi依賴Fj的份量,這里eij是相應(yīng)于特征值li的特征向量ei的第j個(gè)分量.因子載荷陣中各列元素的平方和Sj=Siaij2稱為公共因子Fj對X諸變量的方差貢獻(xiàn)之總和因子載荷令T為任意m正交方陣(TT’=T’T=I),則X-m=AF+e=ATT’F+e=A*F*+e,這里A*=AT,F*=T’F.因此S=AA’+Y=ATT’A’+Y=(A*)(A*)’+Y因此,因子載荷A只由一個(gè)正交陣T決定.載荷A*=AT與A都給出同一個(gè)表示.由AA’=(A*)(A*)’對角元給出的共性方差,也不因T的選擇而改變.正交變換T相當(dāng)于剛體旋轉(zhuǎn)(或反射),因子載荷A的正交變換AT稱為因子旋轉(zhuǎn)

估計(jì)的協(xié)方差陣或相關(guān)陣,殘差陣,特殊方差及共性方差都不隨旋轉(zhuǎn)而變.

這里“殘差陣”為協(xié)方差陣或相關(guān)陣與估計(jì)的AA’+Y之差.因子旋轉(zhuǎn)的一個(gè)準(zhǔn)則為最大方差準(zhǔn)則.它使旋轉(zhuǎn)后的因子載荷的總方差達(dá)到最大.如即要選變換T使下式最大(計(jì)算機(jī)循環(huán)算法)需要由X=AF變成F=bX.或

Fj=bj1X1+…+bjpXpj=1,…,m,

稱為因子得分(函數(shù)).

這通常用加權(quán)最小二乘法或回歸法等來求得.總結(jié)

模型X=m+AF+e因子分析的步驟1.根據(jù)問題選取原始變量;

2.求其相關(guān)陣R,探討其相關(guān)性;

3.從R求解初始公共因子F及因子載荷矩陣A(主成分法或最大似然法)4.因子旋轉(zhuǎn);

5.由X=AF到F=bX(因子得分函數(shù))

6.根據(jù)因子得分值進(jìn)行進(jìn)一步分析.例題分析以02級信息與計(jì)算科學(xué)專業(yè)45名畢業(yè)生的22門課的考試成績?yōu)榛举Y料,對學(xué)生的成績進(jìn)行因子分析.原始數(shù)據(jù)來自02信息與計(jì)算科學(xué)學(xué)生的學(xué)籍管理檔案(注:此處沒有考慮每門課程的教學(xué)時(shí)數(shù);考查課的成績根據(jù)正態(tài)分布曲線下的面積應(yīng)用進(jìn)行了標(biāo)準(zhǔn)化,英語三個(gè)學(xué)期的成績之和記為英語成績;體育成績?nèi)〉谝粚W(xué)期的成績;不及格的科目按第一次考試成績計(jì)算)。

表2:檢驗(yàn)結(jié)果表2給出了KMO檢驗(yàn)和巴特利特球形檢驗(yàn)的結(jié)果。其中KMO統(tǒng)計(jì)量為0.874接近于1,說明變量間的相關(guān)性極強(qiáng),因子分析的效果非常好。巴特利特球形檢驗(yàn)給出的相伴概率為0.000小于顯著性水平0.05因此拒絕零假設(shè),認(rèn)為適合于因子分析。巴特利特微球度檢驗(yàn)以原有變量相關(guān)系數(shù)矩陣為出發(fā)點(diǎn),其原假設(shè)是:相關(guān)系數(shù)矩陣是單位陣,即相關(guān)系數(shù)矩陣為對角陣且主對角元素均為1。巴特利特球度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量根據(jù)相關(guān)系數(shù)矩陣的行列式計(jì)算得到,且近似服從卡方分布。如果該統(tǒng)計(jì)量的觀測值比較大,且對應(yīng)的概率p-值小于給定的顯著性水平,則應(yīng)拒絕原假設(shè),認(rèn)為相關(guān)系數(shù)矩陣不太可能是單位陣,原有變量適合作因子分析;反之,如果檢驗(yàn)統(tǒng)計(jì)量的觀測值比較小且對應(yīng)的概率p-值大于給定的顯著性水平,則不能拒絕原假設(shè),可以認(rèn)為相關(guān)系數(shù)矩陣與單位陣無顯著差別,原有變量不適合做因子分析。巴特利(Bartlett)系數(shù)KMO檢驗(yàn)統(tǒng)計(jì)量是用于比較變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo),數(shù)學(xué)定義為:KMO的統(tǒng)計(jì)量取值在0~1之間。當(dāng)所有變量間的簡單相關(guān)系數(shù)平方和遠(yuǎn)遠(yuǎn)大于偏相關(guān)系數(shù)平方和時(shí),KMO值接近1。KMO值越接近1,意味著變量間的相關(guān)性越強(qiáng),原有變量越適合作因子分析;當(dāng)所有變量的簡單相關(guān)系數(shù)平方和越接近0時(shí),KMO值越接近0,KMO值越接近于0,意味著變量間的相關(guān)性越弱,原有變量越不適合作因子分析。Kaiser給出了常用的KMO度量標(biāo)準(zhǔn);0.9以上表示非常適合;0.8表示適合;0.7表示一般;0.6表示不太適合;0.5以下表示極不適合。第一因子變量中數(shù)學(xué)分析1、數(shù)學(xué)分析2,高等代數(shù)1、高等代數(shù)2、空間解析幾何都有較大的載荷,這些課程大部分是專業(yè)基礎(chǔ)課,因此第一因子可以定義為數(shù)學(xué)專業(yè)基礎(chǔ)理論因子。在第一因子變量各科載荷中,數(shù)學(xué)分析和高等代數(shù)較大,說明數(shù)學(xué)分析和高等代數(shù)對第一因子變量的影響較大。第二因子變量中C語言程序設(shè)計(jì),數(shù)據(jù)結(jié)構(gòu)與算法,離散數(shù)學(xué)都有較大的載荷,這些課程大部分是計(jì)算機(jī)專業(yè)基礎(chǔ)因子。第三因子變量中概率論與數(shù)理統(tǒng)計(jì),復(fù)變函數(shù),常微分方程,哲學(xué)原理,運(yùn)籌學(xué)都有較大的載荷,這些大部分是三年級開設(shè)的數(shù)學(xué)專業(yè)課程,因此我們把第三因子變量定義為數(shù)學(xué)專業(yè)能力因子。(為什么會(huì)有哲學(xué)原理呢?因?yàn)檎軐W(xué)原理有很強(qiáng)的邏輯相關(guān)性,這正好與數(shù)學(xué)專業(yè)的培養(yǎng)學(xué)生邏輯思維能力相吻合)。

第四因子變量中數(shù)字信號處理,數(shù)字圖像處理,面向?qū)ο蟮某绦蛟O(shè)計(jì)都有較大的載荷,這些課程都是大學(xué)三年級開設(shè)的是在計(jì)算機(jī)基礎(chǔ)理論的前提下應(yīng)用計(jì)算機(jī)基礎(chǔ)理論解決實(shí)際問題的課程,反映了學(xué)生解決實(shí)際問題的能力水平,因此定義為計(jì)算機(jī)能力因子。第五個(gè)因子變量中體育基本上占了全部載荷,這正好和我們說的德智體全面發(fā)展相結(jié)合,說明體育也是很重要的,定義為體育因子。

第六因子變量中大學(xué)英語載荷最大,達(dá)到了0.825說明英語在大學(xué)生的學(xué)習(xí)中地位非常重要,定義為英語素質(zhì)因子。

第七因子變量中毛澤東思想概論和鄧小平理論概論思想道德教育都有很大的載荷,定義為思想理論素質(zhì)因子,這幾門課程是學(xué)習(xí)其它課程的理論指導(dǎo)學(xué)科,不論大學(xué)生以后從事哪方面的工作都離不開毛澤東鄧小平理論指導(dǎo),思想道德理論基礎(chǔ)又為大學(xué)生的思想素質(zhì)打下了堅(jiān)實(shí)的基礎(chǔ)。

表6:因子轉(zhuǎn)換矩陣

因子課程名稱潛在變量Factor1數(shù)學(xué)分析1、2,高等代數(shù)1、2空間解析幾何數(shù)學(xué)基礎(chǔ)能力Factor2C語言程序設(shè)計(jì),數(shù)據(jù)結(jié)構(gòu)與算法,離散數(shù)學(xué)計(jì)算機(jī)基礎(chǔ)能力Factor3概率論與數(shù)理統(tǒng)計(jì),復(fù)變函數(shù),常微分方程,哲學(xué)原理,運(yùn)籌學(xué)數(shù)學(xué)專業(yè)能力Factor4數(shù)字信號處理,數(shù)字圖像處理,面向?qū)ο蟪绦蛟O(shè)計(jì)計(jì)算機(jī)能力Factor5體育體育因子Factor6英語英語因子Factor7毛澤東思想概論,鄧小平理論概論,思想道德修養(yǎng)思想理論因子因子分析和主成分分析的一些注意事項(xiàng):可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系應(yīng)用因子分析法進(jìn)行分析的步驟如下:1、根據(jù)研究問題選取原始變量;2、對原始變量進(jìn)行標(biāo)準(zhǔn)化并求其相關(guān)矩陣,分析變量之間的相關(guān)性;3、求解初始公共因子及因子載荷矩陣;4、因子旋轉(zhuǎn);5、因子得分;6、根據(jù)因子得分進(jìn)行進(jìn)一步分析聚類分析案例分析:中國35個(gè)主要城市經(jīng)濟(jì)效益分析根據(jù)35個(gè)主要城市某年關(guān)于年底總?cè)丝?、地區(qū)生產(chǎn)總值(GDP)、工業(yè)總產(chǎn)值、客運(yùn)總量、貨運(yùn)總量、地方財(cái)政預(yù)算內(nèi)收入、固定資產(chǎn)投資總額、城鄉(xiāng)居民儲(chǔ)蓄年末余額、在崗職工平均人數(shù)、在崗職工工資總額10個(gè)指標(biāo)的數(shù)據(jù),以期對這些城市的經(jīng)濟(jì)效益進(jìn)行橫向和縱向的比較,找出它們之

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論