版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1回歸分析概述參數估計模型檢驗模型預測第三章雙變量模型:假設檢驗為什么會有“假設”?“假設”經常是實際情況的簡約表述通常如此,排除個別例外。如“理性人”或“經濟人”假設劃定界限,說明本理論體系中只研究某領域的東西任何有條理的道理都不能太復雜也是力有不逮假設檢驗思想舉例她是大學生?為什么不是?大學生如此著裝的概率很低基于概率判斷的“排除法”*理論的最初探索1710年,阿布茲諾特在英國皇家學會宣讀論文《從兩性出生數觀察的規(guī)律性所得關於神的意旨存在的一個論據》。他研究了1629-1710年倫敦出生的男女數,全是男多女,推理:有兩種可能:⑴生男或生女純屬偶然;⑵“神的意旨”,生男的機會大于生女。如果⑴成立,則一年內生男的機會大于生女機會的概率不大于0.5,連續(xù)82年出現這情況的概率不應超過(1/2)82<10-24。一億億億分之一,這不合情理。他首先提出用統(tǒng)計數據去驗證一種說法的問題。來自女士品茶的靈感20世紀的R.A.Fisher:一女士說她能分辨奶茶中先倒進杯子的是奶還是茶。設計試驗:8杯奶茶,先倒奶的4杯,請她品嘗。設她挑出了這4杯。假設她無分辨能力,則8中選4共有70種方法()。全選對的概率僅為1/70,有假設1.無鑒別能力,純屬偶然2.有鑒別能力
*假設1與假設2相矛盾。如果承認1,概率只有1/70,如果不願意接受這么低的概率,就必須放棄此假設。一個理智的選擇是假設2:她居然真的有能力區(qū)分出來。課堂問題1:什么是假設檢驗假設檢驗的流程實訓題:某餐廳以前營業(yè)額8000元/天,標準差640元,改了菜單,觀察了9天,平均營業(yè)額8300/天,標準差640元。這300元的差異是改菜單所導致嗎?請回憶切比雪夫經驗公式6假設檢驗的過程和邏輯假設檢驗的基本思想運用“證明某個事物的正確性不如否定其對立面容易”的簡單邏輯,通過數學過程來實現的一個方法;它通過數據和模型的矛盾來否定舊的模型。假設如此,如果“如此”的概率比較小,就說明實際上“不如此”概率一般是0.1,0.05,0.01*假設檢驗的流程提出假設確定適當的檢驗統(tǒng)計量規(guī)定顯著性水平
計算檢驗統(tǒng)計量的值作出統(tǒng)計決策均值檢驗中檢驗統(tǒng)計量的選擇總體正態(tài)?n≥30?σ2已知?否是是否否是實際中總體方差總是未知的,因而這是應用最多的公式。大樣本時t值可以用z值來近似。根據中心極限定理得到的近似結果。
σ未知時用s來估計。增大n;數學變換等。檢驗菜單的作用
猜測:營業(yè)額的提高有可能真的是“改了菜單”所帶來的,也可能因為最近這9天“恰好”是偏高的。假設營業(yè)額服從正態(tài)分布。分析過程見"概率分佈.doc"*例1、提出零假設和備擇假設2、選擇檢驗統(tǒng)計量:根據題意3、檢驗統(tǒng)計量的觀測值4、顯著性水平等于0.05。根據z值(或t值)進行雙側檢驗0Za/2=1.96-Za/2=-1.96a/2
/2
Z,t拒絕域拒絕域接受域1-
置信水平決策規(guī)則:|Zobs|>
Z
/2時拒絕零假設,
否則不能拒絕零假設。本例中統(tǒng)計量的觀測值等于1.4063,因此結論
是不拒絕零假設,認為菜單對銷售額不顯著。統(tǒng)計量的觀測
值等于1.4063H0m=
m0H1m≠m0曲線下面積分布規(guī)律0-11-1.961.96-2.582.5868.27%95.00%99.00%查附表
Chebyshev’stheorem
切比雪夫定理
經驗法則
經驗法則表明:當一組數據對稱分布時約有68%的數據在平均數加減1個標準差的范圍之內約有95%的數據在平均數加減2個標準差的范圍之內約有99%的數據在平均數加減3個標準差的范圍之內切比雪夫不等式
(Chebyshev’sinequality)如果一組數據不是對稱分布,經驗法則就不再適用,這時可使用切比雪夫不等式,它對任何分布形狀的數據都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對于任意分布形態(tài)的數據,根據切比雪夫不等式,至少有1-1/k2的數據落在平均數加減k個標準差之內。其中k是大于1的任意值,但不一定是整數切比雪夫不等式
(Chebyshev’sinequality)
對于k=2,3,4,該不等式的含義是至少有75%的數據落在平均數加減2個標準差的范圍之內至少有89%的數據落在平均數加減3個標準差的范圍之內至少有94%的數據落在平均數加減4個標準差的范圍之內3.1古典線性回歸模型古典線性回歸模型的基本假設原因1:只有符合這些基本假定,才能保證OLS參數估計量具有良好的性質;原因3:隨機誤差項加上一個非隨機項X生成了Y,因而Y也是隨機變量。在根據SRF進行假設檢驗時,如果不對隨機誤差項的生成做一些特殊的假定,則無法進行假設檢驗。原因2:如果不滿足這些假定,第二部分會進一步進行處理。這是基于學習的由淺入深、由理想狀態(tài)到現實實際的步驟。19古典線性回歸模型的基本假定總結假定1:回歸模型是參數線性的假定:隨機誤差項
與解釋變量X之間不相關。Cov(Xi,
i)=0i=1,2,…,n如果X是非隨機的(即為固定值),則該假定自動滿足。我們所指的回歸分析是條件回歸分析,即給定X條件下的回歸分析,即我們一直假定X是非隨機的。20Assumption2假定2:在重複抽樣中X的值是固定的(非隨機)Xvaluesare?xedinrepeatedsampling.ValuestakenbytheregressorXareconsidered?xedinrepeatedsamples.Moretechnically,Xisassumedtobenonstochastic.假定3:給定Xi,隨機誤差項的期望或均值為零。E(
iXi)=0i=1,2,…,n隨機誤差項(其他影響因素)與Xi(納入模型的變量)之間不相關。2223假定4:隨機誤差項
具有同方差,即方差為常數。Var(
i)=
2i=1,2,…,n與給定X相對應的每個Y的條件分布具有同方差,即每個Y值以相同的方差分布在其均值周圍。24假定5:無自相關。即隨機誤差項
之間不相關。Cov(
i,
j)=0i≠ji,j=1,2,…,n表明誤差項之間沒有系統(tǒng)關系,即誤差是隨機的。25Assumption5假定5:各個干擾項無自相關。
Noautocorrelationbetweenthedisturbances.Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi)][uj-E(uj|Xj)]=E(ui|Xi)(uj|Xj)=0假定6:回歸模型是正確設定的。即實證分析的模型不存在設定偏差。假定7:隨機誤差項服從零均值、同方差、零協方差的正態(tài)分布。
i~N(0,
2)i=1,2,…,n為了推導估計量的抽樣分布,需要增加以下假定可以計算出OLS的估計量及其標準誤、估計量的統(tǒng)計性質根據中心極限定理可得,參數估計量也服從正態(tài)分布進一步說明27Assumption6模型沒有設定誤差。Theregressionmodeliscorrectlyspeci?ed.Alternatively,thereisnospeci?cationbiasorerrorinthemodelusedinempiricalanalysis.Theprecedingexampleisaninstanceofwhatiscalledaspeci?cation
biasoraspeci?cationerror;herethebiasconsistsinchoosingthewrong
functional小結-古典線性回歸模型的基本假設假定1:回歸模型是參數線性的假定2:隨機誤差項
與解釋變量X之間不相關。假定6:回歸模型是正確設定的。即實證分析的模型不存在設定偏差。假定3、4、5、7:隨機誤差項服從零均值、同方差、零協方差的正態(tài)分布。i=1,2,…,n29課堂問題2:什么是正態(tài)分布什么是自由度,協方差的公式
什么是標準誤30正態(tài)分布統(tǒng)計學第五章內容正態(tài)分布(normaldistribution)由均值與方差唯一決定概率密度函數(PDF,probabilitydistributionorprobabilitydensityfunction)如何決定概率密度或頻率高度的對應規(guī)則)在X=μ處為極值,圖形軸對稱注:F(X)稱為累積分布函數(CDF,cumulativedistributionfunction),定義:F(X)=P(x≤X)*正態(tài)曲線(normalcurve
)圖形特點:鐘型中間高兩頭低左右對稱最高處對應于X軸的值就是均數曲線下面積為1標準差決定曲線的形狀Xf(X)m
μ決定曲線的位置,σ決定曲線的“胖瘦”
標準正態(tài)分布標準正態(tài)分布(standardnormaldistribution)的兩個參數為:μ=0,σ=1記為
N(0,1)
一般正態(tài)分布為一個分布族:N(m,s2)
;標準正態(tài)分布只有一個
N(0,1)
;這樣簡化了應用標準正態(tài)分布StandardNormal(Z)DistributionOneveryspecialmemberofthenormaldistributionfamilyiscalledthestandardnormaldistribution,orZ-distribution.TheZ-distributionisusedtohelpfindprobabilitiesandsolveothertypesofproblemswhenworkingwithanynormaldistribution.Thestandardnormal(Z)distributionhasameanofzeroandastandarddeviationof1.*
TransformingnumbersonthenormaldistributiontonumbersontheZ-distribution**自由度(DegreeofFreedom)自由度是不受任何約束,可以自由變動的變量的個數。是反映分布或數據差異信息的個數,即(xi-mean)誤差的個數。還可以將自由度n-1理解為n個數據中在樣本均值確定後只有n-1個數據可以自由取值,而第n個一定不能自由取值S2是總體方差的無偏、一致、有效估計量(通俗地說,是最準確、最穩(wěn)定的)*3.2OLS估計量的方差與標準誤
VariancesandstandarderrorsofOLSestimatorsb1、b2都是從樣本中獲得的,是隨機變量,其變化依然服從正態(tài)分布這種抽樣變異性通常由估計量的方差或其標準誤來度量但其中“估計量的方差”只是個存在理論中的概念,它幾乎無法得知,故須估計它普通最小二乘估計量的方差與標準誤基于1-6假定,可以估計OLS估計量的方差和標準誤。OLS估計量是隨機變量,因為隨著樣本的不同,OLS估計量是不同的。OLS估計量是如何隨樣本變化而變化的呢,即這些估計量的抽樣變異性是怎樣的呢?這種抽樣變異性通常由估計量的方差或其標準誤(方差的平方根)來度量。4041參數估計量的方差和標準誤42(二)普通最小二乘估計量的方差與標準誤4344453A.2:最小二乘估計量的線性和無偏性質463A.6:最小二乘估計量的最小方差性質474849505152隨機誤差項
的方差2的估計
由于隨機項
i不可觀測,只能從
i的估計——殘差ei出發(fā),對總體方差進行估計。
(二)普通最小二乘估計量的方差與標準誤
2又稱為總體方差。53
可以證明,
2的最小二乘估計量為隨機誤差項
的方差2的估計是
2的估計量是殘差平方和,即Y的真實值與估計值之差的平方和(n-2)稱為自由度,可簡單看做觀測值個數減去待估參數的個數稱為回歸的標準誤(SER,standarderroroftheregression)該值越小,說明Y的實際值越接近根據回歸模型得到的估計值。54自由度σ-hat是回歸標準誤,SER可以衡量估計回歸線的估計質量isknownasthestandarderrorofestimateorthestandarderroroftheregression(se).ItissimplythestandarddeviationoftheYvaluesabouttheestimatedregressionlineandisoftenusedasasummarymeasureofthe“goodnessoffit”oftheestimatedregressionline.標準誤標準誤方差方差5657
432.4138+0.0013XiSe=(16.9061)(0.000245)3.2.1數學S.A.T一例方差和標準誤文章中回歸結果的輸出形式更進一步的含義后面再解釋參數估計值標準誤58
當模型參數估計出后,需考慮參數估計值的精度,即是否能代表總體參數的真值,或者說需考察參數估計量的統(tǒng)計性質。59
一個用于考察總體的估計量,可從如下幾個方面考察其優(yōu)劣性:
(1)線性性,即它是否是另一隨機變量的線性函數;
(2)無偏性,即它的均值或期望值是否等于總體的真實值;
(3)有效性,即它是否在所有線性無偏估計量中具有最小方差。3.3最小二乘估計量的性質-為什么使用OLS
高斯—馬爾柯夫定理(Gauss-Markovtheorem)如果滿足古典線性回歸模型的基本假定,則在所有線性估計量中,OLS估計是最優(yōu)線性無偏估計量(BestLinearUnbiasedEstimator,BLUE)簡單易行很強的理論性質6061高斯-馬爾柯夫定理:在CLRM假定下,在所有線性無偏估計量中,OLS估計量有最小方差,即OLS是BLUE(BestLinearUnbiasedEstimator)。為Yi的線性函數參數估計量b是Yi的線性函數平均而言,參數估計值與其真值是一致的。平均而言,誤差方差的估計值收斂于其真值;誤差方差的估計量也是無偏的64無偏性為的無偏估計量。證明最小方差性其中,ci=ki+di,di為不全為零的常數則容易證明66參數估計量b的均值等于模型參數值參數估計-小結古典線性回歸模型的基本假設最小二乘估計量的性質普通最小二乘估計量的方差與標準誤參數的普通最小二乘估計i=1,2,…,n70結構參數分布參數BLUE每個人打靶都滿足無偏性只有冠軍滿足了最優(yōu),即“有效性”全部估計線性估計線性無偏估計·最優(yōu)線性無偏估計蒙特卡洛(MonteCarlo)試驗摩納哥著名賭城。又稱統(tǒng)計試驗法or隨機模擬法。模型的解是試驗生成的,而不是計算出來的,布豐投針當問題可以抽象為某個確定的數學問題時,應當首先建立一個恰當的概率模型,即確定某個隨機事件A或隨機變量X,使得待求的解等於隨機事件出現的概率或隨機變量的數學期望值.然後進行模擬實驗,即重複多次地模擬隨機事件A或隨機變量X.最後對隨機實驗結果進行統(tǒng)計平均,求出A出現的頻數或X的平均值作為問題的近似解.這種方法也叫做間接蒙特卡洛模擬蒙特卡洛(MonteCarlo)試驗蒙特卡洛方法的誤差與和n有關.為了減小誤差,就應當選取最優(yōu)的隨機變量,使其方差最小.對同一個問題,往往會有多個可供選擇的隨機變量,這時就應當擇優(yōu)而用之.在方差固定時,增加模擬次數可以有效地減小誤差.如試驗次數增加100倍,精度提高10倍.當然這樣做就增加了計算的機時,提高了費用.所以在考慮蒙特卡洛方法的精確度時,不能只是簡單地減少方差和增加模擬次數,還要同時兼顧計算費用,即機時耗費.通常以方差和費用的乘積作為衡量方法優(yōu)劣的標準.MonteCarloexperimentsTheexperimentsareoftenusedtostudythestatisticalpropertiesofvariousmethodsofestimatingpopulationparameters.Theyareparticularlyusefultostudythebehaviorofestimatorsinsmall,orfinite,samples.Theseexperimentsarealsoanexcellentmeansofdrivinghometheconceptofrepeatedsamplingthatisthebasisofmostofclassicalstatisticalinference.課堂問題3中心極限定理和大數定理?75*統(tǒng)計學第五章:抽樣推斷的理論基礎大數定律大數定律是闡明大量隨機現象平均結果的穩(wěn)定性的一系列定理的總稱。其一般意義是:在隨機試驗過程中,每次試驗的結果不同,但大量重複試驗,所出現結果的平均值總是接近某一確定的值。樣本容量增大,統(tǒng)計量趨向參數多次抽樣,樣本的規(guī)律也是穩(wěn)定的*概率的統(tǒng)計定義試驗者拋硬幣次數
n正面(A)出現次數nA德·摩爾根204810610.5180浦豐404021480.5069皮爾遜1200060190.5016皮爾遜24000120120.5005維尼30000149940.4998正面(A)出現的頻率
*偶然性只會在各個必然過程的交叉點上出現?!樟袧h諾夫*中心極限定理中心極限定理(CentralLimitTheorem,CLT):如果X1,X2?Xn是來自N~(μ,σ2)任一總體的隨機樣本,隨著樣本容量無限增大,則其樣本均值趨于正態(tài)分布,均值為μ
,方差為σ2/n獨立同分布隨機變量,隨著變量個數的無限增加,其和的分布近似服從正態(tài)分布。f(X)X小樣本中心極限定理從均值為
,方差為
2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布。大樣本(n
30)樣本容量與樣本均值的抽樣分布的關系Asthesamplesizeincreased,thestandarderrorofthemeanisdecreased.Thelargersamplesizewillprovideahigherprobabilitythatthesamplemeaniswithinaspecifieddistanceofthepopulationmean.*中心極限定理的實際意義第一,如果總體很大,而且服從正態(tài)分布,樣本平均數(或成數)的分布也同樣服從正態(tài)分布。第二,如果總體很大,但不服從正態(tài)分布,只要樣本容量足夠大(n≥30),樣本平均數(或成數)的分布趨近於正態(tài)分布。第三,樣本平均數(或成數)的平均數,等於總體平均數(或成數)。*中心極限定理的一個意義由眾多小因素所影響的變量,服從正態(tài)分布經驗表明:對于其值依賴于眾多微小因素且每一因素均產生微小的或正或負影響的連續(xù)型隨機變量來說,正態(tài)分布是一個相當好的描述模型。比如體重,近似服從正態(tài)分布,因為遺傳、骨骼結構、飲食、鍛煉、新陳代謝等都對人的體重有影響,但又沒有一種因素起到壓到一切的主導作用。類似地,身高、考試分數等都近似地服從正態(tài)分布。中心極限定理
(centrallimittheorem)的分布趨于正態(tài)分布的過程3.4OLS估計量的抽樣分布或概率分布b1、b2都服從正態(tài)分布理論基礎是中心極限定理centrallimittheoremiftherearealargenumberofindependentandidenticallydistributedrandomvariables,then,withafewexceptions,thedistributionoftheirsumtendstoanormaldistributionasthenumberofsuchvariablesincreaseindefinitely.CentrallimittheoremLetX1,X2,...,Xndenotenindependentrandomvariables,allofwhichhavethesamePDFwithmean=μandvariance=σ2.LetˉX=ΣXi/n.Thenasnincreasesindefinitely(i.e.,n→∞),Thatis,ˉXapproachesthenormaldistributionwithmeanμandvarianceσ2/n.NoticethatthisresultholdstrueregardlessoftheformofthePDF.Asaresult,itfollowsthatThatis,Zisastandardizednormalvariable.泊松Poisson中心極限定理fn(A)為事件A在n次試驗中發(fā)生的次數,pi為事件A第i次試驗中發(fā)生的概率,x為任一實數,若發(fā)散,則有:式中,Bn2=Σpi(1-pi)
課堂問題4假設檢驗中兩類錯誤?假設檢驗的流程?88假設檢驗的基本思想假設如此,如果“如此”的概率比較小,就說明實際上“不如此”概率一般是0.1,0.05,0.01既類似於數學中的反證法,又不同。因為它所依據的小概率原理,不是百分之百的正確,所以假設檢驗也可能犯錯誤假設檢驗的主要目的是為了拒絕而不是接受“沒有足夠證據拒絕零假設”在理論上,這并不意味著“接受”零假設因為零假設并未包括另一類“納偽”錯誤第Ⅰ類錯誤和第Ⅱ類錯誤零假設是正確的零假設是錯誤的決策拒絕零假設第Ⅰ類錯誤:拒真(拒絕一個正確的零假設)概率:α正確決策不拒絕零假設正確決策第Ⅱ類錯誤:納偽(未拒絕一個錯誤的零假設)概率:β理論的最初探索:1710,阿布茲諾特JohnArbuthnot1667-1735在英國皇家學會PhilosophicalTransactionsoftheRoyalSocietyofLondon
宣讀論文《從兩性出生數觀察的規(guī)律性所得關於神的意旨存在的一個論據AnargumentforDivineProvidence,takenfromtheconstantregularityobservedinthebirthsofbothsexes》。3.5假設檢驗hypothesistesting統(tǒng)計檢驗回歸分析是要通過樣本所估計的參數來代替總體的真實參數,或者說是用樣本回歸線代替總體回歸線。盡管從統(tǒng)計性質上已知,如果有足夠多的重復抽樣,參數的估計值的期望(均值)就等于其總體的參數真值,但在一次抽樣中,估計值不一定就等于該真值。那么,在一次抽樣中,參數的估計值與真值的差異有多大,是否顯著,這就需要進一步進行統(tǒng)計檢驗。9394假設檢驗三、擬合優(yōu)度檢驗一、參數的置信區(qū)間法二、變量的顯著性檢驗法四、回歸分析結果的報告五、正態(tài)性檢驗檢驗樣本回歸函數與總體回歸函數的“接近”程度即樣本回歸函數能否代表總體回歸函數進行統(tǒng)計推斷檢驗樣本回歸函數與樣本點的“擬合優(yōu)度”檢驗解釋變量對被解釋變量是否存在著顯著的線性影響檢驗樣本回歸函數與總體回歸函數的“接近”程度95假設檢驗
所謂假設檢驗,就是事先對總體參數或總體分布形式作出一個假設,然后利用樣本信息來判斷原假設是否合理,即判斷樣本信息與原假設是否有顯著差異,從而決定是否接受或否定原假設。先假定原假設正確,然后根據樣本信息,觀察由此假設而導致的結果是否合理,從而判斷是否接受原假設。零假設為:H0:B2=0這個“0”零假設(“Zero”nullhypothesis)也稱稻草人假設(strawmanhypothesis)。故意地選擇這樣一個假設,是為了看Y究竟是否與X有關。如果一開始X與Y就無關,那么再檢驗假設B2為其他任何值就沒有意義了。當然,如果零假設為真,則就沒有必要把X包括到模型之中。因此,如果X確實屬於這個模型,那么,就期望拒絕“0”零假設H0而接受備擇假設H1,B2≠0。零假設通常都是準備否定的命題對B1和B2的參數b1、b2,進行假設檢驗二方法(1)置信區(qū)間法(2)顯著性檢驗法假設檢驗方法一:置信區(qū)間法隨機抽一個男生量身高,身高在什么範圍才不會覺得怪?(設所有人中間95%的區(qū)間為“不怪”)185會在其中嗎?正態(tài)分佈二參數(均值171.2,標準差5.87)表現了這種現象的規(guī)律95%的Z分數為1.96171.2±1.96×5.87為(159.7,182.7)185就顯得“怪”,或者,不相信是隨機抽取的方法總結:根據置信水平α=5%查(1-α)的Z分數,得知從中心跨出“幾步”,步長為標準差,可得置信區(qū)間,此區(qū)間之外者皆屬“怪”假設檢驗方法一:置信區(qū)間法如果不知總體分佈,且為小樣本,須使用t分佈設20名男生身高均值172.7,標準差5.21自由度19雙尾t值2.09置信區(qū)間為172.7±2.09×5.21,即(160.8,183.6)假設檢驗方法二:顯著性檢驗法抽了一個男生,身高185,這怪不怪?or屬小概率事件的概率有多大?or是隨機抽的嗎?要計算出現185及以上的概率(185-171.2)/5.87=2.351,此為Z值2.351對應的累計概率密度為99%,亦即,超過185的概率為1%,算“怪”方法總結:一個特定變量值,根據分佈規(guī)律換算為Z分數,再察其出現概率根據此概率判斷“怪”或“不怪”,材料更精確,但判斷標準卻有彈性,如6%即正態(tài)分佈的95%的區(qū)域(u-2σ,u+2σ)之間。如果零假設為B2=0,計算得到的b2=0.0814,我們就能夠根據標準正態(tài)分佈Z,求得b2的概率。如果這個概率非常小,就能拒絕零假設,但是,如果這個概率值較大,如10%,就不可以拒絕零假設。為了檢驗零假設,需用t分佈來代替(標準)正態(tài)分佈,但假設檢驗的過程不變。101假設檢驗數學S.A.T一例現假定家庭年收入對學生的數學分數沒有影響希望確認Y是否與X有關H0:
1=0如果零假設為真,就沒有必要把X納入模型了雖然本例中的參數估計值不為零,但是由于抽樣的波動性,數值結果會因為樣本的變化而不同。顯然,需要正規(guī)的檢驗過程拒絕或接受零假設。如何進行呢?102假設檢驗數學S.A.T一例置信區(qū)間法可選擇兩種方法對
0和1的參數進行檢驗顯著性檢驗法由于服從正態(tài)分布,則變量Z服從標準正態(tài)分布由于未知,需用代替,因此上式服從t分布3.5.1置信區(qū)間法confidenceinterval因為這個區(qū)間沒有包括零假設值0,所以拒絕零假設104一、置信區(qū)間法
數學S.A.T一例設定自由度為d.f;假定顯著性水平為,可得因為
H0:
1=0,H1:10Step1:Step2:Step3:Step4:如果原假設的值落在該區(qū)間中,則接受原假設,否則,拒絕原假設。105接受區(qū)域拒絕區(qū)域拒絕區(qū)域如果接受區(qū)域包含零假設值,則不拒絕零假設。當然,無論做何種決定,都會以一定的概率(如)犯錯。置信區(qū)間顯著性水平端點稱為置信限(confidencelimit)或臨界值(criticalvalues)(confidencecoefficient)(confidenceinterval)(levelofsignificance)置信系數(置信度)置信區(qū)間臨界值臨界值106一、置信區(qū)間法
數學S.A.T一例本例中,自由度為8(10-2)假定顯著性水平為5%
H0:
1=0,H1:10則根據附錄可查由于這個區(qū)間沒有包括零假設值0,所以拒絕H0Step1:Step2:Step3:Step4:
由于置信區(qū)間一定程度地給出了樣本參數估計值與總體參數真值的“接近”程度,因此置信區(qū)間越小越好。
要縮小置信區(qū)間,需
(1)增大樣本容量n,因為在同樣的置信水平下,n越大,t分布表中的臨界值越??;同時,增大樣本容量,還可使樣本參數估計量的標準差減??;
(2)提高模型的擬合優(yōu)度,因為樣本參數估計量的標準差與殘差平方和呈正比,模型擬合優(yōu)度越高,殘差平方和應越小。107108H0的接受區(qū)域拒絕區(qū)域拒絕區(qū)域隨機區(qū)間確定性區(qū)間建立100個這樣的區(qū)間,則有95個區(qū)間包括真實的
1。95%的置信區(qū)間(自由度為8)0.000740.00187該隨機區(qū)間包含真實的
1的概率為95%3.5.2假設檢驗的顯著性檢驗法
testofsignificance回歸模型的解釋能力舉例設身高與體重的均值分別為171cm,60kg。二者之間的是y=0.6488x-51.267,如果某人180,他“應該”重0.6488*180-51.267=65.5今有某大只佬,180cm,75.5kg,別人譏笑他太肥。他辯解:“因為我比一般人高,所以我也比一般人重”如果認識不太細,只好接受此人的辯解回歸模型的解釋能力舉例更進一步的認識:一般規(guī)律是,越高則就越重,當你高達180時,你應該重65.5,而你重達75.5,多出來的這10kg就是你超級肥的部分75.5-60=(75.5-65.5)+(65.5-60)實際值超出一般值的部分=回歸模型能夠解釋的超出部分+回歸模型無法解釋的部分個體的總差異=規(guī)律性的差異+個體異常所形成的差異變量的顯著性檢驗
回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素。
112在一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進行變量的顯著性檢驗。113變量的顯著性檢驗
核心思想:構造一個檢驗統(tǒng)計量,從樣本數據求得檢驗統(tǒng)計量的值,以此決定接受或拒絕零假設
檢驗步驟:
H0:
1=*,H1:1
*(2)以原假設H0構造t統(tǒng)計量,并由樣本計算其值(3)給定顯著性水平,查t分布表,得臨界值|t|>t/2(n-2),則拒絕H0|t|
t/2(n-2),則不拒絕H0
(1)對總體參數提出假設(4)比較判斷變量的顯著性檢驗
計量經計學中,主要是針對變量的參數真值是否為零來進行顯著性檢驗的雙邊檢驗t/2(n-2)t
(n-2)單邊檢驗右側檢驗t>t
(n-2)或左側檢驗t<t
(n-2),則拒絕H0115變量的顯著性檢驗
說明:在經驗分析中,常用的顯著性水平有1%、5%、10%。為了避免選擇顯著水平的隨意性,通常求出P值(精確地顯著水平)。如果計算的P值充分小,則拒絕零假設。計量經計學中,主要是針對變量的參數真值是否為零來進行顯著性檢驗的,以判斷X是否對Y具有顯著的線性性影響。
即H0:
1=0變量的顯著性檢驗
數學S.A.T一例
H0:
1=0,H1:10給定顯著性水平
,查臨界值:t/2(8)
顯著性水平臨界值3.3552.3061.8600.10~10%0.05~5%0.01~1%t=5.4354>臨界值3.355:在1%的顯著性水平下拒絕1=0的零假設。t=5.4354所對應的P值約為0.0006。說明如果在該P值水平上拒絕零假設,則犯錯的概率僅為萬分之六。零假設1=0為真卻被拒P值:統(tǒng)計量的精確顯著水平;拒絕零假設最低的顯著水平雙邊檢驗117變量的顯著性檢驗
數學S.A.T一例單邊檢驗
H0:
1≤0,H1:1>0這是因為預期的收入系數為正顯著性水平臨界值0.01~1%0.05~5%0.10~10%2.8961.8601.397t=5.4354>臨界值2.896:在1%的顯著性水平下拒絕零假設給定顯著性水平
,查臨界值:t
(8)
3.6擬合回歸直線的優(yōu)良程度:判定系數r2
Thecoefficientofdeterminationr2:ameasureof“goodnessoffit”擬合優(yōu)度檢驗
擬合優(yōu)度檢驗:對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。119
問題:采用普通最小二乘估計方法,已經保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度?度量擬合優(yōu)度的指標:判定系數(可決系數)R2TSS=ESS+RSSTSS=ESS+RSSthetotalsumofsquarestheexplainedsumofsquarestheresidualsumofsquares
擬合優(yōu)度檢驗是指對樣本回歸線與樣本觀測值之間擬合程度的檢驗。度量擬合程度的指標是判定系數r2。
基本思路:因變量Y的變異,能夠被X的變異解釋的比例越大,則OLS回歸線對總體的解釋程度就越好。
XiXSRFY總平方和(TSS):實測的Y值圍繞其均值的總變異:定義判定系數:估計的Y值圍繞其均值的總變異未被解釋的圍繞回歸線的Y值的變異
r2測度了在Y的總變異中,由回歸模型解釋的部分所占的比例。r2越高,回歸模型擬合的程度就越好。
r2的性質:(1)非負。(2)0≤R2≤1其它表達方式:相關關係的Venndiagram表示TheBallentineviewofr2:(a)r2=0;(f)r2=1.每個圓代表一個變量的變異,其重疊部分代表Y的變異能夠由X的變異來解釋的程度a圖完全無關,f圖完全重疊總離差平方和的分解
已知由一組樣本觀測值(Xi,Yi),i=1,2…,n得到如下樣本回歸直線
由X的變異所解釋的部分Yi的變異未解釋部分或殘差的變異125126
如果Yi=?i即實際觀測值落在樣本回歸“線”上,則擬合最好。即“離差”全部來自回歸線,而與“殘差”無關。
對于所有樣本點,需考慮
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版墻紙購銷合同范本
- 2025年度數字經濟基礎設施建設承包借款合同4篇
- 2024預埋件研發(fā)與生產項目合同范本3篇
- 2024食品物流信息化管理系統(tǒng)合同
- 2025年度文化創(chuàng)意產品采購合同知識產權保護與市場推廣3篇
- 2025年度專業(yè)市場租賃協議范本4篇
- 2025年度智慧社區(qū)物業(yè)服務承包合同4篇
- 2025年度電力企業(yè)財務預算出納人員擔保合同3篇
- 2025年度商場櫥窗窗簾廣告設計與安裝合同4篇
- 2025年度新能源汽車制造項目承包商擔保合同規(guī)范4篇
- 春節(jié)英語介紹SpringFestival(課件)新思維小學英語5A
- 進度控制流程圖
- 2023年江蘇省南京市中考化學真題
- 【閱讀提升】部編版語文五年級下冊第四單元閱讀要素解析 類文閱讀課外閱讀過關(含答案)
- 供電副所長述職報告
- 現在完成時練習(短暫性動詞與延續(xù)性動詞的轉換)
- 產品質量監(jiān)控方案
- 物業(yè)總經理述職報告
- 新起點,新發(fā)展心得體會
- 深圳大學學校簡介課件
- 校園欺凌問題成因及對策分析研究論文
評論
0/150
提交評論