第3節(jié)-成對數(shù)據(jù)的統(tǒng)計分析_第1頁
第3節(jié)-成對數(shù)據(jù)的統(tǒng)計分析_第2頁
第3節(jié)-成對數(shù)據(jù)的統(tǒng)計分析_第3頁
第3節(jié)-成對數(shù)據(jù)的統(tǒng)計分析_第4頁
第3節(jié)-成對數(shù)據(jù)的統(tǒng)計分析_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第3節(jié)成對數(shù)據(jù)的統(tǒng)計分析[學習目標]

1.會作兩個相關變量的數(shù)據(jù)的散點圖,能根據(jù)最小二乘原理建立經(jīng)驗回歸方程并進行預測,了解樣本相關系數(shù)的統(tǒng)計含義和殘差分析.2.了解獨立性檢驗的基本思想,2×2列聯(lián)表的統(tǒng)計意義,能對兩個分類變量進行獨立性檢驗.積累·必備知識01回顧教材,夯實四基1.成對數(shù)據(jù)的統(tǒng)計相關性(1)正相關與負相關從整體上看,當一個變量的值增加時,另一個變量的相應值也呈現(xiàn)

的趨勢,我們就稱這兩個變量正相關;當一個變量的值增加時,另一個變量的相應值呈現(xiàn)

的趨勢,則稱這兩個變量負相關.增加減小(2)線性相關與曲線相關一般地,如果兩個變量的取值呈現(xiàn)正相關或負相關,而且散點落在

附近,我們就稱這兩個變量線性相關.一般地,如果兩個變量具有

性,但不是線性相關,那么我們就稱這兩個變量非線性相關或曲線相關.一條直線相關(3)樣本相關系數(shù)①相關系數(shù)r的計算變量x和變量y的樣本相關系數(shù)r的計算公式如下:②相關系數(shù)r的性質(zhì)r的取值范圍

r>0成對樣本數(shù)據(jù)

相關r<0成對樣本數(shù)據(jù)

相關r=0成對樣本數(shù)據(jù)間沒有線性相關關系|r|越接近1成對樣本數(shù)據(jù)的線性相關程度越

|r|越接近0成對樣本數(shù)據(jù)的線性相關程度越

[-1,1]正負強弱2.一元線性回歸模型及其應用(1)一元線性回歸模型我們稱式子為Y關于x的

,其中,Y稱為

,x稱為

;a和b為模型的未知參數(shù),a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的

.一元線性回歸模型因變量響應變量自變量解釋變量隨機誤差(2)一元線性回歸模型參數(shù)的最小二乘估計最小經(jīng)驗回歸方程經(jīng)驗回歸函數(shù)經(jīng)驗回歸公式(3)判斷回歸模型的擬合效果①殘差分析法對于響應變量Y,通過觀測得到的數(shù)據(jù)稱為觀測值,通過經(jīng)驗回歸方程得到的稱為預測值,觀測值減去預測值稱為

.畫出殘差圖,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,經(jīng)驗回歸方程的預報精度越高.殘差②決定系數(shù)(R2)法越小R2越大,殘差平方和

,模型的擬合效果

;R2越小,殘差平方和

,模型的擬合效果

.越好越大越差對于線性與非線性回歸模型,以上兩個分析方法都適合.通過分析,可以決定選擇哪一種函數(shù)模型更加合理.(1)列聯(lián)表:列出成對分類變量數(shù)據(jù)的

的數(shù)據(jù)統(tǒng)計表稱為列聯(lián)表.假設有兩個分類變量X和Y,它們的可能取值分別為{x1,x2}和{y1,y2},其樣本頻數(shù)列聯(lián)表(稱為2×2列聯(lián)表)為交叉分類頻數(shù)XY合計y1y2x1aba+bx2cdc+d合計a+cb+da+b+c+d記n=a+b+c+d,則隨機變量χ2=

.3.列聯(lián)表與獨立性檢驗(2)獨立性檢驗基于小概率值α的檢驗規(guī)則是:當χ2≥xα時,我們就推斷H0不成立,即認為X和Y不獨立,該推斷犯錯誤的概率不超過α;當χ2<xα時,我們沒有充分證據(jù)推斷H0不成立,可以認為X和Y獨立.這種利用χ2的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗,讀作“卡方獨立性檢驗”,簡稱獨立性檢驗.下表給出了χ2獨立性檢驗中幾個常用的小概率值和相應的臨界值α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828(1)獨立性檢驗是對兩個變量有關系的可信程度的判斷,而不是對其是否有關系的判斷.(2)根據(jù)χ2的值可以判斷兩個分類變量有關的可信程度,χ2越大,則兩分類變量有關的把握越大.1.通常|r|大于0.75時,認為兩個變量有很強的線性相關性.2.經(jīng)驗回歸直線一定過點().1.思考辨析(在括號內(nèi)打“√”或“×”).(1)相關關系與函數(shù)關系都是一種確定性的關系.(

)(2)利用散點圖可以直觀判斷兩個變量的關系是否可以用線性關系表示.(

)×√(3)經(jīng)驗回歸直線

至少經(jīng)過點(x1,y1),(x2,y2),…,(xn,yn)中的一個點.(

)×(4)用相關系數(shù)r來刻畫回歸效果,r越小,說明模型的擬合效果越好.(

)(5)在2×2列聯(lián)表中,若|ad-bc|越小,說明兩個分類變量之間關系越強.(

)(6)事件X,Y關系越密切,則由觀測數(shù)據(jù)計算得到的χ2的值越大.(

)××√2.某機構(gòu)為調(diào)查古詩詞愛好者是否有性別差異,通過調(diào)查數(shù)據(jù)統(tǒng)計:在500名男生中有200名愛好古詩詞,在400名女生中有300名愛好古詩詞.若要確定是否有充分證據(jù)推斷愛好古詩詞與性別有關,下列最適合的統(tǒng)計方法是(

)A.均值 B.方差C.獨立性檢驗 D.回歸分析√解析:由題意可知,“愛好古詩詞”與“性別”是兩類變量,要確定是否有充分證據(jù)推斷其有關,應用獨立性檢驗判斷.故選C.3.一組樣本數(shù)據(jù):(1,y1),(2,y2),(3,y3),(4,y4),(m,y5),由最小二乘法求得經(jīng)驗回歸方程為=5x-7,若y1+y2+y3+y4+y5=45,則實數(shù)m的值為(

)A.5 B.6 C.7 D.8√4.(選擇性必修第三冊P138T2改編)根據(jù)變量Y和x的成對樣本數(shù)據(jù),作出殘差圖.對于以下四幅殘差圖,滿足一元線性回歸模型中對隨機誤差假設的是(

)√解析:對于A,殘差與觀測時間有線性關系,故A錯誤;對于B,殘差的方差不是一個常數(shù),隨著觀測時間變大而變小,故B錯誤;對于C,殘差與觀測時間是非線性關系,故C錯誤;對于D,殘差比較均勻地分布在以取值為0的橫軸為對稱軸的水平帶狀區(qū)域內(nèi),故D正確.故選D.5.已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在檢驗30歲以上的人患胃病是否與生活無規(guī)律有關的過程中,某研究員搜集數(shù)據(jù)并計算得到χ2=7.235,則根據(jù)小概率值α=

的χ2獨立性檢驗,可認為30歲以上的人患胃病與生活無規(guī)律有關.解析:因為6.635<7.235<10.828,所以根據(jù)小概率值α=0.01的χ2獨立性檢驗,可認為30歲以上的人患胃病與生活無規(guī)律有關.0.0102提升·關鍵能力類分考點,落實四翼考點一成對數(shù)據(jù)的統(tǒng)計相關性的判斷[例1](1)(2024·廣西南寧模擬)某統(tǒng)計部門對四組數(shù)據(jù)進行統(tǒng)計分析后,獲得如圖所示的散點圖.下面關于相關系數(shù)的比較,正確的是(

)A.r4<r2<r1<r3 B.r2<r4<r1<r3C.r2<r4<r3<r1 D.r4<r2<r3<r1√解析:(1)由題圖可知,r3,r1所對應的圖中的兩個變量呈現(xiàn)正相關,而且r1對應的相關性比r3對應的相關性要強,故0<r3<r1,r2,r4所對應的圖中的兩個變量呈現(xiàn)負相關,且根據(jù)散點的分布情況可知r2<r4<0,因此r2<r4<r3<r1.故選C.(2)(2023·湖北黃岡二模)在一組樣本數(shù)據(jù)(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn互不相等)的散點圖中,若所有樣本點(xi,yi)(i=1,2,…,n)都在直線y=x-5上,則這組樣本數(shù)據(jù)的樣本相關系數(shù)為(

)A.- B. C.-1D.1√解析:(2)由題意可知,所有樣本點(xi,yi)(i=1,2,…,n)都在直線y=x-5上,則這組樣本數(shù)據(jù)完全正相關,且相關系數(shù)為1.故選D.判斷線性相關關系中正相關與負相關的三種方法(1)散點圖法:點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到右下角,兩個變量負相關.(2)相關系數(shù)法:當r>0時,成對樣本數(shù)據(jù)正相關,當r<0時,成對樣本數(shù)據(jù)負相關.[針對訓練](1)在一次試驗中,測得(x,y)的五組數(shù)據(jù)分別為(1,3),(2,4),(4,5),(5,13),(10,12),去掉一組數(shù)據(jù)(5,13)后,下列說法正確的是(

)A.樣本數(shù)據(jù)由正相關變成負相關B.樣本的相關系數(shù)不變C.樣本的相關性變?nèi)鮀.樣本的相關系數(shù)變大√解析:(1)由題意,去掉離群點(5,13)后,仍然為正相關,相關性變強,相關系數(shù)變大,故A,B,C錯誤,D正確.故選D.(2)變量X與Y相對應的5組數(shù)據(jù)和變量U與V相對應的5組數(shù)據(jù)統(tǒng)計如表:X1011.311.812.513Y12345U1011.311.812.513V54321用r1表示變量Y與X之間的相關系數(shù),r2表示變量V與U之間的相關系數(shù),則r1與r2的大小關系是

.r1>r2解析:(2)因為Y與X之間正相關,所以r1>0;因為V與U之間負相關,所以r2<0,因此r1>0>r2.考點二回歸模型及其應用角度一線性回歸分析[例2](2024·河南鄭州模擬)某汽車城從某天開始連續(xù)的營業(yè)天數(shù)x與新能源汽車銷售總量y(單位:輛)的統(tǒng)計數(shù)據(jù)如表所示:連續(xù)營業(yè)天數(shù)x/天1020304050新能源汽車銷售總量y/輛6268758189(1)已知可用線性回歸模型擬合y與x的關系,請用相關系數(shù)加以說明(結(jié)果精確到0.001);因為y與x的相關系數(shù)近似為0.999,說明y與x的線性相關程度相當高,從而可用線性回歸模型擬合y與x的關系.所以預測該汽車城連續(xù)營業(yè)130天的汽車銷售總量為142輛.(1)經(jīng)驗回歸方程中系數(shù)的兩種求法①公式法:利用公式,求出②待定系數(shù)法:利用回歸直線過()求系數(shù).(2)回歸分析的兩種應用①利用經(jīng)驗回歸方程進行預測:把經(jīng)驗回歸方程看作一次函數(shù),求函數(shù)值.②利用經(jīng)驗回歸方程判斷正、負相關:決定正相關還是負相關的是回歸系數(shù).角度二非線性回歸分析[例3](2024·廣東廣州二模)一企業(yè)生產(chǎn)某種產(chǎn)品,通過加大技術創(chuàng)新投入降低了每件產(chǎn)品成本,為了調(diào)查年技術創(chuàng)新投入x(單位:千萬元)對每件產(chǎn)品成本y(單位:元)的影響,對近10年的年技術創(chuàng)新投入xi和每件產(chǎn)品成本yi(i=1,2,3,…,10)的數(shù)據(jù)進行分析,得到如下散點圖,并計算得:(1)根據(jù)散點圖可知,可用函數(shù)模型y=+α擬合y與x的關系,試建立y關于x的回歸方程;所以當年技術創(chuàng)新投入為20千萬元時,年利潤的預報值取最大值.求非線性經(jīng)驗回歸方程的步驟(1)確定變量,作出散點圖.(2)根據(jù)散點圖,選擇恰當?shù)臄M合函數(shù).(3)變量置換,通過變量置換把非線性回歸問題轉(zhuǎn)化為線性回歸問題,并求出經(jīng)驗回歸方程.(4)分析擬合效果,通過計算決定系數(shù)或畫殘差圖來判斷擬合效果.(5)根據(jù)相應的變換,寫出非線性經(jīng)驗回歸方程.角度三殘差分析與決定系數(shù)[例4]現(xiàn)代物流成為繼勞動力、自然資源外影響企業(yè)生產(chǎn)成本及利潤的重要因素.某企業(yè)去年前八個月的物流成本和企業(yè)利潤的數(shù)據(jù)(單位:萬元)如表所示:月份12345678物流成本x8383.58086.58984.57986.5利潤y114116106122132114m1320.20.61.8-3-1-4.6-1所以114+116+106+122+132+114+m+132=117×8,解得m=100,(3)通過殘差分析,懷疑殘差絕對值最大的那組數(shù)據(jù)有誤,經(jīng)再次核實后發(fā)現(xiàn)其真正利潤應該為116萬元.請重新根據(jù)最小二乘法的思想與公式,求出新的經(jīng)驗回歸方程.(1)通過殘差分析,可以發(fā)現(xiàn)異常樣本點,重新修正或剔除異常樣本點,求得更加合理的回歸方程.(2)決定系數(shù)R2越接近于1,表示回歸的效果越好.[針對訓練](2024·福建福州模擬)中國茶文化博大精深,飲茶深受大眾喜愛,茶水的口感與茶葉類型和水的溫度有關,某數(shù)學建模小組為了獲得茶水溫度y(單位:℃)關于時間x(單位:min)的回歸方程模型,通過實驗收集在25℃室溫,用85℃的水沖泡的條件下,茶水溫度隨時間變化的數(shù)據(jù),并對數(shù)據(jù)進行初步處理得到如圖所示散點圖,他們分別用兩種模型①y=a+bx與②y=d·cx+25進行擬合,得到相應的回歸方程并進行殘差分析,得到如圖所示的殘差圖及一些統(tǒng)計量的值.(1)根據(jù)殘差圖判斷,①y=a+bx與②y=d·cx+25哪一個更適宜作為該茶水溫度y關于時間x的回歸方程類型?請說明理由;解:(1)應該選擇模型②,因為模型②的殘差點比較均勻地落在水平的帶狀區(qū)域中,且模型②的帶狀區(qū)域比模型①的帶狀區(qū)域窄.所以模型②的擬合精度高,回歸方程的預測精度高.(2)根據(jù)(1)的判斷結(jié)果及表中數(shù)據(jù),建立該茶水溫度y關于時間x的回歸方程;解:(2)由y=d·cx+25得y-25=d·cx,兩邊取自然對數(shù)得ln(y-25)=ln(d·cx)=lnd+xlnc,設ω=ln(y-25),α=lnd,β=lnc,所以該茶水溫度y關于時間x的回歸方程為y=d·cx+25=60×0.92x+25.(3)已知該茶水溫度降至60℃口感最佳,根據(jù)(2)中的回歸方程,求在相同條件下沖泡的茶水,大約需要放置多長時間才能達到最佳飲用口感.(結(jié)果精確到1分鐘)解:(3)在25℃室溫下,茶水溫度降至60℃口感最佳,所以大約需要放置7分鐘才能達到最佳飲用口感.考點三獨立性檢驗[例5](2024·江西南昌模擬)某地開設美食街,共有20多家餐飲單位進駐,為維護市場價格秩序,營造公平競爭良好環(huán)境,監(jiān)管部門到美食街舉辦餐飲明碼標價現(xiàn)場指導會,現(xiàn)針對明碼標價指導會前、會后游客滿意度進行問卷回訪調(diào)查,統(tǒng)計了100名游客的數(shù)據(jù),列出如下2×2列聯(lián)表:滿意度指導會前后合計會前會后滿意285785不滿意12315合計4060100請根據(jù)小概率值α=0.001的獨立性檢驗判斷游客對該地美食

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論