版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、變量間的相關關系、統(tǒng)計案例1兩個變量的線性相關(1)正相關在散點圖中,點散布在從左下角到右上角的區(qū)域,對于兩個變量的這種相關關系,我們將它稱為正相關(2)負相關在散點圖中,點散布在從左上角到右下角的區(qū)域,兩個變量的這種相關關系稱為負相關(3)線性相關關系、回歸直線如果散點圖中點的分布從整體上看大致在一條直線附近,就稱這兩個變量之間具有線性相關關系,這條直線叫做回歸直線2回歸方程(1)最小二乘法求回歸直線,使得樣本數據的點到它的距離的平方和最小的方法叫做最小二乘法(2)回歸方程方程 x 是兩個具有線性相關關系的變量的一組數據(x1,y1),(x2,y2),(xn,yn)的回歸方程,其中 , 是待
2、定參數3回歸分析(1)定義:對具有相關關系的兩個變量進行統(tǒng)計分析的一種常用方法(2)樣本點的中心對于一組具有線性相關關系的數據(x1,y1),(x2,y2),(xn,yn)中(,)稱為樣本點的中心(3)相關系數當r>0時,表明兩個變量正相關;當r<0時,表明兩個變量負相關r的絕對值越接近于1,表明兩個變量的線性相關性越強r的絕對值越接近于0,表明兩個變量之間幾乎不存在線性相關關系通常|r|大于0.75時,認為兩個變量有很強的線性相關性4獨立性檢驗(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這類變量稱為分類變量(2)列聯表:列出兩個分類變量的頻數表,稱為列聯表假設有兩個
3、分類變量X和Y,它們的可能取值分別為x1,x2和y1,y2,其樣本頻數列聯表(稱為2×2列聯表)為2×2列聯表y1y2總計x1ababx2cdcd總計acbdabcd構造一個隨機變量K2,其中nabcd為樣本容量(3)獨立性檢驗利用隨機變量K2來判斷“兩個分類變量有關系”的方法稱為獨立性檢驗【思考辨析】判斷下面結論是否正確(請在括號中打“”或“×”)(1)相關關系與函數關系都是一種確定性的關系,也是一種因果關系(×)(2)“名師出高徒”可以解釋為教師的教學水平與學生的水平成正相關關系()(3)只有兩個變量有相關關系,所得到的回歸模型才有預測價值()(4)
4、某同學研究賣出的熱飲杯數y與氣溫x()之間的關系,得回歸方程2.352x147.767,則氣溫為2時,一定可賣出143杯熱飲(×)(5)事件X,Y關系越密切,則由觀測數據計算得到的K2的觀測值越大()(6)由獨立性檢驗可知,有99%的把握認為物理成績優(yōu)秀與數學成績有關,某人數學成績優(yōu)秀,則他有99%的可能物理優(yōu)秀(×)1(2014·湖北)根據如下樣本數據x345678y4.02.50.50.52.03.0得到的回歸方程為x,則()A.>0,>0 B.>0,<0C.<0,>0 D.<0,<0答案B解析作出散點圖如下:觀
5、察圖象可知,回歸直線x的斜率<0,當x0時,>0.故>0,<0.2下面是2×2列聯表:y1y2合計x1a2173x2222547合計b46120則表中a,b的值分別為()A94,72 B52,50 C52,74 D74,52答案C解析a2173,a52.又a22b,b74.3為了評價某個電視欄目的改革效果,在改革前后分別從居民點抽取了100位居民進行調查,經過計算K20.99,根據這一數據分析,下列說法正確的是()A有99%的人認為該電視欄目優(yōu)秀B有99%的人認為該電視欄目是否優(yōu)秀與改革有關系C有99%的把握認為該電視欄目是否優(yōu)秀與改革有關系D沒有理由認為該電
6、視欄目是否優(yōu)秀與改革有關系答案D解析只有K26.635才能有99%的把握認為該電視欄目是否優(yōu)秀與改革有關系,而即使K26.635也只是對“該電視欄目是否優(yōu)秀與改革有關系”這個論斷成立的可能性大小的結論,與是否有99%的人等無關故只有D正確4在一項打鼾與患心臟病的調查中,共調查了1 671人,經過計算K2的觀測值k27.63,根據這一數據分析,我們有理由認為打鼾與患心臟病是_的(填“有關”或“無關”)答案有關題型一相關關系的判斷例1x和y的散點圖如圖所示,則下列說法中所有正確命題的序號為_x,y是負相關關系;在該相關關系中,若用yc1ec2x擬合時的相關指數為R,用x擬合時的相關指數為R,則R&
7、gt;R;x、y之間不能建立線性回歸方程思維點撥本題散點圖對應的曲線類似于指數型曲線,因此,用x擬合的效果差,所以R小答案解析顯然正確;由散點圖知,用yc1ec2x擬合的效果比用 x 擬合的效果要好,故正確;x,y之間能建立線性回歸方程,只不過預報精度不高,故不正確思維升華判斷變量之間有無相關關系,一種簡便可行的方法就是繪制散點圖,根據散點圖很容易看出兩個變量之間是否具有相關性,是不是存在線性相關關系,是正相關還是負相關,相關關系是強還是弱(1)(2013·湖北)四名同學根據各自的樣本數據研究變量x,y之間的相關關系,并求得線性回歸方程,分別得到以下四個結論:y與x負相關且 2.34
8、7x6.423;y與x負相關且 3.476x5.648;y與x正相關且 5.437x8.493;y與x正相關且 4.326x4.578.其中一定不正確的結論的序號是()A B C D(2)在一組樣本數據(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散點圖中,若所有樣本點(xi,yi)(i1,2,n)都在直線yx1上,則這組樣本數據的樣本相關系數為()A1 B0 C. D1答案(1)D(2)D解析(1)由回歸方程x知當>0時,y與x正相關,當<0時,y與x負相關,一定錯誤(2)利用相關系數的意義直接作出判斷樣本點都在直線上時,其數據的估計值與真實值
9、是相等的,即yi,代入相關系數公式r 1.題型二線性回歸分析例2某車間為了制定工時定額,需要確定加工零件所花費的時間,為此做了四次試驗,得到的數據如下:零件的個數x(個)2345加工的時間y(小時)2.5344.5(1)在給定的坐標系中畫出表中數據的散點圖;(2)求出y關于x的線性回歸方程x,并在坐標系中畫出回歸直線;(3)試預測加工10個零件需要多少小時?(注:, )思維點撥求線性回歸方程的系數時,為防止出錯,應分別求出公式中的幾個量,再代入公式解(1)散點圖如圖(2)由表中數據得:iyi52.5,3.5,3.5,54, 0.7,1.05,0.7x1.05,回歸直線如圖所示(3)將x10代入
10、線性回歸方程,得0.7×101.058.05,故預測加工10個零件約需要8.05小時思維升華(1)回歸直線x必過樣本點的中心(,)(2)正確運用計算,的公式和準確的計算,是求線性回歸方程的關鍵(3)分析兩變量的相關關系,可由散點圖作出判斷,若具有線性相關關系,則可通過線性回歸方程估計和預測變量的值某種產品的廣告費支出x與銷售額y(單位:萬元)之間有如下對應數據:x24568y3040605070(1)畫出散點圖;(2)求線性回歸方程;(3)試預測廣告費支出為10萬元時,銷售額多大?解(1)根據表中所列數據可得散點圖如下:(2)5,50,又已知145,iyi1 380.于是可得:6.5
11、, 506.5×517.5,因此,所求線性回歸方程為6.5x17.5.(3)根據上面求得的線性回歸方程,當廣告費支出為10萬元時,y6.5×1017.582.5(萬元)即這種產品的銷售額大約為82.5萬元題型三獨立性檢驗例3為調查某地區(qū)老年人是否需要志愿者提供幫助,用簡單隨機抽樣方法從該地區(qū)調查了500位老年人,結果如下: 性別是否需要志愿者男女需要4030不需要160270(1)估計該地區(qū)老年人中,需要志愿者提供幫助的老年人的比例(2)能否有99.5%的把握認為該地區(qū)的老年人是否需要志愿者提供幫助與性別有關?(3)根據(2)的結論,能否提出更好的調查方法來估計該地區(qū)的老年
12、人中,需要志愿者提供幫助的老年人的比例?說明理由思維點撥利用公式計算K2,由觀測值對照表得出結論解(1)調查的500位老年人中有70位需要志愿者提供幫助,因此該地區(qū)老年人中,需要志愿者提供幫助的老年人的比例的估計值為×100%14%.(2)K29.967.由于9.967>7.879,所以有99.5%的把握認為該地區(qū)的老年人是否需要幫助與性別有關(3)由(2)的結論知,該地區(qū)老年人是否需要幫助與性別有關,并且從樣本數據能看出該地區(qū)男性老年人與女性老年人中需要幫助的比例有明顯差異,因此在調查時,先確定該地區(qū)老年人中男、女的比例,再把老年人分成男、女兩層并采用分層抽樣方法,比采用簡單
13、隨機抽樣方法更好思維升華(1)獨立性檢驗的關鍵是正確列出2×2列聯表,并計算出K2的值(2)弄清判斷兩變量有關的把握性與犯錯誤概率的關系,根據題目要求作出正確的回答(2014·安徽)某高校共有學生15 000人,其中男生10 500人,女生4 500人,為調查該校學生每周平均體育運動時間的情況,采用分層抽樣的方法,收集300位學生每周平均體育運動時間的樣本數據(單位:小時)(1)應收集多少位女生的樣本數據?(2)根據這300個樣本數據,得到學生每周平均體育運動時間的頻率分布直方圖(如圖所示),其中樣本數據的分組區(qū)間為:0,2,(2,4,(4,6,(6,8,(8,10,(10
14、,12,估計該校學生每周平均體育運動時間超過4小時的概率(3)在樣本數據中,有60位女生的每周平均體育運動時間超過4小時,請完成每周平均體育運動時間與性別列聯表,并判斷是否有95%的把握認為“該校學生的每周平均體育運動時間與性別有關”.P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879附:K2.解(1)300×90,所以應收集90位女生的樣本數據(2)由頻率分布直方圖得:12×(0.0250.100)0.75,所以該校學生每周平均體育運動時間超過4小時的概率的估計值為0.75.(3)由(2)知,300位學生中有300×0
15、.75225(人)的每周平均體育運動時間超過4小時,75人的每周平均體育運動時間不超過4小時又因為樣本數據中有210份是關于男生的,90份是關于女生,所以每周平均體育運動時間與性別列聯表如下:男生女生總計每周平均體育運動時間不超過4小時453075每周平均體育運動時間超過4小時16560225總計21090300結合列聯表可算得K24.762>3.841.所以,有95%的把握認為“該校學生的每周平均體育運動時間與性別有關”求線性回歸方程的方法技巧典例:(12分)某地最近十年糧食需求量逐年上升,下表是部分統(tǒng)計數據:年份20022004200620082010需求量/萬噸2362462572
16、76286(1)利用所給數據求年需求量與年份之間的線性回歸方程x;(2)利用(1)中所求出的線性回歸方程預測該地2012年的糧食需求量規(guī)范解答解(1)由所給數據看出,年需求量與年份之間是近似直線上升,下面來求線性回歸方程,先將數據處理如下:年份200642024需求257211101929對處理的數據,容易算得0,3.2,4分6.5, 3.2.6分由上述計算結果,知所求線性回歸方程為2576.5(x2006)3.2,即6.5(x2006)260.2.8分(2)利用所求得的線性回歸方程,可預測2012年的糧食需求量大約為6.5×(20122006)260.26.5×6260.
17、2299.2(萬噸)12分溫馨提醒求線性回歸方程時,重點考查的是計算能力若本題用一般法去解,計算更煩瑣(如年份、需求量,不做如上處理),所以平時訓練時遇到數據較大的題目時,要考慮有沒有更簡便的方法解決.方法與技巧1求回歸方程,關鍵在于正確求出系數 , ,由于 , 的計算量大,計算時應仔細謹慎,分層進行,避免因計算而產生錯誤(注意線性回歸方程中一次項系數為 ,常數項為 ,這與一次函數的習慣表示不同)2回歸分析是處理變量相關關系的一種數學方法主要解決:(1)確定特定量之間是否有相關關系,如果有就找出它們之間貼近的數學表達式;(2)根據一組觀察值,預測變量的取值及判斷變量取值的變化趨勢;(3)求出線
18、性回歸方程3根據K2的值可以判斷兩個分類變量有關的可信程度失誤與防范1相關關系與函數關系的區(qū)別相關關系與函數關系不同函數關系中的兩個變量間是一種確定性關系例如正方形面積S與邊長x之間的關系Sx2就是函數關系相關關系是一種非確定性關系,即相關關系是非隨機變量與隨機變量之間的關系例如商品的銷售額與廣告費是相關關系兩個變量具有相關關系是回歸分析的前提2回歸分析是對具有相關關系的兩個變量進行統(tǒng)計分析的方法,只有在散點圖大致呈線性時,求出的線性回歸方程才有實際意義,否則,求出的線性回歸方程毫無意義根據回歸方程進行預報,僅是一個預報值,而不是真實發(fā)生的值.A組專項基礎訓練(時間:45分鐘)1某商品銷售量y
19、(件)與銷售價格x(元/件)負相關,則其回歸方程可能是()A.10x200 B.10x200C.10x200 D.10x200答案A解析由題意知回歸方程斜率應為負,故排除B,D,又銷售量應為正值,故C不正確,故選A.2通過隨機詢問110名性別不同的大學生是否愛好某項運動,得到如下的列聯表:男女總計愛好402060不愛好203050總計6050110以下結論正確的是()A有99%以上的把握認為“愛好該項運動與性別有關”B有99%以上的把握認為“愛好該項運動與性別無關”C在犯錯誤的概率不超過0.1%的前提下,認為“愛好該項運動與性別有關”D在犯錯誤的概率不超過0.1%的前提下,認為“愛好該項運動與
20、性別無關”答案A解析根據獨立性檢驗的定義,由K27.8>6.635可知我們有99%以上的把握認為“愛好該項運動與性別有關”,故選A.3(2014·重慶)已知變量x與y正相關,且由觀測數據算得樣本平均數3,3.5,則由該觀測數據算得的線性回歸方程可能是()A.0.4x2.3 B.2x2.4C.2x9.5 D.0.3x4.4答案A解析因為變量x和y正相關,則回歸直線的斜率為正,故可以排除選項C和D.因為樣本點的中心在回歸直線上,把點(3,3.5)分別代入選項A和B中的直線方程進行檢驗,可以排除B,故選A.4相關變量x、y的樣本數據如下表:x12345y22356經回歸分析可得y與x
21、線性相關,并由最小二乘法求得線性回歸方程為1.1x,則等于()A0.1 B0.2 C0.3 D0.4答案C解析由題意,3,3.6,線性回歸方程為1.1x,3.61.1×3,0.3.5某產品的廣告費用x與銷售額y的統(tǒng)計數據如下表:廣告費用x(萬元)4235銷售額y(萬元)49263954根據上表可得線性回歸方程 x 中的 為9.4,據此模型預報廣告費用為6萬元時銷售額為()A63.6萬元 B65.5萬元C67.7萬元 D72.0萬元答案B解析,42,又 x 必過(,),42×9.4 , 9.1.線性回歸方程為 9.4x9.1.當x6時, 9.4×69.165.5(萬
22、元)6以下四個命題,其中正確的序號是_從勻速傳遞的產品生產流水線上,質檢員每20分鐘從中抽取一件產品進行某項指標檢測,這樣的抽樣是分層抽樣;兩個隨機變量相關性越強,則相關系數的絕對值越接近于1 ;在線性回歸方程 0.2x12中,當解釋變量x每增加一個單位時,預報變量 平均增加0.2個單位;對分類變量X與Y,它們的隨機變量K2的觀測值k來說,k越小,“X與Y有關系”的把握程度越大答案解析是系統(tǒng)抽樣;對于,隨機變量K2的觀測值k越小,說明兩個相關變量有關系的把握程度越小7某班班主任對全班30名男生進行了“認為作業(yè)量多少”的調查,數據如下表:認為作業(yè)多認為作業(yè)不多總計喜歡玩電腦游戲12820不喜歡玩
23、電腦游戲2810總計141630該班主任據此推斷男生認為作業(yè)多與喜歡玩電腦游戲有關系,則這種推斷犯錯誤的概率不超過_答案0.050解析計算得K2的觀測值為k4.286>3.841,則推斷犯錯誤的概率不超過0.050.8已知x,y之間的一組數據如下表:x23456y34689對于表中數據,現給出如下擬合直線:yx1;y2x1;yx;yx.則根據最小二乘法的思想求得擬合程度最好的直線是_(填序號)答案解析由題意知4,6, ,x,填.9某企業(yè)有兩個分廠生產某種零件,按規(guī)定內徑尺寸(單位:mm)的值落在29.94,30.06)的零件為優(yōu)質品從兩個分廠生產的零件中各抽出了500件,量其內徑尺寸,得
24、結果如下表:甲廠:分組29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)頻數12638618292614乙廠:分組29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)頻數297185159766218(1)試分別估計兩個分廠生產的零件的優(yōu)質品率;(2)由以上統(tǒng)計數據填下面2×2列聯表,問是否有99%的把握認為“兩個分廠生產的零件的質量有差異”?甲廠乙廠合
25、計優(yōu)質品非優(yōu)質品合計附解(1)甲廠抽查的500件產品中有360件優(yōu)質品,從而估計甲廠生產的零件的優(yōu)質品率為×100%72%;乙廠抽查的500件產品中有320件優(yōu)質品,從而估計乙廠生產的零件的優(yōu)質品率為×100%64%.(2)完成的2×2列聯表如下:甲廠乙廠合計優(yōu)質品360320680非優(yōu)質品140180320合計5005001 000由表中數據計算得K2的觀測值k7.35>6.635,所以有99%的把握認為“兩個分廠生產的零件的質量有差異”10(2013·重慶)從某居民區(qū)隨機抽取10個家庭,獲得第i個家庭的月收入xi(單位:千元)與月儲蓄yi(單位
26、:千元)的數據資料,算得i80,i20,iyi184,720.(1)求家庭的月儲蓄 對月收入x的線性回歸方程 x ;(2)判斷變量x與y之間是正相關還是負相關;(3)若該居民區(qū)某家庭月收入為7千元,預測該家庭的月儲蓄解(1)由題意知n10,i8,i2,又n 272010×8280,iyin 18410×8×224,由此得 0.3, 20.3×80.4,故所求線性回歸方程為 0.3x0.4.(2)由于變量y的值隨x值的增加而增加( 0.3>0),故x與y之間是正相關(3)將x7代入回歸方程可以預測該家庭的月儲蓄為 0.3×70.41.7(千
27、元)B組專項能力提升(時間:20分鐘)11下列說法:將一組數據中的每個數據都加上或減去同一個常數后,方差恒不變;設有一個回歸方程 35x,變量x增加一個單位時,y平均增加5個單位;回歸方程 x 必過(,);有一個2×2列聯表中,由計算得K213.079,則有99.9%的把握確認這兩個變量間有關系其中錯誤的個數是()A0 B1C2 D3答案B解析一組數據都加上或減去同一個常數,數據的平均數有變化,方差不變(方差是反映數據的波動程度的量),正確;回歸方程中x的系數具備直線斜率的功能,對于回歸方程 35x,當x增加一個單位時,y平均減少5個單位,錯誤;由線性回歸方程的定義知,線性回歸方程
28、x 必過點(,),正確;因為K213.079>10.828,故有99.9%的把握確認這兩個變量有關系,正確故選B.12(2013·福建)已知x與y之間的幾組數據如下表:x123456y021334假設根據上表數據所得線性回歸方程 x ,若某同學根據上表中的前兩組數據(1,0)和(2,2)求得的直線方程為ybxa,則以下結論正確的是()A. >b, >a B. >b, <aC. <b, >a D. <b, <a答案C解析b2,a2,由公式 求得 , ×, <b, >a.故選C.13在一次獨立性檢驗中,得出2
29、215;2列聯表如下:y1y2合計x12008001 000x2180m180m合計380800m1 180m且最后發(fā)現,兩個分類變量x和y沒有任何關系,則m的可能值是()A200 B720 C100 D180答案B解析計算K2當m200時,K2103.37>3.841,此時兩個分類變量x和y有關系;當m720時,K20由K23.841知此時兩個分類變量x和y沒有任何關系,則m的可能值是720.14某小賣部銷售一品牌飲料的零售價x(元/瓶)與銷售量y(瓶)的關系統(tǒng)計如下:零售價x(元/瓶)3.03.23.43.63.84.0銷量y(瓶)504443403528已知關系符合線性回歸方程x,其中20, .當單價為4.2元時,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版便捷型汽車租用協議樣本
- 2025版虛擬現實游戲開發(fā)與授權經營合同2篇
- 2025版電商平臺食品銷售及冷鏈配送服務合同3篇
- 二零二五年度企業(yè)咨詢服務合同服務內容與費用2篇
- 2024年貸款協議印花稅優(yōu)惠政策詳解協議書
- 2025年度房屋收購及附帶車位租賃合同6篇
- 二零二五年度二手設備采購與性能檢測合同3篇
- 2025版環(huán)保節(jié)能技術研發(fā)合伙協議合伙合同3篇
- 二零二五年度便利店加盟店合同范本及合作協議3篇
- 2024年度城市綠化人工承包合同示范文本3篇
- 消化內科交班本PDCA
- 【語文】廣東省深圳市羅湖區(qū)翠竹小學四年級上冊期末復習試卷(含答案)
- 環(huán)衛(wèi)清掃保潔、垃圾清運及綠化服務投標方案(技術標 )
- 13-4管道(設備)沖洗消毒試驗記錄
- 農田臨水臨電施工方案范本
- 千字文毛筆楷書描紅字帖-米字格A4版
- 重金屬礦山生態(tài)治理與環(huán)境修復技術進展
- HR主題分享9-繪制學習地圖
- 成長需要挫折演講稿(20篇)
- 職工學歷教育補貼申請書
- GB/T 42915-2023銅精礦及主要含銅物料鑒別規(guī)范
評論
0/150
提交評論