![十二章相關與回歸分析課件_第1頁](http://file4.renrendoc.com/view/1646e5f8570ec230cae1bb8f3551af6b/1646e5f8570ec230cae1bb8f3551af6b1.gif)
![十二章相關與回歸分析課件_第2頁](http://file4.renrendoc.com/view/1646e5f8570ec230cae1bb8f3551af6b/1646e5f8570ec230cae1bb8f3551af6b2.gif)
![十二章相關與回歸分析課件_第3頁](http://file4.renrendoc.com/view/1646e5f8570ec230cae1bb8f3551af6b/1646e5f8570ec230cae1bb8f3551af6b3.gif)
![十二章相關與回歸分析課件_第4頁](http://file4.renrendoc.com/view/1646e5f8570ec230cae1bb8f3551af6b/1646e5f8570ec230cae1bb8f3551af6b4.gif)
![十二章相關與回歸分析課件_第5頁](http://file4.renrendoc.com/view/1646e5f8570ec230cae1bb8f3551af6b/1646e5f8570ec230cae1bb8f3551af6b5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第十二章 相關與回歸分析第一節(jié) 相關關系及種類第二節(jié) 定類變量的相關分析第三節(jié) 定序變量的相關分析第四節(jié) 定距變量的相關分析第五節(jié) 回歸分析7/24/20221 社會上,許多現(xiàn)象之間也都有相互聯(lián)系,例如:身高與體重、教育程度和收入、學業(yè)成就和家庭環(huán)境、智商與父母智力等。在這些有關系的現(xiàn)象中,它們之間聯(lián)系的程度和性質(zhì)也各不相同。 本書第十章提出了兩總體的檢驗及估計的問題,這意味著我們開始與雙變量統(tǒng)計方法打交道了。雙變量統(tǒng)計與單變量統(tǒng)計最大的不同之處是,客觀事物間的關聯(lián)性開始披露出來。這一章我們將把相關關系的討論深入下去,不僅要對相關關系的存在給出判斷,更要對相關關系的強度給出測量,同時要披露兩變
2、量間的因果聯(lián)系,其內(nèi)容分為相關分析和回歸分析這兩個大的方面。7/24/20222第一節(jié) 變量之間的相互關系 1. 相關程度 完全相關,指變量之間為函數(shù)關系;完全不相關指變量之間不存在任何依存關系,彼此獨立。不完全相關介于兩者之間。不完全相關是本章討論的重點。 由于數(shù)學手段上的局限性,統(tǒng)計學探討的最多的是定距定距變量間能近似地表現(xiàn)為一條直線的線性相關。在統(tǒng)計中,對于線性相關,采用相關系數(shù)(記作r)這一指標來量度相關關系程度或強度。就線性相關來說,當r l時,表示為完全相關;當r =0時,表現(xiàn)為無相關或零相關;當0 r 1時,表現(xiàn)為不完全相關。7/24/20223 2. 相關方向:正相關和負相關
3、所謂正相關關系是指一個變量的值增加時,另一變量的值也增加。例如,受教育水平越高找到高薪水工作的機會也越大。而負相關關系是指一個變量的值增加時,另一變量的值卻減少。例如,受教育水平越高,理想子女數(shù)目越少。要強調(diào)的是,只有定序以上測量層次的變量才分析相關方向,因為只有這些變量的值有高低或多少之分。至于定類變量,由于變量的值并無大小、高低之分,故定類變量與其他變量相關時就沒有正負方向了。7/24/20224 3. 因果關系與對稱關系 因果關系中兩個變量有自變量(independent Variable)和因變量(dependent Variable)之分: (1)兩個變量有共變關系; (2)因變量的
4、變化是由自變量的變化引起的; (3)兩個變量的產(chǎn)生和變化有明確的時間順序,前者稱為自變量,后者稱為因變量。 表現(xiàn)為對稱關系的相關關系,互為根據(jù),不能區(qū)分自變量和因變量,或者說自變量和因變量可以根據(jù)研究目的任意選定,例如身高和體重之間的關系。 7/24/20225 4. 單相關和復相關 從變量的多少上看,單相關只涉及兩個變量,亦稱二元相關;三個或三個以上變量之間的關系稱為復相關,亦稱多元相關。五、直線相關和曲線相關 從變量變化的形式上看,如果關系近似地表現(xiàn)為一條直線,稱為直線相關或線性相關;如果關系近似地表現(xiàn)為一條曲線,則稱為曲線相關或稱為非線性相關。 由于數(shù)學手段的局限性,我們以學習線性相關為
5、主。在統(tǒng)計學中,通過分段處理線性相關也可以用于處理曲線相關。7/24/20226第二節(jié) 定類變量的相關分析本節(jié)內(nèi)容:1、列聯(lián)表2、削減誤差比例3、系數(shù)4、系數(shù)7/24/20227 1. 列聯(lián)表 列聯(lián)表,是按品質(zhì)標志把兩個變量的頻數(shù)分布進行交互分類,由于表內(nèi)的每一個頻數(shù)都需同時滿足兩個變量的要求,所以列聯(lián)表又稱條件頻數(shù)表。 例如,某區(qū)調(diào)查了357名選民,考察受教育程度與投票行為之間的關系,將所得資料作成下表,便是一種關于頻數(shù)的列聯(lián)表。7/24/2022822頻數(shù)分布列聯(lián)表的一般形式習慣上把因變量Y放在表側,把自變量X放在表頭。22列聯(lián)表是最簡單的交互分類表。 rc列聯(lián)表 r(row)、c(col
6、umn)7/24/20229 rc頻數(shù)分布列聯(lián)表的一般形式7/24/202210自己志愿知心朋友志愿總數(shù)快樂家庭理想工作增廣見聞快樂家庭289340理想工作241750增廣見聞24410總數(shù)3254141007/24/202211兩個邊際分布:7/24/202212 條件頻數(shù)表中各頻數(shù)因基數(shù)不同不便作直接比較,因此有必要將頻數(shù)化成相對頻數(shù),使基數(shù)標準化。這樣,我們就從頻數(shù)分布的列聯(lián)表得到了相對頻數(shù)分布的列聯(lián)表(或稱頻率分布的列聯(lián)表)。下表是rc相對頻數(shù)分布列聯(lián)表的一般形式。7/24/202213 rc相對頻數(shù)分布列聯(lián)表的一般形式7/24/202214 在相對頻數(shù)分布列聯(lián)表中,各數(shù)據(jù)為各分類出現(xiàn)
7、的相對頻數(shù)(或者頻率)。將頻數(shù) 化成相對頻數(shù) 有兩種做法: 相對頻數(shù)聯(lián)合分布 兩個邊際分布 或相對頻數(shù)條件分布 或7/24/202215 rc相對頻數(shù)聯(lián)合分布列聯(lián)表7/24/202216控制X,Y相對頻數(shù)條件分布列聯(lián)表7/24/202217控制Y,X相對頻數(shù)條件分布列聯(lián)表7/24/202218 例A1試把下表所示的頻數(shù)分布列聯(lián)表,轉(zhuǎn)化為自變量受到控制的相對頻數(shù)條件分布列聯(lián)表,并加以相關分析。 投票行為Y受教育程度X 大學以上 大學以下投票棄權160 7129 61289 68合計:1671903577/24/202219 從上表可知,受過大學以上教育的被調(diào)查者絕大多數(shù)(占95.8%)是投票的,
8、受教育程度在大學以下的被調(diào)查者雖多數(shù)也參與投票(占67.9%),但后者參與投票的百分比遠小于前者;前者只有4.2%棄權,而后者則有32.1%棄權。兩相比較可知,受教育程度不同,參與投票的行為不同,因此兩個變量是相關的。投票行為Y受教育程度X 大學以上 大學以下投票棄權95.8%(160/167) 4.2%(7/167)67.9%(129/190) 32.1%(61/190)81.0%(289/357) 19.0%(68/357)100.0%(167)100.0%(190)100.0%(357)7/24/202220 例A2試把下表所示的頻數(shù)分布列聯(lián)表,轉(zhuǎn)化為相對頻數(shù)條件分布列聯(lián)表和自變量受到控
9、制的相對頻數(shù)條件分布列聯(lián)表,并加以相關分析。 投票行為Y受教育程度X 大學以上 大學以下投票棄權100 67114 76214143合計:1671903577/24/202221 上表顯示,大學以上文化程度和大學以下文化程度同樣各有60%的人參與投票,40%的人棄權,并沒有因為受教育程度不同,而使參與投票的行為有所不同。因此,此時的兩個變量是不相關的,或者說是獨立的。我們不難發(fā)現(xiàn),此時反映全體投票情況的相對頻數(shù)的邊際分布( )也各有60%的人參與投票,40%的人棄權。投票行為Y受教育程度X 大學以上 大學以下投票棄權60.0%(100/167) 40.0%(67/167)60.0%(114/1
10、90) 40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167)100.0%(190)100.0%(357)7/24/202222 上表顯示,當兩個變量不相關時有 。如0.532 0.40=0.213。投票行為Y受教育程度X 大學以上 大學以下投票棄權28.0%(100/357) 18.8%(67/357)31.9%(114/357) 21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)7/24/202223 例B某社區(qū)調(diào)查了120名市民,
11、考察性別與對吸煙態(tài)度之間的關系,試將所得資料作成相對頻數(shù)的聯(lián)合分布、邊際分布和條件分布列聯(lián)表,并進行相關分析。 性別與對吸煙的態(tài)度態(tài)度Y性別X合計男女容忍48856反對204464合計68521207/24/202224相對頻數(shù)聯(lián)合分布列聯(lián)表態(tài)度Y性別X男( X1 )女( X2 )容忍Y140.0% 6.7 %46.7 %反對Y216.7 %36.6 %53.3 %56.7 %43.3%100 % (120)7/24/202225相對頻數(shù)條件分布列聯(lián)表態(tài)度Y性別X男( )女( )容忍70.6%15.4 %46.7 %(56)反對29.4 %84.6 %53.3 %(64)100 %(68)10
12、0 %(52)100 %(120)7/24/2022262675名雙親和他們10071個子女的智力的關系(%)(相對頻數(shù)條件分布列聯(lián)表) 父母智力 組合 子女智力 優(yōu)秀 子女智力 一般 子女智力 低下 優(yōu)優(yōu) 71.6 25.4 3.0 優(yōu)劣 33.6 42.7 23.7 一般一般 18.6 66.9 14.5 劣劣 5.4 34.4 60.27/24/202227 通過列聯(lián)表研究定類變量之間的關聯(lián)性,這實際上是通過相對頻數(shù)條件分布的比較進行的。如果對不同的X,Y的相對頻數(shù)條件分布不同,且和Y的相對頻數(shù)邊際分布不同,則兩變量之間是相關的。而如果變量間是相互獨立的話,必然存在著Y的相對頻數(shù)條件分布
13、相同,且和它的相對頻數(shù)邊際分布相同。后者用數(shù)學式表示就是 或者 7/24/202228 2. 削減誤差比例 PRE(Proportionate Reduction in Error) 通過相對頻數(shù)條件分布列聯(lián)表的討論,可以就自變量X和因變量Y的關聯(lián)性給出一個初步的判斷。但是對關聯(lián)性給出判斷,肯定沒有用量化指標表達來得好。所以,下面我們將關注于如何用統(tǒng)計方法,使相關關系的強弱可以通過某些簡單的系數(shù)明確地表達出來。 在社會統(tǒng)計中,表達相關關系的強弱,削減誤差比例的概念是非常有價值的。削減誤差比例的原理是,如果兩變量間存在著一定的關聯(lián)性,那么知道這種關聯(lián)性,必然有助于我們通過一個變量去預測另一變量。
14、其中關系密切者,在由一變量預測另一變量時,盲目性必然較關系不密切者為小。7/24/202229 PRE:用不知道Y與X有關系時預測Y的全部誤差E1,減去知道Y與X有關系時預測Y的聯(lián)系誤差E2,再將其化為比例來度量 PRE的取值范圍是 0PREl 削減誤差比例PRE適用于各測量層次的變量,系數(shù)和系數(shù)便是在定類測量的層次上以削減誤差比例PRE為基礎所設計的兩種相關系數(shù)。 7/24/202230PRE=(56-28)/56=0.5態(tài)度Y性別X合計男女容忍48856反對204464合計68521207/24/202231 3.系數(shù) 在定類尺度上測量集中趨勢只能用眾數(shù)。 系數(shù)就是利用此性質(zhì)來構造相關系數(shù)
15、的。(1)不對稱的系數(shù)7/24/202232 例 對下表所示資料,用系數(shù)反映性別與收入高低的相關關系。收入Y性別X合計男女低60150210高12070190合計1802204007/24/2022337/24/202234(2)對稱的系數(shù)7/24/202235 例 研究工作類別與工作價值的關系,工作類別可分為三類:工人、技術人員、管理/行政人員;工作價值也可分為三類:以收入/福利為最重要的職業(yè)選擇標準的稱為經(jīng)濟取向型,以工作的創(chuàng)造性、挑戰(zhàn)性為最重要的職業(yè)選擇標準的稱為成就取向型,以工作中的人際關系為最重要的職業(yè)選擇標準的稱為人際關系取向型。對下表所示資料,用系數(shù)反映工作類別與工作價值的相關關
16、系 。7/24/202236 職工的工作種類與工作價值 工作價值 Y工作種類 X合計 工人 技術人員 管理/行政人員經(jīng)濟取向型成就取向型人際關系取向型100 30 2070601050204022011070合計:FX1501401104007/24/2022377/24/202238 性質(zhì): (1)01 (2)具有PRE意義。 (3)對稱與不對稱情況下,有不同的公式。 (4)以眾數(shù)作為預測的準則,對條件頻數(shù)分布列聯(lián)表中眾數(shù)頻數(shù)以外的條件頻數(shù)不予理會。 (5)如果眾數(shù)頻數(shù)集中在條件頻數(shù)分布列聯(lián)表的同一行時,=0,從而無法顯示兩變量之間的相關性。 7/24/202239 4.系數(shù) 系數(shù)的統(tǒng)計值域
17、是0,1,其特點是在計算時考慮所有的邊際頻數(shù)和條件頻數(shù) 。 注意:當眾數(shù)很突出且眾數(shù)分布不在同一行,同一列時,用系數(shù)較好;但當眾數(shù)不突出時,用系數(shù)更好;若眾數(shù)集中在某一行或某一列,一定用系數(shù)。7/24/202240 例 對下表所示資料,用系數(shù)反映性別與收入高低的相關關系,并對系數(shù)的PRE意義加以解釋。 收入Y性別X合計男女低60150210高12070190合計1802204007/24/202241 7/24/202242練習: 調(diào)查100名青年人與其知心朋友的志愿,條件次數(shù)分布如下:計算知心朋友的志愿與自己志愿之間的相關關系,并提出研究結論。自己志愿知心朋友志愿總數(shù)快樂家庭理想工作增廣見聞
18、快樂家庭289340理想工作241750增廣見聞24410總數(shù)3254141007/24/202243第三節(jié) 定序變量的相關分析 定序變量只能排列高低次序,因而在分析時只能考慮兩變量變化的順序是否一致及其等級之間的差距。以此來計算兩變量的相關系數(shù)。 1、同序?qū)?、異序?qū)屯謱?2、Gamma等級相關系數(shù) 3、肯德爾等級相關系數(shù) 4、薩默斯系數(shù)(d系數(shù)) 5、 Spearman等級相關系數(shù) 6、肯德爾和諧系數(shù)7/24/202244 1. 同序?qū)Α愋驅(qū)?、同分?社會學研究常用的兩定序變量的相關測量法,有一類是以同序?qū)?、異序?qū)?、同分對的概念為基礎的,如Gamma系數(shù)、肯德爾系數(shù)、d系數(shù)等。所以我們
19、在討論這幾種相關系數(shù)之前,先來了解這三個概念。7/24/202245 在定序相關測量中,首先要搞清楚“次序?qū)Γ╬air)”的概念。例如,假設研究員工的工作滿足感與歸屬感的關系,將工作滿足感從低到高,分為低(1)、中(2)和高(3)三個級別,歸屬感也從低到高分為低(1)、中(2)和高(3)三個級別。下表列示的是5名被訪者A、B、C、D、E的情況。單元XYA12B12C13D23E317/24/202246同序?qū)?參見上表(注意,為了容易識別各種次序?qū)?,該表已先將被訪者按定序變量X由低到高作了排列),在觀察X序列時如果我們看到Xi Xj ,在Y序列中看到的是Yi Yj,則稱這一配對是同序?qū)?。同序?qū)?/p>
20、只要求X變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序?qū)Φ目倲?shù)用符號ns表示。異序?qū)?見上表,在觀察X序列時如果我們看到Xi Xj ,在Y序列中看到的是Yi Yj,則稱這一配對是異序?qū)?。同樣,異序?qū)χ灰骕變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序?qū)Φ目倲?shù)用符號nd表示。7/24/202247同分對 如果在X序列中,我們觀察到Xi Xj (此時在Y序列中無Yi Yj),則這個配對僅是X方向上而非Y 方向上的同分對;X 的這種同分對用符號nx表示。如果在Y 序列中,我們觀察到Yi Yj(此時在X序列中無Xi Xj ),則這個配對僅是Y 方向上而非X方向
21、上的同分對;Y 的這種同分對用符號ny表示。如果我們觀察到 Xi Xj時,也觀察到Yi Yj ,則稱這兩個配對為X與Y 同分對,以符號nxy表示。X 同分對的總數(shù)用符號Tx表示, Tx nx + nxy ;Y 同分對的總數(shù)用符號Ty表示, Ty ny + nxy 。 n個單位兩兩配對,總對數(shù) ns + nd + nx + ny + nxy 7/24/202248 計算Gamma系數(shù),肯得爾系數(shù)、 d 系數(shù)等,我們面對的經(jīng)常是兩定序變量已形成列聯(lián)表的資料,所以對我們來說很重要的是要學會定序變量列聯(lián)表中這五種“次序?qū)Α钡挠嬎愫妥R別。 同序?qū)Γ骸坝蚁掠嘧邮健狈?異序?qū)Γ骸白笙掠嘧邮健狈?7/24/2
22、02249高中低高843中651低445 工作滿足感與歸屬感 7/24/202250 2. Gamma系數(shù) 性質(zhì):(1)取值范圍-1,1(2)具有PRE意義(3)屬對稱相關測量。(4)不考慮同分對。7/24/202251 例:在某市200戶中調(diào)查,看住戶人口密度與婆媳沖突是否有關,交互分類后分布如下,計算G相關系數(shù)并提出研究結論。婆媳沖突住戶密度總數(shù)高中低高2320449中11552894低8272459總數(shù)42102562007/24/202252 3. 肯德爾等級相關系數(shù)(1)Tau-a 系數(shù) 適用于不存在任何同分對的情況。 7/24/202253 某市有12 所大專院校,現(xiàn)組織一個評審委
23、員會對各院校校園環(huán)境及學生體質(zhì)進行評價,評價結果如表(表中已先將學校按X作了次序排列)所示,試計算校園環(huán)境和學生體質(zhì)關系的肯德爾相關系數(shù)。 學校名 A B C D E F G H I J 環(huán)境名次(X) 體質(zhì)名次(Y) 1 2 3 4 5 6 7 8 9 10 2 1 5 3 7 4 6 8 10 9 7/24/202254(2)Tau-b系數(shù) 當出現(xiàn)同分對時,對分母進行修正。與G系數(shù)一樣, Tau-b系數(shù)也具有消減誤差比例的意義。 Tau-b系數(shù)的特殊性在于,只有在列聯(lián)表的行數(shù)與列數(shù)相同(r=c)的情況下,其系數(shù)值才可能是-1或+1,否則便不確定。 7/24/202255(3)Tau-c系數(shù)
24、 當同分對很多時,且rc ,可以用Tau-c系數(shù)來測量。 m取rc列聯(lián)表 中r和c值較小者。 Tau-c系數(shù)沒有消減誤差比例的意義。 7/24/202256 4. 薩默斯 (d系數(shù)) 薩默爾斯提出的,對G系數(shù)進行修正。 d系數(shù)具有PRE意義,取值-1,1,為不對稱測量。 7/24/202257 5. Spearman等級相關系數(shù) 運用上式計算等級相關系數(shù)很簡便:首先將定序變量X和Y的數(shù)值形成對應的兩個序數(shù)數(shù)列(其中先將X由小到大排)。如遇有相等的數(shù)值時,則應將原有的等級求其平均數(shù),讓它們以這平均等級并列。然后求出等級差,經(jīng)平方后求和,運用上式即可求得斯皮爾曼等級相關系數(shù)。 例:為了解活動能力與
25、智商是否有關,作了10名同學的抽樣調(diào)查,資料如表,問這10名同學的智商與活動能力是否有關。7/24/202258學生活動能力名次智商智商名次A11103B21103C31056D4959E51201F69410G71008H81056I91056J1011037/24/202259 6. 肯德爾和諧系數(shù) 前面我們談的都是對雙變量求等級相關系數(shù)。對于多變量求等級相關系數(shù),如多個專家對同一事物評價的一致性或相關程度的衡量,肯德爾運用數(shù)理分析方法,提出了一個計算公式7/24/202260 假設四位專家對10所大專院校環(huán)境質(zhì)量進行排序,有關評價結果列于下表中,試通過計算肯德爾和諧系數(shù),檢驗專家意見的一
26、致性和相關程度。 專家名 大專院校名 合計A B C D E F G H I J A B C D 1 2 3 4 5 6 7 8 9 10 3 2 1 4 5 8 6 7 10 9 1 3 2 4 5 7 6 8 9 10 4 2 1 5 3 7 8 6 10 9 等級和R R29 9 7 17 18 28 27 29 38 38 81 81 49 289 324 784 729 841 1444 1444 60667/24/202261 例:通過對1500多名青年作社會調(diào)查,探討當代青年擇業(yè)傾向與對社會經(jīng)濟生活的基本態(tài)度,得資料如表,求等級相關系數(shù)(當代青年擇業(yè)傾向與他們對職業(yè)社會地位的等級
27、認定的關系;擇業(yè)傾向與他們對職業(yè)的富裕程度認定的關系)。7/24/202262職業(yè)等級認為社會地位富裕程度擇業(yè)理想行政事業(yè)1 52各類專業(yè)2 41企業(yè)3 33教師4 64商業(yè)5 25工人6 87個體戶7 16農(nóng)民8 787/24/202263 試就以下單元數(shù)據(jù),列舉其中的同序?qū)?、異序?qū)Α⑼謱?。單元XYA32B31C31D11E237/24/202264 根據(jù)交互分類表計算:ns、nd、 nx 、 ny 、 nxy 、 Tx 、 Ty 、 T(總對數(shù))高中低高f11f12f13中f21f22f23低f31f32f33高中低高10125中203010低51057/24/202265 練習:1.在
28、某地抽選469名已婚男人,研究他們對父親的感情是否會影響他們對婚姻的適應。試計算G系數(shù)并提出研究結論。 丈夫與父親的感情對其婚姻適度之影響婚姻適應與父親感情總數(shù)平淡不錯良好很好惡劣32412628127一般28474122138數(shù)751571281094697/24/202266 2. 以下是兩位評判員對10名參賽人員的打分排序:試用一系數(shù)描述兩評判員打分相近程度。參賽人ABCDEFGHIJ評判112435876910評判2123456879107/24/202267第四節(jié) 定距變量的相關分析 前兩節(jié),主要借助于列聯(lián)表,我們解決了一些定類、定序測量層次的相關測量問題。
29、對于定距變量,根據(jù)其變量值的數(shù)學特征,我們自然可以引進更為精確的量化指標來反映它們之間的相關程度。兩個定距變量之間的相關測量,最常用的就是所謂積差系數(shù)它是由英國統(tǒng)計學家皮爾遜(Pearson)用積差方法推導出來,所以也稱皮爾遜相關系數(shù),用符號r表示。 7/24/202268 1. 相關表和散點圖 相關表:經(jīng)整理后反映兩變量之間對應關系的數(shù)據(jù)表。 散點圖:將相關表中各個有對應關系的數(shù)據(jù)在直角坐標系上標出來,就得到散點圖。散點圖可以直觀地觀察兩變量之間對應關系。工齡(年)X111333555777技術考核分Y1232343.54.55.57897/24/202269散點圖表示的相關的類型正相關 負
30、相關 完全正相關 完全負相關 稱零相關 7/24/202270 2積差系數(shù)的導出和計算7/24/202271 r 是協(xié)方差與X和Y的標準差的乘積之比7/24/202272 試就下表所示資料,計算關于員工的工齡和技術考核分的皮爾遜相關系數(shù)。 工齡(年)X111333555777技術考核分Y1232343.54.55.7897/24/202273 N0工齡X技術考核分YX 2Y 2XY 1 2 3 4 5 6 7 8 9 10 11 12 1 1 1 3 3 3 5 5 5 7 7 7123234 3.5 4.5 5.5789 1 1 1 9 9 9 25 25 25 49 49 49 1 4 9
31、 4 916 12.25 20.25 30.25496481 1 2 3 6 912 17.5 22.5 27.5495663 合計4852.5252 299.75 268.57/24/202274解:計算過程見上表r=7/24/202275 3 積差系數(shù)的性質(zhì) (1) r 是線性相關系數(shù)。 (2)適用于定距/定比變量。 (3)取值-1,1,絕對值越大,相關程度越高。r 的絕對值在0.3以下表示不相關;0.30.5表示低度相關;0.50.8表示中等相關;0.8以上表示高度相關。 (4)X與Y是對稱關系。 (5)相關系數(shù)的數(shù)值不受坐標點變化的影響。 (6)r2具有PRE意義。 (7)r 公式中的
32、兩個變量都是隨機的,因而改變兩者的位置并不影響r的數(shù)值。 7/24/202276注意事項: (1)注意實際意義 進行相關回歸分析要有實際意義,不可把毫無關系的兩個事物或現(xiàn)象用來作相關回歸分析。例如,有人說,孩子長,公園里的小樹也在長。求孩子和小樹之間的相關關系就毫無意義,用孩子的身高推測小樹的高度則更加荒謬。 (2)注意虛假相關 兩個事物間能計算出相關系數(shù),并不一定能證明事物間有內(nèi)在聯(lián)系。例如,有人發(fā)現(xiàn),對于在校兒童,鞋的大小與閱讀技能有很強的相關關系。然而,學會新詞并不能使腳變大,而是涉及到第三個因素 年齡。當兒童長大一些,他們的閱讀能力會提高而且由于長大也穿不下原來的鞋。7/24/2022
33、77 (3)利用散點圖 對于性質(zhì)不明確的兩組數(shù)據(jù),可先做散點圖,在圖上看它們有無關系、關系的密切程度、是正相關還是負相關,是直線相關還是曲線相關,然后再進行相關分析。 (4)注意變量范圍 相關分析和回歸方程僅適用于產(chǎn)生樣本的原始數(shù)據(jù)范圍之內(nèi),出了這個范圍,兩變量的相關關系和回歸關系不能就此得到說明。7/24/202278第五節(jié) 回歸分析 在分析定距變量間的關聯(lián)性時,最初關注的僅僅是變量相關的強度和方向,即進行積差相關分析。然而積差系數(shù)并不能表明X和Y之間的因果關系,要明確一個變量的變化能否由另一個變量的變化來解釋,或要通過已知變量很好地預測未知變量,就要進行回歸分析。 在回歸分析中,如果自變量
34、只有一個,則稱為一元回歸;如果自變量有兩個或兩個以上則稱為多元回歸。而根據(jù)回歸方程式的特征,又可以分為線性回歸和非線性回歸。一元線性回歸分析是所有回歸分析的基礎, 另外,回歸分析與相關分析具有密切的聯(lián)系。一般說來,只有當兩個變量之間存在著較高程度的相關關系時,回歸分析才變得有意義和有價值。因此,往往先進行相關分析,然后才選用有明顯相關關系的變量作回歸分析。7/24/202279 1. 線性回歸 線性回歸分析,一般是先依據(jù)相關表做出散點圖,直觀地估計X和Y關聯(lián)性。如果兩變量的確呈現(xiàn)出一定的線性相關趨勢,便可以設所要求的回歸直線方程為 是因變量Y的預測值或稱估計值。 回歸方程的建立: 先做散點圖;利用最小二乘法。7/24/202280 運用最小平方法可以在所有可能的直線中找到使 Q達到最小的回歸直線。 分別對a、b求偏導并令其為零,求得兩個標準方程: 解聯(lián)立方程,得到 a 和 b 的計算公式:XY
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度股東保密協(xié)議及企業(yè)風險管理合同
- 2025年度綠色建筑環(huán)保施工合同規(guī)范范本
- 漯河2024年河南漯河市臨潁縣事業(yè)單位招聘30人筆試歷年參考題庫附帶答案詳解
- 瀘州四川瀘州瀘縣氣象局見習基地招收見習人員2人筆試歷年參考題庫附帶答案詳解
- 江西2025年江西應用工程職業(yè)學院招聘7人筆試歷年參考題庫附帶答案詳解
- 杭州浙江杭州西湖區(qū)住房和城鄉(xiāng)建設局招聘編外合同制工作人員筆試歷年參考題庫附帶答案詳解
- 2025年中國塑料保潔車市場調(diào)查研究報告
- 2025年中國兒童塑料椅市場調(diào)查研究報告
- 2025至2031年中國雨敵行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國通PLUS1軟件行業(yè)投資前景及策略咨詢研究報告
- (高職)旅游景區(qū)服務與管理電子課件(全套)
- DB50∕T 959-2019 營運高速公路施工管理規(guī)范
- 人教版一年級下學期數(shù)學第5單元試卷《認識人民幣》試題3
- RBA培訓教材系列02RBA商業(yè)道德政策培訓針對員工
- 高中研究性課題-------食品添加劑
- T∕CNFAGS 3-2021 三聚氰胺單位產(chǎn)品消耗限額
- 弟子規(guī)全文拼音版打印版
- 變電站設備驗收管理標準規(guī)范
- 鍋爐房危害告知卡
- NPI流程管理分解
- 物業(yè)公司財務部各崗位工作職責
評論
0/150
提交評論