版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
如何選擇數(shù)據(jù)分析方法?吳喜之2數(shù)據(jù)和目的相結合的出發(fā)點1.相關分析及回歸類模型(相關、簡單的回歸、Logistic回歸、對數(shù)線性模型、方差分析和一般線性模型)2.經(jīng)典多元分析內容(主成分分析、因子分析、聚類分析、判別分析、對應分析)3主要涉及的相關問題什么是相關?列聯(lián)表中定性變量的相關(Fisher&c2檢驗)定量變量的相關(Pearson相關系數(shù)(r),Kendall’st、Spearman’r)基本統(tǒng)計書中的估計和假設檢驗所涉及的僅僅是對一些互相沒有關系的變量的描述。但是現(xiàn)實世界的問題都是相互聯(lián)系的。不討論變量之間的關系,就無從談起任何有深度的應用;而沒有應用,前面講過的那些基本概念就僅僅是擺設而已。5變量間的關系人們每時每刻都在關心事物之間的關系。比如,職業(yè)種類和收入之間的關系、政府投入和經(jīng)濟增長之間的關系、廣告投入和經(jīng)濟效益之間的關系、治療手段和治愈率之間的關系等等。這些都是二元的關系。還有更復雜的諸多變量之間的相互關系,比如企業(yè)的固定資產(chǎn)、流動資產(chǎn)、預算分配、管理模式、生產(chǎn)率、債務和利潤等諸因素的關系是不能用簡單的一些二元關系所描述的。6例1廣告投入和銷售之間的關系(數(shù)據(jù)ads.sav)
7這是什么關系?這兩個變量是否有關系?顯然,它們有關系;這從散點圖就很容易看出?;旧箱N售額是隨著廣告投入的遞增而遞增。如果有關系,它們的關系是否顯著?這也可以從散點圖得到。當廣告投入在6萬元以下,銷售額增長很快;但大于這個投入時,銷售額增長就不明顯了。因此,這兩個變量的關系是由強變弱。這些關系是什么關系,是否可以用數(shù)學模型來描述?本例看上去是可以擬合一個回歸模型(后面會介紹),但絕不是線性的(用一條直線可以描述的)。具體細節(jié)需要進一步的分析8這是什么關系?這個關系是否帶有普遍性?也就是說,僅僅這一個樣本有這樣的關系,還是對于其他企業(yè)也有類似的規(guī)律。這里的數(shù)據(jù)還不足以回答這個問題??赡苄枰紤]更多的變量和收集更多的數(shù)據(jù)。一般來說,人們希望能夠從一些特殊的樣本,得到普遍的結論,以利于預測。這個關系是不是因果關系?在本問題中,看來似乎有因果關系。這類似于一種試驗;而試驗時是容易找到因果關系的。但是,一般來說,變量之間有關系但絕不意味著存在因果關系。這里充滿了危險和未知!
9定性變量間的關系
(關于某項政策調查所得結果:table7.sav)
觀點:贊成觀點:不贊成
低收入中等收入高收入低收入中等收入高收入男201055810女25157279大致可以看出女性贊成的多,低收入贊成的多(還有嗎?)10
觀點:贊成(1)觀點:不贊成(0)
低收入(1)中等收入(2)高收入(3)低收入(1)中等收入(2)高收入(3)男1201055810女02515727911列聯(lián)表(contingencytable).前面就是一個所謂的三維列聯(lián)表這些變量中每個都有兩個或更多的可能取值。這些取值也稱為水平;比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。該表為3×2×2列聯(lián)表在SPSS數(shù)據(jù)中,表就不和課本印的一樣,收入的“低”、“中”、“高”用代碼1、2、3代表;性別的“女”、“男”用代碼0、1代表;觀點“贊成”和“不贊成”用1、0代表。有些計算機數(shù)據(jù)對于這些代碼的形式不限(可以是數(shù)字,也可以是字符串)。12Table7.sav數(shù)據(jù)13列聯(lián)表列聯(lián)表的中間各個變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計數(shù)(count)。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個列聯(lián)表的變量都是定性變量;但列聯(lián)表也會帶有定量變量作為協(xié)變量。14二維列聯(lián)表的檢驗
研究列聯(lián)表的一個主要目的是看這些變量是否相關。比如前面例子中的收入和觀點是否相關。這需要形式上的檢驗15二維列聯(lián)表的檢驗對于上面那樣的二維表。我們檢驗的零假設和備選假設為H0:觀點和收入這兩個變量不相關;H1:這兩個變量相關。這里的檢驗統(tǒng)計量在零假設下有(大樣本時)近似的c2分布。當該統(tǒng)計量很大時或p-值很小時,就可以拒絕零假設,認為兩個變量相關。實際上有不止一個c2檢驗統(tǒng)計量。包括Pearson
c2統(tǒng)計量和似然比(likelihoodratio)c2統(tǒng)計量;它們都有漸近的c2分布。根據(jù)計算可以得到(對于這兩個統(tǒng)計量均有)p-值小于0.001。因此可以說,收入高低的確影響觀點。
16Pearson
c2統(tǒng)計量似然比c2統(tǒng)計量Oi代表第i個格子的計數(shù),Ei代表按照零假設(行列無關)對第i格子的計數(shù)的期望值17二維列聯(lián)表的檢驗剛才說,這些c2統(tǒng)計量是近似的,那么有沒有精確的統(tǒng)計量呢?當然有。這個檢驗稱為Fisher精確檢驗;它不是c2分布,而是超幾何分布。對本問題,計算Fisher統(tǒng)計量得到的p-值也小于0.001。既然有精確檢驗為什么還用近似的c2檢驗?這是因為當數(shù)目很大時,超幾何分布計算相當緩慢(比近似計算會差很多倍的時間);而且在計算機速度不快時,根本無法計算。因此人們多用大樣本近似的c2統(tǒng)計量。而列聯(lián)表的有關檢驗也和c2檢驗聯(lián)系起來了。18Fisher精確檢驗19SPSS:Weight-Describ-crosstab-exact…20下面為SPSS對于table7.savs數(shù)據(jù)產(chǎn)生的下面二維列聯(lián)表相關分析的輸出21兩個定量變量的相關如果兩個定量變量沒有關系,就談不上建立模型或進行回歸。但怎樣才能確定兩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年婚禮化妝造型合同
- 2024大數(shù)據(jù)中心存儲設備采購合同
- 2024年度分包合作協(xié)議書
- 中考狀語課件教學課件
- 2024年度版權返租及授權使用協(xié)議
- 2024年國際皮毛市場交易合同
- 鄉(xiāng)鎮(zhèn)防汛抗旱救災的應急預案(5篇)
- (2024版)灑水車團隊租賃合同(2024版)
- 2024年度軟件許可及技術支持服務合同
- 2024年度互聯(lián)網(wǎng)金融服務平臺合作協(xié)議
- 《西方經(jīng)濟學》-完整全套課件
- 中華律師協(xié)會 風險代理合同
- 鋰離子電池儲能電站熱失控預警與防護研究進展
- RIGOL-DS1102CD數(shù)字示波器的使用方法課件
- 自閉兒童創(chuàng)業(yè)計劃書
- 解決員工沖突和問題的方法
- 公共機構節(jié)能知識講座
- 幼小銜接那些事兒
- 代人貸款免責協(xié)議
- 質子泵抑制劑用藥參考匯總
- 江蘇省南通市海門四校2023-2024學年八年級上學期期中生物試題
評論
0/150
提交評論