




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、高級心理統(tǒng)計數(shù) 據(jù) 清 理Cleaning up your data核心要點了解異常值的概念和產(chǎn)生原因,掌握檢驗與處理異常值的方法。了解數(shù)據(jù)的缺失類型,掌握檢查數(shù)據(jù)缺失程度、診斷數(shù)據(jù)缺失機(jī)制的方法,知道如何選擇合適的插補方法對缺失值進(jìn)行插補。熟悉多元分析的常見假設(shè),并掌握這些假設(shè)的檢驗方法,知道違背多元分析假設(shè)時,該如何對變量進(jìn)行校正。提綱1 數(shù)據(jù)清理和準(zhǔn)備的主要目的2 極端數(shù)據(jù)的處理3 缺失數(shù)據(jù)的處理4 前提假設(shè)條件的檢驗5 案例操作1 數(shù)據(jù)清理和準(zhǔn)備的主要目的極端值會扭曲分析結(jié)果缺失值在采集數(shù)據(jù)時很難避免使用多元統(tǒng)計方法之前,需要確保數(shù)據(jù)集和前提假設(shè)匹配2.極端數(shù)據(jù)的處理異常值的定義異常值
2、的檢測異常值的處理2.1異常值的定義單變量異常值即在某個變量上的值明顯高或者低。多變量極端值指在兩個或多個變量上值的奇怪組合,使得該觀測與其他觀測明顯不同。存在一個有影響觀測值的散點圖存在一個沒有影響觀測值的散點圖2.1異常值的定義異常值的來源:過程性錯誤異常事件異常的觀測各變量值正常,組合起來很異常2.2異常值的檢測單變量異常值的檢測 1) 根據(jù)標(biāo)準(zhǔn)分?jǐn)?shù)判定小樣本標(biāo)準(zhǔn)分?jǐn)?shù)大于等于2.5大樣本最高是4 2)盒式圖大于上四分位數(shù)1.5 倍四分位距或小于下四分位數(shù)1.5 倍四分位距被劃分為異常值。處于1.5倍-3倍四分位矩之間的異常值為溫和的異常值處于3倍四分位距之外的異常值為極端的異常值2.2異
3、常值的檢測2.雙變量異常值的檢測 散點圖2.2異常值的檢測3.多變量異常值的檢測 馬氏距離D/df近似服從t分布,可以對其進(jìn)行顯著性檢驗,置信度為=0.005或0.001,將落在置信區(qū)間外的觀測點識別為潛在異常值。小樣本時臨界值設(shè)為2.5,大樣本時臨界值設(shè)為3或42.3異常值的處理如果異常值不屬于總體,就刪除如果異常值可代表總體的一部分,或不確定是否異常,盡量保留,轉(zhuǎn)換變量降低極端值對分析結(jié)果的影響3.缺失數(shù)據(jù)的處理缺失數(shù)據(jù)的定義和影響處理缺失數(shù)據(jù)的一般步驟3.1缺失數(shù)據(jù)的定義及影響缺失數(shù)據(jù)是在一個數(shù)據(jù)集中,由于各種各樣的原因而導(dǎo)致的個案在一個或多個變量上信息的缺失。缺失數(shù)據(jù)使樣本量減少,會導(dǎo)
4、致統(tǒng)計檢驗力的下降,此外,對于非隨機(jī)的缺失機(jī)制,得到的統(tǒng)計結(jié)果可能是有偏的。3.2處理缺失數(shù)據(jù)的一般步驟(1)檢查數(shù)據(jù)的缺失類型(2)檢查數(shù)據(jù)的缺失程度(3)診斷數(shù)據(jù)的缺失機(jī)制(4)選擇插補方法(1)檢查數(shù)據(jù)的缺失類型設(shè)計上可忽略的缺失數(shù)據(jù)缺失是研究設(shè)計的一部分抽樣而不是總體截斷數(shù)據(jù):用男飛行員的身高估計男性整體身高設(shè)計上不可忽略的缺失數(shù)據(jù)已知的情況:過程性因素導(dǎo)致的缺失。比如數(shù)據(jù)錄入錯誤,無效編碼(用戶定義缺失值);數(shù)據(jù)公開受限;沒有完成問卷;被試選取失誤(生病等)等。未知的情況:直接由被試的原因?qū)е碌?。比如被試拒絕回答某些題目(如收入、有爭議的話題等敏感問題);被試沒有足夠的知識回答問題等
5、。(2)檢查數(shù)據(jù)的缺失程度每個個案(case)在所有變量上的缺失比例;在每個變量上缺失數(shù)據(jù)的個案比例;在所有變量上都沒有缺失的個案比例。個案編號V1V2V3V4個案缺失情況個數(shù)比例(%)1534100212312532425043342005135125變量缺失情況總的缺失情況個數(shù)2110個數(shù)4比例(%)4020200比例(%)20%(2)檢查數(shù)據(jù)的缺失程度缺失比例低于10%,使用任何一種缺失數(shù)據(jù)的處理方法,差異都不大,但不包括非隨機(jī)缺失。對有過多缺失的個案或變量進(jìn)行簡單的處理刪除;缺失比例15%以上的變量可以考慮刪除,但缺失比例更高的(20%30%),通常會進(jìn)行補救(2)檢查數(shù)據(jù)的缺失程度注
6、意:要確保在刪除一個變量或個案后,總體上數(shù)據(jù)的缺失比例會明顯減小。通常會刪除因變量有缺失的個案,避免造成因變量與自變量之間的關(guān)系虛假高估。刪除一個變量時,確保數(shù)據(jù)中有可替代的變量,替代變量與被刪變量具有高相關(guān)??紤]對刪除前后的數(shù)據(jù)同時進(jìn)行分析,其分析結(jié)果是否存在明顯差異。(3)診斷數(shù)據(jù)的缺失機(jī)制缺失值的模式完全隨機(jī)缺失(MCAR):缺失情況相對于所有數(shù)據(jù)來說是獨立的。隨機(jī)缺失(MAR):一個觀測出現(xiàn)缺失值的概率是由數(shù)據(jù)集中不含缺失值的變量決定的,而不是由含缺失值的變量決定的。非隨機(jī)缺失(MNAR):是與缺失數(shù)據(jù)本身存在某種關(guān)聯(lián),比如問題設(shè)計過于敏感造成的缺失。(3)診斷數(shù)據(jù)的缺失機(jī)制對于MCA
7、R缺失機(jī)制的診斷方法有:獨立樣本t檢驗Littles MCAR檢驗(Little & Rubin, 2002)上述方法只能證明MCAR假設(shè)不成立,卻不能證明其成立。(4)選擇插補方法如果缺失機(jī)制是完全隨機(jī)缺失(MCAR)只使用有效數(shù)據(jù)使用替換值進(jìn)行插補如果缺失機(jī)制是MAR一般使用專門設(shè)計的基于模型的方法,如極大似然估計、多重差補、貝葉斯插補等,或者直接將缺失數(shù)據(jù)作為分析的一部分加入模型。如果缺失機(jī)制是MNAR基于模型的方法(4)選擇插補方法(4)選擇插補方法(4)選擇插補方法(4)選擇插補方法(4)選擇插補方法Step2 檢查數(shù)據(jù)的缺失程度缺失數(shù)據(jù)是否多到需要處理?分析個案和變量是否應(yīng)該因為缺
8、失程度高而刪除個案和/或變量?刪除有高度缺失的個案和/或變量是Step3 診斷缺失數(shù)據(jù)機(jī)制缺失數(shù)據(jù)是MAR還是MCAR?否是否MCAR對于可忽略的缺失數(shù)據(jù),采取專門的技術(shù)是否Step1 檢查數(shù)據(jù)的缺失類型缺失數(shù)據(jù)(設(shè)計上)是否可以忽略?略?Step4 選擇插補方法是否想用別的值替換缺失數(shù)據(jù)?基于模型的方法是MAR使用已知的值,還是從有效數(shù)據(jù)中計算出插補值?個案替換熱卡插補和冷卡插補均值插補基于回歸的方法只用有完整數(shù)據(jù)的觀測,還是使用所有可用的有效數(shù)據(jù)?完整數(shù)據(jù)所有可得有效數(shù)據(jù)否成列刪除成對刪除已知值計算值4.前提假設(shè)條件的檢驗正態(tài)性方差齊性線性誤差獨立性數(shù)據(jù)轉(zhuǎn)換4.1 正態(tài)性圖形檢驗法正態(tài)概率
9、圖將真實數(shù)據(jù)的累積分布與正態(tài)數(shù)據(jù)的累積分布(直的對角線)對比所畫的圖。4.1 正態(tài)性正態(tài)性的統(tǒng)計檢驗(a)峰度和偏度的檢驗b)Shapiro-Wilkst和Kolmogorov-Smirnov檢驗4.2 方差齊性圖形檢驗盒式圖統(tǒng)計檢驗Levene Test4.3 線性(1)散點圖,看散點是否落在一個橢圓里面(2)回歸分析中的殘差分析來判斷變量之間是否滿足線性關(guān)系(3)還可以分別使用線性的和非線性的模型擬合數(shù)據(jù),比較兩個模型的擬合指數(shù)之間是否存在差異,從而來判斷是否存在非線性的詳見情況。4.4 誤差獨立性數(shù)據(jù)收集過程隨機(jī)抽樣,考慮額外變量時間序列數(shù)據(jù)對個案順序進(jìn)行殘差分析X軸為個案的順序,Y軸為
10、相應(yīng)個案的殘差Durbin-Watson檢驗1.6D2.4,不能證明存在序列相關(guān),且D值越接近2時,殘差項間相關(guān)越低;D2.4,存在負(fù)的自相關(guān), 且D值越接近4時,殘差項間負(fù)相關(guān)越強。4.5 數(shù)據(jù)轉(zhuǎn)換(1)對于非正態(tài)的數(shù)據(jù),根據(jù)分布形態(tài)的不同會使用不同的轉(zhuǎn)換方法。如對于平坦分布,做倒數(shù)轉(zhuǎn)換;對于正偏態(tài)分布,做平方根或?qū)?shù)轉(zhuǎn)換;對于負(fù)偏態(tài)分布,做平方或立方轉(zhuǎn)換。(2)對于方差不齊性的數(shù)據(jù),很多情況下會與非正態(tài)的問題同時解決,比如使用倒數(shù)、平方根等轉(zhuǎn)換。(3)對于非線性的數(shù)據(jù)視具體情況而定。如右圖,如果數(shù)據(jù)滿足左上圖的關(guān)系,則使用平方轉(zhuǎn)換;如果數(shù)據(jù)滿足右上圖的關(guān)系,則使用取對數(shù)、求導(dǎo)數(shù)、平方根等轉(zhuǎn)
11、換。4.5 數(shù)據(jù)轉(zhuǎn)換-注意事項(1)首先要判斷數(shù)據(jù)轉(zhuǎn)換可能產(chǎn)生的影響,可以通過計算變量的均值與其標(biāo)準(zhǔn)差的比值來判斷如果比例小于4時,轉(zhuǎn)換會產(chǎn)生明顯的影響。當(dāng)兩個變量都可以進(jìn)行轉(zhuǎn)換時,應(yīng)該選擇比值更小的那個變量。(2)除了方差不齊性的情況之外,通常應(yīng)該對自變量使用數(shù)據(jù)轉(zhuǎn)換。(3)在一個依存關(guān)系中,方差不齊性只能通過轉(zhuǎn)換因變量來補救。如果變量之間的關(guān)系是方差不齊性的,同時還是非線性的,可能因變量、還有自變量,必須同時進(jìn)行轉(zhuǎn)換。(4)轉(zhuǎn)換可能改變對變量的解釋,在實際應(yīng)用中一定要仔細(xì)斟酌對轉(zhuǎn)換變量的解釋。(5)當(dāng)描述或解釋結(jié)果時,建議用變量的原始形式(未轉(zhuǎn)換的形式)對變量特征進(jìn)行說明。5 數(shù)據(jù)清理與整
12、理應(yīng)用案例某公司產(chǎn)品質(zhì)量的評定量表的數(shù)據(jù)清理:異常值檢驗缺失值檢測檢驗多遠(yuǎn)分析假設(shè)數(shù)據(jù)轉(zhuǎn)換操作步驟詳見高級心理統(tǒng)計P17P35關(guān)鍵術(shù)語異常值 缺失值 完全隨機(jī)缺失 隨機(jī)缺失 非隨機(jī)缺失 多元正態(tài)性 方差齊性 線性 誤差獨立性 數(shù)據(jù)轉(zhuǎn)換內(nèi)容要點1 在某個變量上的值明顯高或者低稱為單變量異常值。在兩個或多個變量上值的奇怪組合稱為多變量異常值。單變量異常值可以通過數(shù)據(jù)的Z分?jǐn)?shù)進(jìn)行檢測,雙變量異常值可以通過畫散點圖檢測,多變量極端值可以通過計算觀測點的馬氏距離D進(jìn)行檢測。2 處理缺失數(shù)據(jù)的一般步驟包括:(1)檢查數(shù)據(jù)的缺失類型;(2)檢查數(shù)據(jù)的缺失程度;(3)診斷數(shù)據(jù)的缺失機(jī)制;(4)選擇插補方法。3
13、 多元分析的基本假設(shè)包括多元正態(tài)性、方差齊性、線性和誤差獨立性。檢驗多元正態(tài)性的方法有畫正態(tài)概率圖、檢驗峰度和偏度以及S-W和K-S檢驗。方差齊性的檢驗方法包括畫盒式圖、Levene Test和Boxs M Test檢驗。可以通過散點圖和殘差圖來檢驗變量間的線性關(guān)系。使用DW檢驗可以檢測自相關(guān)(誤差獨立性)。4 數(shù)據(jù)轉(zhuǎn)換用于數(shù)據(jù)違背多元分析假設(shè)時,對變量進(jìn)行校正。一般來說,正偏時采用平方根和對數(shù)轉(zhuǎn)換,負(fù)偏時采用平方和立方轉(zhuǎn)換。多元方差分析Multivariate Analysis of Variance核心要點了解多元方差分析的零假設(shè)與一元方差分析的零假設(shè)的差異 知道多元方差分析與一元方差分析
14、的主要類型及其差異 了解多元方差分析的假設(shè) 知道多元方差分析的顯著性檢驗標(biāo)準(zhǔn) 描述多元方差分析與一元方差分析的事后檢驗方法 多元方差分析中交互作用的解釋 多元協(xié)方差分析的目的提綱1 多元方差分析的一般目的和描述2 多元方差分析主要回答的問題3 多元方差分析主要類型4 多元方差分析的過程5 多元方差分析應(yīng)用案例及 SPSS 操作1.多元方差分析的一般目的和描述多元方差分析是在一元方差分析的基礎(chǔ)上發(fā)展起來的。一元方差分析只能處理一個因變量的情況,用來檢驗單一的因變量在不同組之間的差異。當(dāng)研究者需要同時考察多個因變量在不同組間是否有差異時,就需要運用到多元方差分析的方法與多元回歸分析相比,多元回歸的
15、“元”指的是自變量的數(shù)目,而多元方差分析的“元”指的是因變量的數(shù)目1.1多元方差分析的優(yōu)勢可控制犯一類錯誤的概率可對多個因變量的線性組合進(jìn)行差異檢驗2.多元方差分析主要回答的問題多個單變量問題:是指在研究中有多個因變量,每個因變量是被獨立分析的MANOVA 是用來檢驗多變量在不同組之間的整體差異的,而獨立的單變量檢驗則是用來分析單個因變量的組間差異的。結(jié)構(gòu)上的多變量問題:是指研究中的兩個或多個因變量之間有某種特殊的關(guān)系。MANOVA 提供了一種結(jié)構(gòu)化的方法,可以在保證統(tǒng)計效力的情況下對一系列因變量進(jìn)行組間差異的檢驗。本質(zhì)上的多變量問題:是指研究最關(guān)心的問題就是這些因變量在整體上有沒有組間差異,
16、而對于單個因變量本身的差異檢驗就顯得不那么重要。MANOVA 最重要的功能就是分析這類問題,不僅是因變量整體上的組間差異,還包括多個因變量線性組合的組間差異。3 .多元方差分析主要類型在單個因變量的差異檢驗中,零假設(shè)是單一因變量的均值在不同自變量組間相等,此時檢驗組間差異的方法是 t 檢驗(兩個水平)和 ANOVA(兩水平及以上)。而在多個因變量的差異檢驗中,零假設(shè)則為多因變量組合的均值向量在不同自變量組間相等,檢驗組間差異的方法有 Hotellings T2(兩個水平)和 MANOVA(兩水平及以上)??偨Y(jié)如下:3.1 自變量有兩個水平:Hotellings T2如果研究者想比較自變量的兩個
17、水平在多個因變量上的差異是否顯著,則需要用到 Hotellings T2 檢驗。Hotellings T2 檢驗是 t 檢驗的擴(kuò)展(多個因變量),是 MANOVA 的特例(自變量兩個水平)。 3.2 自變量有多個水平:多元方差分析類似 t 檢驗到 ANOVA 的擴(kuò)展,MANOVA 也是 Hotellings T2 檢驗的一種擴(kuò)展。MANOVA 零假設(shè)的數(shù)學(xué)表達(dá)式如下:其中,p表示因變量個數(shù),k表示水平個數(shù),pk表示變量p在第k個水平上的均值。MANOVA 的零假設(shè)即為各水平的均值向量相等4.多元方差分析的過程研究設(shè)計多元方差分析的假設(shè)估計模型及模型的整體性檢驗結(jié)果解釋4.1研究設(shè)計(1)因變量
18、的選擇(2)樣本量(3)因素設(shè)計(4)協(xié)方差分析4.11因變量的選擇 MANOVA 可以處理多個因變量的問題,但在研究中所選用的因變量個數(shù)也不宜過多,一般在 5 個及以下為好。因變量的選擇要有理可依,不能將一些沒有意義的變量選入進(jìn)去。所選用的因變量之間的相關(guān)不宜過高,否則就會出現(xiàn)多重共線性的問題。4.12樣本量 遵循的基本原則是:(1)每個單元格內(nèi)的人數(shù)最少應(yīng)大于因變量的個數(shù)。(2)作為一個實踐指導(dǎo),每個單元格里至少有 20 個人。(3)為了維持應(yīng)有的檢驗力,當(dāng)因變量個數(shù)增多時,所需 要的樣本量會隨之增大。4.13因素分析自變量的類型:在方差分析中,自變量是分類變量,分成幾類即有幾個處理水平,
19、每個水平代表影響因變量的一種條件。在實驗設(shè)計時,由研究者根據(jù)研究目的來確定自變量及其處理水平。4.13因素分析自變量的個數(shù)(1)單元格的個數(shù):單元格的個數(shù)由每個自變量的處理水平 數(shù)決定。(2)交互作用:交互作用是兩個或更多自變量的聯(lián)合效應(yīng)是 指一個變量在不同組間的差異取決于其他變量的取值。4.14協(xié)方差分析 協(xié)方差分析的目的 協(xié)方差分析的目的是為了消除兩方面的影響: (1)協(xié)變量只對部分被試有影響; (2)協(xié)變量對不同被試的影響不同。 與區(qū)組變量類似,協(xié)變量可以實現(xiàn)如下兩個目的: (1)消除一些研究者無法控制且又會影響結(jié)果的系統(tǒng)誤差; (2)用來解釋不同特征的被試在作答反應(yīng)上的差異。4.14協(xié)
20、方差分析協(xié)方差分析的假設(shè) (1)協(xié)變量與因變量相關(guān) (2)在不同組上,協(xié)變量對因變量有相等的效應(yīng),即協(xié)變量 與自變量之間沒有交互作用。以上兩個假設(shè)只要有一個 不滿足,就不適合使用協(xié)方差分析。4.14協(xié)方差分析協(xié)變量的選擇一個有效的協(xié)變量應(yīng)與因變量有較高相關(guān)而與自變量不相關(guān)。為什么呢?(1)如果協(xié)變量與因變量相關(guān),那么協(xié)變量就可以用來解釋一部分的因變量的變異,這樣會使得殘差變小,進(jìn)而統(tǒng)計檢驗更加顯著。而與自變量無關(guān),則因變量中被協(xié)變量解釋的那部分變異不會被自變量解釋,這樣對自變量的檢驗就更加敏感而有力了。4.14協(xié)方差分析(2)如果協(xié)變量與自變量有相關(guān),那么協(xié)變量將會解釋一部分可以被自變量解釋的
21、變異,進(jìn)而降低自變量的作用。因為在分析中首先是協(xié)變量抽取可解釋的那部分變異,這樣這部分變異就不能再被自變量抽取了4.14協(xié)方差分析協(xié)變量的個數(shù)雖然在研究中加入?yún)f(xié)變量可以控制一些變異,但如果加了過多的協(xié)變量,也會減少統(tǒng)計效率的。最大協(xié)變量個數(shù)可遵循下面這個法則:最大協(xié)變量的個數(shù)=(0.10*樣本量)-(組數(shù)-1)4.14協(xié)方差分析特殊的方差分析重復(fù)測量設(shè)計我們有時會對同一個被試被多次測量,例如,在一段時間內(nèi)讓學(xué)生做幾次測驗,我們希望通過分析找出這幾次測驗學(xué)生的分?jǐn)?shù)變化趨勢。如果沒有特殊的處理,這種設(shè)計就違背了一個重要假設(shè)獨立性。這時,就需要運用重復(fù)測量方差分析4.2 多元方差分析的假設(shè)多元方差分
22、析中,因變量必須為連續(xù)型變量,自變量為分類變量。為了保證多元方差分析的有效性,必須滿足三個基本假設(shè):(1)不同觀測之間必須相互獨立。(2)各組的方差-協(xié)方差矩陣必須相等。(3)因變量服從多元正態(tài)分布(因變量的任意線性組合 都服從正態(tài)分布4.2.1 獨立性多元方差分析中最基本最重要的假設(shè)就是獨立性假設(shè),即使是稍微違背這一假設(shè),也會對檢驗的第一類錯誤和統(tǒng)計檢驗力帶來較大的影響。而且任何無關(guān)的非測量的因素都可能通過在組間產(chǎn)生依賴性而影響結(jié)果,其中兩種最普遍的破壞獨立性的情況是:(1)當(dāng)存在時間順序效應(yīng)時(2)當(dāng)在相同的條件下收集信息的時候,被試的作答可能 會有一定的相關(guān)4.2.2 方差-協(xié)方差矩陣齊
23、性MANOVA 的第二個基本假設(shè)就是各組的方差-協(xié)方差矩陣相等。在 MANOVA 中可以用 Boxs M 檢驗來檢驗協(xié)方差矩陣的齊性,并能夠提供檢驗結(jié)果的顯著性水平。4.2.3 正態(tài)性MANOVA 的第三個基本假設(shè)是因變量的正態(tài)性假設(shè)。嚴(yán)格意義上講,這個假設(shè)是指所有變量的組合服從多元正態(tài),如果一組變量聯(lián)合起來服從多元正態(tài)分布,那么其中每一個變量一定都服從一元正態(tài)分布,所有的變量子集也服從多元正態(tài)分布,所有可能的線性組合也服從單元正態(tài)分布。4.2.4 其他基本假設(shè)在 MANOVA 中,除了以上的基本假設(shè),還應(yīng)該關(guān)注因變量之間的關(guān)系是否為線性關(guān)系、因變量之間是否存在共線性,以及數(shù)據(jù)中是否有極端數(shù)據(jù)
24、。另外,因變量之間不能有很高的相關(guān),因為那樣會使測量變得冗余,還會減低統(tǒng)計效率。4.3 估計模型及模型的整體性檢驗當(dāng)假設(shè)條件都滿足時,就可以進(jìn)行 MANOVA 分析了?;趶V義線性模型(general linear model, GLM)的估計模型被廣泛使用4.3.1 廣義線性模型(GLM)的估計 GLM是一個模型家族,每個模型都包含三部分元素:(1)變量(variate):自變量的線性組合。每個自變量都有一個 估計權(quán)重用來表示對預(yù)測值的貢獻(xiàn)程度(2)隨機(jī)部分(random component):因變量的概率分布。典型 的分布有正態(tài)分布、泊松分布、二項分布和多項分布等。(3)連接函數(shù)(link
25、 function):根據(jù)不同的模型公式為變量和 隨機(jī)部分提供理論連接。三種最常用的連接函數(shù)是恒等 (identity)、logit 和 log。4.3.2 顯著性檢驗的標(biāo)準(zhǔn)在進(jìn)行多元方差分析時,常采用 Roys 最大特征(gcr)、Wilks lambda(又稱為 U statistic)、Pillais criterion 和 Hotellings T2 這 4 種統(tǒng)計檢驗來評價各自變量組之間在多個因變量的線性組合上是否存在顯著差異4.3.3 多元分析的統(tǒng)計檢驗力統(tǒng)計檢驗力的影響顯著性水平()(1)提高水平(如從 0.05變?yōu)?0.01,即變得更保守)會減小犯第一 類錯誤的概率,但此時需要
26、更多來自研究結(jié)果的證據(jù)來證明差異 的存在,因此會造成檢驗力的降低。(2)降低水平(如從 0.05 變?yōu)?0.10)意味著研究者認(rèn)為更小的 組間差異是顯著的,因此被認(rèn)為是“更不統(tǒng)計的”。然而,在 效應(yīng)量或樣本量較小時,我們應(yīng)該考慮降低水平以提高檢驗力。4.3.3 多元分析的統(tǒng)計檢驗力效應(yīng)值 (Effect Size) 效應(yīng)值是對組間差異的標(biāo)準(zhǔn)化測量,可以通過計算組間差 異比標(biāo)準(zhǔn)差得到。樣本量 (Sample Size) 如果組樣本量少于 30,那么很難得到理想的檢驗力。如 果效應(yīng)值很小,可以通過增大 水平(如,從.05到.10) 以便得到理想的檢驗力。在設(shè)計和分析中應(yīng)用檢驗力在設(shè)計分析和評價結(jié)果
27、時都要用到統(tǒng)計檢驗力的估計。在設(shè)計階段,研究者要通過估計效應(yīng)值來確定所需樣本量。一般情況下,效應(yīng)值可以根據(jù)前人研究或合理的判斷來估計,又或者直接設(shè)定為實際顯著性最小的水平。無論如何樣本量都要達(dá)到在給定水平的檢驗力和 水平下的要求4.3.3 多元分析的統(tǒng)計檢驗力因變量的多重共線性對檢驗力的影響 隨著因變量的效應(yīng)量大小不同,檢驗力也各不相同。 會產(chǎn)生如下幾種模式:(1)如果相關(guān)的變量對由強-強或者弱-弱的變量構(gòu)成, 那么在變量之間存在強的負(fù)相關(guān)時,檢驗力最大。這 一結(jié)果表明,在 MANOVA 中,可以通過使用高度負(fù)相 的因變量來提高檢驗力4.3.3 多元分析的統(tǒng)計檢驗力(2)如果相關(guān)的變量對由強-
28、弱的變量構(gòu)成,那么變量之 間為強相關(guān)時,檢驗力最大,與相關(guān)的方向無關(guān)。(3)此外,有研究發(fā)現(xiàn),當(dāng)通過增加項目數(shù)量來提高信度 時,會導(dǎo)致檢驗力的升高,即使變量對的相關(guān)較弱或 是方向為正4.3.3 多元分析的統(tǒng)計檢驗力4.4 結(jié)果解釋當(dāng)評價完處理的統(tǒng)計顯著性之后,下一步就要開始對結(jié)果進(jìn)行解釋了。結(jié)果的解釋一般包括三個步驟:(1)如果有協(xié)變量,則要首先解釋協(xié)變量的效應(yīng)(2)評價不同因變量在不同處理上表現(xiàn)出的差異大?。?)評價組間差異是在單個因變量上還是在整體因變量組合上4.4.1 評價協(xié)變量評價整體效應(yīng)協(xié)變量最重要的作用就是統(tǒng)計檢驗中的整體效應(yīng)問題。而最直接的評價整體效應(yīng)的方法就是分別對含有協(xié)變量和
29、不含協(xié)變量的模型進(jìn)行分析,然后再比較。解釋協(xié)變量在 ANOVA 和 MANOVA 中解釋協(xié)變量類似于對回歸方程進(jìn)行解釋的過程。如果整體效應(yīng)是顯著的,之后就可以檢驗協(xié)變量對因變量的作用大小了。4.4.2 評價因變量的效應(yīng)主效應(yīng)和交互作用主效應(yīng)主效應(yīng)是指自變量對因變量的作用。如果在不同組間因變量存在顯著差異,那么就稱主效應(yīng)顯著。在檢驗主效應(yīng)時,還需要做另外兩種分析:(1)如果自變量的個數(shù)大于 1,那么研究者就必須要檢驗交互作用是否顯著,如果顯著了,就要考慮交互作用對主效應(yīng)解釋的影響。(2) 如果一個自變量多于兩個水平,那么研究者就要對這個自變量做多重比較,看具體是自變量的哪幾個水平間差異顯著4.4
30、.2 評價因變量的效應(yīng)主效應(yīng)和交互作用交互作用 評價交互作用的統(tǒng)計顯著性交互作用的類型 根據(jù)對處理效應(yīng)的檢驗,交互作用可以分為兩種類型: 一致的交互作用和不一致的交互作用4.4.2 評價因變量的效應(yīng)主效應(yīng)和交互作用例如,對不同形狀(球形、立方形、星形)不同顏色(紅、藍(lán)、綠)的麥片進(jìn)行評價。不同交互作用情況下結(jié)果如圖 2-2 所示:4.4.3評價組間差異 多個單變量檢驗 (1) 兩組檢驗 (2) K組檢驗 結(jié)構(gòu)化的多組檢驗 (1)事后檢驗 (2)事先檢驗5.多元方差分析應(yīng)用案例及 SPSS 操作本例采用貝姆性別角色量表數(shù)據(jù),量表中共包括 60 個題目,樣本量為 4003。本例將男性氣質(zhì)和女性氣質(zhì)
31、作為因變量,將性別、年齡階段作為自變量,考察不同性別、不同年齡階段的受測者在男性氣質(zhì)和女性氣質(zhì)兩種特質(zhì)上是否存在差異 操作步驟詳見高級心理統(tǒng)計P52P56關(guān)鍵術(shù)語多元方差分析 一元方差分析 Hotellings T2檢驗 因素設(shè)計 一元協(xié)方差分析 多元協(xié)方差分析 方差-協(xié)方差矩陣 廣義線性模型 多元正態(tài)分布 統(tǒng)計檢驗力 主效應(yīng) 交互作用 事先檢驗 事后檢驗第三章 多元回歸分析核心要點了解多元回歸的概念以及可以解決的問題。掌握三種不同類型多元回歸的特點和區(qū)別,了解自變量的進(jìn)入順序?qū)饬吭撟宰兞恐匾缘挠绊?。掌握檢驗回歸方程整體顯著性和比較自變量重要性大小的指標(biāo)和方法。了解可能對回歸分析準(zhǔn)確性產(chǎn)生
32、影響的因素。多元回歸分析的一般目的和描述多元回歸分析主要回答的問題多元回歸分析的假設(shè)及模型多元回歸分析的類型多元回歸分析中自變量的重要性多元回歸分析中的統(tǒng)計檢驗多元回歸分析中的一些值得注意的問題回歸分析的局限性應(yīng)用案例及SPSS操作提綱多元回歸分析的一般目的和描述一元回歸分析:只有一個自變量,只能處理兩個變量之間的關(guān)系多元回歸分析:考察多個變量對一個變量的影響1多元回歸分析 vs 多元相關(guān)分析多元回歸分析主要回答的問題多元回歸分析主要回答四大類問題:(1)驗證自變量對因變量的影響;(2)檢驗單個或一組自變量的重要性;(3)建立預(yù)測模型;(4)分析自變量之間的交互作用。2多元回歸分析主要回答的問
33、題可細(xì)化為是個方面:第一,考察因變量和多個自變量之間關(guān)系的強度。第二,考察已有自變量的重要性。第三??疾煸黾幼宰兞康谋匾?。第四,在統(tǒng)計上預(yù)先控制協(xié)變量的影響。第五,基于假設(shè)的需要定義變量影響順序。第六,比較多組自變量的重要性。第七,尋找最佳的預(yù)測模型。第八,在新樣本上預(yù)測因變量分?jǐn)?shù)。第九,重新定義自變量以解釋非線性關(guān)系。第十,同時處理分類自變量和連續(xù)自變量對因變量的影響。2多元回歸分析的假設(shè)及模型33.1 使用多元回歸分析的前提假設(shè)(1)存在兩個或兩個以上的自變量及一個因變量;(2)因變量服從正態(tài)分布;(3)自變量與因變量之間呈線性關(guān)系;(4)所有變量的觀測必須是彼此獨立的。多元回歸分析的假
34、設(shè)及模型33.2 多元回歸方程的建立多元回歸分析的假設(shè)及模型33.3 多元回歸方程的參數(shù)估計最小二乘法根據(jù)最佳擬合的原則,最小二乘法要求估計得到的參數(shù)滿足殘差平方和最小求出參數(shù)使殘差平方和 取得最小值多元回歸分析的類型44.1 標(biāo)準(zhǔn)多元回歸(standard multiple regression)又稱為同時回歸(simultaneous regression)所有自變量同時進(jìn)入回歸方程僅度量了每個自變量進(jìn)入方程后增加的預(yù)測因變量的貢獻(xiàn)標(biāo)準(zhǔn)多元回歸在計算單個自變量的貢獻(xiàn)時,該自變量與其它所有自變量共同解釋的部分都被排除,僅計算剩余的可解釋的部分所有重疊的部分將不計入任何自變量的貢獻(xiàn)多元回歸分析
35、的類型44.2 序列回歸(sequential regression)又稱分層回歸(hierarchical regression)自變量將根據(jù)研究者指定的順序進(jìn)入回歸方程由于存在前后順序,衡量一個(或一組)自變量的貢獻(xiàn)時,與其它變量共同解釋的部分會歸為先進(jìn)入的變量。多元回歸分析的類型44.3 統(tǒng)計回歸(statistical regression)完全以統(tǒng)計標(biāo)準(zhǔn)決定進(jìn)入自變量進(jìn)入回歸方程的順序,沒有考慮變量的意義和理論解釋的問題,是一種帶有爭議的回歸類型。一個變量會進(jìn)入或被排除出方程完全根據(jù)該樣本下計算出的統(tǒng)計指標(biāo),一些細(xì)微的差異將會對衡量變量重要性造成較大的影響。多元回歸分析的類型44.4
36、 三種回歸的比較標(biāo)準(zhǔn)回歸會剔除所有自變量的重疊部分,可以體現(xiàn)出每個自變量的單獨貢獻(xiàn)。序列回歸可以在某些變量進(jìn)入方程的前提下探討另一些變量的貢獻(xiàn)。統(tǒng)計回歸可以辨別具有多重共線性的變量,將為未來的研究剔除某些明顯冗余的變量。多元回歸分析中自變量的重要性55.1 多元測定系數(shù)回歸平方和(regression sum of squares)總平方和(total sum of squares)多元回歸分析中自變量的重要性55.2 調(diào)整的多元測定系數(shù)多元回歸分析中自變量的重要性55.3 偏相關(guān)系數(shù)偏相關(guān)(partial correlation)指的是控制其它自變量后Y和X的相關(guān),它等于從Y和X中都除去其它
37、預(yù)測變量的影響之后,Y和X中剩余部分的簡單相關(guān)。將偏相關(guān)系數(shù)平方后便可以得到偏測定系數(shù)(coefficient of partial determination)偏測定系數(shù)是在控制其它自變量的條件下,單一自變量對因變量的邊際解釋力。多元回歸分析中自變量的重要性55.4 半偏相關(guān)系數(shù)半偏相關(guān)(semi-partial correlation)又稱部分相關(guān)(part correlation)多元回歸分析中自變量的重要性5多元回歸分析中自變量的重要性55.5 標(biāo)準(zhǔn)化回歸系數(shù)因為標(biāo)準(zhǔn)化的Z變量是無量綱的變量,所以此時的回歸系數(shù) 就稱為標(biāo)準(zhǔn)化的回歸系數(shù)(standardized regression c
38、oefficient)。多元回歸分析中的統(tǒng)計檢驗66.1 回歸方程的顯著性檢驗多元回歸分析中的統(tǒng)計檢驗66.2 新加入變量的顯著性檢驗多元回歸分析中的統(tǒng)計檢驗66.3 回歸系數(shù)的顯著性檢驗多元回歸分析中的一些值得注意的問題77.1 樣本量樣本量與一系列問題有關(guān),包括要求的檢驗力,水平,自變量個數(shù)、預(yù)期的效應(yīng)量以及結(jié)果的泛化性等。當(dāng)樣本量非常大時,幾乎所有回歸系數(shù)都將顯著地不等于0,即使不能很好預(yù)測因變量的自變量也是如此。多元回歸分析中的一些值得注意的問題77.2 異常值模式異常的個案可以對回歸系數(shù)的估計精度產(chǎn)生巨大影響。單變量檢測的常用方式有Z分?jǐn)?shù)和盒式圖等雙變量下的散點圖多變量下的馬氏距離等
39、在回歸的過程中可以同時檢測異常值最為常用的方法是殘差分析多元回歸分析中的一些值得注意的問題77.3 多重共線性如果兩個自變量之間的相關(guān)系數(shù)很高,或者一個自變量可以由其它自變量線性表示,即認(rèn)為存在多重共線性問題。共線性現(xiàn)象的不良影響(1)回歸系數(shù)的置信區(qū)間變寬,系數(shù)變得不穩(wěn)定,由樣本推到總體的泛化性變差;(2)回歸系數(shù)不能很好地反映單個自變量對因變量的獨立影響;(3)使變量的偏測定系數(shù)變??;(4)當(dāng)方程用于預(yù)測時,回歸結(jié)果變得不可靠。多元回歸分析中的一些值得注意的問題77.3 多重共線性常用的指標(biāo)及其標(biāo)準(zhǔn):(1)容忍度(Tolerance)(2)方差膨脹因子(Variance Inflate F
40、actor,VIF)(3)條件指數(shù) (Condition Index,CI)消除多重共線性影響的補救辦法:(1)去掉與y相關(guān)程度低、而與其它自變量高度相關(guān)的自變量;(2)根據(jù)容忍度或VIF刪除變量,去掉可以被其余自變量線性表示的變量;(3)增加樣本量;(4)采用新的樣本數(shù)據(jù);(5)合并變量(6)換用其它形式的回歸(7)變量轉(zhuǎn)換多元回歸分析中的一些值得注意的問題77.4 殘差分析多元回歸分析假設(shè)殘差具有正態(tài)性,線性和方差同質(zhì)性,同時假設(shè)誤差具有獨立性。殘差的正態(tài)性假設(shè)指的是殘差在每個因變量的預(yù)測分?jǐn)?shù)下都呈正態(tài)分布。線性假設(shè)指的是殘差與預(yù)測分?jǐn)?shù)呈直線關(guān)系。方差同質(zhì)性假設(shè)在所有預(yù)測分?jǐn)?shù)下殘差的方差相
41、同。誤差的獨立性假設(shè)意味著每次觀測的結(jié)果都不應(yīng)受其它觀測的影響。通常的驗證方法是畫出殘差的散點圖,進(jìn)行殘差分析,其中橫軸表示因變量的預(yù)測值,縱軸表示殘差。多元回歸分析中的一些值得注意的問題77.5 分類自變量的虛擬編碼如果研究的自變量是分類變量,并希望將分類自變量納入回歸,則需要對分類變量進(jìn)行虛擬編碼(dummy coding)。假設(shè)該自變量有K個類別,則需要構(gòu)造K-1個新變量。將其中一個類別指定為對照類別,將對照類別在K-1個新變量上全部編碼為0,其余K-1個類別依次在K-1個新變量上編碼為1。如果將虛無編碼中對參考類別的編碼換為-1而不是0,形成的編碼方式稱為效應(yīng)編碼(effect cod
42、ing)。另一種常用的編碼方式稱為對照編碼(contrast coding),對照編碼的一個優(yōu)點在于編碼后生成的新變量相互正交。多元回歸分析中的一些值得注意的問題77.5 分類自變量的虛擬編碼回歸分析的局限性8回歸分析旨在揭示變量之間的關(guān)系,但并不能做出因果推斷。研究變量的選取同樣應(yīng)該借助理論而不能僅靠統(tǒng)計。回歸分析假設(shè)自變量的測量沒有殘差,然而在絕大部分心理學(xué)研究中都幾乎不存在如此理想的情況。應(yīng)用案例及SPSS操作99.1 標(biāo)準(zhǔn)多元回歸案例高級心理統(tǒng)計P76-82。9.2 序列回歸案例高級心理統(tǒng)計P82-85。關(guān)鍵術(shù)語多元回歸分析標(biāo)準(zhǔn)多元回歸 序列回歸統(tǒng)計回歸 偏回歸系數(shù)多元測定系數(shù) 偏相關(guān)
43、系數(shù) 半偏相關(guān)系數(shù) 多重共線性 殘差分析第四章 邏輯回歸Logistic Regression核心要點了解logistic回歸的基本概念和原理,掌握其適用的基本情境。了解logistic回歸方程中的系數(shù)的含義與解釋。學(xué)習(xí)logistic回歸方程的整體檢驗和擬合優(yōu)度的評價標(biāo)準(zhǔn)。掌握SPSS軟件展示logistic回歸的操作過程和結(jié)果解釋。提綱1 Logistic回歸分析概述2 主要回答的問題3 前提假設(shè)與模型4 注意的問題5案例和SPSS操作1. Logistic回歸分析概述用于處理因變量為離散的二分變量的問題,也可以進(jìn)一步擴(kuò)展為多分類Logistic回歸。logistic回歸分析中并不直接對二
44、分結(jié)果變量進(jìn)行回歸分析,而是將其轉(zhuǎn)換到logit尺度下,引入發(fā)生比(事件發(fā)生的概率/事件不發(fā)生的概率)的概念,再對發(fā)生比取自然對數(shù)(ln)作為因變量,探究自變量的線性組合對轉(zhuǎn)換后的因變量的影響。1. Logistic回歸分析概述Logistic回歸的優(yōu)勢:對預(yù)測變量的分布和類型沒有特定假設(shè),預(yù)測變量可以是連續(xù)變量、分類變量等;尤其適用于自變量對因變量的影響具有收益遞減規(guī)律或非線性的情況,即當(dāng)自變量處于取值范圍的兩端時,其值的變化對因變量的影響較??;當(dāng)自變量處于取值范圍的中間部分時,其值的變化對于因變量的影響較大的情況。2. 主要回答的問題能否根據(jù)一系列的預(yù)測變量來預(yù)測個案在結(jié)果變量的類別?各預(yù)
45、測變量的效果如何?預(yù)測變量之間是否存在交互作用?個案的分類結(jié)果是否準(zhǔn)確?預(yù)測變量的效應(yīng)值多大?3. 前提假設(shè)與模型一、模型假設(shè)連續(xù)預(yù)測變量與經(jīng)過logit轉(zhuǎn)換后的結(jié)果變量之間存在線性關(guān)系;結(jié)果變量應(yīng)為二分變量;預(yù)測變量可以是連續(xù)變量、離散變量,如果是分類變量,采用虛擬編碼;每次觀測相互獨立、殘差均值為0。3. 前提假設(shè)與模型3. 前提假設(shè)與模型Logistic曲線我們以0.5作為截點,將事件發(fā)生概率大于0.5的結(jié)果變量賦值為1(事件發(fā)生),否則賦值為0(事件未發(fā)生)。3. 前提假設(shè)與模型3. 前提假設(shè)與模型5. 模型評價負(fù)2倍對數(shù)似然值(-2LL):反映了假設(shè)擬合模型為實際情境時觀察到特定樣本
46、的概率,其值處于0和1之間。其值越大,表明回歸方程的似然值越小,則擬合越差。將截距模型(不包含任何預(yù)測變量)與含有預(yù)測變量的logistic模型的-2LL進(jìn)行比較,如果前者顯著高于后者,那么可以證明含有預(yù)測變量的模型顯著改善了模型的擬合情況,即預(yù)測變量可以顯著改善模型的擬合情況。顯著性的檢驗采用卡方檢驗。注意樣本量的影響。偽測定系數(shù)(pseudo-R2):預(yù)測準(zhǔn)確性:分類表(classification table)4. 注意事項第一,樣本量大小。第二,個案與變量的比例。第三,預(yù)測變量的多重共線性。第四,分類結(jié)果中的異常值。5. 案例及SPSS操作本章的應(yīng)用案例是模擬生成的,因此其分析結(jié)果不能
47、推論到實際之中,我們僅以此為例演示logistic回歸分析過程。本案例數(shù)據(jù)文件參見“4_1 logistic.sav”詳見高級心理統(tǒng)計P92-P97關(guān)鍵術(shù)語二分變量 分類表 發(fā)生比 對數(shù)發(fā)生比 優(yōu)勢比 logistic曲線 logit轉(zhuǎn)換 logit模型 發(fā)生比模型 logistic回歸系數(shù) logistic回歸系數(shù)冪值 對數(shù)似然函數(shù) 偽測定系數(shù) wald檢驗內(nèi)容小結(jié)1. 對于因變量為二分變量的情境,傳統(tǒng)多元回歸的方法不再適用,logistic回歸則適用于此情境。2. 通過對發(fā)生比取自然對數(shù)來進(jìn)行l(wèi)ogit轉(zhuǎn)換,從而將二分結(jié)果變量轉(zhuǎn)移到連續(xù)的量尺上,使之與自變量之間形成線性可加的關(guān)系。3. l
48、ogistic回歸方程由于對結(jié)果變量進(jìn)行了轉(zhuǎn)換,其對回歸系數(shù)的解釋比傳統(tǒng)多元回歸方程的解釋更加復(fù)雜。通常采用回歸系數(shù)的冪值,即EXP(B)來反映預(yù)測變量對結(jié)果變量發(fā)生比的影響。用Wald test對回歸系數(shù)的顯著性進(jìn)行檢驗。 4.用-2LL 和偽測定系數(shù)對logistic回歸方程進(jìn)行整體檢驗和擬合優(yōu)度的評價。判別分析discriminant analysis核心要點了解判別分析的基本前提假設(shè)及適用情境。了解判別函數(shù)和分類函數(shù)的相關(guān)概念和主要類型。掌握判別分析的重要參數(shù)如判別系數(shù)、結(jié)構(gòu)系數(shù)、矩心、特征根等參數(shù)的含義。學(xué)習(xí) SPSS 軟件中判別分析的操作過程和結(jié)果解釋。提綱1 判別分析一般目的和描
49、述2 判別分析主要回答的問題3 判別分析假設(shè)條件及模型4 判別分析的主要類型5 判別分析的參數(shù)及解釋6 判別分析應(yīng)用案例及 SPSS 操作1.判別分析一般目的和描述判別分析(discriminant analysis)又稱作鑒別分析、區(qū)分分析,在教育心理評價方面有廣泛應(yīng)用。判別分析是一種根據(jù)已知屬于不同類別的樣本為標(biāo)準(zhǔn),結(jié)合所觀測的不同樣本的若干項不同的觀測指標(biāo)數(shù)據(jù),建立一個或幾個線性組合(即判別函數(shù),discriminant function),據(jù)此將待判別的事物加以分類的一種多元統(tǒng)計方法2.判別分析主要回答的問題判別分析大致可以回答以下幾個問題: (1)能否根據(jù)一系列觀測指標(biāo)變量有效區(qū)分不
50、同的類別? (2)究竟有多少個顯著的判別函數(shù)? (3)使用哪種線性方程來對新的個案進(jìn)行分組? (4)所選擇的一系列觀測指標(biāo)與不同類別的關(guān)聯(lián)程度有多大?3 .判別分析假設(shè)條件及模型判別分析的假設(shè)條件樣本量各組別樣本量不同對判別分析結(jié)果的影響不會很大;但是如果在分組過程中,你希望判別為不同組別的先驗概率不同,那么樣本量會對此產(chǎn)生影響。3 .判別分析假設(shè)條件及模型判別分析的假設(shè)條件觀測指標(biāo)變量的多元正態(tài)分布在判別分析中,假定各觀測指標(biāo)變量滿足多元正態(tài)分布,即觀測指標(biāo)變量的得分是從一個總體中獨立隨機(jī)抽樣,任何觀測指標(biāo)變量的線性組合的抽樣分布都是正態(tài)分布的。3 .判別分析假設(shè)條件及模型判別分析的假設(shè)條件
51、各類別方差-協(xié)方差齊性一般來說,當(dāng)樣本量較大、各類別樣本量均衡的時候,違反方差齊性的假設(shè)并不會對判別函數(shù)的顯著性造成太大的影響;但是當(dāng)樣本量較小各組別樣本量不均衡的時候,估計判別函數(shù)的顯著性的判斷會受到較大的影響,很可能造成偏差。3 .判別分析假設(shè)條件及模型判別分析的假設(shè)條件多重共線性 如果觀測指標(biāo)變量有高相關(guān),那么類似于多元回歸很可能會出現(xiàn)多重共線性。3 .判別分析假設(shè)條件及模型判別分析的基本模型判別函數(shù) 判別函數(shù)表示分組變量與滿足條件假設(shè)的觀測指標(biāo)變量之間的關(guān)系。和多元線性回歸方程形式類似,判別函數(shù)的因變量為不同判別函數(shù)的得分,此得分并不是分組變量的編碼值,而是通過對觀測指標(biāo)變量進(jìn)行坐標(biāo)旋
52、轉(zhuǎn)而得到的間距測度變量,其作用在于最大化組間差異、最小化組內(nèi)差異。3 .判別分析假設(shè)條件及模型判別分析的基本模型分類函數(shù) 判別函數(shù)反映了預(yù)測指標(biāo)變量和判別值之間的關(guān)系,而分類函數(shù)則解決 如何將個案劃分到不同的類別的問題4.判別分析的主要類型建立判別函數(shù)的方法(1)在標(biāo)準(zhǔn)判別分析(standard discriminant analysis)中,所有選擇的預(yù)測變量都將進(jìn)入方程之中,變量之間共同對于組間方差的解釋將不屬于任何一個變量。4.判別分析的主要類型建立判別函數(shù)的方法(2)在序列判別分析(sequential discriminant analysis)中,研究者可以根據(jù)已有研究或假設(shè)對預(yù)測
53、變量進(jìn)入方程的順序進(jìn)行設(shè)定。4.判別分析的主要類型建立判別函數(shù)的方法(3)在統(tǒng)計判別分析(statistical discriminant analysis)中,當(dāng)研究者對于預(yù)測變量進(jìn)入方程的順序沒有特定要求,那么可以通過統(tǒng)計標(biāo)準(zhǔn)來確定進(jìn)入順序4.判別分析的主要類型對個案進(jìn)行分類的方法(1)距離判別距離判別的基本思想是:在 P 維空間中,對已知的 K 個總體 G1,G2,GK來說,在每個總體內(nèi)部,由于所有元素同屬一個總體,元素與元素之間的距離相對較短,而對于異質(zhì)總體的元素來說,其間的距離應(yīng)該相對較長一些。4.判別分析的主要類型對個案進(jìn)行分類的方法(2)貝葉斯判別。貝葉斯判別是在判別分析中充分利
54、用先驗概率信息的一種判別方法。4.判別分析的主要類型對個案進(jìn)行分類的方法(3)Fisher 判別Fisher 判別通過尋找一個將 P 維空間的點降為一維數(shù)值的線性函數(shù),然后利用這個線性函數(shù)把 P 維空間中已知類別總體以及未知類別歸屬的空間點都轉(zhuǎn)換為一維數(shù)據(jù),再根據(jù)它們之間的疏密情況把未知歸屬的點判為相應(yīng)的總體。5.判別分析的參數(shù)及解釋判別系數(shù)判別系數(shù)又稱為函數(shù)系數(shù)、判別權(quán)重,反映了各預(yù)測變量對于判別函數(shù)的作用,可以分為標(biāo)準(zhǔn)化和非標(biāo)準(zhǔn)化兩種。 5.判別分析的參數(shù)及解釋結(jié)構(gòu)系數(shù)在判別分析中結(jié)構(gòu)系數(shù)又稱為判別負(fù)載,反映了各觀測指標(biāo)變量與判別函數(shù)值之間的相關(guān)系數(shù)。 5.判別分析的參數(shù)及解釋分組的矩心分
55、組的矩心是每個類別判別函數(shù)值的均值,它描述了以判別函數(shù)為軸,每個類別的中心所在的位置。 5.判別分析的參數(shù)及解釋特征根每個判別函數(shù)都會對應(yīng)一個特征根,其數(shù)值等于組間差異與組內(nèi)差異的比例。特征根反映了該判別函數(shù)的判別能力,越大說明判別能力越佳。 5.判別分析的參數(shù)及解釋典型相關(guān)系數(shù) 典型相關(guān)系數(shù)的計算公式如下: 5.判別分析的參數(shù)及解釋W(xué)ilks Lambda參數(shù)Wilks Lambda 反映的是組內(nèi)平方和占總平方和的比例,其值越小,則表明組內(nèi)平方和占總平方和的比例越小,對應(yīng)的組間平方和占總平方和的比例越大。 6.判別分析應(yīng)用案例及 SPSS 操作本例數(shù)據(jù)包含 ID、numeracy(計算能力)
56、、reasoning(推理能力)、spacial(空間能力)、GROUP(類別)變量。其中,ID 表示個案編號,GROUP 為分組變量,一共有三個組別(優(yōu)秀、良好、不及格),對應(yīng)變量值為 1、2、3,隨機(jī)挑選了 9 個個案的分組變量為缺失值。其余變量為預(yù)測變量,均為1-10 點評分。 操作步驟詳見高級心理統(tǒng)計P104P110關(guān)鍵術(shù)語分組變量 判別變量 判別函數(shù) 分類函數(shù) 分類函數(shù)值標(biāo)準(zhǔn)判別 序列判別 統(tǒng)計判別 距離判別 貝葉斯判別 Fisher判別 判別系數(shù) 結(jié)構(gòu)系數(shù) 分組矩心 特征根 典型相關(guān)系數(shù) Wilks Lambda第六章 聚類分析核心要點掌握聚類分析的基本概念,熟悉聚類分析的應(yīng)用場景
57、。了解層次聚類法和非層次聚類法的概念,并掌握它們的計算步驟。知道如何對聚類分析的結(jié)果進(jìn)行解釋。了解聚類分析與因素分析、回歸分析的區(qū)別與聯(lián)系。提綱1 一般目的和描述2 主要回答的問題3 模型及原理4 聚類分析的主要類型5 值得注意的問題6 應(yīng)用案例及SPSS操作1.一般目的和描述聚類分析是將所觀測的事物或觀測事物的指標(biāo)進(jìn)行分類的一種統(tǒng)計分析方法,它的目的是辨認(rèn)在某些特征上相似的事物,并將這些事物按照這些特征劃分為幾個類,使得同一類中的事物具有較高的同質(zhì)性,不同類中的事物具有較大的異質(zhì)性。聚類分析的對象有兩個方面,一個方面是對樣品也即個案或被試聚類(稱Q 型聚類),另一個方面是對指標(biāo)也即變量進(jìn)行聚
58、類(稱R 型聚類)。2. 主要回答的問題如何測量變之間的相似性或個體之間的距離如何將相似的事物或變量聚為一類如何描述和解釋所聚成的各類3. 模型及原理距離每個樣品(案例)有p個指標(biāo)(變量),故每個樣品可以看成p維空間中的一個點,n個樣品組成p維空間中的n個點,用距離來度量樣品之間接近的程度。距離測度應(yīng)滿足下列四個條件:1)dij 0;2)dij=dji, 即距離具有對稱性;3)dijdik+dkj,即三角不等式,任意一邊小于其他兩邊之和;4)如果dij0,則i j3. 模型及原理距離3. 模型及原理相似系數(shù)3. 模型及原理相似系數(shù)選擇原則要考慮所選擇的距離/相似系數(shù)公式在實際應(yīng)用中有明確的意義
59、。要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用聚類分析方法。要考慮研究對象的特點及計算量的大小。3. 模型及原理變量的標(biāo)準(zhǔn)化中心化變換變量的標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化變換中心化變換變量的標(biāo)準(zhǔn)化極差正規(guī)化變換中心化變換變量的標(biāo)準(zhǔn)化對數(shù)變換中心化變換4. 聚類分析的主要類型根據(jù)聚類分析的對象劃分樣品聚類(稱Q 型聚類)指標(biāo)聚類(稱R 型聚類)根據(jù)聚類分析的原理劃分層次聚類法(Hierarchical Cluster)非層次聚類法(Nonhierarchical Cluster)或K 平均數(shù)法(Kmeans methods)4.1層次聚類1、聚集法:首先把每個案例各自看成一類,先把距離最近的兩類合并,然后重新計算類
60、與類之間的距離,再把距離最近的兩類合并,每一步減少一類,這個過程一直持續(xù)到所有案例歸為一類為止。2、分解法:與聚集法相反,首先把所有的案例看成一類,然后把最不相似的案例分為兩類,每一步增加一類,直到每個案例都成為一類為止。4.1層次聚類(1)最短距離法(Single Linkage)類與類之間的距離定義為一個類中的所有案例與另一類中的所有案例之間的距離最小者。(2)最長距離法(Complete Linkage)與最短距離法相反,類與類之間的距離定義為兩類中離得最遠(yuǎn)的兩個案例之間的距離。4.1層次聚類(3)中間距離法 4.1層次聚類(4)重心法4.1層次聚類(5)類平均法4.1層次聚類(6)可變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合伙出資開店經(jīng)營合同范本
- 厚街工廠蔬菜配送合同范本
- 展會廣告服務(wù)合同范本
- 木材粉碎合同范本
- 鄉(xiāng)級學(xué)校保安合同范本
- 2025年靜止無功發(fā)生器項目建議書
- 衛(wèi)浴拆裝服務(wù)合同范本
- 加盟酒店品牌合同范本
- 原木板材加工合同范本
- 生鮮業(yè)務(wù)采購合同范本
- 過敏性休克完整版本
- 鉗形電流表使用PPT
- 建筑工程分部分項工程劃分表(新版)
- 福建省危險化學(xué)品企業(yè)安全標(biāo)準(zhǔn)化(三級)考核評分標(biāo)準(zhǔn)指導(dǎo)意見(試行)
- 上海市長寧區(qū)2022年高考英語一模試卷(含答案)
- 城鎮(zhèn)詳細(xì)設(shè)計控制性詳細(xì)規(guī)劃
- 智能垃圾桶系統(tǒng)的設(shè)計論文
- 質(zhì)量管理體系過程識別矩陣圖及與條款對照表
- 北碚區(qū)幼兒園
- 2021年度錨索張拉機(jī)具及錨桿拉力計技術(shù)規(guī)格書
- 2022年人力資源管理師課程表
評論
0/150
提交評論