版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章測(cè)量的信度與效度第一節(jié)測(cè)量的信度第二節(jié)測(cè)量的效度第一節(jié)信度(reliability)一、什么是信度定義:指的是測(cè)量結(jié)果的穩(wěn)定性程度(或叫可靠性)。也指同一被試在不同時(shí)間內(nèi)用同一測(cè)驗(yàn)(或用另一套相等的測(cè)驗(yàn))重復(fù)測(cè)量,所得結(jié)果的一致程度。1、理論定義:傳統(tǒng)的信度理論認(rèn)為,每一個(gè)測(cè)驗(yàn)的實(shí)得分?jǐn)?shù)(X)總是由真實(shí)分?jǐn)?shù)(T)和誤差(E),兩個(gè)部份構(gòu)成的,公式為:X=T+E討論一組測(cè)驗(yàn)分?jǐn)?shù)的特性時(shí),可用方差導(dǎo)標(biāo)具體分?jǐn)?shù),公式:(測(cè)驗(yàn)實(shí)得分?jǐn)?shù)的方差)Sx2=(測(cè)驗(yàn)真分?jǐn)?shù)的方差)ST2+(測(cè)驗(yàn)誤差的方差)SE22、操作定義:定義1:一組測(cè)量分?jǐn)?shù)的真分?jǐn)?shù)變異數(shù)(方差)與總變異數(shù)(總方差、實(shí)得分?jǐn)?shù)的方差)的比率,或者是真實(shí)分?jǐn)?shù)方差占總方差的的百分比。計(jì)算公式:rxx=ST2/SX2定義2:信度乃是一個(gè)被試團(tuán)體的真分?jǐn)?shù)與實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)的平方。即rxx=ptx2定義3:信度乃是一個(gè)測(cè)驗(yàn)X(A卷)與它的任意一個(gè)“平行測(cè)驗(yàn)”X/(B卷)的相關(guān)系數(shù)。即rxx=pXX`2二、信度的指標(biāo)(一)信度系數(shù):大部分情況下,信度是信度系數(shù)為指標(biāo),它是一種相關(guān)系數(shù)。理論上說(shuō)就是真分?jǐn)?shù)方差與實(shí)得分?jǐn)?shù)的方差的比值,公式是:rxx=ptx2(二)信度指數(shù):是真分?jǐn)?shù)標(biāo)準(zhǔn)差與實(shí)得分?jǐn)?shù)的標(biāo)準(zhǔn)差的比值,公式是:信度指數(shù)的平方就是信度系數(shù)rxx=ST2/SX2(三)標(biāo)準(zhǔn)誤:指出個(gè)人測(cè)驗(yàn)分?jǐn)?shù)的變異量。信度系數(shù)表示一組測(cè)量的實(shí)得分?jǐn)?shù)與真分?jǐn)?shù)的符合程度,標(biāo)注誤表示個(gè)人測(cè)驗(yàn)分?jǐn)?shù)的變異量。用一組被試兩次測(cè)量結(jié)果來(lái)代替同一個(gè)人反復(fù)實(shí)測(cè),有了信度的另一個(gè)指標(biāo):測(cè)量標(biāo)準(zhǔn)誤。測(cè)量的標(biāo)準(zhǔn)誤與信度之間呈反比關(guān)系:標(biāo)準(zhǔn)誤越小,信度越大;標(biāo)準(zhǔn)誤越大,信度越低。三、信度與測(cè)驗(yàn)分?jǐn)?shù)的解釋?zhuān)ㄒ唬┙忉屨鎸?shí)分?jǐn)?shù)與實(shí)得分?jǐn)?shù)的相關(guān):信度系數(shù)可以解釋為總的方差中有多少比例是由真實(shí)分?jǐn)?shù)的方差決定的,也就是測(cè)驗(yàn)的總變異中真分?jǐn)?shù)造成的變異占百分之幾。(二)比較信度可以接受的水平:一般的能力測(cè)驗(yàn)和成就測(cè)驗(yàn)的信度系數(shù)都在0.90以上;人格測(cè)驗(yàn)、興趣、態(tài)度、價(jià)值觀等測(cè)驗(yàn)的信度一般在0.80-0.85。一般原則是:當(dāng)<0.70時(shí),測(cè)驗(yàn)不能用于對(duì)個(gè)人作出評(píng)價(jià)或預(yù)測(cè),而且不能作團(tuán)體比較;當(dāng)0.70≤<0.85時(shí),可用于團(tuán)體比較;當(dāng)≥0.85時(shí),才能用來(lái)鑒別或預(yù)測(cè)個(gè)人成績(jī)或作為。(三)解釋個(gè)人分?jǐn)?shù)的意義:從信度可以解釋個(gè)人分?jǐn)?shù)的意義,這是測(cè)量標(biāo)準(zhǔn)誤的應(yīng)用。它有兩個(gè)作用:一是估計(jì)真實(shí)分?jǐn)?shù)的范圍;二是了解實(shí)得分?jǐn)?shù)再測(cè)時(shí)可能的變化情形。例題:假設(shè)在一個(gè)智力測(cè)驗(yàn)中某個(gè)被試的IQ為100,這是否反映了他的真實(shí)水平?如果再測(cè)一次他的分?jǐn)?shù)將改變多少?已知該智力測(cè)驗(yàn)的標(biāo)準(zhǔn)差是15,信度系數(shù)為0.89,則其IQ的測(cè)量標(biāo)準(zhǔn)誤和可能范圍分別為:SE=15=5.0Q=100±1.96x5=100±9.8≈90~110我們可以說(shuō)這個(gè)被試的真實(shí)IQ有95%的可能性落在90與110之間。即若再測(cè)一次,他的智商低于90、高于110的可能性不超過(guò)5%。(四)比較不同測(cè)驗(yàn)分?jǐn)?shù)的差異:測(cè)量標(biāo)準(zhǔn)誤和測(cè)驗(yàn)信度在評(píng)價(jià)兩個(gè)不同測(cè)驗(yàn)的分?jǐn)?shù)是否有明顯差異時(shí)也非常重要。這種比較包括兩個(gè)人不同分?jǐn)?shù)的差別和同一被試在兩個(gè)測(cè)驗(yàn)上的差別。例題:某被試在韋氏成人智力測(cè)驗(yàn)中言語(yǔ)智商為102,操作智商為108。已知兩個(gè)分?jǐn)?shù)都是以100為平均數(shù),15為標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)分?jǐn)?shù)。假設(shè)言語(yǔ)測(cè)驗(yàn)和操作測(cè)驗(yàn)的分半信度分別為0.97和0.93。問(wèn)其操作智商是否顯著高于言語(yǔ)智商呢?首先計(jì)算出差異分?jǐn)?shù)的標(biāo)準(zhǔn)誤:在統(tǒng)計(jì)上,經(jīng)常要求兩個(gè)分?jǐn)?shù)的差異程度達(dá)到0.05的顯著水平,才能承認(rèn)不是誤差的影響。因此,將差異標(biāo)準(zhǔn)誤(4.74)乘以1.96,結(jié)果為9.29,這表明個(gè)體在韋氏測(cè)驗(yàn)兩半得分的差異高于大約10分,才能達(dá)到0.05顯著水平。上述被試的分?jǐn)?shù)差異(108-102=6)是不顯著的。四、信度的類(lèi)型及估計(jì)方法(一)重測(cè)信度(再測(cè)信度)(test-retestreliabity)1、含義與計(jì)算:又稱(chēng)穩(wěn)定性系數(shù)。他的計(jì)算方法是采用重測(cè)法,即使用同一測(cè)驗(yàn),在同樣條件下對(duì)同一組被試前后施測(cè)兩次測(cè)驗(yàn),求兩次得分間的相關(guān)系數(shù)。例:用同一個(gè)算術(shù)四則的速度測(cè)驗(yàn),對(duì)小學(xué)五年級(jí)的12個(gè)學(xué)生先后施測(cè)兩次。結(jié)果如下,試求其信度。學(xué)生序號(hào)123456X202021222323Y202121202323學(xué)生序號(hào)789101112X232425262627Y2325262627292、使用的前提條件(1)所測(cè)量的心理特性必須是穩(wěn)定的。(2)遺忘和練習(xí)的效果基本上相互抵消。(3)在時(shí)間間隔中沒(méi)有學(xué)習(xí)另外的與測(cè)驗(yàn)有關(guān)的東西,或者說(shuō)每人學(xué)習(xí)其他東西的程度都一樣。3、優(yōu)缺點(diǎn):優(yōu)點(diǎn):它最符合重復(fù)測(cè)驗(yàn)的涵義,是重復(fù)測(cè)驗(yàn)最簡(jiǎn)單最明確的方式(2)首測(cè)和再測(cè)只需要一套測(cè)驗(yàn)題目,省時(shí)、省力(3)同一套題目無(wú)論施測(cè)幾次,所測(cè)的屬性是完全相同的。缺點(diǎn):(1)同一組被試對(duì)同一個(gè)測(cè)驗(yàn)先后兩次作答相互之間是不獨(dú)立的。(2)如果兩次施測(cè)時(shí)間間隔較長(zhǎng),在此期間被試的身心發(fā)展,新知識(shí)的獲得,都會(huì)使兩次測(cè)驗(yàn)結(jié)果不相同。(3)同一個(gè)被試對(duì)現(xiàn)一個(gè)測(cè)驗(yàn)先后兩次作答,對(duì)測(cè)驗(yàn)的興趣不同,影響測(cè)驗(yàn)結(jié)果。(4)兩次施測(cè)的環(huán)境不同,也是產(chǎn)生測(cè)量誤差的因素。4、使用重測(cè)信度要注意的問(wèn)題:(1)最適宜的時(shí)距隨測(cè)驗(yàn)的目的、性質(zhì)和被試特點(diǎn)而異,一般是兩周到四周較宜,間隔時(shí)間最好不超過(guò)六個(gè)月。(2)再測(cè)驗(yàn)適用于異質(zhì)性測(cè)驗(yàn)(3)再測(cè)信度適用于速度測(cè)驗(yàn)或人格測(cè)驗(yàn),而不適用于難度測(cè)驗(yàn)(4)應(yīng)注意提高被試的積極性。(二)復(fù)本信度
(Alternate-formreliability)1、含義與計(jì)算:含義:又稱(chēng)等值性系數(shù)。它是以?xún)蓚€(gè)平行或復(fù)本的測(cè)驗(yàn)(等值但題目不同)來(lái)測(cè)量同一群體,然后求得被試在兩個(gè)測(cè)驗(yàn)上得分的相關(guān)系數(shù),這個(gè)相關(guān)系數(shù)就代表了復(fù)本信度的高低。復(fù)本信度反映的是測(cè)驗(yàn)在內(nèi)容上的等值性,故稱(chēng)等值性系數(shù)。復(fù)本信度的高低關(guān)鍵取決于復(fù)本測(cè)驗(yàn)的選擇。2、使用的前提條件:(1)要兩份或兩份以上真正平行的測(cè)驗(yàn)(2)被試要有條件接受兩個(gè)測(cè)驗(yàn)。主要取決于時(shí)間、經(jīng)費(fèi)等幾方面。復(fù)本等值要符合下列條件:各份測(cè)驗(yàn)測(cè)量的是同一種心理特性。各份測(cè)驗(yàn)具有相同的內(nèi)容和形式。各份測(cè)驗(yàn)的題目不應(yīng)重復(fù)。各份測(cè)驗(yàn)題目數(shù)量相等,難度和區(qū)分度大體相同。各份測(cè)驗(yàn)的分?jǐn)?shù)分布(平均數(shù)和標(biāo)準(zhǔn)差)大致相等。復(fù)本編好后,應(yīng)再測(cè)一次,以確保各份測(cè)驗(yàn)的等值。3、優(yōu)缺點(diǎn):優(yōu)點(diǎn):(1)一個(gè)測(cè)驗(yàn)的復(fù)本使得測(cè)驗(yàn)數(shù)目的增加,對(duì)于所欲測(cè)量的屬性相聯(lián)系的行為總體代表性強(qiáng),因此,一個(gè)測(cè)驗(yàn)的兩個(gè)復(fù)本在兩三天至一周對(duì)同一組被試施測(cè)時(shí),獲得的復(fù)本信度系數(shù)是相當(dāng)準(zhǔn)確的。(2)測(cè)驗(yàn)的兩個(gè)復(fù)本,如果在不同時(shí)間使用,其信度不僅可以反映在不同時(shí)間的穩(wěn)定性,而且還可以反映對(duì)于不同測(cè)題的一致性。(3)兩個(gè)復(fù)本在同時(shí)使用時(shí),可以避免再測(cè)驗(yàn)信度的缺點(diǎn)。缺點(diǎn):(1)編制兩個(gè)完全相等的測(cè)驗(yàn)是很困難的,(2)復(fù)本法只能減少而不能完全排除練習(xí)和記憶的影響。(3)被試同時(shí)接受性質(zhì)相似的兩個(gè)測(cè)驗(yàn)可能減少完成測(cè)驗(yàn)的積極性。4、適用范圍(1)如果兩個(gè)復(fù)本的施測(cè)相隔一段時(shí)間,則稱(chēng)穩(wěn)定與等值系數(shù)。穩(wěn)定與等值系數(shù)既考慮了測(cè)驗(yàn)在時(shí)間上的穩(wěn)定性,也考慮了不同題目樣本反應(yīng)的一致性,因而是更為嚴(yán)格的信度考察方法,也是應(yīng)用較為廣泛的方法。(2)在實(shí)際應(yīng)用時(shí),為了抵消施測(cè)順序的效應(yīng),應(yīng)該有半數(shù)的被試先作A本再作B本,另一半被試先作B本再作A本。(3)復(fù)本測(cè)驗(yàn)不僅適用于難度測(cè)驗(yàn),也是估計(jì)速度測(cè)驗(yàn)信度的最好方法。(三)分半信度(split-halfreliability)1、含義與計(jì)算指采用分半法估計(jì)所得的信度系數(shù)。這種方法估計(jì)信度系數(shù)只需一種測(cè)驗(yàn)形式,實(shí)施一次測(cè)驗(yàn)。通常是在測(cè)驗(yàn)實(shí)施后將測(cè)驗(yàn)按奇、偶數(shù)分為等值的兩半,并分別計(jì)算每位被試在兩半測(cè)驗(yàn)上的得分,求出這兩半分?jǐn)?shù)的相關(guān)系數(shù)。常見(jiàn)的是將測(cè)題按其序列號(hào)的奇偶分,這種分法的前提是:測(cè)題并非隨機(jī)排列,而是按某種順序(如難度)排列;如果隨機(jī)排列的題目,則必須是所有題目平等的(要么難度相等,要么性質(zhì)一樣);如果測(cè)驗(yàn)有多個(gè)分量表,應(yīng)該在分量表內(nèi)部排好順序,再把各分量表分兩半組合起來(lái)求相關(guān)。2、計(jì)算(1)兩半測(cè)驗(yàn)分?jǐn)?shù)的變異數(shù)相等(方差齊性)先計(jì)算兩半測(cè)驗(yàn)的積差相關(guān)系數(shù),再進(jìn)行校正。常用的修正公式是:斯皮爾曼-布朗公式:(2)兩半測(cè)驗(yàn)分?jǐn)?shù)的變異數(shù)不等(方差不齊),可采用:弗朗那根公式或盧倫公式中的任一一個(gè)。例題:被試010203040506070809101112131415奇數(shù)題(x)2018232117182017161314131288偶數(shù)題(Y)2022192218151417151614121076[解]:計(jì)算兩個(gè)“半測(cè)驗(yàn)”得分的積差相關(guān)系數(shù)為:0.86。代入校正公式得:0.92。所以,該測(cè)驗(yàn)的分半信度系數(shù)為0.92。3、使用條件及范圍分半信度通常是在只能施測(cè)一次或沒(méi)有復(fù)本的情況下使用。而且,在使用斯皮爾-布朗公式時(shí)要求全體被試在兩半測(cè)驗(yàn)上得分的變異數(shù)要相等。當(dāng)一個(gè)測(cè)驗(yàn)無(wú)法分成對(duì)等的兩半時(shí),分半信度不宜使用。4、注意的問(wèn)題:(1)如遇到有牽連的項(xiàng)目或一組解決同一問(wèn)題的項(xiàng)目時(shí),這些項(xiàng)目應(yīng)放在同一半,否則將會(huì)高估信度的值。(2)當(dāng)試卷中存在選題或試卷為速度測(cè)驗(yàn)時(shí),不宜采用分半法。作業(yè):
1、用某量表測(cè)驗(yàn)14名學(xué)生,得分記為X.為了考察測(cè)量結(jié)果的可靠性,于16天后用原量表對(duì)這14名學(xué)生再測(cè)一次,得人記為Y,如表中所示,問(wèn)測(cè)驗(yàn)結(jié)果是否可靠?被試1234567X60625357594948Y62807765675358被試891011121314X41465851557874Y67656868695858作業(yè):2、設(shè)有14名學(xué)生,經(jīng)過(guò)一項(xiàng)測(cè)驗(yàn),成績(jī)?nèi)缦卤恚罕緮M再測(cè)一次以估計(jì)其信度,由于學(xué)生放假離校,不便再測(cè)?,F(xiàn)擬估計(jì)其測(cè)驗(yàn)結(jié)果的信度。用什么方法估計(jì)?測(cè)驗(yàn)的信度系數(shù)如何?
14名學(xué)生某項(xiàng)測(cè)驗(yàn)成績(jī)?nèi)绫恚ㄋ模┩|(zhì)性信度
(homogeneityreliability)1、含義:指測(cè)驗(yàn)內(nèi)部所有題目間的一致性。題目的一致性有兩層含義:其一是指所有題目都測(cè)的是同一種心理特質(zhì);其二是指所有題目之間都具有較高的正相關(guān)??傊?,同質(zhì)性信度就是一個(gè)測(cè)驗(yàn)所測(cè)內(nèi)容或特質(zhì)的相同程度。2、測(cè)量同質(zhì)性的基本公式:3、庫(kù)德-理查遜公式:適用于客觀性試題(0、1記分)3、克倫巴赫系數(shù)(多重記分測(cè)驗(yàn))例,用6個(gè)論文題的測(cè)驗(yàn)對(duì)5個(gè)學(xué)生施測(cè),其結(jié)果如表所示,試估計(jì)測(cè)驗(yàn)的內(nèi)在一致性信度.學(xué)生n=5題序(K=6)總分Xt123456134321417263454628313124516462215319553124217例題:某態(tài)度量表共7題,100個(gè)被試在各題上的得分方差分別是0.81,0.82,0.79,0.83,0.85,0.76,0.77,測(cè)驗(yàn)總分的方差為14.00,則此測(cè)量的的信度為多少?4、注意:當(dāng)各個(gè)測(cè)題的得分有較高的正相關(guān)時(shí),不論題目的內(nèi)容和形式如何,測(cè)驗(yàn)即為同質(zhì)的;若所有題目看起來(lái)好像測(cè)量的是同一特質(zhì),但相關(guān)很低或?yàn)樨?fù)相關(guān)時(shí),測(cè)驗(yàn)即為異質(zhì)的。對(duì)于一些復(fù)雜的、異質(zhì)的心理學(xué)變量,采用單一的同質(zhì)性測(cè)驗(yàn)是不行的,因而常常采用若干相對(duì)異質(zhì)的分測(cè)驗(yàn),并使每個(gè)分測(cè)驗(yàn)內(nèi)容具有同質(zhì)性,這樣每個(gè)分測(cè)驗(yàn)就能用來(lái)預(yù)測(cè)異質(zhì)效標(biāo)的某一方面。(五)評(píng)分者信度(scorerreliability)1、含義與計(jì)算:指的是多個(gè)評(píng)分者給同一批人的答卷進(jìn)行評(píng)分的一致性程度。是用于測(cè)量不同評(píng)分者之間所產(chǎn)生的誤差。式中W為和諧系數(shù),K為評(píng)分者的人數(shù),N為被評(píng)對(duì)象數(shù),RI為每一對(duì)象被評(píng)的等級(jí)總和。例子:假設(shè)有三位專(zhuān)家給六篇論文評(píng)等級(jí),結(jié)果如表所示,試計(jì)算此次評(píng)分者的評(píng)分者信度。專(zhuān)家123456124156323415623351462Ri8133141872、注意的問(wèn)題:為了衡量評(píng)分者之間的信度高低,可隨機(jī)抽取若干份測(cè)驗(yàn)卷,由兩位評(píng)分者按評(píng)分標(biāo)準(zhǔn)分別給分,然后再根據(jù)每份測(cè)驗(yàn)卷的兩個(gè)分?jǐn)?shù)計(jì)算相關(guān),即得評(píng)分者信度。一般要求在成對(duì)的受過(guò)訓(xùn)練的評(píng)分者之間平均一致性達(dá)0.90以上,才認(rèn)為評(píng)分是客觀的。當(dāng)多個(gè)評(píng)分者評(píng)定多個(gè)對(duì)象,并以等級(jí)法記分時(shí),可采用肯德?tīng)柡椭C系數(shù)作為評(píng)分者信度的估計(jì)。五、標(biāo)準(zhǔn)參照測(cè)驗(yàn)的信度估計(jì)1、對(duì)相關(guān)法信度系數(shù)進(jìn)行校正為了對(duì)標(biāo)準(zhǔn)參照測(cè)驗(yàn)的信度做出較為準(zhǔn)確的估計(jì),利文斯頓提出了對(duì)相關(guān)法信度系數(shù)的校正公式:2、用決策的一致性作為信度指標(biāo)
林德曼與梅倫達(dá)的一致性公式:C為一致性,n為在兩次施測(cè)中均未達(dá)到標(biāo)的人數(shù),b為在兩次施測(cè)中均已達(dá)標(biāo)的人數(shù),f為只在第一次施測(cè)中達(dá)標(biāo)的人數(shù),s為只在第二次施測(cè)中達(dá)標(biāo)的人數(shù),v為f或s中較小的值。六、各種信度系數(shù)相應(yīng)誤差方差的來(lái)源信度系數(shù)類(lèi)型誤差方差來(lái)源重測(cè)信度時(shí)間取樣復(fù)本信度(連續(xù)施測(cè))內(nèi)容取樣復(fù)本信度(間隔施測(cè))時(shí)間和內(nèi)容取樣分半信度內(nèi)容取樣同質(zhì)性信度內(nèi)容的異質(zhì)性評(píng)分者信度評(píng)分者之間的差異七、影響信度的因素(一)樣本的特征:信度常用信度系數(shù)來(lái)表示,信度系數(shù)就是相關(guān)系數(shù),相關(guān)系數(shù)受樣本團(tuán)體得分分布、樣本是否異質(zhì)及樣本團(tuán)體平均能力水平的影響。1、樣本團(tuán)體分?jǐn)?shù)分布的影響:當(dāng)分布范圍增大時(shí),其信度估計(jì)就較高;當(dāng)分布范圍減小時(shí),相關(guān)系數(shù)隨之下降,信度值則較低。2、樣本團(tuán)體異質(zhì)性的影響:若獲得信度的取樣團(tuán)體較為異質(zhì)的話(huà),往往會(huì)高估測(cè)驗(yàn)的信度,相反則會(huì)低估測(cè)驗(yàn)的信度。3、樣本團(tuán)體平均能力水平的影響:對(duì)于不同水平的團(tuán)體,題目具有不同的難度,每個(gè)題目在難度上的微小差異累計(jì)起來(lái)便會(huì)影響信度。(二)測(cè)驗(yàn)的長(zhǎng)度:1、測(cè)驗(yàn)越長(zhǎng),測(cè)驗(yàn)的測(cè)題取樣或內(nèi)容取樣越有代表性。2、測(cè)驗(yàn)越長(zhǎng),被試的猜測(cè)因素影響就越小。3、測(cè)驗(yàn)的項(xiàng)目越多,在每個(gè)項(xiàng)目上的隨機(jī)誤差就可以相互抵消。例如:由50題組成的兒童心理學(xué)測(cè)驗(yàn),其信度系數(shù)0.72,若再增加30個(gè)與原測(cè)驗(yàn)相近且同質(zhì)性的題目,問(wèn)長(zhǎng)度增加后的測(cè)驗(yàn)信度系數(shù)是多少?例如,原測(cè)驗(yàn)的信度系數(shù)為0.75,現(xiàn)將信度提高到0.90,問(wèn)測(cè)驗(yàn)的長(zhǎng)度要增加到原測(cè)驗(yàn)長(zhǎng)度的多少倍?(三)測(cè)驗(yàn)的難度:難度對(duì)信度的影響只存在于某些測(cè)驗(yàn)中,如智力測(cè)驗(yàn)、成就測(cè)驗(yàn)、能力傾向測(cè)驗(yàn)等。如果一個(gè)測(cè)驗(yàn)對(duì)某團(tuán)體而言太容易,會(huì)使所得分?jǐn)?shù)都集中在高分端;當(dāng)題目太困難時(shí),得分就會(huì)集中在低分端。兩種情況均會(huì)使信度樣本的分?jǐn)?shù)范圍變窄,從而使測(cè)驗(yàn)變得不夠可靠。從理論上說(shuō),只有難度水平為50%時(shí),才能使測(cè)驗(yàn)分?jǐn)?shù)分布范圍最大,求得的信度也最高。(四)測(cè)驗(yàn)的時(shí)間間隔:以再測(cè)法或復(fù)本法求信度,兩次測(cè)驗(yàn)相隔時(shí)間越短,其信度系數(shù)越大;間隔時(shí)間越久,其它變因介入的可能性越大,受外界的影響越大,信度系數(shù)便越低。作業(yè)3、對(duì)4個(gè)學(xué)生以由5道論述題組成的測(cè)驗(yàn),其成績(jī)?nèi)缦卤?,試估?jì)測(cè)驗(yàn)的內(nèi)在一致性信度。學(xué)生序號(hào)題目總分1234516768532243534193243211244545422總和161918181485作業(yè)4:5位評(píng)分者對(duì)5個(gè)學(xué)生的攝影比賽的排列名次如下表,試估計(jì)評(píng)分者之間的信度。學(xué)生序號(hào)評(píng)分者12345111212243121324434432543555355作業(yè)5:力學(xué)測(cè)驗(yàn)的信度為0.80,欲將信度提高為0.95,問(wèn)測(cè)驗(yàn)的長(zhǎng)度最低限度應(yīng)增加到原測(cè)驗(yàn)長(zhǎng)度的多少倍?第二節(jié)測(cè)驗(yàn)的效度在測(cè)量活動(dòng)中,測(cè)量者對(duì)所使用的測(cè)量工具非常信任,他會(huì)采取復(fù)測(cè)行為以判斷測(cè)量有無(wú)誤差;如果測(cè)量者對(duì)所使用的測(cè)量工具發(fā)生懷疑,那他往往會(huì)去找一公認(rèn)非常準(zhǔn)確的測(cè)量工具對(duì)先前的測(cè)值進(jìn)行檢驗(yàn)。這種在原測(cè)量工具之外尋求新的證據(jù)來(lái)肯定或否定某一測(cè)量工具準(zhǔn)確性的做法就是在研究測(cè)量的效度問(wèn)題。心理測(cè)量是一種間接測(cè)量,心理測(cè)量更重視測(cè)量的效度研究。一、效度(validity)(一)定義:效度是指所測(cè)量的與所要測(cè)量的心理特點(diǎn)之間符合的程度,或者簡(jiǎn)單地說(shuō)是指一個(gè)心理測(cè)驗(yàn)的準(zhǔn)確性?;蚴侵敢粋€(gè)測(cè)驗(yàn)或量表實(shí)際能測(cè)出其所要測(cè)的心理特質(zhì)的程度。1、關(guān)于效度的概念,我們要特別注意以下幾點(diǎn):(1)效度是一個(gè)相對(duì)的概念。這種相對(duì)性表現(xiàn)在兩個(gè)方面:①效度是相對(duì)于一定的測(cè)量目的而言的。②心理特質(zhì)是較隱蔽的特性,只能通過(guò)他的行為表現(xiàn)來(lái)進(jìn)行推測(cè),因此,心理測(cè)量不可能達(dá)到百分之百的準(zhǔn)確,而只能達(dá)到某種程度的準(zhǔn)確。(2)效度是測(cè)量的隨機(jī)誤差和系統(tǒng)誤差的綜合反映。任一誤差的存在,測(cè)量的效度都會(huì)受到影響(3)判斷一個(gè)測(cè)量是否有效要從多方面收集證據(jù)2、在測(cè)驗(yàn)理論中,效度被定義為在一組測(cè)量中,與測(cè)量目標(biāo)有關(guān)的真實(shí)方差(或稱(chēng)有效方差,由所要測(cè)量的變因引起的有效變異)與總方差(實(shí)得變異數(shù))的比率,即3、一組測(cè)驗(yàn)分?jǐn)?shù)的總方差等于真實(shí)方差與誤差方差之和,而真實(shí)方差又可分為兩部分,即有關(guān)的方差和無(wú)關(guān)的但穩(wěn)定的方差,后者也就是所謂系統(tǒng)誤差帶來(lái)的方差SX2=SV2+SI2+SE2由于有效方差是一個(gè)理論值,無(wú)法測(cè)量,所以效度和信度一樣是一個(gè)理論上的概念。二、效度和信度的關(guān)系(一)信度是效度的必要而非充分條件。當(dāng)隨機(jī)誤差的變異數(shù)()減小時(shí),真實(shí)分?jǐn)?shù)的變異數(shù)()增加,測(cè)驗(yàn)的信度隨之提高。信度的提高只給有效變異數(shù)(的增加提供了可能)至于是否能提高效度,還要看系統(tǒng)誤差變異數(shù)的大小,可見(jiàn)信度高效度不一定就高。但一個(gè)測(cè)驗(yàn)要想效度高,真分?jǐn)?shù)的變異數(shù)必須占較大的比重,即測(cè)驗(yàn)的信度必須高。效度高必然信度高,而信度高并不一定保證效度高,說(shuō)明信度高只是效度高的必然條件,并不是效度高的充分條件。(二)效度是受信度制約的:信度系數(shù)的平方根是效度系數(shù)的最高限度,可見(jiàn),一個(gè)測(cè)驗(yàn)的效度總是受它的信度所制約。二、效度的類(lèi)型及評(píng)估方法(一)內(nèi)容效度(ContentValidity)1、定義:指的是項(xiàng)目對(duì)欲測(cè)的內(nèi)容或行為范圍的取樣的適當(dāng)程度。也即測(cè)驗(yàn)題目對(duì)有關(guān)內(nèi)容或行為取樣的適用性,從而確定測(cè)驗(yàn)是否是所欲測(cè)量的行為領(lǐng)域的代表性取樣。一個(gè)測(cè)驗(yàn)要具備較好的內(nèi)容效度必須滿(mǎn)足兩個(gè)條件:(1)要確定好內(nèi)容范圍,并使測(cè)驗(yàn)的全部項(xiàng)目均在此范圍內(nèi)。所謂內(nèi)容范圍可以是具體知識(shí)或技能,也可以是復(fù)雜的行為。要對(duì)所測(cè)量的心理特性有個(gè)明確的概念,并劃定出哪些行為與這心理特性有關(guān)。(2)測(cè)驗(yàn)題目應(yīng)是所界定的內(nèi)容范圍的代表性取樣。2、內(nèi)容效度的評(píng)估方法:(1)專(zhuān)家判斷法:請(qǐng)有關(guān)專(zhuān)家對(duì)測(cè)驗(yàn)題目與原定內(nèi)容的符合性作出判斷,看測(cè)驗(yàn)的題目是否代表規(guī)定的內(nèi)容,這種估計(jì)效度的方法,是一個(gè)邏輯分析的過(guò)程,所以?xún)?nèi)容效度有時(shí)也可稱(chēng)為“邏輯效度”。具體方法是:①定義好內(nèi)容總體,并描繪出有關(guān)知識(shí)與技能的輪廓;②劃分細(xì)綱目,并根據(jù)重要性規(guī)劃好各個(gè)綱目的加權(quán)比例,作出盡可能詳細(xì)的描述;③確定每道題所測(cè)的知識(shí)和技能,將自己的分類(lèi)與測(cè)驗(yàn)編制的綱目作比較;④制訂評(píng)定量表,從各方面對(duì)測(cè)驗(yàn)作出評(píng)定。(2)統(tǒng)計(jì)分析法A、復(fù)本法出了描述性語(yǔ)言外,內(nèi)容效度的確定也可采用一些統(tǒng)計(jì)分析方法,符合程度越高越能反映測(cè)驗(yàn)的內(nèi)容效度??藗惏秃仗岢?,內(nèi)容效度可由一組被試在獨(dú)立取得自同樣內(nèi)容范圍的兩個(gè)測(cè)驗(yàn)復(fù)本上得分之相關(guān)來(lái)作數(shù)量的估計(jì)。B、再測(cè)法也可用于內(nèi)容效度的評(píng)估,被試學(xué)習(xí)某種知識(shí)之前作一次測(cè)驗(yàn),在學(xué)過(guò)該知識(shí)后再作同樣的測(cè)驗(yàn)。若成績(jī)顯著提高,則說(shuō)明所測(cè)內(nèi)容正是被試新近所學(xué)的內(nèi)容,進(jìn)而證明該測(cè)驗(yàn)對(duì)這部分內(nèi)容而言具有較高的內(nèi)容效度。(3)經(jīng)驗(yàn)推測(cè)法:通過(guò)實(shí)踐來(lái)檢驗(yàn)效度。如果通過(guò)率是隨著年齡的增加而增加,就可以推測(cè)該測(cè)驗(yàn)有內(nèi)容效度。3、內(nèi)容效度的應(yīng)用(1)是編制任何測(cè)驗(yàn)應(yīng)加以考慮的基本方面。(2)較適用于評(píng)價(jià)教育成就測(cè)驗(yàn)和職業(yè)選拔測(cè)驗(yàn)。(3)對(duì)標(biāo)準(zhǔn)參照測(cè)驗(yàn)更為重要,是因?yàn)樵跇?biāo)準(zhǔn)參照測(cè)驗(yàn)中我們主要關(guān)心的是被試對(duì)一定范圍的知識(shí)、技能掌握得如何。(4)注意內(nèi)容效度與表面效度的關(guān)系:經(jīng)?;煜?。表面效度是由外行對(duì)測(cè)驗(yàn)作表面上的檢查確定的,它不反映測(cè)驗(yàn)實(shí)際測(cè)量的東西,只是指測(cè)驗(yàn)表面上看來(lái)好像是所要測(cè)的東西。表面效度只考慮題目與測(cè)量目的之間的明顯的、直接的關(guān)系,內(nèi)容效度則考慮到題目與測(cè)量目的和內(nèi)容總體之間邏輯的微妙關(guān)系。在編制測(cè)驗(yàn)時(shí),表面效度是一個(gè)必須考慮的特性,最高作為的測(cè)驗(yàn)通常要求有較高的表面效度;典型行為測(cè)驗(yàn)要求有較低的表面效度。(5)它缺乏可靠的數(shù)量指標(biāo),因而妨礙了各測(cè)驗(yàn)間的相互比較。(二)構(gòu)想效度(constructValidity)1954年提出,有人翻譯為構(gòu)思效度,也有叫結(jié)構(gòu)效度。它是指測(cè)驗(yàn)?zāi)軌驕y(cè)量到理論上的構(gòu)想和特質(zhì)的程度,即測(cè)驗(yàn)的結(jié)果是否能證實(shí)或解釋某一理論的假設(shè)、術(shù)語(yǔ)或構(gòu)想,解釋的程度如何。1、構(gòu)想效度的特點(diǎn):(1)其大小首先取決于事先假定的心理特質(zhì)理論(2)當(dāng)實(shí)際測(cè)量的資料無(wú)法證實(shí)我們的理論假設(shè)時(shí),并不一定就表明該測(cè)驗(yàn)結(jié)構(gòu)效不高,因?yàn)檫€有可能是理論假設(shè)不成立,或者該實(shí)驗(yàn)設(shè)計(jì)不能對(duì)該假設(shè)作適當(dāng)?shù)臋z驗(yàn)等情況,當(dāng)然這就使得結(jié)構(gòu)效度的獲取更為困難。(3)結(jié)構(gòu)效度通過(guò)測(cè)量什么、不測(cè)量什么的證據(jù)累積起來(lái)給以確定,因而不可能有單一的數(shù)量指標(biāo)來(lái)描述結(jié)構(gòu)效度。結(jié)構(gòu)效度主要應(yīng)用于智力測(cè)驗(yàn)、人格測(cè)驗(yàn)等一些心理測(cè)驗(yàn)方面。2、結(jié)構(gòu)效度的確定方法:(1)提出理論假設(shè),并把這一假設(shè)分解成一些細(xì)小的綱目,以解釋被試在測(cè)驗(yàn)上的表現(xiàn)。(2)依據(jù)理論框架,推演出有關(guān)測(cè)驗(yàn)成績(jī)的假設(shè)。(3)用邏輯和實(shí)證的方法來(lái)驗(yàn)證假設(shè)。3、構(gòu)想效度的估計(jì)方法:(1)測(cè)驗(yàn)內(nèi)法(對(duì)測(cè)驗(yàn)本身的分析):A、測(cè)驗(yàn)的內(nèi)容效度可以作為構(gòu)思效度的證據(jù);B、測(cè)驗(yàn)的同質(zhì)性指標(biāo)可以推斷測(cè)驗(yàn)是測(cè)量單一特質(zhì)還是測(cè)量多種特質(zhì),從而為評(píng)估測(cè)驗(yàn)構(gòu)思效度提供證據(jù);C、分析被試對(duì)題目的反應(yīng)特點(diǎn)也可以作為構(gòu)思效度的證據(jù)。(2)測(cè)驗(yàn)間的相互比較:①相容效度②區(qū)分效度③因素效度:①相容效度通過(guò)分析幾個(gè)測(cè)驗(yàn)間的相互關(guān)系,找出其共同之處,進(jìn)而推斷這些測(cè)驗(yàn)測(cè)量的特質(zhì)是什么,也可以確定這些測(cè)驗(yàn)的構(gòu)思效度。最簡(jiǎn)單的是計(jì)算兩種測(cè)驗(yàn)之間得分的相關(guān),其中一個(gè)測(cè)驗(yàn)是待研究效度的,另一個(gè)是已有效度證據(jù)的成熟的測(cè)驗(yàn),但兩者測(cè)量的是同一種心理特質(zhì)。兩測(cè)驗(yàn)的相關(guān)系數(shù)的平方即是兩組測(cè)驗(yàn)分?jǐn)?shù)所共同解釋的變異大小,所以稱(chēng)這一相關(guān)為相容效度,相容效度是構(gòu)思效度的一個(gè)證據(jù)。②區(qū)分效度是構(gòu)思效度的又一個(gè)證據(jù)。③因素效度:通過(guò)對(duì)一組測(cè)驗(yàn)進(jìn)行因素分析,找到影響測(cè)驗(yàn)分?jǐn)?shù)的共同因素,每個(gè)測(cè)驗(yàn)在共同因素上負(fù)荷量即每個(gè)測(cè)驗(yàn)與共同因素的相關(guān),稱(chēng)作測(cè)驗(yàn)的因素效度。因素分析法也是建立構(gòu)思效度的常用方法,通過(guò)對(duì)一組測(cè)驗(yàn)進(jìn)行因素分析,可以找到影響測(cè)驗(yàn)分?jǐn)?shù)的共同因素,這種因素可能就是我們要測(cè)量的心理特質(zhì)(構(gòu)思)。(3)效標(biāo)關(guān)聯(lián)法,效度的研究證明:一個(gè)測(cè)驗(yàn)若效標(biāo)度理想,那么該測(cè)驗(yàn)所預(yù)測(cè)的效標(biāo)的性質(zhì)和種類(lèi)就可以作為分析測(cè)驗(yàn)構(gòu)思效度的指標(biāo),另一種證實(shí)構(gòu)思效度的方法是心理特質(zhì)的發(fā)展變化。(4)實(shí)驗(yàn)法和觀察法證實(shí):觀察實(shí)驗(yàn)前和實(shí)驗(yàn)后分?jǐn)?shù)的差異是驗(yàn)證構(gòu)思效度的方法。3、對(duì)構(gòu)想效度的評(píng)價(jià)(1)構(gòu)想效度促使研究者把著眼點(diǎn)放在提出假設(shè)上、檢驗(yàn)假設(shè)上,使得測(cè)驗(yàn)成為理論研究的重要工具,而不再只是實(shí)際決策的輔助工具,從而使測(cè)驗(yàn)有了更廣闊的發(fā)展情景。(2)主要缺點(diǎn)是,有些構(gòu)想概論模糊,沒(méi)有一致的定義,確定效度時(shí)沒(méi)有明確的操作步驟,沒(méi)有單一的數(shù)量指標(biāo)來(lái)描述有效程度。(三)效標(biāo)效度1、定義:又稱(chēng)實(shí)證效度,反映的是測(cè)驗(yàn)預(yù)測(cè)個(gè)體在某種情境下行為表現(xiàn)的有效性程度。被預(yù)測(cè)的行為是檢驗(yàn)效度的標(biāo)準(zhǔn),簡(jiǎn)稱(chēng)效標(biāo)。由于這種效度是看測(cè)驗(yàn)對(duì)效標(biāo)預(yù)測(cè)如何,所以叫效標(biāo)效度。這種效度需在實(shí)踐中檢驗(yàn),所以又稱(chēng)為實(shí)證效標(biāo)。2、分類(lèi):根據(jù)效標(biāo)資料是否與測(cè)驗(yàn)分?jǐn)?shù)同時(shí)獲得,又可分為同時(shí)效度和預(yù)測(cè)效度兩類(lèi)。同時(shí)效度即測(cè)驗(yàn)所得分?jǐn)?shù)可與效標(biāo)同時(shí)驗(yàn)證,通常與心理特征的評(píng)估及診斷有關(guān)。所謂的效標(biāo)就是衡量一個(gè)測(cè)驗(yàn)是否有效的外在標(biāo)準(zhǔn),它是獨(dú)立于測(cè)驗(yàn)并可以從實(shí)踐中直接獲得的我們感興趣的行為。一個(gè)好的效標(biāo)必須具備以下條件:(1)必須能最有效地反映測(cè)驗(yàn)的目標(biāo),即效標(biāo)測(cè)量本身必須有效;(2)效標(biāo)必須具有較高的信度,穩(wěn)定可靠,不隨時(shí)間等因素變化;(3)效標(biāo)可以客觀地加以測(cè)量,可用數(shù)據(jù)或等級(jí)來(lái)表示;(4)效標(biāo)的測(cè)量的方法很簡(jiǎn)單,省時(shí)省力,經(jīng)濟(jì)實(shí)用。3、效標(biāo)和效標(biāo)測(cè)量:效標(biāo),即衡量測(cè)驗(yàn)有效性的參照標(biāo)準(zhǔn),指的是可以直接而且獨(dú)立測(cè)量的我們感興趣的行為。效標(biāo)可以分為兩個(gè)層次,其一是理論水平的觀念效標(biāo),其二是操作定義水平的效標(biāo)測(cè)量。4、常用的效標(biāo)包括:○1學(xué)業(yè)成就;○2實(shí)際工作表現(xiàn):是最滿(mǎn)意的效標(biāo)測(cè)量,為一般智力測(cè)驗(yàn)、人格測(cè)驗(yàn)和一些能力傾向測(cè)驗(yàn)的效標(biāo);○3特殊訓(xùn)練成績(jī):是能力傾向測(cè)驗(yàn)常用的效標(biāo),其中也包括中間效標(biāo)和最后效標(biāo)的問(wèn)題;○4精神病診斷;○5等級(jí)評(píng)定:是觀察者根據(jù)測(cè)驗(yàn)欲測(cè)量的心理特質(zhì)在被試身上的表現(xiàn)而作出的一種個(gè)人判斷;○6效標(biāo)團(tuán)體的比較:即找出兩個(gè)在效標(biāo)表現(xiàn)上有差別的團(tuán)體,比較他們?cè)跍y(cè)驗(yàn)分?jǐn)?shù)上的差別;○7先前有效的測(cè)驗(yàn):一個(gè)新測(cè)驗(yàn)與先前有效的測(cè)驗(yàn)的相關(guān)也經(jīng)常作為效度檢驗(yàn)的證據(jù)。5、效標(biāo)效度的表示方法(1)相關(guān)法:效度系數(shù)是最常用的效度指標(biāo),尤其是效標(biāo)效度。它是以皮爾遜積差相關(guān)系數(shù)來(lái)表示的,主要反映測(cè)驗(yàn)分?jǐn)?shù)與效標(biāo)測(cè)量的相關(guān)。當(dāng)測(cè)驗(yàn)成績(jī)是連續(xù)變量,而效標(biāo)資料是二分變量時(shí),計(jì)算效度系數(shù)可用點(diǎn)二列相關(guān)公式或二列相關(guān)公式;當(dāng)測(cè)驗(yàn)分?jǐn)?shù)為連續(xù)變量,效標(biāo)資料為等級(jí)評(píng)定時(shí),可用賈斯朋多系列相關(guān)公式計(jì)算。(2)區(qū)分法:是檢驗(yàn)測(cè)驗(yàn)分?jǐn)?shù)能否有效地區(qū)分由效標(biāo)所定義的團(tuán)體的一種方法。算出t值后,便可知道分?jǐn)?shù)的差異是否顯著。若差異顯著,說(shuō)明該測(cè)驗(yàn)?zāi)軌蛴行У貐^(qū)分由效標(biāo)定義的團(tuán)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 乳制品公司職工食堂租賃條款
- 商業(yè)綜合體造價(jià)員招聘合同
- 林業(yè)科技HSE管理協(xié)議
- 服裝租賃解除協(xié)議書(shū)
- 文化中心靜壓樁施工承包合同
- 環(huán)保項(xiàng)目土地租賃合同
- 航空特種車(chē)輛機(jī)坪作業(yè)協(xié)調(diào)
- 航空航天技術(shù)合作簽約管理辦法
- 2024年房地產(chǎn)銷(xiāo)售擔(dān)保合同范本及開(kāi)發(fā)商責(zé)任約定書(shū)3篇
- 2025版空調(diào)銷(xiāo)售與智能安裝升級(jí)合同3篇
- 奔馳新車(chē)全款合同范例
- 2023年湖南生物機(jī)電職業(yè)技術(shù)學(xué)院招聘筆試真題
- 2023年開(kāi)封糧食產(chǎn)業(yè)集團(tuán)有限公司招聘筆試真題
- 河南省洛陽(yáng)2024-2025高二生物上學(xué)期期末考試試題
- 2024年全國(guó)“紀(jì)檢監(jiān)察”業(yè)務(wù)相關(guān)知識(shí)考試題庫(kù)(附含答案)
- 2024-2030年中國(guó)兒童內(nèi)衣行業(yè)運(yùn)營(yíng)狀況及投資前景預(yù)測(cè)報(bào)告
- 【MOOC】電子測(cè)量技術(shù)-沈陽(yáng)工業(yè)大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 玻璃制造中的安全與職業(yè)健康考核試卷
- 《有效溝通技巧》課件
- 2024年度醫(yī)療設(shè)備采購(gòu)與融資租賃合同
- 打印和復(fù)印服務(wù)協(xié)議
評(píng)論
0/150
提交評(píng)論