心理測量學-第三章-信度_第1頁
心理測量學-第三章-信度_第2頁
心理測量學-第三章-信度_第3頁
心理測量學-第三章-信度_第4頁
心理測量學-第三章-信度_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章信度心理測驗就是對某些心理特質的個別差異進行測量的工具,對心理特質的測量與對物理屬性,如物體長度和重量等的測量是一樣的。不同的是心理測量所測量的是抽象的心理特質,工具是心理測驗,而物理測量的對象那么是物體的重量和長度等特性,工具是尺子和天平。心理測量與物理測量的另一個共同點是二者都難以防止誤差的影響。在對物體的長度進行測量時,物體的熱脹冷縮,測量者讀取刻度的準確性等因素都會使測量出的長度與物體的實際長度不符,在不同時間、地點的測量值會有出入。就是說,在不同情景下測量結果是不穩(wěn)定的,與測量情景和測量條件有關的誤差稱隨機誤差〔randomerror〕。由于這一誤差是由測量過程造成的,因此也稱測量誤差〔measurementerror〕。另一方面,使用一把尺子對物體的長度進行測量時,這把尺子本身的質量也可能造成誤差。如果一把尺子本身就是有問題的,測量出的物體的長度自然就不準確。這類誤差與測量情景引進的誤差不同,只要在測量時使用這把尺子,誤差就會恒定地存在,無法消除。這類由測量工具本身造成的誤差稱為系統(tǒng)誤差〔systemerror〕。對心理的測量與對物理的測量一樣,也同樣存在這兩類誤差。與這兩類誤差相對應,心理測驗中引入了信度和效度的概念。信度研究涉及了測驗分數(shù)的可靠性和穩(wěn)定性,也即如何控制和減少隨機誤差。效度研究那么涉及了測量的系統(tǒng)誤差,也即如何提高測量工具本身的準確性。經典測驗理論的信度觀教育與心理測驗的目的是將個體的心理特質數(shù)量化,從而更精確地研究心理的個別差異。在廿世紀初心理測量實踐的推動下,測驗理論產生了。經過幾十年的開展,到廿世紀五十年代初,教育與心理測驗理論對測驗的構建、誤差的控制、測驗結果的統(tǒng)計分析及解釋等問題已形成一個完整的理論體系。為與以后產生的工程反響理論和概化理論相區(qū)別,人們習慣上將這一理論體系被稱為經典測驗理論〔ClassicalTestTheory,簡稱CTT〕。信度〔reliability〕也稱可靠性,測驗分數(shù)的信度是指測驗結果的一致性和穩(wěn)定性程度。即測驗分數(shù)不隨時間、地點等因素的變化而變化。信度與效度一樣,是衡量測驗整體質量的重要指標。要搞清信度的概念,必須了解經典測驗理論中有關真分數(shù)、測驗誤差等的一系列假設。一、真分數(shù)與測量誤差測驗的結果是以分數(shù)表示的,但是一個人在同一測驗上的分數(shù)并不是穩(wěn)定的,測驗環(huán)境的熟悉與陌生、安靜與嘈雜、主試的和藹與嚴厲、以及被試是過度焦慮還是缺乏動機,以及機體和情緒狀態(tài)等因素都會影響測驗分數(shù),此外,被試的粗心、抄襲等因素也會使測驗出現(xiàn)虛假的高分和低分。以上所說的影響測驗分數(shù)的因素被稱為測驗誤差,誤差的存在使得一個被試的測驗實得分數(shù)偏離他應得的真實分數(shù)。心理測量學家的任務之一就是降低測驗誤差,使測驗分數(shù)接近被試的真實分數(shù)。對一個測驗而言,如果被試的實得分數(shù)反映了他們的真實分數(shù),我們就說這個測驗結果可靠、客觀,這次測驗的信度就高。因此,測驗信度也可理解為被試的真實分數(shù)與其實得分數(shù)的差距。前面說的真實分數(shù),心理和教育測量學上稱真分數(shù)〔truescore〕,真分數(shù)指無數(shù)次測量的平均值。即一個被試在許多〔理論上指無限多的〕平行測驗上得分的平均值或具備某一個能力或其他心理特質水平的許多被試在同一測驗上得分的平均值。知道被試的真分數(shù)后,我們就可以用所有被試真分數(shù)與測驗分數(shù)的比值的平均數(shù)來表示測驗的信度。然而事實上,真分數(shù)是無法求得的,它只是一個理想概念,我們不能對同一被試反復屢次測量,因為屢次測量后被試會由于練習或疲勞效應而出現(xiàn)額外的誤差;同樣,找到能力水平完全相同的被試也只是理論上的可能。我們無法知道一個被試的真分數(shù),也就無法知道實得分數(shù)與真分數(shù)的偏離程度,因此就不能計算測驗的信度。為解決這一問題,心理測驗理論對實得分數(shù)、真分數(shù)、測驗誤差做出了理論上的假定,推導出了信度的估計方法,由此構建起了經典測驗理論的大廈。二、經典測繪理論的根本理論假設〔一〕實得分數(shù)、真分數(shù)及測驗誤差的關系經典測驗理論又稱真分數(shù)理論,它對實得分數(shù)、真分數(shù)及測驗誤差的關系進行了一系列的理論假設。CTT將真分數(shù)定義為被試在無數(shù)個平行形式的測驗上得分的平均值〔或期望值〕。平行形式的測驗可以是測驗的多個等值復本,也可以是一個測驗在不同條件下屢次施測。經典測驗理論對實得分數(shù)、真分數(shù)和測驗誤差有如下假定:1.實得分數(shù)與真分數(shù)存在線性關系。這種線性關系可以用一個簡單的公式表達出來,即X=T+E〔3-1〕式中X表示實得分數(shù)或觀測分數(shù),即某被試在一個測驗形式上的得分;T表示真分數(shù);E表示測驗誤差,即在測驗某一具體形式上產生的隨機誤差。公式中的T、E是無法得到的,因此上式僅僅是一個表示真分數(shù)與實得分數(shù)間關系的數(shù)學模型。2.測驗誤差的期望為零〔或誤差的平均數(shù)為0〕。即E〔E〕=0〔3-2〕上式可以是對一個被試而言的,也可以是對一組被試而言的,對一組被試,其測驗誤差的和為0,平均數(shù)也為0。這一性質是非常實用的。由〔3-1〕和〔3-2〕可以推論出〔3-3〕即一組被試真分數(shù)的與實得分數(shù)的平均數(shù)相等。3.誤差與真分數(shù)獨立。E是測驗中產生的隨機誤差,只與偶然因素有關,而與真分數(shù)T的大小無關,也就是說,測驗誤差并不隨被試能力或心理特質水平的變化而出現(xiàn)有規(guī)律的變化,即真分數(shù)與誤差分數(shù)的相關系數(shù)為0。用rTE表示被試真分數(shù)與誤差分數(shù)的相關系數(shù),那么有:rTE=0 〔3-4〕上式也可表示為真分數(shù)與誤差的協(xié)方差為0,即Cov〔T,E〕=0。4.實得分數(shù)方差等于真分數(shù)方差與隨機誤差方差之和。假設以S2X表示實得分數(shù)方差,以S2T表示真分數(shù)的方差,以S2E表示誤差方差,那么有〔3-5〕式〔3-5〕是由〔3-1〕、〔3-2〕、〔3-3〕、〔3-4〕式推導出的。由〔3-4〕式知rTE=0,故協(xié)方差Cov〔T,E〕=0。假設記t=T-T,e=E-E那么有∑〔t〕〔e〕=0〔參見有關的統(tǒng)計學課本〕又∵E=0∴E=e∴∑tE=0所以〔3-6〕〔二〕平行測驗的假定與測驗信度由于實得分數(shù)的方差可分解為真分數(shù)的方差和隨機誤差方差之和,因此從可操作的角度上,信度可定義為一組被試的真分數(shù)方差與其實得分數(shù)方差的比。也即真分數(shù)的變異在實得分數(shù)的變異中所占的比重?;驅嵉梅謹?shù)的變異在多大程度上是由真分數(shù)的變異引起的。這一定義是不難理解的,因為當真分數(shù)的變異在實得分數(shù)中的變異大時,就說明真分數(shù)對實得分數(shù)的影響大,相應誤差的影響就低,也就是說,真分數(shù)方差對實得分數(shù)方差的奉獻大,當實得分數(shù)變異可以全部由真分數(shù)的變異解釋時,測驗誤差就是0,這時測驗的信度為1。假設用表示測驗的信度,那么有〔3-7〕或〔3-8〕但是,在實踐中我們是無法知道被試真分數(shù)的方差,上式只是給出了信度的定義,不能用來計算測驗信度。因此經典測驗理論又做出了平行測驗的假定。經典測驗理論假定嚴格意義上的平行測驗是存在的。平行測驗指兩個測驗內容相似,測驗長度、平均分、難度、標準差均相同的測量同一特質的兩個測驗形式。對參加兩個平行測驗的每一被試者,其真分數(shù)相同〔T1=T2〕,誤差分的條件方差相同。且Cov〔E1,E2〕=0〔3-9〕Cov〔E1,T2〕=0〔3-10〕Cov〔E2,T1〕=0〔3-11〕有了這些假設,我們就可以討論兩個平行測驗間實得分數(shù)〔X1和X2〕的相關系數(shù)與測驗信度的關系。用X1i、X2i,T1i、T2i,E1i、E2i分別表示被試i在平行測驗1和2上的實得分數(shù)、真分數(shù)和誤差分數(shù),根據(jù)平行測驗的定義有:且所以〔3—12〕〔3-13〕式證明了一個至關重要的結論,即一個測驗兩個平行形式之間的相關系數(shù)就是該測驗的信度,實踐中我們可以通過構建平行測驗來計算測驗的信度。至此,心理測驗學完成了其對測驗信度的理論假設和推導,構建了一個較完整的理論體系,第二節(jié)信度系數(shù)的計算方法經典測驗理論證明了一個至關重要的結論,即一個測驗的兩種平行形式之間的相關系數(shù)就是該測驗的信度。這一結論為測驗信度的實際計算提供了理論依據(jù)。從這一結論出發(fā)人們找到了平行測驗的各種替代形式,相應地也推導出了各種計算信度系數(shù)的替代性方法。這些替代性方法中常用的有重測法、復本法、分半法和計算內部一致性系數(shù)法等。穩(wěn)定性系數(shù)〔coefficientofstability〕穩(wěn)定性系數(shù)的計算方法是,用同一量表在不同時間內對同一組被試先后施測兩次,計算兩次測驗得分的積差相關系數(shù),即為穩(wěn)定性系數(shù),表示的是測驗結果的穩(wěn)定性。這種方法又稱重測法,所得的信度系數(shù)又稱為重測信度〔test-retestreliability〕。重測法的模式是:適當時間施測————再施測重測時間間隔可以是幾分鐘,也要可以是幾年,但一般不超過6個月。計算重測信度的原理是對平行測驗的假定,即認為在不同時間施測的同一測驗是平行的,其真分數(shù)相同,實得分數(shù)和誤差的方差也相同。但這一假定從嚴格意義上講是難以成立的。因為重測時被試的心理特質會發(fā)生變化,導致真分數(shù)變異,練習和疲勞效應會使重測時的測驗結果出現(xiàn)變異。在測驗手冊上報告的重測信度,一般要注明被試樣本的性質、大小,及間隔多長時間所測得的信度系數(shù),以便使用者了解樣本及時間因素對測驗穩(wěn)定性的影響。計算重測信度時應注意兩方面的問題:1.所欲測量的心理特質是否穩(wěn)定。所測的如果是人格、智力、興趣等心理特質,那么可以使用重測法,而知識、情緒等不穩(wěn)定的心理特質使用重測法時必須慎重。2.重測結果要盡量減少練習或遺忘因素的影響。智力測驗的時間間隔不能太短,成就測驗那么不能間隔太長,既不能讓被試記住上一次的測驗內容,又不能使其特質發(fā)生變化,或對所學知識產生遺忘。因此要有適當?shù)臅r間間隔。如使用年齡小的被試樣本時,測驗間隔就要小些,年齡大的被試那么可以長些。等值性系數(shù)復本即編制測驗時形成的兩個平行測驗。兩個復本施測于同一被試樣本所得測驗分數(shù)的積差相關系數(shù),即為等值性系數(shù)〔coefficientofequivalence〕,或稱復本信度〔alternateformreliability〕。復本法的模式是:最短時間復本A————復本B一般的標準化測驗都有復本,原那么上講,所有的心理測驗都可以使用復本法計算信度,適用范圍較廣泛,一般而言,成就測驗、特殊能力測驗較容易制作復本,這是因為從所有測題中選擇出等值的測題樣本并不太困難,但對一些不易測量的特質,如人格、動機等,那么不易找到等值的測題,因而不容易制作復本。但等值性系數(shù)也有缺點:如被試易出現(xiàn)疲勞、失去積極性等反響,還會出現(xiàn)遷移。這稱為順序效應,為抵消順序效應,可隨機分配一半被試先做復本A后做復本B,另一半先做B再做A,以平衡順序效應。三、等值穩(wěn)定性系數(shù)〔coefficientofstabilityandequivalence〕等值性系數(shù)易出現(xiàn)練習和疲勞效應,穩(wěn)定性系數(shù)的局限是受所測心理特性的穩(wěn)定程度的影響,為克服這個缺點,我們可以使用一個測驗等值的兩個復本,間隔適當時間施測于同一組被試。這一方法所得相關系數(shù)稱為等值穩(wěn)定系數(shù)。其模式是:適當時間復本A————復本B同復本法和重測法相比,等值穩(wěn)定系數(shù)有以下特點:1、因兩次測試有適當?shù)臅r間間隔,減少了復本法中的練習、疲勞效應。2、如果時間間隔適當,可用于計算穩(wěn)定性不高的心理特質的測驗的信度,克服了穩(wěn)定性系數(shù)的局限。比方對知識的測量,如果被試對復本A的記憶對復本B的影響小,時間間隔就可小些,防止了被試對知識的過多遺忘。等值穩(wěn)定性信度系數(shù)的應用也較廣。但應注意,等值穩(wěn)定性信度系數(shù)的取值一般比重測信度和復本信度低,因為計算兩復本間的相關時,時間因素引起的所欲測量的特質的變化及試題取樣的不同都會影響兩次測驗分數(shù)的一致性。因此,等值穩(wěn)定性系數(shù)是對測驗信度最嚴格的考察,得到的是信度系數(shù)的下限。四、分半信度〔split-halfreliability〕前面講述的三種計算信度的方法的共同點是需要兩次測量,因而不可防止地出現(xiàn)一些問題,如時間因素對兩次測驗分數(shù)一致性的影響,被試容易出現(xiàn)練習和疲勞效應,及失去興趣等,且在組織被試時也會有很多不便。為此可通過計算分半信度來克服以上問題。分半信度就是將測驗題目分成等值的兩半,分別求出兩半題目的總分,再計算兩局部總分的相關系數(shù)。分半法實際上是一種特殊的復本法。分半的方法很多,一般是將奇數(shù)題和偶數(shù)題各分為一半,而非前后分半,目的是防止順序效應。分半后再計算一組被試兩半題目各自得分和的相關系數(shù),使用分半信度要注意兩點問題:一是測驗題目所測的是同一種心理特質。二是兩半題目是等值的,即平行的。分半以后,我們實際上計算的是測驗的一半題目的信度,而非整個測驗的信度,也就是說,我們把一個完整的測驗分成了兩個等值的復本,所計算的只是其中一個復本的信度。這就造成了對整個測驗的信度的低估,因為信度會隨著測驗長度的增加而提高。要得到整個測驗信度的估計,必須對分半相關系數(shù)進行校正,其校正公式為斯皮爾曼—布朗公式:〔3-13〕其中rxx為分半信度,rx1x2表示兩半題目各自得分和之相關,n為原測驗相當于變化后測驗長度的倍數(shù),計算分半信度時n=2。斯—布公式是一個經驗公式,它要求前后兩半題目有相同的變異〔方差〕,方差不同時,那么會高估信度系數(shù)。為克服這一限制,心理學家又創(chuàng)造了其他計算分半信度的公式。常用的有盧龍〔Rulon,1939〕公式和弗朗那根〔Flanagan,1941〕公式。盧龍公式可表示為:rxx=1-〔3-14〕S2d是兩半題目總分差的方差,相當于信度公式中誤差的方差。測驗奇偶兩半題目的總分之差的方差越小,說明測驗分數(shù)受偶然因素的影響越小,信度就高。弗朗那根公式可表示為:rxx=2〔1-〕〔3-15〕式中S2x1和S2x2為兩半題目得分和的方差。應該注意的是,盧龍公式和弗朗那概公式的計算結果是一致的。五、同質性信度同質性指測驗的所有測題測量的是同一種心理特質,表現(xiàn)為各題得分之間有較高的相關,相關越高那么同質性越強。人的心理特質,如人格、智力等大都是多維度的,因此整個測驗就不可能是同質的,如果按維度的不同將測驗分成幾個分測驗構成的分測驗,那么每個分測驗就都是同質的。分半信度是一種同質性信度,計算的奇偶兩半題目得分的一致性,是以測驗題目同質為前提的。但是,奇偶分半法并非唯一的一種分半法,而應該有種,不同的分半法計算出的分半信度也不一致,難以保證哪一個是測驗的真正信度。而如果我們想計算各種分半法所得信度的平均值時,又顯得過于繁瑣。如一個含有20個題目的測驗,就要計算=92378個信度系數(shù)。因此人們提出了其他更有效的方法。1.庫德-理查森公式法庫德-理查森公式是常用的計算兩級計分測驗同質性信度的公式。其中最有代表性的是庫德-理查森的20號公式〔KR20〕和21號公式〔KR21〕。它們被認為計算的是所有可能的分半信度的平均數(shù)。KR20的計算公式為:〔3-16〕式中n為題數(shù),S2x為被試總分的方差,pi為通過i題〔得1分〕的被試占總人數(shù)的比例,qi=1-pi,即未通過的比例。表示測驗題目的通過比例和未通過比例的積的和。KR20公式中的Pi表示答對該題的比例,可視為該題的難度,當所有題目的難度相近時,可使用更為簡便的21號公式:〔3-17〕2.克龍巴赫的α系數(shù)庫德-理查森公式適用于兩級記分的測驗,而對多級記分的測驗,那么使用克龍巴赫的α系數(shù),其公式為: 〔3-18〕其中n表示題目數(shù)。S2i為每一題目的方差,S2x為總分方差。α系數(shù)也適用于兩級記分的情況,測驗分數(shù)是兩級記分時,用α系數(shù)和庫德--理查森公式所得結果一樣,可見庫德--理查森公式是α系數(shù)的一個特例。克龍巴赫的α系數(shù)因適用性強而被測驗編制者廣為應用,但α系數(shù)在應用上不是沒有問題的。不少研究者發(fā)現(xiàn),α系數(shù)并不能作為測驗同質性的指標,高α系數(shù)不一定說明測驗是單維度的,多維度的測驗計算出的α系數(shù)值有可能高于單維度測驗〔候杰泰,1995,吳瑞屯,1996〕。吳瑞屯〔1996〕的模擬研究說明,增加測驗的工程數(shù)會使測驗的α系數(shù)明顯地提高。例如,當工程數(shù)為20而工程間的相關僅為0.1時,α系數(shù)也能到達0.70以上。如此低的工程間相關很難說明測驗是同質的。因此α系數(shù)高并不表示測驗的信度高。另外α系數(shù)的應用條件也是較嚴格的,在工程方差不同的情況下,α系數(shù)只是信度估計的下限。六、評分者信度〔scorerreliability〕客觀性測驗中,不存在評分者之者評分不一致的情況,因此無需計算評分者信度,而在涉及主觀性題目的測驗中,評分者的不同會造成測驗評分的差異而導致評分誤差,是測驗誤差的來源之一。因此要計算評分者信度。教育測驗中的作文考試就是典型的主觀性測題,高考作文的評分在不同評分者中會有很大差異,即存在評分者信度的問題。而在一些投射性測驗〔如TAT和羅夏測驗〕中,評分者信度是測驗信度的重要評價指標。當評分者為兩人〔或一個人兩次評分〕時,可采用相關系數(shù)的方法,計算在某個題目上兩次評分的相關系數(shù)作為評分者信度系數(shù)。如果是多個評分者或一個人兩次以上的評分,可采用肯德爾和諧系數(shù)。評分者信度高僅僅是測驗信度高的必要條件,而非充分條件。七、各種信度系數(shù)的比擬各種信度系數(shù)及其誤差的來源見表3.1。從表3.1中可看出影響信度系數(shù)的各方面誤差。由于誤差來源的不同,即使同一個測驗用不同方法所計算的信度系數(shù)也會有很大不同,各系數(shù)間也不具有可比性。這種不一致似乎說明沒有一種指標能代表測驗的真正信度,這也正表達了經典測驗理論的局限性。因此在涉及測驗信度的研究中,要分別報告不同方法計算出的信度值。表3.1與信度系數(shù)有關的誤差方差來源信度系數(shù)類型誤差方差來源重測信度時間抽樣復本信度內容抽樣等值穩(wěn)定系數(shù)時間和內容抽樣分半信度內容抽樣庫德-理查森系數(shù)和α系數(shù)內容抽樣和內容異質性評分者信度評分者之間的差異第三節(jié)信度的作用與影響因素一、信度的意義與作用測驗結果信度的信息有兩方面的作用,一是用于評價測驗質量,一是用于解釋測驗分數(shù)。1.評價測驗信度表示真分數(shù)變異在實得分數(shù)變異中所占的比重,信度越高,說明測驗所得分數(shù)越接近被試的真實分數(shù),分數(shù)就可靠。因此要求信度越高越好,理想狀態(tài)下為1.00,但實際上達不到這一標準。測驗的信度會隨著測驗種類、測驗情境的不同而不同。一般能力和成就測驗的信度系數(shù)通常在0.90以上,人格和興趣測驗在之間。測驗的目的不同,對信度的要求也不同。一般認為信度系數(shù)高于0.85時,可對個人進行診斷、鑒別、解釋,也可以進行團體比擬;當信度位于0.70和0.85之間時,只能進行團體比擬,信度<0.70時,不能評價個人,也不能進行團體比擬。但這些不能作為絕對的取舍標準,有些信度不高的測驗卻可能是非常有用的。必須重申,我們討論的信度一般指的是某次測驗結果的信度,利用不同的被試,在不同時間和地點測驗可能會有不同的信度,因此不能根據(jù)一兩次測驗的結果否認一個測驗的價值。2.解釋分數(shù)〔1〕解釋個人分數(shù)實際測量中我們往往希望通過一次測驗結果來了解被試的真分數(shù)。因為有測量誤差存在,所以我們不能把實得分數(shù)當成真分數(shù),而只能根據(jù)已有信息對其進行估計。推論統(tǒng)計告訴我們,對總體參數(shù)進行點估計是不準確的,錯誤的概率非常大。而如果通過區(qū)間估計的方法估計出總體參數(shù)的置信區(qū)間,那么能將預測誤差控制在較低的水平。真分數(shù)是無數(shù)次測量的平均值,所以可看作總體參數(shù),而一次測量的結果就可看作樣本統(tǒng)計量,這樣估計真分數(shù)的問題就變成了估計總體參數(shù)的問題。利用實得分數(shù)估計被試真分數(shù)時,就應采取區(qū)間估計的方法。如果SE為無數(shù)次測量誤差〔E=X-T〕的標準差,即測驗的標準誤的話,那么真分數(shù)95%的置信區(qū)間為〔X±1.96SE〕。但SE如何求出呢?我們知道,在經典測驗理論中SE是隨機誤差,其大小和方差只與偶然因素有關而與被試的能力〔特質〕水平無關,故我們可以把一組被試在同一測驗上的誤差的標準差SE看作使用平行測驗對同一被試無數(shù)次測量的標準誤SE。測驗標準誤可用下式計算:SE=SX1-rXX〔3-19〕SE為測驗標準誤,或測量標準誤,rXX為測驗的信度,SX為測驗分數(shù)的方差??梢钥闯鰷y驗標準誤與SX,即實得分數(shù)標準差成正比,而與測驗信度rXX成反比。知道了一組被試實得分數(shù)和測驗的信度后,我們就可以對每一被試真分數(shù)的分布范圍進行區(qū)間估計。假設某智力測驗信度為0.95,標準差為15,某兒童得分為120分,我們就可以估計其真分數(shù)的范圍。SE=15×1-0.95=3.35那么他的真實智力測驗分數(shù)的95%的置信區(qū)間為〔113.4T126.6〕。即他的智力測驗分數(shù)有95%的可能是在113.4和126.6之間。如果要提高估計的把握度,那么可求出99%的置信區(qū)間。由此可見,知道測驗的信度后,我們就能對被試的真分數(shù)進行估計,信度越高,實得分數(shù)越得代表他的真分數(shù),信度為1時,實得分數(shù)就是真分數(shù)。測驗標準誤在個人分數(shù)的解釋中有重大意義?!?〕比擬測驗分數(shù)的差異有時我們希望比擬一個人或兩個人在不同測驗上的分數(shù)是否有顯著差異,以判斷其真分數(shù)是否有差異,這就要用分數(shù)差異的顯著性檢驗。在知道兩測驗的信度的情況下,我們可以根據(jù)公式對這一問題方便地予以解答。當然這里比擬的分數(shù)不是兩測驗的原始分數(shù),而是轉換到同一量尺上的導出分數(shù),如T分數(shù),Z分數(shù),離差智商等,分數(shù)在同一量尺上才能相互比擬。在統(tǒng)計學上,兩分數(shù)差異的標準誤可表示為:SEd=SEX+SEY〔3-20〕由于兩測驗的分數(shù)是在同一量尺上表示的,所以有相同的標準差,即SX=SY=S。將和代入上式,得:〔3-21〕將標準差和兩測驗信度代入上式,即得分數(shù)差異的標準誤。如果我們要求判斷真分數(shù)是否有差異時要有95%的把握,那么必須在兩測驗分數(shù)之差不低于1.96SEd時才能認為其真分數(shù)有差異,假設把握度為99%,那么差異應不低于2.58SEd。二、影響測驗信度的因素信度上下表達了測量中對隨機誤差即測驗誤差的控制程度。測驗誤差是測驗過程中產生的隨機誤差,其來源有:被試方面:包括被試的測驗動機、注意力、焦慮水平、測驗經驗、身心健康等;主試及測驗評分方面:包括主試的年齡、性別、態(tài)度,及記分、評分的客觀性;測驗情境方面:包括噪音、光線、房間大小、環(huán)境的熟悉程度等;測驗內容方面:包括指導語的清晰度、內容取樣的差異等都會造成隨機誤差。測驗誤差是任何測驗形式都不可防止的,也是測驗理論都力求解決的,具有普遍性。而以下我們討論的幾種影響信度的因素卻主要與經典測驗理論計算信度的方法有關。1.所測樣本團體同質性程度被試樣本的同質性程度即被試樣本團體中實際能力〔或特質水平〕的差異程度。實際水平相差大時,被試為異質團體,實際水平相差小時,被試那么為同質團體。按照經典測驗理論,測驗誤差是與樣本同質性無關的,即不同樣本中誤差的方差可認為不變,但同質樣本中,實得分數(shù)的變異小,而異質樣本中實得分數(shù)的變異那么大,從信度計算公式可知,在異質團體中,真分數(shù)變異在實得分數(shù)中的變異中的比重會增加,誤差的變異所占的比重就小,信度值就較大;而在同質性的被試團體中,信度值就低。增大樣本的異質性的作用是增大測驗分數(shù)的分布范圍,即變異程度,從而到達了降低隨機誤差,提高信度的目的。2.測驗的長度測驗的長度也會影響測驗的信度。由于測驗總分是由各題目得分的累加得到,所以當測驗的題目數(shù)增加時,就可以使發(fā)生在各測題上的誤差相互抵消,被試的測驗總分就會更加接近其真分數(shù);另一方面,測驗題目數(shù)的增加會導致測驗分數(shù)〔總分〕的分布范圍、即變異程度的增加,測驗分數(shù)的變異程度增加了,誤差分數(shù)的方差在實得分數(shù)方差中占的比重就會減小,測驗的信度就會提高。前面已經討論過,增加被試的異質性會增加測驗的信度,原因是增加異質性事實上是擴大了被試的得分范圍。而增加測驗題會同樣起到擴大得分范圍的目的,故此會增加測驗信度。明確了測驗長度與測驗信度的關系,在實際工作中就可以采用延長測驗長度的方法提高信度。測驗信度與測驗長度的關系可用斯皮爾曼--布朗通式來表示〔參見分半信度局部的討論〕。延長測驗長度需注意的一個問題是所增加的題目必須是與原測驗題目同質的。3.測驗題目的難度測驗題目的難度會影響測驗分數(shù)的分布范圍,因此會影響信度。測驗題目都很難時,被試的分數(shù)會集中于低分一端,而題目過易時,那么集中于高分一端,都會使分數(shù)范圍縮小,而當測題難度都接近0.5或平均難度為0.5左右時,測驗分數(shù)就呈現(xiàn)正態(tài)分布,分布范圍廣,信度就高。第四節(jié)概化理論的信度觀概化理論〔GeneralizabilityTheory,簡稱GT〕與工程反響理論一起被稱為現(xiàn)代測驗理論,代表了測驗理論開展的一大趨勢。1963年,克龍巴赫等〔Cronbach,L.J.,Rajaratuam,N.,&Gleser,G.C.,〕在英國統(tǒng)計心理學雜志上發(fā)表了有關概化理論的第一篇論文,1972年,克龍巴赫等又將這一理論系統(tǒng)化,出版《行為測量的可靠性》一書,標志著概化理論的創(chuàng)立。此后不少研究者,如布倫南〔Brennan,R.L.,〕和施沃森〔Shavelson,R.J.,〕等人進一步豐富了這一理論體系??死锟恕睠rick,J.E.,〕和布倫南〔1983〕編制了專門用于概化理論統(tǒng)計分析的計算機程序GENOVA,促進了這一理論的推廣和應用。一、概化理論的根本框架任何測量都是在一組測量條件,或者說情境下進行的,如測驗所使用的題目樣本、測驗場所、評分者等,這些都構成了誤差的來源。但經典測驗理論并沒有區(qū)分出不同的誤差來源,因而不能對誤差的控制提出很好的方法。概化理論那么運用方差分析技術將來自不同測量條件的誤差分解,從而選擇合理的測驗設計方案以減少誤差,提高測量的精度?!惨弧硿y量的目標〔objects〕和測量的面〔facets〕概化理論區(qū)分了測量的目標和測量的面這兩個概念,并在實施測量之前首先確定其測量目標和測量的面是什么。測量的目標一般是指所要測量的心理特質,如被試的閱讀理解能力,寫作能力等,測量面那么是指測量的一組條件,也就是影響測驗過程和測量結果的各種情境。測量時我們可以將測量條件分成幾個維度,如測驗所用的題目樣本,測驗的場所,測驗的時間等就是測量條件的幾個維度,它們都是測量的面,這些面的變化會導致不同的測驗結果。在測量時,我們總希望由測量目標所引起的測驗結果的變異到達最大,而由測量面所引起的變異最小。比方,一個研究者要編制一個測量閱讀理解能力的測驗,他選擇了幾篇不同內容的短文,讓幾名評分員評分。在他的研究中,我們可區(qū)分出兩個測量面,一個是試題面〔items,簡稱i〕,一個評分者面〔raters,簡稱r〕,測量的目標〔person,簡稱p〕那么是被試的閱讀理解能力。一個測量面〔即測量條件的一個維度〕類似于方差分析的一個自變量,方差分析中的自變量可以有不同的水平,相應地,測量面也可以有不同的水平,二者的含義也是根本一致的。例如上例中,研究者可以用8篇短文作為試題,讓5個評分員對10個被試的8篇短文的成績進行評分,8篇短文就是試題面的8個水平,5個評分者就是評分者面的5個水平,它們都是誤差的可能來源。原那么上講,研究者可從無窮多篇短文中選擇假設干篇作為試題,同樣作為評分者的人選也有無窮多個,也即試題面和評分者的水平有無窮多個。研究者所選用的試題和評分者往往都是相應總體的一個樣本。概化理論把每個測量面的水平所對應的總體叫做測量的全域〔universe〕。測量中研究者所考察的所有測量面全域的集合就叫該測量的可觀測全域或允許測量全域〔universeofadmissiableobservation〕,可觀測全域或允許測量全域中的每一個水平都是可以測量的。如上例中所有試題的集合就是試題全域,所有評分者的集合就是評分者全域,而試題全域和評分者全域就構成測量的可觀測全域,這樣,研究中的可觀測全域就包括了一個評分者面和一個試題面。測量的面還有隨機〔random〕和固定〔fixed〕之分。固定面指的是面的各個水平都是固定的,在以后的測量中不再變化,這與方差分析中因素水平的固定是一個道理。當測量面固定時,一次測驗的結果就可以直接推廣到另一次測驗中去。例如上例中,如果研究者在以后測量中都使用同樣的8篇短文,就不必要推測使用其他試題時測驗結果會有什么不同。在這一情況下,使用概化理論是沒有意義的。隨機面是指在每一次測量中面的水平都是隨機選取的,因此每一次測量的條件都不會相同。如果一個面是隨機的,就意味著要將樣本測量條件下的結果推廣到測量全域上去。在上例中,假設每次測驗都使用不同的題目樣本,那么試題面就是隨機的。一旦一個面固定了,它就成為測量目標的一局部,固定面不再屬于誤差的來源。隨著固定面的增多,測量誤差來源就會變少,測量的信度就提高。如果測量的所有面都固定了,測量的誤差雖然到達了最低限度,但測驗也失去了任何可推廣的佘地。這種測驗是完全標準化的,測驗結果只能在標準化條件下進行解釋和應用,離開了這一標準化的條件測驗結果也就失去了意義。因此任何測驗都允許至少一個面是隨機的。隨機的面越多,概化理論的優(yōu)越性就越能表達出來。〔二〕測量的設計概化理論的研究中首先要按照一定的測量設計〔類似于實驗設計〕方案安排測驗,并對搜集到資料的進行方差分析,分解出各種誤差成份。測量的設計有交叉的〔crossed〕、嵌套的〔nested〕和混合的三種。交叉設計是指一個測量面所有水平與另一個測量面或測量目標的每一個水平都發(fā)生了關系,比方在一次測量中所有的評分員〔r〕都對試題〔i〕進行了評定,那么評分員與試題就是交叉的,交叉設計可記為p×i。假設有Ni個測題和Nr個評分者,這次測量中就有Ni×Nr個測量條件的組合。上例中如果所有被試做了所有的試題,而所有的評分員又評定了所有被試的全部試題,那么被試、試題、評分員全部都是交叉的,記為p×i×r。嵌套設計那么是指一個測量面〔或測量目標〕只與另一個面〔或測量目標〕的局部水平發(fā)生了關系。假設在一次測驗中,m個被試每人都做了n個不同的測題〔總題數(shù)為n×m個,每一測題只測試了一個被試〕,那么稱被試與測題是嵌套安排的,記為i:p,即試題i嵌套于被試p中。一個設計中如果既有交叉關系又有嵌套關系,那么這一設計就是混合設計。比方上例中如果10名被試都做了全部的試題,但每個評分員只對兩個被試的全部試題評分,那么被試是嵌套于評分員之中的,而被試與試題又是交叉的,這一設計就是交叉設計,記為i×〔p:r〕?!踩矰研究與G研究概化理論一般分兩步進行,即先進行G研究,再進行D研究。1.G研究〔generalizabilitystudy〕概化理論的研究中,首先要估計不同來源的誤差的大小,在此根底上確定測量的信度,或者是通過改變測量設計方案以盡可能地減少誤差,進而到達提高信度的目的。在概化理論中,除測量目標外的來自各測量面的影響都稱為誤差,G研究就是通過G研究的設計〔Gstudydesign〕,借助方差分析技術將誤差分解,估計出不同來源的方差成分〔variancecomponent〕的大小。上例中,如果G研究的設計采用的是p×i×r的交叉設計,那么測驗結果中就得到10×8×4=320個數(shù)據(jù)。方差分析時有七個方面的變異源需要估計,這七個方差成份分別是:被試〔p〕、試題〔i〕、評分者〔r〕三個主效應,3個兩向交互作用pi、pr、ir,和一個三向交互作用pir。借助普通的方差分析方法,通過計算與各方差成份有關的均方,就可得到這些方差成份的無偏估計值〔詳細過程請參見本文后面的內容〕。假設本例中各變異來源的方差估計值分別為:〔p〕=0.30,〔i〕=0.25,〔r〕=0.10,〔pi〕=0.37,〔pr〕=0.50,〔ir〕=0.25,〔pir〕=1.00。應該注意,表示使用樣本測量的數(shù)據(jù)估計真實變異σ時所得到的估計值,如,〔p〕就是σ〔p〕的估計值,σ〔p〕可解釋為:某被試做完可觀測全域中所有可能的測題〔Ni個而非ni個〕后再由所有可能的評分者〔Nr個而非nr個〕評分,得到Nr×Ni個分數(shù),相加得總分后再除以Nr×Ni,得一均分,p個被試的均分的方差就表示為σ〔μp〕或σ〔p〕。其他變異成份的含義可作類似的解釋。2.D研究〔Dstudy〕G研究的目的是獲得可觀測全域中變異成份的估計,以后的工作就屬于D研究,即決策〔decision〕研究了。G研究的質量決定了D研究的可靠性。當G研究中每一測量面都有足夠多的測量水平作為樣本被考慮時〔如在上例中當評分者面中有大量評分者作為樣本時〕,對變異成份的估計就越穩(wěn)定。這種情況下,D研究的結論就更可靠。在多數(shù)的情況下D研究是利用G研究中的數(shù)據(jù)進行的,有時也重新搜集數(shù)據(jù)。D研究通常包括以下內容:首先是確定拓廣全域〔universeofgenerization〕。拓廣全域是指研究者要將G研究中的結論在哪些面上推廣,及推廣到這些面的哪些水平上去,即推廣的范圍。拓廣全域可能與G研究中的可觀測全域的范圍相同,也可能是可觀測全域的一個子體,但不能超出這一范圍。比方上例中,G研究中的所用的評分者都是從高中語文教師中隨機選取的,那么評分者全域就是高中語文老師,拓廣全域就不能超出高中語文教師這一范圍,面只能是這一范圍中的全部或局部水平〔如高一、高二或高三的語文教師等〕。其次是確定D研究面的水平的取樣的大小。D研究時所選取的測量面的水平數(shù)可以與G研究相同,也可以不同。為與G研究相區(qū)分,D研究中測量面的水平的取樣所用的符號為n'i和n'r。最后是確定D研究的設計,D研究的設計也可采用G研究中的三種設計。為與G研究區(qū)分開,D研究設計中測量面的水平數(shù)大寫字母表示,如p×I×R。更重要的是,D研究中的大寫字母表示對拓廣全域的一組測量水平取平均值。G研究D和研究中的測量目標是相同的,并不取平均值,所以D研究中測量目標的數(shù)量仍然用小寫字母p表示。D研究中另一個重要的概念是全域分〔universescore〕。全域分指拓廣全域上的測量的平均值,是一個測量目標在拓廣全域的所有測量條件下的平均分數(shù),是測量目標的“理想”分數(shù),類似于CTT中的真分數(shù)。所有被試的全域分的方差稱為全域分方差,類似于CTT中的真分數(shù)方差。但在概化理論中,拓廣全域不同,就有不同的全域分,相應地也有不同的全域分方差,而CTT中只有一個真分數(shù)和真分數(shù)方差。假設在上例中,研究者在D研究中使用了p×I×R的交叉設計,選用了6道測題和2個評分員,即n'i=6,n'r=2。于是就可以根據(jù)G研究中的方差成份的估計值計算出D研究中的方差成份。由于D研究中要對一個面的一組測量水平求平均,所以計算D研究的方差成份時,只需將G研究中含有i的方差成份除以6,將G研究中含有r的方差成份除以2即可,而測量目標的方差那么不變。如〔I〕=〔i〕。n'i=0.25。6=0.04。具體計算結果如下:〔p〕=0.30,〔I〕=0.04,〔R〕=0.05,〔pI〕=0.06,〔pR〕=0.25,〔IR〕=0.02,〔pIR〕=0.08。從以上的數(shù)據(jù)可以得出結論,即D研究中選用的樣本數(shù)〔即面的水平數(shù)〕越多,各誤差項的值就越小,測量的信度就越高,因此D研究中可以通過增加測量面的水平數(shù)來增加測量的可靠性。由于n'i和n'r的選取可以是任意的,在不同的研究中可以不同,所以概化理論采用的是隨機平行測驗形式,各測量間的平均分、方差不一定相等。這也是GT與CTT的區(qū)別之一?!踩承哦裙烙嬇c經典測驗理論中的信度指標一樣,概化理論也給出表示測驗結果可靠性的指標。常用的有概化系數(shù)與依存性系數(shù)。1.概化系數(shù)〔generalizabilitycoefficients〕對常模參照性測驗,表示信度上下的指標為概化系數(shù),在常模參照性測驗中,被試能力水平的估計值依賴于所參照團體的平均水平,因此測驗誤差也是相對的。在GT中,相對誤差是用實得分數(shù)的離均差估計全域分的離均差時的誤差。相對誤差方差的大小依賴于實得分數(shù)的離均差與全域分的離均差之間差異的大小,其大小等于所有測量面與測量目標的交互作用〔即所有含有p項的方差成份〕的累加。對單面的研究設計,相對誤差方差σ〔δ〕=〔pI〕=〔pi〕/n'i,對上例中的數(shù)據(jù),相對誤差方差σ〔δ〕=〔pI〕+〔pR〕+〔pIR〕=0.06+0.25+0.08=0.39。概化系數(shù)可定義為全域分變異與期望的觀測分變異的比率,即〔3-22〕在實際計算中,由于各變異成份都使用估計值,所以得到的概化系數(shù)也是估計值,即〔3-23〕上例中,估計的概化系數(shù)為0.30/〔0.30+0.39〕=0.43。概化系數(shù)也可理解為全域分與觀測分之間的相關系數(shù)的平方。由于期望觀測分數(shù)方差依賴于D研究的設計和拓廣全域,所以當D研究的設計不同時,或D研究的設計相同而拓廣全域不同時,概化系數(shù)也會不同。因此研究者可根據(jù)概化系數(shù)的大小選擇最正確的D研究設計方案。同時,為提高概化系數(shù),研究者還可采用固定某一測量面或增加某一測量面的水平數(shù)等策略。2.依存性系數(shù)〔indexofdependabilitycoefficients〕與常模參照性測驗不同,標準參照性測驗中表示信度上下的指標稱為依存性系數(shù)。對標準參照性測驗而言,被試的測驗結果不是與團體的平均水平相比來判斷其優(yōu)劣,測驗結果表達的是其絕對水平,因此所考慮的測驗誤差也是絕對誤差。絕對誤差的方差取決于實得分數(shù)與全載分的差異的大小。在GT中,絕對誤差方差等于除測量目標方差之外的所有方差成份的累加。與概化系數(shù)相似,依存性系數(shù)的計算公式為〔3-24〕其大小表示對被試領域分數(shù)估計的可靠性。對上例而言,絕對誤差方差σ〔Δ〕=〔i〕+〔r〕+〔pi〕+〔ir〕+〔pr〕+〔pir〕=0.50。經典測驗理論中只有一種測驗誤差,沒有將其進一步分解,因此不能區(qū)分絕對誤差和相對誤差,這使其在標準參照性測驗的分析中面臨嚴重困難。而概化理論那么借助于方差分析的技術區(qū)分了這兩種誤差,為標準參照性測驗的信度估計提供了理論依據(jù)。二、概化理論的模型與計算公式與經典測驗理論一樣,概化理論采用的數(shù)學模型也是隨機線性模型。這一模型假定被試與被試之間、試題與試題之間及二者的交互作用之間都是相互獨立的。在概化理論中,由于研究者可選擇交叉設計、嵌套設計或混合設計,不同的研究設計適用的數(shù)學模型和計算公式是不同的,下面我們將介紹單面交叉設計和單面嵌套設計情境下的理論模型和計算公式。更復雜的多面交叉設計、多面嵌套設計和多面混合設計都是這兩種根本測量設計的擴展。〔一〕單面交叉設計單面交叉設計是最簡單的測量設計,最常見的情況是p個被試參加了共i個題目的測驗,就構成了p×i的單面交叉設計。假設一研究者要編制一個推理能力測驗,在編制測驗之前他希望搞清楚不同的測驗題目對被試能力估計的影響,他就可以選用單面交叉設計。單面交叉設計應滿足以下三個條件:〔1〕可觀測域全中僅包括一個試題面;〔2〕被試和試題是交叉的,即所有被試都做了全部測題;〔3〕被試總體和試題面的水平都是無限的。1.根本模型我們以Xpi表示第p個被試在第i題上的觀測分數(shù),那么這個人在試題全域中的期望得分為:μp=Expi〔3-25〕i類似地,題目i在被試總體中的期望得分為:μi=Expi〔3-26〕p而總體中所有被試在試題全域上的平均得分為:μpi=EExpi〔3-27〕ip這些平均數(shù)〔μp、μi、μpi〕本身是不可觀測的,我們只能得到它們的樣本平均數(shù)。盡管如此,任何被試p在任何題目i上的觀測分數(shù)都可以用這些平均數(shù)使用線性模型來表達,即Xpi=μ〔假想的總均值〕+μp-μ〔被試效應μp~〕+μi-μ〔題目效應μi~〕+xpi-μp-μi+μ〔剩余效應μpi~〕〔3-28〕或Xpi=μ+μp~+μi~+μpi~〔3-29〕上式說明,單面設計中的觀測分數(shù)可分解為被試效應、題目效應和剩余效應三局部〔假想總均值μ在所有觀測分數(shù)中都是恒定不變的〕。必須注意的是,剩余效應μpi~常稱交互作用效應,但由于不存在重復測量,對一個被試在單個工程上的反響而言,交互作用效應與剩余效應是無法區(qū)分開的,但為表達的方便,我們將其簡稱為交互作用效應。以上各種效應都是隨機的,因此各效應的期望值應為0,也即:Eμp~=Eμi~=Eμpi~=Eμpi~=0〔3-30〕PIPI相應地,被試的、試題的和二者交互作用的方差成分分別為:σ2〔p〕=E〔μp-μ〕2=E〔μp~〕2〔3-31〕ppσ2〔i〕=E〔μi-μ〕2=E〔μi~〕2〔3-32〕iiσ2〔pi〕=EE〔μpi-μp-μi+μ〕2=EE〔μpI~〕〔3-33〕pIpi由于是線性的隨機模型,所以被試與被試之間、試題與試題之間及二者的交互作用之間都是相互獨立的。因此,測驗得分的總變異σ2〔Xpi〕等于被試變異分量σ2〔p〕、試題變異分量σ2〔i〕、和試題與被試交互作用分量σ2〔pi〕的累加,即σ2〔Xpi〕=σ2〔p〕+σ2〔i〕+σ2〔pi〕〔3-34〕2.方差成份的估計實際計算中,由于方差成份σ2〔p〕、σ2〔i〕和σ2〔pi〕都涉及了被試或試題全域上的平均分,而這些平均分又是永遠無法得到的期望值,因此只能由樣本平均值來代替,再將觀測分的總變異分解。假設記樣本平均數(shù),,,它們所對應的全域分平均值分別是μp、μi、μ。用樣本平均數(shù)代替全域分平均數(shù),重復〔3-25〕~〔3-34〕式的推導步驟,可將觀測分數(shù)的總變異分解為〔p〕、〔i〕和〔pi〕三局部。對這三個方差成份可通過方差分析技術加以估計。從而得到方差成分σ2〔p〕、σ2〔i〕和σ2〔pi〕的估計值。表3.2中列出了單面交叉設計中計算各方差成份的公式。表3.2單面交叉設計中對G研究和D研究方差成份的估計G研究中方差D研究中方差效應dfSSMS成份的估計值成份的估計值被試〔p〕np-1SS〔p〕SS〔p〕/df〔p〕〔p〕〔p〕試韙〔i〕ni-1SS〔i〕SS〔i〕/df〔i〕〔i〕〔I〕交互作用〔pi〕〔np-1〕〔ni-1〕SS〔pi〕SS〔pi〕/df〔pi〕〔pi〕〔pI〕〔p〕=[MS〔p〕-MS〔pi〕]/ni〔i〕=[MS〔i〕-MS〔pi〕]/np〔pi〕=MS〔pi〕從表中可以看出,方差成分σ2〔p〕、σ2〔i〕和σ2〔pi〕完全可以通過傳統(tǒng)的方差分析方法得到。其過程是先計算出平方和SS〔p〕、SS〔i〕、SS〔pi〕,除以自由度后得相應的均方MS〔p〕、MS〔i〕、MS〔pi〕,再用表中的公式計算各方差成分的估計值〔p〕、〔i〕和〔pi〕。在估計方差成分時,需要用到期望均方EMS。期望均方與各方差成份的關系為:EMS〔p〕=σ2〔pi〕+niσ2〔p〕EMS〔i〕=σ2〔pi〕+npσ2〔i〕EMS〔pi〕=σ2〔pi〕至此就可估計出各方差成分,其中〔p〕=[MS〔p〕-MS〔pi〕]/ni〔i〕=[MS〔i〕-MS〔pi〕]/np〔pi〕=MS〔pi〕應該注意的是,表3.2中使用均方MS代替了期望均方EMS,所以得到的是各變異成份的估計值。在上述方程中,用均方MS代替期望均方EMS、用各方差成份的估計值代替期望值后,重新解這個方程,即可得到各方差成份的估計值。計算出各方差成份的估計值后,就可進一步進行D研究的設計。3.D研究的方差成分對單面交叉設計而言,D研究與G研究涉及了同一個測量面。但D研究中的方差成分卻與G研究不同。G研究中的方差成分涉及的是可觀測全域上被試在單個工程上得分的變異,而在D研究中使用被試在所有工程上的平均分,或多個評分者評定的平均分作為其全域分的估計值,被試所得的分數(shù)〔即在n'i個測驗工程上的平均分〕被視為在拓廣全域上的一個隨機平行測驗的得分。根據(jù)抽樣分布的知識,相應的方差成分應等于G研究中的方差成分除以測量面的水平數(shù)。如果以XpI表示某被試在一個長度為n'i的隨機平行測驗上的觀測分,這一分數(shù)可分解為:XpI=μ+μp~+μI~+μpI~〔3-35〕式中的字母下標i變成了大寫字母I,表示測驗平均分,其余符號均不變。比方在某單面交叉設計中,試題數(shù)為n'i,那么測量目標σ2〔p〕的方差成分不變,試題面,試題與測量目標交互作用的方差成分分別為σ2〔I〕=σ2〔i〕/n'i和σ2〔pI〕=σ2〔pi〕/n'I。4.概化系數(shù)與依存性系數(shù)估計出相對誤差方差與絕對誤差方差之后,就可計算概化系數(shù)與依存性系數(shù)了。對單面交叉設計,概化系數(shù)的計算公式為:Eρ2=σ2〔p〕/[σ2〔p〕+σ〔δ〕]=σ2〔p〕/[σ2〔p〕+σ2〔pI〕]=σ2〔p〕/[σ2〔p〕+σ2〔pi〕/n'i]〔3-36〕單面交叉設計的概化系數(shù)等于克龍巴赫的α系數(shù),對二值記分工程的測驗,它等于用KR-20公式計算出的信度系數(shù)。依存性系數(shù)的計算公式為Φ=σ2〔p〕/[σ2〔p〕+σ〔Δ〕]=σ2〔p〕/[σ2〔p〕+σ2〔I〕+σ2〔pI〕]=σ2〔p〕/[σ2〔p〕+σ2〔i〕/n'i+σ2〔pi〕/n'i]〔3-37〕概化系數(shù)和依存性系數(shù)代表了測驗信度的上下。研究者可以通過重新進行測量的設計,如增加測量面的水平數(shù)等,以提高信度系數(shù)。如果信度指標符合要求,概化理論的研究即告完成?!捕硢蚊媲短自O計1.G研究和D研究都是嵌套設計的模型對i:p的G研究嵌套設計,其線性模型是Xpi=μ+〔μp-μ〕+〔Xpi-μp〕〔3-38〕其中〔μp-μ〕相當于測量目標的主效應μp~,〔Xpi-μp〕相當于嵌套效應μi:p~。于是上式變?yōu)椋兀穑椋溅?μp~+μi:p~〔3-39〕由于不同被試做了不同的測題組合,所以工程效應μi~、被試與工程的交互作用效應μip~、及其他來源的殘差均混雜在嵌套效應μi:p~中。因此對單面嵌套設計的G研究,就只有兩個方差成分需要分解,即σ2〔p〕和σ2〔i:p〕。相應地,嵌套的D研究設計的線性模型是XpI=μ+μp~+μI:p~〔3-40〕D研究中的嵌套效應同樣是σ2〔I:p〕=σ2〔i:p〕/n'i〔3-41〕表3.3中給出了單面嵌套設計中方差成分的分解模型。表3.3單面嵌套設計中對G研究和D研究方差成份的估計G研究中方差D研究中方差效應dfSSMS成份的估計值成份的估計值被試〔p〕np-1SS〔p〕SS〔p〕/df〔p〕〔p〕〔p〕試韙〔i:p〕npni-npSS〔i:p〕SS〔i:p〕/df〔i:p〕〔i:p〕〔I:p〕〔p〕=[MS〔p〕-MS〔i:p〕]/ni〔i:p〕=MS〔i:p〕從表中可以看出,從原始數(shù)據(jù)中我們用公式和可以求出平方和SS〔p〕和SS〔i:p〕,除以各自的自由度后得到相應的均方。方差成分〔p〕、〔i:p〕可由公式〔p〕=[MS〔p〕-MS〔i:p〕]/ni〔i:p〕=MS〔i:p〕計算出來。在嵌套設計中,由于交互作用效應與工程效應都混雜在嵌套效應中,相對誤差的方差σ〔δ〕和絕對誤差方差σ〔Δ〕就難以區(qū)分,因此概化系數(shù)和依存性系數(shù)就用同一個公式計算。2.僅有D研究是嵌套設計的情況如果只有D研究是嵌套設計,那么可以獨立地估計出方差成分工程效應〔i〕和交互作用效應〔pi〕。這兩個方差成分合并后,即得到嵌套效應的方差成分〔i:p〕.即〔i:p〕=〔i〕+〔pi〕〔3-42〕于是絕對誤差和相對誤差的方差σ2〔δpI〕=σ2〔ΔpI〕=[〔i〕+〔pi〕]/n'i〔3-43〕第五節(jié)標準參照性測驗的信度標準參照性測驗的目的不是鑒別出被試的能力差異,因此在標準參照性測驗中分數(shù)的變異一般較小。這是與常模參照性測驗根本不同的。因此標準參照性測驗的信度估計方法也就完全不同,標準參照測驗的作用是估計被試的領域分數(shù),并對被試的掌握狀態(tài)作出區(qū)分。因此標準參照的信度估計主要關心兩種類型的測量誤差:隨機誤差和區(qū)分誤差。前者涉及領域分數(shù)的穩(wěn)定性,類似于常模參照性測驗的信度估計,但是領域分數(shù)的性質和應用不同于常模參照的相對分數(shù),因此還不能完全照搬傳統(tǒng)的信度估計方法;后者影響區(qū)分決策的一致性,即用分界標準對被試進行分類的穩(wěn)定性問題。由于標準參照性測驗的特殊性,目前文獻中雖有很多信度估計方法,但至今尚沒有受到公認的指標。一、決策一致性信度〔classificationconsisitencyreliability〕標準參照性測驗在解釋時要將被試分為達標未達標等類別,這其實是根據(jù)測驗分數(shù)對被試進行的分類決策。那么分類決策是否有跨時間穩(wěn)定性和情境的一致性?如果依測驗結果作出的分類在不同情境下是一致的,那么說明測驗結果受誤差的影響較小,測驗結果就是可靠的,即測驗有高信度。因此決策一致性信度也可稱作區(qū)分信度〔decisionreliability〕。其假設是,錯誤區(qū)分的正誤差〔未掌握者區(qū)分為掌握者〕和負誤差〔掌握者區(qū)分為未掌握者〕所帶來的損失是同樣嚴重的,所有的錯誤分類,不管錯誤的類型與程度如何,都帶來同等嚴重的損失。決策一致性信度可使用復本法和重測法,計算出兩次測驗分類決策的一致性,這與傳統(tǒng)的信度計算方法很相似。決策一致性信度也可以通過同一次測驗的結果來估計。決策一致性信度有兩種統(tǒng)計指標,即p0指數(shù)和K指數(shù)。p0是漢布萊頓和諾維克〔Hambleton和Novick〕提出的分類一致性指標,計算公式為: 〔3-44〕式中pkk為兩次測驗中被一致地劃分到第k〔k=1,2,3,…,m〕個類別的人數(shù)占總人數(shù)的比例,一般情況下m=2,即只有掌握與未掌握兩種狀態(tài)。如表3.4所示。表3.4兩個復本測驗對被試的區(qū)分結果復本A掌握未掌握總計復本B掌握P11P12P1.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論