潛在類別模型在試題分析中的應用_第1頁
潛在類別模型在試題分析中的應用_第2頁
潛在類別模型在試題分析中的應用_第3頁
潛在類別模型在試題分析中的應用_第4頁
潛在類別模型在試題分析中的應用_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、潛在類別模型在試題分析中的應用二級計分題目的區(qū)分度和信度分析焦璨1,2張潔婷2高艷紅2張敏強2(1深圳深圳大學心理學系,深圳 518000)(2華南師范大學應用心理研究中心,廣州510631 )一 一. . . . 一 一 一 一. . . . . . . . . . . 摘要:基于潛在類別分析的信度分析通過潛在類別模型的5個指標:P指標、P指標、W指標、Q指標、兀指標來分 析試題的區(qū)分度和信度,該方法假設所測群體是由不同的亞群體組成,并且不需要潛在變量和殘差服從正態(tài)分布, 可以克服傳統(tǒng)的信度評價方法的一些不足。本研究在簡要介紹潛在類別分析的基本原理、分析思路的基礎上,以二 級計分題項的量表為

2、例,重點介紹如何運用上述5個指標判別題項質量,并用實際數據驗證此方法的可行性,最后 將潛在類別分析結果和傳統(tǒng)的基于CTT理論的信度分析結果進行對比,闡述潛在類別分析在心理與教育統(tǒng)計中的應 . . . . . . . A . . . .用價值及研究拓展。基于分析結果,可得到如下結論:(1)條件概率之差、W指標和Q指標對題目的區(qū)分度評價結 果與傳統(tǒng)的區(qū)分度基本一致,寸指標與傳統(tǒng)的a系數所得出的信度評價結果則有所不同。(2)基于潛在類別模型的 試題分析方法可較為全面地評價和鑒別每道題目和題目整體的優(yōu)劣,并且能考慮樣本的子分布,而其判斷標準還有 待研究。關鍵詞:潛在類別模型,二級計分,題目,指標,區(qū)分

3、度,信度1前言在平常的教育研究考試中,我們通常使用難度、區(qū)分度和信度a系數來鑒別試卷的質量,并根 據相應的結果來刪減題目,提高問卷的可靠性和有效性。然而,若在多峰分布下傳統(tǒng)難度、區(qū)分度 指標往往難以客觀評價難度和區(qū)分度;運用a系數進行信度分析的假設條件是樣本為單一分布的群 體,并要求潛在變量和殘差都要符合正態(tài)分布,這些假設在現實研究中往往得不到滿足(Flaherty, 2002)。潛在類別模型這種數據處理方法則克服了傳統(tǒng)分析方法中的不足,它對潛在變量和殘差的分 布沒有任何要求,并假設所測群體是由不同的亞群體組成。潛在類別分析(Latent Class Analysis)是由社會學家Lazars

4、feld在1950年首次提出的,用于分 析態(tài)度量表中潛在變量的一種方法(Lazarsfeld & Henry,1986)。在20世紀70年代,Goodman發(fā)展 了極大似然估計法,并應用于潛在類別模型中,使得潛在類別模型從分析二級計分試題擴展到稱名 變量(Goodman,1974)。如今,潛在類別模型已經越來越廣泛地應用于社會研究,一方面,它可以 對外顯分類變量進行分類,找出其內在的潛在結構;另一方面,它可以測量稱名和順序變量的測量 誤差問題(Vermunt,2002)。現階段,基于潛在類別模型的應用,國外學者已作了廣泛的研究。例 如,Biemer和Wiesen(2002)運用潛在類別模型,通

5、過三個題目把吸食大麻的被試分類,并指出不 能有效區(qū)分被試潛在結構的題目。Kreuter, Yan和Tourangeau(2008)也運用潛在類別模型來分析 馬里蘭州大學畢業(yè)生的數據,并結合Hui-Walter模型來鑒別題目。Flaherty(2002)為調查青少年吸 煙情況,引用Clogg和Manning(1996)所提出的5個基于潛在類別模型的指標,對問卷題目進行 分析,指出區(qū)分度較差的題目。然而,國內外學者對基于潛在類別模型的量表分析研究僅限于對社 會調查問卷的題目,而對考試題目的研究頗少。本文將介紹潛在類別模型的基本原理、基于該模型 對題目質量進行判斷的指標,并以實證數據為例,如何運用這

6、些指標來鑒別考試試題的優(yōu)劣,比較 這些方法與傳統(tǒng)方法的實用性。2潛在類別模型的基本原理2.1潛在類別分析假設與模型潛在類別模型最突破性的原理就是將類別變量的概率轉化為參數模型,亦即概率參數化。傳統(tǒng) 的潛在類別模型涉及兩種類別變量:可觀察、測量的外顯變量與不可觀察的潛在變量,其對應的參 數分別是潛在類別概率(latent class probabilities)與條件概率(conditional probilities)。一般使用極大 似然法來估計潛在類別模型的這些參數。潛在類別模型基于兩個假設。其一是局部獨立性假設,即外顯變量之間的關聯能夠被一個潛在 變量來解釋,使得這兩個變量完全獨立無關。即

7、,對于某個潛在類別的被試來說,各個外顯變量的 作答不存在關聯。潛在類別的互斥性是另一個假設,即潛在類別之間相互獨立,互不影響。 TOC o 1-5 h z 假設w = (W , W ,., W )表示一系列p個外顯變量,d = (d , d ,., d )表示在外顯變量W中 12p12p反應選項的數目,讓w =(七,w2,., wp )表示某一個的反應組合。潛在變量L中有C個潛在類別,P(W = w)=兀w代表反應組合w的反應概率。潛在類別模型寫作:p (w=w)=兀= y n p (i)( 1)wcw Jcc =1i = 1其中,y = P (L = c)為潛在類別概率,表示各個潛在類別所占

8、的人數比例;p(,)表示屬于潛在 cwjc類別c的被試,在題目W的反應為w的條件概率。其中潛在類別概率y和條件概率p的取值范圍是01。2.2潛在類別模型的建立潛在類別模型的建立首先需要估計初始模型,然后逐步增加潛在類別的數目,進行各模型的參 數估計,計算適配性,同時進行適配性檢驗,以決定最佳模型。值得注意的是,正確選擇潛在類別 的數量是至關重要的(Yang,2004)。我們通常使用Schwarz(1978)基于貝氏理論所提出的BIC指標 (Bayesian information criterion),來選擇潛在類別模型,當BIC值越小,其模型的適配性就越好。 然后是對各潛在類別進行命名,觀測

9、條件概率和歸屬概率,最后計算出判別指標。2.3分析原理Clogg和Manning(1996)第一次運用潛在類別模型來分析量表的可靠性,其思路是:如果一個 題目是反映這個潛在類別的有效指標,那么這個題目應該會使此潛在類別的被試都作出一致的反應。 若這種潛在類別的被試在這個項目上不能作出一致的反應,則該題目對于區(qū)分此類別的被試就是無 效的。Clogg和Manning (1996)指出兩種類型的可靠性指標:特定項目的可靠性(item-specific reliability)和試題整體的可靠性(item-set reliability)0通過潛在類別模型的5個指標:p指標,P指標,W指標,Q指標和寸

10、指標來分析單個題目的區(qū)分度、信度以及量表的整體信度。2.3.1特定項目的可靠性指標所謂特定項目的可靠性,主要是從題目的鑒別能力、潛在類別與外顯變量的關聯大小、可靠性 來分析每道題目的質量,具體指標有p指標、P指標、W指標和Q指標。指標P,即該題目的條件概率,根據條件概率在各個選項分布的均衡性來判斷被試的反應傾向 是否明確:當參數估計的條件概率P等于或接近1時,這一潛在群體對該題目就有明確的作答傾向, 或者,當參數估計的條件概率P等于或接近0時,就代表該潛在類別的被試幾乎都不具有此行為特 征。這兩種情況下都表明此題目可以反映出該潛在群體的特征(Flaherty,2002)。此時,該題目對 于此潛

11、在類別的被試是有效的。相反,當條件概率P等于或接近作答選項的隨機分布概率,即vd j (dj為選項數目)時,此題目就無法反映這一潛在群體的特征。第二個指標P,表示某題某水平的選項對于各個潛類別的歸屬概率,也可看做正確歸類的概率 說明該題目某選項對各個潛在類別的區(qū)分能力。某一個題目選項在某個類別的P值很高,則說 明正確歸類的概率高,該選項能區(qū)分該類別與其他類別;反之,當P值在各個潛類別相差很小,即呈平均分布,無法根據這道題目該選項對各潛在類別的鑒別度都不理想。用公式表示為:P (L = c I W = w )=兀iiL IWi = Wi(2)冗W = w ii指標。和指標P是分別從類別和題項的角

12、度鑒別題目的優(yōu)劣,可以全面地了解題目的好壞。第三個指標為W,它可以計算一對潛在類別與某道題目的兩個選項之間的關聯。當W接近1 時,這對潛在類別和這道題目之間關聯很小,相反,當V越大于1時,這對潛在類別和這道題目之 間的關聯越大,即這道題目的兩個選項可以區(qū)分出這兩類群體。在潛在類別數目較多的時候,一般 計算差異較大的兩個潛在類別。公式為: TOC o 1-5 h z 人(0)0)/C、皿 = w -1 L1 L2= 2(3)(0) 0)w = 2 L = 1 w = L= I 2/ /在公式(3)中,(。和(。立2)表示兩種類別被試做出相應的一致性反應的概率,而 ii(d 2比|)和(d血2)表

13、示兩種類別被試做出與各自類別群體不一致性反應的概率。 ii第四個指標尤爾關聯系數。是由第三個指標w轉化而來,即(4),也是反映被試能力與題目的關聯性。2.3.2試題整體的可靠性指標第五個指標是仃,是某一作答向量的歸屬概率,它反映了整個量表題目的可靠性程度,當某個 指標寸很高時,表明該作答組合屬于某類人的概率高,這與指標P有相似之處,但P只針對某題的 某一選項水平,而仃則針對整組題目的作答組合。當某作答組合的潛類別仃大于0.8,則說明該量表 該作答組合信度較好,能將該潛在類別與其他類別區(qū)分開來(Flasherty,2002)。其公式為:71代=L = c, W = w(5)L = c |W =

14、w7W = w3實證研究3.1數據收集與分析工具選取某專業(yè)統(tǒng)考中的12道二級計分題目,考生共2931人。無缺失數據。答對計分為T,答錯記為“0”。使用SPSS16.0和LatentGOLD4.0軟件分析數據。3.2潛在類別模型的確定表1探索性潛在類別分析模型適配指標摘要表模型參數自由度LLBICP值1122919-20328407520.00225290626338289383451288090564286793表1列出了從C=1到C=5五種不同類別數目的模型適配估計結果,其中可以看出,C=

15、3模型有 最低的BIC值(37730),即模型3是最佳的模型。表2列出了潛在類別的概率值,表示三個潛在類別所占的比重。結合表2和圖1可知,屬于潛 在類別1的考生,其作答選項幾乎都答對,可推測這部分考生對知識點的掌握良好,可命名為高分 組”,占了總人數的一半。屬于潛在類別2的考生,約占總體人數的30%,其作答選項的答對率處 于中等水平,可命名為“中等組”。第3類考生,其作答選項的答對率很低,可推測這部分考生對知 識點的掌握較差,可命名為“低分組”。表2探索性潛在類別模型的潛在類別概率潛在類別123潛在類別概率0.520.290.19如表3和圖1,對于高分組的考生,即“高分組”來說,除了第4和第1

16、2道題目答對率較低外, 其余題目的答對率都較高,而且所有題目的答對率都高于其它類別的考生。對于潛在類別2的考生, 即“中等組”來說,第3、6、和11題有較高的答對率,而考生在第4題的答對率較低,其余8個題目 的答對率接近0.5。對于成績較差的考生來說,第2、3、6、7和11題的答對率達0.4或以上,其余 題目的答對率則低于0.4。表3 12個題目在三個潛在類別上的答對率及傳統(tǒng)難度系數T1T2T3T4T5T6T7T8T9T10T11T12類別10.920.750.970.380.880.960.860.860.940.880.960.27類別20.560.600.840.290.630.850.

17、620.630.600.530.750.40類別30.220.400.500.120.220.520.560.290.290.360.420.34傳統(tǒng)難度 系數0.680.640.840.300.680.850.730.690.720.680.800.32圖1三個潛在類別分類的條件概率分布平面圖3.3試題的項目與信度分析3.3. 1項目分析對于知識掌握的明確程度,根據Flaherty的指標,除了題4和題12,其他題目對高分組的考 生都能明確反映高分組考生掌握了相應的知識點;題1、4、5、8、9能明確反映低分組考生沒有掌 握相應的知識點,而其余試題則無法反映該類考生的掌握情況;題3、6、11明確

18、反映中等組考生較 好地掌握了這些知識點,而其他題的答對率接近0.5,則沒有明確反映考生的掌握情況。對于條件概 率,我們更應該關注的是題目在各能力層次考生的答對率之差。如表3可知,三類考生在第1、5、 8、9和10題的答對率差距明顯,即高分組答對率較高,中等組的答對率一般,而低分組的答對率 較低,因此這些題目對于考試來說是恰當的,有較好的區(qū)分度。其次,第2、3、6、7和11題的答 對率都相對較高,也就是說,這些題目對于所有考生來說都比較簡單,但仍有一定地區(qū)分度。值得 注意的是,第3題和第12題。對于所有考生來說,第三題的答對率都很低,即便是高分組也不超過 0.4,因此,這道題對考生來說比較難,試

19、題分析時應予以注意。第12題的答對率也很低,并且高 分組的考生的答對率低于中等組和低分組,可知這道題目的區(qū)分度很差,其鑒別力是負向的。即不能對三種類別的考生進行區(qū)分,高分組不能答對,低分組也可能只憑猜測來回答,建議修改或刪除 此題。表412個題目在三個潛在類別上的歸屬概率題目選項高分組中等組低分組T100.1390.4040.45810.7000.2390.060T200.3660.3260.30810.6100.2720.118T300.1080.2940.59810.5980.2910.110T400.4660.2980.23610.6500.2770.072T500.1970.3430.

20、46010.6730.2670.059T600.1240.2880.58810.5930.2920.114T700.2760.4170.30810.6120.2460.142T800.2360.3420.42110.6530.2680.079T900.1150.4150.46910.6830.2420.074T1000.1900.4320.37810.6760.2260.098T1100.1010.3630.53510.6290.2730.098T1200.5620.2570.18110.4370.3650.198根據P指標,表4列出了三個潛在類別在每道題目中的歸屬概率。例如,在第1道題目答對

21、的 情況下,考生被歸為類別1的概率為0.70,有明確的歸屬傾向,而在第1題答錯的情況下,中等組 和低分組的歸屬概率幾乎接近相同,分別為0.40和0.46,這就表示若考生在第1題答錯,其被歸為 類別2和類別3的概率相近,即無法區(qū)分兩者,而歸屬于類別1的概率很小,這也反映了可明確排 除類別1的可能性。再如,在第3題答對的情況下,其被歸為類別1的概率為0.60,遠大于被歸屬 在類別2和3的概率;在題目3答錯的情況下,3種潛類別的考生的歸屬概率分別為0.11,0.29, 0.60,這兩種情況說明題3能夠較好地區(qū)分三種類別的考生。題4和題12無論在考試答對還是答錯,高分組的歸屬概率都明顯高于其他類別。尤

22、其在題12 中,當答錯時,歸屬于高分組的概率還比當答對時歸屬于高分組的概率要高,這說明該題目的區(qū)分 能力差,應予以刪除或修改。其余題目在答對的情況下都有較好的區(qū)分度,但在答錯的情況下,只 有題3、6、11能較有效地將低分組與其他組相區(qū)別,其他題目則難以區(qū)分中等組和低分組。根據W指標,我們以高分組和低分組之間的差異與題目1的關聯為例,如表5。根據寸指標可得, V =(0.915x0.78)/(0.085x0.22)-38,說明高分組的考生在第1題的答對率是低分組的考生的38 倍。將V轉化為Q指標值(38-1 / 38+1) =0.95,這都反映了題目1可以有效地區(qū)分出高分考生和低 分考生。而中等

23、組和低分組的考生在第2道題目上的寸值為2.25,而Q指標值為0.38,說明題2不 能很好地鑒別中等組和低分組的考生。同理,表6列出了3個潛在類別的考生與所有題目的關聯程 度W和Q。如表6可知,高分組和低分組的考生大多能夠被有效地區(qū)分出來,而中等組和低分組之 間或高分組和中等組之間,這12道題目的區(qū)分能力則大大減弱,總體來說,題2、題4、題7在各 類別之間的區(qū)分能力較小,而題12不能區(qū)分任何類別間的差異,甚至是反向的結果,即高分組的考 生的答對率比中等組及低分組的答對率更低,此題需要刪除或修改。表5 3種潛在類別的考生在題目1、2中的條件概率潛在類別選項T1T2高分組00.0850.25310.

24、9150.747中等組00.4400.40410.5600.596低分組00.7800.59610.2200.404表6考生能力水平與12道題目的關聯以及傳統(tǒng)區(qū)分度潛在類別T1T2T3T4T5T6T7T8T9T10T11T12W8.525.61.54.44.73.83.510.16.88.20.5高VS中Q0.790.330.700.200.630.650.580.560.820.740.78-0.33中VS低W4.52.85.3365.21.274.173.6824.11.3Q0.640.470.680.500.710.680.120.610.570.330.610.13高VS低38.54.

25、3530.24.526.624.54.814.737.213.8340.7Q0.950.630.940.640.930.920.660.870.950.860.94-0.18傳統(tǒng)區(qū)分度鑒別指數法0.690.50.410.390.680.380.430.590.640.590.510.15相關法0.60.410.50.350.580.490.40.530.590.520.530.123.3.2試題整體的信度分析(基于if指標)表7列出了部分作答組合的歸屬概率。例如,屬于類別1的考生,其中3個作答組合的歸屬概 率分別為0.82、0.99和0.97,分類的準確性較高;但在“001010011000”

26、作答模式中,考生歸屬到類 別3的概率僅為0.54,歸屬到中等組中的概率為0.46,說明此作答組合無法明確其類別的歸屬,反 映了這12道題目對這種作答組合的測量信度不佳,這種情況需要從測驗內容上進一步分析原因。表7潛在類別模型的歸屬概率歸屬類別T1T2T3T4T5T6T7T8T9T10T11T12類別1類別2類別330000000000010.000.001.0030000000000100.000.010.9930010100110000.000.460.5420010100110100.020.760.2220010100111010.010.690.3111111111111010.820

27、.180.0011111111111100.990.010.0011111111111110.970.030.0012個題目共有4096種作答組合,其中本研究只出現1061種作答組合,其中屬于高分組的考生, 共有163種作答組合,其平均歸屬概率為0.98,接近于1;而屬于中等組的考生,其平均歸屬概率 為0.72,共有519種作答組合,其中有364種作答組合的歸屬概率在0.49-0.79之間,其余作答組合 在0.8以上,大部衍指標相對不夠理想:而屬于低分組的考生,其平均歸屬概率為0.81,共有377 種作答組合,其中有154種作答組合的歸屬概率在0.5-0.79之間,其余組合的歸屬概率在0.8以

28、上,指標稍微優(yōu)于中等組。總的來說,這12道考試題目,對于類別2的考生,也就是中等組的考生來 說,其正確歸屬的概率相對較低,而對于類別1的考生來說,這12道題目可以很好地鑒別考生的能 力水平類別。3.4試題分析總結對考生進行分類。潛在類別分析得出3個潛在類別,即“高分組”、“中等組”和“高分組”。高 分組的考生大約占了總體考生人數的一半,其作答選項幾乎都答對。屬于中等組的考生,約占總體 人數的30%,其作答選項的答對率處于中等水平。低分組在各個題目的答對率普遍很低??傮w來說, 這12道題可以有效地把考生分為3種不同能力水平的潛在類別。根據。指標,大部分題目能明確反映高分組考生掌握相應的知識點;而

29、大部分題目在中等組的 答對率接近0.5,無法明確反映其對相應的知識點的掌握情況;部分試題可以反映低分組未掌握的知 識點。根據各類別考生的答對率之差可知,題4和題12對各類考生的區(qū)分度不理想,尤其是題12, 需要修改或刪除。根據尸指標,題4和12區(qū)分度不理想;在答對的情況下,大部分題目都能區(qū)分高分組與其他類 別的考生;在答錯的情況下,只有題3、6、11能較有效地將低分組與其他組相區(qū)分。根據寸指標和指標,大部分題目能區(qū)分高分組和低分組的考生,而對于中等組和低分組之間、 高分組和中等組之間的區(qū)分能力則明顯下降。題2、題4、題7在各類別之間的區(qū)分能力較小;而題 12不能區(qū)分任何類別間的差異,甚至是反向

30、的結果,需要修改或刪除。以上幾個項目分析的指標都發(fā)現題4和題12未能區(qū)分考生的能力水平,甚至無法正確反映考生 的能力水平,需要予以修改或刪除。而寸指標和指標還發(fā)現題2和7不夠理想。這些指標都發(fā)現試題能夠較好地區(qū)分高分組和低分組,而對于相鄰類別之間的能力往往難以區(qū)分, 這也反映了考生能力水平從高到低的漸進性和連續(xù)性。根據Tf指標我們可以得出,這12道題目可以有效地區(qū)分出高分組的考生,而對于中等組和低分 組的考生,還是有不少組合的正確歸類概率介于0.49-0.79之間,尤其是中等組。4試題分析方法的比較對于上述實例,用經典測量理論計算區(qū)分度,發(fā)現區(qū)分度在0.4以下的題目分別為第4題(0.39)、

31、第6題(0.38)和第12題(0.15);其中第12題的區(qū)分度極差,不能有效地區(qū)分考生。這與基于潛 在類別模型的區(qū)分度評價結果一致?;跐撛陬悇e分析的試題分析方法,能夠針對不同類別或答對、答錯的情況分別進行區(qū)分度的 分析?;跐撛陬悇e模型的試題分析,整體的思路都是針對不同的能力分類分別進行項目分析。其中, 各個類別的答對條件概率相當于題目對于不同類別的難度系數,從表3可知,各個題目的難度系數 因其類別而有所不同,而傳統(tǒng)的難度系數則是單一的,并且多接近或略高于中等水平的考生,也就 是傳統(tǒng)的難度系數僅能反映中等水平的考生群體下的難度,對于其他群體的難度并不敏感。條件p指標是基于條件概率來分析題目能

32、否明確反映考生在相應知識點的掌握情況,但是常模 考試的試題分析中發(fā)揮的作用和意義相對較小。對于考試的實際情況,中等的考生對于知識點的掌 握一般,其答對的概率接近0.5也是理所當然的。再從試題難度分析角度來看,當難度接近0.5時, 題目適中則更適合于該群體的能力水平。由于考生對知識的掌握程度常常難以簡單分為掌握和未掌 握,尤其對于中等水平的考生。因此,指標0應用于常模考試的分析則存在某種不切實際,而且意 義不大。相比之下,題目的區(qū)分度、難度等更為重要?;蛟S指標0在嚴格的達標考試中可用于判斷 試題能否考量學生的達標情況。而條件概率之差則可以分析出題目對各類考生的區(qū)分度。F指標、寸指標和Q指標都反映

33、了根 據某道題目歸類的可靠性,實質上便是對能力之間的區(qū)分能力。指標P則通過歸屬概率來考察在答 對和答錯的情況下,題目對類別的區(qū)分能力或者正確歸類的能力,反映了該題目對潛在分類中的重 要性,歸屬概率越趨于平均則表明該題目對分類所起的作用越小,反之亦然。版指標和Q指標則用 優(yōu)勢比的思想分析考生能力與某道題目之間的關聯性,關聯性越高,說明題目越能反映考生的能力 水平。實證數據的分析結果表明,答對率之差、p指標、寸指標和Q指標分析所得的結果呈現一致 性,都能找到區(qū)分度明顯低的題目,其中由于寸指標和Q指標存在著非線性關系,這兩個指標對各 個題目區(qū)分度的判斷都十分相近。同時也存在一些差異,尤其對于題目之間

34、區(qū)分度的高低比較,此 外,寸指標和Q指標似乎更為嚴格或敏感,這些差異與分析的角度和思路的差異有關。例如,同樣 是分析區(qū)分度,條件概率之差是用線性相減的方法,而寸指標和Q指標則用優(yōu)勢比的方法;前者更 為直觀、簡單;但后者更適合于概率的計算原理,而判斷的標準則較為模糊。如表6,傳統(tǒng)的區(qū)分 度計算僅能識別出題12區(qū)分度不理想,而對于其他題目都判斷為十分好的區(qū)分度,過于樂觀,并且 無法了解各個能力層次之間的區(qū)分能力?;跐撛陬悇e模型的指標Tf是作答組合的歸屬概率,歸屬概率越高,則說明該作答組合越能明 確歸于該類別。在潛在類別模型中,潛在變量相當于離散型的真分數,一般將歸屬概率最高的類別 看作該向量真正

35、所屬的類別,此時,歸屬概率就是正確歸類的概率,即歸類的可靠性,從某種程度 上就是信度的反映。因此,該指標可以針對具體的作答組合分析題目整體的信度,各個潛在類別的 平均歸屬概率則可反映整套試題在各個能力水平考生中的測量信度。對于上述例子,傳統(tǒng)的信度a系 數為0.67,這說明信度不理想。而基于潛在類別模型的指標if則發(fā)現,試題整體對高分組有很高的 信度,在低分組的信度較好,正確歸類的概率是0.81,而對于中等組的考生信度則比較低(0.72)。 這反映該試題對高分組的測試具有較高的可靠性,而對于中等組和低分組則不然;從另一個角度看, 也可能是由于試題在中等組可靠性不佳,從而導致傳統(tǒng)的信度系數很低。焦

36、璨等人(2008)也指出, 大型考試常見的測量數據分布多是呈明顯的偏態(tài)或多峰分布,模擬實驗研究發(fā)現,在這種情況下需 要求出各個子分布的信度,即用多個信度來描述測驗的可靠性。指標正體現了該研究結論的思想, 克服了傳統(tǒng)a系數在實際考試中數據非正態(tài)分布時單一而不準確等局限。另一方面,從該結果可知, 指標Tf對信度的評價也有可能存在高估的情況,這可能由于這只是分類的信度,相比于估計連續(xù)變 量,對精確度的要求比較低,正確分類的幾率比較大。總體來說,在經典測量理論框架下主要通過線性方法來處理連續(xù)型數據,以分析試題的區(qū)分度 和信度,但其前提條件往往難以滿足。基于潛在類別模型的試題分析,能夠在不同能力層次的考

37、生 群體下,分別進行各種項目分析,相比傳統(tǒng)的項目分析更能客觀細致地考察題目真正的特點;同時, 將考生的作答看做一組二分變量所組成的向量,并將類別變量的概率轉化為參數模型,發(fā)揮潛在類 別模型在處理離散型數據中分類客觀、科學的優(yōu)點,而且對數據的分布前提假設較少,克服傳統(tǒng)方 法籠統(tǒng)而不符合前提假設的情況。在本研究中,由于沒有客觀的校標,對于這些指標判斷的準確性尚無法判斷。另一方面,這些 指標雖然能全面對試題進行分析,但是顯得比較繁瑣,根據分析目的選擇性地采用其中的指標則更 為合適。由于這些試題分析方法的判斷標準還比較模糊,至今還沒有定出決斷值,如何根據這些指 標進行更為明確的分析也是值得進一步關注的

38、問題。5結論基于潛在類別模型對某考試中的12道試題進行區(qū)分度和信度的分析,結果發(fā)現:根據考生的能 力水平可以分為高分組、中等組和低分組;題4和題12的區(qū)分能力不理想,需要修改或刪除。其他 題目能對高分組和低分組有較好的區(qū)分,而對于相鄰類別的考生則較難區(qū)分。條件概率之差、P指標、寸指標和指標對題目的區(qū)分度評價結果與傳統(tǒng)的區(qū)分度基本一致, 相對于傳統(tǒng)方法,區(qū)分度評價還能具體到不同能力水平的被試;if指標與傳統(tǒng)的a系數所得出的信 度評價則有所不同,可能是由于傳統(tǒng)a系數對信度的計算沒有考慮具體到樣本子分布,也可能由于if 指標只針對分類的可靠性,評價比較寬松??偠灾跐撛陬悇e模型的試題分析,能針

39、對不同 能力水平的考生,這更符合考試數據的實際;對于這些方法的精確性以及具體的項目評價標準,則 是未來研究的一大重點。參考文獻Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. In B. N. Petrov & F . Caski (Eds.), Second international symposium on information theory. Budapest: Akademiai Kiado.Biemer, P.P.,& Wiesen, C.(200

40、2). Measurement error evaluation of self-reported drug use:a latent class analysis of the USNational Household Survey on Drug Abuse. J.R.Statist. Soc.A, 165, 97-119.Chih-Chien , Yang.(2004). Evaluating latent class analysis models in qualitative phenotype identification. ComputationalStatistics & Da

41、ta Analysis, 50, 1090-1104Clogg, C.C., Manning, W.D. (1996). Assessing reliability of categorical measurements using latent class models. In: von Eye ,A., Clogg, C.(eds.), Categorical Variables in Developmental Research. Academic Press, San Diego, CA, PP. 169-182.Flaherty, B. P. (2002). Assessing re

42、liability of categorical substance use measures with latent class analysis. Drug andAlcohol Dependence, 6S(Supplement 1), 7-20.Goodman, L.A. (1974). The analysis of systems of qualitative variables when some of the variables are unobservable: Part 1-A modified latent structure approach. American Jou

43、rnal of Sociology, 1179-1259.焦璨,張敏強,黃慶均,張文怡,黎光明.(2008).非正態(tài)分布測量數據對克隆巴赫信度a系數的影響.應用心理學14(3), 276-281.Kreuter, F.,Yan,T. & Tourangeau, R. (2008). Good item or badcan latent class analysis tell?: the utility of latent classanalysis for the evaluation of survey questions. J.R.Statist. Soc.A, 171, 723-738.

44、Lazarsfeld, P. F.,& Henry, N.W.(1968). Latent Structure Analysis.Boston: Houghton Mill.邱皓政.(2008).潛在類別模型的原理與技術北京:教育科學出版社.Spencer, B.D. (2009). When do latent class models overstate accuracy for binary classifiers?: With applications to juryaccuracy, survey response error, and diagnostic error. Institute for Research Northwestern University Working PaperSeries,1-24.Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6(2), 461-464.Vermunt, J.K. (2002). Multilevel latent class models. Sociological M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論