基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計論文

上傳人：7*** IP屬地：湖北上傳時間：2022-01-27 格式：DOC 頁數(shù)：10 大小：34KB 積分：20 舉報 版權(quán)申訴

基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計論文_第2頁

基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計論文_第3頁

基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計論文_第4頁

基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計論文_第5頁

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、基于聯(lián)結(jié)主義的連續(xù)記分基于聯(lián)結(jié)主義的連續(xù)記分 irtirt 模型的項目參數(shù)和被模型的項目參數(shù)和被試能力估計試能力估計論文論文關(guān)鍵字：能力模式方法測試項目參數(shù) 訓(xùn)練矩陣模型1問題的提出與經(jīng)典測驗理論相比，項目反應(yīng)理論（簡稱 IRT）由于具有參數(shù)不變性、能進行計算機化自適應(yīng)測驗等優(yōu)點而受到歡迎1,2，但是也存在著不少問題，首先是目前比較成熟的、得到廣泛應(yīng)用的 IRT 軟件，如 BILOG、MicroCAT 等，主要是運用極大似然法或貝葉斯方法進行項目參數(shù)和被試能力估計3，一般都只能處理二值記分的項目，也有少數(shù)軟件可以處理等級記分的項目，例如MULTILOG，但對于連續(xù)記分的項目還缺

2、少估計方法和工具；其次是在運用BILOG、MicroCAT 和 MULTILOG 等軟件時往往需要數(shù)百人的大樣本，而對于小樣本則缺少有效的估計方法，因此需要另尋途徑來解決這些問題。2聯(lián)結(jié)主義理論中的級連相關(guān)模型聯(lián)結(jié)主義理論（或稱人工神經(jīng)網(wǎng)絡(luò)）是近年來得到廣泛關(guān)注的認知心理學(xué)理論4,5,6，它一方面可以用來模擬人的認知活動，探討人類的信息加工機制7，另一方面可以作為一種工具來分析系統(tǒng)的輸入和輸出之間的關(guān)系，特別是當(dāng)系統(tǒng)的輸入和輸出之間難以用顯性的數(shù)學(xué)方程表示時，聯(lián)結(jié)主義模型就可以通過其本身的學(xué)習(xí)功能，在用一組已知的輸入和輸出數(shù)據(jù)對它進行訓(xùn)練以后，就可以在一定程度上掌握了該系統(tǒng)內(nèi)部的輸入和輸出之間

3、的關(guān)系，即建立了某種模型。如果我們再給這個經(jīng)過訓(xùn)練的網(wǎng)絡(luò)模型以新的輸入，那么它就可以給出相應(yīng)的輸出值。因此，人們可以利用聯(lián)結(jié)主義模型的這種性質(zhì)來進行預(yù)測和參數(shù)估計等活動8。聯(lián)結(jié)主義模型通常由一個輸入層、一個輸出層和若干個隱含層組成，每一層中含有若干個結(jié)點，一個模型中所含的隱含層數(shù)目和各層所含結(jié)點數(shù)目，是由具體問題的性質(zhì)和復(fù)雜程度來確定的。各個結(jié)點之間的聯(lián)結(jié)具有一定的權(quán)重，它的大小反映了相鄰兩個結(jié)點之間相互影響的程度，在模型被訓(xùn)練的過程中，各結(jié)點間的權(quán)重得到了調(diào)整。聯(lián)結(jié)主義模型通?？梢苑譃殪o態(tài)型和動態(tài)型兩種，靜態(tài)型模型的拓撲結(jié)構(gòu)是實驗者在一開始的時候就設(shè)計好的，它的訓(xùn)練過程就是調(diào)節(jié)各結(jié)點之間的權(quán)

4、重。動態(tài)型模型的拓撲結(jié)構(gòu)是在訓(xùn)練過程中不斷變化的，它能夠隨著訓(xùn)練的進行，自動地加入新的隱含結(jié)點，同時也調(diào)整各結(jié)點間的聯(lián)結(jié)權(quán)重，這樣就可以更快地減少訓(xùn)練誤差。級連相關(guān)模型是動態(tài)型聯(lián)結(jié)主義模型中的一種9，它的計算精度較高，運算速度較快。在開始訓(xùn)練時，該模型只有輸入層和輸出層，處于最小拓撲結(jié)構(gòu)。隨著訓(xùn)練過程的進行，它能夠根據(jù)需要自動地逐個加入隱含結(jié)點。該模型的訓(xùn)練分為輸出和輸入兩個階段交替進行，首先是輸出階段，在這一階段，模型對聯(lián)結(jié)隱含結(jié)點和輸出結(jié)點間的各權(quán)重進行調(diào)整，直到誤差不再減少為止；然后轉(zhuǎn)至輸入階段，在這一階段，模型對于聯(lián)結(jié)輸入結(jié)點和候選隱含結(jié)點間的各個權(quán)重進行調(diào)整，并從中選出其輸出變量和網(wǎng)

5、絡(luò)的誤差變量間相關(guān)為最大的候選隱含結(jié)點，把它裝入網(wǎng)絡(luò)，這樣使得每次裝入的新隱含結(jié)點都能最大程度地影響誤差的變化。然后再轉(zhuǎn)至輸出階段，這個過程不斷重復(fù)，直到達到預(yù)定的訓(xùn)練精度。在本研究中，由于無法事先確定模型的拓撲結(jié)構(gòu)，以及為了較快地對模型進行訓(xùn)練和達到較好的訓(xùn)練和測試效果，采用了級連相關(guān)模型作為研究的工具。3連續(xù)記分 IRT 模型連續(xù)記分 IRT 模型是二值記分 IRT 模型的擴展，即它的記分不是按照二值邏輯的全對或全錯的方式來進行，而是根據(jù)被試答對項目的程度來進行記分，如果全對該題目就得滿分。由于各題目的滿分值不一樣，有的是 3 分、5 分、6分或更高的分數(shù)，為了統(tǒng)一起見，可以對它們進行歸一

6、化處理，全部轉(zhuǎn)化為 0至 1 的值。這樣就可以和下面的三參數(shù)邏輯斯諦模型中的 P()相一致。Samejima10、Muller11和 Mullenbergh12等都對連續(xù)記分 IRT 模型進行過研究，它和二值記分模型一樣，可以用正態(tài)卵形模型和邏輯斯諦模型表示。對于常用的三參數(shù)邏輯斯諦模型，它的表示式為：P()=c,i+(1-c,i)exp1.7a,i(-b,i)/1+exp1.7a,i(-bi)在該模型中，式中的 ai、bi 和 ci 分別為第 i 個項目的區(qū)分度、難度和猜測參數(shù)，為某個被試的能力，P()為該被試答對第 i 個項目的概率，它的值為 0 至 1，這是一個連續(xù)的值。雖然有些學(xué)者對于

7、該模型進行了一些研究，但是他們的研究還只是涉及該模型的性質(zhì)、信息函數(shù)的定義、參數(shù)不變性等方面，在具有實用意義的參數(shù)和被試能力估計方面還沒有成熟的結(jié)果。為了對連續(xù)記分 IRT 模型的參數(shù)估計問題進行研究，作者對目前常用的幾個 IRT 軟件的算法進行分析13,14，發(fā)現(xiàn)它們的共同特點都是運用統(tǒng)計的方法來進行參數(shù)估計，都無法對小樣本情況下的 IRT 連續(xù)記分模型進行參數(shù)估計，于是作者就決定另辟捷徑，在本研究中采用了和常用統(tǒng)計技術(shù)完全不同的聯(lián)結(jié)主義模型（人工神經(jīng)網(wǎng)絡(luò)）方法。運用統(tǒng)計方法不能完全解決的問題，并不意味著用其它方法就不能解決，其關(guān)鍵問題是常用的統(tǒng)計參數(shù)估計方法大多是建立在線性模型的基礎(chǔ)上的，

8、而被試的反應(yīng)和 IRT 中參數(shù)之間的關(guān)系是非線性的，因此在運用統(tǒng)計方法進行參數(shù)估計時，要采用大樣本才能得到較好的結(jié)果。而人工神經(jīng)網(wǎng)絡(luò)的輸出和輸入之間的關(guān)系本身就是非線性的，特別值得一提的是，本研究把人工神經(jīng)網(wǎng)絡(luò)的激活函數(shù)設(shè)計為 S 型的 Sigmoid 函數(shù)，它的表達式為f(x)=exp(x)/1+exp(x)它和上述的三參數(shù)邏輯斯諦模型的表示式非常相似，仔細比較一下，就可以看出它實際上就是 IRT 模型在 c,i=0,b,i=0,1.7a,i=1,=x 時的特例，因此聯(lián)結(jié)主義模型（人工神經(jīng)網(wǎng)絡(luò)）的這種輸出和輸入之間的非線性結(jié)構(gòu)就可以較好地處理 IRT 中相類似的數(shù)據(jù)關(guān)系。4計算機模擬實驗的設(shè)

9、計和實施該實驗的基本思想是：把一組被試對于一組項目的反應(yīng)矩陣作為級連相關(guān)模型（以下簡稱為神經(jīng)網(wǎng)絡(luò)）的輸入，這組被試的能力或該組項目的參數(shù)a、b 和 c 作為該模型的輸出，并且用這些輸入和對應(yīng)的輸出值對該神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就具備了估計，a,b 或 c 的能力。當(dāng)輸入一組新的反應(yīng)矩陣時，該網(wǎng)絡(luò)就可以輸出所需的被試能力或項目參數(shù)估計值。本實驗是用計算機模擬方法來考察運用這種方法得到的估計值和真實值之間的誤差是否能夠達到相當(dāng)小的程度。4.1實驗步驟的設(shè)計整個實驗分以下幾個步驟進行：(1)運用蒙特卡羅方法產(chǎn)生一組均勻分布的被試能力值，一組均勻分布的項目參數(shù)值（包括項目區(qū)分度 a、項目難度

10、b 和項目猜測參數(shù) c）。被試能力值的分布范圍為-3,+3，項目區(qū)分度 a 的分布范圍為0,2，項目難度 b 的分布范圍為-3,+3，項目猜測參數(shù) c 的分布范圍為0,0.25。(2)根據(jù)項目反應(yīng)模型，讓各個模擬的被試回答各個模擬的項目，產(chǎn)生反應(yīng)矩陣。(3)將該反應(yīng)矩陣作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分，用所要學(xué)習(xí)的項目參數(shù)或被試能力作為訓(xùn)練模式的輸出部分。若要估計被試的能力，就把反應(yīng)矩陣中的每一行作為一個模式，因為它恰好是一個被試對于一組項目的反應(yīng)；若要估計項目參數(shù)，就把反應(yīng)矩陣中的每一列作為一個模式，因為它反映了每一個項目被解答的情況。(4)用上述訓(xùn)練模式對一組神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，直至達到預(yù)定的

11、精確度為止。在本研究中為了統(tǒng)計上的方便，對 30 個神經(jīng)網(wǎng)絡(luò)進行了訓(xùn)練，預(yù)定的精確度為網(wǎng)絡(luò)的目標值和實際輸出值之間的誤差小于 0.001。(5)用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來估計被試能力和項目參數(shù)。在本研究中需要估計的被試能力和項目參數(shù)的真實值實際上是用蒙特卡羅方法產(chǎn)生的，因此可以計算出估計值（實際輸出值）和真實值的誤差，稱為測試誤差，并用下式表示：附圖式中，T,p.o為每個測試模式的每個輸出結(jié)點的目標值。N,p.o為每個測試模式的每個輸出結(jié)點的實際輸出值。p 是測試模式的數(shù)目，o 是輸出結(jié)點的數(shù)目。根據(jù)測試誤差 E 的大小，可以看出經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是否真正可以對項目參數(shù)和被試能力進行很好的估計。4

12、.2預(yù)備實驗由于在正式對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練以前，對于要用什么樣的模式來訓(xùn)練沒有任何先驗的知識，為此先進行預(yù)備實驗。和正式實驗的步驟一樣，首先運用蒙特卡羅方法產(chǎn)生 25 個被試對 15 個項目的反應(yīng)矩陣，用這一矩陣和相應(yīng)的被試能力或項目參數(shù)組成 4 組訓(xùn)練模式，分別用以估計，a,b 和 c。在對被試能力進行估計時，將矩陣的行作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分，因為矩陣的一行數(shù)據(jù)就代表了一個被試對所有項目的反應(yīng)；相應(yīng)被試的值作為訓(xùn)練模式的輸出部分，因為它代表了被試的能力值。在對項目參數(shù)進行估計時，將矩陣的列作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分，因為矩陣的一列數(shù)據(jù)就代表了所有被試對一個項目的反應(yīng)；相應(yīng)項

13、目的 a,b 或 c 值作為訓(xùn)練模式的輸出部分，因為它代表了項目的參數(shù)值。就用這些訓(xùn)練模式分別對 4 組神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，這 4 組神經(jīng)網(wǎng)絡(luò)分別對應(yīng)于被試能力和項目的三個參數(shù)，每組有 30 個網(wǎng)絡(luò)。然后，再用蒙特卡羅方法產(chǎn)生另外 25 個被試對另外 15 個項目的反應(yīng)矩陣，并用已經(jīng)訓(xùn)練過的網(wǎng)絡(luò)對這個反應(yīng)矩陣估計，a,b 和 c，記錄下測試誤差。其結(jié)果表明，雖然可以進行被試能力和項目參數(shù)的估計，但誤差較大，無法達到實際應(yīng)用的精確度。根據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的一般規(guī)律，估計出現(xiàn)這一情況的原因有兩條，一是訓(xùn)練模式太少，二是訓(xùn)練模式和測試模式之間沒有任何聯(lián)系，即沒有用“錨題”或“錨人”把它們聯(lián)系起來，改進的方

14、法可以是增加訓(xùn)練模式，或運用一定的“錨題”或“錨人”方法，在本研究中先用“錨題”的方法進行試驗（具體方法在進行正式實驗時詳述），試驗的效果很好，然后進行下面的正式實驗。4.3正式實驗(1)步驟 1：產(chǎn)生訓(xùn)練矩陣和測試矩陣運用蒙特卡羅方法產(chǎn)生 25 個被試（稱為第一組被試）對 45 個項目（稱為第一組項目）的反應(yīng)矩陣（稱為第一矩陣），這一矩陣在下面的實驗中將作為測試矩陣；從該 45 個項目中隨機取出 15 個項目（稱為第二組項目），再用蒙特卡羅方法產(chǎn)生另外 25 個被試（稱為第二組被試），令它們和上述隨機取出的第二組項目起反應(yīng)，產(chǎn)生另一個反應(yīng)矩陣（稱為第二矩陣），用它作為訓(xùn)練模式的一部分，由此可

15、見，訓(xùn)練矩陣和測試矩陣之間有 15 個項目作為“錨題”，如下面圖 1 所示。附圖圖 1被試、項目和反應(yīng)矩陣圖 1 中的第三組項目和第三矩陣將在下面作解釋。(2)步驟 2：建立能力訓(xùn)練模式用“第二矩陣”中的每一行作為一個模式的輸入，其相應(yīng)的 25 個第二組被試的能力值作為輸出，組成能力訓(xùn)練模式，對一組神經(jīng)網(wǎng)絡(luò)（共 30 個，稱為第一組神經(jīng)網(wǎng)絡(luò)）進行訓(xùn)練。(3)步驟 3：建立能力測試模式并進行測試將“第一矩陣”中的每一行作為一個模式的輸入，相應(yīng)的第一組被試的 25個能力值作為輸出，組成能力測試模式，用上述經(jīng)過訓(xùn)練的第一組神經(jīng)網(wǎng)絡(luò)對其進行測試。這時，實際上是神經(jīng)網(wǎng)絡(luò)對第一組被試的能力值進行估計。然后

16、，將估計值和真實值進行比較，記錄下測試誤差，如表 1 左邊第 1 列所示，要注意的是，表中記錄的是 30 個網(wǎng)絡(luò)的測試誤差實際值，根據(jù)公式可見，它是所有輸出結(jié)點和所有測試模式的誤差總和。由于本研究中只有一個輸出結(jié)點，有 25 個測試模式（因為有 25 個被試），因此要將表中的測驗誤差實際值除以25，得到對單個測試模式的測試誤差，然后，再計算其平均數(shù) M 和標準差 SD，結(jié)果如表 2 所示，可以看出測試誤差是比較小的。由此可見，當(dāng)測試模式中有部分項目（本例中為 15 個項目）和訓(xùn)練模式相同時，經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以對被試的進行很好的估計。應(yīng)該指出的是，測試模式和訓(xùn)練模式中沒有被試是重復(fù)相同的，這

17、說明經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)確實可以對新的被試進行能力估計。表 1測試誤差abc0.1292.2392.9820.0650.0841.8432.9760.0560.2432.0162.7980.0690.3241.8042.1330.0580.1262.1592.5560.0270.2012.2242.3990.0670.2882.2462.6170.0430.1141.7412.8340.0650.1891.9372.3470.0760.2492.2952.7450.0920.2642.3192.4330.0650.3212.3822.0300.0440.1052.1362.2310.0930.1

18、322.0612.2440.0230.1532.0192.8680.0680.2792.2702.0420.0440.2042.1961.8500.0990.1021.9502.5970.0590.1051.7321.7090.0890.2821.7642.3280.0720.2282.2812.5560.1140.2562.0891.9610.0710.2222.4452.0020.0930.2101.6662.2430.0350.1381.7432.4410.0750.2012.4382.0340.0800.1711.7402.1000.1060.2462.3072.5940.0690.1

19、951.5772.5350.0570.2132.4362.1990.057(4)步驟 4：建立項目參數(shù)訓(xùn)練模式當(dāng)估計項目參數(shù)時，將“第一矩陣”中的每一列作為一個模式的輸入，因為每一列都代表所有被試對一個項目的反應(yīng)情況，于是可以將與各列相應(yīng)項目的 a、b 或 c 作為輸出，組成項目參數(shù)訓(xùn)練模式，用該模式對一組神經(jīng)網(wǎng)絡(luò)（共30 個，稱為第二組神經(jīng)網(wǎng)絡(luò)）進行訓(xùn)練。(5)步驟 5：建立項目參數(shù)測試模式并進行測試用蒙特卡羅方法產(chǎn)生 15 個項目（稱為第三組項目）的參數(shù) a、b、c，并用原先已經(jīng)產(chǎn)生的第一組被試的值對它們起反應(yīng)，產(chǎn)生反應(yīng)矩陣（稱為“第三矩陣”）。然后，將“第三矩陣”中的每一列作為模式的輸入

20、，相應(yīng)的 15 個項目的參數(shù) a、b 或 c 作為輸出，組成測試模式。用經(jīng)過訓(xùn)練的第二組神經(jīng)網(wǎng)絡(luò)對其進行測試，也就是由神經(jīng)網(wǎng)絡(luò)對第三組項目進行參數(shù)估計，然后將估計值和真實值進行比較，記錄下測試誤差，如表 1 的 2、3、4 列所示。和對估計的測試誤差一樣，它是所有測試模式的誤差之和。這里共有 15 個測試模式（即上述的第三組項目）。因此要把表 1 中的的 2、3、4 列數(shù)字除以 15，再求平均數(shù)M 和標準差 SD，得到結(jié)果在表 2 中。表 2單個模式測試誤差的平均數(shù)和標準差統(tǒng)計項abcM0.00270.13790.15860.0045SD0.00090.01740.02270.00154.4減

21、少項目參數(shù)的測試誤差的實驗從表 2 的數(shù)據(jù)可以看出，上述方法對于的估計已經(jīng)達到了較好的精度，但對于 a、b 和 c 的估計誤差仍然比較大。于是再用增加訓(xùn)練模式的方法來試圖減少測試誤差。上述在訓(xùn)練第二組神經(jīng)網(wǎng)絡(luò)時，是用“第一矩陣”中的每一列作為模式的輸入，該矩陣共有 45 列，相應(yīng)于第一組的 45 個項目?，F(xiàn)在將這組項目擴大，即增加到 60 個，75 個，90 個和 105 個，這些項目的參數(shù)都是用蒙特卡羅方法產(chǎn)生的。然后，拿第一組 25 個被試的值和它們起反應(yīng)，用產(chǎn)生的反應(yīng)矩陣和相應(yīng)的項目參數(shù)作為訓(xùn)練模式，對 30 個神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，并重復(fù)上述步驟 4 和步驟 5，得到在各種不同數(shù)量的訓(xùn)練模

22、式條件下的 a、b 和 c 的單個模式測試誤差的平均數(shù) M 和標準差 SD，如表 3 所示。從表中數(shù)據(jù)可以看出，隨著訓(xùn)練項目數(shù)的增加，對項目參數(shù) a、b 和 c 的測試誤差都有明顯降低，當(dāng)項目數(shù)達到 105 時，基本上已經(jīng)可以接受參數(shù)估計的結(jié)果了。附圖從上面的討論可以看出，在該計算機模擬實驗中，共有兩組被試，第一組被試是用于能力測試模式的，第二組被試是用于能力訓(xùn)練模式的；該實驗中有三組項目，其中的第二組項目是第一組的一部分，第一組項目用于項目參數(shù)訓(xùn)練和能力測試模式的，第三組項目是用于項目參數(shù)測試模式的，第二組項目是用于能力訓(xùn)練模式的；該實驗中有三個反應(yīng)矩陣，其中的第一矩陣又被分為左、右兩個部分

23、，左部分是由被抽取出來的第二組項目產(chǎn)生的，右部分是由其余項目產(chǎn)生的，第二矩陣的“行”作為能力訓(xùn)練模式，第一矩陣的“行”作為能力測試模式，第一矩陣的“列”作為項目參數(shù)訓(xùn)練模式，第三矩陣的“列”作為項目參數(shù)測試模式。4.5實際測驗中的被試能力和項目參數(shù)估計步驟小結(jié)上述的實驗是在計算機模擬的情況下了產(chǎn)生的各組被試能力和項目參數(shù)，在實際的測驗情況中，可以按照以下步驟來進行測驗編制以及被試能力和項目參數(shù)估計：(1)在已知項目參數(shù)的題庫中取出若干個項目（類似于上述模擬實驗中的第二組項目，這些項目可以是二值記分的，它可以事先通過 BILOG 等估計得到），再加上自行編制的、未知參數(shù)的若干項目（類似于上述模擬

24、實驗中第三組項目），混合后組成實際的測驗試卷。(2)用這一試卷對一組真實的被試（類似于上述模擬實驗中的第一組被試）進行測試，得到一組實際的結(jié)果。(3)用蒙特卡羅方法產(chǎn)生一組被試的能力值（類似于上述模擬實驗中的第二組被試），令它和真實試卷中的已知項目參數(shù)的那部分項目（類似于上述模擬實驗中的第二組項目）起反應(yīng)，得到反應(yīng)矩陣（類似于上述模擬實驗中的第二矩陣）。(4)用這一矩陣和這組蒙特卡羅方法產(chǎn)生的被試能力值組成能力訓(xùn)練模式，對一組神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。(5)用真實的測驗結(jié)果矩陣的每一行作為一個模式的輸入部分，輸入上述經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，其輸出就是真實被試的能力估計值。(6)運用蒙特卡羅方法產(chǎn)生一組項目

25、參數(shù)，根據(jù)上述的模擬實驗，大約要有100 個項目的參數(shù)，令真實被試的能力估計值和它們起反應(yīng)，得到一個反應(yīng)矩陣（類似于上述模擬實驗中的第一矩陣右部分）。用這個矩陣中的每一列和相應(yīng)的蒙特卡羅方法產(chǎn)生的項目參數(shù)組成訓(xùn)練模式，對另一組神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，使之具有估計項目參數(shù)的功能。(7)將這一經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對真實測驗中未知參數(shù)的那部分項目（類似于上述模擬實驗中的第三組項目）進行參數(shù)估計，從而得到這些項目的參數(shù)估計值。至此，就把實際的被試能力和項目參數(shù)估計出來了。對照上述模擬實驗的圖 1，其中的第一矩陣左部分和第三矩陣是由真實測驗的數(shù)據(jù)產(chǎn)生的，第一矩陣的右部分和第二矩陣是用蒙特卡羅方法產(chǎn)生的。5討論5

26、.1該方法的優(yōu)點(1)提出了一種全新的 IRT 項目參數(shù)和被試能力的估計方法，以往的方法都是建立在統(tǒng)計基礎(chǔ)上的，而該方法則是建立在聯(lián)結(jié)主義理論（人工神經(jīng)網(wǎng)絡(luò)）基礎(chǔ)上的。(2)以往的方法多數(shù)只能對二值記分的 IRT 模型進行參數(shù)估計，本研究中的方法則可以對連續(xù)記分的 IRT 模型進行參數(shù)估計。由于人工神經(jīng)網(wǎng)絡(luò)有很強的學(xué)習(xí)功能，因此從理論上講，它也可以用于等級記分和二值記分的 IRT 模型，當(dāng)然，這有待于進一步的實驗研究。(3)本研究中用于估計被試能力的樣本只有 25 人，用于估計項目參數(shù)的樣本只有 15 個項目，都屬于比較小的樣本，這說明該方法可以用于小樣本的情況，這是以往方法所不能解決的。雖然

27、在對神經(jīng)網(wǎng)絡(luò)訓(xùn)練時可能要用到較多的訓(xùn)練模式，但這些模式是可以用蒙特卡羅方法產(chǎn)生的，并不要擴大實際的測驗樣本。(4)在使用一般的統(tǒng)計方法處理小樣本的數(shù)據(jù)時，確實存在著參數(shù)估計的可靠性問題，但是本實驗的研究表明，在運用與統(tǒng)計方法完全不同的聯(lián)結(jié)主義（人工神經(jīng)網(wǎng)絡(luò)）方法處理數(shù)據(jù)時，就有可能克服這一困難。這是什么原因呢？在對人工神經(jīng)網(wǎng)絡(luò)理論進行深入探討以后1517，可以發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在對 IRT 參數(shù)進行估計時，并不是一開始就直接根據(jù)原始數(shù)據(jù)來估計參數(shù)，而是先對一組神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，使它們首先具備了這方面的知識，然后再用訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)對 IRT 參數(shù)進行估計，這種參數(shù)估計的可靠性如何，并不取決于被估計的

28、樣本的大小，而是取決于對這些神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練的樣本的數(shù)量、質(zhì)量以及神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和算法。在這其中，訓(xùn)練模式是研究者運用蒙特卡羅方法產(chǎn)生的，它本身并不是一個小樣本，而是一個比較大的樣本；產(chǎn)生這些數(shù)據(jù)的模型就是 IRT 模型本身，因此數(shù)據(jù)本身的質(zhì)量是有保證的。關(guān)于神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)，在大多數(shù)情況下是要通過預(yù)測和調(diào)整學(xué)習(xí)率等參數(shù)來確定隱含層的數(shù)量和其中每一層的神經(jīng)元的數(shù)量，但由于本研究采用的是級聯(lián)相關(guān)模型，它可以根據(jù)反傳誤差的大小自動地調(diào)整網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和聯(lián)結(jié)權(quán)重，因此可以自動地建立優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)，不再需要考慮學(xué)習(xí)率等問題；另外在人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中，本研究的程序設(shè)計也使得只有誤差達到預(yù)定的

29、很小的數(shù)值時，訓(xùn)練過程才停止，這就保證了被訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)是較高質(zhì)量的。由此可見，聯(lián)結(jié)主義（人工神經(jīng)網(wǎng)絡(luò)）模型是采用了和一般統(tǒng)計技術(shù)完全不同的思路和方法，它對 IRT 參數(shù)估計的可靠性主要不是取決于被估計樣本的大小，而是依賴于經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的質(zhì)量，因此我們只要采取一定的措施將神經(jīng)網(wǎng)絡(luò)訓(xùn)練好，就有可能對小樣本的 IRT 數(shù)據(jù)進行可靠的參數(shù)估計。5.2需要進一步研究的問題(1)首先是在編制測驗時，需要一部分已知項目參數(shù)的二值記分題目，這對于已經(jīng)建立題庫的學(xué)科來說是可以做到的，但對于尚未建立題庫的學(xué)科，就無法運用這一方法。雖然可以用 BILOG 等軟件對有關(guān)的二值記分項目進行參數(shù)估計，但如果沒有

30、 BILOG 等軟件又該怎么辦呢？要解決這個問題，需要構(gòu)造更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，筆者目前正在構(gòu)造“基于知識的級連相關(guān)模型”，并試圖用它解決這一困難，實驗結(jié)果將另文闡述。(2)該方法要求實際的測驗中有一部分作為錨題的項目是已知參數(shù)的，那么這一部分錨題至少應(yīng)該是多少項目呢？它們占整個測驗的比例至少要達到多少呢？本實驗表明若錨題數(shù)量為 15，它們在整個測驗中所占比例為三分之一，就可獲得良好結(jié)果，那么少于 15 個項目行不行？低于三分之一的比例行不行？筆者也正在作進一步的實驗。(3)本研究中用蒙特卡羅方法產(chǎn)生虛擬的被試能力和項目參數(shù)，那么它們的分布應(yīng)該是什么形式為最好？人工神經(jīng)網(wǎng)絡(luò)的理論認為是均勻分

31、布為最好，因此在本研究中采用了均勻分布。但是在對實際數(shù)據(jù)的分析中，有些數(shù)據(jù)是由真實的被試和項目產(chǎn)生的，不可能保證他（它）們呈完全的均勻分布，那么這種偏離均勻分布的情況對于估計值的誤差有多大影響？另外，是否可以減少虛擬數(shù)據(jù)數(shù)量甚至取消虛擬數(shù)據(jù)，而完全采用真實的數(shù)據(jù)？也需要進一步探討。雖然有待于進一步研究的問題還很多，但這一實驗畢竟提出了一種新的、有一定應(yīng)用價值的方法。【參考文獻】1HambletonRK.ItemResponseTheory:PrinciplesandAppli-cations.Boston:Kluwer-NijhoffPub,1985.58632YuJY.ItemRespons

32、eTheoryandItsApplication(inChin-ese).Nanjing:JiangsuEducationPress,1992.7984（余嘉元.項目反應(yīng)理論及其應(yīng)用.南京：江蘇教育出版社，1992.7984）3BakerFB.ItemResponseTheory:ParameterEstimationTec-hniques.NewYork:M.Dekker,1992.66714McLeadP.IntroductiontoConnectionistModelingofCogn-itiveProcesses.NewYork:OxfordUniversityPress,1998.2

33、562615MahwahNJ,ErlbaumLL.LocalistConnectionistApproachestoHumanCognition.NewYork:OxfordUniversityPress,1998,1881926Anderson,J.A.AnIntroductiontoNeuralNetworks.Cambrid-ge:TheMITPress,1995,136143.7YuJY.Studyingperceptualboundaryeffectswithconnec-tionistmodel(inChinese).ActaPsychologicaSinica,2001,33(2):123126（余嘉元.運用聯(lián)結(jié)主義模型研究知覺邊界效應(yīng)問題，心理學(xué)報，2001,33(2):123126）8HaykinSS.NeuralNetworks:AComprehensiveFoundation.UpperSaddleRiver,N.N.,PressHall,1999.1781819FahlmanSE,LebiereC

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計論文

文檔簡介

溫馨提示

最新文檔

評論

基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計 論文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

基于聯(lián)結(jié)主義的連續(xù)記分irt模型的項目參數(shù)和被試能力估計論文