教育測量與評價課件(3)(第三章 教育測量與評價的質(zhì)量特性)_第1頁
教育測量與評價課件(3)(第三章 教育測量與評價的質(zhì)量特性)_第2頁
教育測量與評價課件(3)(第三章 教育測量與評價的質(zhì)量特性)_第3頁
教育測量與評價課件(3)(第三章 教育測量與評價的質(zhì)量特性)_第4頁
教育測量與評價課件(3)(第三章 教育測量與評價的質(zhì)量特性)_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第三章教育測量與評價的質(zhì)量特性教育測量與評價的信度教育測量與評價的效度教育測量與評價中項目的難度教育測量與評價中項目的區(qū)分度信度的意義

信度是指測量結(jié)果的穩(wěn)定性程度,記為rXX

。換一句話說,信度是指用同一測量工具反復(fù)測量同一種物質(zhì)對象所得多次測量結(jié)果間的一致性程度。測驗信度是對測驗工具及其操作的整體質(zhì)量的一種量度,是測驗性能的重要質(zhì)量指標(biāo)。如果測驗本身抗干擾能力強,測驗實施過程各方面誤差因素都控制得好,多次施測所得分?jǐn)?shù)(測值)的一致性就高,那么測量信度高,人們在使用所得測值時就會感覺可靠。信度的統(tǒng)計定義

定義1:信度是一個被測團體真分?jǐn)?shù)方差與觀察分?jǐn)?shù)方差之比。即:rXX=σ2T/σ2X

定義2:信度是一個被試團體的真分?jǐn)?shù)與觀察分?jǐn)?shù)的相關(guān)系數(shù)的平方。即:rXX=ρ2TX

定義3:信度是一個被試團體在測驗X(A卷)上的觀察分?jǐn)?shù)與在測驗X的任意一個“平行測驗”X′(B卷)上觀察分?jǐn)?shù)的相關(guān)系數(shù)。即:rXX=

ρXX′重測信度(穩(wěn)定性系數(shù))(1)重測信度是指用一個量表(測驗或評價表)對同一組被施測兩次所得結(jié)果的一致性程度,其大小等于同一組被試在兩次測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。(2)重測信度基本假設(shè):某測驗所要測量的潛在特質(zhì),短期內(nèi)不會隨著時間推移而改變。(3)重測信度適用于異質(zhì)性測驗(一個測驗包括幾個不同的部分,這幾個部分分別測量幾個不同的心理特質(zhì),它們之間可能并不存在相關(guān)或相關(guān)較低),也適用于速度測驗和運動技能測驗。復(fù)本信度(等值性系數(shù)或等值穩(wěn)定性系數(shù))

(1)復(fù)本信度是指兩個平行測驗(在試題格式、題數(shù)、難度、指導(dǎo)語說明、施測要求等方面都相當(dāng),并且都用來測量相同潛在特質(zhì)或?qū)傩?,但試題又是不相同的測驗)測量同一批被試所得結(jié)果的一致性程度,其大小等于同一批被試在兩個復(fù)本測驗上所得分?jǐn)?shù)的相關(guān)系數(shù)。(2)實施復(fù)本測驗的方式:一是在同一個時間連續(xù)施測(此時所得的復(fù)本信度叫等值性系數(shù)),二是間隔一段時間后施測(此時所得復(fù)本信度叫等值穩(wěn)定性系數(shù))。(3)使用復(fù)本信度首先要構(gòu)造出兩份或兩份以上的真正的平行測驗。這是一個很難達(dá)到的條件。另外,重測信度的一些不足,在復(fù)本信度中仍然存在,需要加以克服。(4)復(fù)本信度不僅適用于難度測驗,也是估計速度測驗信度的好方法。(1)同質(zhì)性信度(內(nèi)部一致性信度)是指測驗內(nèi)部所有題目間的一致性程度。這里題目間的一致性含有兩層意思:其一是指所有題目測的是同一種心理特質(zhì);其二是所有題目得分之間都具有較高的正相關(guān)。(2)同質(zhì)性信度的基本假設(shè):當(dāng)一個測驗具有較高的同特性信度時,說明測驗主要測的是某一單個心理特質(zhì),由于眾多的題目測試了同一心理特質(zhì),那么實測結(jié)果就是該特質(zhì)水平的反映。(3)同質(zhì)性信度不適用于異質(zhì)測驗和速度測驗。同質(zhì)性信度的概念(1)分半信度分半信度指是的將一個測驗分成對等的兩半后,所有被試在這兩半上所得分?jǐn)?shù)的一致性程度。分半信度的計算方法和等值復(fù)本信度的方法類似,只不過分半信度計算的是兩個“半測驗”上得分的相關(guān)系數(shù),只是半個測驗的信度,還必須用斯皮爾曼—布朗公式加以校正。(2)庫德-理查遜信度該方法適合于測驗題目全部為二分記分題的測驗的內(nèi)部一致性信度分析。常用的庫德-理查遜公式有:和(3)克龍巴赫系數(shù)當(dāng)測驗題型較多,并非都是二分記分題時,估計測驗信度可采用克龍巴赫系數(shù)。其計算公式為:(4)荷伊特信度

1941年荷伊特提出用方差分量比來估計測驗內(nèi)部一致性的方法,其估計值為:同質(zhì)性信度的估計方法評分者信度

評分者信度的含義

評分者信度是指多個評分者給同一批人的答卷進行評分的一致性程度。

評分者信度的計算(1)當(dāng)評分者人數(shù)為兩人時,評分者信度等于兩個評分者給同一批被試的答卷所評分?jǐn)?shù)的相關(guān)系數(shù)。依據(jù)數(shù)據(jù)形式,可采用不同的相關(guān)系數(shù)計算方法。(2)當(dāng)評分者人數(shù)多于兩人時,評分者信度可用肯德爾和諧系數(shù)進行估計。(1)百分比一致性指標(biāo)(PA)

百分比一致性指標(biāo)是指同一測驗或兩平行測驗先后兩次施測,其對被試的分類結(jié)果一致的比例。其計算公式為:(2)K一致性系數(shù)

K一致性系數(shù)是指實際被評定為一致的百分比與在理論上被評定為一致的最大可能次數(shù)百分比的比率。其計算公式:(其中)(3)K2指數(shù)標(biāo)準(zhǔn)參照測驗關(guān)注決斷的可靠性,而這種決斷顯然與被試團體的平均水平密切相關(guān)。在考慮到這個因素的基礎(chǔ)上,心理統(tǒng)計學(xué)家萊芬斯頓提出了K2指數(shù)作為考察標(biāo)準(zhǔn)參照測驗信度的指標(biāo)。其計算公式為:或或標(biāo)準(zhǔn)參照測驗的信度分析測量標(biāo)準(zhǔn)誤

測量標(biāo)準(zhǔn)誤的含義

測量標(biāo)準(zhǔn)誤是指測驗中所得測值偏離真分?jǐn)?shù)的程度,記為SE。

測量標(biāo)準(zhǔn)誤與測驗信度的關(guān)系

測量標(biāo)準(zhǔn)誤的意義

測量標(biāo)準(zhǔn)誤是反映測量結(jié)果精確性和可靠性的又一指標(biāo),同時也是人們正確解釋測驗分?jǐn)?shù)的科學(xué)依據(jù)。效度的概念效度的意義

效度是指一個測驗或量表實際能測出其所要測量的特性的程度。對這一概念,我們可以從以下幾個方面來理解:

①效度始終是針對一定測量目的而言的;②效度只有程度上的差異;③效度是針對測量結(jié)果而言的;④評價一個測量是否有效要多角度、多方面地收集證據(jù)。效度的統(tǒng)計定義

效度可定義為目標(biāo)真分?jǐn)?shù)方差與觀察分?jǐn)?shù)方差之比:rXY=σ2V/σ2X

效度與信度的關(guān)系

(1)信度高是效度高的必要而非充分條件(2)效度系數(shù)不會大于信度系數(shù)的平方根

如何理解“效度”的意義?思考題

效度是指一個測驗或量表實際能測出其所要測量的特性的程度。對這一概念,我們可以從以下幾個方面來理解:(1)效度始終是針對一定測量目的而言的;(2)效度只有程度上的差異;(3)效度是針對測量結(jié)果而言的;(4)評價一個測量是否有效要多角度、多方面地收集證據(jù)。答:內(nèi)容效度內(nèi)容效度的含義及應(yīng)用范圍

內(nèi)容效度是指測驗題目樣本對于應(yīng)測內(nèi)容與行為領(lǐng)域的代表性程度。如果是教學(xué)情境下的成就測驗,那么其內(nèi)容效度就是看測驗題目樣本能體現(xiàn)教學(xué)目標(biāo)與教材要求的程度。內(nèi)容效度主要適用于教育測量(尤其是學(xué)業(yè)成就測驗)的情境中,也適合于某些用于選拔和分類的職業(yè)測驗,但不適合某些心理測驗(如智力測驗、人格測驗)。內(nèi)容效度的分析方法①邏輯分析的方法內(nèi)容效度的邏輯分析法,即依靠有關(guān)專家對測驗題目與應(yīng)測內(nèi)容范圍的吻合程度作出判斷。②內(nèi)容效度的量化分析方法該方法要求專家在仔細(xì)審閱測驗?zāi)繕?biāo)的基礎(chǔ)上,獨立地對測驗的每個題目作出判斷:“該題目實際測到的內(nèi)容與其欲測量的目標(biāo)內(nèi)容之間相關(guān)程度如何,并用四點量表(用完全無關(guān)、有點相關(guān)、相關(guān)較密切、完全相關(guān)來表示)來表示這種相關(guān)的程度大小”;當(dāng)兩位專家完成此項工作后,統(tǒng)計弱相關(guān)(完全無關(guān)、有點相關(guān))、強相關(guān)(相關(guān)較密切、完全相關(guān))的題目數(shù),則此測驗的內(nèi)容效度系數(shù)為:內(nèi)容效度系數(shù)=D/(A+B+C+D)(D表示兩位專家都判定為強相關(guān)的題目數(shù))結(jié)構(gòu)效度結(jié)構(gòu)效度的含義

結(jié)構(gòu)效度是指一個測驗或量表實際測到所要測量的理論結(jié)構(gòu)(結(jié)構(gòu)是指心理學(xué)或社會學(xué)上的一種理論構(gòu)想或特質(zhì))的程度。結(jié)構(gòu)效度的驗證一般步驟①提出有關(guān)理論結(jié)構(gòu)的說明,并據(jù)此設(shè)計測量用的試題;②提出可以驗證該理論結(jié)構(gòu)是存在的假設(shè)說明;③采用各種方法收集實際的資料,以驗證第二步提出的假設(shè)的正確性;④收集其他類型的輔助證據(jù),淘汰與理論結(jié)構(gòu)相反的試題,或是修正理論,并重復(fù)第二和第三步,直到下述的假設(shè)得到驗證,即測驗的結(jié)構(gòu)效度獲得支持為止。結(jié)構(gòu)效度的驗證方法①測驗內(nèi)部尋找證據(jù)法

這種方法是通過研究測驗內(nèi)部結(jié)構(gòu)來驗證測驗的結(jié)構(gòu)效度。它主要包括內(nèi)容效度、作答過程分析、測驗的同質(zhì)性和因素分析等四個方面。②測驗之間尋找證據(jù)法

這一方法的特點是同時考察兩個或多個測驗間的相互關(guān)系,從而來驗證測驗的結(jié)構(gòu)效度。它包括相容效度、聚合效度、區(qū)分效度和“多種特質(zhì)-多種方法矩陣法”等具體方法。③考察測驗的實證效度法

如果一個測驗有實證效度,則可以拿該測驗所預(yù)測的效標(biāo)的性質(zhì)與種類作為該測驗的結(jié)構(gòu)效度指標(biāo),至少可以從效標(biāo)的性質(zhì)與種類來推論測量的結(jié)構(gòu)效度。主要方法有差異被試比較法和先后測試分析法。效標(biāo)關(guān)聯(lián)效度效標(biāo)關(guān)聯(lián)效度的含義、種類及適用范圍

效標(biāo)關(guān)聯(lián)效度是指一個測驗對于處于特定情境中的個體行為進行預(yù)測時的有效性。根據(jù)效標(biāo)資料獲得的時間不同及測驗使用的目的不同,效標(biāo)關(guān)聯(lián)效度可以分為:①同時效度:測驗分?jǐn)?shù)與效標(biāo)資料的取得約在同一時間內(nèi)連續(xù)完成,計算這兩種資料的相關(guān)系數(shù)即代表測驗的同時效度。這種效度的目的主要用于診斷現(xiàn)狀,在于用更簡單、更省時、更廉價和更有效的測驗分?jǐn)?shù)來取代不易搜集的效標(biāo)資料。②預(yù)測效度:在測驗分?jǐn)?shù)取得一段時間后才獲得效標(biāo)資料,計算這兩種資料間的相關(guān)系數(shù)即代表測驗的預(yù)測效度。預(yù)測效度的作用在于預(yù)測某個個體將來的行為。效標(biāo)關(guān)聯(lián)效度的估計方法①相關(guān)法:該方法就是計算測驗分?jǐn)?shù)與效標(biāo)測量的相關(guān)系數(shù),具體方法有:積差相關(guān)、等級相關(guān)、點雙列相關(guān)、二列相關(guān)、四分相關(guān)、Φ相關(guān)、列聯(lián)相關(guān)法等等。在使用過程中,該選擇何種計算方法,應(yīng)根據(jù)測驗分?jǐn)?shù)與效標(biāo)測量數(shù)據(jù)資料的形式而定。②顯著差異法:該方法是根據(jù)效標(biāo)測量將被試分為兩個極端組,然后檢驗這兩組測驗分?jǐn)?shù)是否具有統(tǒng)計學(xué)上的差異顯著性。若這兩組被試的測驗分?jǐn)?shù)差異,則說明該測驗有較高的效度。③命中率:當(dāng)測驗用取舍決策時,常使用命中率這一指標(biāo)。因為這類測驗效度高不高,就是看其取舍是否與實際一致。命中率包括總命中率、正命中率和負(fù)命中率三種。

試比較內(nèi)容效度、結(jié)構(gòu)效度、效標(biāo)關(guān)聯(lián)效度的異同?思考題

相同點:三者都是作為檢驗測驗有效程度的指標(biāo),都可以作為評價一個測驗優(yōu)劣的標(biāo)準(zhǔn)。不同點:①考察的角度不同。內(nèi)容效度是指測驗題目樣本對于應(yīng)測內(nèi)容與行為領(lǐng)域的代表性程度。結(jié)構(gòu)效度是指一個測驗或量表實際測到所要測量的理論結(jié)構(gòu)(結(jié)構(gòu)是指心理學(xué)或社會學(xué)上的一種理論構(gòu)想或特質(zhì))的程度。效標(biāo)關(guān)聯(lián)效度是指一個測驗對于處于特定情境中的個體行為進行預(yù)測時的有效性。②應(yīng)用的范圍不同。內(nèi)容效度主要適用于教育測量(尤其是學(xué)業(yè)成就測驗)的情境中,也適合于某些用于選拔和分類的職業(yè)測驗,但對于某些特質(zhì)的心理測驗(如智力測驗、人格測驗),內(nèi)容效度并不適合。結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。效標(biāo)關(guān)聯(lián)效度適用于能夠找到有效效標(biāo)的測驗,常用的效標(biāo)主要有:學(xué)業(yè)成就、等級評定、臨床診斷、專門的訓(xùn)練成績、實際的工作表現(xiàn)、對團體的區(qū)分能力以及其它現(xiàn)成的有效測驗。③確定的方法不同。內(nèi)容效度確定的主要方法是邏輯分析法、量化分析法。結(jié)構(gòu)效度確定的主要方法是測驗內(nèi)部尋找證據(jù)法、測驗之間尋找證據(jù)法和考察測驗的實證效度法;效標(biāo)關(guān)聯(lián)效度確定的主要方法有相關(guān)法、顯著差異法、命中率。答:題目或項目的難度,就是指被試完成題目或項目任務(wù)時所遇到的困難程度。定量刻畫被試作答一個題目的困難程度的量數(shù),就叫做題目的難度系數(shù),也常稱為難度值,用符號P表示。難度的概念

(1)以全體被試得分率為難度系數(shù)如果一個題目的難度大,則被試得高分的可能性小;反之,如果題目的難度小,則被試得高分的可能性就大。因此,用得分率可以作為難度系數(shù)的指標(biāo)。其計算公式為:如果題目是選擇題的話,被試有可能猜對而得分,因此,對選擇題的難度系數(shù)有人建議需用下面的公式進行校正:CP=(kP-1)/(k-1)(2)以全體被試失分率為難度系數(shù)直接建立在通過率基礎(chǔ)上的難度系數(shù),P值越大試題越容易,P值越小試題越難做。這與人們觀念可能不一致,因此有人提議用失分率q來表示難度,計算公式為:q=1-P難度系數(shù)的計算方法(一)(3)以兩端組被試得分率的均值為難度系數(shù)該方法是分別計算高分組被試和低分組被試的得分率,然后求取二者的平均值作為難度系數(shù),公式為:P=(PH+PL)/2

以兩端組被試的得分率作為難度系數(shù)的具體計算步驟:①按被試的總分,將全體被試從高到低進行排序;②從高分往下找,找出高分組;由低分往上找,找出低分組。兩組人數(shù)分別占總?cè)藬?shù)的27%;③分別計算高分組、低分組的被試在該題目上的平均得分;④代入公式,分別計算分組和低分組被試在同一個題目上的難度系數(shù);⑤把PH和PL代入公式P=(PH+PL)/2,計算這個題目的難度系數(shù)。難度系數(shù)的計算方法(二)用上述方法計算出來的難度系數(shù),都屬于順序變量,不具有相等的單位。因此,通過P值的比較并不能客觀指出難度之間差異大小,這對我們作進一步的難度分析帶來了困難。為了解決這個問題,人們常假設(shè)每個試題所要測量的潛在特質(zhì)或能力是呈正態(tài)分布的,然后就可以根據(jù)正態(tài)分布曲線,將試題的難度值P作為正態(tài)曲線下的(概率)面積,轉(zhuǎn)換成具有相等單位的等距量表,即Z分?jǐn)?shù)(標(biāo)準(zhǔn)分?jǐn)?shù))。由于標(biāo)準(zhǔn)分?jǐn)?shù)具有相等單位,屬于等距量表。所以,用標(biāo)準(zhǔn)分?jǐn)?shù)作為題目難度的指標(biāo),為進一步作難度分析帶來了一些方便。難度的等距變換測驗由多個題目所組成,顯然,所有這些題目的難度取值都應(yīng)該力求恰當(dāng),而且這些題目分布狀態(tài)也應(yīng)合理。究竟怎樣的題目難度與難度分布是合適的,這主要取決于測驗的目的與性質(zhì)。測驗題目的恰當(dāng)難度和恰當(dāng)難度分布

常模參照測驗、標(biāo)準(zhǔn)參照測驗所要求的項目恰當(dāng)難度及難度分布是什么?為什么?思考題

(1)①常模參照測驗的項目恰當(dāng)難度是P值盡量接近0.50,因為只有在這種情況下題目的區(qū)分性能最好。②常模參照測驗所要求的項目恰當(dāng)難度分布是,圍繞這個點,有一個適當(dāng)寬的全距。這樣做的原因有以下兩個:一是測驗時,通常希望開始有幾個難度較低的題目來穩(wěn)定被試情緒,末尾用幾個難度稍大的題目以便只有少數(shù)高水平者才能通過,二是讓全部項目都取0.50的難度,通常難以實現(xiàn)。當(dāng)然,在允許有適當(dāng)寬的全距的前提下,仍然要力爭大多數(shù)項目難度取值接近0.50。(2)標(biāo)準(zhǔn)參照測驗的目的是要考察被試的水平是否達(dá)到應(yīng)有要求,因而測驗項目的難度,就不應(yīng)由被試的實際通過率來決定,而應(yīng)由項目的考核要求是否體現(xiàn)了應(yīng)有標(biāo)準(zhǔn)或教學(xué)目標(biāo)來決定。無論項目通過率是高還是低,只要體現(xiàn)了應(yīng)用的標(biāo)準(zhǔn)或教學(xué)目標(biāo),項目的難度就是合理的恰當(dāng)?shù)?。?

題目區(qū)分度是指題目區(qū)別被試水平能力的量度,記為

D。區(qū)分度的分析方法,大約可以歸納成兩類:一是外在效標(biāo)法,即分析被試在測驗題目上的得分與外在客觀標(biāo)準(zhǔn)上的表現(xiàn)之間的關(guān)系。二是內(nèi)部一致性法。即分析被試在測題上的得分與在整個測驗總分之間的一致性程度。區(qū)分度的值域范圍在-1.00至+1.00之間。通常D為正值,稱作積極區(qū)分;D為負(fù)值,稱作消極區(qū)分;D為0,稱作無區(qū)分作用。具有積極區(qū)分作用的項目,其D值越大,區(qū)分的效果越好。區(qū)分度的意義(1)相關(guān)法

區(qū)分度的實質(zhì)是題分與總分的相關(guān),因此,各種計算相關(guān)系數(shù)的方法都可以用于計算區(qū)分度。但具體采用哪一個,應(yīng)根據(jù)題分、總分的數(shù)據(jù)形式而定。(2)高低分組法

被試在測驗分?jǐn)?shù)序列中兩端高分、低分組被認(rèn)為是兩個極端效標(biāo)組。這兩個極端效標(biāo)組間在特定題目上的反應(yīng)差別程度可以刻畫題目的區(qū)分能力。因此,類似于前面談及應(yīng)用兩端分組的辦法來估計題目的難度系數(shù)一樣,可用高分組在特定題目上的得分率和低分組在相同題目上的得分北之差作為題目區(qū)分度的指標(biāo)(高分、低分組人數(shù)比例各占總?cè)藬?shù)的27%),被稱為鑒別度指數(shù),記為

D。計算公式為:D=PH-PL

。為計算方便,還可采用公式:區(qū)分度的計算

對多級記分的論文型試題,求積差相關(guān)后剔除偽相關(guān)因素做校正,其校

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論