大規(guī)模教育考試-理論和實踐問題-166頁PPT文課件_第1頁
大規(guī)模教育考試-理論和實踐問題-166頁PPT文課件_第2頁
大規(guī)模教育考試-理論和實踐問題-166頁PPT文課件_第3頁
大規(guī)模教育考試-理論和實踐問題-166頁PPT文課件_第4頁
大規(guī)模教育考試-理論和實踐問題-166頁PPT文課件_第5頁
已閱讀5頁,還剩161頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 大規(guī)模教育考試理論和實踐問題理論和實踐問題雷雷 新新 勇勇上海市教育考試院上海市教育考試院 考試考學(xué)生什么?考試考學(xué)生什么? 考試分數(shù)準確、可靠嗎?考試分數(shù)準確、可靠嗎? 考試對所有的考生公平、公正嗎?考試對所有的考生公平、公正嗎? 考試的價值觀與社會的公認價值觀一致嗎?考試的價值觀與社會的公認價值觀一致嗎?考試對學(xué)校的教育、教學(xué)有正面的作用嗎?考試對學(xué)校的教育、教學(xué)有正面的作用嗎?大規(guī)模教育考試關(guān)注的基本問題大規(guī)模教育考試關(guān)注的基本問題抽象出的考試理論和實踐問題抽象出的考試理論和實踐問題 考試的信度考試的信度可靠性或分數(shù)的誤差可靠性或分數(shù)的誤差 考試的效度考試的效度考試的有效性或?qū)荚嚱Y(jié)果

2、的解考試的有效性或?qū)荚嚱Y(jié)果的解 釋和適用是否適當、有效。釋和適用是否適當、有效。 考試的公平、公正性考試的公平、公正性考試平等對待所有考生考試平等對待所有考生 考試的后效影響考試的后效影響考試對社會價值觀、對學(xué)??荚噷ι鐣r值觀、對學(xué)校 教育教學(xué)有何影響教育教學(xué)有何影響教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)1 1:人的心理特質(zhì)是存在的:人的心理特質(zhì)是存在的 心理特質(zhì):一個個體與其他個體不同的、可以識別的、心理特質(zhì):一個個體與其他個體不同的、可以識別的、相對穩(wěn)定的特征(相對穩(wěn)定的特征(Any distinguished, relatively Any disting

3、uished, relatively enduring way in which one individual varies from enduring way in which one individual varies from anotheranother) 。例如,人的智力、認知方式、適應(yīng)性、興。例如,人的智力、認知方式、適應(yīng)性、興趣、態(tài)度、價值觀、一般個性、特殊個性等趣、態(tài)度、價值觀、一般個性、特殊個性等根據(jù)對人的行為樣本的觀察可以確定心理特質(zhì)及其強度。根據(jù)對人的行為樣本的觀察可以確定心理特質(zhì)及其強度。 觀察方式:觀察方式:direction observationdirection

4、 observation analysis of self-report statements analysis of self-report statements testing testing教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)1 1:人的心理特質(zhì)是存在的:人的心理特質(zhì)是存在的 心理結(jié)構(gòu)(心理結(jié)構(gòu)(constructconstruct):):an informed, scientifican informed, scientific concept to explain behavior. concept to explain behavior. 知識與技能、

5、過程與方法、情感、態(tài)度和價值觀知識與技能、過程與方法、情感、態(tài)度和價值觀 相對穩(wěn)定相對穩(wěn)定(relatively enduring):(relatively enduring):個體在某種程度上表現(xiàn)出個體在某種程度上表現(xiàn)出某一特質(zhì)是具有環(huán)境依賴性的某一特質(zhì)是具有環(huán)境依賴性的. 一個個體與其他個體不同的特征(一個個體與其他個體不同的特征(one individual varies one individual varies from anotherfrom another):心理特質(zhì)的這個屬性說明心理特征是一個):心理特質(zhì)的這個屬性說明心理特征是一個相對現(xiàn)象,在教育和心理測試與評價中,評價者也要

6、將對象相對現(xiàn)象,在教育和心理測試與評價中,評價者也要將對象的評價情況與假設(shè)的一般人,做出比較,或者直接將同一評的評價情況與假設(shè)的一般人,做出比較,或者直接將同一評價群體中的不同個體作比較。價群體中的不同個體作比較。教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)2 2:心理特質(zhì)或心理結(jié)構(gòu)是可以量化并且測量的:心理特質(zhì)或心理結(jié)構(gòu)是可以量化并且測量的 定義心理結(jié)構(gòu)定義心理結(jié)構(gòu) 行為目標:根據(jù)什么樣的行為來判斷對象具備的心理結(jié)構(gòu)的行為目標:根據(jù)什么樣的行為來判斷對象具備的心理結(jié)構(gòu)的強度。強度。 如何使考生表現(xiàn)出要觀察的行為:用何內(nèi)容的試題如何使考生表現(xiàn)出要觀察的行為:用何內(nèi)容的試題

7、 如何對行為進行量化:賦分如何對行為進行量化:賦分 如何用數(shù)學(xué)模型進行處理如何用數(shù)學(xué)模型進行處理教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)3 3:與考試相關(guān)的行為可以預(yù)測非考試相關(guān)的行為:與考試相關(guān)的行為可以預(yù)測非考試相關(guān)的行為 預(yù)測什么非考試環(huán)境下的行為預(yù)測什么非考試環(huán)境下的行為? 高考:高等教育條件下的行為高考:高等教育條件下的行為 考試中,創(chuàng)造哪種測試環(huán)境考試中,創(chuàng)造哪種測試環(huán)境 英語:真實的交際語言環(huán)境英語:真實的交際語言環(huán)境 數(shù)學(xué):抽象的、數(shù)學(xué):抽象的、academic circumstancesacademic circumstances 物理:真實的、抽象

8、的、物理:真實的、抽象的、academicacademic、experimentalexperimental 化學(xué):真實的、抽象的、化學(xué):真實的、抽象的、academicacademic、experimentalexperimental 地理:真實的、地理:真實的、earth-relatedearth-related教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)4 4:每種測試方法或技術(shù)都有其優(yōu)勢和弱勢:每種測試方法或技術(shù)都有其優(yōu)勢和弱勢 Paper and pencil TestingPaper and pencil Testing Oral TestOral Test

9、InterviewInterview Class ObservationClass Observation School ObservationSchool Observation 常模參照和標準參照考試常模參照和標準參照考試教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)5 5:測量過程中必然會產(chǎn)生誤差。:測量過程中必然會產(chǎn)生誤差。 誤差是指測量心理結(jié)構(gòu)以外的因素所產(chǎn)生的效應(yīng)。誤差是指測量心理結(jié)構(gòu)以外的因素所產(chǎn)生的效應(yīng)。 教育考試中考生的行為表現(xiàn)除受到測量的心理結(jié)構(gòu)影響外,教育考試中考生的行為表現(xiàn)除受到測量的心理結(jié)構(gòu)影響外,還會受到其他因素的影響,這些因素所產(chǎn)生的效應(yīng)就是誤

10、差。還會受到其他因素的影響,這些因素所產(chǎn)生的效應(yīng)就是誤差。 誤差是所有測量過程一定存在的。誤差是所有測量過程一定存在的。 誤差是測量過程必須要考慮的一個變量,由該變量產(chǎn)生的分誤差是測量過程必須要考慮的一個變量,由該變量產(chǎn)生的分數(shù)變化稱為誤差方差。數(shù)變化稱為誤差方差。 經(jīng)典的真分數(shù)理論、概化理論、項目反應(yīng)理論經(jīng)典的真分數(shù)理論、概化理論、項目反應(yīng)理論教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)6 6:測試和評價可以是公平的、無偏的:測試和評價可以是公平的、無偏的 這是心理測量領(lǐng)域爭議最大的一個假設(shè)這是心理測量領(lǐng)域爭議最大的一個假設(shè) 公平、無偏就是要平等地對待每一個考生,無論其

11、性別、公平、無偏就是要平等地對待每一個考生,無論其性別、民族、居住地如何;考生的與測量的心理結(jié)構(gòu)無關(guān)的個性民族、居住地如何;考生的與測量的心理結(jié)構(gòu)無關(guān)的個性特征對考試結(jié)果以及結(jié)果的解釋沒有明顯的影響。特征對考試結(jié)果以及結(jié)果的解釋沒有明顯的影響。 公平、無偏的關(guān)鍵是所有考生對測試、評價有足夠的了解公平、無偏的關(guān)鍵是所有考生對測試、評價有足夠的了解教育考試的心理學(xué)基礎(chǔ)教育考試的心理學(xué)基礎(chǔ)基本假設(shè)基本假設(shè) 假設(shè)假設(shè)7 7:測試和評價可以造福社會:測試和評價可以造福社會 沒有測試和評價就沒有甑別,就會出現(xiàn)社會混亂沒有測試和評價就沒有甑別,就會出現(xiàn)社會混亂。 學(xué)校教師無法診斷、無法因材施教學(xué)校教師無法診

12、斷、無法因材施教 社會無法選擇適合各行各業(yè)的人才社會無法選擇適合各行各業(yè)的人才 測試和評價可以對社會的價值觀產(chǎn)生影響測試和評價可以對社會的價值觀產(chǎn)生影響 測試和評價可以對學(xué)校的教育、教學(xué)產(chǎn)生積極影響。測試和評價可以對學(xué)校的教育、教學(xué)產(chǎn)生積極影響??荚嚨男Ф瓤荚嚨男Ф扔行杂行?效度是指各種證據(jù)和理論對考試結(jié)果的解釋和使用的支效度是指各種證據(jù)和理論對考試結(jié)果的解釋和使用的支持程度。持程度。 有效性是一種價值判斷有效性是一種價值判斷 建立價值判斷的標準建立價值判斷的標準 收集支持價值判斷的證據(jù)收集支持價值判斷的證據(jù) 標準標準測量目標測量目標 證據(jù)來源證據(jù)來源考試大綱、試題、試卷、考試考試大綱、試

13、題、試卷、考試 結(jié)果數(shù)據(jù)等。結(jié)果數(shù)據(jù)等。 證據(jù)類型證據(jù)類型內(nèi)容、應(yīng)答過程、內(nèi)部結(jié)構(gòu)、與其它變量的關(guān)系、內(nèi)容、應(yīng)答過程、內(nèi)部結(jié)構(gòu)、與其它變量的關(guān)系、考試的后果??荚嚨暮蠊?。 課程標準課程標準 課程標準中學(xué)習(xí)目標的基本要求課程標準中學(xué)習(xí)目標的基本要求 可評估性可評估性 可理解性可理解性 可執(zhí)行性可執(zhí)行性 可完成性可完成性教育考試的測量目標教育考試的測量目標來源來源中外課程標準學(xué)習(xí)目標的對比中外課程標準學(xué)習(xí)目標的對比美國課標美國課標中國課標中國課標注重目標好注重目標好內(nèi)容規(guī)定較籠統(tǒng)內(nèi)容規(guī)定較籠統(tǒng)教學(xué)建議較籠統(tǒng)教學(xué)建議較籠統(tǒng)無教材編寫建議無教材編寫建議目標規(guī)定較籠統(tǒng)目標規(guī)定較籠統(tǒng)內(nèi)容規(guī)定很細內(nèi)容規(guī)定很

14、細有教學(xué)建議有教學(xué)建議有教材編寫建議有教材編寫建議教材編寫目標明確教材編寫目標明確教學(xué)目標明確教學(xué)目標明確需要選擇教材或內(nèi)容需要選擇教材或內(nèi)容課難上課難上好評價好評價教材與目標不完全一致教材與目標不完全一致不太關(guān)注總的教學(xué)目標不太關(guān)注總的教學(xué)目標不需要選擇教材或內(nèi)容不需要選擇教材或內(nèi)容課好上課好上不太好評價不太好評價三個層次的目標體系三個層次的目標體系目標層次混亂目標層次混亂考試的測量目標考試的測量目標構(gòu)成構(gòu)成測量目標測量目標Goals Goals are broad statements which specify what the students are supposed to be a

15、ble to know and to do. 具體目標具體目標Objectives Objectives are specific statements which specify what behaviors the students are supposed to show to demonstrate their knowledge and abilities. 表現(xiàn)水平標準表現(xiàn)水平標準Performance Standards Performance Standards specify how good of the students behaviors is good.考試的效度考試

16、的效度證據(jù)類型證據(jù)類型 考試或試卷的內(nèi)容考試或試卷的內(nèi)容 應(yīng)答過程應(yīng)答過程 內(nèi)部結(jié)構(gòu)內(nèi)部結(jié)構(gòu) 與其它變量的關(guān)系與其它變量的關(guān)系 考試的后果考試的后果考試的效度考試的效度內(nèi)容方面的證據(jù)內(nèi)容方面的證據(jù) 試卷覆蓋的學(xué)科知識、學(xué)科的思維方法(過程)、試卷覆蓋的學(xué)科知識、學(xué)科的思維方法(過程)、學(xué)科的(實驗)技能的主要行為;這些行為是否學(xué)科的(實驗)技能的主要行為;這些行為是否進行了適當?shù)拿枋?;進行了適當?shù)拿枋觯?這些需要由學(xué)科專家和測量專家共同做出的判斷。這些需要由學(xué)科專家和測量專家共同做出的判斷。 試題樣本是否適當?shù)卮硪欢ǖ膬?nèi)容領(lǐng)域。試題樣本是否適當?shù)卮硪欢ǖ膬?nèi)容領(lǐng)域。 這一證據(jù)主要關(guān)注的是試題

17、內(nèi)容的代表性,即試這一證據(jù)主要關(guān)注的是試題內(nèi)容的代表性,即試題覆蓋的學(xué)科知識、學(xué)科的思維方法(過程)、題覆蓋的學(xué)科知識、學(xué)科的思維方法(過程)、學(xué)科的(實驗)技能等,是否足以反映學(xué)科知識、學(xué)科的(實驗)技能等,是否足以反映學(xué)科知識、思維方法和(實驗)技能。思維方法和(實驗)技能。考試的效度考試的效度應(yīng)答過程方面的證據(jù)應(yīng)答過程方面的證據(jù) 考生的應(yīng)答或在考試中的表現(xiàn)與考試欲測量的心考生的應(yīng)答或在考試中的表現(xiàn)與考試欲測量的心理結(jié)構(gòu)的一致程度理結(jié)構(gòu)的一致程度 這一證據(jù)主要通過觀察、交流以及應(yīng)答結(jié)果分析這一證據(jù)主要通過觀察、交流以及應(yīng)答結(jié)果分析獲得。獲得。 考生應(yīng)答過程的理論和經(jīng)驗分析考生應(yīng)答過程的理論

18、和經(jīng)驗分析 這個證據(jù)需要既有學(xué)科背景,又有測量學(xué)背景的這個證據(jù)需要既有學(xué)科背景,又有測量學(xué)背景的專家來分析專家來分析 考生應(yīng)答過程的觀察記錄考生應(yīng)答過程的觀察記錄 考試的效度考試的效度應(yīng)答過程方面的證據(jù)應(yīng)答過程方面的證據(jù) 試題及試題包測量的行為與考試欲測量的心理結(jié)構(gòu)的一試題及試題包測量的行為與考試欲測量的心理結(jié)構(gòu)的一致程度致程度 試題要有明確的測量具體目標試題要有明確的測量具體目標 命題要按照確定的具體目標命題命題要按照確定的具體目標命題 要對命題教師命制的試題,尤其是設(shè)問進行檢查要對命題教師命制的試題,尤其是設(shè)問進行檢查 要對試題的具體目標與總的測量目標的一致性進行評價要對試題的具體目標與總

19、的測量目標的一致性進行評價 內(nèi)部結(jié)構(gòu)內(nèi)部結(jié)構(gòu)統(tǒng)計結(jié)果統(tǒng)計結(jié)果 試題包之間的相關(guān)關(guān)系試題包之間的相關(guān)關(guān)系 因子分析結(jié)果。因子分析結(jié)果。 考試的效度考試的效度與外部變量關(guān)系的證據(jù)與外部變量關(guān)系的證據(jù) 考試分數(shù)與外部變量之間的關(guān)系所揭示出的與考試欲測量考試分數(shù)與外部變量之間的關(guān)系所揭示出的與考試欲測量的心理結(jié)構(gòu)之間的關(guān)系,對大規(guī)模教育考試而言,外部變的心理結(jié)構(gòu)之間的關(guān)系,對大規(guī)模教育考試而言,外部變量主要是指與考試測量的心理結(jié)構(gòu)相關(guān)或不同的變量。量主要是指與考試測量的心理結(jié)構(gòu)相關(guān)或不同的變量。 一致性關(guān)系(一致性關(guān)系(convergent evidence) 不一致性(不一致性(discrimina

20、nt evidence) 心理結(jié)構(gòu)心理結(jié)構(gòu)A A成績成績心心理理結(jié)結(jié)構(gòu)構(gòu)A A成成績績心理結(jié)構(gòu)心理結(jié)構(gòu)B成績成績心心理理結(jié)結(jié)構(gòu)構(gòu)A成成績績考試的效度考試的效度與外部變量關(guān)系的證據(jù)與外部變量關(guān)系的證據(jù) 考試與標準測試之間的關(guān)系,關(guān)注考試結(jié)果可以多大程考試與標準測試之間的關(guān)系,關(guān)注考試結(jié)果可以多大程度上準確地預(yù)測考生在標準測試中的行為度上準確地預(yù)測考生在標準測試中的行為。預(yù)測有效性預(yù)測有效性同期有效性同期有效性 現(xiàn)在的考試成績現(xiàn)在的考試成績未未來來考考試試成成績績現(xiàn)在的考試成績現(xiàn)在的考試成績同同期期考考試試成成績績考試的信度考試的信度傳統(tǒng)的認識傳統(tǒng)的認識 信度信度不同測量的一致性不同測量的一致性

21、Temporal stability 相關(guān)系數(shù)相關(guān)系數(shù)r Form equivalence 相關(guān)系數(shù)相關(guān)系數(shù)r Internal consistencyalpha信度系數(shù)信度系數(shù) 內(nèi)部一致性信度內(nèi)部一致性信度 內(nèi)部一致性系數(shù)一般是指內(nèi)部一致性系數(shù)一般是指Cronbach系數(shù)、系數(shù)、KR-20系數(shù)或系數(shù)或分半系數(shù),最廣泛使用的是分半系數(shù),最廣泛使用的是Cronbach系數(shù)系數(shù) Cronbach系數(shù)系數(shù) 信度是效度的前提條件信度是效度的前提條件 沒有高的信度就沒有高的效度沒有高的信度就沒有高的效度j2Yjj/1)1m/(m考試分數(shù)的信度考試分數(shù)的信度 經(jīng)典的真分數(shù)理論經(jīng)典的真分數(shù)理論 基本方程基本

22、方程觀察分數(shù)方差真分數(shù)方差信度 誤差分數(shù)方差真分數(shù)方差真分數(shù)方差信度ETx 觀察分數(shù)觀察分數(shù) 真分數(shù)真分數(shù) 誤差分數(shù)誤差分數(shù)xTE考試分數(shù)的信度考試分數(shù)的信度 經(jīng)典的真分數(shù)理論經(jīng)典的真分數(shù)理論 信度系數(shù)的解釋(信度系數(shù)的解釋(Nunaally 1967Nunaally 1967) 信度系數(shù)信度系數(shù)解解 釋釋0.900.90或以上或以上信度很好,達到了最好的標準化測試的水平。信度很好,達到了最好的標準化測試的水平。0.800.80到到0.900.90對學(xué)校測試而言,已經(jīng)是非常好了。對學(xué)校測試而言,已經(jīng)是非常好了。0.700.70到到0.800.80對學(xué)校測試而言,大部分試題都很好;可能有對學(xué)校測

23、試而言,大部分試題都很好;可能有少數(shù)試題需要改進。少數(shù)試題需要改進。0.600.60到到0.700.70信度偏低,需要補充其他測試以確定分數(shù)或等信度偏低,需要補充其他測試以確定分數(shù)或等第。部分試題可能需要改進。第。部分試題可能需要改進。0.500.50到到0.600.60信度低。建議對試卷進行修改,除非試卷的試信度低。建議對試卷進行修改,除非試卷的試題量很少(題量很少(1010題或少于題或少于1010題)。需要補充其他題)。需要補充其他考試來可靠地確定分數(shù)或等第考試來可靠地確定分數(shù)或等第小于小于0.500.50信度有問題??荚嚮緹o效,需要修改。信度有問題??荚嚮緹o效,需要修改??荚嚨男哦瓤?/p>

24、試的信度新的認識新的認識 不能再將不能再將CronbachCronbach系數(shù)公式看作是檢查大部分考試數(shù)據(jù)系數(shù)公式看作是檢查大部分考試數(shù)據(jù)可靠性的最適宜方法可靠性的最適宜方法 。 標準測量誤差標準測量誤差 是衡量考試結(jié)果可靠性的唯一指標。是衡量考試結(jié)果可靠性的唯一指標。 根據(jù)考試結(jié)果使用的目的設(shè)置可以接受的最低測量誤差根據(jù)考試結(jié)果使用的目的設(shè)置可以接受的最低測量誤差最低測量誤差決定了試卷的結(jié)構(gòu),如試題的數(shù)量、試題最低測量誤差決定了試卷的結(jié)構(gòu),如試題的數(shù)量、試題的題型及其比例等等。的題型及其比例等等。 試題樣本采集的獨立性試題樣本采集的獨立性局部獨立局部獨立 測試內(nèi)容的不均勻性測試內(nèi)容的不均勻性

25、單維單維/ /多維多維評價結(jié)果可靠性的方法不一樣評價結(jié)果可靠性的方法不一樣 如何使用測試結(jié)果如何使用測試結(jié)果 絕對決策絕對決策/ /相對決策相對決策考試的信度考試的信度新的實踐新的實踐 首先根據(jù)考試結(jié)果使用的目的確定可以接受的測量誤差首先根據(jù)考試結(jié)果使用的目的確定可以接受的測量誤差 正式考試推出前,要試測,抽出代表性樣本,檢查試測正式考試推出前,要試測,抽出代表性樣本,檢查試測卷的測量誤差,以便對試卷結(jié)構(gòu)進行修改。卷的測量誤差,以便對試卷結(jié)構(gòu)進行修改。 命題之前要根據(jù)分數(shù)合成的要求,確定試卷的維度。命題之前要根據(jù)分數(shù)合成的要求,確定試卷的維度。 單一合成分數(shù)單一合成分數(shù)單維試卷單維試卷 多維試

26、卷多維試卷根據(jù)測量的能力目標、內(nèi)容領(lǐng)域分別報道分數(shù)。根據(jù)測量的能力目標、內(nèi)容領(lǐng)域分別報道分數(shù)。試題難度、區(qū)分度、測量誤差的評價方法不一樣。試題難度、區(qū)分度、測量誤差的評價方法不一樣。 命題中要避免局部依賴性命題中要避免局部依賴性 相當部分試卷都存在這種情況相當部分試卷都存在這種情況 常模參照考試與標準參照考試測量誤差評價方法不一樣。常模參照考試與標準參照考試測量誤差評價方法不一樣。1SSE經(jīng)典的真分數(shù)理論中經(jīng)典的真分數(shù)理論中 測量的標準誤差與信度的關(guān)系測量的標準誤差與信度的關(guān)系CTTCTT中考試的標準差與信度、測量的標準誤差關(guān)系中考試的標準差與信度、測量的標準誤差關(guān)系0123456781234

27、56789考試的標準差考試的標準差測量的標準誤差測量的標準誤差r=0.850.85r=0.900.90r=0.950.95考試的信度考試的信度概化理論概化理論 誤差方差是多來源的誤差方差是多來源的誤差分數(shù)方差真分數(shù)方差真分數(shù)方差信度評分者評分者試題試題其它其它概化理論的重要貢獻之一概化理論的重要貢獻之一 就是研究不同來源的誤差就是研究不同來源的誤差典型的考生分數(shù)變化可以歸結(jié)為以下因素:典型的考生分數(shù)變化可以歸結(jié)為以下因素:概化理論通過估計出這些來源的方差,就可以對這些方差概化理論通過估計出這些來源的方差,就可以對這些方差作出比較,確定不同來源的方差對考生分數(shù)方差的貢獻。作出比較,確定不同來源的

28、方差對考生分數(shù)方差的貢獻。對一個信度較高的考試,其全域分數(shù)方差要大,其他來源對一個信度較高的考試,其全域分數(shù)方差要大,其他來源的方差(潛在的誤差方差)要小。的方差(潛在的誤差方差)要小。2 2(Xpir)=2 2(p p)+2 2( (i i)+)+2 2( (r r)+)+2 2( (pipi) ) + +2 2( (prpr)+)+2 2( (irir)+)+2 2( (pirpir) )考生考生方差方差試題試題方差方差評分者評分者方差方差交互作用方差交互作用方差考試的信度考試的信度概化理論概化理論 相對誤差方差相對誤差方差考試的信度考試的信度概化理論概化理論 2222relppERel概

29、化系數(shù)概化系數(shù)222abspp可靠性指數(shù)可靠性指數(shù)絕對誤差方差絕對誤差方差這些系數(shù)和誤差方差是我們研究考試分數(shù)可靠性、這些系數(shù)和誤差方差是我們研究考試分數(shù)可靠性、控制測量誤差、對考試作出改進的主要依據(jù)??刂茰y量誤差、對考試作出改進的主要依據(jù)。相對誤差方差相對誤差方差irelnpi/)(22)/()(/ )(/ )(2222ririrelnnpirnprnpi考試的信度考試的信度概化理論概化理論 絕對誤差方差絕對誤差方差rirelnipi/)()(222)/()()(/)()(22222riirelnnpirirnipi考試的信度考試的信度項目反應(yīng)理論項目反應(yīng)理論 可以估計每個考生的能力水平可以

30、估計每個考生的能力水平能力分數(shù)能力分數(shù)真分數(shù)理論和概化理論均不能估計被試個體的能力水平。兩種方法真分數(shù)理論和概化理論均不能估計被試個體的能力水平。兩種方法都是圍繞觀察分數(shù),確定一個置信區(qū)間內(nèi),合理的推測被試個體的都是圍繞觀察分數(shù),確定一個置信區(qū)間內(nèi),合理的推測被試個體的能力水平能力水平真分數(shù)或全域分數(shù)真分數(shù)或全域分數(shù)位于該區(qū)間之內(nèi),區(qū)間的大小位于該區(qū)間之內(nèi),區(qū)間的大小是由置信度和測量誤差共同確定的。是由置信度和測量誤差共同確定的。確定置信區(qū)間時,是以被試群體的表現(xiàn)為基礎(chǔ)的,因此無論被試個確定置信區(qū)間時,是以被試群體的表現(xiàn)為基礎(chǔ)的,因此無論被試個體的能力是高,還是低,或是中等,置信區(qū)間對每個被試

31、是相同的。體的能力是高,還是低,或是中等,置信區(qū)間對每個被試是相同的。 如果測量同一特質(zhì)的試題數(shù)達到一定的數(shù)量,則被試的能力估計如果測量同一特質(zhì)的試題數(shù)達到一定的數(shù)量,則被試的能力估計就與考試采用的試題無關(guān)。就與考試采用的試題無關(guān)。 如果用來進行參數(shù)估計的樣本達到一定的數(shù)量,則估計出的試題如果用來進行參數(shù)估計的樣本達到一定的數(shù)量,則估計出的試題參數(shù)就與估計采用的樣本無關(guān)。參數(shù)就與估計采用的樣本無關(guān)。 試題和考試提供的信息量或試題和考試的測量精度與考生群體無試題和考試提供的信息量或試題和考試的測量精度與考生群體無關(guān)。關(guān)。 考試的信度考試的信度項目反應(yīng)理論項目反應(yīng)理論考試信息函數(shù):考試信息函數(shù):n

32、iiII1)()(2)(7 . 1)(7 . 12)1 (*)()189. 2)(iiiibabaiiiieeccaI(試題信息函數(shù)試題信息函數(shù): 2)(7.1)(7.12)1(*)(89.2)(iiiibabaiieeaI)(1)()()(2iiiiPPPI兩參數(shù)模型兩參數(shù)模型: 三參數(shù)模型三參數(shù)模型: 考生能力估計值的標準誤差考生能力估計值的標準誤差)(1)(ISE確定能力分數(shù)的測量誤差確定能力分數(shù)的測量誤差)(/96. 1)(/96. 1II考試的信度考試的信度項目反應(yīng)理論項目反應(yīng)理論考試的公平性考試的公平性 考生的與測量的心理結(jié)構(gòu)無關(guān)的個性特征對考試結(jié)考生的與測量的心理結(jié)構(gòu)無關(guān)的個性特

33、征對考試結(jié)果以及結(jié)果的解釋沒有明顯的影響果以及結(jié)果的解釋沒有明顯的影響不同的考生群體,如男、女考生,城市與農(nóng)村或郊不同的考生群體,如男、女考生,城市與農(nóng)村或郊區(qū)的考生,不同省市的考生之間考試結(jié)果的統(tǒng)計差區(qū)的考生,不同省市的考生之間考試結(jié)果的統(tǒng)計差異只能是由考試要測量的心理結(jié)構(gòu)的差異引起的,異只能是由考試要測量的心理結(jié)構(gòu)的差異引起的,其他因素對其沒有明顯的可以探測出的影響。其他因素對其沒有明顯的可以探測出的影響。試題的情景材料,包括有聲、圖像材料,對所有的試題的情景材料,包括有聲、圖像材料,對所有的考生群體都是公平的??忌后w都是公平的。 所有考生都能同等地獲取考試的信息,考生不會因所有考生都能

34、同等地獲取考試的信息,考生不會因為其所就讀的地區(qū)、學(xué)校的差異,生活的家庭的差為其所就讀的地區(qū)、學(xué)校的差異,生活的家庭的差異,不能同等地獲得考試的相關(guān)信息。異,不能同等地獲得考試的相關(guān)信息。 試題功能偏差(試題功能偏差(DIF & DTF) 不同子群體分數(shù)有明顯差異,或者分數(shù)相近但能不同子群體分數(shù)有明顯差異,或者分數(shù)相近但能力測度有明顯差異力測度有明顯差異 差異來源差異來源 能力上的差異能力上的差異兩個群體的確有差異兩個群體的確有差異 試題功能偏差試題功能偏差試題或試卷對不同子群體不公平試題或試卷對不同子群體不公平 試題或試卷功能偏差試題或試卷功能偏差 試題或試卷的多維性試題或試卷的多維

35、性 對試題或試卷進行多維性分析對試題或試卷進行多維性分析 影響維度影響維度與測量的心理結(jié)構(gòu)相關(guān)的維度與測量的心理結(jié)構(gòu)相關(guān)的維度 干擾維度干擾維度與測量的心理結(jié)構(gòu)無關(guān)的維度與測量的心理結(jié)構(gòu)無關(guān)的維度Item Difficulty Difference, Grade 7-1.5-1-0.500.511.501020304050ItemsDifficulty DifferencePudong-DalianFemale-male考試的公平性考試的公平性試題功能差異試題功能差異考試的公平性考試的公平性試題功能差異試題功能差異PDDL考試對社會、學(xué)校教育教學(xué)的影響考試對社會、學(xué)校教育教學(xué)的影響 大規(guī)模教育

36、考試結(jié)果的使用會對社會、對學(xué)校的教育、教大規(guī)模教育考試結(jié)果的使用會對社會、對學(xué)校的教育、教學(xué)產(chǎn)生深刻的影響。學(xué)產(chǎn)生深刻的影響。 大規(guī)模教育考試本身的情景材料、內(nèi)容、題型、難度以及大規(guī)模教育考試本身的情景材料、內(nèi)容、題型、難度以及蘊含在其內(nèi)容、材料以及考查目標中的價值觀,對社會、蘊含在其內(nèi)容、材料以及考查目標中的價值觀,對社會、對學(xué)校教育、教學(xué)也會產(chǎn)生巨大影響。對學(xué)校教育、教學(xué)也會產(chǎn)生巨大影響。 考試目標的設(shè)計、試題情景材料的選擇、試題的設(shè)問等不考試目標的設(shè)計、試題情景材料的選擇、試題的設(shè)問等不但要考慮其測量學(xué)要求,也要考慮其蘊含的價值觀是否與但要考慮其測量學(xué)要求,也要考慮其蘊含的價值觀是否與社

37、會的主流價值觀相一致,從教育的角度看是否有積極意社會的主流價值觀相一致,從教育的角度看是否有積極意義。義。 考試的學(xué)科內(nèi)容、題型、難度既要符合測量學(xué)要求,又要考試的學(xué)科內(nèi)容、題型、難度既要符合測量學(xué)要求,又要考慮有利于學(xué)校按照課程標準要求組織教育和教學(xué),有利考慮有利于學(xué)校按照課程標準要求組織教育和教學(xué),有利教師改進教學(xué)策略和教學(xué)方式,提高教育和教學(xué)質(zhì)量;有教師改進教學(xué)策略和教學(xué)方式,提高教育和教學(xué)質(zhì)量;有利于學(xué)生改進學(xué)習(xí)方式,提高學(xué)習(xí)效果。利于學(xué)生改進學(xué)習(xí)方式,提高學(xué)習(xí)效果。理論問題引發(fā)的實踐思考理論問題引發(fā)的實踐思考 命題的問題命題的問題效度效度題題 型型題題 量量 內(nèi)內(nèi) 容容(知識技能,過

38、程方法)(知識技能,過程方法)目標和行為標準目標和行為標準 難度和區(qū)分度難度和區(qū)分度及格和等第標準及格和等第標準情情 景景 材材 料料 選選 擇擇公平公正公平公正信度信度后效影響后效影響試試卷卷結(jié)結(jié)構(gòu)構(gòu)評評分分標標準準和和評評分分操操作作試卷結(jié)構(gòu)試卷結(jié)構(gòu) 測量目標和內(nèi)容領(lǐng)域問題測量目標和內(nèi)容領(lǐng)域問題 試卷層面的問題試卷層面的問題 試卷要測量哪些目標、覆蓋哪些行為標準?試卷要測量哪些目標、覆蓋哪些行為標準? 在哪些知識內(nèi)容領(lǐng)域測量該目標?在哪些知識內(nèi)容領(lǐng)域測量該目標? 每一測量目標、行為標準和內(nèi)容領(lǐng)域的題量?每一測量目標、行為標準和內(nèi)容領(lǐng)域的題量? 試題層面試題層面 試題要測量何具體目標?試題要

39、測量何具體目標? 在哪個知識內(nèi)容領(lǐng)域測量該目標?在哪個知識內(nèi)容領(lǐng)域測量該目標? 如何設(shè)問才能引導(dǎo)學(xué)生表現(xiàn)出期望表現(xiàn)的行為?如何設(shè)問才能引導(dǎo)學(xué)生表現(xiàn)出期望表現(xiàn)的行為?(排除法只是考試技巧,不是測量的目標或行為標準)(排除法只是考試技巧,不是測量的目標或行為標準)試卷結(jié)構(gòu)試卷結(jié)構(gòu)難度問題難度問題 考試的難度問題是科學(xué)問題,也是社會問題考試的難度問題是科學(xué)問題,也是社會問題。 難度影響到考生分數(shù)分布,因此影響到招生錄取決難度影響到考生分數(shù)分布,因此影響到招生錄取決策誤差。策誤差。 難度影響學(xué)生和家長的應(yīng)試心理,因此影響社會穩(wěn)難度影響學(xué)生和家長的應(yīng)試心理,因此影響社會穩(wěn)定定 難度影響學(xué)校教學(xué)深度和廣度

40、,影響學(xué)生學(xué)習(xí)的深難度影響學(xué)校教學(xué)深度和廣度,影響學(xué)生學(xué)習(xí)的深度和廣度。度和廣度。 難度涉及到兩個層面難度涉及到兩個層面 試卷層面試卷層面 試題層面試題層面難度難度科學(xué)問題科學(xué)問題 難度對考生成績分布的影響難度對考生成績分布的影響 難度系數(shù)為難度系數(shù)為0.5時,考生成績大致呈正態(tài)分布,時,考生成績大致呈正態(tài)分布,試卷的標準差也相應(yīng)大致達到最大,此時,考生試卷的標準差也相應(yīng)大致達到最大,此時,考生成績在平均分兩側(cè)的分布最分散。因此,依據(jù)考成績在平均分兩側(cè)的分布最分散。因此,依據(jù)考試成績對考生進行選擇決策時,發(fā)生決策誤差的試成績對考生進行選擇決策時,發(fā)生決策誤差的人數(shù)也會最少。人數(shù)也會最少。 難度

41、系數(shù)越高,考生成績越向高分一端集中,分難度系數(shù)越高,考生成績越向高分一端集中,分布范圍變小,因此,依據(jù)考試成績對考生進行選布范圍變小,因此,依據(jù)考試成績對考生進行選擇決策時,發(fā)生決策誤差的人數(shù)也會增多。擇決策時,發(fā)生決策誤差的人數(shù)也會增多。難度難度科學(xué)問題科學(xué)問題0500100015002000020406080100110130150考試分數(shù)人數(shù)圖圖11.3 考試分數(shù)概率分布(平均分考試分數(shù)概率分布(平均分105,標準差,標準差17)圖圖11.1 考試分數(shù)概率分布(平均分考試分數(shù)概率分布(平均分75,標準差,標準差20)050010001500200002040607590110130150

42、考試分數(shù)人數(shù)難度難度科學(xué)問題科學(xué)問題曲線曲線1:均分:均分423,難度系數(shù),難度系數(shù)0.67;曲線;曲線2:均分:均分378,難度系,難度系數(shù)數(shù)0.60;曲線;曲線3:均分:均分315,難度系數(shù),難度系數(shù)0.50;實線相當于第一;實線相當于第一批分數(shù)線位置;虛線相當于第二批分數(shù)線位置。批分數(shù)線位置;虛線相當于第二批分數(shù)線位置。曲線曲線1曲線曲線3曲線曲線2圖圖4 4 選擇決策卡帕指數(shù)與考試平均分、錄取分數(shù)線的關(guān)系選擇決策卡帕指數(shù)與考試平均分、錄取分數(shù)線的關(guān)系0.800.850.900.951.00270290310330350370390410430450470490510530分數(shù)卡帕指數(shù)試

43、卷結(jié)構(gòu)試卷結(jié)構(gòu)試題難度試題難度4.003.503.002.502.001.501.00.500.00-.50-1.00-1.50-2.00-2.5020100試題難度參數(shù)分布圖11.5 樣本考生能力參數(shù)分布頻數(shù)2.001.501.00.500.00-.50-1.00-1.50-2.00-2.50-3.00頻數(shù)3002001000考生能力參數(shù)分布Theta-4-20246,0978,5798994,68311,7255,6798,59912,1532,61751414510,83712,49311,9919,97297797,2563,4308,3843,43291682811,0496505,

44、095b1-4-2024試卷結(jié)構(gòu)試卷結(jié)構(gòu)試題難度試題難度204060801001200.20.40.60.81.0試卷長度(題數(shù))試卷長度(題數(shù))信信度度圖圖1 1 試卷長度與信度關(guān)系(據(jù)謝小慶試卷長度與信度關(guān)系(據(jù)謝小慶 20192019)試卷結(jié)構(gòu)試卷結(jié)構(gòu)題量題量 mmrrmr11 2Y12)1 (1cjjXjStrat平行試題模型法平行試題模型法真分數(shù)等值試題模型真分數(shù)等值試題模型試卷結(jié)構(gòu)試卷結(jié)構(gòu)題量的計算題量的計算)1 (1212Xmiimmm 多元概化理論模型多元概化理論模型試卷結(jié)構(gòu)試卷結(jié)構(gòu)題量的計算題量的計算全卷最佳題量全卷最佳題量部分最佳題量部分最佳題量常模參照考試常模參照考試標準

45、參照考試標準參照考試全卷最佳題量全卷最佳題量部分最佳題量部分最佳題量nnnnnn)()(22piwpiwnniinnnnnn)(96. 1222piwnnNinnnnnnn)()(96. 12222piiwnnNinnnnnnnn)()()()(2222piiwpiiwnnii試卷結(jié)構(gòu)試卷結(jié)構(gòu)題量的計算題量的計算大大 題題聽力聽力語法語法詞匯詞匯CLOCLOZEZE閱讀閱讀翻譯翻譯過過 去去202010355理論理論情況情況常模常模參照參照條件條件212110105 53939101085+1標準標準參照參照條件條件262611115 5404013139595現(xiàn)現(xiàn)在在常模常模參照參照2424

46、202040406 690+190+1 大規(guī)模教育考試:命題與評價(大規(guī)模教育考試:命題與評價(2019) 考試數(shù)據(jù)的統(tǒng)計分析和解釋考試數(shù)據(jù)的統(tǒng)計分析和解釋(2019)雷新勇雷新勇 華東師大出版社華東師大出版社試卷結(jié)構(gòu)試卷結(jié)構(gòu)題型題型 題型代表了測量方法,它與教育考試關(guān)注的核心問題型代表了測量方法,它與教育考試關(guān)注的核心問題密切相關(guān)。題密切相關(guān)。 題型與考試的效度和信度有相當強的關(guān)系。題型與考試的效度和信度有相當強的關(guān)系。 大規(guī)模教育考試的題型對學(xué)校的教學(xué)方式和教學(xué)訓(xùn)大規(guī)模教育考試的題型對學(xué)校的教學(xué)方式和教學(xué)訓(xùn)練方式有明顯的影響。練方式有明顯的影響。 從經(jīng)濟的角度看,大規(guī)模教育考試題型對評分的

47、成從經(jīng)濟的角度看,大規(guī)模教育考試題型對評分的成本也有很大的影響。本也有很大的影響。 最常見的題型分類:客觀題、主觀題最常見的題型分類:客觀題、主觀題 試卷結(jié)構(gòu)試卷結(jié)構(gòu)客觀題與主觀題的比較客觀題與主觀題的比較 客客 觀觀 型型 主主 觀觀 型型 測量的學(xué)測量的學(xué) 能有效地測量事實性知識。某些能有效地測量事實性知識。某些 能夠測量理解、思維技能和其他復(fù)雜能夠測量理解、思維技能和其他復(fù)雜 習(xí)成果習(xí)成果 題型也能測量理解、思維技能和題型也能測量理解、思維技能和 的行為目標。測量與現(xiàn)實貼近的行為的行為目標。測量與現(xiàn)實貼近的行為 其他復(fù)雜的行為目標。但是不適其他復(fù)雜的行為目標。但是不適 目標比較有效,但不

48、適合用來測量事目標比較有效,但不適合用來測量事合測量選擇和組織觀點的技能、合測量選擇和組織觀點的技能、 實性知識。實性知識。 寫作能力或某些問題解決技能。寫作能力或某些問題解決技能。 命題的命題的 考試所考試所需的試題需的試題量量較大,命題時較大,命題時 考試要求的題量少,命題相對比較容考試要求的題量少,命題相對比較容 準備準備 間長,難度比較大。間長,難度比較大。 易易 內(nèi)容領(lǐng)內(nèi)容領(lǐng) 由于試題量較大,內(nèi)容覆蓋面較由于試題量較大,內(nèi)容覆蓋面較 由于考試的試題量較少,內(nèi)容覆蓋面由于考試的試題量較少,內(nèi)容覆蓋面 域樣本域樣本 廣,考試內(nèi)容領(lǐng)域樣本代表性較廣,考試內(nèi)容領(lǐng)域樣本代表性較 較小,考試內(nèi)容

49、領(lǐng)域樣本的代表性有較小,考試內(nèi)容領(lǐng)域樣本的代表性有 好。好。 限。限。 對學(xué)生應(yīng)對學(xué)生應(yīng) 完全結(jié)構(gòu)化的試題限制了考生的完全結(jié)構(gòu)化的試題限制了考生的 考生可以按照自己的理解進考生可以按照自己的理解進 行自由應(yīng)行自由應(yīng) 答的控制答的控制 應(yīng)答類型,能夠防止許多非測量應(yīng)答類型,能夠防止許多非測量 答,可以使考生表現(xiàn)自己的創(chuàng)造力,答,可以使考生表現(xiàn)自己的創(chuàng)造力, 目標因素,如寫作能力的影響,目標因素,如寫作能力的影響, 有效地減少猜測的概率。有效地減少猜測的概率。 但選擇題有一定的猜測概率。但選擇題有一定的猜測概率。 試卷結(jié)構(gòu)試卷結(jié)構(gòu)客觀題與主觀題的比較客觀題與主觀題的比較評分評分 客觀,信度高,試題

50、越嚴謹,客觀,信度高,試題越嚴謹, 主觀評分,多人評分的不一主觀評分,多人評分的不一 誤差越小。誤差越小。 致,降低了評分結(jié)果的信致,降低了評分結(jié)果的信 度,增加了誤差。度,增加了誤差。 對學(xué)習(xí)對學(xué)習(xí) 通常鼓勵考生掌握具體的通常鼓勵考生掌握具體的 鼓勵學(xué)生關(guān)注大的內(nèi)容單元,鼓勵學(xué)生關(guān)注大的內(nèi)容單元,的影響的影響 細節(jié)內(nèi)容,注重對具體概細節(jié)內(nèi)容,注重對具體概 注重對所學(xué)內(nèi)容的整合和建構(gòu)。注重對所學(xué)內(nèi)容的整合和建構(gòu)。 念、原理的區(qū)分。如果試念、原理的區(qū)分。如果試 強調(diào)組織、整合和有效表達思強調(diào)組織、整合和有效表達思 題設(shè)計的好,也可以促進題設(shè)計的好,也可以促進 想的能力。想的能力。 學(xué)生發(fā)展理解力

51、,思維能學(xué)生發(fā)展理解力,思維能 力以及其他的高級認知能力以及其他的高級認知能 力。力。信度信度 考試設(shè)計的越嚴謹,結(jié)果考試設(shè)計的越嚴謹,結(jié)果 信度通常低于客觀題型,主要信度通常低于客觀題型,主要 信度越高。信度越高。 是因為評分信度較低以及試題是因為評分信度較低以及試題 數(shù)量有限。數(shù)量有限。試卷結(jié)構(gòu)試卷結(jié)構(gòu)題型選擇的原則題型選擇的原則 從認知特征、試題和考試的特征以及考試的經(jīng)濟性來看,每從認知特征、試題和考試的特征以及考試的經(jīng)濟性來看,每種題型都有其優(yōu)勢,也有其缺點,任何一種題型都不能獨自種題型都有其優(yōu)勢,也有其缺點,任何一種題型都不能獨自完成所有的教育測量目標。因此,考試中應(yīng)該采用多種題型,

52、完成所有的教育測量目標。因此,考試中應(yīng)該采用多種題型,發(fā)揮每種題型的優(yōu)勢,減少其劣勢。發(fā)揮每種題型的優(yōu)勢,減少其劣勢。 如果兩種題型的測量結(jié)果有很強的類似性時,選擇測量效率如果兩種題型的測量結(jié)果有很強的類似性時,選擇測量效率高的題型(通常是選擇型題型)是合理的;如果兩種題型的高的題型(通常是選擇型題型)是合理的;如果兩種題型的測量結(jié)果類似性比較低時,應(yīng)該考慮試題的在認知過程、內(nèi)測量結(jié)果類似性比較低時,應(yīng)該考慮試題的在認知過程、內(nèi)容等方面與測量目標的一致程度,通常選擇一致程度高的題容等方面與測量目標的一致程度,通常選擇一致程度高的題型型建構(gòu)型題型。建構(gòu)型題型。 題型的選擇要考慮試題測量的行為或者

53、認知過程、涉題型的選擇要考慮試題測量的行為或者認知過程、涉及到的內(nèi)容以及需要的條件,即題型應(yīng)該與測量目標及到的內(nèi)容以及需要的條件,即題型應(yīng)該與測量目標的行為要求一致。這反映了考試的效度為第一考慮的的行為要求一致。這反映了考試的效度為第一考慮的觀點。觀點。 題型的選擇要保證考試結(jié)果達到預(yù)先設(shè)定的信度要求,題型的選擇要保證考試結(jié)果達到預(yù)先設(shè)定的信度要求,即必須考慮不同題型試題的比例。這反映了考試結(jié)果即必須考慮不同題型試題的比例。這反映了考試結(jié)果的高信度是考試高效度前提的認識。的高信度是考試高效度前提的認識。 題型的選擇要考慮學(xué)校課堂教學(xué)方式和學(xué)生學(xué)習(xí)方式題型的選擇要考慮學(xué)校課堂教學(xué)方式和學(xué)生學(xué)習(xí)方

54、式的轉(zhuǎn)變,題型要考慮反映高質(zhì)量的教學(xué)活動和學(xué)習(xí)活的轉(zhuǎn)變,題型要考慮反映高質(zhì)量的教學(xué)活動和學(xué)習(xí)活動。動。試卷結(jié)構(gòu)試卷結(jié)構(gòu)題型選擇的原則題型選擇的原則試卷結(jié)構(gòu)試卷結(jié)構(gòu)材料選擇材料選擇 考試考試學(xué)校學(xué)習(xí)結(jié)果的遷移。學(xué)校學(xué)習(xí)結(jié)果的遷移。 學(xué)科性的考試學(xué)科性的考試主要是專門遷移。主要是專門遷移。 專門遷移成功與否取決于兩個條件:專門遷移成功與否取決于兩個條件: 考生對相關(guān)知識,如概念、原理的理解及其本身的思維考生對相關(guān)知識,如概念、原理的理解及其本身的思維 能力;能力;考生對遷移的新情景的熟悉程度??忌鷮w移的新情景的熟悉程度。 試題背景材料選擇不當,易于導(dǎo)致出現(xiàn)試題的功能偏差,試題背景材料選擇不當,易

55、于導(dǎo)致出現(xiàn)試題的功能偏差,降低考試的效度和信度。降低考試的效度和信度。 材料應(yīng)該與考試的測量目標以及試題欲測量的行為目標相關(guān)材料應(yīng)該與考試的測量目標以及試題欲測量的行為目標相關(guān) 材料應(yīng)該與考生的學(xué)習(xí)經(jīng)歷和生活經(jīng)歷相適應(yīng)材料應(yīng)該與考生的學(xué)習(xí)經(jīng)歷和生活經(jīng)歷相適應(yīng) 材料提供的信息類型材料提供的信息類型有新知識信息有新知識信息無新知識信息無新知識信息 材料的信息量材料的信息量 材料提供的信息與應(yīng)答間的關(guān)系材料提供的信息與應(yīng)答間的關(guān)系 關(guān)系的范圍指的是完成試題的應(yīng)答,必須加工、處理的信關(guān)系的范圍指的是完成試題的應(yīng)答,必須加工、處理的信息的數(shù)量,包括寬泛范圍和狹窄范圍。息的數(shù)量,包括寬泛范圍和狹窄范圍。關(guān)

56、系的直接性是指期望的應(yīng)答對所提供的信息的依賴程度關(guān)系的直接性是指期望的應(yīng)答對所提供的信息的依賴程度。 試卷結(jié)構(gòu)試卷結(jié)構(gòu)材料選擇的基本原則材料選擇的基本原則主觀題評分標準的制定主觀題評分標準的制定 賦分賦分 賦分值與等第賦分值與等第 選擇最合適于試題和評價目的的評分方法選擇最合適于試題和評價目的的評分方法 總體評分法總體評分法分值稍低的、測量目標較單一的試題分值稍低的、測量目標較單一的試題 分析評分法分析評分法高分值的、測量目標非單一的試題高分值的、測量目標非單一的試題 評價的行為特征應(yīng)該與測量的行為目標相一致評價的行為特征應(yīng)該與測量的行為目標相一致 在分析評分法中,每個評分項目一般應(yīng)只包含一個

57、獨立的行為在分析評分法中,每個評分項目一般應(yīng)只包含一個獨立的行為特征特征 要明確評價的行為特征等級數(shù)要明確評價的行為特征等級數(shù) 對評價的行為特征和標準中的每個等級應(yīng)該進行清楚的定義對評價的行為特征和標準中的每個等級應(yīng)該進行清楚的定義蒙大拿州數(shù)學(xué)課程標準蒙大拿州數(shù)學(xué)課程標準 能夠運用適當?shù)募夹g(shù),參與到解決問題、推理、估能夠運用適當?shù)募夹g(shù),參與到解決問題、推理、估算、交流、聯(lián)系和應(yīng)用的數(shù)學(xué)過程中。算、交流、聯(lián)系和應(yīng)用的數(shù)學(xué)過程中。 能夠理解和運用各類數(shù)和各類數(shù)的運算。能夠理解和運用各類數(shù)和各類數(shù)的運算。 能夠運用各種代數(shù)的概念、過程和語言來模擬和解能夠運用各種代數(shù)的概念、過程和語言來模擬和解決真實

58、問題和數(shù)學(xué)問題。決真實問題和數(shù)學(xué)問題。 能夠理解幾何圖形,運用幾何學(xué)原理。能夠理解幾何圖形,運用幾何學(xué)原理。 理解可測的特質(zhì),并能夠運用測量過程解決問題理解可測的特質(zhì),并能夠運用測量過程解決問題. 能夠理解和運用數(shù)據(jù)分析、概率和統(tǒng)計原理解決問能夠理解和運用數(shù)據(jù)分析、概率和統(tǒng)計原理解決問題。題。 能夠理解、運用各類模型、關(guān)系和函數(shù)。能夠理解、運用各類模型、關(guān)系和函數(shù)。蒙大拿州數(shù)學(xué)課程標準蒙大拿州數(shù)學(xué)課程標準 能夠運用適當?shù)募夹g(shù),參與到解決問題、推理、估能夠運用適當?shù)募夹g(shù),參與到解決問題、推理、估算、交流、聯(lián)系和應(yīng)用的數(shù)學(xué)過程中。算、交流、聯(lián)系和應(yīng)用的數(shù)學(xué)過程中。根據(jù)數(shù)學(xué)或非數(shù)學(xué)情景,確認和形成問

59、題;并運用解決問根據(jù)數(shù)學(xué)或非數(shù)學(xué)情景,確認和形成問題;并運用解決問題策略來解決這些問題。題策略來解決這些問題。在問題解決過程中,選擇、應(yīng)用和評價適當?shù)墓浪悴呗?。在問題解決過程中,選擇、應(yīng)用和評價適當?shù)墓浪悴呗?。形成定義,做出推斷并對推斷的合理性進行判別,表達各形成定義,做出推斷并對推斷的合理性進行判別,表達各類概括和推廣,交流各類數(shù)學(xué)思想和關(guān)系。類概括和推廣,交流各類數(shù)學(xué)思想和關(guān)系。對同一問題情景或同一數(shù)學(xué)概念的不同表達方式進行轉(zhuǎn)換對同一問題情景或同一數(shù)學(xué)概念的不同表達方式進行轉(zhuǎn)換和應(yīng)用;對非數(shù)學(xué)學(xué)科的問題情景建立數(shù)學(xué)模型。和應(yīng)用;對非數(shù)學(xué)學(xué)科的問題情景建立數(shù)學(xué)模型。選擇和運用適當?shù)臄?shù)學(xué)技術(shù)來

60、加強數(shù)學(xué)理解。適當?shù)募歼x擇和運用適當?shù)臄?shù)學(xué)技術(shù)來加強數(shù)學(xué)理解。適當?shù)募?術(shù)術(shù)可以包括,但不僅限于,紙、筆、計算器、計算機和數(shù)據(jù)可以包括,但不僅限于,紙、筆、計算器、計算機和數(shù)據(jù)收集裝置。收集裝置。 蒙大拿州數(shù)學(xué)課程標準蒙大拿州數(shù)學(xué)課程標準 能夠理解和運用各類數(shù)和各類數(shù)的運算。能夠理解和運用各類數(shù)和各類數(shù)的運算。理解和運用實數(shù),及其運算、符號、和實數(shù)范圍的理解和運用實數(shù),及其運算、符號、和實數(shù)范圍的其他數(shù)。其他數(shù)。運用復(fù)數(shù)的定義和基本運算。運用復(fù)數(shù)的定義和基本運算。 蒙大拿州數(shù)學(xué)課程標準蒙大拿州數(shù)學(xué)課程標準 能夠運用各種代數(shù)的概念、過程和語言來模擬和解能夠運用各種代數(shù)的概念、過程和語言來模擬和解決真實問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論