基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例

上傳人：丹*** IP屬地：重慶上傳時(shí)間：2022-12-08 格式：DOCX 頁數(shù)：20 大?。?14.57KB 積分：12 舉報(bào) 版權(quán)申訴

基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第2頁

基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第3頁

基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第4頁

基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第5頁

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于表現(xiàn)性證據(jù)的合作評分研究——以教師評價(jià)素養(yǎng)的測評為例摘要

表現(xiàn)性評價(jià)方法在當(dāng)前素養(yǎng)測評的研究中處在越來越重要的地位，但是在以往研究中，表現(xiàn)性評價(jià)的結(jié)果往往具有較低的信度和效度，而本研究旨在開發(fā)一個(gè)基于表現(xiàn)性證據(jù)的合作評分的方法，從而提高表現(xiàn)性評價(jià)的質(zhì)量。本研究以評價(jià)素養(yǎng)的測評為例，招募兩名評分者，根據(jù)已開發(fā)的指標(biāo)框架和評分規(guī)則，對10名教師的評價(jià)素養(yǎng)表現(xiàn)性證據(jù)進(jìn)行評分，并從量化分析與質(zhì)性分析兩個(gè)層面，分別分析合作評分的質(zhì)量和過程。研究結(jié)果表明，合作評分較之傳統(tǒng)的背對背評分具有相對較高的效度和信度。在此過程中，評分被認(rèn)為是證據(jù)—論點(diǎn)—主張之間的動(dòng)態(tài)關(guān)系。通過評分者與證據(jù)、證據(jù)與評價(jià)標(biāo)準(zhǔn)、證據(jù)與證據(jù)之間的互動(dòng)與解釋，合作評分能夠有效提高表現(xiàn)性評價(jià)的質(zhì)量。關(guān)鍵詞

于證據(jù)的測評；評分過程；表現(xiàn)性評價(jià)；教師評價(jià)素養(yǎng)一、引言在當(dāng)前國際與國內(nèi)強(qiáng)調(diào)基于素養(yǎng)的測評研究中，傳統(tǒng)的紙筆測驗(yàn)因無法滿足測量復(fù)雜情境下的素養(yǎng)水平的要求、缺乏生態(tài)效度而被詬病。因而，使用表現(xiàn)性評價(jià)方法測評素養(yǎng)逐漸成為當(dāng)前測量與評價(jià)領(lǐng)域的新趨勢。表現(xiàn)性評價(jià)是在真實(shí)情境中，基于被試的表現(xiàn)性證據(jù)而作出評判的測評方法。［1］當(dāng)前教育領(lǐng)域的表現(xiàn)性評價(jià)方法的主要形式是收集被試在真實(shí)情境中與素養(yǎng)有關(guān)的行為表現(xiàn)載體，并從載體中錨定與素養(yǎng)有關(guān)的行為表現(xiàn)，從而根據(jù)評價(jià)標(biāo)準(zhǔn)進(jìn)行判斷，故而表現(xiàn)性評價(jià)的過程即為依據(jù)證據(jù)進(jìn)行論證的過程。在這一過程中，證據(jù)載體往往是基于真實(shí)的復(fù)雜情境，從而彌補(bǔ)了傳統(tǒng)的素養(yǎng)測評中生態(tài)效度不足的問題。然而正因其所呈現(xiàn)內(nèi)容的復(fù)雜性，以往的測評往往具有較低的信度和效度。造成表現(xiàn)性評價(jià)出現(xiàn)上述較低質(zhì)量的因素可能有三種。一是評分者的主觀因素。評分者在對表現(xiàn)性評價(jià)中呈現(xiàn)的表現(xiàn)性證據(jù)作出判斷時(shí)，往往會(huì)受到自身價(jià)值觀、意識形態(tài)、對建構(gòu)的理解、嚴(yán)格程度和評判難度等因素的影響，也可能基于不同的解釋框架對相同的證據(jù)作出不同的推斷，［2］這些都會(huì)降低評分者內(nèi)在一致性信度和評分者間的一致性信度。二是傳統(tǒng)的背對背評分方式。評分者之間依照評價(jià)標(biāo)準(zhǔn)背對背評分，適用于客觀的標(biāo)準(zhǔn)化測試，而用于表現(xiàn)性評價(jià)這種體現(xiàn)多種復(fù)雜的過程性證據(jù)的評分，則可能摻進(jìn)評分者更多主觀成分；同時(shí)，獨(dú)立評分增加了評分者無法關(guān)注到所有載體中證據(jù)內(nèi)容的可能性。因此對復(fù)雜的、基于真實(shí)情境的表現(xiàn)證據(jù)評分，評分結(jié)果的效度在某種程度上需取決于評分者之間的共識。第三，固定、客觀的評價(jià)標(biāo)準(zhǔn)的局限。固定、客觀的評價(jià)標(biāo)準(zhǔn)無法適用于多證據(jù)的、基于復(fù)雜的問題情境的評估，因?yàn)楸憩F(xiàn)性評價(jià)中呈現(xiàn)的素養(yǎng)證據(jù)往往是混雜的，甚至是矛盾的，固定的評價(jià)標(biāo)準(zhǔn)不能較好地反映所有水平表現(xiàn)，且由于證據(jù)的復(fù)雜屬性，評價(jià)標(biāo)準(zhǔn)無法做到絕對客觀?？梢?，表現(xiàn)性評價(jià)的評分過程具有一定的特殊性。它需要評分者反復(fù)驗(yàn)證證據(jù)和解釋之間的關(guān)系，將不同來源的證據(jù)進(jìn)行整合，從每個(gè)分離的證據(jù)中推導(dǎo)出教師評價(jià)素養(yǎng)的系統(tǒng)連貫的解釋。［3］因此，在評分者進(jìn)行評分的過程中，應(yīng)增加評分的解釋性和互動(dòng)性，使評分者的解釋與證據(jù)載體反復(fù)地被驗(yàn)證和修訂，即在評分過程中強(qiáng)調(diào)評分者與評分者之間的舉證，促使評分者與證據(jù)、評分者與評分規(guī)則、評分者與評分者之間的互動(dòng)，從而提高評估質(zhì)量。鑒于此，本研究嘗試依據(jù)這一假設(shè)，開發(fā)一種能夠提高評分質(zhì)量的評分過程，在所建評分標(biāo)準(zhǔn)的基礎(chǔ)之上，增加有助于評分者進(jìn)行更客觀地評分的表現(xiàn)性證據(jù)范例和指導(dǎo)性問題，建構(gòu)評分者之間的互動(dòng)模式，以達(dá)到提高表現(xiàn)性評價(jià)的效度和信度的目的。據(jù)此，本研究以測評“教師評價(jià)素養(yǎng)”為例展開表現(xiàn)性評價(jià)的評分過程研究。教師評價(jià)素養(yǎng)是教師在特定的教學(xué)評價(jià)場域和專業(yè)實(shí)踐工作中所表現(xiàn)出的內(nèi)隱的評價(jià)知識和一系列外化的有關(guān)學(xué)習(xí)評價(jià)的表現(xiàn)性技能的綜合。［4］本研究重點(diǎn)測評教師評價(jià)素養(yǎng)表現(xiàn)在不同學(xué)科中的共同特征，因而評分規(guī)則也是針對教師在普遍的日常教學(xué)實(shí)踐中的通用的評價(jià)表現(xiàn)。對教師評價(jià)素養(yǎng)的測評過程是首先通過教案、課堂錄像、教師反思、學(xué)生作業(yè)等收集教師評價(jià)素養(yǎng)表現(xiàn)性證據(jù)，然后再依據(jù)評分規(guī)則對教師的表現(xiàn)性證據(jù)進(jìn)行評分。本研究著重從量化分析和質(zhì)性分析兩個(gè)方面驗(yàn)證互動(dòng)的、解釋性的評分過程的質(zhì)量，量化分析旨在驗(yàn)證工具和評分者的信效度，質(zhì)性分析的目的是進(jìn)一步挖掘評分的科學(xué)性達(dá)成的過程。二、研究設(shè)計(jì)（一）被試

研究采取方便抽樣的方法，在被試自愿、校長和教研員推薦的條件下進(jìn)行取樣。考慮到語文和數(shù)學(xué)學(xué)科教師在實(shí)踐中能夠更多地實(shí)施和參與學(xué)生評價(jià)，因此本研究將基礎(chǔ)教育階段的語文和數(shù)學(xué)學(xué)科教師作為主要的研究對象。最終，本研究招募了中部某省會(huì)城市的5名語文教師和5名數(shù)學(xué)教師參與本次研究。這10名教師的基本信息如表1所示。表1

被試基本信息（二）研究工具

1.教師評價(jià)素養(yǎng)問卷本研究采用了鄭東輝［5］在2010年漢化并改編的《教師評價(jià)素養(yǎng)問卷》（TeacherAssessmentLiteracyQuestionnaire，簡稱TALQ）進(jìn)行問卷調(diào)查。之所以選擇這一問卷是因?yàn)樵搯柧淼母骶S度與本研究的指標(biāo)體系較為一致。該問卷共21題，每題答對計(jì)1分，答錯(cuò)計(jì)0分。本研究使用的問卷各維度與題目之間的對應(yīng)關(guān)系為：1—3題考察“選擇評價(jià)方法”；4—6題對應(yīng)的維度是“開發(fā)評價(jià)方法”；7—9題對應(yīng)的維度是“管理、評分和解釋評價(jià)結(jié)果”；10—12題對應(yīng)的維度是“使用評價(jià)結(jié)果進(jìn)行教育決策”；13—15題對應(yīng)的維度是“使用評價(jià)劃分等級”；16—18題對應(yīng)的維度是“交流評價(jià)結(jié)果”；19—21題考察評價(jià)中“識別不合倫理的評價(jià)實(shí)踐”的素養(yǎng)。2.教師表現(xiàn)性證據(jù)載體

本研究將教師評價(jià)素養(yǎng)分為五個(gè)維度進(jìn)行測評，分別是“確定評價(jià)目標(biāo)”“設(shè)計(jì)與預(yù)測”“實(shí)施與評判”“反饋與指導(dǎo)”“反思與改進(jìn)”，并細(xì)分為11個(gè)指標(biāo)。通過文獻(xiàn)梳理、領(lǐng)域分析和專家訪談等方法，研究者確定了各指標(biāo)的具體表現(xiàn)與其表現(xiàn)性證據(jù)載體。教師評價(jià)實(shí)踐過程的表現(xiàn)性證據(jù)載體包含了教師所有有關(guān)評價(jià)實(shí)踐的材料，其中教案、學(xué)生作業(yè)樣例、課堂錄像、課堂反思和作業(yè)反思為必需材料，其他材料(例如PPT、學(xué)習(xí)單等)為教師的補(bǔ)充性材料。教師提交的證據(jù)載體的具體信息如表2所示。表2

教師所提交的證據(jù)載體內(nèi)容清單

3.評分規(guī)則本研究招募兩名評分者，依據(jù)已制定的教師評價(jià)素養(yǎng)的評分規(guī)則對教師評價(jià)素養(yǎng)的證據(jù)載體進(jìn)行評分。為便于評分者操作，評分規(guī)則主要由評價(jià)標(biāo)準(zhǔn)、指導(dǎo)性問題、評估報(bào)告、評估報(bào)告示例四部分組成，其中指導(dǎo)性問題指向描述、判斷、舉證、分析、反例等五個(gè)層面的評估報(bào)告內(nèi)容，評分者依據(jù)問題提示撰寫簡要的評估報(bào)告，避免遺漏重要內(nèi)容。評分規(guī)則示例如表3所示。表3

評分規(guī)則示例（三）評分程序本研究招募兩名評分者，對所收集的證據(jù)載體進(jìn)行評分。其中，評分者A是具有超過15年教學(xué)和評價(jià)經(jīng)驗(yàn)的小學(xué)數(shù)學(xué)教師，評分者B為具備多年語文教學(xué)經(jīng)歷和教師評價(jià)經(jīng)驗(yàn)的小學(xué)校長。評分流程遵循了以下幾個(gè)步驟。1.評分者培訓(xùn)培訓(xùn)目的是使評分者清楚了解評價(jià)素養(yǎng)指標(biāo)體系中各維度的評價(jià)表現(xiàn)，和評分規(guī)則內(nèi)容及其使用規(guī)范。培訓(xùn)采取線上形式，持續(xù)時(shí)間為3小時(shí)左右。為了達(dá)到培訓(xùn)目的，培訓(xùn)過程分為三個(gè)階段。第一階段，介紹。研究者首先向評分者系統(tǒng)講解評價(jià)素養(yǎng)、表現(xiàn)性評價(jià)等概念內(nèi)涵。其次是針對評分流程的說明，研究者向評分者介紹評分規(guī)則以及評分方法，提供評分示例，并向其說明如何檢索載體中的表現(xiàn)性證據(jù)，如何基于證據(jù)進(jìn)行評分，如何根據(jù)指導(dǎo)性問題和示例撰寫評估報(bào)告等。第二階段，示范。為進(jìn)一步幫助評分者理解評分規(guī)則中的各項(xiàng)標(biāo)準(zhǔn)及評分流程，研究者選定某一個(gè)維度，從預(yù)研究采集的10份證據(jù)載體中隨機(jī)抽取一位被試的證據(jù)載體，包括文本片段和視頻片段，示范并指導(dǎo)兩名評分者根據(jù)評分規(guī)則進(jìn)行判斷。首先要求評分者判斷在該片段中被試在該維度上的評價(jià)實(shí)踐規(guī)范性，然后再判斷被試在該維度表現(xiàn)上的質(zhì)量，最后指導(dǎo)兩名評分者依據(jù)規(guī)則評判該被試在每個(gè)片段中的表現(xiàn)如何，并且回答每個(gè)維度上的指導(dǎo)性問題。在這個(gè)過程中，兩位評分者出現(xiàn)意見不一致的情況，要求他們輔以證據(jù)說明各自評分的合理性，直到達(dá)成一致意見。第三階段，試評。從預(yù)研究中選擇一份完整的證據(jù)載體內(nèi)容，要求兩位評分者按照評價(jià)手冊獨(dú)立評分。兩名評分者首先查閱證據(jù)載體中的所有材料，并進(jìn)行記錄，標(biāo)注與評價(jià)標(biāo)準(zhǔn)相關(guān)的證據(jù)；其次，依據(jù)證據(jù)載體內(nèi)容進(jìn)行評分，并完成評分報(bào)告的撰寫，每項(xiàng)評分報(bào)告包含初步分析、證據(jù)和反例，以及針對指導(dǎo)性問題的分析總結(jié)。在評分完畢之后，評分者向研究者展示、匯報(bào)評分結(jié)果，研究者對評分者偏離評分規(guī)則的內(nèi)容進(jìn)行額外的指導(dǎo)。2.正式評分由于客觀條件限制，兩名評分者對證據(jù)載體的評估采取遠(yuǎn)程視頻會(huì)議的方式同時(shí)進(jìn)行，研究者對整個(gè)評分過程進(jìn)行全程視頻并錄像錄音。正式評分分為三步進(jìn)行。（1）獨(dú)立評分。參照培訓(xùn)中的第三階段，兩位評分者進(jìn)行獨(dú)立評分。最終10份被試材料得到兩份評分記錄，即評分者A評定的結(jié)果ai，評分者B評定的結(jié)果bi。（2）重新評分。評分結(jié)束后，研究者檢查所有評分，要求兩名評分者對評分中被評定為0分的指標(biāo)，以及研究者認(rèn)為評分者所撰寫的報(bào)告中證據(jù)不足的評分，重新進(jìn)行獨(dú)立評估。（3）合作評分。研究者檢查每個(gè)維度上兩位評分者的評分，若兩個(gè)分?jǐn)?shù)差異超過該維度總分的1/2，則被認(rèn)為是具有顯著差異的評分，需要兩名評分者對存有顯著差異的維度進(jìn)行共同商議評分。商議評分的過程為：評分者首先分別總結(jié)陳述，然后根據(jù)各自論點(diǎn)相互舉證和舉出反例，直至對該維度的評分達(dá)成共識，最后共同撰寫具有共識的評分表，并形成最終的合作評分結(jié)果ci。（四）數(shù)據(jù)分析數(shù)據(jù)分析主要從量化分析和質(zhì)性分析兩個(gè)層面進(jìn)行。量化分析包括了信效度分析和多面Rasch建模分析，而質(zhì)性分析為評分過程案例分析。1.信效度分析本研究首先計(jì)算了校標(biāo)關(guān)聯(lián)效度，使用SPSS23.0計(jì)算評分結(jié)果ai、bi和ci分別與問卷得分的皮爾遜積差相關(guān)，并比較何種方法所得分?jǐn)?shù)具有較高的校標(biāo)關(guān)聯(lián)效度，則說明使用該方法更能預(yù)測教師真實(shí)的評價(jià)素養(yǎng)水平。其次，本研究使用SPSS23.0計(jì)算兩名評分者評分之間的皮爾遜積差相關(guān)系數(shù)，從而得出評分者間一致性信度。相關(guān)系數(shù)大于0.80，說明評分者間一致性信度較高。最后，在計(jì)算評分者內(nèi)部一致性信度時(shí)使用SPSS23.0計(jì)算得分ai、bi和ci的克隆巴赫α系數(shù)，從而得出評分者內(nèi)部一致性信度。一般而言，α＞0.70則被認(rèn)為具有較高信度［6］，系數(shù)介于0.60與0.70之間處于可接受的范圍內(nèi)。2.多面Rasch建模分析當(dāng)存在多個(gè)評分者對被試進(jìn)行評分時(shí)，通常會(huì)采用多面Rasch模型（ManyFacetRaschModel，簡稱MFRM）進(jìn)行建模分析。該模型將被試能力、評分者寬嚴(yán)程度、題目難度、評分等級等變量納入影響最終評分的因素之中。具體來說，本研究采用Linacre編制的MFRM分析程序FACETS3.80.4［7］進(jìn)行數(shù)據(jù)分析，在同一尺度上對被試能力、評分者寬嚴(yán)程度以及題目難度進(jìn)行分析。3.評分過程的案例分析

除以上量化分析外，本研究為論證評分過程的合理性還進(jìn)行了案例分析。研究者選擇某一典型的評分點(diǎn)，采用半結(jié)構(gòu)化的回溯性訪談方式，挖掘評分者的評分過程，從而確定評分者證據(jù)提取、證據(jù)解釋的內(nèi)在邏輯，并將證據(jù)與評分表進(jìn)行對應(yīng)，從而建構(gòu)評分過程模型。具體的分析過程為：（1）在所有評分結(jié)束后，研究者收集兩名評分者的所有評分表。（2）結(jié)合評分過程中的視頻錄像，選擇在兩名評分者獨(dú)立評分時(shí)，存在顯著差異評分的案例進(jìn)行分析。（3）研究者對兩名評分者進(jìn)行半結(jié)構(gòu)化的回溯性訪談，并進(jìn)行全程錄音。評分過程分析分為兩個(gè)部分，一是分析評分者是如何提取證據(jù)、解釋證據(jù)，以及如何評判的；二是分析評分者是如何與另一名評分者根據(jù)評分差異，相互列舉證據(jù)進(jìn)行論證，從而達(dá)成共識的。研究采用基于證據(jù)的論證和圖爾敏(Toulmin)的論證模型為分析思路，即強(qiáng)調(diào)理由、推理與合理性，闡明證據(jù)—論點(diǎn)—主張之間的動(dòng)態(tài)關(guān)系。證據(jù)是評分者基于可觀察的、以通用術(shù)語進(jìn)行描述的數(shù)據(jù)；論點(diǎn)依據(jù)證據(jù)建立，在實(shí)際評估中，評分者需要通過教師在表現(xiàn)性評價(jià)中的語言、行為、文字等數(shù)據(jù)，尋找能夠代表教師評價(jià)素養(yǎng)的多種證據(jù)從而形成推斷；而主張是由不同論點(diǎn)匯集而成的判斷，應(yīng)與評估目的緊密相關(guān)，是評分者期望能夠根據(jù)被試在表現(xiàn)性評價(jià)中的表現(xiàn)而作出的整合性的、概括性的陳述。三、研究結(jié)果（一）表現(xiàn)性評價(jià)的量化分析結(jié)果1.信效度分析（1）校標(biāo)關(guān)聯(lián)效度本研究計(jì)算了每個(gè)被試在表現(xiàn)性評價(jià)的總分與問卷測試分?jǐn)?shù)之間的積差相關(guān)，結(jié)果如表4所示。結(jié)果表明，評分者共同協(xié)商的得分ci較之獨(dú)立評分ai和bi具有更高的校標(biāo)關(guān)聯(lián)效度。表4

各分?jǐn)?shù)間的相關(guān)性檢驗(yàn)（2）評分者間一致性信度檢驗(yàn)本研究計(jì)算了兩名評分者A和B評分的皮爾遜積差相關(guān)，r=0.85(p＜0.01)，結(jié)果表明評分者間一致性信度較高。（3）評分者內(nèi)部一致性信度檢驗(yàn)研究計(jì)算了得分ai、bi和ci的克隆巴赫α系數(shù)，分別為αai=0.66、αbi=0.67和αci=0.70。由結(jié)果可得，本次評估的評分者內(nèi)部一致性在可以接受的范圍內(nèi)。2.多面Rasch建模分析圖1為同一尺度下評分者寬嚴(yán)程度、被試能力以及題目難度的分布圖，這些題目的難度范圍為-0.49至0.58logit，較好地覆蓋了10名被試的能力水平，并且這些題目的分布趨近于正態(tài)分布，說明評價(jià)工具的質(zhì)量較好。圖1

被試評價(jià)素養(yǎng)水平、評分者寬嚴(yán)程度與題目難度分布圖被試MFRM的分析結(jié)果見表5。首先，這10名教師的能力范圍為-0.74至0.46logit，其中教師T9的評價(jià)素養(yǎng)水平最高，教師T2的評價(jià)素養(yǎng)水平最低。其次，所有被試的Infit值都在可接受的取值范圍0.5—1.5內(nèi)［8］，說明實(shí)際觀察值和模型預(yù)測值之間的擬合程度較好。被試能力估計(jì)值標(biāo)準(zhǔn)誤均方的平方根（RMSE）為0.15，說明對被試的測評誤差較低。最后，表明每個(gè)面的個(gè)體之間的差異是否大于測量誤差的分隔系數(shù)（Separation）和信度（Reliability）分別為2.50和0.86。分隔系數(shù)大于2，一般認(rèn)為存在明顯差異；信度達(dá)到0.86，說明此結(jié)果的可信度較高。此外，本研究未發(fā)現(xiàn)這10名教師的評價(jià)素養(yǎng)能力在學(xué)科背景（語文和數(shù)學(xué)）上存在顯著差異(t=0.284，p=0.78)。表5

被試MFRM能力估計(jì)表最后，由表6可知，在評分寬嚴(yán)程度上，評分者B要比評分者A更嚴(yán)。此外，表示評分者內(nèi)部一致性程度的Infit值都在可接受的0.5—1.5范圍內(nèi)，這說明兩位評分者不太存在主觀評分的偏差。Reliability值為0.60，雖然不高，但Separation的值（1.21）遠(yuǎn)小于2，說明評分者之間不存在明顯差異。此外，卡方檢驗(yàn)的顯著性p值為0.12，進(jìn)一步說明評分者之間差異不顯著，評分者之間評分較為一致。表6

評分者M(jìn)FRM估計(jì)表（二）評分者評分過程案例分析在質(zhì)性分析部分，本研究關(guān)注的是在評分過程中證據(jù)、論點(diǎn)和主張是如何互動(dòng)的，也就是說評分者是如何使用證據(jù)和評分表進(jìn)行評分的，以及評分者之間是如何互動(dòng)并形成最終評分的。圍繞這兩個(gè)研究問題，本研究通過從訪談實(shí)錄中提取評分者在評分過程中的關(guān)鍵行為進(jìn)行分析和論證。案例分析選取了T8被試的證據(jù)載體，以“SO維度—反饋”中“SO-1使用高級反饋技術(shù)”這條標(biāo)準(zhǔn)為例，進(jìn)行評分過程的案例分析。評分結(jié)果顯示，在T8被試的該項(xiàng)評分上，兩位評分者差異較大，評分者A認(rèn)為被試具有較高的反饋技術(shù)，該項(xiàng)評分應(yīng)為1分；評分者B認(rèn)為被試反饋水平較低，在該項(xiàng)上的得分應(yīng)為0分?；诖?，本研究采用回溯性訪談的方法對兩位評分者進(jìn)行了深入訪談，分析他們的評分流程與論證過程，提取共性的評分模式。研究結(jié)果如下。1.獨(dú)立評分過程（1）將評分規(guī)則與教學(xué)經(jīng)驗(yàn)相聯(lián)系，從而建構(gòu)教師表現(xiàn)特征評分者首先通過評分前培訓(xùn)和正式評分時(shí)再次閱讀評分表內(nèi)容，知曉評分規(guī)則中的各項(xiàng)評分條目；然后抓取評分規(guī)則中的關(guān)鍵詞，理解這些關(guān)鍵詞所指代的教學(xué)實(shí)踐中教師的行為表現(xiàn)。例如，在本案例中，評分者A在訪談中解釋道：“評分表是一個(gè)平面的、二維的文字，但是我會(huì)在理解它的時(shí)候，將它想象為具象的、在我教學(xué)場景中會(huì)出現(xiàn)的畫面?！保?）對照證據(jù)載體中的多種內(nèi)容并進(jìn)行教師表現(xiàn)錨定在對證據(jù)載體內(nèi)容的首次評估中，評分者根據(jù)評分要求，先在各項(xiàng)證據(jù)載體中，尋找與自己建構(gòu)的理解匹配的相關(guān)行為，并記錄下來。評分者B提到：“在我從事的教師課堂表現(xiàn)的聽評課中，我自己總結(jié)了一些關(guān)于教師使用追問、引申、探問、請求解釋、誘導(dǎo)答案、引導(dǎo)自我修正等一系列的反饋技術(shù)的表現(xiàn)。在我看教師課堂錄像時(shí)，我就會(huì)重點(diǎn)捕捉教師的這些行為，記錄下發(fā)生的時(shí)間點(diǎn)和大概的教學(xué)任務(wù)描述?！保?）對教師在該評價(jià)素養(yǎng)維度上的表現(xiàn)進(jìn)行整合性判斷評分者在標(biāo)注證據(jù)的過程中，形成一個(gè)支持—反對的論點(diǎn)比對，最終形成對教師評價(jià)素養(yǎng)的整體性判斷，即主張。例如，在本研究選擇的案例中，評分者A認(rèn)為被試教師在大多數(shù)情況下都能表現(xiàn)出較高的反饋技術(shù)，例如，在學(xué)生進(jìn)行小組匯報(bào)后，教師沒有立刻給出“對”“錯(cuò)”判斷，而是通過反問“是這樣嗎？”引發(fā)學(xué)生思考，并成功激發(fā)多名學(xué)生舉手發(fā)言，最后通過展示小組的結(jié)果進(jìn)行反駁，這是反饋技術(shù)較高的體現(xiàn)。但是課堂中也有一些反例，如在課堂實(shí)錄中教學(xué)結(jié)束時(shí)的總結(jié)復(fù)習(xí)環(huán)節(jié)，被試教師要求學(xué)生課堂小結(jié)，詢問學(xué)生“這節(jié)課學(xué)到了什么”，兩個(gè)發(fā)言學(xué)生的總結(jié)基本都為“以后玩游戲的時(shí)候能夠用到這堂課的知識”，也就是說都沒有貼合教學(xué)目標(biāo)，但是被試教師給出的反饋僅僅是“好的”，這明顯不是高水平的反饋。訪談發(fā)現(xiàn)，在給出一個(gè)整合性的判斷上，難度是比較高的，且是在被新的證據(jù)和論點(diǎn)不斷修正的。評分者一般通過以下兩種方式作出整合性判斷，給出被試表現(xiàn)的主張。第一，針對主要目標(biāo)或任務(wù)的表現(xiàn)行為。一堂課中一般都有教學(xué)重難點(diǎn)，相應(yīng)的也都有突破重難點(diǎn)的主要的評價(jià)任務(wù)。在判斷上，評分者查看教案和教學(xué)錄相，首先確定的是核心的、指向重要教學(xué)目標(biāo)的學(xué)習(xí)任務(wù)中教師的證據(jù)表現(xiàn)，并給予這些證據(jù)以較高的權(quán)重，從而得出推論。例如，在這一案例中，評分者A對被試教師在活動(dòng)二的反饋表現(xiàn)賦以更高的權(quán)重，認(rèn)為其是突破重難點(diǎn)達(dá)成主要教學(xué)目標(biāo)的主要任務(wù)，最后比較支持該評分的證據(jù)和反對證據(jù)的加權(quán)總分，從而對被試形成一個(gè)整合性的評判。第二，重新審查、比較每種證據(jù)，根據(jù)不同載體中呈現(xiàn)的不同證據(jù)，比較支持和反對該維度得分的證據(jù)數(shù)量，從而進(jìn)行整體性評判。例如，在這一案例中，評分者B就是在審查、比較各種證據(jù)數(shù)量的基礎(chǔ)上給出的判斷，認(rèn)為在教案、作業(yè)等反饋上，被試教師做出了更多較低水平的表現(xiàn)。2.合作評分過程當(dāng)兩位評分者對同一被試得出相差較大的整體性判斷后，本研究要求他們進(jìn)行討論并得出一個(gè)協(xié)商得分。這一過程是一個(gè)使用附帶證據(jù)的不同論點(diǎn)相互論證的過程，呈現(xiàn)出典型的“主張—論點(diǎn)—證據(jù)”的論證邏輯。（1）評分者描述雙方不一致的主張和論點(diǎn)評分者在合作評分時(shí)，首先比對評分表中撰寫的評估報(bào)告，分別對其撰寫的整體性判斷進(jìn)行描述，并附以論點(diǎn)作為支撐。例如，評分者B在本案例中主張“該教師沒有達(dá)到使用高級反饋技術(shù)的標(biāo)準(zhǔn)”，因?yàn)椤霸摻處煹姆答伡夹g(shù)一般，更多是一種低級的、不連貫的反饋”。而評分者A認(rèn)為，“該教師在總體上達(dá)到使用高級反饋技術(shù)的標(biāo)準(zhǔn)”，因?yàn)椤霸摻處煼磸?fù)使用‘然后呢？’‘是嗎？’‘如果……那么……會(huì)怎樣？’的句式進(jìn)行反問和設(shè)問，這是典型的高級反饋的表現(xiàn)?！保?）評分者根據(jù)雙方推論依次給予支持或反對的證據(jù)評分者根據(jù)兩方的論點(diǎn)，提出證據(jù)進(jìn)行支持或反駁。例如評分者A在對評分者B的論點(diǎn)進(jìn)行反駁時(shí)指出：“在課堂錄像的13分至23分這一片段中，教師要求學(xué)生進(jìn)行小組合作，并上臺(tái)分享小組結(jié)果，其中一位學(xué)生在發(fā)言之后，教師反問‘是這樣嗎？誰有不同答案？’講臺(tái)上的學(xué)生沉默，表示正在思考，臺(tái)下有學(xué)生舉手發(fā)言，教師邀請他起立回答，在該學(xué)生給出了正確答案之后，臺(tái)上學(xué)生呈現(xiàn)恍然大悟的表情并說了一句‘哦’，表明知曉了正確答案。從這一教學(xué)片段中得出，教師的反饋雖然簡短，但是引發(fā)了學(xué)生的思考，并通過同伴的糾正，幫助學(xué)生理解正確答案?！保?）兩名評分者根據(jù)證據(jù)再次錨定論點(diǎn)并形成新的共識性的主張雙方不斷根據(jù)所持論點(diǎn)，給出不同的證據(jù)，并重新根據(jù)論點(diǎn)的重要性作出判斷，直到其中一方認(rèn)可另一方論點(diǎn)，并達(dá)成一致的主張為止。比如，在這一案例中，在評分者A舉證并分析之后，評分者B說：“我在評判視頻中教師表現(xiàn)上，原來是角度有問題，更多關(guān)注了教師反饋后學(xué)生的表現(xiàn)，而有意無意忽略了教師的反饋技術(shù)。應(yīng)該重點(diǎn)關(guān)注反饋技術(shù)，這是評分標(biāo)準(zhǔn)，從這一點(diǎn)講，教師確實(shí)在課堂中表現(xiàn)出了較高的反饋技術(shù)，比如在課堂錄像的13分至29分這一片段中，教師針對‘如何

人人文庫> 全部分類> 教育資料 > 課設(shè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例

文檔簡介

溫馨提示

最新文檔

評論

基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔