基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第1頁
基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第2頁
基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第3頁
基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第4頁
基于表現(xiàn)性證據(jù)的合作評分研究-以教師評價(jià)素養(yǎng)的測評為例_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于表現(xiàn)性證據(jù)的合作評分研究——以教師評價(jià)素養(yǎng)的測評為例摘要

表現(xiàn)性評價(jià)方法在當(dāng)前素養(yǎng)測評的研究中處在越來越重要的地位,但是在以往研究中,表現(xiàn)性評價(jià)的結(jié)果往往具有較低的信度和效度,而本研究旨在開發(fā)一個(gè)基于表現(xiàn)性證據(jù)的合作評分的方法,從而提高表現(xiàn)性評價(jià)的質(zhì)量。本研究以評價(jià)素養(yǎng)的測評為例,招募兩名評分者,根據(jù)已開發(fā)的指標(biāo)框架和評分規(guī)則,對10名教師的評價(jià)素養(yǎng)表現(xiàn)性證據(jù)進(jìn)行評分,并從量化分析與質(zhì)性分析兩個(gè)層面,分別分析合作評分的質(zhì)量和過程。研究結(jié)果表明,合作評分較之傳統(tǒng)的背對背評分具有相對較高的效度和信度。在此過程中,評分被認(rèn)為是證據(jù)—論點(diǎn)—主張之間的動(dòng)態(tài)關(guān)系。通過評分者與證據(jù)、證據(jù)與評價(jià)標(biāo)準(zhǔn)、證據(jù)與證據(jù)之間的互動(dòng)與解釋,合作評分能夠有效提高表現(xiàn)性評價(jià)的質(zhì)量。關(guān)鍵詞

于證據(jù)的測評;評分過程;表現(xiàn)性評價(jià);教師評價(jià)素養(yǎng)一、引言在當(dāng)前國際與國內(nèi)強(qiáng)調(diào)基于素養(yǎng)的測評研究中,傳統(tǒng)的紙筆測驗(yàn)因無法滿足測量復(fù)雜情境下的素養(yǎng)水平的要求、缺乏生態(tài)效度而被詬病。因而,使用表現(xiàn)性評價(jià)方法測評素養(yǎng)逐漸成為當(dāng)前測量與評價(jià)領(lǐng)域的新趨勢。表現(xiàn)性評價(jià)是在真實(shí)情境中,基于被試的表現(xiàn)性證據(jù)而作出評判的測評方法。[1]當(dāng)前教育領(lǐng)域的表現(xiàn)性評價(jià)方法的主要形式是收集被試在真實(shí)情境中與素養(yǎng)有關(guān)的行為表現(xiàn)載體,并從載體中錨定與素養(yǎng)有關(guān)的行為表現(xiàn),從而根據(jù)評價(jià)標(biāo)準(zhǔn)進(jìn)行判斷,故而表現(xiàn)性評價(jià)的過程即為依據(jù)證據(jù)進(jìn)行論證的過程。在這一過程中,證據(jù)載體往往是基于真實(shí)的復(fù)雜情境,從而彌補(bǔ)了傳統(tǒng)的素養(yǎng)測評中生態(tài)效度不足的問題。然而正因其所呈現(xiàn)內(nèi)容的復(fù)雜性,以往的測評往往具有較低的信度和效度。造成表現(xiàn)性評價(jià)出現(xiàn)上述較低質(zhì)量的因素可能有三種。一是評分者的主觀因素。評分者在對表現(xiàn)性評價(jià)中呈現(xiàn)的表現(xiàn)性證據(jù)作出判斷時(shí),往往會(huì)受到自身價(jià)值觀、意識形態(tài)、對建構(gòu)的理解、嚴(yán)格程度和評判難度等因素的影響,也可能基于不同的解釋框架對相同的證據(jù)作出不同的推斷,[2]這些都會(huì)降低評分者內(nèi)在一致性信度和評分者間的一致性信度。二是傳統(tǒng)的背對背評分方式。評分者之間依照評價(jià)標(biāo)準(zhǔn)背對背評分,適用于客觀的標(biāo)準(zhǔn)化測試,而用于表現(xiàn)性評價(jià)這種體現(xiàn)多種復(fù)雜的過程性證據(jù)的評分,則可能摻進(jìn)評分者更多主觀成分;同時(shí),獨(dú)立評分增加了評分者無法關(guān)注到所有載體中證據(jù)內(nèi)容的可能性。因此對復(fù)雜的、基于真實(shí)情境的表現(xiàn)證據(jù)評分,評分結(jié)果的效度在某種程度上需取決于評分者之間的共識。第三,固定、客觀的評價(jià)標(biāo)準(zhǔn)的局限。固定、客觀的評價(jià)標(biāo)準(zhǔn)無法適用于多證據(jù)的、基于復(fù)雜的問題情境的評估,因?yàn)楸憩F(xiàn)性評價(jià)中呈現(xiàn)的素養(yǎng)證據(jù)往往是混雜的,甚至是矛盾的,固定的評價(jià)標(biāo)準(zhǔn)不能較好地反映所有水平表現(xiàn),且由于證據(jù)的復(fù)雜屬性,評價(jià)標(biāo)準(zhǔn)無法做到絕對客觀??梢?,表現(xiàn)性評價(jià)的評分過程具有一定的特殊性。它需要評分者反復(fù)驗(yàn)證證據(jù)和解釋之間的關(guān)系,將不同來源的證據(jù)進(jìn)行整合,從每個(gè)分離的證據(jù)中推導(dǎo)出教師評價(jià)素養(yǎng)的系統(tǒng)連貫的解釋。[3]因此,在評分者進(jìn)行評分的過程中,應(yīng)增加評分的解釋性和互動(dòng)性,使評分者的解釋與證據(jù)載體反復(fù)地被驗(yàn)證和修訂,即在評分過程中強(qiáng)調(diào)評分者與評分者之間的舉證,促使評分者與證據(jù)、評分者與評分規(guī)則、評分者與評分者之間的互動(dòng),從而提高評估質(zhì)量。鑒于此,本研究嘗試依據(jù)這一假設(shè),開發(fā)一種能夠提高評分質(zhì)量的評分過程,在所建評分標(biāo)準(zhǔn)的基礎(chǔ)之上,增加有助于評分者進(jìn)行更客觀地評分的表現(xiàn)性證據(jù)范例和指導(dǎo)性問題,建構(gòu)評分者之間的互動(dòng)模式,以達(dá)到提高表現(xiàn)性評價(jià)的效度和信度的目的。據(jù)此,本研究以測評“教師評價(jià)素養(yǎng)”為例展開表現(xiàn)性評價(jià)的評分過程研究。教師評價(jià)素養(yǎng)是教師在特定的教學(xué)評價(jià)場域和專業(yè)實(shí)踐工作中所表現(xiàn)出的內(nèi)隱的評價(jià)知識和一系列外化的有關(guān)學(xué)習(xí)評價(jià)的表現(xiàn)性技能的綜合。[4]本研究重點(diǎn)測評教師評價(jià)素養(yǎng)表現(xiàn)在不同學(xué)科中的共同特征,因而評分規(guī)則也是針對教師在普遍的日常教學(xué)實(shí)踐中的通用的評價(jià)表現(xiàn)。對教師評價(jià)素養(yǎng)的測評過程是首先通過教案、課堂錄像、教師反思、學(xué)生作業(yè)等收集教師評價(jià)素養(yǎng)表現(xiàn)性證據(jù),然后再依據(jù)評分規(guī)則對教師的表現(xiàn)性證據(jù)進(jìn)行評分。本研究著重從量化分析和質(zhì)性分析兩個(gè)方面驗(yàn)證互動(dòng)的、解釋性的評分過程的質(zhì)量,量化分析旨在驗(yàn)證工具和評分者的信效度,質(zhì)性分析的目的是進(jìn)一步挖掘評分的科學(xué)性達(dá)成的過程。二、研究設(shè)計(jì)(一)被試

研究采取方便抽樣的方法,在被試自愿、校長和教研員推薦的條件下進(jìn)行取樣。考慮到語文和數(shù)學(xué)學(xué)科教師在實(shí)踐中能夠更多地實(shí)施和參與學(xué)生評價(jià),因此本研究將基礎(chǔ)教育階段的語文和數(shù)學(xué)學(xué)科教師作為主要的研究對象。最終,本研究招募了中部某省會(huì)城市的5名語文教師和5名數(shù)學(xué)教師參與本次研究。這10名教師的基本信息如表1所示。表1

被試基本信息(二)研究工具

1.教師評價(jià)素養(yǎng)問卷本研究采用了鄭東輝[5]在2010年漢化并改編的《教師評價(jià)素養(yǎng)問卷》(TeacherAssessmentLiteracyQuestionnaire,簡稱TALQ)進(jìn)行問卷調(diào)查。之所以選擇這一問卷是因?yàn)樵搯柧淼母骶S度與本研究的指標(biāo)體系較為一致。該問卷共21題,每題答對計(jì)1分,答錯(cuò)計(jì)0分。本研究使用的問卷各維度與題目之間的對應(yīng)關(guān)系為:1—3題考察“選擇評價(jià)方法”;4—6題對應(yīng)的維度是“開發(fā)評價(jià)方法”;7—9題對應(yīng)的維度是“管理、評分和解釋評價(jià)結(jié)果”;10—12題對應(yīng)的維度是“使用評價(jià)結(jié)果進(jìn)行教育決策”;13—15題對應(yīng)的維度是“使用評價(jià)劃分等級”;16—18題對應(yīng)的維度是“交流評價(jià)結(jié)果”;19—21題考察評價(jià)中“識別不合倫理的評價(jià)實(shí)踐”的素養(yǎng)。2.教師表現(xiàn)性證據(jù)載體

本研究將教師評價(jià)素養(yǎng)分為五個(gè)維度進(jìn)行測評,分別是“確定評價(jià)目標(biāo)”“設(shè)計(jì)與預(yù)測”“實(shí)施與評判”“反饋與指導(dǎo)”“反思與改進(jìn)”,并細(xì)分為11個(gè)指標(biāo)。通過文獻(xiàn)梳理、領(lǐng)域分析和專家訪談等方法,研究者確定了各指標(biāo)的具體表現(xiàn)與其表現(xiàn)性證據(jù)載體。教師評價(jià)實(shí)踐過程的表現(xiàn)性證據(jù)載體包含了教師所有有關(guān)評價(jià)實(shí)踐的材料,其中教案、學(xué)生作業(yè)樣例、課堂錄像、課堂反思和作業(yè)反思為必需材料,其他材料(例如PPT、學(xué)習(xí)單等)為教師的補(bǔ)充性材料。教師提交的證據(jù)載體的具體信息如表2所示。表2

教師所提交的證據(jù)載體內(nèi)容清單

3.評分規(guī)則本研究招募兩名評分者,依據(jù)已制定的教師評價(jià)素養(yǎng)的評分規(guī)則對教師評價(jià)素養(yǎng)的證據(jù)載體進(jìn)行評分。為便于評分者操作,評分規(guī)則主要由評價(jià)標(biāo)準(zhǔn)、指導(dǎo)性問題、評估報(bào)告、評估報(bào)告示例四部分組成,其中指導(dǎo)性問題指向描述、判斷、舉證、分析、反例等五個(gè)層面的評估報(bào)告內(nèi)容,評分者依據(jù)問題提示撰寫簡要的評估報(bào)告,避免遺漏重要內(nèi)容。評分規(guī)則示例如表3所示。表3

評分規(guī)則示例(三)評分程序本研究招募兩名評分者,對所收集的證據(jù)載體進(jìn)行評分。其中,評分者A是具有超過15年教學(xué)和評價(jià)經(jīng)驗(yàn)的小學(xué)數(shù)學(xué)教師,評分者B為具備多年語文教學(xué)經(jīng)歷和教師評價(jià)經(jīng)驗(yàn)的小學(xué)校長。評分流程遵循了以下幾個(gè)步驟。1.評分者培訓(xùn)培訓(xùn)目的是使評分者清楚了解評價(jià)素養(yǎng)指標(biāo)體系中各維度的評價(jià)表現(xiàn),和評分規(guī)則內(nèi)容及其使用規(guī)范。培訓(xùn)采取線上形式,持續(xù)時(shí)間為3小時(shí)左右。為了達(dá)到培訓(xùn)目的,培訓(xùn)過程分為三個(gè)階段。第一階段,介紹。研究者首先向評分者系統(tǒng)講解評價(jià)素養(yǎng)、表現(xiàn)性評價(jià)等概念內(nèi)涵。其次是針對評分流程的說明,研究者向評分者介紹評分規(guī)則以及評分方法,提供評分示例,并向其說明如何檢索載體中的表現(xiàn)性證據(jù),如何基于證據(jù)進(jìn)行評分,如何根據(jù)指導(dǎo)性問題和示例撰寫評估報(bào)告等。第二階段,示范。為進(jìn)一步幫助評分者理解評分規(guī)則中的各項(xiàng)標(biāo)準(zhǔn)及評分流程,研究者選定某一個(gè)維度,從預(yù)研究采集的10份證據(jù)載體中隨機(jī)抽取一位被試的證據(jù)載體,包括文本片段和視頻片段,示范并指導(dǎo)兩名評分者根據(jù)評分規(guī)則進(jìn)行判斷。首先要求評分者判斷在該片段中被試在該維度上的評價(jià)實(shí)踐規(guī)范性,然后再判斷被試在該維度表現(xiàn)上的質(zhì)量,最后指導(dǎo)兩名評分者依據(jù)規(guī)則評判該被試在每個(gè)片段中的表現(xiàn)如何,并且回答每個(gè)維度上的指導(dǎo)性問題。在這個(gè)過程中,兩位評分者出現(xiàn)意見不一致的情況,要求他們輔以證據(jù)說明各自評分的合理性,直到達(dá)成一致意見。第三階段,試評。從預(yù)研究中選擇一份完整的證據(jù)載體內(nèi)容,要求兩位評分者按照評價(jià)手冊獨(dú)立評分。兩名評分者首先查閱證據(jù)載體中的所有材料,并進(jìn)行記錄,標(biāo)注與評價(jià)標(biāo)準(zhǔn)相關(guān)的證據(jù);其次,依據(jù)證據(jù)載體內(nèi)容進(jìn)行評分,并完成評分報(bào)告的撰寫,每項(xiàng)評分報(bào)告包含初步分析、證據(jù)和反例,以及針對指導(dǎo)性問題的分析總結(jié)。在評分完畢之后,評分者向研究者展示、匯報(bào)評分結(jié)果,研究者對評分者偏離評分規(guī)則的內(nèi)容進(jìn)行額外的指導(dǎo)。2.正式評分由于客觀條件限制,兩名評分者對證據(jù)載體的評估采取遠(yuǎn)程視頻會(huì)議的方式同時(shí)進(jìn)行,研究者對整個(gè)評分過程進(jìn)行全程視頻并錄像錄音。正式評分分為三步進(jìn)行。(1)獨(dú)立評分。參照培訓(xùn)中的第三階段,兩位評分者進(jìn)行獨(dú)立評分。最終10份被試材料得到兩份評分記錄,即評分者A評定的結(jié)果ai,評分者B評定的結(jié)果bi。(2)重新評分。評分結(jié)束后,研究者檢查所有評分,要求兩名評分者對評分中被評定為0分的指標(biāo),以及研究者認(rèn)為評分者所撰寫的報(bào)告中證據(jù)不足的評分,重新進(jìn)行獨(dú)立評估。(3)合作評分。研究者檢查每個(gè)維度上兩位評分者的評分,若兩個(gè)分?jǐn)?shù)差異超過該維度總分的1/2,則被認(rèn)為是具有顯著差異的評分,需要兩名評分者對存有顯著差異的維度進(jìn)行共同商議評分。商議評分的過程為:評分者首先分別總結(jié)陳述,然后根據(jù)各自論點(diǎn)相互舉證和舉出反例,直至對該維度的評分達(dá)成共識,最后共同撰寫具有共識的評分表,并形成最終的合作評分結(jié)果ci。(四)數(shù)據(jù)分析數(shù)據(jù)分析主要從量化分析和質(zhì)性分析兩個(gè)層面進(jìn)行。量化分析包括了信效度分析和多面Rasch建模分析,而質(zhì)性分析為評分過程案例分析。1.信效度分析本研究首先計(jì)算了校標(biāo)關(guān)聯(lián)效度,使用SPSS23.0計(jì)算評分結(jié)果ai、bi和ci分別與問卷得分的皮爾遜積差相關(guān),并比較何種方法所得分?jǐn)?shù)具有較高的校標(biāo)關(guān)聯(lián)效度,則說明使用該方法更能預(yù)測教師真實(shí)的評價(jià)素養(yǎng)水平。其次,本研究使用SPSS23.0計(jì)算兩名評分者評分之間的皮爾遜積差相關(guān)系數(shù),從而得出評分者間一致性信度。相關(guān)系數(shù)大于0.80,說明評分者間一致性信度較高。最后,在計(jì)算評分者內(nèi)部一致性信度時(shí)使用SPSS23.0計(jì)算得分ai、bi和ci的克隆巴赫α系數(shù),從而得出評分者內(nèi)部一致性信度。一般而言,α>0.70則被認(rèn)為具有較高信度[6],系數(shù)介于0.60與0.70之間處于可接受的范圍內(nèi)。2.多面Rasch建模分析當(dāng)存在多個(gè)評分者對被試進(jìn)行評分時(shí),通常會(huì)采用多面Rasch模型(ManyFacetRaschModel,簡稱MFRM)進(jìn)行建模分析。該模型將被試能力、評分者寬嚴(yán)程度、題目難度、評分等級等變量納入影響最終評分的因素之中。具體來說,本研究采用Linacre編制的MFRM分析程序FACETS3.80.4[7]進(jìn)行數(shù)據(jù)分析,在同一尺度上對被試能力、評分者寬嚴(yán)程度以及題目難度進(jìn)行分析。3.評分過程的案例分析

除以上量化分析外,本研究為論證評分過程的合理性還進(jìn)行了案例分析。研究者選擇某一典型的評分點(diǎn),采用半結(jié)構(gòu)化的回溯性訪談方式,挖掘評分者的評分過程,從而確定評分者證據(jù)提取、證據(jù)解釋的內(nèi)在邏輯,并將證據(jù)與評分表進(jìn)行對應(yīng),從而建構(gòu)評分過程模型。具體的分析過程為:(1)在所有評分結(jié)束后,研究者收集兩名評分者的所有評分表。(2)結(jié)合評分過程中的視頻錄像,選擇在兩名評分者獨(dú)立評分時(shí),存在顯著差異評分的案例進(jìn)行分析。(3)研究者對兩名評分者進(jìn)行半結(jié)構(gòu)化的回溯性訪談,并進(jìn)行全程錄音。評分過程分析分為兩個(gè)部分,一是分析評分者是如何提取證據(jù)、解釋證據(jù),以及如何評判的;二是分析評分者是如何與另一名評分者根據(jù)評分差異,相互列舉證據(jù)進(jìn)行論證,從而達(dá)成共識的。研究采用基于證據(jù)的論證和圖爾敏(Toulmin)的論證模型為分析思路,即強(qiáng)調(diào)理由、推理與合理性,闡明證據(jù)—論點(diǎn)—主張之間的動(dòng)態(tài)關(guān)系。證據(jù)是評分者基于可觀察的、以通用術(shù)語進(jìn)行描述的數(shù)據(jù);論點(diǎn)依據(jù)證據(jù)建立,在實(shí)際評估中,評分者需要通過教師在表現(xiàn)性評價(jià)中的語言、行為、文字等數(shù)據(jù),尋找能夠代表教師評價(jià)素養(yǎng)的多種證據(jù)從而形成推斷;而主張是由不同論點(diǎn)匯集而成的判斷,應(yīng)與評估目的緊密相關(guān),是評分者期望能夠根據(jù)被試在表現(xiàn)性評價(jià)中的表現(xiàn)而作出的整合性的、概括性的陳述。三、研究結(jié)果(一)表現(xiàn)性評價(jià)的量化分析結(jié)果1.信效度分析(1)校標(biāo)關(guān)聯(lián)效度本研究計(jì)算了每個(gè)被試在表現(xiàn)性評價(jià)的總分與問卷測試分?jǐn)?shù)之間的積差相關(guān),結(jié)果如表4所示。結(jié)果表明,評分者共同協(xié)商的得分ci較之獨(dú)立評分ai和bi具有更高的校標(biāo)關(guān)聯(lián)效度。表4

各分?jǐn)?shù)間的相關(guān)性檢驗(yàn)(2)評分者間一致性信度檢驗(yàn)本研究計(jì)算了兩名評分者A和B評分的皮爾遜積差相關(guān),r=0.85(p<0.01),結(jié)果表明評分者間一致性信度較高。(3)評分者內(nèi)部一致性信度檢驗(yàn)研究計(jì)算了得分ai、bi和ci的克隆巴赫α系數(shù),分別為αai=0.66、αbi=0.67和αci=0.70。由結(jié)果可得,本次評估的評分者內(nèi)部一致性在可以接受的范圍內(nèi)。2.多面Rasch建模分析圖1為同一尺度下評分者寬嚴(yán)程度、被試能力以及題目難度的分布圖,這些題目的難度范圍為-0.49至0.58logit,較好地覆蓋了10名被試的能力水平,并且這些題目的分布趨近于正態(tài)分布,說明評價(jià)工具的質(zhì)量較好。圖1

被試評價(jià)素養(yǎng)水平、評分者寬嚴(yán)程度與題目難度分布圖被試MFRM的分析結(jié)果見表5。首先,這10名教師的能力范圍為-0.74至0.46logit,其中教師T9的評價(jià)素養(yǎng)水平最高,教師T2的評價(jià)素養(yǎng)水平最低。其次,所有被試的Infit值都在可接受的取值范圍0.5—1.5內(nèi)[8],說明實(shí)際觀察值和模型預(yù)測值之間的擬合程度較好。被試能力估計(jì)值標(biāo)準(zhǔn)誤均方的平方根(RMSE)為0.15,說明對被試的測評誤差較低。最后,表明每個(gè)面的個(gè)體之間的差異是否大于測量誤差的分隔系數(shù)(Separation)和信度(Reliability)分別為2.50和0.86。分隔系數(shù)大于2,一般認(rèn)為存在明顯差異;信度達(dá)到0.86,說明此結(jié)果的可信度較高。此外,本研究未發(fā)現(xiàn)這10名教師的評價(jià)素養(yǎng)能力在學(xué)科背景(語文和數(shù)學(xué))上存在顯著差異(t=0.284,p=0.78)。表5

被試MFRM能力估計(jì)表最后,由表6可知,在評分寬嚴(yán)程度上,評分者B要比評分者A更嚴(yán)。此外,表示評分者內(nèi)部一致性程度的Infit值都在可接受的0.5—1.5范圍內(nèi),這說明兩位評分者不太存在主觀評分的偏差。Reliability值為0.60,雖然不高,但Separation的值(1.21)遠(yuǎn)小于2,說明評分者之間不存在明顯差異。此外,卡方檢驗(yàn)的顯著性p值為0.12,進(jìn)一步說明評分者之間差異不顯著,評分者之間評分較為一致。表6

評分者M(jìn)FRM估計(jì)表(二)評分者評分過程案例分析在質(zhì)性分析部分,本研究關(guān)注的是在評分過程中證據(jù)、論點(diǎn)和主張是如何互動(dòng)的,也就是說評分者是如何使用證據(jù)和評分表進(jìn)行評分的,以及評分者之間是如何互動(dòng)并形成最終評分的。圍繞這兩個(gè)研究問題,本研究通過從訪談實(shí)錄中提取評分者在評分過程中的關(guān)鍵行為進(jìn)行分析和論證。案例分析選取了T8被試的證據(jù)載體,以“SO維度—反饋”中“SO-1使用高級反饋技術(shù)”這條標(biāo)準(zhǔn)為例,進(jìn)行評分過程的案例分析。評分結(jié)果顯示,在T8被試的該項(xiàng)評分上,兩位評分者差異較大,評分者A認(rèn)為被試具有較高的反饋技術(shù),該項(xiàng)評分應(yīng)為1分;評分者B認(rèn)為被試反饋水平較低,在該項(xiàng)上的得分應(yīng)為0分?;诖?,本研究采用回溯性訪談的方法對兩位評分者進(jìn)行了深入訪談,分析他們的評分流程與論證過程,提取共性的評分模式。研究結(jié)果如下。1.獨(dú)立評分過程(1)將評分規(guī)則與教學(xué)經(jīng)驗(yàn)相聯(lián)系,從而建構(gòu)教師表現(xiàn)特征評分者首先通過評分前培訓(xùn)和正式評分時(shí)再次閱讀評分表內(nèi)容,知曉評分規(guī)則中的各項(xiàng)評分條目;然后抓取評分規(guī)則中的關(guān)鍵詞,理解這些關(guān)鍵詞所指代的教學(xué)實(shí)踐中教師的行為表現(xiàn)。例如,在本案例中,評分者A在訪談中解釋道:“評分表是一個(gè)平面的、二維的文字,但是我會(huì)在理解它的時(shí)候,將它想象為具象的、在我教學(xué)場景中會(huì)出現(xiàn)的畫面?!保?)對照證據(jù)載體中的多種內(nèi)容并進(jìn)行教師表現(xiàn)錨定在對證據(jù)載體內(nèi)容的首次評估中,評分者根據(jù)評分要求,先在各項(xiàng)證據(jù)載體中,尋找與自己建構(gòu)的理解匹配的相關(guān)行為,并記錄下來。評分者B提到:“在我從事的教師課堂表現(xiàn)的聽評課中,我自己總結(jié)了一些關(guān)于教師使用追問、引申、探問、請求解釋、誘導(dǎo)答案、引導(dǎo)自我修正等一系列的反饋技術(shù)的表現(xiàn)。在我看教師課堂錄像時(shí),我就會(huì)重點(diǎn)捕捉教師的這些行為,記錄下發(fā)生的時(shí)間點(diǎn)和大概的教學(xué)任務(wù)描述?!保?)對教師在該評價(jià)素養(yǎng)維度上的表現(xiàn)進(jìn)行整合性判斷評分者在標(biāo)注證據(jù)的過程中,形成一個(gè)支持—反對的論點(diǎn)比對,最終形成對教師評價(jià)素養(yǎng)的整體性判斷,即主張。例如,在本研究選擇的案例中,評分者A認(rèn)為被試教師在大多數(shù)情況下都能表現(xiàn)出較高的反饋技術(shù),例如,在學(xué)生進(jìn)行小組匯報(bào)后,教師沒有立刻給出“對”“錯(cuò)”判斷,而是通過反問“是這樣嗎?”引發(fā)學(xué)生思考,并成功激發(fā)多名學(xué)生舉手發(fā)言,最后通過展示小組的結(jié)果進(jìn)行反駁,這是反饋技術(shù)較高的體現(xiàn)。但是課堂中也有一些反例,如在課堂實(shí)錄中教學(xué)結(jié)束時(shí)的總結(jié)復(fù)習(xí)環(huán)節(jié),被試教師要求學(xué)生課堂小結(jié),詢問學(xué)生“這節(jié)課學(xué)到了什么”,兩個(gè)發(fā)言學(xué)生的總結(jié)基本都為“以后玩游戲的時(shí)候能夠用到這堂課的知識”,也就是說都沒有貼合教學(xué)目標(biāo),但是被試教師給出的反饋僅僅是“好的”,這明顯不是高水平的反饋。訪談發(fā)現(xiàn),在給出一個(gè)整合性的判斷上,難度是比較高的,且是在被新的證據(jù)和論點(diǎn)不斷修正的。評分者一般通過以下兩種方式作出整合性判斷,給出被試表現(xiàn)的主張。第一,針對主要目標(biāo)或任務(wù)的表現(xiàn)行為。一堂課中一般都有教學(xué)重難點(diǎn),相應(yīng)的也都有突破重難點(diǎn)的主要的評價(jià)任務(wù)。在判斷上,評分者查看教案和教學(xué)錄相,首先確定的是核心的、指向重要教學(xué)目標(biāo)的學(xué)習(xí)任務(wù)中教師的證據(jù)表現(xiàn),并給予這些證據(jù)以較高的權(quán)重,從而得出推論。例如,在這一案例中,評分者A對被試教師在活動(dòng)二的反饋表現(xiàn)賦以更高的權(quán)重,認(rèn)為其是突破重難點(diǎn)達(dá)成主要教學(xué)目標(biāo)的主要任務(wù),最后比較支持該評分的證據(jù)和反對證據(jù)的加權(quán)總分,從而對被試形成一個(gè)整合性的評判。第二,重新審查、比較每種證據(jù),根據(jù)不同載體中呈現(xiàn)的不同證據(jù),比較支持和反對該維度得分的證據(jù)數(shù)量,從而進(jìn)行整體性評判。例如,在這一案例中,評分者B就是在審查、比較各種證據(jù)數(shù)量的基礎(chǔ)上給出的判斷,認(rèn)為在教案、作業(yè)等反饋上,被試教師做出了更多較低水平的表現(xiàn)。2.合作評分過程當(dāng)兩位評分者對同一被試得出相差較大的整體性判斷后,本研究要求他們進(jìn)行討論并得出一個(gè)協(xié)商得分。這一過程是一個(gè)使用附帶證據(jù)的不同論點(diǎn)相互論證的過程,呈現(xiàn)出典型的“主張—論點(diǎn)—證據(jù)”的論證邏輯。(1)評分者描述雙方不一致的主張和論點(diǎn)評分者在合作評分時(shí),首先比對評分表中撰寫的評估報(bào)告,分別對其撰寫的整體性判斷進(jìn)行描述,并附以論點(diǎn)作為支撐。例如,評分者B在本案例中主張“該教師沒有達(dá)到使用高級反饋技術(shù)的標(biāo)準(zhǔn)”,因?yàn)椤霸摻處煹姆答伡夹g(shù)一般,更多是一種低級的、不連貫的反饋”。而評分者A認(rèn)為,“該教師在總體上達(dá)到使用高級反饋技術(shù)的標(biāo)準(zhǔn)”,因?yàn)椤霸摻處煼磸?fù)使用‘然后呢?’‘是嗎?’‘如果……那么……會(huì)怎樣?’的句式進(jìn)行反問和設(shè)問,這是典型的高級反饋的表現(xiàn)?!保?)評分者根據(jù)雙方推論依次給予支持或反對的證據(jù)評分者根據(jù)兩方的論點(diǎn),提出證據(jù)進(jìn)行支持或反駁。例如評分者A在對評分者B的論點(diǎn)進(jìn)行反駁時(shí)指出:“在課堂錄像的13分至23分這一片段中,教師要求學(xué)生進(jìn)行小組合作,并上臺(tái)分享小組結(jié)果,其中一位學(xué)生在發(fā)言之后,教師反問‘是這樣嗎?誰有不同答案?’講臺(tái)上的學(xué)生沉默,表示正在思考,臺(tái)下有學(xué)生舉手發(fā)言,教師邀請他起立回答,在該學(xué)生給出了正確答案之后,臺(tái)上學(xué)生呈現(xiàn)恍然大悟的表情并說了一句‘哦’,表明知曉了正確答案。從這一教學(xué)片段中得出,教師的反饋雖然簡短,但是引發(fā)了學(xué)生的思考,并通過同伴的糾正,幫助學(xué)生理解正確答案?!保?)兩名評分者根據(jù)證據(jù)再次錨定論點(diǎn)并形成新的共識性的主張雙方不斷根據(jù)所持論點(diǎn),給出不同的證據(jù),并重新根據(jù)論點(diǎn)的重要性作出判斷,直到其中一方認(rèn)可另一方論點(diǎn),并達(dá)成一致的主張為止。比如,在這一案例中,在評分者A舉證并分析之后,評分者B說:“我在評判視頻中教師表現(xiàn)上,原來是角度有問題,更多關(guān)注了教師反饋后學(xué)生的表現(xiàn),而有意無意忽略了教師的反饋技術(shù)。應(yīng)該重點(diǎn)關(guān)注反饋技術(shù),這是評分標(biāo)準(zhǔn),從這一點(diǎn)講,教師確實(shí)在課堂中表現(xiàn)出了較高的反饋技術(shù),比如在課堂錄像的13分至29分這一片段中,教師針對‘如何

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論