分析計算機輔助英語口試中評分信度_第1頁
分析計算機輔助英語口試中評分信度_第2頁
分析計算機輔助英語口試中評分信度_第3頁
分析計算機輔助英語口試中評分信度_第4頁
分析計算機輔助英語口試中評分信度_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PAGEPAGE1分析計算機輔助英語口試中評分信度1.引言主觀題的評分方法重要有整體評分法〔holisticscoring〕和分析評分法〔analyticscoring〕。整體評分要求評卷員對考生的答題質(zhì)量進行全面的評估,給出一個整體分數(shù);分析評分則要求評卷員對試題考察的每種技能給出單獨的分數(shù)〔Chi2001〕。評分信度是兩種評分法的關(guān)重視點,相關(guān)研究結(jié)果也不盡一樣。Klein等〔1998〕發(fā)現(xiàn)兩種評分法信度相當,對學生排名影響甚少。Barkaoui〔2010a〕使用定性分析法觀察評卷員的表現(xiàn),發(fā)現(xiàn)整體評分讓評卷員更關(guān)注學生的答卷,而分析評分使評卷員更留意評分細則;Barkaoui〔2011〕的研究還顯示整體評分具有更高層次評卷員間信度,分析評分雖出現(xiàn)更大評分差別,但評卷員內(nèi)信度更高層次。穆倩倩〔2010〕以為,分析評分在測試低水平學習者的寫作能力時有更高層次的評分信度,而整體評分則在測試高水平學習者時信度更高層次。一些研究則表示清楚分析評分優(yōu)于整體評分,這些研究發(fā)現(xiàn)分析評分法具有更高層次信度〔Goulden1994;洪佳敏2010〕,能為老師提供更多信息〔Bacha2001〕,評分嚴厲度更穩(wěn)定〔Chi2001〕,能更好地促進學生白話能力發(fā)展〔Tuan2012〕,很好區(qū)分出考試的寫作能力〔Wiseman2012〕等;HarschMartin〔2013〕的研究還表示清楚整體評分會掩蓋一些差別,尤其是評卷員怎樣使用各種評分指標的細節(jié)。當然,Xi〔2007〕也發(fā)現(xiàn)托??谠囍蟹治鲈u分實際上不能提供比整體評分更多的考生能力信息。馮蕾、高淑芬〔2012〕則建議寫作評分宜整體評分和分析評分相結(jié)合??偟膩碚f,分析評分法使評卷員更重視考察技能的每個方面,具有更高層次的信度,但費時費力〔Weigle2002〕;整體評分法操作簡單,效率較高,但評卷員的評分著重點往往不同〔Nakamura2002〕。在使用方面,試題強調(diào)考生的全面能力時,人們常用整體評分法;試題著重檢覆按生對完成任務(wù)的各種技能的把握情況時,分析評分更為適宜〔Kleinetal.1998〕。實際運用中,整體評分法多用于大規(guī)??荚?,因培訓評卷員更為方便且評分速度相對較快;而分析評分法常用于課堂測試,因評分結(jié)果可幫助老師診斷學生的學習情況〔Chi2001〕。當前國內(nèi)外的一些大規(guī)??荚嚩己邪自捒荚??!睮ELTS〕口試使用分析評分,重要包含流利連貫、詞匯使用、語法使用和語音語調(diào)四個方面,關(guān)注語言質(zhì)量〔BrownTaylor2006〕。托?!睺OEFL-iBT〕口試采取整體評分法,包括四項評價指標〔綜合描繪敘述、表達傳遞、語言使用和主題發(fā)展〕〔Alderson2009〕。大學英語四級考試白話考試〔CET-SET〕采取分析評分法,從語言精確性和范圍、話語的長短和連貫性、語言靈敏性和適切性,分四個等級對考生參與不同形式的口頭交際的表現(xiàn)打分。英語專業(yè)四級口試也采取分析評分,從內(nèi)容、語音語調(diào)、語法與詞匯三個方面,分別評定考生等級〔優(yōu)秀、良好、及格、不及格〕?,F(xiàn)有研究重要討論寫作考試的評分,討論口試,十分是基于計算機口試評分的研究還很少。國內(nèi)一些大型考試已增長口試,考試形式也由過去的考官和考生面對面考試改為基于計算機的人機對話考試。評分根據(jù)考生的答題錄音進行,評分方式也由以前的當面打分改為在專門的計算機平臺上打分,降低了評分耗時。英語口試一般需要人工評分,評分標準是影響評分結(jié)果的重要因素,而且評分帶有一定的主觀性,評分信度一直是人們關(guān)注的焦點。分析評分信度較好〔Weigle2002〕,因而,有需要研究分析評分在大型計算機輔助英語口試中能否也具有較好信度。本文旨在回答下面三個問題:1〕分析評分與整體評分的結(jié)果能否有差別?2〕分析評分的評分員一致性怎樣?3〕分析評分的分數(shù)維度差別怎樣?2.研究方法2.1參與對象本研究的數(shù)據(jù)為國內(nèi)某大型計算機輔助英語口試的評分記錄。參與該考試的考生為某省報考高校外語專業(yè)的高三學生,英語總體水平偏高。每年考試人數(shù)約為5萬人。該考試為能力水平考試,分為兩部分:聽力和白話。白話部分第一題為模擬朗讀,除了考察考生的語音語調(diào),還考察考生模擬錄音朗讀的能力;第二題為口頭表達,考察考生用英語進行思維和表達的能力,考生根據(jù)某一話題下的三個引導性問題進行敘述或討論。由于英語表達能力是該考試考察的重點,本文僅討論口頭表達部分的評分情況??忌褂脤iT考試軟件加入考試,其白話錄音被考試軟件記錄并上傳至效勞器,由評卷員在專門評分軟件平臺上打分。考生錄音由電腦隨機分配給每位評卷員。整體評分量表分為五個等級,每個等級從內(nèi)容完好性、語言正確性、語音語調(diào)、流暢度四個方面進行描繪敘述;分析評分量表分別對四個方面進行描繪敘述,每個方面的描繪敘述分為五個等級,例如,語言正確性在每個等級的描繪敘述分別為:1〕能用適宜的詞匯、短語、語法構(gòu)造組織話語;2〕基本能用適宜的詞匯、短語、語法構(gòu)造組織話語,只要個別地方出現(xiàn)毛??;3〕有時不能使用適宜的詞匯、短語、語法構(gòu)造組織話語;4〕使用的詞匯、短語、語法構(gòu)造大部分不正確;5〕不能使用適宜的詞匯、短語、語法構(gòu)造組織話語。16位評卷員對5216名考生口頭表達部分進行評分。16位評卷員均為非英語本土語大學英語老師,其年齡、教齡各異,英語水平均達純熟水平,大部分為女性,平均分為兩組,一組使用整體評分法評分,另一組使用分析評分法評分。該口試以往一直使用整體評分,大部分評卷員未有使用分析評分的經(jīng)歷。2.2評分經(jīng)過正式評分前,對兩組評卷員分別集中進行了培訓。培訓內(nèi)容包含評分量表討論和范文試評。要求組長把握好其組員對評分標準的理解,由組長帶動所有組員參與評分標準的討論,組長從組員的反應(yīng)中了解組員對評分標準的理解。在討論之初,評卷員以為分析評分比較耗時、復(fù)雜,且難操作,在對某個方面打分時,容易不自發(fā)同時考慮其它方面。經(jīng)過較長時間的討論,評卷員逐步熟悉分析評分量表。組長確保每位組員對評分標準達成共鳴后開展試評。為了幫助評卷員養(yǎng)成對每個方面單獨打分的思維習慣,試評時選擇了一些分項差別較大的范文,比方語音語調(diào)欠佳,內(nèi)容較完好的范文。組長確保每位組員正確評價范文的情況下允許其正式評分。培訓后,8位評卷員對2030名考生進行分析評分,其余8位評卷員對3186名考生進行整體評分。每位評卷員的評卷量在150-400份試卷之間。為了研究不同評分方法結(jié)果的一致性,對部分試卷使用了兩種評分法評分,部分試卷進行了雙評,評卷結(jié)果通過SPSS和Facets〔Linacre2012〕軟件進行分析。3.結(jié)果3.1評分結(jié)果差別分析表示清楚,兩種評分法下考生能力值的一致度不高,Pearson相關(guān)度為0.402.為了找出差別所在,我們將考生的整體評分和分析評分各分項得分進行多元回歸分析。結(jié)果顯示,分析評分法各項得分都有意義地解釋了整體評分法得分的變化〔p.01〕。內(nèi)容分項的相關(guān)系數(shù)為0.284;語言分項為0.509;流暢度分項為0.873;語音語調(diào)分項為0.438.這表示清楚評卷員使用整體評分量表時可能對流暢度考慮較多,對內(nèi)容關(guān)注較少。該結(jié)果與已有研究結(jié)果類似,在使用整體評分時評卷員總會根據(jù)自己的喜好側(cè)重某些方面,尤其語言精確度〔Barkaoui2010b;Huang2010〕。Eckes〔2012〕就指出評卷員以為主要的部分往往評分較嚴厲,而不是很主要的部分偏寬松。JinMak〔2013〕的研究也發(fā)現(xiàn),在測試漢語白話能力時發(fā)音、詞匯和語法起著最重要的作用。Sawaki〔2007〕發(fā)現(xiàn)某白話分析評分中,語法對整體分數(shù)的影響最高。3.2評分員一致性口試的評卷信度重要表現(xiàn)為評卷員一致性,包含評卷員間一致性〔inter-raterreliability〕和評卷員內(nèi)一致性〔intra-raterreliability〕。評卷員間一致性指評分嚴厲度能否存在差別;評卷員內(nèi)一致性指同一評卷員的嚴厲度能否受評分時段、疲憊度、評分對象等因素影響〔Bachman2000〕,由評卷員均方擬合統(tǒng)計量〔InfitMnSq和OutfitMnSq〕反映〔MyfordWolfe2004〕。如表1所示,8位分析性評卷員的分隔指數(shù)〔15.09〕、信度〔0.99〕以及8位整體評卷員的分隔指數(shù)〔10.29〕和信度〔0.99〕均表示評卷員的嚴厲度有差別。卡方檢驗顯示,分析性評卷員間差別〔2=1264.9,df=7,p0.00〕和整體評卷員間差別〔2=815.4,df=7,p0.00〕均有顯著統(tǒng)計意義,表示清楚兩組評卷員的嚴厲度都有明顯差別。當評卷員內(nèi)一致性較高時,加權(quán)的均方擬合統(tǒng)計量的數(shù)值接近1,對于高風險考試的主觀題評分〔Yang2010〕,均方擬合統(tǒng)計量過大〔非擬合〕表示評分行為不符合模型預(yù)測,過小〔過度擬合〕表示評卷員集中使用評分量表的某些等級。兩種評分方法下,加權(quán)的均方擬合統(tǒng)計量的平均值都接近1,但使用分析評分法的評卷員的內(nèi)一致性略高。評卷員2、11和13出現(xiàn)較明顯的非擬合情況。評卷員2與模型預(yù)測結(jié)果差別較大的18項評分記錄中,12項為語言分項,由此可見評卷員2沒有能較好判定考生的語言能力。評卷員11和13〔整體評分法〕的評分記錄中也有較多與模型預(yù)測差異不同較大的記錄,兩位評卷員都提供了一些不太可能的評分。評卷員11偏寬松〔嚴厲度-0.43〕,評卷員13偏嚴厲〔嚴厲度1.47〕,對部分考生的分數(shù)定級存在明顯偏差。評卷員4、9的均方擬合統(tǒng)計量遠小于1,兩位評卷員可能過度使用了某些評分等級〔Linacre2012〕。統(tǒng)計分析表示清楚〔表2〕,評卷員4比較多使用等級四〔內(nèi)容、語言、流暢度、語音語調(diào)的次數(shù)分別為213、246、162、213,均接近或跨越80%〕,尤其是對語言分項打分時,基本只使用等級四〔92%〕;評卷員9則太多使用等級三和四,使用次數(shù)分別為149〔32%〕和276次〔60%〕,兩個等級加起來占了總數(shù)的92%.3.3維度和等級差別分析評分中,內(nèi)容和語言分項雙評記錄的難度差別顯著比語音語調(diào)和流暢度分項大。除此之外,內(nèi)容和語言分項雙評記錄的難度值均有顯著差別〔p.05〕,而流暢度和語音語調(diào)分項的雙評記錄難度差別并不顯著〔p0.05〕,因而造成評卷員間差別的最大來源是內(nèi)容和語言。測量誤差決定試卷信度〔Bachman2000〕。古典測試理論假定所有考生的測量誤差一樣,但Rasch模型能夠為每個考生提供單獨的標準測量誤差,測量誤差能夠通過信息函數(shù)得出〔余民寧1993〕??荚囂峁┑男畔⒃蕉啵哦仍礁?,測量誤差越小〔Baker2001〕。分析評分法各分項的信息量分布較均勻;而整體評分的信息函數(shù)在4-6logits的范圍內(nèi)信息量幾乎為0,說明考試對該范圍考生的測量誤差較大,評卷員不能很好地判定該能力水平段的考生。低能力水平考生的信息量比高能力水平考生的信息量高。由評分量表中各等級提供的信息量大小可發(fā)現(xiàn),第一至三等級提供的信息量均比第四、五等級提供的信息量大,說明評卷員使用第一至三等級進行評分比使用第四、五等級更精確。評卷員對高水平考生的評卷精確度把握相對較差。分析還發(fā)現(xiàn),獲得語言側(cè)面等級五的人數(shù)相對較少〔表3〕,反映出現(xiàn)今我們國家英語學習者比較難用適當?shù)恼Z言說話表達的特點。表4給出各維度間分數(shù)的相關(guān)度,各維度間相關(guān)度均不高,語言與其他三個維度的相關(guān)度相對較高,從某種水平反映出語言是考生在其他維度得分的關(guān)鍵因素。4.討論4.1分析評分結(jié)果與整體評分結(jié)果能否有差異不同分析評分結(jié)果與整體評分結(jié)果一致度不高,但評卷員使用兩種評分方法評分時基本上都圍繞內(nèi)容、語言、語音語調(diào)及流暢度四個方面來進行。評卷員在使用整體評分量表時更多關(guān)注語言、語音語調(diào)和流暢度,對流暢度關(guān)注最高,對內(nèi)容的關(guān)注度相對較低。原因可能是判定內(nèi)容完好性費時耗力,是口試評分的難點。然而,內(nèi)容完好性是判定口頭表達很主要的一部分,所以使用整體評分量表時應(yīng)要求評卷員加強對內(nèi)容側(cè)面的看重。當前對白話考試評卷員行為的研究一般是基于研究者通過實驗采集到的評分數(shù)據(jù)〔呂長竑等2008〕,使用真實考試數(shù)據(jù)研究評卷員行為的文獻還不多。在正式口試評卷中,評卷員的工作量往往較大,由于考試具有較大風險,評卷員蒙受的壓力也大,評卷員在這樣的評卷條件下的評分行為、評分策略可能有所變化。例如,為了完成評卷任務(wù),評卷員需要在短時間內(nèi)評閱完多份試卷,由此造成的壓力和評分策略和行為的改變還需進一步進行研究。4.2分析評分的評分員一致性怎樣評卷結(jié)果總體上是可信的,但不同評卷員在使用兩種評分方法時存在各種差別。要提升評卷員的評分質(zhì)量,培訓非常主要,及時的偏差分析結(jié)果反應(yīng)能有效提升評卷質(zhì)量〔Schaefer2008〕。本研究中,可與評卷員2討論語言分項各評分等級的描繪敘述,了解該評卷員能否已正確理解各等級描繪敘述,并試評數(shù)篇范文??膳c評卷員11和13重評有問題的試卷,并找出評分失誤的原因。在8位分析評分評卷員中,評卷員4最寬容,嚴厲度為-2.19〔表1〕,因此應(yīng)提醒該評卷員適當增長評分嚴厲度。評卷員9太多使用了第三、四等級,存在明顯集中趨勢。集中趨勢是評卷員評分時采用的一個比較常見的安全策略,為了避免給出可能不恰當?shù)臉O端分數(shù),只使用中間等級分數(shù)〔MyfordWolfe2004〕??裳堅u卷員9試評數(shù)篇分數(shù)較低和較高的范文,并與其討論評分結(jié)果。4.3分析評分的分數(shù)維度差別怎樣內(nèi)容和語言差別明顯比流暢度和語音語調(diào)差別大。有評卷員反映,判定考生能否回答了所要求的內(nèi)容比較考驗評卷員的記憶力,聽的時間越長,越容易忘記考生前面的講話,回過頭再聽又費時,操作麻煩。對語言項打分時,有的評卷員往往只根據(jù)考生的前面幾句話作出判定。相反,考生的流暢度和語音語調(diào)很快能夠判定精確,較為容易打分。因而,評卷員培訓的重點應(yīng)該放在內(nèi)容和語言兩個分項上,采用技術(shù)手段協(xié)助或需要時強迫要求評卷員聽完考生所有錄音。與整體評分相比,評卷員使用分析評分各等級精確度更高層次。但評卷員對高水平考生判定精確度不如低水平考生。評卷員的英語純熟水平可能是影響其評分誤差的因素之一〔Lee2009〕,英語水平不高的評卷員可能沒法精確區(qū)分能力較高的考生。因而,整體評分法對評卷員的英語水平要求可能比分析評分高,需要進一步研究確認該推斷??忌铍y獲得最高等級分數(shù)的維度是語言。然而,數(shù)據(jù)分析結(jié)果顯示語言在一定水平上決定了考生在其他側(cè)面的分數(shù)。5.結(jié)論傳統(tǒng)的做事測試的評卷方式是評卷員基于紙筆進行評分,隨著現(xiàn)代技術(shù)的發(fā)展,基于計算機的評卷系統(tǒng)不斷出現(xiàn)。研究也表示清楚基于計算機的評卷不只有與紙筆評卷同樣好的信度,而且能夠提升評卷質(zhì)量,更有利于評卷質(zhì)量的監(jiān)控,加強試卷分發(fā)的隨機性、隱蔽性〔Chuangetal.2008〕。本文使用真實考試數(shù)據(jù),分析某大型計算機白話考試分析評分的效果。該白話考試舉行集中評分,有利于對評卷員進行統(tǒng)一培訓,評卷工作在數(shù)天內(nèi)完成。評卷員在適當?shù)呐嘤柡蠡灸茌^好適應(yīng)和使用計算機評卷平臺,使用分析評分比整體評分耗時較多,但在純熟把握評卷技巧后,這種差距明顯減少。進行整體評分時,評卷員沒有能足夠關(guān)注話題陳述的完好性,評卷員在兩種評分方法下都具有顯著差別,使用分析評分時差別較小,評卷員內(nèi)部一致性也較高,使用整體評分法時較易出現(xiàn)集中趨勢;評卷員在內(nèi)容和語言分項較難達成一致,對高水平考生評分的精確度較低。今后評卷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論