




已閱讀5頁,還剩352頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
簡明英語測試教程,主講:?;駮r間:2012年2月手機-mail:niuhuaxu,一、英語測試概述:過去、現(xiàn)在與未來,語言測試是一門古老而又年輕的學科,盡管現(xiàn)代語言測試的歷史不到100年,語言測試的歷史淵源卻可以追溯到很久以前(Spolsky1995)。語言測試是應用語言學的一個重要分支,它涉及教學法、二語習得理論、語用學、心理語言學、認知心理學、教育測量學、計算機科學等多種學科。語言測試是伴隨著語言教學出現(xiàn),并隨著語言教學的發(fā)展而發(fā)展,不同的時期,人們的語言觀不同,采用的語言測試方法也不同。世界語言測試理論經歷了四個發(fā)展階段,反映了三個語言測試的理論模式。隨著語言測試理論的發(fā)展,語言測試在實際應用和理論研究方面也出現(xiàn)了許多新的變化,已引起越來越多學者們的注意。,語言測試主要用于語言教學、語言研究和教學研究、選拔人才三個方面,其中最為普遍的是用于語言教學。語言測試與語言教學之間存在著一種相互依賴的關系。語言測試是衡量語言教學成效和提高語言教學質量的重要手段,是語言教學過程中的重要組成部分。語言測試的目的是提供一種科學的衡量工具,一方面對學生的語言能力進行客觀、準確、公正的評價,另一方面檢測教學效果,反映教學中的長處與短處,為提高教學質量服務。由此可見,語言測試是語言教學過程中不可欠缺的重要環(huán)節(jié),語言教學離不開語言測試。,語言測試與語言教學是同時存在,息息相關,緊密聯(lián)系而且相互作用的。然而,語言教學與語言測試的發(fā)展并非總是同步的。一個語言測試體系一經確定,在一定時期以內就具有相對穩(wěn)定性,會對語言教學產生積極或消極的反撥作用。,語言教學與測試的關系,語言測試是伴隨著語言教學出現(xiàn)的,語言教學與語言測試密切相關,這是毋庸質疑的。但對于語言教學與測試之間的關系或從屬地位人們卻有各自不同的看法,基本上可以歸納為兩種:主仆關系與伙伴關系。持有主仆關系觀點的人認為持有這種觀點的人認為語言測試是語言教學的一部分,并服務于語言教學。代表人物為英國語言測試專家AlanDavies。持另一種主仆關系觀點的人沒有代表人物,卻在實際中廣為應用,即“考試是教學的指揮棒”。持伙伴關系觀點的代表人物是世界著名語言測試專家ArthurHughes,他認為教學與測試是“伙伴關系”(partnership)測試與教學既互相促進又彼此制約。,1.主仆關系語言教學是第一性的,語言測試為語言教學服務考試是左右教學的指揮棒2.伙伴關系持這一種看法的人認為,測試與教學既互相促進又彼此制約,教學從目標、內容、方法與手段等方面制約著測試,而測試又在目標、內容和方法上對教學起著重要的反撥作用。,世界著名語言測試專家ArthurHughes認為,教學與測試是“伙伴關系”(partnership)(Hughes1989)。他說,“Theproperrelationshipbetweenteachingandtestingissurelythatofpartnership.Wecannotexpecttestingonlytofollowteaching.Whatweshoulddemandofit,however,isthatitshouldbesupportiveofgoodteachingand,wherenecessary,exertacorrectiveinfluenceonbadteaching.”(ArthurHughes2000)下面的圖示反映了教學與測試的相互關系。,考試是外語教學過程中的一個重要的組成部分,外語考試與外語教學之間存在著相輔相成,互為影響的關系。在教學中教學目標起著決定性的作用,它決定了教什么(教學內容)和怎么教(教學方法);教學目標是否達到需要考試作為它的評估手段,因此考試的測試目標必須以教學目標為依據,這樣才能起到評估教學目標的作用。在教學考試中,教學內容決定了考試的內容(考什么),而教學方法決定了考核方法(怎么考),因此從理論上說,考試只是教學的一個組成部分,它的考核內容與方法由教學目標、教學內容和教學方法所決定??荚噾诮虒W目標的指導下進行,并不是說考試可有可無。在教學實踐中,我們發(fā)現(xiàn)考試占有很重要的地位。有時甚至影響到整個教學過程,使教學圍繞考試進行,其典型例子就是應試教育。,這是因為考試除了有受教學其他環(huán)節(jié)和因素影響的一面外,它反過來對教學其他環(huán)節(jié)又有反作用的一面,亦即所謂的反撥作用(backwash)。因為外語測試的結果不但能判斷外語教學目標設置的正確性、可行性及實現(xiàn)的程度,而且也能反饋、控制外語教學活動。過分強調考試的反撥作用,特別是強調考試的評定和選拔功能,必然導致考試在教學過程中的錯位。教師、學生、家長、教育部門對考試作用的過度強化所形成的合力就會導致應試教育,使考試成為教學的核心和教學的目的,這應該加以避免。,鄒申(2005)則認為,語教學與語言測試之間存在一種相互依賴的關系,教學(或課程設置)的有效性可以通過測試加以檢驗,而我們從測試中得到的信息反饋也有助于改進和提高教學質量,或完善課程設置。,四種英語語言測試法,1.寫作-翻譯法(theessay-translationapproach).這種方法主要有以下特征:1.對測試的技能或專長沒有特殊要求,主要是依據教師的主觀判斷力;2.試卷通常包括翻譯、寫作和語法分析等項目;3.試卷的內容帶有濃厚的文學或文化色彩;4.試卷一般采用書面回答形式,試卷需要人工評閱。由于寫作-翻譯法不強調測試的科學性或理論基礎,故有時被一些學者稱為語言測試的前學科階段。(科舉考試,博士,碩士研究生考試),2.結構主義/心理測量法(thestructuralist-psychometricapproach).這種測試法以結構主義語言學為其理論基礎,強調不同的語言成分可以分別測試,比如語音、語法和詞匯都可以脫離上下文進行單獨測試。此外,聽、說、讀、寫等項語言技能也可以分開測試,因為這個測試法的重要特征是一道題可以單獨測試一個語言成分或技能。這種方法的另一大特點是采納了心理測量學的一些方法,強調語言測量的可靠性和客觀性。結構主義/心理測量法在語言測試中的典型表現(xiàn)形式是多項選擇題,一種既能達到一題測試一成分的要求,同時又適合于進行考后統(tǒng)計分析的題型。,3.綜合法(theintegrativeapproach).綜合法有如下特點:1.語言測試要在一定上下文(context)中進行;2.不在測試中刻意追求區(qū)分各單項語言成分、技能或能力,而是強調兩項或兩項以上的綜合評估。較能體現(xiàn)綜合法的考試題型有完形填空、聽寫、翻譯、寫作等。以完形填空為例,這類形式可以同時測試學生的語法、詞匯知識以及閱讀理解能力。此外,語法、詞匯知識以及閱讀理解能力的測試在一個特定的上下文(即所給的完形填空材料)環(huán)境中進行。但,上下文環(huán)境在綜合法中不是真正意義上的語用環(huán)境,只是起到輔助測試語言知識的作用。,4.交際法(thecommunicativeapproach)。有學者認為交際法與綜合法在某種程度上有相似之處,即兩者都強調語言的意義而不是語言的形式和結構;但同時兩者之間又存在根本區(qū)別:交際法更注重語言在交際過程中的使用。這里牽扯到兩個概念:usage和use。Usage主要指語言形式和結構,而use則是有關語言的交際功能以及使用。語言運用是語言學習的最終目標,語言形式的掌握是實現(xiàn)這一目標的方法。因此,衡量一個人語言熟練程度的最終標準是看此人能否在語言使用環(huán)境中有效的進行交際。交際法包括usage的成分,但更多的是評價學生在特定語言使用環(huán)境中交際能力(use)。,隨著交際教學法在語言教學領域日漸盛行,從20世紀80年代起語言測試界也逐步受到其影響,并出現(xiàn)了一系列旨在測試交際能力的探索性考試,這類考試大概有以下幾個特點:1.考試內設計“信息溝”(informationgap),要求學生通過各種已饋入的信息來獲取未知信息。2.考試任務或項目之間存在關聯(lián)性(taskdependency),即一個項目要基于前一個項目完成的基礎上,比如學生先聽一個電話交談,然后根據交談的內容寫一封信。3.考試強調針對性,根據學生的具體需求設計考試內容,比如在專門用途英語(EnglishforSpecificpurpose)考試中,要根據學生的具體語言要求,確定測試內容、所需語言交際模式及其相關語言技能。4.側重更廣泛地測試語言能力,包括語言知識、語言功能,語言使用的合適性等。,5.考試采用定性評估方式(qualitativemodesofassessment),以取代純粹的定量評估方式(quantitativemodesofassessment)或作為其補充。前者屬于標準參照性質(criterion-referenced),后者屬于常模參照性質(norm-referenced).,1.3當代國內外大規(guī)??荚囈挥[1.3.1全國英語等級考試(PublicEnglishTestSystem,簡稱PETS)1.3.2大學英語四六級考試1.3.3英語專業(yè)四八級考試1.3.4美國托??荚?.3.5英國雅思考試1.3.6商務英語考試1.3.7人事部翻譯資格證書考試1.3.8教育部翻譯資格證書考試1.3.9上海市口譯資格證書考試,縱觀上述考試的設計宗旨和測試目的,我們可以歸納出以下幾個特點:1.所有考試都旨在全面測量考生的語言水平,故無一遺漏地測試各主要單項語言能力(聽說讀寫)。2.考試日趨注重對口語能力的測試,并且口試與筆試分開的時間間隔也越來越短;托福考試在實施了18年后于1981年推出托??谠?;CET考試在開考12年后于1999年增加CET-SET考試,而在1999年開始正式實施的PETS考試,在推出時已包含了口語測試項目。,3.考試在測試考生接受性語言技能(receptive)的同時,更加注重評價他們的產出性語言技能(productiveskills),所以在題型選擇上絕大多數(shù)采用多樣化的形式,既有多項選擇題,又有其他形式,如簡答題、填空題、匹配題、翻譯題、寫作題等。4.考試不僅考慮到信度(如分數(shù)的可靠性),而且更加注重其效度(是否達到預期測試目標等)。增加口語/寫作考試和多種題型有機組合都是為了能夠考核學生綜合運用英語進行交流的能力,以提高考試效度。,考試今后的發(fā)展趨勢,首先,隨著計算機的普及,考試計算機化或無紙化的進程將加快,國外的托??荚囈言谕菩锌荚囉嬎銠C化(CBT,CAT)。我們國內的有關人士也已完成了這方面的理論研究;有的地方性考試已開始實行外語考試網絡化,如上海市高考英語口試已連續(xù)幾年實施網上口試和網上評分。我們可以預測在不久的將來CBT和CAT將成為考試的常見形式。,第二,在考試方式的作用、考試分析手段、考生特征以及語言能力性質等方面的研究將會繼續(xù)深入下去。第三,對常規(guī)考試以外其他評估方法的可行性探討也會成為研究的熱點,比如小組測試方式(grouptesting),以學習者為中心的測試方式(learner-centeredtesting),自我評估(self-assessment)等。第四,考試的后效作用(washbackeffects),即考試對社會、教育機構以及學生個人的影響等,也將成為研究的焦點之一。以上方面的研究成果無疑將會給考試注入活力,使考試成為一種更完善的評估手段。第五,考試開發(fā)設計將更加注重以考生為本的理念;考生群體的特殊要求將引導考試開發(fā);考試的社會服務功能將進一步凸現(xiàn)。,比如,英國劍橋大學地方考試委員會(UCLES)開發(fā)的劍橋商務英語證書(BusinessEnglishCertificate,簡稱BEC)考試專門針對商務從業(yè)人員群體。該考試從聽說、說、讀、寫4個方面,綜合考查考生在商務及一般生活環(huán)境下使用英語的能力。又如,美國教育考試服務中心(ETS)推出的國際交流英語考試托業(yè)考試(TestofEnglishforInternationalCommunication,簡稱TOEIC),其考試設計對象為到國外出差或國際交往頻繁的非英語母語人士,如跨國公司的雇員等。,第二章考試功能及其類別,2.1測量、考試與評估1測量。什么是測量?Stevens(195)認為,“廣義而言,測量(measurement)就是根據法則賦予事物數(shù)量?!币簿褪钦f,按照一定的規(guī)則給事物的屬性指派數(shù)字或符號的過程就是測量。這是迄今為止公認的測量定義。舉例來講,要測量一下桌子的高度,我們可以拿尺子來量一量,看看它有多高。尺子是人們根據一定的法則制定的量具,利用它就可以把事物的屬性,即桌子的高度用數(shù)字表示出來,如,0.75米。這種測量屬于客觀測量,因為它基本上不受觀察者的主觀判斷的影響。,測量這一定義包含三個要素:1)事物及其屬性。這是測量的對象或目標。上面提到的對桌子的高度進行測量,屬于對物體進行測量,其屬性高度,是可以觀察到的,可以進行客觀測量的。在外語教學領域,我們感興趣的是學生的語言能力,而學生的語言能力屬于人的心理特征,是無法直接測量的,但是人的心理活動會在人的具體活動和行為中體現(xiàn)出來,所以只能通過測量其外顯行為或外在表現(xiàn)特征來推論一個學生語言能力的高低。,2)指派數(shù)字或符號。所謂指派數(shù)字或符號,就是用數(shù)字或符號來代表某一事物或事物的某一屬性的量。如張三在本次閱讀考試中得了87分,李四得了92分,我們說李四比張三多考了5分。數(shù)字本身沒有意義,只是一種符號。我們用它來代表考生的閱讀成績,這時它就變成了量化的數(shù),可以對其進行解釋和分析。在一定的條件下,還可以對數(shù)據進行運算從而對事物的屬性進行推測。,3)法則。法則是指測量所依據的規(guī)則和方法,是測量的關鍵。法則不好或不可靠,得到的測量結果就會出偏差,失去測量的意義。簡單來說,尺子不準,測量的結果就無法使人信服。對客觀世界的物體進行測量時,由于有公認的測量法則或尺度,如測量物體的高度、重量等;一般不會出現(xiàn)大的偏差。而對人的某些特性(心理特征)進行測量時,則往往會出現(xiàn)較大的偏差。舉例來講,有幾個評委對某學生的英語口語進行評定。評委A認為一個人的口語要好,必須發(fā)音準確,而該學生的發(fā)音好,所以他給打了個5分。評委B認為流利性最能體現(xiàn)一個人的口語水平,該同學盡管發(fā)音不錯,但流利性差一些,所以她給他3分。同一名學生,讓不同的評委去打分,成績出現(xiàn)了偏差。這也很自然,原因是他們沒有按照一個評定口語成績的統(tǒng)一法則(rules)去給這名學生打分,結果造成了偏差。這個例子提醒我們,在對人的某些心理特征,如口語表達能力、閱讀理解能力等等進行測量時,首先要制定一個便于操作的,穩(wěn)定的法則或標準。這樣得到的測量結果才可靠,才具有可比性。,2測試測試(test)又稱測驗。不同的心理學家對此下的定義不同。Anastasi(1982)認為,“測試實質上是對行為樣本所做的客觀的標準化的測量?!边@個定義是人們公認的最權威的定義,它包含以下三個基本要素:1)行為樣本語言測試的目的是要測量受試者的語言能力。上面提到,語言能力是無形的,如何測量?只能測量它的有形表現(xiàn),這里所說的有形表現(xiàn),是指語言表現(xiàn),如說出來的話,寫出來的句子,對測試題目所做的各種反應等等、這些行為,都是無形的語言能力的有形表現(xiàn),用心理學術語叫“表征”(manifestation)。,所謂行為樣本,是指對語言能力表現(xiàn)行為的有效的抽樣。我們知道,一個人的語言能力的表現(xiàn)行為會有各種各樣的形式,測試時不可能也沒有必要把它的全部表現(xiàn)行為都測到,只能選取一部分有代表性的抽樣進行測量,然后據此對受試者的語言能力作出推測。2)客觀的測量。所謂客觀的測量是指測量的標準是否符合實際。對于一項測試的客觀性程度可以從這么幾個方面去評價:測試題目的難易度和區(qū)分度如何;測試結果的可靠性程度如何?測試結果的有效性如何?這幾項指標是衡量一項測試質量的重要指標。3)標準化的測量標準化的測量是指在測試題目的編制、測試的實施、記分以及對分數(shù)的解釋等方面有一套嚴密的系統(tǒng)的程序。只有這樣,測試才有統(tǒng)一的標準,對不同人的測量結果才有可比性。凡是不標準化的測量,都沒有可比性。,3評價Weiss(1972)認為,“評價(evaluation)是指為作出某種決策而收集資料,并對資料進行分析,作出解釋的系統(tǒng)過程。”與測量、測試相比,評價的含義更廣、綜合性更強。Bachman(1990)指出,決策的正確與否,一方面取決與決策者本身的能力,另一方面則取決于收集到的信息的質量。在其它條件等同的情況下,如果收集到的信息越可靠,相關性越強,那么,作出正確決策的可能性就越大。所以說,評價的一個很重要的方面就是要獲得可靠的、相關的信息。在談到評價與測量及測試的關系時,Bachman指出,在對個體(學生)作出評價時,我們可以從質量和數(shù)量兩個方面進行描述,或只描述其中一個方面。所謂質量方面的描述是指對學生的行為作出定性的描述,如某某學生的口頭表達能力優(yōu)秀,書面表達能力優(yōu)等;數(shù)量方面的描述則是指某次測驗的分數(shù)等。,測試、測量及評價三者之間的關系,使用下面的圖來表示。,從圖中可以看出,我們在對某教育目標(或學生的行為)作出評價時不一定用到測試或測量(如面積1所示),這種評價屬于質量評價,或叫定性評價,如指出學生在學習方面存在的問題。有時在作出評價時只需測量,而無需測試(如面積2所示),對學生的口頭表達能力定出級別就屬于這種性質的評價。如果要檢查學生學習的進步情況,通常就要對學生實施測試,這又是另一種性質的評價,即只通過測試對學生的成績作出評價(如面積3所示)。許多情況下,測試只是作為一種科研的工具或手段,而不是用來作出評價(如面積4所示),在外語教學、第二語言習得研究領域,我們經常拿水平測試作為研究的工具。不用測試便可進行測量的情況(如面積5所示)在外語教學研究領域也經常碰到,在研究學生的第二語言習得時,如果研究對象為來自不同國家的學生,人們一般按其母語情況編號??偠灾⒎撬械臏y量都是測試,并非所有的測試都屬于評價,而且并非所有的評價活動都涉及到測試或測量。,2.2考試功能一般說來,考試的不同用途賦予其不同的功能。比如,用來挑選學生的考試具有篩選功能。這里主要介紹與教學和科研有關的兩大功能:教學功能及科研功能。2.2.1教學功能毋庸置疑,考試在教學過程中起到積極的、必不可少的作用。使用得當?shù)目荚囉兄诮虒W的順利開展,有助于提高教學效果。讓我們來比較以下兩個教學流程圖:,圖一:,入學,課程,結業(yè),圖一所顯示的教學流程圖中只包括3個階段:入學、課程和結業(yè)。在學校的課程設置中有些課程與圖一相似,如學校開設的課外興趣活動課、社區(qū)志愿服務等。這類課程的主要目的是擴大學生的知識面,拓寬學生與社會的接觸渠道,故課程流程中只有3個部分。但是,如果課程是主要科目(如英語)時,圖一的流程圖就顯得過于簡單。有以下幾個原因:1.主要科目課程一般要進行階段性評估以確保課程質量,而評估方法之一是考試。,2.學生入學后如果隨即分班學習,自然班中的水平很有可能參差不齊。這實際上不利于教師因人施教,也不利于提高教學效率。如果在分班學習前進行摸底考試,教師就能了解學生的水平,并以此為依據制定出有效的教學計劃。3.如學生結業(yè)時沒有檢查方法(如結業(yè)考試),那么學生不清楚自己的學習進展,教師也無法了解教學效果。,圖2,入學,課程,結業(yè),考試,考試,圖2是在圖1的基礎上擴展的流程圖,考試作為教學的一部分被包括在其中。這樣,課程開始前的考試可以幫助教師調整現(xiàn)有的教學計劃,或制訂適合當前學生水平的教學計劃,以達到最大限度地提高教學效果的目的。課程結束時的考試則可以使教師了解實際教學效果。從中我們可以得出這樣一個結論:考試在教學過程中有其必不可少的作用。以上主要從教師的角度談了考試的教學功能。從廣義上講,教師是考試使用者(testusers)的一部分。其他有關使用者包括學生本人、家長和教育管理部門。對后者來說,考試的教學功能主要體現(xiàn)在考試信息的反饋與使用上。對學生而言,考試反饋的信息在一定程度上反映學習上的進展與存在的問題。對于家長,考試反饋的信息是他們了解自己子女學業(yè)進展的主要途徑之一。至于教育管理部門,考試反饋的信息可以作為評估教學或課程設置的一部分。,2.2.2科研功能考試的另一大功能體現(xiàn)在科研領域。這里我們主要以語言研究為例。在該領域的基礎研究或應用研究中,考試作為一種具體的測量形式,有其潛在的重要價值。比如,語言測試可以用在語言能力性質(thenatureoflanguageproficiency)、語言處理(languageprocessing)、語言習得(languageacquisition)、語言流失(languageattrition/loss)及語言教學(languageteaching)的研究中。讓我們來看兩個例子。,例1.一位語言研究者注意到,使用同一母語的人之間的語言能力參差不齊。由此他想了解,他所執(zhí)教的美國學生的母語(英語)與他們所學的法語(學習時間為3年)之間有無關系。為了做調查,他讓研究對象參加了兩場考試,一個用來測量學生的母語能力,后者則檢查學生的法語水平。例2.在一個閱讀課教學方法的調查中,研究人員將兩種不同的方法做比較。一種方法強調閱讀過程中詞匯與句法的重要性,另一種方法則偏重于閱讀技巧的訓練。為了得知接受不同方法訓練的學生的閱讀能力是否存在區(qū)別,并希望獲取量化的指標,研究人員采取兩次統(tǒng)一考試的方法,即課程開始前的考試和課程結束后的考試。,例1屬于語言習得的研究范疇,例2屬于語言教學研究的范疇。盡管兩例的研究目標、內容等不盡相同,它們都不約而同地把考試作為一種獲取量化指標的方法。例1用考試的方法來檢驗母語與所學外語之間有無關系的假設。例2通過對兩組學生在兩次考試中成績的分析和比較來證實不同的方法是否會導致閱讀能力上的區(qū)別。從這兩個例子中我們可以看出,考試的用途不限于教學領域,它在科研方面也應用廣泛??荚囁峁┑囊恍?shù)據可以使我們科研報告的論證過程更具有科學性,結論更具有說服力。,2.3考試類別2.3.1根據考試目的分類從考試設計者的角度來說,每一種考試,不管是小型的還是大規(guī)模的,都應有一個明確目的,即所設計的考試旨在獲取何種信息。因此,根據考試目的,考試大致可以分成以下幾種:1.水平考試(proficiencytests)通常用來衡量考生語言能力的考試屬于此類考試。比如,國內的高考英語考試、研究生入學英語考試、英語等級考試(PETS)、國外的托??荚?,等等。,水平考試具有以下兩大特點。第一,它是選拔性考試(selectiontests),如前面提到的幾種考試都具有選拔性質,目的是從眾多考生中選拔出佼佼者。第二,它不是與某一具體課程掛鉤的考試;它的設計基礎是語言理論,即theory-based;換句話說,水平考試的目的不是看考生對某一課程內容的理解,掌握程度如何,而是根據語言理論所設計的標準來測試考生現(xiàn)有的語言能力。這里值得一提的是,水平考試不完全是通用英語考試(Englishforgeneralpurpose);在一些情況下,水平考試的內容可能只涉及某一具體語言應用領域(Englishforspecificpurpose),比如,上海市的中高級口譯資格證書考試,劍橋商務英語等級考試。,2.成就考試(achievementtests)此類考試的目的是檢查學生在某一課程中的學習進展情況。在教學過程中教師參與設計命題的大都是這類考試。根據考試舉行的時間,成就考試又可具體分為兩種:期中考試(midtermtests)和期末考試(finaltests)。期中考試又可稱為progresstests。從評估的角度看,其中考試的性質屬于進行性評估(formativeevaluation),因為它主要是對學生的課程學習進行中期檢查;,期末考試屬于終結性評估(summativeevaluation),它在課程結束或告一段落時組織實施。成就考試的最大特點顯示在它與教學大綱的關系上。成就考試可以說是基于教學大綱內容上的考試,即syllabus-based。成就考試的內容必須在教學大綱的范圍內,這是成就考試與水平考試的區(qū)別所在。,3.分班考試(placementtests)在教學活動中我們經常采用這類考試來確定學生(新生)中不同的語言水平,以便制定或根據實際情況調整教學內容或計劃。同時,教師根據考試成績把學生編入不同進度的班級。分班考試的內容既可基于語言理論之上,也可以實際教學大綱中高一級的要求為起點。例如,對于剛入學的新生,我們可以使用第一學期其中或期末的試卷。由此可以說,分班考試內容的選擇具有靈活性。對于教師來說,更須關注的是這類考試的難易程度以及考試內容的代表性。能否把握好難易度關系到分班考試能否成為有效地測量工具。如果考試的難度大大超過學生的現(xiàn)有水平,那么,考試就很難起到區(qū)分學生水平的作用。此外,選擇的考試內容要能夠均衡地考察學生的水平,不偏重某一方面。,4.診斷考試(diagnosistests)此類考試的目的是了解學生在某一階段學習上的長處與短處,其最終目的是給教師提供教學效果或質量方面的信息.我們在教學中經常采取的課堂小測驗(quiz)實際上就是一種診斷考試。這類考試有以下幾個特點。第一,在教學過程中可以隨時使用,不受階段性的限制。第二,考試內容一般與所教內容有關,即syllabus-based。第三,考試內容的選擇可以更有針對性或側重點。比如,如果想了解學生現(xiàn)階段對某些動詞短語的掌握情況,我們可以專門設計一份試卷。第四,試卷的長度視情況而定,可以短則一頁,長則數(shù)頁。,5.潛能測試(apititudetests)語言潛能測試也叫做預測性測試(prognostictests),是通過衡量學生在一門陌生語言中的語言表現(xiàn),以預測其是否有學好這門語言的潛力。語言學習潛力受到多方面因素的影響,如智商、年齡、動機、記憶力、語言敏感度和語法結構敏感度等。語言潛能測試與之前所學的知識無關,很多情況下是學生以前從未接觸過的語言。一些專家認為在實際操作中不太可能對應試者的語言潛能進行全面的測試,因此多數(shù)測試只是衡量考生某一部分的潛能如聽、譯領域的潛能。詞匯測試常被認為是有效的潛能測試方法,因其與智商緊密相連并且能反應出應試者對這一領域的興趣。測試語言多采用人工語言,多關注音位區(qū)分能力和系統(tǒng)運用語言結構的能力,潛能測試題目數(shù)量較多,如TheModernLanguageAptitudeTest。,2.3.2根據考試分類根據考試方式進行分類,英語語言測試可以分為直接測試(directtests)和間接測試(indirecttests)。1.直接測試(directtests)在這類考試中,學生被要求直接運用被試的技能或能力。比如,要了解學生英語語音、語調,我們可以讓他們朗讀一篇短文,或者讓他們用英語會話。朗讀和會話都直接涉及到語音和語調的使用。通過這兩項活動,教師可以比較直觀地了解到學生這方面的能力。同樣,如果我們想知道學生的寫作水平如何,最簡單的、也是最直接的方法就是讓學生寫一篇作文,因為學生在完成作文的過程中必須運用他們的英語寫作能力。,歸納起來,直接考試有以下幾個特點。第一,直接考試側重考試形式的真實性(authenticity),及考試內容與現(xiàn)實語境的緊密性(closeresemblance)。第二,直接考試便于從總體上考查產出性技能(productiveskills),如口語能力、寫作能力、翻譯能力等。第三,從命題人員的角度出發(fā),直接考試具有比較明確的測試目標。通俗點說,也就是命題人員清楚地知道要考什么。,當然,這并不意味著直接考試是完美無缺的。它自身帶有一些問題,如評分標準的制訂與統(tǒng)一、分數(shù)的可靠性、分數(shù)的可解釋性等。,2.間接考試(indirecttests)在介紹間接考試之前,我們先來看一看能力(ability)與技能(skill)之間的區(qū)別。簡單地說,能力指的是一個人在某一方面能干什么,即whatheisabletodo。它是一個較為籠統(tǒng)的概念。比如,我們常說某某人有較強的英語寫作能力、英語會話能力。然而,寫作能力或會話能力有哪些具體體現(xiàn)和構成因素呢?這就涉及到一些具體的技能。比如說,一個人寫作能力的強弱可以體現(xiàn)在文章的組織(organization)、用詞(vocabulary)、語法(grammar)、連貫性(coherence)等方面。又如,在語法上的具體體現(xiàn)可為英語冠詞的使用、主謂一致等。,可以這樣說,某一能力是由其相關的技能所組成。間接考試是試圖測試那些相關的技能,以達到評估能力的目的。它之所以被稱為“間接”,是因為它采取了迂回的方法來評估語言能力。間接考試的一個典型例子是形式各異的改錯練習。請看下例:ThepopulationofChinaismuchmoreABClargerthanthatofCanada.D這道多項選擇題從表面上看是考比較級的用法,實際上是一道間接測試寫作能力的題目,因為比較級的正確使用是寫作能力中的一項具體技能。,概括起來,間接考試有這么幾個特點。第一,它不強調考試形式上的真實性,考試形式無需與實際語用環(huán)境相一致。第二,由于不受語用環(huán)境的限制,所選擇測試的技能可以更具有代表性和概括性。第三,間接考試可選用多項選擇題型,這可以提高考試的信度。但是,對于間接考試是否能夠真正測試預期的能力,人們還是存有疑慮。這主要反映在考試成績與該考試所測試能力的關系上。我們是否能十分肯定地說,在測試寫作能力的間接考試中(如語法試卷)獲取高分的人,他的寫作能力也相對突出?盡管經驗告訴我們兩者之間有關聯(lián),我們仍無法百分之百地確定它們之間的絕對關系。對于我們教師來說,在選擇考試方式時,要切記寸有所長,尺有所短。兩種考試方式各有優(yōu)缺點,正確合理的使用或組合才能揚長避短。,2.3.3.根據語音測量形式分類就具體測試語言而言,考試可分為分離式考試和綜合式考試兩類。1.分離式考試(discretepointtests)在這類考試里,一道題目一次只牽涉到一個考點。讓我們來看一道分離式考題:Weareallgoingtothegames.Whydontyoucome_?A.upB.acrossC.alongD.to這道題的考點是comealong的用法,除此之外,沒有其它考點,比如時態(tài)或冠詞。這是分離式考題的一大特點。,分離式考試的其它特點如下。第一,每道題提供的信息反饋明確、具體,不摻和其它因素。如果學生答對上述這道題,在一般情況下,我們可以得知該學生了解或掌握了這個動詞詞組的含義及用法。第二,分離式試題通常采用多項選擇題的形式。第三,分離式考試由于采取了多項選擇題的形式,較易達到理想的信度。然而,人們經常對該類考試的有效性產生懷疑。受結構主義語言學的影響,分離式考試把語言學習看成是系統(tǒng)的語言習慣獲取過程,認為可以通過測試獨立的語言成分來檢查一個人的語言能力。因而,分離式考試的題目往往是相互間沒有關系,同時也不提供上下文情景。因此,分離式考試主要測量學生的語言知識,而不是語言能力。,2.綜合式考試(integrativetests)此類考試要求學生在答題時運用多種語言成分或技能,因為綜合式考試項目不只含一個考點。讓我們來看幾個綜合式考試的例子。我們在教學中常用的聽寫練習(dictation)實際上屬于綜合考試項目。聽寫練習所要檢驗的不只是拼寫(spelling),它還涉及詞匯知識(vocabulary)、語法知識(grammar)、聽力技巧(listening)等。另外一個我們較熟悉的例子是完形填空(cloze)。要完成完形填空項目,學生不僅要掌握詞匯、語法知識,同時還要具備必要的閱讀技巧。從中我們可以總結出綜合考試的幾個特點。第一它是在一定的上下文中考查語言知識或技能。第二,它比較側重考查語言的意義(meaning)而不是語言的形式(form)。第三,由于要求同時運用多種技能或知識,綜合式考試強調語言熟練度的整體性。,2.3.4.根據評分方式分類按照試卷評分方式的不同,英語語言測試可分為主觀性測試(subjectivetests)和客觀性測試(objectivetests)。1.主觀性測試(subjectivetests)試題答案具有開放性或靈活性的考試稱為主觀考試。主觀性測試和客觀性測試的區(qū)別在于評分方式的不同。主觀性測試需要評分人對答案做出觀念性判斷,這種判斷往往基于評分人的經驗和所受過的相關訓練。主觀性測試的題目主要有簡述題、翻譯題、作文、口試等。但這些題目在主觀性的程度上有所不同,例如自由寫作比基于閱讀的簡答題明顯具有更高的主觀性。主觀性測試由于需要評分人做出主觀性的判斷,因此在信度上明顯稍差。一篇作文,讓不同的評分人去評閱,就會出現(xiàn)不同的分數(shù),甚至相差很多的分數(shù),這主要是由于評分人的觀點、知識背景等各不相同。信度是主觀性測試一直追求的目標。實現(xiàn)主觀性測試的信度主要要考慮以下幾點:對評分人給予足夠的培訓。主觀性測試的評分人最好要有相關的經驗,在每次評分前,都要針對本次測試的主觀性試題進行培訓,以熟悉試題內容、評分標準。同時還要進行試評,每輪試評后,應對每一位評分人的評分結果進行分析,如果某位評分人的分數(shù)總是與標準分數(shù)相差甚遠或不符合標準,則應不再使用該評分人。,以雅思為例,根據IELTS評分、分數(shù)報告和解釋,對于受考官主觀性影響較強的寫作和口語考試部分,IELTS官方強調:考官均須按照已制定的明確標準進行招聘及培訓,且須每兩年接受檢驗證明其評分符合標準。在評分初始,就要確定可接受的答案,考試結束后應該立即選樣。例如作文測試,應當選取不同層次的樣本,供評分人進行討論,當所有評分人意見一致后,才可以進行大規(guī)模評閱。對于簡述題、翻譯題等,考試結束后也應當立即選取一定數(shù)量的樣本,在試評中應注意把握準是否給分的語言點,尤其是共性的問題,然后進行討論訂立標準,并告知所有評分人引起他們的注意。使用多名獨立評分人。一般來說,對于主觀題應至少有兩名獨立評分人,兩人應在不知道對方所給分數(shù)的前提下進行各自的評分,最后由他人匯總兩位評分人的分數(shù),進行比較。如果相差太大,則退回重評或交予權威專家進行評判。避免給予應試者過多選擇的權利。在主觀性測試中,應避免讓考生從一系列題目中選取某一題目回答。例如,在寫作中提供多個題目,讓學生從中選取一個題目進行寫作,這只會干擾測試的信度,并有不公平之嫌。,2.客觀性測試(objectivetests)試題答案具有規(guī)定性或排他性的考試,一般稱為客觀考試??陀^性測試是指不需要評分人主觀判斷、答案唯一或固定的測試形式。客觀性測試不需要對評分人進行培訓,也不需要評分人的專業(yè)性判斷,甚至直接使用閱卷機就可以完成閱卷工作??陀^性測試的典型題目是單項選擇題。但是單項選擇題不是唯一的客觀性測試題型,單詞拼寫、動詞填空、正誤判斷、配伍題等都是客觀性試題??陀^性測試內容較為廣泛,比較適合分離式測試。但這也使客觀性測試只能間接反應考生語言能力,同時加強了考試內容取樣的主觀性??陀^性測試效度差,它往往只要求考生涂卡、打鉤等,答題存在猜測性因素,無法考察考生的實際語言應用能力。客觀性測試信度好,唯一或固定的答案保持了評分標準的準確性??陀^性測試能夠對語言點有所控制,閱卷省時省力。但有一點我們需要注意,客觀性測試并不是完全客觀的,決定考點的過程、制作試題的過程本身就是主觀的。,2.3.5根據考分解釋分類考試分數(shù)如何解釋?參照依據是什么?在這點上,考試可以分為兩個類別:常模參照考試與標準參照考試。1.常模參照性測試(norm-referencedtests)所謂“常?!?,劉潤清認為:“常模是指一群類型相同的人在一類考試中的成績,這個常模一般用該考試的平均分與標準差來表示”(劉潤清2000:13)。因此,常模參照性測試是指對同一次測試的結果進行比較,參照考試目的與要求設定合格分數(shù)線。合格分數(shù)線的設定主要以平均分數(shù)為依據。,常模正態(tài)分數(shù)的特點是能夠報道考生在常模群體中所處的百分位置。如某考生四級報道總分是550分,則根據大學英語四級考試(CET-4)報道分數(shù)百分位對照表,可判斷其在常模群體中的百分位是76%,表示這名考生的英語成績優(yōu)于常模群體中76%的人。如某考生六級報道總分是600分,則根據大學英語六級考試(CET-6)報道分數(shù)百分位對照表,可判斷其在常模群體中的百分位在87%92%之間,表示這名考生的英語成績至少優(yōu)于常模群體中87%的人,但不會優(yōu)于92%的人。,常模參照性測試以與其他考生的分數(shù)進行比較來衡量某一考生的成績,確定其在全體考生中的位置,因此常模參照性測試適用于選拔性測試,我國比較重要的考試大都是常模參照性測試,如中考、高考、研究生入學考試等。常模參照性測試的選拔性目的決定了其獨有的特點,從命題角度而言,命題內容覆蓋面寬,命題難易度離散程度較高,有助于拉開分數(shù)段;分數(shù)主要采用百分或標準分數(shù)的形式。,2.標準參照性測試(criterion-referencedtests)與常模參照性測試不同,標準參照性測試在考試之前就已經預先定好了衡量標準,然后根據這些標準來判斷學生是否通過和不通過。在標準參照性測試中學生的表現(xiàn)并不取決于與其他學生所做的比較。標準參照性測試根據考生能否令人滿意地完成某些任務來劃分檔次。,例如,雅思中的學術類作文考試,如果某一學生得到6分,那么與這一分級對應的寫作水準如下:(A)在任務完成方面,達到寫作任務各項要求、能確切選擇有用信息進行全面評述、呈現(xiàn)并強調主要特點或要點,但細節(jié)可能與要點無關、不恰當或不準確。(B)連貫及銜接方面,信息和分論點安排連貫,論證過程清楚,有效使用銜接手段,但句內或句間銜接有錯誤或顯機械呆板,有時指代不清晰或不恰當。(C)詞匯量方面,相對寫作任務而言,所運用的詞匯量充足,嘗試運用非常見詞匯但有時出現(xiàn)錯誤,拼寫和構詞出現(xiàn)一些錯誤,但不影響交流。(D)句式多樣性及語法準確性方面,混合使用簡單和復合句,語法和標點出現(xiàn)一些錯誤但基本不影響交流。,同樣在口語部分,考官會以流利度及連續(xù)性,詞匯內容豐富性及語法標準性與語音作為評分標準。如果一名考生得到6分,那么他已達到的相應的口語標準如下:(A)流利度及連貫性方面,愿意進行詳細描述,但有時因重復、自我更正或停頓而造成不連貫,運用不同的連接詞和語篇標記但有時不恰當。(B)詞匯方面,盡管有時詞匯運用不恰當,但詞匯量足以詳細表述主題,表意清楚;總體上能成功地變換措辭進行復述。(C)句式多樣性及語法準確性方面,混合使用簡單和復合句式,但不夠靈活;經常在使用復合句式時出錯,但很少因此給理解帶來障礙。(D)語音方面,總體能聽懂,偶爾因發(fā)音錯誤給聽者理解造成負擔。,標準參照性測試與常模參照性測試相比較具有以下優(yōu)勢:首先,它以實際語言要求為標準確定衡量標準,從而更傾向于直接反映并描述語言能力;其次,標準參照性測試能夠激勵學生實現(xiàn)標準。考生以事先確定的標準做為目標,不用擔心自己比別人差,就一定會被淘汰。標準參照性測試不以淘汰多少考生為目的;此外,標準參照性測試與教學目標緊密相連??忌谋憩F(xiàn)可促進課程、教學方法、教學目標的改進。標準參照性測試的缺點在于:首先,考試內容范圍狹窄,只涉及標準規(guī)定的內容;其次,考生不能夠通過與他人比較知道自己在考試人群中所處的地位。尤其對于好學生而言,缺少獲得更高成績的動力;此外,標準的設定難免有隨意性之嫌。,2.3.6.其它類型除以上談到的測試類型,近年來比較流行的測試還包括交際性測試(communicativetesting)和計算機輔助測試(computer-assistedtesting)。1.交際性測試(communicativetesting)自從Hymes提出了交際能力理論,語言教學開始注重學生交際能力的培養(yǎng),因此交際性測試也就應運而生。Hymes的語言交際能力框架由possible(可能)、feasible(可行)、appropriate(恰當/得體)、done(完成)組成,換句話說語言能力不僅包括語言知識(詞匯、語法知識)而且也包括交際能力,即有能力使用這些語言知識來得體地完成交際任務。,1995年Bachman對語言能力進行了概括,即語言能力包括組織能力(organizationalcompetence)和語用能力(pragmaticcompetence)。組織能力二分為語法能力(grammaticalcompetence)和語篇能力(textualcompetence);語用能力二分為施為能力(illocutionarycompetence)和社會語言能力(sociolinguisticcompetence)。交際能力的發(fā)展對于交際性測試有很大的推動作用。例如,Bachman的社會語言能力包括方言能力。方言的使用符合交際性測試對語言材料的要求,即語境的真實性。在英國劍橋大學地方考試委員會的熟練英語證書考試(CPE,五級水平考試中的最高級)聽力材料中就有帶地方口音的講話。,McNamara提出交際語言測試應具有兩種特征(McNamara2003:16-17):交際語言測試是語言表現(xiàn)測試(performancetests),其評價需要在學習者從事交際的擴展行為時進行。這種擴展行為可以是接受性的,也可以是產出性的,或兩者兼而有之。交際語言測試側重參與者在實際場景中可能扮演的社會角色,并提供具體說明這些角色需要的方法。,Weir在CommunicativeLanguageTesting一書中提到了交際語言測試的一些主要特征:重點是意義語境化語言活動帶有可接受的目的性有實際意義的言語使用真實的語言材料文本處理有真實性考試結果不可預見以互動為基礎考生在真實心理狀態(tài)下展示語言能力根據實際結果判斷成績。(Weir1990:167),交際性測試在英國和澳大利亞等國家很受歡迎,例如,澳大利亞為以英語為第二語言的健康從業(yè)人員設計的考試。在考試中,任務的設計以真實診所常見的場景為背景,包括:與病人交流,為同事提供病例等。分數(shù)以交際的復雜性、流利性做為標準。我國的交際語言測試主要是全國英語等級測試,其考試大綱中就明確了該考試是交際性語言測試,即“其語言運用能力的分類和定義建立在交際性語言活動模式的基礎上”(全國英語等級考試考試大綱第五級1999:7)。其不同的級別描述了不同的交際能力,及這些能力所能應付的語言需要。例如:該考試對三級水平的描述“通過該級考試的考生,其英語已達到高等教育自學考試非英語專業(yè)本科畢業(yè)水平或符合普通高校非英語專業(yè)本科畢業(yè)的要求,基本符合企事業(yè)單位行政秘書、經理助理、一般管理人員或科技工作者、外企職員的工作要求,以及同層次其他工作在對外交往中的基本需要”(全國英語等級考試考試大綱第三級2003:11-12)。五級水平為“通過該級考試的考生,其英語水平基本滿足在國外攻讀碩士研究生非英語專業(yè)或從事學術研究工作的需要。該水平的英語也能滿足他們在國內、外從事專業(yè)和管理工作的基本需要”(全國英語等級考試考試大綱第五級1999:8-9)。,2.2.計算機輔助測試(computer-assistedtesting)計算機輔助測試(computer-assistedtesting,CAT),是指利用計算機協(xié)助對于學生的學習效果進行測試和對學生的能力進行評估。它以現(xiàn)代教育測試測量理論項目反應理論(itemresponsetheory)為基礎,以計算機和網絡技術為依托,力圖快速準確地測量考生的潛在語言能力。計算機輔助測試有聯(lián)機測試與單機測試兩種方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 草原割草在整合教育資源中的作用考核試卷
- 安全文明施工方案誰編寫
- 航天器在軌燃料補給技術考核試卷
- 環(huán)境工程教學課件
- 再生橡膠在寵物用品行業(yè)的應用考核試卷
- 2025年無縫管熱連軋機合作協(xié)議書
- 火工品生產過程中的安全生產措施考核試卷
- 藤材種植與可持續(xù)農業(yè)考核試卷
- 盾構機施工中的隧道工程地質調查考核試卷
- 選擇與誰同行決定你的職場高度
- 2025五級應急救援員職業(yè)技能精練考試題庫及答案(濃縮400題)
- 高職高專教育英語課程教學基本要求A級-附表四
- 敏捷跨文化團隊協(xié)作-全面剖析
- 2025年3月29日全國事業(yè)單位聯(lián)考A類《職測》真題及答案
- 風電場安全風險分析及預控措施
- 戰(zhàn)場救護科目考試題及答案
- 光伏產業(yè)概覽課件
- 2025年新思想概論考試題及答案
- JJG 134-2023 磁電式速度傳感器檢定規(guī)程
- 2025年高考預測猜題 數(shù)學(新高考Ⅱ卷專用)01 含解析
- 堿性水電解槽電極與隔膜性能評估及能耗分析
評論
0/150
提交評論