語言測試第一課

上傳人：1*** IP屬地：山東上傳時間：2024-03-16 格式：PPT 頁數(shù)：63 大?。?.37MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩58頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

語言測試目錄第1章語言測試初探ChapterOnePrimaryExplorationofLanguageTestingIPrimaryExplorationofLanguageTesting

Whatislanguagetesting?Whytotest?Whattotest?Howtotest?Whatislanguage?DefinitionofLanguageLanguageisasystemofarbitraryvocalsymbolsusedforhumancommunication.語言的定義許國璋先生認為把語言定義成交際工具不夠科學,至少不夠嚴謹.他對語言的定義做了如下概括:語言是人類特有的一種符號系統(tǒng).語言的功能：當它作用于人與人之間的關系的時候,它是表達相互反應的中介;

當它作用于人與客觀世界的關系的時候,它是認知事物的工具;

當它作用于文化的時候,它是文化的載體和容器.語言測試的定義測試是對行為樣本的客觀的標準化的測量---劉潤清和韓寶成引Anastasi(1982）語言測試是對受試者語言樣本的客觀的標準化的測量抽樣Testee命題，預試（trial),實施（administration)，評分，第2章語言測試的類型2.1從用途的角度區(qū)分2.2從分數(shù)參照框架的角度區(qū)分2.3從評分方式的角度區(qū)分2.4從結構的角度區(qū)分2.5從綜合與分離的角度區(qū)分2.6從規(guī)模的角度區(qū)分各類測驗的特點

A成績測驗B能力傾向測驗C水平測驗D診斷測驗E分班測驗測驗特點及類型依據(jù)所測能力信息指向標準化程度規(guī)模語言理論一般語言水平現(xiàn)在—將來最高最大

教學內(nèi)容不一定過去可以較高可以很大認知理論學習潛能將來可以較高可以很大教學內(nèi)容現(xiàn)有水平將來不高不大教學內(nèi)容現(xiàn)有水平過去—將來低小依據(jù)所測能力信息指向標準化程度規(guī)模水平測驗語言理論一般語言水平將來？最高最大成績測驗教學內(nèi)容不一定過去可以較高可以很大傾向測驗認知理論學習潛能將來可以較高可以很大安置測驗教學內(nèi)容現(xiàn)有水平將來不高不大診斷測驗教學內(nèi)容現(xiàn)有水平過去-將來低小各類測驗的特點常模參照性測試平均分、標準差、標準分、正態(tài)分布圖常模參照和標準參照的區(qū)別

┏━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━━┓┃┃常模參照┃標準參照┃┣━━━━━━╋━━━━━━━━━━━━╋━━━━━━━━━━━━┫┃測驗的性質┃一般語言能力或水平┃特定的語言點┃┠──────╂────────────╂────────────┨┃分數(shù)解釋的┃相對的：某被試和其他┃絕對的：被試的成績和┃┃性質┃被試比較┃預先制定的內(nèi)容比較┃┠──────╂────────────╂────────────┨┃分數(shù)的分布┃以平均分為中心的正態(tài)┃不考慮分布┃┃┃分布┃┃┠──────╂────────────╂────────────┨┃測驗的目的┃區(qū)分所有被試的能力┃看被試掌握了多少教學┃┃┃┃內(nèi)容┃┠──────╂────────────╂────────────┨┃測驗的內(nèi)容┃被試不知道或很少知道┃被試完全知道┃┗━━━━━━┻━━━━━━━━━━━━┻━━━━━━━━━━━━┛

第3章信度什么是信度信度和效度的關系是什么信度的計算方法：CTS-理論，G-理論，IR-理論CTS-理論X＝Xt

＋Xeobservedscoretruescoreerror

觀察分數(shù)真分數(shù)隨機誤差r=Xt/XCTS-理論真分數(shù)與誤差分數(shù)平行試卷法CTS-理論

真分數(shù)與誤差分數(shù)

Xt=X-Xe

在一次測量中，被試觀察分數(shù)的方差等于其真分數(shù)方差與誤差分數(shù)方差之和。

Sx2=St2+Se2CTS-理論

r=St2/Sx2Sx2=St2+Se2兩邊同除以Sx21=St2/Sx2+Se2/Sx2r=1-Se2/Sx2CTS-理論中的誤差什么是誤差誤差的分類：1、隨機誤差2、系統(tǒng)誤差3、抽樣誤差誤差的來源（一）測驗自身引起的誤差主要來源于測驗的編制過程，其中項目取樣影響最大。（二）施測過程引起的誤差1、測試環(huán)境2、測試時間3、主試因素4、意外干擾5、評分記分（三）測試對象引起的誤差1、應試動機2、測驗焦慮3、測驗經(jīng)驗4、練習效應5、反應傾向6、生理變因真分數(shù)（一）含義真分數(shù)是指測量沒有誤差時所得到的真值。其操作定義是無數(shù)次測量結果的平均值。測量越多則越接近真分數(shù)，但無法消除系統(tǒng)誤差。四、真分數(shù)及其假設經(jīng)典測驗理論假設：觀察分數(shù)（記為X）與真分數(shù)（T）之間是一種線性關系，并相差一個隨機誤差（記為E）

X＝T＋Eobservedscoretruescoreerror

觀察分數(shù)真分數(shù)隨機誤差

CTT的數(shù)學模型四、真分數(shù)及其假設

根據(jù)CTT模型，我們可以引申出3個相關聯(lián)的假設公理：用平行的測驗反復測量足夠多此后，觀察分數(shù)的平均值會接近真分數(shù)，或者說：隨機誤差的平均數(shù)是零

E（X）＝T，E（E）＝0。或X＝T，E＝0。四、真分數(shù)及其假設真分數(shù)與隨機誤差之間相關為0。ρ（T，E）＝0。各平行測驗的誤差分數(shù)之間無相關/零相關,ρ（E1，E2）＝0CTS-理論

平行試卷相關性和誤差方差的計算信度類型由于誤差的來源信度的可分為：這種分類是基于信度的傳統(tǒng)定義-真分數(shù)理論。1）重測信度（再測信度）：考慮的誤差來源是時間取樣。2）復本信度(對等信度）：考慮的誤差來源是內(nèi)容取樣。3)同質性信度（內(nèi)部一致性系數(shù)）：考慮的是測驗內(nèi)容是否異質。分半信度：它考慮的誤差來源也是內(nèi)容取樣，它與復本信度的差別是：分半信度考查一個測驗內(nèi)容的兩半題目測量的是否是同一個心理特點行為。項目方差信度4）評分員信度：考慮的誤差來源是評分者。G理論G理論幾個基本概念：⑴測量目標，即測量所要描述和研究的那個心理特質；解決“測什么”的問題⑵測量側面(facet)，是指影響測量過程和測量結果的各種內(nèi)外在因素，一個測量側面就是某一方面的測量條件；涉及到“怎么測”⑶測量情境則是由測量目標和測量側面構成的。顯然測量的側面是測量誤差的重要來源，它對測量的信度有重要的影響。項目回應理論常用來描述試題特性的主要參數(shù)是難易度指數(shù)(FacilityIndex)“b”,區(qū)分度指數(shù)（DiscriminationIndex）“a”，和猜測系數(shù)（GuessingCoefficient）“c”。Ir理論

Ir理論影響信度的因素1）試卷的長度。2）試卷的難度和方差。3）分數(shù)段的確定。4）系統(tǒng)性因素。5）考生能力差異。6）項目區(qū)分度和數(shù)量。7）測試時間的多少。第四章效度內(nèi)容效度效標關聯(lián)效度理論效度（構念效度、結構效度、實驗效度；認知效度，weir2008）試后效度（測試的反撥作用）P=0P=1-1-2-301234-4P=0.41y=0.3891-P=0.59IICentralTendency2.1Mode2.2Median2.3Mean2.1Mode（眾數(shù)）

一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值例如：1，2，3，3，4的眾數(shù)是3。例如：1，2，2，3，3，4的眾數(shù)是2和3。還有，如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣，那么這組數(shù)據(jù)沒有眾數(shù)。例如：1，2，3，4，5沒有眾數(shù)。2.2Median（中位數(shù)）中數(shù)是指位于一組數(shù)據(jù)中較大一半與較小一半中間位置的那個數(shù)。如果數(shù)據(jù)個數(shù)為奇數(shù)，則取序列為第(N+1)／2的那個數(shù)據(jù)為中數(shù)，如：4、7、8、9、10、11、12、13、14(N=9)(N+1)／2=5，序列第五的數(shù)據(jù)是10，則該組數(shù)據(jù)的中數(shù)是10。2.2Median（中位數(shù)）如果數(shù)據(jù)個數(shù)為偶數(shù)，則取序列中第N/2和N/2+1

這兩個數(shù)的平均數(shù)為中數(shù)，如

2、3、5、7、8、10、15、19(N=8)

序列為N／2=4者是7，序列為N／2+1=5者為8，則其中數(shù)為(7+8)／2＝7.5。

中數(shù)不受極大值與極小值的影響，而決定中數(shù)的關鍵是居中的那幾個數(shù)據(jù)的數(shù)值大小。2.3Mean（平均數(shù)）平均數(shù)是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以數(shù)據(jù)的個數(shù)。平均數(shù)容易受極端數(shù)據(jù)的影響。例如，院長和書記的工資。中位數(shù)和眾數(shù)這兩個統(tǒng)計量的特點都是能夠避免極端數(shù)據(jù)，但缺點是沒有完全利用數(shù)據(jù)所反映出來的信息。IIIDispersionHowscatteredthedataare.不知道一組數(shù)據(jù)的離散程度，只知道一組數(shù)據(jù)的集中趨勢有時是誤導的。如兩個街區(qū)各有20個家庭，平均收入都是$20萬街區(qū)1每個家庭與平均數(shù)的差異都很小街區(qū)2有3個家庭收入在$

100萬，其他17個在$6萬左右這時需要表示離散程度的數(shù)據(jù)來描述這組數(shù)字。IIIDispersion3.1Range3.2Variance3.3Standarddeviation3.1Range(全距）全距指一組數(shù)據(jù)中最高分與最低分之差。R=最大數(shù)-最小數(shù)全距大數(shù)據(jù)分布分散全距小數(shù)值分布相對集中缺點：兩級有異常值時全距不可靠A：79797980818181B：5060708090100110RangeofA=81-79=2RangeofB=110-50=60測試的開發(fā)與設計BritishCouncilAssessment第二部分1、確定考試類別2、確定考試內(nèi)容3、確定考試題型4、確定試卷結構5、制定考試細目表6、命題及編輯試卷

——編寫試卷語言測試的總體設計第二部分考試目的不同，試卷的內(nèi)容、要求也不一樣。1、確定考試類別2、確定考試內(nèi)容3、確定考試題型（1）根據(jù)測試目的選擇題型（2）縱橫結合，確定題型是否有效（3）考慮被試的能力范圍（1）多項選擇題（2）是非題、判斷題（3）配對題語言測試的總體設計第二部分語言測試的總體設計第二部分語言測試的總體設計第二部分語言測試的總體設計第二部分語言測試的總體設計第二部分語言測試的總體設計4、確定試卷結構首先，要確定試卷各部分的比例；其次，是研究每一部分有多少題目才能保證測試起碼的效度；第三，題目數(shù)確定了，還要看時間是否夠。第二部分語言測試的總體設計5、制定考試細目表知識理解應用分析綜合總計比重時間（分）語法10102012.520詞匯202012.560閱讀404025綜合填空202012.520聽力353521.930寫作252515.630總計30751020251601001606、命題及編輯試卷整個命題過程包括選材、編寫試題、審題等環(huán)節(jié)。命題原則：先出容易的題，后出現(xiàn)較難的題目；題型相同的題應放在一起；客觀題在前，主觀題在后。規(guī)模大、影響大的測試在正式實施前還要進行試測，以驗證試卷有沒有缺失，要不要作一些改動等。命題要求：效度、信度，注意試題的難度和區(qū)分度等。第二部分語言測試的總體設計第二部分語言測試的總體設計1.區(qū)分度：指一個題目對于鑒別被試的水平所起的作用有多大。（1）區(qū)分度指數(shù)（極端分組法）：27%D=（高分組答對此題人數(shù)-低分組答對此題人數(shù)）/高分組或低分組人數(shù)。例題：P326-327。D在-1―+1之間，一般要求在0.3左右。特點：簡便；不夠精確題目分析的方法難度的形成知識的綜合程度試題的呈現(xiàn)形式試題提問的思維跨度有用信息的提取難度第二部分語言測試的總體設計試題的難易度第二部分語言測試的總體設計2.難易度：指某個題目的答對率，即答對某題目的被試占全部參加測試的被試的比例。

p=答對此題人數(shù)/總人數(shù)，范圍應在0.2-0.8之間。

平均難易度（一個測試的各個題目的難易度相加，再除以題目的數(shù)量），宜在0.5左右。

特別要求：被試的同質性題目分析報表題目編號：IT98CR-107標準答案：A題目質量：不合格題目正文107.大學生們十分感動。A.激動B.感激C.震動D.感慨一年級組考生數(shù)：173難易度：0.1053區(qū)分度：0.0180選項人數(shù)平均分數(shù)雙列相關點雙列相關

A2620.810.02760.0180B9521.82-0.2921-0.2324C1916.260.41800.2493D3219.220.15280.1050E117.500.19070.0048報告人：XX考試中心報告日期：1998年X月X日題目的修改題目的修改題目分析報表題目編號：IT01CR1-107標準答案：A題目質量：合格題目正文107.大學生們十分感動。A.震撼B.可憐C.努力D.驕傲一年級組考生數(shù)：138難易度：0.5036區(qū)分度：0.3976選項人數(shù)平均分數(shù)雙列相關點雙列相關

A7021.630.49830.3976B518.600.07770.0317C3417.350.30690.2243D2817.360.28190.1976E117.000.67100.1648報告人：XX考試中心報告日期：2002年X月X日用語表達：注意準確規(guī)范試卷格式：注意整齊美觀試題內(nèi)容：注意科學無誤知識點覆蓋面廣、重點突出難度、比例和區(qū)分度適宜設計的題目是否如實地反映出考試細目表中的內(nèi)容和要求？題目的要求是否明白無誤？試題前后是否有提示？題目的難度是否適中？題目的覆蓋面是否夠廣？第二部分語言測試的總體設計第三部分語言測試質量評估第三部分語言測試質量評估第三部分1.信度2.效度3.真實性4.互動性

5.可行性

6.后效作用語言測試質量評估第三部分1.信度信度（reliability）指同一個卷面和難易程度相同的試題用于水平基本相同的測試對象，測試結果是否基本相同。閱卷員信度，閱卷員自身信度2.效度效度（validity）指測試的有效程度，也就是測試的內(nèi)容和方法是否達到了測試目的。要求：該測的當測，不該測的盡量不涉及；是否有缺漏或出現(xiàn)偏題、怪題；代表性、準確度和覆蓋面如何。類型：構念效度、內(nèi)容效度、表面效度、預測效度，方法效度語言測試質量評估第三部分3.真實性

語言測試的真實性指目標語言使用任務特征(targetlanguageusetask)與測試任務特征(testtask)的一致程度。目標語言使用任務指通過測試所要預測的被試者在將來工作中為達到一定目的在特定場合用所學語言所進行的一系列活動。測試任務指能夠考察、預測、判斷被試者在將來工作中目標語言使用能力的最佳測試方式。語言測試質量評估第三部分交互性指被試者在完成一件測試任務(testtask)時所涉及到的個人特征類型(individualcharacteristics)及程度。與語言測試最有關的個人特征主要有：語言能力(languageability其中包括語言知識languageknowledge、策略能力strategiccompetence或稱元認知策略metacognitivestrategies)話題知識(topicalknowledge)情感圖式(affectiveschemata)4.互動性語言測試質量評估第三部分可行性主要指考試在現(xiàn)實的條件下能否行得通，即可操作性，主觀愿

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語言測試第一課

文檔簡介

溫馨提示

最新文檔

評論

語言測試第一課

文檔簡介

溫馨提示

最新文檔

評論

相關文檔