教育統(tǒng)計與測評導論_第1頁
教育統(tǒng)計與測評導論_第2頁
教育統(tǒng)計與測評導論_第3頁
教育統(tǒng)計與測評導論_第4頁
教育統(tǒng)計與測評導論_第5頁
已閱讀5頁,還剩248頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、教育統(tǒng)計、測量與評價1教育統(tǒng)計與測評導論 劉新平 劉存?zhèn)b編著概率論基礎推斷性統(tǒng)計教育測量教育評價2名詞解釋 1、統(tǒng)計:就是“統(tǒng)而計之”對所考察事物的量的取值在其出現的全部范圍內作總體的把握,全局性的認識。教育統(tǒng)計:對教育領域各種現象量的取值從總體上的把握與認識,它是為教育工作的良好進行,科學管理、革新發(fā)展服務的。教育統(tǒng)計學:社會科學中的一門應用統(tǒng)計,是數理統(tǒng)計跟教育學、心理學交叉結合的產物。3測量:按一定規(guī)則給對象在某種性質的量尺上指定值。教育測量:就是給所考察研究的教育現象,按一定的規(guī)則在某種性質量尺上指定值數據:用數量或數字形式表示的資料事實稱為數據。計數數據:是以計算個數或次數獲得的,多

2、表現為整數。測量評估數據:借助測量工具或評估方法對事物的某種屬性指派給數字后所獲數據。4 內容簡介 一 教育統(tǒng)計 描述性統(tǒng)計,概率論基礎,推斷性統(tǒng)計, 方差分析, 回歸分析 二 教育測量 教育測量概述, 測驗的質量分析, 考試設計與試題編制, 測驗分數的轉化與組合, 項目反應理論 三 教育評價 教育評價概論, 教學評價, 學校、教師和學生的評價, 教育評價中的多元分析方法5第一章 描述性統(tǒng)計 統(tǒng)計學是一門研究數據的搜集、整理、分析與推理方法的科學,單純對一組數據的面貌特征進行分析研究稱為描述性統(tǒng)計。 在統(tǒng)計學中,通過對樣本的描述來推斷整體的特征,稱為推斷性統(tǒng)計,簡稱為統(tǒng)計推斷。 根據樣本信息進

3、行統(tǒng)計推斷時,勢必要冒導致錯誤結論的風險。 教育統(tǒng)計學是應用數理統(tǒng)計方法去研究教育現象的一門應用學科。 數理統(tǒng)計是指應用概率論來研究統(tǒng)計學的學科。 教育學與心理學中的許多問題借助于統(tǒng)計學都可以量化,從而揭示教育規(guī)律和心理規(guī)律。6數據也稱為資料,我們把搜集記錄下來的數量依據稱為數據。在實際工作中,一般采用調查的方法來取得數據。 把所考慮對象的全體稱為總體或母體,其中每一個對象稱為個體;而從總體中抽取的一部分個體稱為樣本或子樣,樣本中所含個體的數目稱為樣本容量。 樣本分為大樣本(n30)和小樣本(n30);樣本容量的選擇取決于實驗的條件和精度;樣本越大,反映總體的信息越充足,但計算量也越大,因此樣

4、本容量最好適當。 1.1 怎樣獲取數據7抽樣調查中對樣本的基本要求:1)能充分反映總體的信息,即每個個體被抽到的可能 性相同,個體與個體之間互不影響,也就是個體互相獨立。2)每個個體具有和總體相同的本質特征,即樣本具有某種代表性,數學上稱此為與總體同分布。滿足以上兩條的樣本稱為隨機樣本,從樣本中抽出一個隨機樣本,統(tǒng)計學上稱為隨機抽樣。隨機抽樣常用的有: 一 . 簡單隨機抽樣(隨機數表法 ;抽簽法) 二. 分層抽樣 三. 等距抽樣(個體排列后,以確定的相等距離抽取隨機樣本)8一.數據的基本類型(離散型數據, 連續(xù)性數據)二.頻數分布表 三.累積頻數分布表四.頻數分布圖 五.累積頻數分布曲線圖 1

5、.2 頻數分布9描述統(tǒng)計 補充:常用統(tǒng)計表、統(tǒng)計圖及統(tǒng)計量 (一)常用統(tǒng)計表 1、統(tǒng)計表的結構:由標題、項目(標目)、數據、線條、表注(數據來源)組成 1983年我國普通中學教師學歷統(tǒng)計表 學 歷 人 數 百分比(%) 大學本科以上 300887 11.6 大專畢業(yè) 566863 21.8 中專畢業(yè)以下 1729750 66.6 合 計 2596900 100.0 注:引自中國教育成就統(tǒng)計資料,1984年人民教育出版社標題 項目 線條 數據 表注10(二)常用統(tǒng)計圖1、統(tǒng)計圖結構:圖題、圖目、圖尺、圖例、圖形、圖注人數 70 60 50 40 30 20 10 1980年 1985年 1991

6、年某校近十年教師人數及性別變化圖示男 女年份圖例圖形常用統(tǒng)計表、統(tǒng)計圖及統(tǒng)計量圖目圖尺(制圖的尺度線。點、單位的總稱)圖題112、統(tǒng)計圖的類型及繪制要求繪制統(tǒng)計圖的要求A、根據數據和目的選擇合適的圖形B、圖形所表示的面積或距離要比例適當C、表示不同的事物要用不同的顏色與線條類型:1 直條圖 2 圓形圖 3 曲線圖 4直方圖 講師42.9%助教28.8% 教授0.4%某大學教師職稱圖副教授21.9%某市7至18歲男女生身高比較圖1.751.701.651.601.551.501.451.40歲7 8 9 10 11 12 13 14 15 16 17 18米某校某班50名學生家庭背景情況比較 2

7、0 15 10 5人數其他農工商企業(yè)職員公務與科教人員141615 5 20 15 10 5人數其他農工商企業(yè)職員公務與科教人員141615 5(二)常用統(tǒng)計圖12 3、次數分布表與直方圖 對一批數據按一定次序排列并加以分組、編成反映這群數據在各組上出現次數的統(tǒng)計表和圖,就是次數分布表和直方圖。例:一次考試之后,某班48名學生的成績如下: 86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,79,82,68,74,73,

8、84,76,79,86,68 將該組數據整理成次數分布表與直方圖(二)常用統(tǒng)計圖13 1求全距:R=maxxi-minxi用該組數據最大數減最小數 2定組數和組距 :數據劃分組數、每組上下限之間距離(全距除以組數) 3列組限:從最高分至最低分以組距為單位依次分組 4歸組劃記:計算數據出現次數,并計算累積次數及相對次數 步驟:例:一次考試之后,某班48名學生的成績如下:86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,7

9、9,82,68,74,73,84,76,79,86,68 組限 組中值 劃記 次數 f 累積次數f 相對次數Rf 累積相對次數Rf95 90 85 80 75 70 65 60 55 50 4599 94 89 84 79 74 69 64 59 54 49 2 2 5 9 12 7 6 3 1 0 1 2 4 9 18 30 37 43 46 47 47 48 0.040.040.100.190.250.150.130.060.0200.020.040.080.180.370.620.770.900.960.980.981.00正 正 正 正 正正合計 48 48 1.00次 數 分 布 表

10、 97 92 87 82 77 72 67 62 57 52 47K=1.87(n-1)2/51414 12 10 8 6 4 245 50 55 60 65 70 75 80 85 90 95 100次數分數 直方圖15一.平均數 表示一組數據集中的位置,又稱為均數. 1.算術平均數, 2.加權平均數, 3.幾何平均數, 4.調和平均數 1.3 集中量數16 3. 幾何平均數 常用來計算平均增長率 例 某學校1999年至2001年招生人數如表所示, 求該校平均每年招生的增長速度。 年份招生人數1999900200011002001120017 4、調和平均數例2甲每小時解6題,乙每小時解3題

11、,兩人各解12題,求平均解題速度。18 4. 調 和 平 均 數 一般用于計算平均速度 例3 甲每小時解4題,乙每小時解6題,丙每小時解5題,三人解題數分別為 20,24,21, 求平均解題速度。19二.眾數 ; 三 . 中數(中位數).例 表中給出了25個數據的頻數分布,求平均數、眾數與中數.組區(qū)間組中值頻數758077.51707572.53657067.55606562.510556057.54505552.5220 1.4 差異量數 用來衡量一組數據分散程度的量數稱為差異量數。 常見的差異量數有:極差,四分位差,平均差,標準差。 一.極差 極差=最大值最小值 二.四分位差 四分位差指

12、之差的一半,用來描述頻數 分布中間數值的分散程度,用Q表示.21例1 求20名學生一次語文測驗成績的四分位差.66,67,67,69,70, 71, 72,73,74,76,85,86,88,88,90, 90, 92,94,97,98。四.三種集中量數的比較22 三. 平均差 平均差是一個相對平均數來衡量一組數據分散程度的差異量,用 表示.四.標準差方差標準差23 標準差是衡量一組數據分散程度最有效的量數。它給出了一組數據偏離平均數程度的大小,標準差越小,這組數據偏離平均數的程度越小,即分布的差異越小.五.變異系數 差異量數用來衡量一組數據的分散程度都帶有計量單位,不能比較不同單位的兩組數據

13、。差異量數都是絕對差異量;而變異系數是相對差異量。1)極差系數 極差系數=最大值/最小值2)標準差 系數 24例1 甲射擊三槍擊中8,7,6 乙射擊三槍擊中5,6,10;問誰的射擊水平高?例2 某學前班6歲男童平均體重為20.50公斤,平均身高為118.20厘米,體重的標準差為1.80公斤,身高的標準差為4.20厘米,試比較體重與身高的差異程度.例3 某班學生第一次數學測驗平均分為74.2,標準差為18.5分;第二次測驗平均分為72.5分,標準差為12.5分,試比較兩次數學測驗成績的差異程度。25 第二章 概率論基礎 2.1 事件與概率一.事件隨機試驗 ; 隨機事件 ;事件的關系.二.概率1.

14、概率的統(tǒng)計定義事件A的頻率Q(A)=m/n 事件A的概率P(A)2.概率的古典定義3.概率的數學定義n很大26例 一、二、三班的男女生的人數如表所示,從中隨機抽取1人,求該學生是一班學生或男生的概率是多少?一班二班三班總計男23222469女25242271總計484646140272.2 隨機變量及常見分布一.隨機變量1.離散型隨機變量及概率分布例 某學生參加一項智力競賽,共回答3個問題,求該生答對題目數的概率分布列。282.連續(xù)型隨機變量及概率密度函數29例 3路公共汽車每5分鐘來一趟,其乘客候車時間X為一隨機變量,求(1)概率密度函數p(x);(2)候車時間不超過3分鐘的概率。 一 般地

15、,若隨機變量X在區(qū)間(a,b)服從均分布,則概率密度為303.隨機變量的分布函數31324.隨機變量的數字特征(1)數學期望(期望值)數學期望是描述隨機變量取值集中位置的一個數。333435(2)標準差3637(4)協(xié)方差與相關系數38二.二項分布1.伯努利(Bernouli)概型只有兩個結果的試驗為伯努利試驗,伯努利試驗服從(0-1)分布。n重伯努利概型具有以下兩個特點:3940三.正態(tài)分布1.正態(tài)概率密度函數4142例1 設隨機變量 XN(0,1),求P(X1.65), P(1.65X-1.5) 例2設隨機變量 XN(60,25),求(1)P(X75), P(65X80), P(X60)

16、(2)若=0.05,F(x)是X的分布函數, 求F(x)的百分位數, 及F(x)的上百分位數.43例3 已知某車間工人完成某道工序的時間服從正態(tài)分布N(10,9),問(1)從該車間工人中任選一人,其完成該道工序的時間不到7分鐘的概率;(2)為了保證生產連續(xù)進行,要求以95%的概率保證該道工序上工人完成工作時間不多于15分鐘,這一要求能否得到保證?442.正態(tài)分布及標準正態(tài)分布函數值表45.標準正態(tài)分布函數及其應用例1 某地2002年全國普通高校統(tǒng)考文科數學成績服從正態(tài)分布,已知期望為42分,標準差為6分,如果某考生得48分,問有多少考生名列該考生之后?(確定超前百分位數,排定名次.所謂超前百分

17、位數,是指列于一個數值之后的人在全體中所占的百分數。)例2 學生的學習能力一般是服從正態(tài)分布的;如果某校200名初中一年級學生按能力分成5組參加某項測驗,問各組分別應該有多少人? (按能力分組,確定各組人數)46.應用于標準分數()線性標準分數科目原始分數全體考生標準分數甲乙甲乙 甲乙語文-0.25 0.2547.5 52.5數學0.75 -0.2557.5 47.5外語-0.33 046.7 50.0總和0.17 0151.7 150.047()正態(tài)化標準分數(也稱為分數) 先對原始分數依大小排序,求出每一分數以下的考生占考生總數的百分比,再利用標準正態(tài)分布函數值表(附表)查出對應的值,即為

18、正態(tài)化標準分數.48回顧與提高49回顧與提高50正態(tài)隨機變量的性質定理1 設 , 則 (1) ;(2) 定理2 設 , ,X與Y 獨立 則 ;從而 51 3.2抽樣分布定理一.總體和樣本 二.樣本分布函數三.統(tǒng)計量 統(tǒng)計學中稱不含總體未知參數的樣本的函數為統(tǒng)計量,主要包括樣本均值,樣本方差和距.在統(tǒng)計推斷中,我們將用這些統(tǒng)計量來對總體的某些特征作出估計和檢驗。 統(tǒng)計量是統(tǒng)計推斷中一個非常重要的概念,當我們要了解一個總體的分布或總體中的某個參數時,往往要構造一個統(tǒng)計量,然后依據樣本所遵從的總體分布,找到統(tǒng)計量所應遵從的分布,以此對總體的分布或總體中的某個參數作出合理的推斷或檢驗。 為了方便,不妨

19、把某統(tǒng)計量的觀察值簡稱為該統(tǒng)計量.525354例1 設總體服從正態(tài)分布,已知總體的方差為16,從總體中抽取容量為9的樣本,求樣本均值與總體均值之差的絕對值小于2的概率?5556四.三種重要的理論分布定理 若 , 則 57在對總體方差進行檢驗和區(qū)間估計時,必須用到以上兩個統(tǒng)計量.58592. T 分布60例1 設總體服從正態(tài)分布,從總體中抽取容量為9的樣本,求樣本均值與總體均值之差的絕對值小于2的概率?如果(1)已知總體的方差為16。 (2)總體方差未知,但樣本方差為18.45。61應用此定理,推斷兩個獨立正態(tài)總體的方差是否一致。6263補充習題6465對總體方差進行推斷.在總體方差未知的條件下

20、對總體均值進行推斷。 五.統(tǒng)計量的分布1.樣本均值的分布666768關于正態(tài)隨機變量的線性函數的分布69單個正態(tài)總體的統(tǒng)計量的分布70兩個正態(tài)總體的統(tǒng)計量的分布71 第三章 推斷性統(tǒng)計 推斷性統(tǒng)計的核心是由樣本所提供的信息,對總體的分布及分布的參數作出具有一定可信程度的推斷;推斷性統(tǒng)計有兩種:一種是參數估計,另一種是假設檢驗。 3.1參數估計 參數估計即根據樣本估計出總體的參數;把總體待估參數記為,把用來估計總體參數的統(tǒng)計量稱為估計量,記為 . 參數估計分為兩類:第一類是點估計,用一個統(tǒng)計量 作為總體未知參數的 估計量;第二類是區(qū)間估計,用兩個統(tǒng)計量 對總體未知參數所在范圍進行估計,使位于 之

21、間的可能性盡量大。在估計過程中,我們力求以較大的把握保證估計的準確性;抽樣分布定理為進行這項工作提供了理論工具。72 點估計點估計有兩種方法:距法和最大似然法.1.距法定義 以樣本的r 階距作為相應總體r階距的估計量,以樣本距的函數作為總體距的同類函數的估計量稱為距法.73例1 求總體均值和方差 的估計量。2.無偏估計量定義 設 為總體未知參數的一個估計量,如果 E =,則稱 為的一個無偏估計量有效性:743.最大似然法 最大似然法由于總體分布已知,從而抽出的樣本能充分利用總體分布提供的信息,因而避免了距法的缺陷,應用較廣。例1 設總體X服從正態(tài)分布,其中期望 和標準差 都是未知參數,如果取得

22、觀察值為 ,求參數 及 的最大似然估計量。75二.區(qū)間估計76下面討論正態(tài)總體的參數區(qū)間估計問題例 1 由以往資料,某校一年級男生100m跑成績的標準差為2.1s,現從入學新生中抽出20名男生,測得100m跑平均成績?yōu)?3.5s,求該校一年級男生100米跑平均成績的95%的置信區(qū)間(假定百米跑成績X服從正態(tài)分布).771.總體均值的區(qū)間估計782)大樣本,總體方差 未知,求的置信區(qū)間 例3 從某校高一男生中抽取9人,其身高(米)分別為1.70,1.63,1.78,1.55,1.59,1.74,1.72,1.64,1.60.試估計該校高一男生平均身高所在的范圍。(=0.05,假定身高服從正態(tài)分布

23、)例2 從某區(qū)高中入學考試學生中抽取150份語文試卷,算得平均成績?yōu)?1.5分,方差16.0分,試對全區(qū)高中入學考生的平均語文成績進行區(qū)間估計(=0.01). 793)小樣本,總體方差未知,求的置信區(qū)間802.總體方差 的估計區(qū)間1)已知總體均值,求 的置信區(qū)間81例4 某校數學系入學新生的高考數學成績一直穩(wěn)定在75分左右,現從一年級新生中抽取10名,其入學高考數學成績分別為71,68,75,90,84,60,90,72試估計該校數學系新生高考數學成績的標準差在何范圍?82例5 從某區(qū)隨機抽取7名7歲的男童,其體重的標準差為2.25公斤,試求某區(qū)7歲男童的體重標準差的95%的置信區(qū)間。83歸納

24、 正態(tài)總體X的參數區(qū)間估計1.總體均值的區(qū)間估計2.總體標準差的區(qū)間估計84習題1.某射擊隊員射擊十槍的成績是8,9,10,10,8,9,7,8,9,8,試估計他射擊的總體期望與方差的90%的置信區(qū)間。2.測某班學生身高5人,測得的值為(米)108.5,109.5,110.0,110.5,112.0,假定總體服從正態(tài)分布,且方差為2.5,求總體均值的置信度為0.95的置信區(qū)間。853.二項分布總體參數p的區(qū)間估計即總體Xb(n,k,p),對比率P進行估計。(1)小樣本p的置信區(qū)間例 某班20人參加一項測驗,有15人通過;求p的0.95置信區(qū)間.86(2)大樣本p的置信區(qū)間87例6 某地區(qū)抽查1

25、00名中學教師,其中具有本科以上的有62人,試估計該地區(qū)具有本科以上學歷教師所占比例的范圍(=0.05)88設總體X服從某一分布(不是正態(tài)分布),它的概率函數或概率密度中含有未知參數,則總體均值與方差顯然都依賴于.四、非正態(tài)總體參數的區(qū)間估計89 3.2參數假設檢驗一.假設檢驗的概念1.假設 參數假設 指總體分布已知,關于未知參數的假設,教育研究中用得最多的是已知總體服從正態(tài)分布,對總體均值和總體方差作出假設。 非參數假設 包括的范圍很廣,可以說,一個假設如果不是參數假設,就稱為非參數假設. 非參數假設一般指關于總體分布的假設.2.假設檢驗 判斷假設成立與否的方法叫做假設檢驗,最簡單的檢驗是顯

26、著性檢驗。 所謂顯著性檢驗是只對一個假設進行檢驗.903.小概率原理(實際推斷原理) 概率很小的事件叫做小概率事件。在統(tǒng)計學中,概率如低于0.01,0.05或0.10則認為??;把這些值統(tǒng)一記為,稱為顯著性水平。小概率原理是指:小概率事件在一次試驗中是實際上不可能發(fā)生的;同樣,大概率事件在一次試驗中是實際上必然會發(fā)生的. 這個原理在實際推斷中的應用:如果小概率事件在一次試驗中發(fā)生,那么,這是不切合實際的。4.兩類錯誤 第一類錯誤:稱為“棄真”,記其概率為 第二類錯誤:稱為“取偽”,記其概率為91犯這兩類錯誤的后果通常是不一樣的。對一定樣本容量n,一般來說,減少,則增大;減少,則增大;同時,對于固

27、定的,適當增加樣本容量n可以減小。5.檢驗的一般步驟92 二.總體均值的檢驗(*)雙邊檢驗(*)單邊檢驗即檢驗總體均值是大于樣本均值,或小于樣本均值。例1 某校五年級學生語文期未成績XN(82,16),采用新教學法后,抽測10名學生其平均成績?yōu)?5分,問采用新教學法后平均成績與原來有無顯著差異?93原假設在顯著水平下關于原假設的拒絕域總體方差已知總體方差未知1.單正態(tài)總體均值的假設檢驗表94例2 資料顯示,某區(qū)6歲兒童平均體重為19.2千克?,F在從某幼兒園抽測10名6歲兒童身高,其體重為:20.1,19.0,19. 4,20.5,18.5,19.0,21.0,19.5,19.0,18.0.問該

28、幼兒園6歲兒童平均體重與本區(qū)6歲兒童平均體重有無顯著差異?例3 某中學初中二年級實驗班30名學生和普通班40名學生解應用題測驗結果為實驗班平均成績?yōu)?9分,普通班平均成績?yōu)?4分,而實驗班的成績服從正態(tài)分布,且總體方差為11;普通班的成績也服從正態(tài)分布,總體方差為9.問實驗班與普通班學生解應用題能力有無顯著差異?樣本均值為19. 4,樣本方差為0.76,t=0.69,顯著水平=0.05 給定=0.05,計算得 u=6.49953.雙正態(tài)總體,方差未知但相等,獨立樣本,比較兩總體均值2.雙正態(tài)總體,方差已知,獨立樣本,比較兩總體均值96原假設在顯著水平下關于原假設的拒絕域兩總體方差已知 方差未知

29、,但相等雙正態(tài)總體均值的假設檢驗表(獨立樣本)給定=0.05.經計算知 t=15.497例6 某大學檢查40名大一男生平均體重為58.5千克,方差為8.1千克;30名大一女生的平均體重為48.0千克,方差為7.4千克;假定男女總體的方差相等,問大一男女學生的體重有無顯著差異?對此假定進行檢驗:給定=0.05.984、雙正態(tài)總體,復查未知,相關樣本,比較兩總體均值例7某小學數學組為了提高學生是能力,后半學期常用新的教學法在10名學生中進行試驗,其成績見表。問此教學法與原教學法是否有顯著性差異?學號前后170742829036068462645859267575774708909595862107

30、27899五.二項分布 總體參數假設檢驗(大樣本)原假設構造統(tǒng)計量在顯著水平下的拒絕區(qū)域100例 3 設某種儀器的成功率為p,規(guī)定成功率要到達0.8才合格.現在抽取40人試用這種儀器,其中30人有效,問這種儀器是否合格?例8 某地城區(qū)100人中升入高中的有80人,郊區(qū)80人中升入高中的有58人;問城區(qū)和郊區(qū)畢業(yè)生升入高中的比率有無顯著差異?101三.總體方差的檢驗 1.單正態(tài)總體方差的假設檢驗表原假設 在顯著水平下關于原假設的拒絕域 總體均值已知 總體均值未知102例5 某大學外語系新生高考外語成績服從正態(tài)分布,已知總體標準差為18.經一學期學習,隨機抽測10名學生,其外語成績分別為 70,7

31、8,85,90,69,84,92,88,86,75.(1)問標準差與入學前相比有無顯著差異(=0.05)?(2)若已知總體均值為76,問標準差與入學前相比有無顯著差異(=0.05)?1032.雙正態(tài)總體方差的假設檢驗表原假設 在顯著水平下關于原假設的拒絕域 已知兩總體均值 未知總體均值104 3.3非參數假設檢驗一.總體分布的統(tǒng)計檢驗 1051)基本想法2)理論依據1063)具體做法107例1 某區(qū)6歲男童的身高 x 是一總體,現從該區(qū)抽取50名6歲男童,其身高數據如表。試作總體 x 服從正態(tài)分布的擬合檢驗.組別組區(qū)間組頻數1108.5以下12108.5110.533110.5112.5141

32、12.5114.525114.5116.566116.5118.577118.5120.5118120.5122.599122.5124.5510124.5126.5311126.5以上2總計50組區(qū)間實際頻數理論頻數114.5以下77.800.640.08114.5116.566.450.200.03116.5118.578.251.560.19118.5120.5118.655.520.64120.5122.597.651.820.24122.5124.555.350.120.02124.5以上54.700.090.02總計501.22108 2. K檢驗109110例 某地區(qū)6歲男童身高

33、是一總體 ,現在從該區(qū)抽取50名6歲男童,其身高(公分)數據如表。試作總體服從正態(tài)分布的擬合試驗。組別組區(qū)間組頻數1108.5以下12108.5110.533110.5112.514112.5114.525114.5116.566116.5118.577118.5120.5118120.5122.599122.5124.5510124.5126.5311126.5以上250組中值107.5-2.560.00500.005109.5-2.110.0170.020.003111.5-1.670.0480.080.032113.5-1.220.1110.100.011115.5-0.780.2180

34、.140.078117.5-0.330.3710.260.111119.50.110.5440.400.144121.50.560.7120.620.092123.51.000.8410.800.041125.51.440.9250.900.025127.51.890.9710.960.011111 二.兩個樣本是否來自同一總體的檢驗 總體分布未知時,雙總體參數的檢驗1.秩和檢驗秩表示排列的次序,表示樣本數據在次序統(tǒng)計中的地位.秩和檢驗選取 為統(tǒng)計量。(1)單樣本問題的檢驗 (2)雙獨立樣本問題的檢驗112例 1 甲:91,88,68,83,65,74,73,90 乙:96,63,75,81,

35、72,64.問兩種教學法結果有無顯著差異?(=0.05)秩1234567891011121314甲6568737483889091乙636372758196例2 甲:104,110,106,113,115,111,102,128,110,117. 乙:94,95,103,114,126,95,102,100,98,103,116,105,107113例5 分別測量10名視力有障礙和12名視力正常的四年級學生的IQ得分為A 104,110,106,113,115,111,102,128,110,117.B 94,103,114,126,95,102,100,98,103,116,105,107試

36、作有視力障礙學生IQ得分高于視力正常學生IQ得分的檢驗(=0.05).T=143.5,U=2.66.1142.獨立性檢驗 獨立性檢驗是利用分布統(tǒng)計量研究總體的兩種分類指標是否獨立的一種非參數檢驗方法.例 贊成 反對 和中年教師6436100青年教師5624 80 和12060180115116 第五章 回歸分析 5.1 一元線性回歸 設 x,y為隨機變量,如果 x與 y具有線性相關關系,我們的目的是要通過樣本找出 x與 y之間的近似直線的表達式 一、如何配直線 假定 X、y之間存在線性相關關系,要配直線,關鍵在于找出回歸系數。117118例1 從某大學數學系一年級抽出15名學生,統(tǒng)計出他們的數

37、學分析成績和高考數學成績,如下表。試建立回歸直線方程。高考成績分析成績161722707038390455625777468085765818757696467107278116862127480138583146467159093總和10831120372143924900490068897470795158208351844900810085070119 二、相關系數類似于總體相關系數 r 的定義,樣本相關系數定義為1202、平方和分解式121三、相關性檢驗 由樣本相關系數來判斷 x 與 y 之間線性相關密切 程度時,的絕對值到底要多大才可以用回歸直線來表示 x 與 y 之間的關系?也就是

38、說,的絕對值要大到什么界限, x 與 y 之間的線性相關性才算顯著?122例4 某小學在10名學生中進行教學改革實驗,其成績統(tǒng)計如下,問學生速算能力在實驗后有無顯著差異?使用前x使用后y7074829060686264859275757470909558627278總和401304.雙正態(tài)總體,總體方差未知,相關樣本,比較兩總體均值123 第六章 教 育 測 量 概 述 6.1 教育測量的概念 1918年桑代克: “凡客觀存在的事物都有其數量”, 1949年麥柯爾:“凡有數量的事物都可以測量”。 一.測量的定義 測量是指按照某種法則對測量對象的某種屬性給出數字表達的過程;即人們對客觀事物的某種

39、屬性進行某種數量化的測定。 124測量的三要素數字具有區(qū)分性、順序性、等距性和可加性.125 二. 教育測量的含義 教育測量屬于心理測量的范疇. 教育測量指,與人的受教育活動直接相關的某些心理屬性為對象的數字指派過程。它是心理測量的原理和方法在教育領域的應用。 教育測量有廣義和狹義之分。廣義的教育測量幾乎包括心理測量的所有方面。狹義的教育測量只包括學業(yè)成績測量,也就是對學習結果即知識和技能的測量。 教育測量就是對學生的學習能力、學業(yè)成績、興趣愛好、思想品德以及教育措施上許多問題的數量化測定。 126 2. 參照點 任何測量都需要有一個計算的起點,這個起點叫做參照點.參照點有兩種:1)絕對的零點

40、;例如長度的起點,質量的起點等; 2)人定的參照點;例如溫度的起點,陸地的起點等。 最好的起點是絕對的起點,人定的參照點越接近零點越好 教育測量有各種參照點: 百分制以零分為參照點; 標準分采用團體的平均分為參照點; T分數以平均分以下三至五個標準差為參照點 3. 量距 量距是測量工具的量程;測量范圍的大小要受到測量工具量程的限制。 4.量表 量表是測量的工具,是表示量數的方法。例 尺子,天平等. 教育測量所使用的的量表有四種:類別量表;等距量表;等級量表;比率量表。 1.單位 單位用來表示測量數字的多少,它必須有明確的意義和相同的價值,即每一單位只有一種解釋且不隨測量數字的改變而不同。百分制

41、單位,標準分單位,等級分單位等。三 .測量法則的要素 127 四、 教育測量的有關量表簡介 要測量某種事物,就需要先要有一個具有單位和參照點的連續(xù)體,然后用這個連續(xù)體去測量某種事物,以表示該事物的數量,這個連續(xù)體就叫做量表。即 所謂量表,是指依據事物屬性的特性以及所設的法則,使一組數字能夠達到用于描述事物屬性特征的程度水平的標準。 1.類別量表(或稱名量表):如學號,班級的編號等。 它依據法則指派給事物及其屬性類別的數字僅僅是一種代表符號或稱呼,沒有數量大小的含義,亦即僅僅具有區(qū)別性而不具有序列性、等距性、可加性、不能進行運算。 1282.等級量表(或順序量表):如名次,等級等。等級量表本質上

42、也是對事物進行分類,但所得數值在每一類別中具有有序性或等級性,卻不具有差距相等和測量的絕對零點,也不可以進行運算。3.等距量表(或區(qū)間量表):如百分制分數等。等距量表除具有類別、等級量表的性質外,還要求一定的數量差距在整個量表的階梯上都相等,亦即量表各部分的單位相等,而且單位可以細分、測值可用實數表示。等距量表沒有絕對零點,只有相對零點;因此,只能進行加減運算,不能進行乘除運算,它具有區(qū)別性、等級性及可加性。4.比率量表:理想量表它除了具有類別、等級、等距量表的特征外,還具有一個實際意義上的絕對零點。129五、教育測量的特點1.教育測量一般是間接測量2.教育測量的度量單位的相對性3.教育測量的

43、復雜性130一.以測量的對象來分類,教育測量有:1. 學業(yè)成績測驗:測量學生的知識、技能,如數學測驗、語文測驗、讀法測驗等。2. 智力測量:用于測驗學生的觀察、識記、分析、判斷、推理等思維活動的能力。如詞匯測驗、填圖測驗、辨別測驗、類推測驗、演題測驗等。 3. 人格測驗:如意志測驗、性格測驗、興趣測驗、情感測驗等。 4. 特殊能力測驗:如繪畫能力,舞蹈能力等。六.教育測量的種類131二. 以測驗的目的來分類,教育測量有:1.預測測驗(安置測驗) 2.形成性測驗3.總結性測驗 4.診斷性測驗5.難度測驗 6.速度測驗三 以測量的方式來分類,教育測量有1.個人測驗 2.團體測驗四以試題的形式來分類

44、,教育測量有1.客觀性測驗 2.論文式測驗3.實踐性測驗 4.情景測驗1326.2教育測量的工具測驗一.測驗的定義 “測驗是一個或一群標準的刺激,用以引起人們的行為,根據此行為以估計其智力、品德、興趣、學業(yè)等?!?“心理測驗實質上是行為樣組的客觀的和標準化的測量”。 測驗是教育測量的工具,而且是主要的工具;調查、觀察、評定、實驗等方法也可以作為教育測量的工具。二.測驗的分類 教育測量的分類也實用于測驗的分類。1.依據測驗的使用規(guī)模分類學校教育中的測驗又分為(1)配置性測驗(摸底性測驗) (2)形成性測驗(診斷進步測驗) (3)總結性測驗1332、依據測驗分數解釋的參照標準分類1)目標參照性測驗

45、:以某種目標為依據來進行命題和分數解釋的考試.2)常模參照性測驗:依據測驗群體的常模來解釋分數的考試,其目的在于把個人成績與他人成績作初比較。3、依據測驗功能分類1)能力傾向測驗;2)學業(yè)參加測驗;3)人格品德測驗134 三、教育測驗的作用1)辨別智愚、因材施教、2)選拔人才、指導就業(yè)3)判定成就、實驗分組4、診斷困難、預測發(fā)展135四、教育測驗的實施方法學業(yè)成就測驗的實施方法有口試、筆試和實踐考核等。1、口試提問靈活機動,能考察學生的能力品質,對知識理解的深度、廣度。2、筆試是一種高效率的考核方法,考試結果具有可比性。3、實踐考核多用于需要實際操作的學科,如體育運動技能,藝術學科的表演技巧等

46、。136 6.3教育測驗的誤差 一.誤差及其種類 誤差是測量值與真實值之差。它反映了測量值偏離真實值的大小和方向,也稱為絕對誤差。 在教育測量中,把測驗數據與學生真實水平之間的差距稱為測驗誤差.誤差有兩種形式: 一種是由偶然因素引起的不穩(wěn)定的誤差,稱為隨機誤差;它使得多次測量結果不一致,誤差大小和方向是隨機變化的。 另一種是系統(tǒng)誤差,它是與測驗目的無關的穩(wěn)定因素引起的,它存在于每次測驗中,使得測驗結果恒定而有規(guī)律的偏離正確值。 系統(tǒng)誤差是由測驗方法和測驗條件決定的,它只影響測驗結果的準確性;而隨機誤差既影響測驗結果的準確性,又影響測驗結果的一致性。137 二. 真分數與相對誤差 真分數指的是測

47、驗在沒有誤差時所得的真值。 任何測驗都不可能沒有誤差;從理論上來說,無限次測驗結果的平均值便是真分數。某考生在考試中所得的分數稱為實得分數或觀察分數,根據誤差的定義知,某考生測驗所得成績課看作是真分數和誤差分數之和。即138 三.測驗誤差的來源1.測驗本身引起的誤差2.實施過程引起的誤差3.被試本身引起的誤差1396.4經典測驗理論的基本假設一.心理特質的可測性假設心理特質指表現在一個人身上所特有的相對穩(wěn)定的那種行為方式. “凡客觀存在的事物都有其數量”, “凡有數量的事物都可以測量”。140 二.CTT的數學模型及其假設公理 X = T + E CTT數學模型,E(0,?)根據這一模型,Gu

48、lliksen于1950年提出了三個相關的假設公理:(1)若一個人的某種心理特質可以用平行的測驗反復測量足夠多次,則其實得分數的平均值會接近真分數,或誤差的平均值會為零,即(2)誤差與真分數相互獨立,即兩者之間的相關系數為零;(3)各平行測驗上的誤差分數相互獨立,或個試題之間的真分數相互獨立,即141三.方差分數的關系142 第七章 教育測驗的質量分析 測驗作為教育測量的工具,必須有良好的質量,才能達到實際應用的目的。測驗的質量標準,總起來說,就是正確可靠、確實有效、難易適當和鑒別力強;這就是衡量教育測量質量的四個指標:信度、效度、難度和區(qū)分度;前兩個指標主要是對整個測量而言的,后兩個指標則主

49、要是對測量的項目而言的。.測驗的信度信度的概念 測驗的信度是指測驗結果的穩(wěn)定性或可靠的程度,亦即測量的結果是否真實、客觀地反映了考生的實際水平。 所謂可靠性是指對同一對象進行兩次相同測驗所得結果的一致性和穩(wěn)定性程度。143測量學中,信度可定義為真分數方差與實得分數方差的比率,即 這表明,真分數方差在實得分數方差中所占的比值越大,則信度就越高。具體而言,可以從以下三個方面來理解測量的信度。.信度指實測值和真值相差的程度(實測值)(真值)(誤差)144.信度指統(tǒng)計量與參數之間的接近程度 統(tǒng)計量是指樣本上的各種數字特征,參數是指總體上的各種數字特征。統(tǒng)計量越接近參數,這個統(tǒng)計量的可靠性便越高.信度指

50、兩次重復測量或等值測量之間的關聯(lián)程度如果對同一對象進行兩次重復測量或等值測量后,計算兩次測量的相關系數,相關系數越高,說明測量的信度就越高;反之,就越低。信度的值在()之間,稱為信度系數.當信度系數為.時,測驗可靠性很高;當信度系數為.時,是通常能得到的最好結果;當信度系數為.時,也比較好;當信度系數為.以下,表明誤差太大,該測驗不能使用.145 信度是測驗的必要條件,它是衡量測驗分數一致性或可靠性的一個重要指標,即用一個或一組測驗對同一被試群體實測多次,所得結果的一致性程度,以及測驗分數所反映被試真實水平(即真分數)的可靠性程度。 影響信度的主要因素是測量中的誤差。一般情況下,測量資料存在三

51、種誤差:一是抽樣誤差,它的估計值是樣本標準差S與樣本容量n的算術平方根之比。二是隨機誤差,它是由偶然因素引起的無規(guī)律的誤差,是由心理屬性的行為反應所造成的 ,它即影響測驗的一致性,又影響測驗的準確性。三是系統(tǒng)誤差,它是由與測驗目標無關的某種常定的因素所引起的恒定的、有規(guī)律性變化的誤差。它不影響測驗結果的一致性或可靠性,只影響測量的準確性。 測驗的穩(wěn)定性主要的研究如何控制隨機誤差問題。真分數理論的三個假設:146二.信度系數的計算(信度的類型)信度是指測驗的可靠性,亦即多次測驗結果的一致性.在實際工作中,就是通過對測驗結果的一致性程度來計算信度的;主要有三種)穩(wěn)定性系數:是估計測驗中跨時間的一致

52、性;)等值性系數:是估計測驗中跨形式的一致性;)內在一致性系數:是估計測驗中跨項目的一致性;.穩(wěn)定性系數(再測信度)穩(wěn)定性系數又稱為再測系數,它是指用同一測驗試卷,在先后兩個時間內對同一組被試進行測驗,兩次測驗實得分數的相關系數。穩(wěn)定性系數是估計信度最簡單的方法,只需用同一份試卷對同一組考生測驗兩次即可。147穩(wěn)定性信度的計算公式為使用再測法計算穩(wěn)定性系數時,要注意以下問題:(1)兩次測驗之間的時間間隔要適宜。穩(wěn)定性系數的大小,常常受兩次測驗的時間間隔的影響。(2)再測法只適用于速度測驗,而不適用于難度測驗.(3)應注意提高被試者的積極性?;?48 2. 等值性系數(復本信度) 等值性系數是以

53、兩個等值(題型、題量、難度、區(qū)分度等相等)但具體內容不同的量表,在最短的時距內,對相同的應試者先后施測兩次測驗所獲得的兩組對應分數的相關系數。 等值性的信息除了有助于判斷某種測驗信度的高低外,對于評價應試者對某種教材掌握的范圍程度,也具有重要意義。常用等值性信度作追蹤研究或探討某些影響測驗成績的因素。復本信度不僅適用于難度測驗,也適用于速度測驗。1493.內部一致性系數指同一測驗量表的兩個部分得分的相關系數。計算內部一致性系數的方法有以下兩種:(1)分半信度 分半法是按正常的程序實施測驗,然后將全部試題分成相等的兩半(通常采用奇偶分半法),根據各人在這兩半測驗的分數計算其相關系數;最后用斯皮爾

54、曼布朗公式校正,校正公式為其中為兩半測驗的相關系數, 為整個測驗的相關系數.150半分法例1有一個由100題構成的量表施行于10名學生。怎樣評價測驗結果的信度? 得分被試奇數題總分偶數題總分0102030405060708091038373841403638394135373736393934383939 36144413691444168116001296144415211600122513691269129615211521115614441521152112961406136913681599156012241444152115601260382374146241401414311151

55、例1 若10名學生奇數題得分 x與偶數題得分 y如下表所示。試求這份整體試卷的分半信度。(135) 采用斯布朗公式計算分半信度時,須要假定兩半之間的平均數、標準差、測題的難度、區(qū)分度、分布形態(tài)上以及內容上都相同;否則,信度估計就會有誤差。學生01020304050607080910偶數3835212742141428287奇數303281825152221179152弗拉南根(Flanagan)公式與盧龍(Rulon)公式而弗拉南根(Flanagan)公式與盧龍(Rulon)公式無須上述假定即可用來求全卷的信度。弗拉南根公式盧龍公式153(2). 庫理信度系數公式(客觀題試卷)適用于客觀題試卷

56、的一序列公式較為常用的是154例2 有一個包含6個問題的測驗,10個應試者得分如下(答對得1分,答錯得0分),試估計應試者反應的一致性程度.一二三四.五六和011000001021001002030000112041110003050100113061110003071111004081111004091101115101111116和875544N=61.35S*=2.01平3.30.39155(3).論文式測驗的信度克朗巴赫公式156 被 試題號A B C D E 12345611 8 11 11 9 7 8 96 10 6 8 911 6 8 311 8 11 117 11 8 11 1

57、1 41 63 43 57 53 48 39 39 36 48 48 系數公式的應用例2 有一個包含6個論文式題目的測驗,對5個應試者施行,得分列入下表,試求該測驗的信度。157(4). 評分者的信度 當測驗是論文式試題時,不同評分者對同一試卷的評分結果不同,有時差異很大.這時不宜用系數計算其信度,必須對評分者評分的一致性進行估計.(2)三個以上評分者評N份試卷158Kendall和諧系數的應用例 有六位教師各自評閱五篇作文,每位教師給每一篇作文都評了等級(共五等),并列入下表.問六位教師所評的等級的一致性如何? 作文編號評分者12345趙35241錢35241孫34152李35142周352

58、41吳3524118 29 10 25 8159(5).目標參照性測驗的信度系數1)利文斯頓法(Livingston)2)決策一致性系數160A測驗合格B測驗合格(40)A測驗合格B測驗不合(15)A 測驗不合格 B測驗合格(5)A測驗不合格B測驗不合格(20) B測驗A 測 驗R=(40*20-12*8)/40*20+5*(40+20+15)=0.62161信度的應用 信度是主要用途就是判斷測驗的優(yōu)劣:一般能力與學業(yè)測驗的信度應在0.90以上;性格、興趣、態(tài)度等人格測驗的信度應在0.800.85之間;信度在0.7以下的測驗不能采用。 信度還可以用來對分數作解釋,主要有以下兩方面的應用:個人測

59、驗分數的誤差 信度系數表明的是一組測量的實測值與真實值的符合程度,并沒有給出個人測驗分數的變異情況。 在實踐中,經常用一組考生兩次考試的結果來估計誤差的差異。這時個人在兩次考試中分數的差異就是測量的誤差,由此可得出一個誤差分數的分布,該分布的標準差就是測量的標準誤差,它是測量誤差大小的指標,其公式為:162163例5 1642.兩種考試分數的比較 個人在兩次考試上的差異,可以用差異標準誤 來檢驗其差異的顯著性.其公式為:例 某學生數學考試得52分,物理51分,轉換成標準分數后,數學0.332,物理-1.2035,數學考題的信度為0.8227,物理考題的信度為0.86;問數學與物理成績有無顯著差

60、異?165信度的應用(歸納與整理)2.兩種考試分數的比較1.個人測驗分數的誤差166測題數目信度系數50.20100.33200.55400.67800.801600.893200.946400.97 測驗長度與信度的關系167提高信度的途徑適當增加題量 例 原來由6題組成的測驗,其信度為0.56,現要求把信度提高到0.8,需要加長到多少試題?用標準化試題,難度要適中。測驗的內容應盡量同質.測驗的時間要充分,程序要統(tǒng)一。評分要客觀.168 7.2 測驗的效度 效度的定義 效度是指測驗結果的有效性或準確性.所謂有效性,是指一測驗能夠正確地測量出它所要測量的特性或功能的程度. 在實際測量中,影響效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論