效度與系統(tǒng)誤差_第1頁
效度與系統(tǒng)誤差_第2頁
效度與系統(tǒng)誤差_第3頁
效度與系統(tǒng)誤差_第4頁
效度與系統(tǒng)誤差_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

關于效度與系統(tǒng)誤差一個現(xiàn)實的問題?1997年1月,湖北省政府宣布從社會各界公開招聘36名廳、局級干部(均為副職)。經(jīng)過各種測驗與測評,36名干部從4000

多名候選者中脫穎而出,如期上任。?其中使用的測驗技術包括:結(jié)構(gòu)化面試,評價中心,紙筆考試(專業(yè)知識)等。?你從測驗學的角度將如何看待這一舉措?不考慮政治因素。一.效度的概念第2頁,共41頁,2024年2月25日,星期天你如何解釋下述現(xiàn)象?一個很聰明的孩子,測得智商是80分一個學習很好的學生,考試成績?yōu)?0分一個人緣很好的人,人際關系測量低于常模值第3頁,共41頁,2024年2月25日,星期天根據(jù)智力測驗分數(shù)作出推斷的例子

?得這個分數(shù)的人能順利完成醫(yī)學院的學業(yè)?得這個分數(shù)的人可能成為最令人滿意的工程師?得這個分數(shù)的人極有可能從工廠里偷東西第4頁,共41頁,2024年2月25日,星期天測量效度=測量的準確性、有效性效度是一個測驗能夠測量其所要測量的特質(zhì)的準確程度(theextentordegreetowhichthetestmeasureswhatitwasdesignedtomeasure)。?或根據(jù)測驗分數(shù)做出的推斷的正確性。即:這個測驗測的是什么?這個測驗測得準不準??一個測驗的效度不止一個,不存在一個一般的效度,因為一個測驗可能測的是一個非常寬泛的概念,如智力,根據(jù)測驗分數(shù)可以做出許多推斷。第5頁,共41頁,2024年2月25日,星期天效度的概念理解1、效度是一個相對的概念。效度是相對于一定的測量目的而言的。效度不是一個全或無的概念。2、效度是系統(tǒng)誤差和隨機誤差的綜合反映。3、效度不是直接可以測量到的,判斷一個測驗是否有效要從多方面搜集證據(jù),從證據(jù)去推論測驗的效度(猶如法庭上收集證據(jù)一樣)。第6頁,共41頁,2024年2月25日,星期天測量學中的效度概念?與測量目的有關的真實變異(或有效變異)在實測值變異中的比例?即

rXY=SV2/SX2第7頁,共41頁,2024年2月25日,星期天對同一測驗之有效與無效的推斷?使用MMPI你可以對患有心理障礙的人做出有效推斷,但不能對“正常人”做出有效推斷。?尺子可以用來度量長度,但不能用來度量重量,即便每次度量的結(jié)果都完全一樣。第8頁,共41頁,2024年2月25日,星期天效度與信度關系(1)高效度,高信度(2)高信度,低效度(3)低信度,低效度信度是效度的必要而非充分條件

?rXY=SV2/SX2=(SX2-SI2-SE2)/SX2=1-SI2/SX2-SE2/SX2=rXX-SI2/SX2?SI2≥0?rxy≤rxx第9頁,共41頁,2024年2月25日,星期天信度的平方根為效度的最高限即

?rXYmax=rXY/(rXX*rYY)1/2?1.0≥rXY/(rXX*rYY)1/2?rXY≤(rXX*rYY)1/2?rXY≤(rXX)1/2一個測驗的效度總是受它的信度所制約第10頁,共41頁,2024年2月25日,星期天效度的種類證明一個測驗是有效的(validation),必須保證在以下三方面均是有效的

?內(nèi)容(content)?效標關聯(lián)或?qū)嵶C(criterion-relatedorempirical)?構(gòu)想或結(jié)構(gòu)(construct)不能只獨立地保證一方面。

構(gòu)想效標關聯(lián)內(nèi)容第11頁,共41頁,2024年2月25日,星期天1.內(nèi)容效度(ContentValidity)及其估計

內(nèi)容效度指測驗實際測到的內(nèi)容與所要測量的內(nèi)容之間的吻合程度。?基本前提:測驗試題應為所欲測內(nèi)容或行為范圍的有效性樣本。?基本條件:

1)每個試題應與所界定內(nèi)容或行為范圍有適度相關

2)測驗內(nèi)容應能確切涵蓋所界定對象之范圍

3)試題分配應能反映范圍內(nèi)各種變項或成分所應占的比重

4)保證有一定的題量?主要用于建構(gòu)或評價成就測驗?依賴專家判斷(基于邏輯)—定性分析?其他估計方法:復本法再測法經(jīng)驗法二.效度的估計第12頁,共41頁,2024年2月25日,星期天內(nèi)容效度與表面效度Facevalidity:表面看起來測驗內(nèi)容與測驗目的的一致性程度。市井或通俗測驗多有高的表面效度,但它不能保證測量的正確性。對表面效度的要求

最高水平測驗:高;典型行為測驗:低提高表面效度可以起到“包裝”的作用內(nèi)容效度適用于領域參照測驗成就測驗職業(yè)(選拔與分類)測驗不適用:智力與人格為什么?——基于任務目標的分析第13頁,共41頁,2024年2月25日,星期天2.構(gòu)想效度(constructValidity)及其估計

構(gòu)想效度是指測驗對理論上的構(gòu)想或特質(zhì)的測量程度。例如:

一個測驗在多大程度上測量了“幸福感”(責任感、自主性等等)?這個面試(interview)測量了人際技能了嗎?第14頁,共41頁,2024年2月25日,星期天構(gòu)想效度估計方法:假設驗證與實驗操作內(nèi)容效度和效標關聯(lián)效度都體現(xiàn)了構(gòu)想效度考察已知組別的分數(shù)—測驗內(nèi)法如,將一個藝術能力測驗施測兩組人,藝術系和法律系學生。二者的差別?考察一個新測量與測量同一構(gòu)想的現(xiàn)有測量的關系—測驗間法如,計算兩個藝術能力測驗的相關?發(fā)展(年齡)變化如,藝術能力隨年齡而變嗎??實驗(干預)研究如,力圖提高藝術能力的干預措施確實提高了在藝術能力測量上的分數(shù)了嗎?第15頁,共41頁,2024年2月25日,星期天一組度量的因素分析如,有20個藝術能力測驗,但這些測驗只測量了藝術能力的兩個共同特質(zhì):創(chuàng)造力和靈巧性。這些共同特質(zhì)稱為因素相容(聚合)效度(convergentvalidation)

如,一個藝術能力測驗與其他藝術能力測驗、創(chuàng)造力測驗以及去當?shù)厮囆g博物館的頻率等有高相關區(qū)分效度(discriminantvalidation)

如,一個藝術能力測驗與耐力(力量)測驗或與去體育館的頻率等沒有相關第16頁,共41頁,2024年2月25日,星期天因素分析(Factoranalysis,FA)一種多變量統(tǒng)計法。目的是降維,即用更少量的因素概括解釋許多相互關聯(lián)的變量。(科學的吝嗇率)例如:假設你有一個包括四個部分的成就測驗閱讀理解詞匯數(shù)學計算數(shù)學推理你可能猜想,閱讀理解和詞匯都測量了言語技能,數(shù)學計算和數(shù)學推理都測量了數(shù)學技能。要知道你的想法是否正確,你首先需要計算他們彼此之間的相關。第17頁,共41頁,2024年2月25日,星期天多特質(zhì)-多方法矩陣

(multitrait-multimethodmatrix)例證P74Campbell&Fiske(1959)提出的方法,它將相容效度和區(qū)分效度兩種方法結(jié)合起來驗證構(gòu)想效度的方法。假設我們測量了三種心理特質(zhì):

A:人格的支配性

B:社會敏感性

C:成就動機假設我們測量這些心理特質(zhì)使用了四種不同的方法方法1:自陳量表方法2:投射測驗方法3:同伴評定方法4:情境問卷這樣就可以獲得一個9*16的相關矩陣:參見教材P74第18頁,共41頁,2024年2月25日,星期天多種特質(zhì)-多種方法的矩陣說明:實線三角形對角線上的相關系數(shù)是采用相同方法測量相同特質(zhì),是兩次測量的信度系數(shù);在虛線三角形對角線上的相關系數(shù),是采用不同方法測量相同特質(zhì)(相容效度),它們的數(shù)值越大說明測量的效度越好;實線三角形中的相關系數(shù)是采用相同方法測量不同特質(zhì)的結(jié)果(區(qū)分效度),它們的數(shù)值越小說明測量的效度越好;虛線三角形中的相關系數(shù),是采用不同方法測量不同特質(zhì)的結(jié)果。一個結(jié)構(gòu)效度良好的測驗,矩陣的相關系數(shù)情況應該是:信度系數(shù)>相容效度系數(shù)>區(qū)分效度系數(shù)>虛線三角形中的相關系數(shù)。如果有相反的情況,表明結(jié)構(gòu)效度不佳。第19頁,共41頁,2024年2月25日,星期天3.實證效度(效標關聯(lián)效度)(Criterion-relatedvalidation)

指一個測驗對處于特定情境中的個體的行為預測的準確性。即將測驗分數(shù)與希望做出推斷的行為聯(lián)系起來(求相關)。

?希望做出推斷的行為或被預測的行為是檢驗測驗有效性的標準,簡稱效標(Criterion)?測驗=預測源

?行為=效標

?效標效度是基于數(shù)據(jù)的(databased)

一個選拔測驗與工作績效的相關一個成就測驗與年級的相關一個誠實測驗與偷竊的相關第20頁,共41頁,2024年2月25日,星期天兩種效標關聯(lián)效度

?預測效度(predictive

validity):

測驗對未來表現(xiàn)預測得有多好

如:他會患焦慮癥嗎?

?同時效度(concurrent

validity):

測驗對目前表現(xiàn)預測得有多好

(現(xiàn)有狀態(tài))

如:他患有焦慮癥嗎?二者的一個重要差別是進行測驗(即預測源)與進行效標測量之間的時間?不同時間=預測效度?同一時間=同時效度第21頁,共41頁,2024年2月25日,星期天方法不同

?

預測效度

學生參加高考,有些人上了北師大

以后,將他們的平均學業(yè)成績與高

考分數(shù)求相關

這個相關稱為效度系數(shù)

如果二者相關很高,那么高考成績

對預測大學平均學業(yè)成績來說有高

效度?同時效度

已經(jīng)上了北師大的學生參加高考,同時收集他們的平均學業(yè)成績計算測驗分數(shù)與學業(yè)表現(xiàn)的相關?二者的差別時間被測驗的人群動機和經(jīng)驗第22頁,共41頁,2024年2月25日,星期天終極效標和實際效標?預測源(predictor)是指用于預測效標的任何東西(如高考,認知能力測驗)?終極效標(ultimatecriterion)是你要測量的東西(如在大學中的潛力,勝任工作)?實際效標(actualcriterion)是你實際測量的東西(如專門針對高考的學習策略上的技能加上大學中的潛力,每周的產(chǎn)量與次品率)?理想狀況:實際效標=終極效標第23頁,共41頁,2024年2月25日,星期天常見的效標

?學業(yè)成就:

學科成績,學歷,獲獎

?等級評定:

?臨床診斷

?特殊訓練成績培訓?實際的工作表現(xiàn)

產(chǎn)量、治愈率、違規(guī)次數(shù)等?對團體的區(qū)分(人口統(tǒng)計學變量)

年齡,種族,疾病類型?其他現(xiàn)成的測驗第24頁,共41頁,2024年2月25日,星期天效標和效標測量

效標的定義效標測量:觀念效標和效標測量

好的效標測量應符合以下幾個條件:

1)有效性(關聯(lián)性)

2)可靠性

3)客觀性(抗偏性):產(chǎn)生效標測量中偏差的主要原因在于效標污染

4)實用性(可得性)第25頁,共41頁,2024年2月25日,星期天效標效度的估計方法

相關法分組法預期表法命中率法功利率法第26頁,共41頁,2024年2月25日,星期天常用方法:1、相關法測驗分數(shù)與效標分數(shù)之間的相關系數(shù)(1)(2)(3)選擇團體獲得測驗分數(shù)獲得效標分數(shù)根據(jù)分數(shù)性質(zhì)不同采用不同相關計算法(1)積差相關系數(shù)(2)二列相關系數(shù)(3)四分相關系數(shù)(4)φ相關系數(shù)(5)列聯(lián)相關系數(shù)(4)求相關系數(shù)第27頁,共41頁,2024年2月25日,星期天2、分組法根據(jù)被試的效標行為表現(xiàn),將他們分為不同的組別(團體),如果這些組在測驗分數(shù)上有顯著性差異,則說明該測驗的效度高。第28頁,共41頁,2024年2月25日,星期天3、預期表預期表法是將預測源分數(shù)和效標分數(shù)制成雙維圖表,并將每個變量按水平分成若干檔次,這個經(jīng)驗型的預期表可以不用計算相關系數(shù)或其他統(tǒng)計數(shù)據(jù),而只要有頻數(shù)和百分比。第29頁,共41頁,2024年2月25日,星期天例:下表是由若干個工作候選人在職業(yè)選擇測驗中得分的聯(lián)合頻數(shù)分布構(gòu)成,表中還呈現(xiàn)了其工作領導在雇員他們6個月之后給這些候選人的等級評定。第30頁,共41頁,2024年2月25日,星期天預期表績效評定職業(yè)選擇測驗分數(shù)1234567896~100100/167/291~95100/282/536/486~90100/194/850/333/411/281~85100/485/1048/722/54/176~80100/688/1263/1631/134/2第31頁,共41頁,2024年2月25日,星期天4、命中率法決策結(jié)果決策過程關于個體的信息策略接受拒絕將會成功將會失敗可能成功可能失敗第32頁,共41頁,2024年2月25日,星期天成功失敗真正的表現(xiàn)水平拒絕(預測失敗)接受(預測成功)命中(正確的消極)命中(正確的積極)失誤(錯誤的消極)失誤(錯誤的積極)第33頁,共41頁,2024年2月25日,星期天總命中率(基率,baserate)表示被認為潛在成功的人的百分比命中/(命中+失誤)*100%正命中率(選擇比率,selectionratio)表示決策制定者在其決策中的選擇程度正確的積極/預測成功人數(shù)*100%當測驗用于提高工作或?qū)W習效率時,應重視正命中率;當強調(diào)維護社會公平時,則應重視總命中率。第34頁,共41頁,2024年2月25日,星期天5、功利率法對使用測驗的投入和產(chǎn)出進行比較,這種效度指標叫功利率。

U=B(Ns)-C(Na)-SU:效度

B:錄用一個合格的人所產(chǎn)生的平均利潤

C:錄用一個不合格的人所造成的損失

Ns,Na:錄用合格和不合格的人數(shù)

S:整個選拔過程的費用第35頁,共41頁,2024年2月25日,星期天

三種效度的比較效度類型含義考察的關系確定的方法內(nèi)容效度指測驗題目對所要測量的內(nèi)容范圍的代表性程度考察測驗題目與測量內(nèi)容范

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論