心理測量學(xué)咨詢以及培訓(xùn)_第1頁
心理測量學(xué)咨詢以及培訓(xùn)_第2頁
心理測量學(xué)咨詢以及培訓(xùn)_第3頁
心理測量學(xué)咨詢以及培訓(xùn)_第4頁
心理測量學(xué)咨詢以及培訓(xùn)_第5頁
已閱讀5頁,還剩143頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

學(xué)習(xí)心理測量學(xué)的五種狀態(tài)心理測量學(xué)知識第一節(jié)概述第二節(jié)測驗的常模第三節(jié)測驗的信度第四節(jié)測驗的效度第五節(jié)項目分析第六節(jié)測驗編制的一般程序第七節(jié)心理測驗的使用第一節(jié)概述第一單元測量與測量量表第二單元心理測驗的基本概念第三單元心理測驗的分類第四單元糾正錯誤的測驗觀第五單元心理測驗在心理咨詢中的應(yīng)用第六單元心理測驗的發(fā)展史第一單元測量與測量量表什么是測量?依據(jù)一定的法則用數(shù)字對事物加以確定。事物數(shù)字法則測量要素參照點絕對零點相對零點單位確定的意義相同的價值第一單元測量與測量量表測量量表定有單位和參照點的連續(xù)體。尺子、刻度盤量表種類命名量表順序量表等距量表等比量表第二單元心理測驗的基本概念心理測驗的定義依據(jù)心理學(xué)理論,使用一定的操作程序,通過觀察人的少數(shù)有代表性的行為,對于貫穿在人的全部行為活動中的心理特點做出推論和分析的一種科學(xué)手段。被試的心理被試的行為被試一組測題定義關(guān)鍵詞少數(shù)相面、算卦代表性限定了“少數(shù)”的性質(zhì)推論黑箱;由此及彼;透過現(xiàn)象看本質(zhì)科學(xué)手段—數(shù)量化分析科學(xué)保證;防止偏見、不同與常識和迷信的說法。第二單元心理測驗的基本概念心理測驗的性質(zhì)間接性稱4斤桔子與測人心相對性秤上沒東西為0;人的心理0在哪?何為高何為低,比較而言??陀^性標準化、科學(xué)統(tǒng)計、謹慎(可能)第三單元心理測驗的分類按功能分類智力測驗特殊能力測驗人格測驗按測驗材料的性質(zhì)分類文字測驗操作測驗按測驗材料的嚴謹程度分類客觀測驗投射測驗按測驗的方式分類個別測驗團體測驗按測驗的要求分類最高作為測驗典型行為測驗第四單元糾正錯誤的測驗觀錯誤的測驗觀測驗萬能論測驗無用論正確的測驗觀心理測驗是重要心理學(xué)研究方法之一,是決策的輔助工具心理測驗作為研究方法和測量工具尚不完善第五單元心理測驗在心理咨詢中的應(yīng)用智力測驗人格測驗心理評定量表第六單元心理測驗的發(fā)展史心理測量在西方的發(fā)展心理測量在中國的發(fā)展法國醫(yī)生沈干(Seguin)訓(xùn)練智力落后兒童(1837)法國醫(yī)生艾斯克羅爾(Esqurol)對智力落后和精神病人的區(qū)分(一個人駕馭語言的能力,是他智力水平的最可靠的標志);馮特建立第一個心理學(xué)實驗室(1879);近現(xiàn)代心理測量的發(fā)展心理測量學(xué)歷史上重要的三位人物三個十年高爾頓(F.Galton)高爾頓(F.Galton)達爾文的表兄弟,皮爾遜(Pearson)的老師,《遺傳的天才》,人類測量實驗室,高爾頓棒,高爾頓笛高爾頓發(fā)現(xiàn),白癡對于熱、冷、痛鑒別能力較低。他還說:感覺辨別力“基本上是心智能力中最高的能力?!?/p>

公認為心理測量的創(chuàng)始人。發(fā)明了可以用來測量感知覺的工具與方法。設(shè)立了一個“人類測量試驗室”??蓽y身高、體重、胖瘦、視聽覺敏感度等。高爾頓的這一舉動可謂是心理測量史上第一個大規(guī)模系統(tǒng)地測量個體差異的嘗試。使用評定量表和問卷法的先驅(qū)。發(fā)展了分析個體差異資料的統(tǒng)計方法。卡特爾()師從馮特,受高爾頓影響;編大量測驗,桃李滿天下,如桑代克。于1890年發(fā)表《心理測驗與測量》于《心理》雜志上,這是在心理學(xué)文獻中首次出現(xiàn)“心理測量”。

比奈(Binet1857-1911)為鑒別弱智兒童,1905年編出第一個公認的心理測驗。認為理解力、記憶力、想象力、判斷力才是智力的核心。波林說:“19世紀80年代是高爾頓的10年,90年代是卡特爾的10年,20世紀頭10年則是比內(nèi)的10年?!毙睦頊y驗孕育在德國、萌芽于英國、產(chǎn)生于法國、發(fā)展在美國。心理測量的蓬勃發(fā)展與應(yīng)用智力測驗的發(fā)展比內(nèi)-西蒙量表——斯坦福-比內(nèi)量表(比率智商)葉克斯(Yerkes):陸軍甲種測驗、陸軍乙種測驗(1917~1919)——20年代智力測驗運動的狂熱斯皮爾曼的因素分析法和“二因素理論”——瑞文推理測驗(30年代)韋氏智力量表(40年代~60年代)(離差智商)能力傾向測驗的發(fā)展特殊能力測驗(音樂、文書、機械、美術(shù))

成就測驗的發(fā)展桑代克編制了第一個標準化的教育成就測驗,因此被認為是教育測驗的鼻祖。(20世紀初)斯坦福成就測驗(1923)

ETS(EducationalTestingService)教育測驗服務(wù)中心人格測驗的發(fā)展最早進行人格測量——克雷培林(Kraepelin)用自由聯(lián)想法診斷精神病人。最早的人格問卷——武德沃斯的“個人資料調(diào)查表”(診斷士兵神經(jīng)癥)

“卡特爾16種人格問卷”(16PF)

“艾森克人格問卷”(EPQ)

“明尼蘇達多項人格調(diào)查表”(MMPI)

羅夏墨跡測驗主題統(tǒng)覺測驗(TAT)美國心理測驗的三個發(fā)展期1904~1915,Thorndike出版《精神與社會測驗學(xué)導(dǎo)論》:“凡是存在的東西都有數(shù)量;凡是有數(shù)量的東西都可測量”(數(shù)量化,客觀化和標準化)。1915~1930,學(xué)歷測驗,智力測驗(IQ),和人格測驗大量出現(xiàn)。1930~1940,從單純測驗法向心理評估和教育評價過渡(綜合應(yīng)用評定法;問卷法;交談法;軼事記錄法等)心理和教育測驗史大事記公元前2200中國建立文官考試制度公元1219歐洲的大學(xué)里出現(xiàn)正式考試1540大學(xué)里出現(xiàn)書面考試1599杰休茨出版發(fā)行了書面考試的規(guī)則1833在英國出現(xiàn)競爭性文官考試制度1845在霍拉斯·蔓的指導(dǎo)下波士頓學(xué)校董事會最先采納了印刷的筆試考試1864喬治·費舍,一位英國校長,設(shè)計了一套包括例題和相應(yīng)答案的量表,作為評估學(xué)生論文的標準1866O.E.賽格溫發(fā)表了第一本論述智力障礙者的評估與治療的學(xué)術(shù)專著1869高爾頓按照天賦對人進行分類,開創(chuàng)了對個體差異進行科學(xué)研究的先河1870競爭性文官考試被引入美國1884高爾頓在倫敦的國際健康博覽會設(shè)立了人體測量實驗室1888J.M.卡特爾發(fā)表了關(guān)于美國兒童的拼寫能力的研究結(jié)果1893約瑟夫·賈斯特羅在芝加哥的哥倫比亞博覽會上展示了自己的感覺運動測驗。1897J.M.賴斯發(fā)表了關(guān)于美國兒童拼寫能力的研究發(fā)現(xiàn)。1904斯皮爾曼提出了心理能力的二因素論。1905比內(nèi)—西蒙智力量表的第一個版本出版發(fā)行。1908比內(nèi)一西蒙智力量表的修訂版本出版發(fā)行;J.C.斯通和S.A.考特斯的客觀性計算測驗問世。1908—1914桑代克編制了一套計算、字跡、語言和拼寫的標準化測驗。1915編制出首個多項選擇測驗,茨薩斯閱讀測驗開始應(yīng)用,斯坦奎斯特機械能力測驗出版發(fā)行。1916推孟出版了斯坦福一比內(nèi)智力測驗。奧提斯在斯坦福一比內(nèi)智力測驗修訂版的基礎(chǔ)上編制了第一個團體智力測驗。1917最早的團體智力測驗:陸軍甲種測驗和陸軍乙種測驗被編制出來,用來甄選新兵。1919西肖爾的音樂能力傾向測驗出版發(fā)行。1923斯坦福成就測驗第一版出版發(fā)行。1924衣阿華學(xué)能測驗出版發(fā)行。1926學(xué)能測驗(SAT)首次被使用。1927格塞爾發(fā)展量表出版發(fā)行。1932梅特波利帝安成就測驗出版發(fā)行。1937斯坦?!葍?nèi)智力測驗修訂版出版發(fā)行。1938O.K.伯羅斯出版了第一期心理測量年鑒,基本心理能力測驗、瑞文推理測驗、本德爾完形視覺運動測驗出版發(fā)行。1939韋—拜智力量表發(fā)表。1941空軍學(xué)員分類成套測驗被編制,并用在陸軍航空兵飛行學(xué)員身上。1947能力傾向區(qū)分性測驗出版。1949韋氏兒童智力量表出版發(fā)行。1968韋氏學(xué)前兒童智力量表出版發(fā)行。1970至今計算機在測驗的編制、施測、計分、分析和解釋方面發(fā)揮越來越重要的作用。1971(美國)聯(lián)邦法院要求用于人事選拔的測驗必須與工作有關(guān)。1974韋氏兒童智力量表修訂版和霍爾斯泰德—里頓神經(jīng)心理成套測驗出版發(fā)行。1980至今研究者提出項目反應(yīng)理論。1983考夫曼兒童評估系統(tǒng)(K-ABC)出版發(fā)行。1985教育和心理測驗標準出版發(fā)行。1986斯坦?!葍?nèi)測驗第四版出版發(fā)行。1995心理測量年鑒第十二期出版。1997韋氏成人智力量表第三版出版發(fā)行。心理測量在中國的發(fā)展能力測量孔子:中上之人、中人、中下之人董仲舒:一手畫方,一手畫圓(分心測驗)三國魏人劉劭的《人物志》,1930‘美國譯為《人類能力研究》

12種人才類型七巧板、九連環(huán)心理測量在中國的發(fā)展七巧板九連環(huán)

人格測量孔子:狂者、狷者、中行劉邵:12種性格類型抓周

教育測量

西周:小成,大成漢代:太學(xué)考試(口試、策試、射策)隋朝:科舉考試中國的心理測量對測驗理論的最初探索劉邵:九征,八觀,五視中國古代心理測量思想的特點:描述性分類式注重整體評價,和人的道德品質(zhì)聯(lián)系起來實用性中國心理測驗簡史(解放前)1914年,Creighton比較中美兒童智力差異(廣州,500人)1917年,樊炳清介紹“比內(nèi)-西蒙智力量表”1918年,Walcott用推孟修正量表施測(清華)1918年,俞子夷編制“小學(xué)生毛筆書法量表”1920年,廖世承、陳鶴琴在南京開設(shè)測驗課1921年,廖世承、陳鶴琴合作出版《心理測驗法》1921年,費培杰將比內(nèi)智力測驗翻成中文1922年,張耀翔在北京將心理測驗列為入學(xué)考試科目1924年,陸志偉發(fā)表《訂正比內(nèi)西蒙智力測驗說明書》;1931年6月,在南京成立中國測驗學(xué)會1932年,《測驗》雜志創(chuàng)刊。1935年,沈有乾用“朋洛德人格問卷”測量中國學(xué)生。1936年,陸志偉和吳天敏進行第二次修訂比內(nèi)西蒙智力測驗。1937年,周先庚使用“塞斯頓情緒穩(wěn)定性測驗”1943年,林傳鼎試用“普萊西X-O測驗”1948年,劉范試用“羅夏克墨跡測驗”。

1979年,林傳鼎,吳天敏,張厚粲在武漢舉辦全國測驗培訓(xùn)班;

1979年,龔耀先主持修訂“韋克斯勒成人智力量表”;

1979年,林傳鼎、張厚粲編制“少年兒童學(xué)習(xí)能力測驗”;

1980年,林傳鼎、張厚粲主持修訂“韋克斯勒兒童智力量表”;

1980年,北師大開設(shè)心理測驗課;

1980年,張厚粲開始對高考試卷做系統(tǒng)分析;

1981年,劉紹衣修訂“卡特爾16種人格因素問卷”;

1982年,吳天敏第三次修訂中國比內(nèi)測驗;

1982年,宋維真修訂“明尼蘇達多相人格調(diào)查表”;

1983年,龔耀先、陳仲庚修訂“艾森克問卷”

1984年,中國心理學(xué)會成立心理測量專業(yè)委員會;

1984年,我國正式加入“國際教育成就評價協(xié)會”;

1985年,張厚粲主持修訂“瑞文標準推理測驗”;

1986年,龔耀先主持修訂“韋克斯勒幼兒智力量表”;

1987年,張明園修訂“生活事件量表”;

1989年,李丹修訂“瑞文測驗(聯(lián)合型)”;

1990年,中國加入國際測驗委員會(ITC);

1990年,吳文源修訂“癥狀自評量表(SCL-90)”;

1992年,戴忠恒修訂“一般能力傾向測驗”;

1992年,宋維真編制“心理健康調(diào)查表”;

1992年,沙毓英等編制“學(xué)生性格量表”;

1993年,宋維真等編制“中國人個性測量表”(CPAI);

80年代,編制超常、弱智兒童篩查量表;0~3(6)歲兒童發(fā)育、發(fā)展量表;CPM領(lǐng)導(dǎo)行為評價量表第二節(jié)測驗的常模第一單元常模團體第二單元常模的類型第三單元常模分數(shù)的表示方法第一單元常模團體常模團體的性質(zhì)常模團體的條件取樣的方法常模分數(shù)與常模常模團體的性質(zhì)代表性團體參照對象常模團體的條件群體的構(gòu)成必須明確界定常模團體必須是所測群體的代表性樣本樣本大小要適當(dāng)標準化樣組是一定時空的產(chǎn)物取樣的方法簡單隨機抽樣系統(tǒng)抽樣分組抽樣分層抽樣常模分數(shù)與常模常模常模團體成員分數(shù)的分布情況導(dǎo)出分數(shù)小明語文考試考了95分,高嗎?原始分數(shù)本身意義不明確以常模為參照,轉(zhuǎn)換成的分數(shù)為導(dǎo)出分數(shù)第二單元常模的類型發(fā)展常模發(fā)展順序量表智力年齡年級當(dāng)量百分位常模百分等級百分點四分位數(shù)和十分位數(shù)標準分常模線性轉(zhuǎn)換的標準分數(shù)非線性轉(zhuǎn)換的標準分數(shù)發(fā)展量表之發(fā)展順序量表發(fā)展順序量表(ordinalscales)格塞爾發(fā)展順序量表格塞爾認為,嬰幼兒的行為系統(tǒng)的建立是一個有次序的過程,反映了神經(jīng)系統(tǒng)的不斷成長和功能的分化,因而可以把每個成熟階段的行為模式作為智能診斷的依據(jù)。4周16周28周40周52周不能控制頭部,仰臥姿勢左右不對稱頸可豎直,頭微搖動,仰臥姿勢左右對稱扶起獨坐,身體前傾可獨坐,爬行,扶著物件站立攙一手行走,搖擺發(fā)展量表之心理年齡心理年齡(mentalage)(智力年齡)指被試智力發(fā)展水平的年齡。單位是年(或歲)和12個等距的月。年齡量表最基本的假設(shè)是,隨年齡的增長,所測量的特質(zhì)有系統(tǒng)的改變。因此,不適用于成人。年齡量表的基本要素:題目:可區(qū)分不同年齡組;常模團體:由各個年齡被試組成的有代表性樣本;常模表發(fā)展量表之年級當(dāng)量年級當(dāng)量(gradeequivalents)

即年級常模,用年級代替年齡,指把學(xué)生的測驗成績與各年級學(xué)生的平均成績比較,看他相當(dāng)于幾年級的水平。年級常模的單位通常為10個月間隔。如5年級的分布為5-0到5-9。年級當(dāng)量只適用于一般課程,不適合只學(xué)1~2年的課程。百分等級百分等級(percentilerank)某個分數(shù)的百分等級就是得分低于這個分數(shù)的人數(shù)的百分比。百分等級指示個體在常模團體中的相對位置。百分等級越低,個體所處的地位越低。(公式)百分點相對于某一百分等級的分數(shù)點叫百分點或百分位數(shù)。(內(nèi)插法公式)十分位十分位是將分數(shù)分成10個等份。(百分點將分數(shù)分布分成100個等份。)十分位提供一個10級的等級量表,每一級包括10%的分數(shù)。四分位四等分,每等級占25%。標準分數(shù)(standardscore)Z分數(shù)(線性轉(zhuǎn)換的標準分數(shù))以原始分數(shù)的平均數(shù)作為零點,以標準差為單位,為等距量表絕對值是原始分數(shù)與平均數(shù)的距離,正負表示高于還是低于平均數(shù)分布與原始分數(shù)相同,因為它是原始分數(shù)加和乘以常數(shù)。原始分數(shù)分布常態(tài)的話,Z的范圍約從-3到+3,約占總體的99.73%。轉(zhuǎn)換形式:非線性轉(zhuǎn)換的標準分數(shù)常態(tài)化的標準分數(shù)若兩個測驗的分布不同,相同的標準分數(shù)可能代表不同的百分等級,因此兩個測驗仍無法比較。常態(tài)化:先把原始分數(shù)轉(zhuǎn)化為百分等級,然后從正態(tài)曲線面積表中查得對應(yīng)的標準分數(shù)。前提:該特質(zhì)是常態(tài)分布,目前數(shù)據(jù)實際不是常態(tài),但當(dāng)它是常態(tài)對待,所以查表得Z.T分數(shù)紀念Terman和Thorndike。T=10×Z+50平均數(shù)為50,標準差為10幾個重要的T分數(shù):T分數(shù)=50.0T分數(shù)=69.6(≈70.0)T分數(shù)=30.4(≈30.0)T分數(shù)=40.1(≈40.0)T分數(shù)=59.9(≈60.0)累積比例=0.500累積比例=0.975累積比例=0.025累積比例=0.160累積比例=0.840Z=0Z

=1.96Z

=-1.96Z

=-1Z

=1標準九(stanine)標準化九級分制標準九=5+2Z,即平均數(shù)為5,標準差為2標準九分本段面積(%)累加面積(%)段中值與平均數(shù)的距離()94100

>2.087961.5712891.0617770.5520600417400.5312231.027111.5144

>2.0Z=1.96時,標準九=?幾種導(dǎo)出分數(shù)間的相互關(guān)系智力測驗的分數(shù)智齡比率智商離差智商比率智商心理發(fā)展的速率IQ=100(MA/CA)缺點:實齡是等距的,而智齡不等距(智力發(fā)展不是直線的)計算成人智商時,以多大實齡作為除數(shù)?智力生長何時達到頂點?不同年齡組,比率智商分數(shù)具有不同的標準差,因而相同的比率智商對于不同年齡具有不同的意義。離差智商韋克斯勒將被試智力與其所屬人群比較,確定相對位置IQ=100+15Z第三單元常模分數(shù)的表示方法轉(zhuǎn)換表法剖面圖法信度、效度的基礎(chǔ)——誤差測量誤差測量誤差的含義測量值與實際值的差異測量誤差的種類系統(tǒng)誤差:測量工具本身引起的誤差(穩(wěn)定);隨機誤差:由不穩(wěn)定因素引起的誤差(不穩(wěn)定)。測量誤差的來源測量工具(測驗內(nèi)部)引起的誤差題目取樣、猜測、表達不清施測過程引起的誤差測試環(huán)境測試時間主試因素意外干擾評分記分被試引起的誤差真分數(shù)及其有關(guān)的假設(shè)真分數(shù)(TrueScore):一個測量工具在沒有測量誤差時,所得到的純正值。操作定義:經(jīng)過無數(shù)次測量所得到的平均值。觀察分數(shù)(ObservedScore):實際測驗所得分數(shù)。數(shù)學(xué)模型及其假設(shè)X=T+E

測量誤差的假設(shè):

Σ(X)=T或Σ(E)=0E指隨機誤差,不包括系統(tǒng)誤差。SX2=ST2+SE2真分數(shù)變異測量誤差變異與測量目的有關(guān)(有效的)變異數(shù)與測量目的無關(guān)(穩(wěn)定的)變異數(shù)ST2=SV2+SI2數(shù)學(xué)模型及其假設(shè)SE2SI2SV2SX2ST2

SX2=SV2+SI2+SE2(智力測驗結(jié)果=智力本身差異+評分標準不合理+肚疼)第三節(jié)測驗的信度第一單元信度概念第二單元信度評估的方法第三單元信度與測驗分數(shù)的解釋第四單元影響信度的因素信度信度(reliability)是指測量結(jié)果的穩(wěn)定性程度,也叫測量的可靠性。操作定義:rxx=ST2/SX2注意:信度指的是一組測驗分數(shù)或一系列測量的特性,而不是個人分數(shù)的特性;真分數(shù)的變異數(shù)是不能直接測量的,因此信度是一個理論上構(gòu)想的概念,只能根據(jù)一組實得分數(shù)作出估計。真分數(shù)變異數(shù)和總變異數(shù)(實得變異數(shù))的比率表示實得分數(shù)的變異數(shù)中有多少比例是由真分數(shù)的變異決定的,例如信度系數(shù)為0.9意指變異的90%來自真分數(shù)的差異。第一單元信度概念信度指數(shù):相關(guān)系數(shù)注意:信度系數(shù)有多種。同一種信度系數(shù)也會因樣本、測查時間不同而有多個。信度系數(shù)只是對測量分數(shù)一致性的估計,但并沒有指出不一致的原因。獲得較高的信度只是測驗有效的必要條件。信度的估計方法-重測信度重測信度(test-retestreliability)是指用同一量表對同一組被試施測兩次所得結(jié)果的一致性程度。又稱穩(wěn)定性系數(shù)。使用的前提條件所測量的心理特質(zhì)必須是穩(wěn)定的;練習(xí)和遺忘的效果基本上相互抵消;在兩次施測的間隔時期內(nèi),被試在所要測查的心理特質(zhì)方面沒有獲得更多的學(xué)習(xí)和訓(xùn)練。信度的估計方法-重測信度使用再測法要注意:間隔時間不能太長或太短;適用于速度或人格測驗,題目多,不適于難度測驗;再測積極性要提高。信度的估計方法-復(fù)本信度復(fù)本信度(Alternate-formreliability)是指兩個平行的測驗測量同一批被試所得結(jié)果的一致性程度。等值性系數(shù):兩個復(fù)本測驗是同時連續(xù)施測的穩(wěn)定等值系數(shù)(重測復(fù)本信度):兩個復(fù)本測驗是相距一段時間分兩次施測的。

使用的前提條件兩測驗真正平行;時間間隔影響積極性或?qū)W習(xí)干擾。局限復(fù)本只能減少而不能排除練習(xí)和記憶的影響;復(fù)本難獲得。信度的估計方法-分半信度分半信度(split-halfreliability)是指將一個測驗分成對等的兩半后,所有被試在這兩半上所得分數(shù)的一致性程度。通常采用奇偶分半法。信度的估計方法-分半信度常見的分半方法是按測題序號奇偶分半:測驗題目按某種順序(如難度)排列;如果是隨機排列的題目,則必須是所有題目是平等的(要么難度相等,要么性質(zhì)一致,是測同一個心理特質(zhì)的);如果測驗有多個分量表,應(yīng)在分量表內(nèi)部排好順序,再把各分量表的兩半組合起來求相關(guān)。注意:有牽連項目或一組解決同一問題的項目,這些項目應(yīng)放在同一半;存在任選題或為速度測驗時,不宜用分半法。信度的估計方法-同質(zhì)性信度同質(zhì)性信度(homogeneityreliability),也叫內(nèi)部一致性系數(shù),是指測驗內(nèi)部所有題目間的一致性程度。計算方法:SPSS操作信度的估計方法-評分者信度評分者信度(scorerreliability)是指多個評分者給同一批人的答卷進行評分的一致性程度。兩個評分者:用積差相關(guān)或等級相關(guān)。一致性達到0.90以上,可認為是客觀的。多個評分者的情況:肯德爾和諧系數(shù)W=12[ΣRi2-(ΣRi)2/N]/[K2(N3-N)](K=3~20;N=3~7時,查W表檢驗)W為和諧系數(shù),K為評分者人數(shù),N為被評對象數(shù),Ri為每一對象被評的等級總和。信度的估計方法信度誤差變異來源重測信度時間取樣復(fù)本信度(連續(xù)施測)內(nèi)容取樣復(fù)本信度(間隔施測)時間與內(nèi)容取樣分半信度內(nèi)容取樣同質(zhì)性信度內(nèi)容取樣和內(nèi)容的異質(zhì)性評分者信度評分者間的差異信度的作用信度是測量過程中所存在的隨機誤差大小的反映。測驗好壞的判斷標準標準化能力或?qū)W績測驗:>0.90人格測驗:>0.80測驗使用時的信度標準一般來說,當(dāng)信度<0.70,測驗不能用于對個人作出評價與預(yù)測,而且不能作團體間比較;當(dāng)0.70≤信度<0.85時,可用于團體比較;當(dāng)信度≥0.85時,才能用來鑒別或預(yù)測個人成績。信度系數(shù)的作用評價測驗信度是測量過程中所存在的隨機誤差大小的反映。一般能力與成就測驗信度系數(shù)在0.90以上,人格測驗在之間。解釋分數(shù)解釋個人測驗分數(shù)的誤差置信區(qū)間(95%)內(nèi)真分數(shù)T=X±1.96SESE為標準誤,Sx為所得分數(shù)的標準差,rxx

為信度。什么意思?信度系數(shù)的作用置信區(qū)間(95%)內(nèi)真分數(shù)T=X±1.96SE(X-1.96SE)<=T<=(X+1.96SE)例題:一次測驗有些學(xué)生得80分,這是否反映了他們的真實水平?如果再測一次他們的分數(shù)將改變多少?已知該次測驗的標準差為5,信度系數(shù)為0.84,求其真分數(shù)的可能的范圍。SE=5×1-0.84=2T=80±1.96×2=80±3.92=76.08--83.92信度系數(shù)的作用信度可以幫助進行不同測驗分數(shù)的比較不同測驗的原始分數(shù)要比較,要除去兩個測驗誤差變異不同的影響,因為也許兩個測驗分數(shù)的差異是由誤差導(dǎo)致的。所以要考慮兩個測驗的標準誤,通過信度可以計算出差異標準誤,再比較其(標準分數(shù))差異是否超出1.96SE。差異的標準誤如何理解?信度系數(shù)的作用例題,學(xué)生甲的語文和數(shù)學(xué)成就轉(zhuǎn)換成T分數(shù)(均數(shù)為50,標準差為10)分別為65和70分,語文和數(shù)學(xué)測驗的信度系數(shù)分別是0.84和0.91,二者的差異有意義嗎?SEd=10×2-0.84-0.91=5計算95%的置信區(qū)間:

1.96SEd=1.96×5=9.870-65=5<9.8結(jié)論:沒有達到或超過9.8分,兩分數(shù)差異不顯著。影響測量信度的主要因素所有引起隨機誤差的因素主試方面指導(dǎo)語、態(tài)度、期望等施測情境被試情況樣本團體平均水平水平低猜測性強被試樣本異質(zhì)性被試團體同質(zhì)性越高(個體差異越?。孟嚓P(guān)系數(shù)(信度)就越低。被試團體異質(zhì)性越高(個體差異越大),所得相關(guān)系數(shù)(信度)就越高。被試樣本(異質(zhì)性)影響信度異質(zhì)性-標準差Roo為原團體信度,rnn為新團體信度,So為原團體標準差,Sn新團體標準差。計算:某測驗用于初中學(xué)生時測得信度0.90,標準差為8,現(xiàn)用于初一年級,已知標準差為5,請問,此時測驗信度為多少?答案:0.744影響測量信度的主要因素測驗難度:過難或過易都會使個體間得分差異減小,降低信度。測驗內(nèi)容:試題取樣不當(dāng),內(nèi)部一致性低,題意模糊,信度則低。兩次施測的間隔時間間隔時間越短,信度越高;間隔時間越長,信度越低。影響測量信度的主要因素測驗長度:測驗越長,信度越高。增強了取樣的代表性;隨機誤差被抵消。K為改變后長度與原長度之比!計算:某測驗?zāi)壳坝?0個項目,信度0.40,研究需要信度達到0.80,請問需要增加多少個項目?答案:50提高測量信度的常用方法題目數(shù)量1050100200300400500相關(guān)系數(shù)0.500.830.910.950.9680.9760.98適當(dāng)增加測驗的長度使測驗中所有試題的難度接近正態(tài)分布,并控制在中等水平努力提高測驗試題的區(qū)分度選取恰當(dāng)?shù)谋辉噲F體,提高測驗在各同質(zhì)性較強的亞團體上的信度主試者嚴格執(zhí)行施測規(guī)程,評分者嚴格按照標準給分,施測場地按測驗手冊的要求進行布置,減少無關(guān)因素的干擾第四節(jié)測驗的效度第一單元效度的概念第二單元效度評估的方法第三單元效度的功能第四單元影響效度的因素效度效度(validity)是指一個測驗或量表實際能測出其所要測的心理特質(zhì)的程度。效度是一個相對的概念:每個測量工具都有自己的目的;內(nèi)隱特質(zhì)是通過外顯行為間接測得的。效度是測量的隨機誤差和系統(tǒng)誤差的綜合反映。判斷一個測量是否有效要從多方面收集證據(jù)效度操作定義效度=有效變異實測變異SV2SI2SE2SX2ST2

一個測驗的信度系數(shù)與效度系數(shù),哪個大?理論意義是什么?效度與信度的關(guān)系信度高是效度高的必要而非充分的條件一個測驗效度高,其信度也必然高;一個測驗信度高,其效度不一定高。測驗的效度受它的信度制約一個測驗的信度必然比效度高,至少相等。效度的估計-內(nèi)容效度內(nèi)容效度(contentvalidity)是指測驗題目對有關(guān)內(nèi)容或行為取樣的適當(dāng)程度,即一個測驗實際測到的內(nèi)容與所要測量的內(nèi)容之間的吻合程度。一個測驗要有內(nèi)容效度必須具備兩個條件:要有定義完好的內(nèi)容范圍,并使測驗的全部項目均在此范圍;測驗題目應(yīng)是所界定的內(nèi)容范圍的代表性取樣。確定內(nèi)容效度的方法專家判斷法專家判斷根據(jù)自己的知識經(jīng)驗對量表的有效性(邏輯性)作出判斷,也稱邏輯效度。專家判斷法的操作步驟確定測驗內(nèi)容的總體范圍;編制雙向細目表;確定每道題的測量內(nèi)容,與雙向細目表對照;編制評定量表,從測驗內(nèi)容所測的技能、題目對所定義的范圍的覆蓋率、各種題目數(shù)量和分數(shù)的比例以及題目形式的適當(dāng)性等方面,對測驗作出總的評價。確定內(nèi)容效度的方法復(fù)本法用兩個測驗復(fù)本來測同一批被試,若相關(guān)高,則內(nèi)容效度可能高,但若相關(guān)低,則說明必有一個測驗缺乏內(nèi)容效度。再測法前測→教學(xué)→后測如果后測成績優(yōu)于前測成績,說明該測驗具有一定的內(nèi)容效度。經(jīng)驗法不同團體測驗結(jié)果能反映出實際上團體的差異。如高年級成績高于低年級。內(nèi)容效度的應(yīng)用內(nèi)容效度主要應(yīng)用于成就測驗,也適合于某些用于選拔和分類的職業(yè)測驗。但不適用于能力傾向測驗和人格測驗。表面效度(surfacevalidity):外行人對某個測驗從表面上看好像是測某種心理特質(zhì)的程度。并不是一種真正的效度。表面效度易干擾測驗效果。內(nèi)容效度的局限性:缺乏可靠的數(shù)量指標。效度的估計-結(jié)構(gòu)效度(構(gòu)想效度)結(jié)構(gòu)效度(structurevalidity)是指測驗對理論上的構(gòu)想或特質(zhì)的測量程度,或者說測驗分數(shù)能夠說明心理學(xué)理論的某種結(jié)構(gòu)或特質(zhì)的程度。特點:具有不同理論構(gòu)思的測驗,其結(jié)構(gòu)效度是無法進行比較的;結(jié)構(gòu)效度有時很難獲得;結(jié)構(gòu)效度沒有單一的指標,是由各方面的證據(jù)累積起來進行評價的。確定構(gòu)想效度的方法測驗內(nèi)法確定測驗的內(nèi)容效度;(分析內(nèi)容設(shè)置是否與構(gòu)想一致)分析被試對項目作反應(yīng)的過程;(了解依據(jù)什么作答)考查測驗的同質(zhì)性。(通過相關(guān)等推測是幾種特質(zhì))確定構(gòu)想效度的方法測驗間法相容效度(與好測驗的相關(guān))區(qū)分效度(與不同特質(zhì)的測驗的相關(guān))因素效度:(通過因素分析來驗證測驗結(jié)構(gòu)與理論構(gòu)想的擬合程度)效標關(guān)聯(lián)法(理論上可預(yù)測,看實際是否預(yù)測準確)實驗操作法(通過實驗操作實際上引起被試變化,看測驗的敏感性)Ellis觀念測驗因素分析碎石圖Ellis觀念測驗因素分析結(jié)果因素題目負荷因素解釋量外部贊許1.人應(yīng)該得到自己生活中的每一位重要人物的喜愛與贊許。.38120.6092.一個有價值的人應(yīng)該在各方面都比別人強。.999責(zé)任推移4.如果事情非己所愿,將是可怕的。.41313.5605.不愉快的事是由外在因素引起的,自己不能控制和支配。.5006.面對困難與責(zé)任很不容易,倒不如逃避更好。.4157.要隨時警惕危險與可怕的事,經(jīng)常提防其發(fā)生的可能性。.3568.人要活得好一點,就必須依賴比自己強的人。.4019.以往的經(jīng)歷和事件對現(xiàn)在具有決定性的難以改變的影響。.442規(guī)則絕對化3.對于有錯誤的人應(yīng)該給予嚴厲的懲罰。.3569.91610.應(yīng)當(dāng)非常關(guān)切他人的問題。.34111.任何問題都有惟一正確的答案。.288從圖1的碎石圖可看出拐點大約處于3或4個因素的位置。利用極大似然法做因素分析,特征值大于1的因素有3個,解釋量為44.085%。相應(yīng)因素與對應(yīng)題目如表1。根據(jù)各因素所包含的題目特點,將相應(yīng)因素命名為外部贊許、責(zé)任推移、規(guī)則絕對化。效度的估計-效標效度(實證效度)效標效度是指一個測驗對處于特定情境中的個體的行為進行預(yù)測的有效性。效標:被預(yù)測的行為,是檢驗測驗效度的標準。效標效度即測驗分數(shù)與效標間關(guān)系。

同時效度(concurrentvalidity):測驗分數(shù)與效標資料是同時收集的。如體檢與醫(yī)生診斷。預(yù)測效度(predictivevalidity):先獲得測驗分數(shù),隔一段時間后,再收集效標資料。如高考成績與大學(xué)成績。效度的估計-效標效度效標就是衡量一個測驗是否有效的外在標準。常用的效標:學(xué)業(yè)成就、臨床診斷、實際工作表現(xiàn)、特殊訓(xùn)練成績、不同團體的總體表現(xiàn)、先前有效的測驗、等級評定。觀念效標:理論定義,如“大學(xué)的成功”。效標測量:操作定義,如大學(xué)成績

。效度的估計-效標效度好的效標測量的條件效標測量能真正反映觀念效標;穩(wěn)定可靠;客觀,避免偏見;如成功者權(quán)力高;

效標污染,指評定者知道被試的測驗分數(shù),因而影響到對效標的客觀評定。簡單、省時。效標效度的估計方法相關(guān)法測驗分數(shù)與效標測量之間的相關(guān)系數(shù)。分組法按工作成績分高低兩組,如工作成績高,測驗得分也高;工作成績低,測驗得分也低,說明該測驗是有一定效度的。效標效度的估計方法預(yù)期表法大學(xué)一年級成績ABCDE高考成績高6040中10204030低10404040預(yù)測源分數(shù)效標分數(shù)對角線數(shù)字越大,說明預(yù)測越準確,則效標效度越高。效標效度的估計方法命中率法(針對十分變量的預(yù)測源與效標)工作表現(xiàn)測驗成績超額完成未達標合格AC不合格BD總命中率=(A+D)/(A+B+C+D)正命中率=A/(A+C)根據(jù)實際需要選擇其一。效標效度的估計方法功利率法對使用測驗所需的費用和所得到的收益進行比較,看是否利大于弊。一個測驗如果簡單易行,省時省錢,不經(jīng)過特殊訓(xùn)練的人也能掌握,又適合于團體施測,那么,即使效度低一些,也會有人使用。反之,只有效度極高,能給人帶來很大好處時,才會使用。效度的功能預(yù)測誤差預(yù)測效標分數(shù)預(yù)測效率指數(shù)比瞎蒙好多少。r=0.8,正確預(yù)測比例是?影響效度的因素所有引起誤差的因素隨機誤差系統(tǒng)誤差測驗本身項目質(zhì)量項目數(shù)量測驗的實施被試身心狀態(tài)樣本特點效標第五節(jié)項目分析第一單元項目的難度第二單元項目的區(qū)分度難度難度(difficulty)指項目的難易程度。在最高作為測驗中,稱為“難度”,而在典型作為測驗中,則指“通俗性”。兩者都是指在總體中,能夠正確或確切回答某項目的人數(shù)。難度公式(通過率)1、二值計分

公式1:(R為答對該題的人數(shù),N為總?cè)藬?shù))公式2:極端分組法(上下27%)為什么用27%?經(jīng)驗:27%規(guī)則一般情況下,取上下25%~33%均可。樣本少時,可以取50%注意:由于計算機的方便使用,可以上下50%作為劃分高低組的標準,或者多分幾組,對區(qū)分度和難度作詳細分析。因為只取上下兩端,只利用了一部分資料,浪費了很多信息,有可能得出錯誤結(jié)論。難度公式(通過率)公式3:

CP為校正后的通過率,P為實得通過率,K為備選答案數(shù)目。是非題希望得到校正后為0.5的難度,P應(yīng)為多少?四選一的題目希望得到校正后為0.5的難度,P應(yīng)為多少?難度公式(通過率)2.非二值計分(為全體被試該題目的平均分,為答對該題應(yīng)得分數(shù))測驗難度水平的確定大體而言,難度為0.50時最理想,因為它使總體的變異最大,此時項目具有最大的鑒別力。但在實際操作中,讓所有項目難度都到達0.50困難很大,而且也不必要,一般只需使項目的平均難度接近0.50,而各個項目的難度在0.50±0.20之間變化。當(dāng)題目之間正相關(guān)時,題目難度值應(yīng)分布的廣些但平均難度應(yīng)以0.50為好。對于選擇題來說,難度一般應(yīng)大于猜測概率;當(dāng)題目有猜測可能時,題目的P值應(yīng)適當(dāng)加大。測驗難度水平的確定效標參照測驗、掌握測驗:不考慮難度;P=1.0或P=0有可能也是好題選拔測驗:難度=錄取率;無論是速度測驗,還是難度測驗,一般都應(yīng)防止被試得滿分,因為滿分的意義是不明確的。人格測驗P≧0.95或P≦0.05的題目考慮刪除測驗的難度常態(tài)(正態(tài))偏態(tài)正偏態(tài)負偏態(tài)區(qū)分度區(qū)分度(discrimination)是指測驗項目對被試心理品質(zhì)水平差異的區(qū)分能力或鑒別能力。項目的區(qū)分度是測驗是否有效的“指示器”。區(qū)分度的計算1.鑒別指數(shù)法鑒別指數(shù)(indexofdiscrimination,D)取值范圍:-1~+1區(qū)分度的計算1965年,美國測驗專家伊貝爾根據(jù)經(jīng)驗提出的標準:鑒別指數(shù)題目評價0.40以上很好0.30~0.39良好,修改會更好0.20~0.29尚可,仍需修改0.19以下差,必須淘汰相關(guān)法點二列相關(guān)二列相關(guān)Φ相關(guān)法難度(P)區(qū)分度(D)1.0000.900.200.800.400.700.600.600.800.5010.400.800.300.600.200.400.100.200.000區(qū)分度與難度的關(guān)系難度和區(qū)分度都是針對一定團體而言的。一般來說,較難的項目對高水平被試區(qū)分度高,較易的項目對低水平被試的區(qū)分度高。第六節(jié)測驗編制的一般程序第一單元測驗的目標分析第二單元測題的編寫第三單元測驗的編制和組織第一單元測驗的目標分析測驗對象測驗用途顯示性測驗預(yù)測性測驗測驗?zāi)繕斯ぷ鞣治鰧μ囟ǜ拍钕露x確定測驗的具體內(nèi)容第二單元測題的編寫搜集資料已有測驗理論和專家的經(jīng)驗臨床觀察和記錄命題的一般原則內(nèi)容理解社會敏感性測量的編制要領(lǐng)測題的種類及編制固定應(yīng)答型題目,即客觀題包括:選擇題、是非題、匹配題等。自由應(yīng)答型題目,即主觀題包括:填充題、簡答題、應(yīng)用題、論文題、聯(lián)想題、操作題等。選擇題題干+選項(正確選項與誘答選項)多項條件選擇題:例如:已知小明的心理年齡是8歲4個月,實際年齡是9歲,其智商是多少?(a)85

(b)90

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論