




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、人事測(cè)評(píng)質(zhì)量分析本章教學(xué)內(nèi)容: 5-1 測(cè)量的信度5-1-1 信度及其影響因素5-2-2 信度的評(píng)估方法 5-2 測(cè)量的效度5-2-1 效度及其影響因素5-2-2 效度的評(píng)估方法5-1 測(cè)量的信度 信度是標(biāo)準(zhǔn)化人事測(cè)量的基本要求之一,如果測(cè)量工具的信度不理想,測(cè)量結(jié)果就無(wú)法被認(rèn)為能代表應(yīng)試者的一致、穩(wěn)定和可靠的行為表現(xiàn),就可能誤導(dǎo)對(duì)應(yīng)試者的評(píng)價(jià)。5-1-1 信度及其影響因素5-2-2 信度的評(píng)估方法5-1-1 信度及其影響因素如果我們用一個(gè)游標(biāo)卡尺來(lái)測(cè)量一個(gè)鋼管的外直徑,每次測(cè)量時(shí)都難免會(huì)有一定的誤差。首先,游標(biāo)卡尺作為一種測(cè)量工具是有一定精度限制的,也就是說(shuō),測(cè)量工具本身存在誤差。當(dāng)然這種誤
2、差是必然存在的,而且誤差是在一定范圍中有規(guī)律的變動(dòng)的,這種誤差在測(cè)量工作中被稱之為系統(tǒng)誤差(systematic error)。其次,我們每一次測(cè)量都可能出現(xiàn)操作上的差異,或者由于不可預(yù)見的外界因素的影響,產(chǎn)生測(cè)量誤差。這些誤差是很難控制的,而且無(wú)規(guī)律可循,有時(shí)大有時(shí)小,這種誤差被稱為隨機(jī)誤差(random error)。前者在一定程度上可以控制,而后者很難控制.1、信度的概念2、信度的計(jì)算3、信度的作用4、信度的影響因素1、信度的概念 信度(reliability)信度是標(biāo)示測(cè)驗(yàn)一致性高低的統(tǒng)計(jì)指標(biāo)。主要指測(cè)量結(jié)果的可靠性或一致性,可以定義為測(cè)驗(yàn)結(jié)果不受測(cè)驗(yàn)情境或測(cè)驗(yàn)過(guò)程中無(wú)關(guān)變量影響的程度
3、。2 信度的計(jì)算:信度系數(shù) 信度指標(biāo)的一般公式:測(cè)驗(yàn)分?jǐn)?shù) = 真實(shí)分?jǐn)?shù) + 測(cè)量誤差 或者: X = T + e 信度的高低通常以相關(guān)系數(shù)表示,稱為信度系數(shù)(reliability coefficient)。信度系數(shù)一般是同一樣本所得的兩組資料的相關(guān),因此有:測(cè)驗(yàn)分?jǐn)?shù)方差 = 真實(shí)分?jǐn)?shù)方差+ 誤差分?jǐn)?shù)方差 X2 = T2 + e2 信度系數(shù): rxx= T2 / X2 = T2 / ( T2 + e2) 信度系數(shù)即是真實(shí)分?jǐn)?shù)方差(變異數(shù))與測(cè)驗(yàn)分?jǐn)?shù)總方差(變異數(shù))之比。3、信度的作用 測(cè)驗(yàn)信度要能夠區(qū)分出:導(dǎo)致一致性的因素: 個(gè)體穩(wěn)定的特性(測(cè)量對(duì)象)導(dǎo)致不一致性的因素: 可能影響測(cè)驗(yàn),但又與
4、測(cè)驗(yàn)對(duì)象沒(méi)有關(guān)系的個(gè)體和環(huán)境的特性 在人事測(cè)量中,對(duì)信度系數(shù)進(jìn)行確定通常有以下作用: 解釋真實(shí)分?jǐn)?shù)與實(shí)得分?jǐn)?shù)之間的相關(guān) 說(shuō)明可以接受的信度水平解釋真實(shí)分?jǐn)?shù)與實(shí)得分?jǐn)?shù)之間的相關(guān) 信度可以解釋為總的方差(標(biāo)準(zhǔn)差的平方的縮略語(yǔ))中有多少比例是由真實(shí)分?jǐn)?shù)的方差決定的,即測(cè)量分?jǐn)?shù)的變化中有多少是真正反映了被測(cè)者分?jǐn)?shù)的變化。 例如:當(dāng)rxx = 0.90時(shí),我們可以說(shuō),實(shí)得分?jǐn)?shù)中有時(shí),我們可以說(shuō),實(shí)得分?jǐn)?shù)中有90%的方差是來(lái)自真實(shí)分?jǐn)?shù)的變化,僅有的方差是來(lái)自真實(shí)分?jǐn)?shù)的變化,僅有10%是來(lái)自是來(lái)自測(cè)量的誤差。測(cè)量的誤差。 信度系數(shù)的分布是從的正數(shù)范圍,代表了從缺乏信信度系數(shù)的分布是從的正數(shù)范圍,代表了從缺乏
5、信度到完全可信的所有狀況。度到完全可信的所有狀況。 思考:如果思考:如果rxx = 1.00表示什么?表示什么? rxx = 0.00表示什么?表示什么?說(shuō)明可以接受的信度水平 信度的理想水平是1.00,但是實(shí)際上是達(dá)不到的。 一般能力與成就測(cè)驗(yàn)的信度系數(shù)在0.90以上;人格、興趣等測(cè)驗(yàn)的信度通常在之間。 一般來(lái)說(shuō),當(dāng)rxx 0.70時(shí),可用時(shí),可用于團(tuán)體間比較;當(dāng)于團(tuán)體間比較;當(dāng)rxx 0.85時(shí),可用于鑒別個(gè)人。時(shí),可用于鑒別個(gè)人。幾種心理測(cè)驗(yàn)幾種心理測(cè)驗(yàn)的信度系數(shù)的信度系數(shù)測(cè)驗(yàn)類型測(cè)驗(yàn)類型信度信度低低中中高高成套成就測(cè)驗(yàn)0.660.920.98學(xué)術(shù)能力測(cè)驗(yàn)0.560.900.97成套傾向
6、性測(cè)驗(yàn)0.260.880.96客觀人格測(cè)驗(yàn)0.460.850.97興趣問(wèn)卷0.420.840.93態(tài)度量表0.470.790.984、信度的影響因素 受試者個(gè)體持久而泛化的特性: 進(jìn)行測(cè)驗(yàn)的一般技能水平 理解測(cè)驗(yàn)指示語(yǔ)的一般能力水平 進(jìn)行類似測(cè)驗(yàn)的一般的人格特質(zhì) 受試者個(gè)體持久而特殊的特性: 進(jìn)行某項(xiàng)測(cè)驗(yàn)(或其形式)需要的特殊的技能、能力 和特質(zhì);以及穩(wěn)定的反映定勢(shì); 對(duì)某個(gè)測(cè)驗(yàn)項(xiàng)目?jī)?nèi)容的熟悉程度 受試者個(gè)體短時(shí)而泛化的特性: 健康、疲勞、動(dòng)機(jī)、情緒狀態(tài)、測(cè)驗(yàn)自如性;溫度、 光亮、通風(fēng)等測(cè)驗(yàn)外部條件 受試者個(gè)體短時(shí)而特殊的特性 對(duì)特殊測(cè)驗(yàn)的理解,測(cè)驗(yàn)所需要的特殊技巧;為做測(cè)驗(yàn)所進(jìn)行的練習(xí); 對(duì)
7、測(cè)驗(yàn)項(xiàng)目?jī)?nèi)容的注意、記憶等的飄忽不定。 影響測(cè)驗(yàn)過(guò)程和解釋的外部因素系統(tǒng)改變 測(cè)驗(yàn)條件;對(duì)測(cè)驗(yàn)的各種限制;干擾程度;指示語(yǔ)的清晰度; 受試者在個(gè)性、性別、種族等與測(cè)驗(yàn)主試的交互作用; 對(duì)測(cè)驗(yàn)結(jié)果的不一致或有偏差的評(píng)判。 無(wú)法解釋的變化(隨機(jī)因素) 猜測(cè)、運(yùn)氣,以及暫時(shí)的干擾4、信度的影響因素5-2-2 信度的評(píng)估方法 針對(duì)不同的誤差來(lái)源,信度可以有不同的確定方法。信度系數(shù)類型信度系數(shù)類型誤差來(lái)源誤差來(lái)源重測(cè)信度時(shí)間取樣復(fù)本信度(連續(xù)施測(cè))內(nèi)容取樣重測(cè)復(fù)本信度時(shí)間和內(nèi)容取樣分半信度內(nèi)容取樣同質(zhì)性信度內(nèi)容的異質(zhì)性評(píng)分者信度評(píng)分者間差異1、重測(cè)信度(test-retest reliability)
8、又稱為穩(wěn)定性系數(shù),是采用重測(cè)法計(jì)算信度的方法,即用同一測(cè)驗(yàn)在不同時(shí)間對(duì)同一對(duì)象施測(cè)兩次,兩次測(cè)量分?jǐn)?shù)的相關(guān)系數(shù)即為重測(cè)系數(shù)。 人事測(cè)量所測(cè)查的特質(zhì)中,有相當(dāng)多的內(nèi)容具有一定的穩(wěn)定性,如人格、能力傾向等,因此,對(duì)于這些內(nèi)容而言,重測(cè)信度對(duì)于衡量測(cè)量工具的質(zhì)量是很重要的指標(biāo)。 例如:如果用一個(gè)智力測(cè)驗(yàn)測(cè)量某人的智力,第一天測(cè)量得到100分,表示智力中等;第二天測(cè)量卻變成了150分,這個(gè)分?jǐn)?shù)意味著這個(gè)人在一夜之間變成了天才,如果沒(méi)有特殊原因,這種事絕對(duì)是小概率事件,不太可能發(fā)生,可信度極低。不能用這個(gè)結(jié)果幫助決策。在日常生活中,你也許常常到市場(chǎng)上去買東西。如果你買了5斤瘦肉后覺得比上次少了點(diǎn),沒(méi)有那
9、么重,那么你可以自己再用稱稱一下。如果也是5斤,那么你可能就會(huì)覺得確實(shí)有5斤。這是因?yàn)閮纱畏Q得的結(jié)果完全一致,變異度為0。人的素質(zhì)測(cè)評(píng)沒(méi)有這么簡(jiǎn)單,因?yàn)樗刭|(zhì)本身又是無(wú)法精確定義,因而我們常常把對(duì)個(gè)體測(cè)評(píng)結(jié)果的準(zhǔn)確性檢驗(yàn),置于群體測(cè)評(píng)結(jié)果的相互關(guān)系之中,轉(zhuǎn)化為兩次位置關(guān)系的一致性分析。當(dāng)同一對(duì)象的測(cè)評(píng)結(jié)果以同樣的測(cè)評(píng)方式再次獲得后,其順序位置關(guān)系變異很小時(shí),則說(shuō)明測(cè)評(píng)結(jié)果比較準(zhǔn)確。例如:在技能測(cè)評(píng)中A分?jǐn)?shù)88,在全體被測(cè)者中排名第一。這是否可靠可信?我們可以再測(cè)一次,結(jié)果A分?jǐn)?shù)95,還是排名第一,而且其他被測(cè)的位置順序變化很小。這時(shí)我們可以說(shuō)第一次的技能測(cè)評(píng)結(jié)果是可靠的(信度高)。重測(cè)信度的考察
10、對(duì)象重測(cè)信度所考察的誤差來(lái)源是時(shí)間的變化所帶來(lái)的隨機(jī)影響(氣候、噪音的干擾、疾病、疲勞、情緒的影響等),根據(jù)重測(cè)相關(guān)系數(shù)的高低,可以得知測(cè)量結(jié)果在經(jīng)過(guò)一段時(shí)間之后的穩(wěn)定程度。重測(cè)信度表示測(cè)量能夠應(yīng)用于不同時(shí)間的程度,信度越高說(shuō)明測(cè)量結(jié)果受環(huán)境中日常的隨機(jī)因素影響越小,測(cè)量結(jié)果越穩(wěn)定、可靠。評(píng)估重測(cè)信度時(shí),要注意重測(cè)間隔的時(shí)間,時(shí)間太短被試對(duì)測(cè)試題記憶猶新,必然會(huì)造成假性相關(guān);時(shí)間太長(zhǎng),測(cè)驗(yàn)結(jié)果又會(huì)受應(yīng)試者的身心特質(zhì)改變的影響,使相關(guān)系數(shù)降低。間隔時(shí)間的長(zhǎng)短必須根據(jù)測(cè)驗(yàn)的性質(zhì)和目的來(lái)確定。如果希望測(cè)量結(jié)果能預(yù)測(cè)較長(zhǎng)時(shí)間的變化,則重測(cè)間隔時(shí)間應(yīng)該長(zhǎng)一些。例如人格測(cè)驗(yàn)一般間隔2-6個(gè)月比較合適。應(yīng)用
11、重測(cè)信度應(yīng)注意:重測(cè)信度一般只反映由隨機(jī)因素導(dǎo)致的變化,而不反映被測(cè)者行為的長(zhǎng)久變化。例如被測(cè)者智力的發(fā)展與能力的提高,不是重測(cè)信度考察的因素。這些因素導(dǎo)致的重測(cè)相關(guān)系數(shù)的降低,不能說(shuō)明測(cè)驗(yàn)的重測(cè)信度低。不同行為受隨即誤差影響不同。例如手指敏捷性就比言語(yǔ)理解力更容易受疲勞、環(huán)境等因素的影響。因此必須分析測(cè)量目的和了解所預(yù)測(cè)的行為。當(dāng)測(cè)量的行為或特質(zhì)較為穩(wěn)定時(shí),重測(cè)信度的解釋才有效。只有不大容易受重復(fù)影響的測(cè)驗(yàn),如感覺-運(yùn)動(dòng)測(cè)驗(yàn)或人格測(cè)驗(yàn),才比較適合用重測(cè)法計(jì)算信度系數(shù)。因?yàn)楸粶y(cè)者一旦知道答案就不容易忘記,從而造成假性相關(guān)。2、復(fù)本信度(alternative-form reliability)
12、 又稱為等值性系數(shù),它是以兩個(gè)測(cè)驗(yàn)復(fù)本(功能等值但題目?jī)?nèi)容不同)來(lái)測(cè)量同一對(duì)象,然后求得被測(cè)者在這兩個(gè)測(cè)驗(yàn)上得分的相關(guān)系數(shù)。復(fù)本信度反映了兩個(gè)測(cè)驗(yàn)復(fù)本在內(nèi)容上的等值性程度。 復(fù)本信度考慮的是內(nèi)容取樣誤差的影響問(wèn)題,計(jì)算復(fù)本信度的主要目的在于考察兩個(gè)測(cè)驗(yàn)復(fù)本的題目取樣或內(nèi)容取樣是否等值。 例如同樣是測(cè)量數(shù)學(xué)運(yùn)算能力的測(cè)驗(yàn),如果一個(gè)測(cè)驗(yàn)復(fù)本側(cè)重于考核加減法的運(yùn)算,而另一個(gè)復(fù)本側(cè)重乘除法的運(yùn)算,兩者之間的相關(guān)必定不會(huì)抬高,即復(fù)本信度低,說(shuō)明必定有一項(xiàng)測(cè)驗(yàn)復(fù)本的取樣有問(wèn)題。 優(yōu)點(diǎn): 能夠避免重測(cè)信度的一些問(wèn)題,如記憶效果、練習(xí)效應(yīng)等; 適用于進(jìn)行長(zhǎng)期追蹤研究或調(diào)查某些干涉變量對(duì)測(cè)驗(yàn)成績(jī)的影響; 減少了
13、輔導(dǎo)或作弊的可能性。 缺點(diǎn): 如果測(cè)量的行為受練習(xí)的影響,復(fù)本信度只能減少而不能消除這種影響; 有些測(cè)驗(yàn)的性質(zhì)會(huì)由于重復(fù)測(cè)量而發(fā)生改變,例如某些問(wèn)題解決型的測(cè)驗(yàn),如果掌握了解題原則就有可能產(chǎn)生遷移,尤其當(dāng)復(fù)本只是在題目具體內(nèi)容上有改變時(shí),這種正遷移的作用會(huì)很強(qiáng); 有些測(cè)驗(yàn)很難找到復(fù)本。3、一致性信度consistency reliability 一致性信度又稱為同質(zhì)性信度,是指一個(gè)測(cè)評(píng)活分測(cè)評(píng)中各個(gè)題目所測(cè)內(nèi)容的一致性。 同質(zhì)性是保證測(cè)評(píng)只測(cè)量同一特質(zhì)的必要條件。也就是說(shuō),評(píng)估一組測(cè)驗(yàn)題目?jī)?nèi)部一致性程度,對(duì)于確定測(cè)驗(yàn)題目是否測(cè)量了同一事物很重要。如果同質(zhì)性差,則表示測(cè)評(píng)混淆了不同的測(cè)評(píng)內(nèi)容,其
14、結(jié)果就無(wú)從判斷究竟是否反映了被測(cè)者的某一特質(zhì)。 如果被測(cè)者在第一個(gè)項(xiàng)目上比其他人分?jǐn)?shù)高,在第二個(gè)項(xiàng)目上又比其他人高,在第三個(gè)項(xiàng)目上也比其他人高相反另一個(gè)人在第一個(gè)項(xiàng)目上比其他人分?jǐn)?shù)低,在第二個(gè)項(xiàng)目上又比其他人分?jǐn)?shù)低,在第三個(gè)項(xiàng)目上也比其他人分?jǐn)?shù)低那么毫無(wú)疑問(wèn),我們會(huì)認(rèn)為測(cè)評(píng)結(jié)果比較可靠。一致性信度的作用 重測(cè)信度和復(fù)本信度分別注重考慮測(cè)量跨時(shí)間的一致性(穩(wěn)定性)和跨形式的一致性(等值性),而內(nèi)部一致性信度用內(nèi)部一致性系數(shù)表示,主要反映的是測(cè)驗(yàn)內(nèi)部題目之間的關(guān)系,考察測(cè)驗(yàn)的各個(gè)題目是否測(cè)量了相同的內(nèi)容或特質(zhì)。 同質(zhì)性的測(cè)驗(yàn),其結(jié)果的解釋較為明確。例如:在一個(gè)同質(zhì)性的語(yǔ)言邏輯推理能力測(cè)驗(yàn)中,應(yīng)試者
15、的得分可以反映其語(yǔ)言邏輯推理能力的高低;而如果一個(gè)測(cè)驗(yàn)既包含有測(cè)查邏輯推理能力的試題,又含有測(cè)查數(shù)量分析能力的試題,那么在應(yīng)試者得分低的情況下,就無(wú)法說(shuō)明被測(cè)者到底哪種能力不足。一致性信度應(yīng)用實(shí)例 例如:在人格測(cè)評(píng)中,樂(lè)觀情緒特質(zhì)和外向特質(zhì)是兩個(gè)容易混淆的內(nèi)容,這就要求測(cè)評(píng)設(shè)計(jì)時(shí)能夠找到相應(yīng)的題目把二者區(qū)分開來(lái)。 再例如:在考察管理技能時(shí),預(yù)測(cè)和決策、監(jiān)督和控制等都是不太容易區(qū)分的,對(duì)題目設(shè)計(jì)的要求就相當(dāng)高,否則就會(huì)把不同技能混淆,導(dǎo)致結(jié)論錯(cuò)誤和用人失誤。 在設(shè)計(jì)測(cè)評(píng)題目時(shí),所有測(cè)評(píng)題目都要保證只測(cè)量一種特質(zhì)或內(nèi)容,如果需要在一個(gè)測(cè)評(píng)中測(cè)量不同內(nèi)容,就應(yīng)該將測(cè)評(píng)設(shè)計(jì)為幾個(gè)分測(cè)評(píng)進(jìn)行分別測(cè)評(píng)。例
16、如16PF人格測(cè)評(píng)就包括16個(gè)分測(cè)評(píng),每個(gè)分測(cè)評(píng)量表只對(duì)一種人格特質(zhì)進(jìn)行測(cè)評(píng)。一致性信度的計(jì)算方法 分半信度項(xiàng)目折半分析,是通過(guò)將測(cè)驗(yàn)分成兩半,計(jì)算這兩半測(cè)驗(yàn)之間的相關(guān)性而獲得的信度系數(shù)。通常的方法是在測(cè)驗(yàn)實(shí)施后將測(cè)驗(yàn)分為等值的兩半,并分別計(jì)算每位被測(cè)者在兩半測(cè)驗(yàn)上的得分,再求出這兩個(gè)分?jǐn)?shù)的相關(guān)系數(shù)。這個(gè)相關(guān)系數(shù)就代表了兩半側(cè)眼內(nèi)容取樣的一致性程度。 同質(zhì)性信度系數(shù)分析,是指測(cè)驗(yàn)內(nèi)部的各題目在多大程度上考察了同一內(nèi)容,即所有測(cè)驗(yàn)題目測(cè)量的只是單一特質(zhì)或內(nèi)容,表現(xiàn)為所有測(cè)驗(yàn)題目得分的一致性。4、評(píng)分者信度(raters reliability) 在有些測(cè)量情形中,評(píng)分者的評(píng)判也是誤差的來(lái)源之一。
17、例如投射測(cè)驗(yàn)、創(chuàng)造力測(cè)驗(yàn)、無(wú)領(lǐng)導(dǎo)小組討論、管理者情境模擬等,都依賴于評(píng)分者的判斷,這種判斷的主觀性往往造成不同評(píng)分者的評(píng)分很不一致,因此有必要考慮評(píng)分者信度。 評(píng)分者信度是指不同評(píng)分者對(duì)同一對(duì)象進(jìn)行評(píng)定時(shí)的一致性。最簡(jiǎn)單的估計(jì)方法就是隨機(jī)抽取若干份答卷,由兩個(gè)獨(dú)立的評(píng)分者打分,再求每份答卷兩個(gè)評(píng)判分?jǐn)?shù)的相關(guān)系數(shù)。評(píng)分者的評(píng)分越一致,評(píng)分者信度越高。(等級(jí)相關(guān))信度小結(jié): 各種信度評(píng)估的適用情景: 重測(cè)信度評(píng)估側(cè)重考察測(cè)評(píng)跨時(shí)間的一致性和穩(wěn)定性; 復(fù)本信度評(píng)估側(cè)重考察測(cè)評(píng)跨形式的一致性和等值性; 內(nèi)部一致性信度評(píng)估主要反映的是一個(gè)測(cè)評(píng)內(nèi)部題目之間的關(guān)系,揭示測(cè)評(píng)的各個(gè)題目是否測(cè)量了相同的內(nèi)容或特
18、質(zhì)。 評(píng)分者信度評(píng)估主要是考察評(píng)分者的主觀誤差。思考題: 與對(duì)某人品德測(cè)評(píng)分?jǐn)?shù)的可靠性進(jìn)行考察,隨機(jī)抽取其中10個(gè)被試的分?jǐn)?shù),分別是:74、71、80、85、76、77、77、68、74、74,再次測(cè)評(píng)后10個(gè)被試的分?jǐn)?shù)分別是:82、75、81、89、82、89、88、84、80、87。請(qǐng)問(wèn)可以用什么方法評(píng)價(jià)測(cè)評(píng)的可靠性? 如果一個(gè)部門的三個(gè)經(jīng)理分別給部門的幾十位員工考核,你認(rèn)為應(yīng)當(dāng)怎樣檢查三位評(píng)分者評(píng)定的可靠性? 某面試考官對(duì)被試的7項(xiàng)素質(zhì)進(jìn)行測(cè)評(píng),總共面試了8位被測(cè)者,其評(píng)定等級(jí)如下表,請(qǐng)考評(píng)一下這位面試考官的面試結(jié)果是否可靠? 測(cè)評(píng)項(xiàng)目被測(cè)者1234567A3651427B5641327
19、C2751436D3672415E4762315F4562317G3742516H2741635Ri265141123214485-2 測(cè)量的效度5-2-1 效度及其影響因素1、效度的概念2、效度與信度的關(guān)系3、效度的作用4、效度的影響因素5-2-2 效度的評(píng)估方法1、內(nèi)容效度content validity2、效標(biāo)關(guān)聯(lián)效度criterion-related validity3、構(gòu)想效度construct validity1、效度的概念、效度的概念 1、效度的概念、效度的概念 測(cè)量結(jié)果的效度就是指測(cè)量的有效性,是與測(cè)量目的有關(guān)的真實(shí)變異數(shù)與總變異數(shù)的百分比 。 一般被定義為測(cè)驗(yàn)?zāi)軠y(cè)量到所要測(cè)量
20、東西的程度。在評(píng)價(jià)任何測(cè)驗(yàn)時(shí)這都是最重要的考慮。 “效度指從分?jǐn)?shù)進(jìn)行推論的證據(jù)的程度?!庇?guó)教育和心理測(cè)驗(yàn)標(biāo)準(zhǔn)2 效度與信度的關(guān)系二者的區(qū)別:信度與效度的差別在于所考慮的誤差不同。信度考慮的是隨機(jī)誤差的影響;效度考慮的誤差包括隨即誤差和對(duì)測(cè)驗(yàn)?zāi)康臒o(wú)關(guān)的變量引起的系統(tǒng)誤差。例如游標(biāo)卡尺的精度,可能由于設(shè)計(jì)原因或者工具制作工藝、刻度刻畫、金屬材料的溫度特性等因素的影響,卡尺對(duì)長(zhǎng)度的反映會(huì)出現(xiàn)誤差。這些誤差現(xiàn)象是由于測(cè)量工具本身的原因造成的,具有穩(wěn)定性,不管什么人、什么時(shí)間使用都會(huì)出現(xiàn)。而另一方面,每次使用卡尺,不同的人造成的誤差不同,這種誤差是隨機(jī)誤差,是偶然性的不穩(wěn)定的,屬于信度考察的內(nèi)容,指的
21、是測(cè)量結(jié)果的一致性如何。二者的聯(lián)系:信度是效度的必要條件,但不是充分條件。換句話說(shuō),信度高不一定效度必然高。但效度高必定信度高。3、效度的作用 就好像用磅秤測(cè)量身高,每次測(cè)量的結(jié)果都很一直穩(wěn)定(信度很高),但它并不能代表身高,也就是說(shuō)其測(cè)量值并不反映身高這一屬性(效度很低),所以說(shuō),磅秤不是身高這一測(cè)量對(duì)象的適宜測(cè)量工具。 例如一個(gè)數(shù)學(xué)測(cè)驗(yàn)可能對(duì)學(xué)生的數(shù)學(xué)成績(jī)的預(yù)測(cè)效度很好,但對(duì)學(xué)生整體智力的預(yù)測(cè)效度就沒(méi)有那么好,對(duì)學(xué)生的性格可能根本就沒(méi)有預(yù)測(cè)效度。4、效度的影響因素 一個(gè)測(cè)驗(yàn)效度的高低,很大程度上取決于該測(cè)驗(yàn)受無(wú)關(guān)因素影響的程度。凡是能造成測(cè)驗(yàn)結(jié)果誤差的因素,都會(huì)影響測(cè)驗(yàn)效度。 測(cè)驗(yàn)題目的質(zhì)
22、量:難易程度、暗示性、題意表達(dá)、試題內(nèi)容取樣的代表性 實(shí)施測(cè)驗(yàn)時(shí)的干擾因素:指導(dǎo)語(yǔ)、計(jì)分錯(cuò)誤 被試的影響因素:反應(yīng)定勢(shì)、測(cè)驗(yàn)動(dòng)機(jī)、情緒 測(cè)驗(yàn)的長(zhǎng)度:增加測(cè)驗(yàn)題目往往能增加測(cè)驗(yàn)的信度和效度。5-2-2 效度的評(píng)估方法 對(duì)測(cè)量效度的考察反映在下面兩個(gè)問(wèn)題之中: 該測(cè)驗(yàn)?zāi)軌蚝芎玫念A(yù)測(cè)我們感興趣的成績(jī)嗎? 該測(cè)驗(yàn)真正測(cè)量的是什么? 第一個(gè)問(wèn)題集中于效標(biāo),也就是判斷一個(gè)測(cè)驗(yàn)預(yù)測(cè)的成功性的標(biāo)準(zhǔn)。這就要求建立測(cè)驗(yàn)成績(jī)與那個(gè)標(biāo)準(zhǔn)之間的關(guān)系。(預(yù)測(cè)效度) 第二個(gè)問(wèn)題集中于測(cè)驗(yàn),要求明確關(guān)于測(cè)驗(yàn)所測(cè)量目標(biāo)的內(nèi)在理論或心理構(gòu)想。(內(nèi)容效度) 測(cè)驗(yàn)效度不能按籠統(tǒng)的方式去測(cè)量,而只能根據(jù)測(cè)驗(yàn)所考慮的特定用途去測(cè)量,在決
23、定是否使用測(cè)驗(yàn)時(shí),我們需要了解從已知測(cè)驗(yàn)結(jié)果做出某種推論的有效性,也就是說(shuō),我們是證實(shí)測(cè)驗(yàn)的有效性,還是證實(shí)我們希望對(duì)測(cè)驗(yàn)結(jié)果進(jìn)行推論的有效性。對(duì)于一個(gè)特定問(wèn)題,測(cè)量目的決定了所用的效度評(píng)定方法,問(wèn)題是關(guān)于使用測(cè)驗(yàn)成績(jī)來(lái)預(yù)測(cè)在校標(biāo)上的成績(jī),還是關(guān)于研究測(cè)驗(yàn)實(shí)際測(cè)量的內(nèi)容或構(gòu)想。1、內(nèi)容效度content validity 內(nèi)容效度是一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到的內(nèi)容與所要測(cè)量的內(nèi)容之間的吻合程度,是檢查測(cè)驗(yàn)內(nèi)容是否是所預(yù)測(cè)量的行為領(lǐng)域的代表性取樣的指標(biāo)。如高中物理包括力學(xué)、電學(xué)、光學(xué)、熱學(xué)以及原子物理學(xué)5個(gè)方面。 在實(shí)際工作中我們編制的測(cè)驗(yàn)不可能包含所要測(cè)量的行為領(lǐng)域的全部可能的材料或情境,只能選擇一個(gè)有
24、代表性的樣本,通過(guò)觀察被試對(duì)個(gè)別題目的反應(yīng),來(lái)推測(cè)他的總體行為表現(xiàn)。 應(yīng)用范圍:主要應(yīng)用于成就測(cè)驗(yàn)、職業(yè)選拔測(cè)驗(yàn)。不適合能力傾向測(cè)驗(yàn)和人格測(cè)驗(yàn)。 內(nèi)容效度的評(píng)價(jià)可以回答: 該測(cè)驗(yàn)是否是應(yīng)考察的某種技能和知識(shí)的代表性樣本 測(cè)驗(yàn)成績(jī)是否不受無(wú)關(guān)因素的影響 內(nèi)容效度對(duì)效標(biāo)參照測(cè)驗(yàn)尤為重要,因?yàn)樵谛?biāo)參照測(cè)驗(yàn)中,被試的表現(xiàn)往往以測(cè)驗(yàn)內(nèi)容來(lái)解釋。確定內(nèi)容效度的方法藍(lán)圖對(duì)照分析法:19991999年全國(guó)碩士研究生入學(xué)考試英語(yǔ)試卷結(jié)構(gòu)框架年全國(guó)碩士研究生入學(xué)考試英語(yǔ)試卷結(jié)構(gòu)框架專家比較判斷法:C Cn nN N2 2N N2 2(N N為專家總數(shù),為專家總數(shù),n n為肯定人數(shù))為肯定人數(shù))部分節(jié)考試內(nèi)容試題
25、形式試題量分值權(quán)重考試時(shí)間語(yǔ)法結(jié)構(gòu)與詞匯A語(yǔ)法填空(單句)四選一1052020%35B語(yǔ)法辨錯(cuò)(單句)四選一105C詞語(yǔ)填空(單句)四選一2010完形填空完形填空(1篇短文)四選一101010%15閱讀理解閱讀理解(5篇短文)四選一204040%60英譯漢正確理解英語(yǔ)原文并用漢語(yǔ)表達(dá)原文所述內(nèi)容五段譯文51515%30短文寫作根據(jù)所給題目或素材寫出敘述、說(shuō)明或議論性的短文一篇作文11515%40總計(jì)76100100%1802、效標(biāo)關(guān)聯(lián)效度(同時(shí)) 效標(biāo)關(guān)聯(lián)效度又稱為效標(biāo)效度,指測(cè)評(píng)結(jié)果與某種標(biāo)準(zhǔn)結(jié)果的一致性程度,反映的是測(cè)驗(yàn)分?jǐn)?shù)與外在標(biāo)準(zhǔn)(效標(biāo))的相關(guān)程度,即測(cè)驗(yàn)分?jǐn)?shù)對(duì)個(gè)體的效標(biāo)行為表現(xiàn)進(jìn)行預(yù)
26、測(cè)的有效性程度。把一組人的測(cè)評(píng)分?jǐn)?shù)和其績(jī)效分?jǐn)?shù)求出相關(guān)就可以得到同時(shí)效度 例如一個(gè)機(jī)械能力傾向測(cè)驗(yàn),其效度的標(biāo)準(zhǔn)(效標(biāo))可以是成為機(jī)械師之后的表現(xiàn);對(duì)于一個(gè)管理能力測(cè)驗(yàn)而言,其效標(biāo)可以是將來(lái)從事管理工作的績(jī)效。 效標(biāo)關(guān)聯(lián)效度往往用于預(yù)測(cè)性測(cè)驗(yàn),在這些測(cè)驗(yàn)中,測(cè)驗(yàn)分?jǐn)?shù)一般用于甄選決策,只有當(dāng)證明測(cè)驗(yàn)分?jǐn)?shù)確實(shí)能夠預(yù)測(cè)所研究的行為時(shí),這種決策才可能正確。效標(biāo)效度的種類 根據(jù)效標(biāo)結(jié)果與測(cè)評(píng)分?jǐn)?shù)獲得的時(shí)間是否相同可分為預(yù)測(cè)效度和同時(shí)效度。同時(shí)效度的效標(biāo)材料可以和測(cè)驗(yàn)分?jǐn)?shù)差不多同時(shí)收集。預(yù)測(cè)效度的效標(biāo)資料是在測(cè)量結(jié)束后相隔一段時(shí)間才取得的,它反映的是由測(cè)驗(yàn)分?jǐn)?shù)對(duì)任一段時(shí)間間隔后被試行為表現(xiàn)的預(yù)測(cè)程度。適用
27、于對(duì)人員進(jìn)行選拔、分類、安置的人事測(cè)量,這些測(cè)量需要對(duì)應(yīng)試者將來(lái)的工作績(jī)效進(jìn)行可靠的預(yù)測(cè)。 二者的差異根源不在于收集效標(biāo)的時(shí)間,而是在于預(yù)測(cè)目的的不同,預(yù)測(cè)效度多用于預(yù)測(cè)未來(lái)的結(jié)果,同時(shí)效度多用于診斷現(xiàn)在的狀態(tài)。 “某人成功了嗎?”或“某人患病了嗎?” “某人會(huì)成功嗎?”或“某人會(huì)患病嗎?”常見效標(biāo)種類 學(xué)術(shù)成就前提是“智力高的人,學(xué)術(shù)成就應(yīng)該越大” 。如:在校成績(jī)、學(xué)歷、研究成果等。 特殊訓(xùn)練成績(jī)能力傾向測(cè)驗(yàn)成績(jī)常用某種特殊訓(xùn)練中取得的成績(jī)做效標(biāo)。如:言語(yǔ)智商用語(yǔ)文成績(jī)做效標(biāo);機(jī)械能力用技術(shù)培訓(xùn)成績(jī)做效標(biāo)等。 實(shí)際工作表現(xiàn) 團(tuán)體特征用兩個(gè)在效標(biāo)表現(xiàn)上有差別的團(tuán)體比較他們?cè)陬A(yù)測(cè)源分?jǐn)?shù)上的差別。
28、如:一個(gè)音樂(lè)傾向測(cè)驗(yàn)的效度,可以由比較音樂(lè)學(xué)院學(xué)生的分?jǐn)?shù)與一般大學(xué)生分?jǐn)?shù)獲得。 等級(jí)評(píng)定結(jié)果 前期測(cè)評(píng)結(jié)果3、構(gòu)想效度construct validity 構(gòu)想效度是指測(cè)驗(yàn)?zāi)軌驕y(cè)量到理論上的構(gòu)想或特質(zhì)的程度。所謂構(gòu)想通常指一些抽象的、假設(shè)性的概念或特質(zhì),如智力、創(chuàng)造力、言語(yǔ)流暢性、焦慮等。這些構(gòu)想無(wú)法直接觀察。但是每個(gè)構(gòu)想都有其心理上的理論基礎(chǔ)和客觀現(xiàn)實(shí)性,可以通過(guò)各種可觀察的材料加以確定。 例如言語(yǔ)流暢性可以通過(guò)語(yǔ)速、語(yǔ)句間的邏輯性、口誤的數(shù)量等可觀察的指標(biāo)進(jìn)行確定。 適用范圍:適用于智力測(cè)驗(yàn)、人格測(cè)驗(yàn)等。確定構(gòu)想效度的方法1、提出理論假設(shè),并將其分解成細(xì)目;2、依據(jù)理論框架,推演出有關(guān)測(cè)驗(yàn)
29、成績(jī)的假設(shè)(操作化定義);3、用邏輯的和實(shí)證的方法來(lái)驗(yàn)證假設(shè)(排除法、咨詢法、相關(guān)法、邏輯分析法、多元分析法)。 例如:韋克斯勒首先假設(shè)“智力是一個(gè)人去理解和應(yīng)付他周圍世界的總的才能”,然后,他依據(jù)這一定義,編制11個(gè)分測(cè)驗(yàn)從十幾個(gè)方面來(lái)說(shuō)明智力,編好測(cè)驗(yàn)又從多個(gè)角度加以驗(yàn)證,最后,用因素分析法驗(yàn)證,該測(cè)驗(yàn)實(shí)際測(cè)量了三類共同因素,即A因素(言語(yǔ)理解)、B因素(知覺組織)、C因素(記憶和注意集中)。5-3 項(xiàng)目分析 項(xiàng)目分析是指根據(jù)試測(cè)結(jié)果對(duì)組成測(cè)驗(yàn)的各個(gè)題目(項(xiàng)目)進(jìn)行分析,從而評(píng)價(jià)題目好壞、對(duì)題目進(jìn)行篩選的程序和方法。通過(guò)項(xiàng)目分析,對(duì)測(cè)驗(yàn)題目進(jìn)行選擇和修改,可以提高測(cè)驗(yàn)的信度和效度。了解項(xiàng)目
30、分析的概念和方法,能夠幫助測(cè)驗(yàn)使用者評(píng)價(jià)現(xiàn)有的各種測(cè)驗(yàn)。 定性分析:主要考慮內(nèi)容效度,即題目表達(dá)的恰當(dāng)性和有效性等方面。 定量分析:主要考察題目難度和鑒別度是否適當(dāng)。5-3-1 測(cè)量的難度分析 難度分析就是對(duì)題目的難度進(jìn)行估計(jì)以確定適宜的難度,難度的指標(biāo)通常以“通過(guò)率”表示,即答對(duì)或通過(guò)該題目的人數(shù)百分比。通過(guò)人數(shù)越多題目越容易。 測(cè)驗(yàn)難度的確定,要依據(jù)測(cè)驗(yàn)的目的、性質(zhì)和題目的形式而定。 測(cè)驗(yàn)?zāi)康模弘y度極大或難度極小時(shí),都不容易區(qū)分個(gè)體差異。難度中等的題目比較適合區(qū)分個(gè)體差異。 測(cè)驗(yàn)作用:選拔性測(cè)驗(yàn)應(yīng)使難度接近錄取率。 題目形式:選擇題的難度一般應(yīng)大于概率水平(如四選一題目難度0.63最合適)
31、;是非題難度應(yīng)該為0.75最合適。5-3-2 測(cè)量的鑒別度分析 項(xiàng)目鑒別度是指測(cè)驗(yàn)項(xiàng)目對(duì)于所測(cè)查的心理特性的鑒別能力和區(qū)分程度,可以從項(xiàng)目效度和內(nèi)部一致性方面進(jìn)行考慮。 項(xiàng)目效度分析主要以效標(biāo)為依據(jù),考察被試在每個(gè)試題上的反應(yīng)與其在效標(biāo)上表現(xiàn)的相關(guān)程度,即每個(gè)試題所測(cè)查的行為是否反映了被試在效標(biāo)上的表現(xiàn)。 內(nèi)部一致性分析有時(shí)進(jìn)行項(xiàng)目分析難以找到合適的效標(biāo),這是就用測(cè)驗(yàn)總分代替效標(biāo),考察每個(gè)試題與總分的一致性。5-3-3 測(cè)驗(yàn)的公平性分析擲色子或扔硬幣幫助做決策你認(rèn)為公平嗎?結(jié)果的公平性:在職業(yè)選拔中,結(jié)果公平指選用了“最好” 的人。如何定義“最好” 以及怎樣確?!白詈谩?能夠被測(cè)量決定結(jié)果的公
32、平性,這主要由測(cè)驗(yàn)的技術(shù)性方面來(lái)確定,是測(cè)驗(yàn)過(guò)程和測(cè)量效標(biāo)過(guò)程二者的函數(shù)。過(guò)程的公平性:指的是某些人的測(cè)驗(yàn)分?jǐn)?shù)受到誤差的影響不會(huì)與其他人顯著不同。因?yàn)槭軠y(cè)者的表現(xiàn)總是發(fā)生在一定情境中,測(cè)驗(yàn)成績(jī)必然反映一定情境的作用。 測(cè)驗(yàn)選擇時(shí)要考慮文化、語(yǔ)言因素 測(cè)驗(yàn)實(shí)施時(shí)要公平對(duì)待每個(gè)受測(cè)者監(jiān)測(cè)不同群體的成績(jī)分布是否存在顯著差異,是合理原因造成的還是另有隱情。5-3-4 測(cè)驗(yàn)的經(jīng)濟(jì)效益分析 效用分析 在選拔性測(cè)評(píng)中,需要計(jì)算因錄取率提升和生產(chǎn)效率上升而帶來(lái)的價(jià)值。 在招聘測(cè)評(píng)中要計(jì)算通過(guò)測(cè)評(píng)技術(shù)提高的工作效率和錄用準(zhǔn)確性帶來(lái)的價(jià)值。各種測(cè)評(píng)方法在四項(xiàng)指標(biāo)上的比較:各種測(cè)評(píng)方法在四項(xiàng)指標(biāo)上的比較: 測(cè)評(píng)方法測(cè)評(píng)方法 效度效度 公平性公平性 可用性可用性 成本成本智力測(cè)驗(yàn)智力測(cè)驗(yàn) 中等中等0.49 0.49 中等中等 高高 低低性向與能力測(cè)定性向與能力測(cè)定 中等中等0.27 0.27 高高 中等中等 低低個(gè)性與興趣測(cè)定個(gè)性與興趣測(cè)定 中等
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 延邊大學(xué)《制漿造紙環(huán)境保護(hù)概論》2024-2025學(xué)年第一學(xué)期期末試卷
- 2025年高考地理試卷附答案(新課標(biāo)卷)
- 2025年地理筆試模擬試題及答案
- 2025年保育知識(shí)考核試題及答案
- 2025《機(jī)械員》考試題庫(kù)附答案(黃金題型)
- 西安建筑科技大學(xué)華清學(xué)院《餐飲服務(wù)與管理》2024-2025學(xué)年第一學(xué)期期末試卷
- 陜西國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院《數(shù)學(xué)教育研究與論文寫作》2024-2025學(xué)年第一學(xué)期期末試卷
- 安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院《三維動(dòng)態(tài)仿真設(shè)計(jì)》2024-2025學(xué)年第一學(xué)期期末試卷
- 石油石化職業(yè)技能鑒定試題集及答案-天然氣壓縮機(jī)
- 國(guó)際信托面試題目及答案
- 2025便利店加盟的合同樣本
- 評(píng)職稱老師考試題目及答案
- 2025年內(nèi)分泌風(fēng)濕免疫科進(jìn)修人員出科理論考試試題及答案
- 學(xué)堂在線 高技術(shù)與現(xiàn)代局部戰(zhàn)爭(zhēng) 章節(jié)測(cè)試答案
- 2025年醫(yī)療器械倉(cāng)庫(kù)管理培訓(xùn)試題及答案
- 助焊劑存儲(chǔ)管理辦法
- 乙型肝炎防治知識(shí)教學(xué)課件
- 環(huán)衛(wèi)安全事故處理方案
- 七十歲老年人三力測(cè)試駕考題庫(kù)
- 物資檢測(cè)培訓(xùn)課件圖片
- 高鉀血癥試題及答案
評(píng)論
0/150
提交評(píng)論