心理咨询师三级第五章心理测量学知识点整理

图片 1

心理咨询师三级第五章心理测量学知识点整理

官网:艾德教育.com 
  咨询电话:400-8327770

高考“一年多考”的“分数等值”研究与实践发布时间:2016-10-09

艾德教育:http://www.aidemuke.com/ 
      400-832-7770            咨询电话:022-58697826

 第三节测验的信度

成果公报

一、测量要素:

第一单元信度的概念

华南师范大学心理学院张敏强教授主持完成了课题高考一年多考的分数等值研究与实践。课题组主要成员为:王蕾、关丹丹、焦丽亚、黎光明、简小珠、方杰和张洁婷。

参照点:1)绝对零点;2)相对零点。在心理测量中不可能找到绝对零点,只能人为的采用相对零点(常模)。

一、信度的定义

内容与方法

单位:(必须具备两个条件):1)有确定的意义;2)有相同的价值。

信度是指在不同时间内用同一测验(或用另一套相等的测验)重复测量同一被试者,所得结果的一致程度。信度只受随机误差的影响。

1 研究内容

二、测量量表:是一个有单位和参照点的连续体:从低级到高级分成四中水平:

在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差(实得分数的方差)的比率,即rxx=ST2/
Sx2。

本项目通过研究及模拟数据实验找到一种有理论基础、为广大考生所接受的分数等值方法,并应用于一年多考的高考实践中去,以解决一年多次考试的不同难度的考卷分数比较及转换。基于此研究目的,开展以下研究。

(1)命名量表: 数字只能用来做标记和分类,不能做数量化分析。

二、信度的指标

研究经典测验理论和项目反应理论在规模考试中分数等值的理论依据,分别基于两种测验理论探讨适用于大规模考试的分数等值理论,并进行实证比较。

(2)顺序量表:数字仅表示等级,并不表 示某种属性的真正量或绝对值。

(一)信度系数与信度指数

基于IRT模型在测验等值中的应用优势,进一步探讨IRT模型框架下的等值方法。

(3)等距量表:有相同单位,其数值可以做加减运算,但没
有绝对零点,因此不能做乘除运算。注:等距量表的数值加或减一个常数或用一个常数乘或除,不破坏原来数据的关系。

公式rxx=rxT2=ST2/Sx2和公式rxT=Sr/Sx表明信度指数的平方就是信度系数。

通过以下子研究达到目的:

(4)等比量表:既有相等单位,又有绝对零点。所得的数值均
可以做加、减、乘、除运算。如长度、重量和时间都是等比量表。注:心理测量首先是在顺序量表上进行的。然后运用某些统计学的方法,把这种顺序量表得到的数据,换算到等距数
据进行转换。

(二)测量标准误

1构建测验等值的流程化思路;

三、测验的分类:

SE=Sx公式中SE为测量的标准误,Sx是所得分数的标准差,rxx为测验的信度系数。从公式中可以看出,测量的标准误与信度之间的关系是:①信度越低,标准误越大;②信度越高,标准误越小。

2探讨题组测验局部依赖性的模型解决方法,优化测验等值的参数估计步骤;

按测验的功能分类:1、智力测验2、特殊能力测验;3、人格测验。

第二单元信度评估的方法

3比较和归纳量表化与等值方法,为等值方法的选用提供参考性建议。

按测验材料的性质分类:1、文字测验;2、操作测验(非文字测验)。

估计信度的方法一般有:①重测信度;②复本信度;③内部一致性信度;④评分者信度。

针对测量模型的优化、等值误差的测量与控制以及测验数据的纵向特点,分别对测量的方差分量估计、混合模型和认知诊断模型的应用与纵向数据分析方法进行拓展研究。

按测验材料的严谨程度分类:1、客观测验;2、投射测验(受社会赞许影响不大;受应试动机的影响较小)。

一、重测信度

本课题研究思路如下:

按测验的要求分类:1、最高作为测验(有正确的答案。如智力测验、成就测验等);2、典型行为测验
(没有正确答案。如人格测验均属典型行为测验)。

使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数,叫重测信度,又称稳定性系数。

2研究方法

四、确定常模团体时,要先确定一般总体,再确定目标总体,最后确定样本。

用重测法估计信度,最适宜的时距随测验的目的、性质和被试者的特点而异,一般是2~4周较宜,间隔时间最好不超过6个月。

本研究在各等值理论方法的比较归纳基础上,结合使用实证研究与模拟研究对各等值方法进行比较。

常模团体的条件

二、复本信度

2.1 等值方法

1、群体的构成必须明确界定;

复本信度又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。复本信度反映的是测验在内容上的等值性。

2.1.1基于经典测量理论的等值方法

2常模团体必须是所测群体的代表性的样本;

如果复本信度考虑到两个复本实施的时间间隔,并且两个复本的施测相隔一段时间,则称:①重测复本信度;②稳定与等值系数。

经典测验理论假设能力特质是潜在而相对稳定的,某能力特质的真正水平的数值为真分数T,实测的结果会围绕着真分数随测量的随机误差而在某范围内波动,即观察分数是真分数和随机误差分数的线性组合。在CTT理论框架下构成了信度、效度、难度和区分度这四个指标对测验的质量和特性进行评价,分别反映测验的稳定性、有效性和测验项目的难易程度、区分能力。基于CTT的传统等值方法包括平均数等值、线性等值、等百分位等值等。

3、样本的大小要适当(样本大小适当的关键是样本具有代表性,一般性常模:最低不少于30或100个)。

复本信度的缺点有:①如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;②由于第二个测验只改变了题目的内容,已经掌握的解题原则可以很容易地迁移到同类问题;③对于许多测验来说,建立复本是十分困难的。

2.1.2 基于项目反应理论的等值方法

4、全国性常模:一般2000~3000人为宜。

三、内部一致性信度

项目反应理论,又称潜在特质理论,采用非线性模型,建立考生对题目的作答反应与潜在特质之间的非线性关系。该测验理论有两大基本假设:1对考生所测试的潜在能力具有单维性;2在考虑了考生的能力之后,考生对各个项目的反应是相互独立的。项目反应最大的特点是,考生的能力估计不依赖于项目的难度参数,即考生的分数不会由于试题的难或容易而产生高估或低估。基于IRT的等值方法在数据收集后根据题目和数据类型选择合适的IRT模型进行IRT参数估计;然后使用某种方法,如动差方法、特征曲线转换方法(characteristic
curve
method)、同时校准方法进行IRT量表转换,使参数估计置于同一个量尺上;最后进行测验原始分数向量表分数的转换。

5、标准化样组是一定时空的产物

(一)分半信度

2.2 Monte Carlo模拟研究方法

五、常模团体取样的方法:从目标人群中选择有代表性的样本。分为:

分半信度通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试者在两半测验上的得分,求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的一致程度。

Monte
Carlo模拟方法已经在应用物理、原子能、固体物理、化学、生物、生态学、社会经济学以及经济行为等领域中得到广泛应用。特别是在计算机上用Monte
Carlo模拟方法解决很多理论和应用科学问题,在很大程度上可以替代许多大型的、难以实现的复杂实践或社会行为过程。

1、简单随机抽样;

斯皮尔曼一布朗公式rxx=2rhh/(1+rhh)式中rhh为一半分数的相关系数,rxx为测验在原长度时的信度估计值。

结论与对策

2、系统抽样(目标总体无序可排,也无等级机构存在);

(二)同质性信度

1 基于两种测量理论的等值方法比较

3、分组抽样(总体目标较大,如全国 取样);

同质性信度主要代表测验内部所有题目间的一致性。

通过实证与理论研究,对经典测量理论与项目反应理论下的等值方法进行比较,得到如下结论。

4、分层抽样(分层比例抽样,分层非比例抽样)。

K-R20公式、K-R21公式有别于克伦巴赫 a系数的是,它们只能用于是非题。

经典测验理论的测验等值方法存在不少困难与局限:首先,它们确定的转换关系依赖于样本,会随被试样组的不同而变化,等值条件的唯一性要求不能满足,无论哪种方法,都难以确保求出的转换关系是对称的、公平的。其次,经典测验等值方法应用重点又都在被试观察分数等值上,很难妥善解决难度、区分度这类项目参数等值的问题。最后,更重要的是,即使在线性等值的情况下,经典等值理论所认定的应予等值的测验分数间的线性转换关系,也是假设能够存在的,而不是必然能够具有的。项目反应理论却根本不同,在所选反应模型与实测资料适合良好的情况下,按项目反应理论方法所确定的被试特质与项目参数间的转换关系,就是必然应该具有的,这是因为特质与项目参数本应具有不变性。也正由于转换关系是来自模型的理论性质本身,所以,能够保证全面地较好满足唯一性、公平性、对称性等要求。另外,由于项目反应理论能同时估出特质与项目参数,特别是,项目难度又是直接定义在特质参数量纲上,因而,就能同时解决特质水平与项目参数的等值问题。所以,项目反应理论等值不仅在理论上具有优良的性质,而且在实用上具有极强的功能。项目参数等值问题的解决为大型题库的建设提供了有力的技术保证。

六、常模,是一种供比较的标准量数,由标准化样本测试结果计算而来,它是心理测验时用于比比较和解释测验结果的参照份数标准。常模分数:将被试者的原始分数按一定的规则换算出来
的导出分数(又叫常模表)。常模分数的要素:原始分数;导出分数。

四、评分者信度

因此,本项目进一步重点对IRT理论框架下的等值方法进行研究。

七、发展常模:年龄量表中的个人分数指出他的行为在按正常途径发展方面处于什么样的发展水平。智力年龄:1936年吴天敏和陆志韦修订的《中国比内–西蒙智力量表》为例。每个年龄有6个题目,答对每个题目代表2个月的智令,例如:某儿童6岁组的题目全部通过,7岁组通过4题,8岁组通过3题,9岁组通过2题,其智龄为:6岁+4*2(月)+3*2(月)+2*2(月)=6岁+18=7岁6个月。(满12个月令=1智龄)

一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上,才认为评分是客观的

2 基于IRT的等值技术

八、百分位常模包括:百分等级:是指在常模样本中低于这个分数的人数的百分比。百分等级支出的是个体在常模团体中所处的位置,百分等级越低,个体所处的位置就越低。百分点也称百分数:是计算处于某一百分比例(百分等级)的人对应的测验分数(原始分数)是多少。在分数量表上,相对于某一百分等级的分数点就叫百分点或百分位数。通过这样的双向方式编制的原始分数百分等级对照表,就是百分位常模。四分位数和十分位数:1)四分位数:相当于百分等级的25%、50%、75%对应的三个百分位数分成的四段。注:最小的是1%;2)十分位数:1%-10%为第一段,41%-50%为第五段,91%-100%为第十段。百分等级

正确的描述是:①随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度;②所有题目看起来好像测量同一特质,但相关很低或为负相关时,则测验为异质的;③人的多数心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不会有很大变化;④不同的信度反映测验误差的不同来源。

2.1 IRT测验等值的流程化操作思路构建

标准二十分离差智商

第三单元信度与测验分数的解释

测验等值是测验研究中相对薄弱的一个环节,许多重要的考试都尚未实现统计等值。造成这种窘境的原因,皆因等值操作困难化。在参考国内外关于测验等值的相关文献的基础上,构建出IRT测验等值的流程化操作思路,包括等值设计、数据收集、参数估计、量表化及测验等值等五个步骤,如下图所示。

10(平均数)3(标准差)100(平均数)15(标准差)

一、解释真实分数与实得分数的相关

进一步,对参数估计、量表化和测量等值环节作方法上改进。

1698%1302

rxx为信度系数。下列情况属于极端情况:①rxx=0;②rxx=1.00。

2.2 题组测验中处理局部项目依赖性的模型发展

1384%1151

二、确定信度可以接受的水平

在教育和心理测验领域中,题组是常用的测验建构、测验实施和评分的单元。题组是指共用同一个背景材料的一组题目。由于同一题组内的多个题目共用一个刺激材料,
IRT模型的局部项目独立假他设往往难以满足,出现局部项目依赖。局部项目依赖是指对于特定能力的被试,其在某个题目上的作答影响在其他题目的作答或受其他题目作答情况的影响。

1050%1000

确定可以接受的信度水平的一般原则是,当rxx<0.70时,测验不能用于对个人做出评价或预测,而且不能作团体比较。0.70≤rxx<0.85时,可用于团体比较;rxx≥0.85可用于个人和团体

本研究在评述题组测验中处理LID的标准IRT方法、多级评分IRT方法、题组随机效应方法和两因子方法的基础上,以参数估计精度作为准则,对这4
种处理LID方法的效果和适用条件进行了归纳并作出相应的评析。

716%85-1

三、解释个人分数的意义

依据前人关于处理LID方法的研究,总结如下:当题组长度较短且题组型题目所占比例较小时,可以采用标准IRT模型进行数据分析;当题组LID为中等程度且测验包含很大部分相互独立项目时,采用多级计分IRT模型来处理LID也是可以的;当题组存在较大LID时,应当采用TRT模型和两因子模型。二者各有优点,相比两因子模型,
TRT模型更节俭,但两因子模型参数估计软件运行更加简单和高效。但是,如果测验中存在局部独立项目,采用TRT模型会得到更为精确的参数估计值。

42%70-2

信度系数在解释个人分数的意义时的作用是:①估计真实分数的范围;②了解实得分数再测时可能的变化情形。

2.3 IRT与MIRT在测验垂直等值中的应用

九、标准分常模:是将原始分数与平均数的距离,以标准差为单位表示出来的量表。因为它的基本单位是标准差,所以叫标准分数。标准分数可分为通过线性转换和非线性转换两大类。常态化的标准分数(线性转化的标准分)有:T分数:以50为平均数(加一个常数50),以10为标准差(乘以一个常数10)所表示的标准分,通常叫T分数。T=50+10*z(相当于z);标准九分:平均数为5,标准差为2,一般用于评价教学中成绩的分级和美国空军,标准十分:平均数为5.5,标准差为1.5,;标准二十分:平均数为10,标准差为3.离差智商是常态化标准分中应用最广,影响最大的标准分。非线性转换标准分:常态化过程:①将原始分转化为百分等级;②再将百分等级转化为常态分布上相应的标准分数。原始分数不是正态分布时,也可以通过非线性转换。

“大约有
95%的可能性真分数落在所得分数±1.96SE的范围内,或有5%的可能性落在范围之外”的描述,其置信区间为X-1.96SE<XT
≤X+1.96SE。

常用的测验等值是水平等值,是对测量同一心理特质的多个测验形式进行分数转换,要求各个测验形式之间具有同质性、等信度、难度相近、对称性、样本不变性等特点。但是,在实际应用中,常面临多个测验的难度水平有明显差异,或被评价团体的能力水平差异较大等情况。垂直等值则是针对这种情况的等值,将测试同学科、同一种心理特质的不同水平测验转换到同一个分数量尺上。它要求测验具有相似结构与高信度,但不要求测验难度相同、被试水平一致。IRT与MIRT是实现垂直等值的主要方法。

十、比率智商:局限性:因个体心理年龄与实足年龄并不同步增长的,所以它不适合年龄较大的受测者。离差智商:是依据测验分数常态分布来确定的。离差智商的平均数为100,标准差为15。其优点为:韦克斯勒的离差智商建立在统计学的基础上;它表示的是个体智力在同年龄组中所处的位置;离差智商是表示智力水平高低的一种理想指标。其公式:

四、比较不同测验分数的差异

IRT的垂直等值步骤及其适用方法总结如下。

IO=100+15*z=100+15*{X(量表分数)-X(平均量表分数)}/SD(量表分数的标准差)*100。

甲被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和
0.88,那么甲被试的操作智商不显著高于言语智商。

模型选择。研究者通常根据数据类型、参数估计精度和等值误差选择合适的IRT模型进行垂直等值。主要有:用于0-1
计分测验的单参数、两参数以及三参数逻辑斯蒂克模型,用于多级计分的测验的等级反应模型、分部评分模型、拓广分布评分模型、称名反应模型和评定量表模型。

的斯坦福一比内量表中采用了离差智商平均数为100,标准差为16.

第四单元影响信度的因素

参数估计与标定。通过标定把不同的能力测验转换到同一尺度上,
即构建共同量表。常用的标定方法有同时标定和分别标定。

十一、信度评估的估计方法:1重测信度又称稳定性系数:主要考察了跨时间的一致性。优点:能提供有关测验是否随时间而变异的资料,可作为被试将来行为表现的依据。缺点:易受练习和记忆的影响。一般分为两周到四周为宜,间隔时间最好不超过六个月。2、复本信度又称等值性系数:它主要考察了跨形式的一致性(等值性)。如果两个复本的施测相隔一段时间,则称重测复本信度或稳定与等值系数。他既考虑了测验在时间上的稳定性,又考虑了不同题目反应的一致性。3、内部一致性信度;主要反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。4、评分者信度:一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。

一、样本特征

最常用的能力分数估计方法有极大似然估计、期望后验估计和极大后验估计。

十二、信度解除个人分数的意义:一是估计真实分数的范围;二是了解实得分数再测试时可能的变化情形。标准误差:SE=SX√1-rxx。在95%的或然水平时,其置信区间为X-1.96SE

一般而言,若获得信度的取样团体较为异质的话,往往会高估测验的信度。

MIRT是在IRT和因素分析的基础上发展起来的一种测验理论。两者方法和步骤类似,但仍存在以下区别:首先,模型选择方面,IRT适合单维数据,MIRT适合多维数据;其次,标定方法选取方面,数据满足单维性假设时,同时标定更具优势,一旦数据无法满足单维性假设,若采用IRT方法,分别标定优于同时标定,若采用MIRT方法,同时标定则更具优势;第三,
能力估计方法方面,关于IRT方法的研究较多,MIRT相关的研究较少。

十三、影响信度的因素:

二、测验长度

2.4 非等组锚题设计的IRT等值方法及其应用分析

样本特征:

一般来说,在一个测验中增加同质的题目,可以使信度提高。下列描述中正确的是:①测验越长,测验的测题取样或内容取样就越有代表性;②测验越长,被试者受猜测因素的影响就越小;③测验太长,有时反而会引起被试者的疲劳和反感而降低可靠性。

本研究在非等组锚测验设计下,根据前人的模拟与实证研究,针对常用的0-1计分三参数IRT模型,对的同时参数标定、线性参数转换和固定参数标定这三大类等值方法的优缺点总结归纳如下。

1、样本团体异质性的影响。样本团体较为异质的化,往
往高估测验的信度,反之则会低估测验的信度。

一个包括40个题目的测验信度为 0.80,欲将信度提高到
0.90,通过斯皮尔曼一布朗公式的导出公式计算出至少应增加50个题数。教材(P355)和习题74均错:K=[0.9(1-0.8)]/[0.8(1-0.9)]=2.25,即要取得0.9的信度,测验长度应为原来的2.25倍(而不是2.5倍),即需增加40×2.25-40=50,习题74的正确选择应为D(姜长青)。

当锚题数量为中等或较大水平时,群体能力分布没有差异或差异很小时,CC和LSC的等值效果都很好,测验工作者可根据实际需要等值到哪个量尺上来选择不同的方法:当需要等值到基准组被试群体的量尺上时,可选用LSC;当需要等值到基准组和目标组合并后的被试群体的量尺上,应选用CC。

2、样本团体平均能力水平的影响。

三、测验难度

当锚题数量为中等或较大水平时,若群体能力分布差异较大时,采用CC等值效果更佳,若需转换到基准测验量尺上,可先采用CC方法估计出项目参数,再采用矩估计法转换到基准测验量尺上。

测验长度:测验越长测题取样或内容取样越有代表性;测验越长被试的猜测因素影响就越小。注:增加测验长度的效果应遵循报酬递减率原则,则测验过长会引起被试的疲劳和反感而降低可靠性。

对于不同平均能力水平的团体,题目的难度会影响信度系数。

当锚题数量为较小水平时,使用LSC中的特征曲线法时等值效果较好。

3、测验难度:若测验对某团体太难或太易,则分数范围将缩小,从而使信度降
低。如果某个测验适用范围很广,其难度水平通常适合于中等能力水平的受测者,而对较高水平或较低水平的受测者可能较易或较难,使得分数分布范围缩小,信度水平降低。

洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测题,0.70;四择一测题,0.74;三择一测题,0.77;二择一题,0.85。

当构建大型题库时,采用FIPC更为灵活、有效、省时。

4、时间间隔:以再测法或复本法求信度,两次测验间隔时间越短,其信度系数越大;越久,其他
变因介入的可能性越大,受外界影响也越大,信度系数便越小。

四、时间间隔

样本量越大,不同等值方法的差异越小,当样本量较大时,不同等值方法的等值精度均较高,且差异很小,测验工作者可灵活选择等值方法,若对等值样本量没有信心,可参照上述四条选择合适的等值方法。

十四、效度的评估方法:

以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大。

2.53PLM和3PTM对题组测验的参数等值比较研究

1、内容效度:它和测验的内容有关。内容效度的评估方法:

第四节测验的效度

考虑题组形式在实际考试中的普遍性和意义,本课题基于前人研究以及课题前阶段的研究成果,引进基于题组的TRT模型-三参数题组模型。该模型由三参数逻辑斯蒂模型加入了与每个题组相关的随机影响参数扩展而来的,考虑了题组测验中的局部依赖性。对其与3PLM的参数等值效果进行比较,考察3PTM在题组等值中是否具有优越性。

1)专家判断法(是一个逻辑分析的过程,因此又称逻辑效度)其步骤是:

第一单元效度的概念

本研究给出了利用IRT特征曲线法求解等值系数的方法和具体步骤。以等值系数估计值的误差大小作为衡量标准,以Wilcoxon符号秩检验为依据,进行了Monte
Carlo模拟实验。实验结果表明,对含题组的测验等值:

①定义好测验内容的总体范围;

一、效度的定义

从被试人数、题组相依性程度,猜测度等方面比较3PTM和3PLM用于题组等值的效果,表明考虑了局部相依性的题组模型3PTM绝大部分情况下都比未考虑相依性的局部独立模型3PLM等值更为精确,绝大部分情况下优势显著。

②编制双向细目表;

在心理测验中,效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。

采用6种不同的等值准则对3PTM对题组测验的等值进行研究。研究结果表明,等值系数A取值0.5-1.0之间时,SLcrit表现优于其他的等值准则。A取值为1.4-2.0之间时,Hcrit的表现最好,SQRcrit在A取值1.0-1.3之间时表现较好。SREcrit、COScrit、Wcrit占优的情况不多,胜出的范围也没有规律。

③制定评定量表来测量测验的整个效度;

在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差)与总方差的比率。

3 与等值相关的一些基础研究

2)统计分析法:除了描述性语言外,内容效度的统计方法可以采用一些统计分析方法如评分者信度。克伦巴赫提出,内容效度可由一组受测者在独立取自同样内容范围的两个测验复本上得分之复本相关来估计。再测法可用于内容效度的评估。

二、效度的性质

针对等值误差的控制、垂直等值和等值的测验模型等问题,本项目拓展了与等值相关的基础研究。

3)经验推测法。

效度具有两个性质:①相对性;②连续性。

3.1概化理论的方差分量估计

2、构想效度的评估方法:

效度具有相对性,因此,在评鉴测验的效度时,必须考虑测验的目的与功能。

本部分研究主要探讨改善GT方差分量估计,为各种分数分布形态下测量误差的估计及误差来源的控制提供更精确的方法,进而优化等值误差。结论如下:

①对测验本身的分析:内容效度可作为构思效度的证据;测验的内部一致性指标可提供证据;被试者对题目的反应特点可提供证据。

[专栏5-4] 信度和效度的关系

在各种参数分布形态下,采用GIRM模型进行IRT参数估计和GT方差分量估计是可行的;在被试能力参数为标准正态分布时,GIRM模型对被试变异的估计准确性高于传统GT方法,但在均匀分布和伽马分布下略差于传统GT方法;在题目难度参数为偏态分布时,GIRM方法对题目变异估计的准确性不及传统GT方法。

②测验间的相互比较:相容效度可提供依据;区分效度可提供
证据;因素分析法可提供验证方法。

信度与效度的关系可表述为:①信度是效度的必要而非充分条件;②效度是受信度制约的。

Traditional方法估计正态分布和多项分布数据的方差分量相对较好,估计二项分布数据需要校正,Jackknife方法准确地估计了三种分布数据的方差分量,校正的Bootstrap方法和有先验信息的MCMC方法估计三种分布数据的方差分量结果较好。

③效标效度的证明研究;

第二单元效度评估的方法

关于方差分量估计及方差分量估计变异量的研究结果,不论何种数据分布形态,Bootstrap方法最优,校正的Bootstrap方法相比未校正的Bootstrap方法估计结果更为可靠。

④实验法和观察法证实。

美国心理学会在1974年发行的《教育与心理测量之标准》一书中将效度分为几个大类:即:①内容效度;②构想效度;③效标效度。

3.2纵向数据方法探讨

3、效标效度又称实证效度:它分为同时效度和预测效度。

一、内容效度

一年多考所涉及的垂直等值需要考虑数据的纵向性分析以及数据的整合分析。因此通过对纵向数据的方法性研究,开拓垂直等值的统计分析思路。结论如下:

评估方法:

(一)什么是内容效度

对于追踪研究的方法,样本量、测量次数和持续时间应依据理论模型和研究条件确定,当样本量受限,可适当增加测量次数和持续时间降低对样本量的要求,但样本量和测量次数应满足理论模型和统计模型的最低要求。对数据缺失问题可从研究设计、研究过程和缺失原因分析等多方面进行准备和干预。

①相关法

内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。

加速追踪设计可以在大型发展心理、教育研究的应用,这不但具有ALD的其他优点,
而且可获得更广泛的信息,
有利于系统探索复杂心理与行为发展的外在和内在影响因素及作用机制。

②区分法;

(二)内容效度的评估方法

整合数据分析有以下优点:1提高了结论的论证强度和效应的评估力度;2增加样本的异质性,提高研究的外在效度;3构建广泛的心理评估,提高对心理结构的评估力;4扩展发展研究的时间段。

③命中率法:是当测验用来做取舍的依据时,用其正确的比例作为效度指标的一种方法。
它分为四种情况:预测成功实际也成功:预测成功但实际上失败;预测失败而实际上成功;预测失败实际上也失败。我们称正确的预测为命中,不正确的为失误。总命中率=命中/命中

内容效度的评估方法有:①专家判断法;②统计分析法;③经验推测法。

3.3混合模型在测验中的应用

+失误;正命中率=测验与效标皆成功的人数/预测成功人数=B/A+B。临界分数越高,正命中
率越高;反之,就越低。

1.专家判断法

混合模型与测量模型的结合有助于考虑测验中的个体质化差异,使模型更贴近实际的测量数据。因此,对混合模型的理论、方法、应用以及与测量模型的结合展开研究。结论如下:

十五、效度的功能:

专家判断法,就是请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内容。如果专家认为测验题目恰当地代表了所测内容,则测验具有内容效度。因此,内容效度有时又称逻辑效度。

基于混合因素模型的方法是潜变量空间研究的主导趋势之一,而模型选择是判断潜变量空间的关键。模型选择主要受类别间的重叠程度、外显变量数目、计分方式和样本量的影响,对群组分类时应根据群组下的平均样本量nk选择模型指标。当nk40时,首选AIC3,其次是BIC,且nk最好达到50;当nk30时,建议选用BIC*或AIC,但无法保证很高的正确率。此外,在抽样中,尽可能详细地记录各种人口学变量,进而考虑群组水平样本的差异。

1、预测误差:效度系数常用决定性系数来表示,即相关系数的平方,它表示
测验正确预测或解释的效标方差占总方差的比例。如:效度是0.8,则表示总方差中有64%的方差是测验分数的方差,即测验分数正确预测的比例是64%,其余36%则无法做出正确
的预测。

为了使内容效度的确定过程更为客观,弥补不同专家对同一测验的判断可能不一致,可采用的步骤是:①定义好测验内容的总体范围;②编制双向细目表;③制定评定量表来测量测验的整个效度。

混合IRT 在IRT 与LCA
的基础上继承和发展了新的优势:不仅可以通过构造分类潜变量发掘潜在的类别,还可以对不同潜在类别之间的连续潜变量进行对比研究。同时,与传统的DIF
分析方法相比,可以提炼出被试的潜在分类信息,
而不用事先假定被试的分组信息。

2、预测效标分数:Y=a+byxX。Y是预测的效标分数,a是丛轴的截距,byx是斜
率,X是测验分数。

2.统计分析法

成果与影响

十六、影响效度的因素:

除了描述性语言外,内容效度的确定也可采用一些统计分析方法,如:①计算两个评分者一致性;②复本相关;③再测法。

本项目针对高考一年多考的分数等值问题展开一系列的理论和方法研究。首先对基于两大测量理论下的等值方法进行比较,发现IRT等值方法的优点。然后,进一步对IRT的等值思路流程进行梳理,总结出等值的五大步骤,分别是等值设计、数据收集、参数估计、量表化及测验等值。这五步骤中的每一步所采取的方法都会影响等值的结果,其中,对于高考这种大规模考试形式基本上确定了等值设计与数据收集的方法,而对于参数估计、量表化和测验等值的方法还有待研究,这也是本项目的研究问题的关键。一方面,通过改善测量模型,来提高参数估计的精确度,例如建立适用于题组测验的题组项目反应模型,适用于垂直等值的多维项目反应模型,适用于能力的混合分布,根据不同的计分方式选择罗吉斯蒂模型、等级反应模型等。另一方面,对于等值方法的选取,需要根据锚题数量、群体能力分布差异等因素分而治之。此外,还基于概化理论这一现代测量理论,对测量误差的估计以及误差来源的控制提供更精确的方法,为等值误差的估计与控制提供研究的理论和技术铺垫。

1、测验本身的因素;

3.经验推测法

本项目一般结论为:

2、测验中的干扰因素:①主试的影响因素;②被试的影响因素;

(三)内容效度的特性

第一,对于高考一年多考的分数等值,可以基于经典测量理论,通过原始分转换为标准分并使用线性转换的方法进行等值,只要对考试难度做较好的控制,等值的结果可靠,并易于被考生接受。

3、样本团体的特质:

在编制测验时,效度是重要的要考虑的特性。如果是编制最高行为测验,除了内容效度,也要求有较高的表面效度。相反,典型行为测验却要求较低的表面效度。

第二,采用IRT的理论方法,有效地控制测量误差,建立题库,入库题目可以采用本研究中提供的等值方法,建设基于项目反应理论的项目参数等值的考试题库,在编制试题时选用等值的题目组成试卷,从而实现报告分数的等值。

①样本团体异质性。样本团体越异质,分数分布 范围越小,效度越低;反之亦然;

二、构想效度

改进与完善

②干预变量(对于不同性质的团体,如年龄、性别、教
育水平、智力、动机、兴趣、职业等,由于这些特征的影响,使得测验对于不同的团体具有
不同的预测能力,而这些特征就是干预变量)。

(一)什么是构想效度

本项目重点对等值中的参数估计与等值方法进行理论与应用研究,对于方法的理论探索,还可在以下方面进行改进完善:

十七、命题的一般原则:

构想效度是:①构思效度(结构效度);②主要涉及的是心理学的理论概念问题;③指测验能够测量到理论上的构想或特质的程度;④测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。

第一,对不同的等值方法的比较,未来可考虑高考的不同题型和数据分布所形成的不同IRT模型,并基于不同模型下对等值方法进行更系统的比较。

(1)内容方面:符合测验目的:取样有代表性;题目间相互独立;

(二)构想效度的估计方法

第二,对于不同等值方法得到的等值函数,还可以通过求取等值函数均值的方法得到新的等值函数,以减少等值误差,提高等值稳定性。未来的模拟研究可将求取等值函数均值的方法,与CC、LSC和FIPC进行比较研究。

(2)文字方面:准确,避免使用生僻字词;简明扼要;一句话说明一个概念;尽量少用双重否定句;

构想效度的估计方法包括:①对测验本身的分析;②测验间的相互比较;③效标效度的研究证明;④实验法和观察法证实。

第三,对于含题组的测验等值问题,目前仅考察了被试人数、题组相依性以及猜测度等影响因素,还有其他一些影响因素如题组数量、参数估计误差等,还可进一步探讨。对于更为复杂的多级评分模型,如何与题组模型相结合,也是值得将来深入研究的问题。

(3)理解方面:应有确切答案;题目内容不超出受测团体的知识水平和理解能力;题目格式不会被人误解;

1.对测验本身的分析

第四,对于垂直等值,未来研究应纳入更多变量条件进行比较研究,
拓展方法的应用。同时,垂直等值现阶段多是在直接等值的条件下进行的,对于间接等值下不同等值方法还有待系统比较。

(4)社会敏感性方面:避开社会敏感性问题:题目不涉及社会禁忌或个人隐私,

可以作为构思效度证据的有:①测验的内容效度;②测验的内部一致性指标;③分析被试者对题目的反应特点。

此外,虽然多数模拟研究会采用等值结果对真值的修复程度、RMSD等指标,但是等值效果的评价标准问题一直是等值研究中的难点,不同的研究采用的评价标准不完全一致,确定或者寻找一种评价等值研究的一致评价标准是值得进一步研究的议题。

其假设是:①命题时假定被试者具有某种行为;②命题时假定规范不一致;③指出该行为的常见的,虽然是违规的。

2.测验间的相互比较

五、成果统计一览表

十八、项目分析包括定性分析和定量分析,通过项目分析可以选择和修改测验题目,以提高测验的信度和效度。难度的定义:难度的指标通常一通过率表示,即答对过通过该题的人数的百分比。P(项目的难度)=R(答对或通过该项目的人数)/N(全体被测人数)*100%数越多,难度越低;反之亦然。P值大小和难度高低成反比。在费能力测验中(如人格测验),
类似的指标是“通俗性”。难度的计算:二分法记分的项目大多数选择题,通过记1分,错
误记0分。被试人较多时,可分为三组:分数最高的27%被试者为高分组,分数最低的27%为低分组,中间的46%为中间组。公式:P=(Ph+Pl)/2。P代表难度;Ph代表和Pl分别代表高分组和低分组的通过率。项目的难度:取决与测验的目的、性质以及项目的形式。P值
越接近0.50,区分力越好。在选择题目时,做好使试题的平均难度接近0.5,各题难度在0.5
±0.2之间。对是非题,其难度应该为0.75最合适;四选一的题目,其难度为0.63最合适。
大多数测验在设计时最好呈常态分布的模型。为了保证项目具有较高的区分度,项目得分最
好呈现常态分布。

可以作为构思效度的测验间比较的有:①相容效度;②区分效度;③因素分析法。

课题组成果统计一览表

十九、编制的三条原则:

计算两种测验之间得分的相关,其中一种测验是待研究效度的,另一种是已有效度证据的成熟的测验,但两者测量的是同一种心理特质,假如相关高,说明新测验所测量的特质确实是老测验所反映的特质或行为。这种方法叫相容效度。

本项目完成了由此项目资助的学术论文共28篇,其中《IRT与MIRT在测验垂直等值中的应用》是唯一指向的成果。在发表的论文中,CSSCI论文21篇,SCI
1篇;此外,硕士论文1篇。参加国际会议1次,共被收录论文23篇,同时被SSCI杂志摘要收录;参加国内学术会议2次,共被收录论文26篇。在学术期刊发表的论文列表如下,其中由负责人作为第一作者或通讯作者的文章有21篇:

1、宜用问句形式。如用填充形式,空格尽量放到最后;

3.效标效度的研究证明

注:* 为通讯作者。

2、如果是填充形式,空格不宜太多,空出来的应是关键词句;

4.实验法和观察法证实

1.成果形式请注明为论文、编著、专著或教材

3、每题应只有一个正确答案,而且
答案要简短而具体。对不完整的答案,应事先规定评分标准。

三、效标效度

2.获奖情况请填写政府颁发的、省部级二等奖以上的奖励,奖项名称应与课题名称对应。

操作题:编制的四条原则:

(一)什么是效标效度

3.决策采纳指被省部级以上党政领导机关完整采纳吸收,并附有基本材料和相关证明。

(1)明确所要测的目标,将其操作化;

又称实证效度。效标效度反映的是测验预测个体在某种情境下行为表现的有效性程度。它可分为:①同时效度;②预测效度。

(2)尽量选择真实性程度(即逼真度)较高的项目;

在检验一个测验的效标效度时,难点在于找到合适的效标。因此效标的选择至关重要,一个好的效标必须具备如下条件:①效标必须能最有效地反映测验的目标,即效标测量本身必须有效;②效标必须具有较高的信度,稳定可靠,不随时间等因素而变化;③效标可以客观地加以测量,可用数据或等级来表示;④效标测量的方法简单,省时省力,经济实用。

(3)指导语要简明扼要;

(二)效标效度的评估方法

(4)制定好评分标准和计分方法。选择题的编制要领:

效标效度的主要评估方法有:①命中率法;②区分法;③相关法。

题干简单明确,意义完整;

1.相关法

选择要简明扼要;

相关法是求测验分数与效标资料间的相关,这一相关系数称为效度系数。根据变量的不同,可选用的计算方法有:①积差相关法;②点二列相关公式;③二列相关公式;④贾斯朋(Juspen)多系列相关公式。

每道题只给一个正确答案,其他属于诱答;

2.区分法

各选项长度应相等,尽量不要长短不一;

区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。

题干用词与选项用词不一致;

3.命中率法

最好用同一形式,选项最好随机排列

命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。命中的情况是指:①预测成功而且实际也成功;②预测失败且实际上也失败。

二十、选择应注意二个方面:

第三单元效度的功能

1所选测验必须适合测量的目的;

一、预测误差

2选测验必须符合心 理测量学的要求。受练习效应影响的具体表现为:

效度系数的实际意义常常以决定系数来表示,如测验的效度是0.80,则测验的总方差中有64%的方差是测验分数的方差。如果某测验的效度是0.70,则在测验中无法作出正确预测的比例是0.51。

(1)教育背景差、经验较少、智力较高者,受练习效应的影响大;

Sest=Sy中,rxy2代表效度系数的平方,即决定系数,Sy为效标成绩的标准差。

(2)着重速度的测验练习效应比较明显;

二、预测效标分散

(3)重复实施相同的 测验,受练习效应影响的程度要大于复本测验;

Y = a + bxyX式中Y是预测的效标分数

(4)两次测验之间的时距与练习效应成正比,相距3个月以上可忽略不计;

三、预测效标指数

(5)一般平均练习效应,约1/5个标准差以下,3次后则不明显。

预测效率指数E值的大小表明使用测验比盲目猜测能减少多少误差。如一个测验的效度系数为
0.80,E=40,这表明由于该测验的使用,使得我们在估计被试者的效标分数时减少了40%的误差。

二十一、测验分数的综合分析:1、根据心理测验的特点进行分析,波动范围通常是用所测的IQ之加减5(85%–90%的可信限水平),例如IQ=100,IQ的波动范围是95–105;2、不能把分数绝对化,更不能根据一次测验结果下结论;3、为了对测验分数做出确切的解释,只有常模资料是不够的,还应该有信度和效度资料,在解释测验分数时,一定要依据最相近的团体、最匹配的情境中获得资料;4、对于来自不同测验的分数,不能直接进行比较。

第四单元影响效度的因素

���Z�(3�

一、测验本身的因素

要保证测验具有较高效度,测验本身的因素要做到:①测验材料必须对整个内容具有代表性;②测题设计时应尽量避免容易引起误差的题型(如是非题);③测题难度要适中,具有较高的区分度;④测验长度要恰当,测题的排列应先易后难。

二、测验实施中的干扰因素

测验实施中的干扰因素包括:①主试者的影响因素;②测验情境;③其他干扰因素;④被试者的影响因素。

三、样本团体的性质

(一)样本团体的异质性

如果其他条件相同,样本团体越同质,分数分布范围越小,测验效度就越低。

(二)干涉变量

样本团体的性质包括年龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征。由于这些特征的影响,使得测验对于不同的团体具有不同的预测能力,故测量学上称这些特征为干涉变量。

美国心理学家吉赛利(E.E.Ghiselli)提出了如何找出干涉变量的一套方法,它们是:


用回归方程求得每个人的预测效标分数,将该分数与实际效标分数相比较,获得差异分数D。如果D的绝对值很大,说明测验中可能存在干涉变量;

② 根据样本团体的组成分析,找出对照组,分别计算效度,从而找出干涉变量;


对于欲测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体,获得的测验效度会有所提高。

四、效标的性质

效标与测验分数之间的相关,用皮尔逊积差相关系数的前提是假设两个变量的关系是线性的分布。

效标测量本身的可靠性如何亦是值得考虑的一个问题。效标测量的可靠性即效标测量的信度。

第五节项目分析

一般来说,测验的项目分析包括定性分析和定量分析。

项目的定性分析包括考虑项目的内容效度,题目编写的恰当性和有效性等。

第一单元项目的难度

一、定义

难度是指项目的难易程度。用P代表。P值越大,难度越低。

在能力测验中通常反映难度水平的指标,在非能力测验(如人格测验)中,类似的指标称通俗性。

在200个学生中,答对某项目的人数为120人,则该项目的难度为0.6。

二、计算方法

(一)二分法记分的项目

计算项目难度的公式如下:①P=R/N×100%;②P=(PH+PL)/2;③P=X/Xmax×100%。

在370名被试者中,选为高分组和低分组的被试者各有100人,其中高分组有70人答对第1题,低分组有40人答对第1题,则第1题的难度为0.55。

吉尔福特为了平衡机遇对难度的影响,提出的难度校正公式是Cp=(KP-1)/(K-1)。

(二)非二分记分的项目

数学测验的第7题满分为15分,该题考生的平均得分为9.6分,则该题的难度为0.64。

三、难度水平的确定

(一)项目的难度

难度P值越接近于0或接近于1,越无法区分被试者之间能力的差异。相反,P值越接近于0.50,区别力越高。为了使测验具有更大的区别力,应选择难度在0.50左右的试题比较合适,各题难度应在0.50±0.20之间。

(二)测验的难度

第二单元项目的区分度

一、定义

项目区分度也叫鉴别力,是指测验项目对被试者的心理特性的区分能力。

二、计算方法

(一)鉴别指数

鉴别指数的计算步骤为(2-1-3-4):(1)确定高分组与低分组,每一组取答卷总数的27%;(2)按测验总分高低排列答卷;(3)分别计算高分组与低分组在该项目上的通过率或得分率;(4)按下列公式估计出项目的鉴别指数:D=PH-PL。

1965年,美国测验专家伊贝尔(L.Ebel)根据长期的经验提出用鉴别指数评价项目性能的标准,鉴别指数D为0.19以下,说明该项目差,必须淘汰。

(二)相关法

计算区分度最常用的方法是相关法,常用的相关法有:①点二列相关;②二列相关;③ф相关;④积差相关。

1.点二列相关:点二列相关适用于一类变量为二分称名变量,另一类变量为连续变量的成对变量的相关计算。

2.二列相关:二列相关适用于两个连续变量,但其中一个变量被人为分成两类的相关计算。

3.Ф相关法:Ф相关适用于两个变量均为二分称名变量的相关计算。

三、区分度与难度的关系

难度与区分度的关系,一般来说,较难的项目对高水平的被试者区分度高,中等难度的项目对中等水平的被试者区分度高。

项目难度的分布一般以常态分布为好,这样不仅能保证多数项目具有较高的区分度,而且可以保证整个测验对被试者具有较高的区分能力。

网站地图xml地图