高考“一年多考”的“分数等值”研究与实践

澳门新莆京手机网站 1

  答案:A

心理咨询师三级第五章心理测量学知识点整理

高考“一年多考”的“分数等值”研究与实践发布时间:2016-10-09

  勤思考研解析:回归自由度为1,
残差自由度为N-2(张厚灿。现代心理与教育统计学。北京:北京师范大学出版社.369页)

艾德教育:http://www.aidemuke.com/400-832-7770
              咨询电话:022-58697826

成果公报

  46、某研究将工人、农民、公务员、上任安生活满意度分为满意、不满意、介于两者之间,观察研究不同职业人员之间的生活满意度差异,分析该研究数据最恰当的统计方法是(   
)

一、测量要素:

华南师范大学心理学院张敏强教授主持完成了课题高考一年多考的分数等值研究与实践。课题组主要成员为:王蕾、关丹丹、焦丽亚、黎光明、简小珠、方杰和张洁婷。

  A、相关分析B、X2检验C、因素分析D、t检验

参照点:1)绝对零点;2)相对零点。在心理测量中不可能找到绝对零点,只能人为的采用相对零点(常模)。

内容与方法

  答案:

单位:(必须具备两个条件):1)有确定的意义;2)有相同的价值。

1 研究内容

  勤思考研解析:

二、测量量表:是一个有单位和参照点的连续体:从低级到高级分成四中水平:

本项目通过研究及模拟数据实验找到一种有理论基础、为广大考生所接受的分数等值方法,并应用于一年多考的高考实践中去,以解决一年多次考试的不同难度的考卷分数比较及转换。基于此研究目的,开展以下研究。

  47、用简单随机抽样方法抽取样本,如果要使抽样标准误降低50%,则样本容量需扩大倍数为(   
)

(1)命名量表: 数字只能用来做标记和分类,不能做数量化分析。

研究经典测验理论和项目反应理论在规模考试中分数等值的理论依据,分别基于两种测验理论探讨适用于大规模考试的分数等值理论,并进行实证比较。

  A、2   B、4  C、5   D、8

(2)顺序量表:数字仅表示等级,并不表 示某种属性的真正量或绝对值。

基于IRT模型在测验等值中的应用优势,进一步探讨IRT模型框架下的等值方法。

  答案:

(3)等距量表:有相同单位,其数值可以做加减运算,但没
有绝对零点,因此不能做乘除运算。注:等距量表的数值加或减一个常数或用一个常数乘或除,不破坏原来数据的关系。

通过以下子研究达到目的:

  勤思考研解析: 根据公式算的n将扩大4倍。

(4)等比量表:既有相等单位,又有绝对零点。所得的数值均
可以做加、减、乘、除运算。如长度、重量和时间都是等比量表。注:心理测量首先是在顺序量表上进行的。然后运用某些统计学的方法,把这种顺序量表得到的数据,换算到等距数
据进行转换。

1构建测验等值的流程化思路;

  48、随机抽取一个样本容量为100的样本,其均值
平均值=80,标准差S=10,所属总体均值u的95%的置信区间为(    )

三、测验的分类:

2探讨题组测验局部依赖性的模型解决方法,优化测验等值的参数估计步骤;

  A、[78.04,81.96]  B、[60.40,99.60]  C、[76.08,83.92] 
D、[79.80,80.20]

按测验的功能分类:1、智力测验2、特殊能力测验;3、人格测验。

3比较和归纳量表化与等值方法,为等值方法的选用提供参考性建议。

  答案:A

按测验材料的性质分类:1、文字测验;2、操作测验(非文字测验)。

针对测量模型的优化、等值误差的测量与控制以及测验数据的纵向特点,分别对测量的方差分量估计、混合模型和认知诊断模型的应用与纵向数据分析方法进行拓展研究。

  勤思考研解析:Z=1.96, SE=S/根号(100)=1.
故95%的置信区间为[78.04,81.96]。

按测验材料的严谨程度分类:1、客观测验;2、投射测验(受社会赞许影响不大;受应试动机的影响较小)。

本课题研究思路如下:

  49、数据2、5、9、11、8、9、10、13、10、24中位数是(    )

按测验的要求分类:1、最高作为测验(有正确的答案。如智力测验、成就测验等);2、典型行为测验
(没有正确答案。如人格测验均属典型行为测验)。

2研究方法

  A、8.0   B、8.5  C、9.0  D、9.5

四、确定常模团体时,要先确定一般总体,再确定目标总体,最后确定样本。

本研究在各等值理论方法的比较归纳基础上,结合使用实证研究与模拟研究对各等值方法进行比较。

  答案:D

常模团体的条件

2.1 等值方法

  勤思考研解析:排序后为2、5、8、9、9、10、10、11、13、24。 n=10,
平均数为 (9+10)/2=9.5

1、群体的构成必须明确界定;

2.1.1基于经典测量理论的等值方法

  50、一组数据的分布曲线呈双峰状态,据此可以推测该组数据中可能有两个(   
)

2常模团体必须是所测群体的代表性的样本;

经典测验理论假设能力特质是潜在而相对稳定的,某能力特质的真正水平的数值为真分数T,实测的结果会围绕着真分数随测量的随机误差而在某范围内波动,即观察分数是真分数和随机误差分数的线性组合。在CTT理论框架下构成了信度、效度、难度和区分度这四个指标对测验的质量和特性进行评价,分别反映测验的稳定性、有效性和测验项目的难易程度、区分能力。基于CTT的传统等值方法包括平均数等值、线性等值、等百分位等值等。

  A、中数  B、众数   C、平均数   D、几何平均数

3、样本的大小要适当(样本大小适当的关键是样本具有代表性,一般性常模:最低不少于30或100个)。

澳门新莆京手机网站 ,2.1.2 基于项目反应理论的等值方法

  答案:B

4、全国性常模:一般2000~3000人为宜。

项目反应理论,又称潜在特质理论,采用非线性模型,建立考生对题目的作答反应与潜在特质之间的非线性关系。该测验理论有两大基本假设:1对考生所测试的潜在能力具有单维性;2在考虑了考生的能力之后,考生对各个项目的反应是相互独立的。项目反应最大的特点是,考生的能力估计不依赖于项目的难度参数,即考生的分数不会由于试题的难或容易而产生高估或低估。基于IRT的等值方法在数据收集后根据题目和数据类型选择合适的IRT模型进行IRT参数估计;然后使用某种方法,如动差方法、特征曲线转换方法(characteristic
curve
method)、同时校准方法进行IRT量表转换,使参数估计置于同一个量尺上;最后进行测验原始分数向量表分数的转换。

  勤思考研解析:两个峰对应两个众数。

5、标准化样组是一定时空的产物

2.2 Monte Carlo模拟研究方法

  54、在下列测验中,属于文字测验的是:

五、常模团体取样的方法:从目标人群中选择有代表性的样本。分为:

Monte
Carlo模拟方法已经在应用物理、原子能、固体物理、化学、生物、生态学、社会经济学以及经济行为等领域中得到广泛应用。特别是在计算机上用Monte
Carlo模拟方法解决很多理论和应用科学问题,在很大程度上可以替代许多大型的、难以实现的复杂实践或社会行为过程。

  A、16PF  B、TAT  C、罗夏墨迹测验  D、瑞文推理测验

1、简单随机抽样;

结论与对策

  答案:A

2、系统抽样(目标总体无序可排,也无等级机构存在);

1 基于两种测量理论的等值方法比较

  勤思考研解析:16PF为16种人格因素问卷是美国伊利诺州立大学人格及能力测验研究所卡特尔教授编制的用于人格检测的一种问卷,简称16PDF。是文字测验,其余都不是。

3、分组抽样(总体目标较大,如全国 取样);

通过实证与理论研究,对经典测量理论与项目反应理论下的等值方法进行比较,得到如下结论。

  55、如果某测验的效度系数是0.70,则该测验无法做出解释的变异比例为(   
)

4、分层抽样(分层比例抽样,分层非比例抽样)。

经典测验理论的测验等值方法存在不少困难与局限:首先,它们确定的转换关系依赖于样本,会随被试样组的不同而变化,等值条件的唯一性要求不能满足,无论哪种方法,都难以确保求出的转换关系是对称的、公平的。其次,经典测验等值方法应用重点又都在被试观察分数等值上,很难妥善解决难度、区分度这类项目参数等值的问题。最后,更重要的是,即使在线性等值的情况下,经典等值理论所认定的应予等值的测验分数间的线性转换关系,也是假设能够存在的,而不是必然能够具有的。项目反应理论却根本不同,在所选反应模型与实测资料适合良好的情况下,按项目反应理论方法所确定的被试特质与项目参数间的转换关系,就是必然应该具有的,这是因为特质与项目参数本应具有不变性。也正由于转换关系是来自模型的理论性质本身,所以,能够保证全面地较好满足唯一性、公平性、对称性等要求。另外,由于项目反应理论能同时估出特质与项目参数,特别是,项目难度又是直接定义在特质参数量纲上,因而,就能同时解决特质水平与项目参数的等值问题。所以,项目反应理论等值不仅在理论上具有优良的性质,而且在实用上具有极强的功能。项目参数等值问题的解决为大型题库的建设提供了有力的技术保证。

  A、30%   B、49%   C、51%   D、70%

六、常模,是一种供比较的标准量数,由标准化样本测试结果计算而来,它是心理测验时用于比比较和解释测验结果的参照份数标准。常模分数:将被试者的原始分数按一定的规则换算出来
的导出分数(又叫常模表)。常模分数的要素:原始分数;导出分数。

因此,本项目进一步重点对IRT理论框架下的等值方法进行研究。

  答案:C

七、发展常模:年龄量表中的个人分数指出他的行为在按正常途径发展方面处于什么样的发展水平。智力年龄:1936年吴天敏和陆志韦修订的《中国比内–西蒙智力量表》为例。每个年龄有6个题目,答对每个题目代表2个月的智令,例如:某儿童6岁组的题目全部通过,7岁组通过4题,8岁组通过3题,9岁组通过2题,其智龄为:6岁+4*2(月)+3*2(月)+2*2(月)=6岁+18=7岁6个月。(满12个月令=1智龄)

2 基于IRT的等值技术

  勤思考研解析:信度最高为效度系数的平方,求出信度系数为0.7×0.7=0.49。
则1-0.49=0.51为测验无法做出解释的变异比例。

八、百分位常模包括:百分等级:是指在常模样本中低于这个分数的人数的百分比。百分等级支出的是个体在常模团体中所处的位置,百分等级越低,个体所处的位置就越低。百分点也称百分数:是计算处于某一百分比例(百分等级)的人对应的测验分数(原始分数)是多少。在分数量表上,相对于某一百分等级的分数点就叫百分点或百分位数。通过这样的双向方式编制的原始分数百分等级对照表,就是百分位常模。四分位数和十分位数:1)四分位数:相当于百分等级的25%、50%、75%对应的三个百分位数分成的四段。注:最小的是1%;2)十分位数:1%-10%为第一段,41%-50%为第五段,91%-100%为第十段。百分等级

2.1 IRT测验等值的流程化操作思路构建

  56、两列变量是等距或等比变量,且服从正态分布,计算相关系数最恰当的方法是(   
)

标准二十分离差智商

测验等值是测验研究中相对薄弱的一个环节,许多重要的考试都尚未实现统计等值。造成这种窘境的原因,皆因等值操作困难化。在参考国内外关于测验等值的相关文献的基础上,构建出IRT测验等值的流程化操作思路,包括等值设计、数据收集、参数估计、量表化及测验等值等五个步骤,如下图所示。

  A、积差相关B、等级相关 C、点二列相关  D、双列相关

10(平均数)3(标准差)100(平均数)15(标准差)

进一步,对参数估计、量表化和测量等值环节作方法上改进。

  答案:A

1698%1302

2.2 题组测验中处理局部项目依赖性的模型发展

  勤思考研解析:上述命题满足积差相关的4个条件,两列、正态、连续、线性。故使用积差相关。

1384%1151

在教育和心理测验领域中,题组是常用的测验建构、测验实施和评分的单元。题组是指共用同一个背景材料的一组题目。由于同一题组内的多个题目共用一个刺激材料,
IRT模型的局部项目独立假他设往往难以满足,出现局部项目依赖。局部项目依赖是指对于特定能力的被试,其在某个题目上的作答影响在其他题目的作答或受其他题目作答情况的影响。

  57、人格测验最常用的方法是(    )

1050%1000

本研究在评述题组测验中处理LID的标准IRT方法、多级评分IRT方法、题组随机效应方法和两因子方法的基础上,以参数估计精度作为准则,对这4
种处理LID方法的效果和适用条件进行了归纳并作出相应的评析。

  A、行为观察法    B、他评量表   C、访谈法   D、自陈量表

716%85-1

依据前人关于处理LID方法的研究,总结如下:当题组长度较短且题组型题目所占比例较小时,可以采用标准IRT模型进行数据分析;当题组LID为中等程度且测验包含很大部分相互独立项目时,采用多级计分IRT模型来处理LID也是可以的;当题组存在较大LID时,应当采用TRT模型和两因子模型。二者各有优点,相比两因子模型,
TRT模型更节俭,但两因子模型参数估计软件运行更加简单和高效。但是,如果测验中存在局部独立项目,采用TRT模型会得到更为精确的参数估计值。

  答案:D

42%70-2

2.3 IRT与MIRT在测验垂直等值中的应用

  勤思考研解析:基本知识点,无需勤思考研解析。

九、标准分常模:是将原始分数与平均数的距离,以标准差为单位表示出来的量表。因为它的基本单位是标准差,所以叫标准分数。标准分数可分为通过线性转换和非线性转换两大类。常态化的标准分数(线性转化的标准分)有:T分数:以50为平均数(加一个常数50),以10为标准差(乘以一个常数10)所表示的标准分,通常叫T分数。T=50+10*z(相当于z);标准九分:平均数为5,标准差为2,一般用于评价教学中成绩的分级和美国空军,标准十分:平均数为5.5,标准差为1.5,;标准二十分:平均数为10,标准差为3.离差智商是常态化标准分中应用最广,影响最大的标准分。非线性转换标准分:常态化过程:①将原始分转化为百分等级;②再将百分等级转化为常态分布上相应的标准分数。原始分数不是正态分布时,也可以通过非线性转换。

常用的测验等值是水平等值,是对测量同一心理特质的多个测验形式进行分数转换,要求各个测验形式之间具有同质性、等信度、难度相近、对称性、样本不变性等特点。但是,在实际应用中,常面临多个测验的难度水平有明显差异,或被评价团体的能力水平差异较大等情况。垂直等值则是针对这种情况的等值,将测试同学科、同一种心理特质的不同水平测验转换到同一个分数量尺上。它要求测验具有相似结构与高信度,但不要求测验难度相同、被试水平一致。IRT与MIRT是实现垂直等值的主要方法。

  58、信度系数不仅可以解释测验总变异中的随机测量误差,还可以解释(    )

十、比率智商:局限性:因个体心理年龄与实足年龄并不同步增长的,所以它不适合年龄较大的受测者。离差智商:是依据测验分数常态分布来确定的。离差智商的平均数为100,标准差为15。其优点为:韦克斯勒的离差智商建立在统计学的基础上;它表示的是个体智力在同年龄组中所处的位置;离差智商是表示智力水平高低的一种理想指标。其公式:

IRT的垂直等值步骤及其适用方法总结如下。

  A、样本标准差  B、组间误差  C、真分数变异   D、组内误差

IO=100+15*z=100+15*{X(量表分数)-X(平均量表分数)}/SD(量表分数的标准差)*100。

模型选择。研究者通常根据数据类型、参数估计精度和等值误差选择合适的IRT模型进行垂直等值。主要有:用于0-1
计分测验的单参数、两参数以及三参数逻辑斯蒂克模型,用于多级计分的测验的等级反应模型、分部评分模型、拓广分布评分模型、称名反应模型和评定量表模型。

  答案:C

的斯坦福一比内量表中采用了离差智商平均数为100,标准差为16.

参数估计与标定。通过标定把不同的能力测验转换到同一尺度上,
即构建共同量表。常用的标定方法有同时标定和分别标定。

  勤思考研解析:信度乃是一个被测团体的真分数的变异数与实得分数的变异数之比。从这个定义中我们亦可看出信度是可以解释真分数变异的。

十一、信度评估的估计方法:1重测信度又称稳定性系数:主要考察了跨时间的一致性。优点:能提供有关测验是否随时间而变异的资料,可作为被试将来行为表现的依据。缺点:易受练习和记忆的影响。一般分为两周到四周为宜,间隔时间最好不超过六个月。2、复本信度又称等值性系数:它主要考察了跨形式的一致性(等值性)。如果两个复本的施测相隔一段时间,则称重测复本信度或稳定与等值系数。他既考虑了测验在时间上的稳定性,又考虑了不同题目反应的一致性。3、内部一致性信度;主要反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度。4、评分者信度:一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。

最常用的能力分数估计方法有极大似然估计、期望后验估计和极大后验估计。

  59、通过考察甲测验与测量同一特质的标准化乙测验之间的维度相似性,可以分析甲测验的效度类型是(   
)

十二、信度解除个人分数的意义:一是估计真实分数的范围;二是了解实得分数再测试时可能的变化情形。标准误差:SE=SX√1-rxx。在95%的或然水平时,其置信区间为X-1.96SE

MIRT是在IRT和因素分析的基础上发展起来的一种测验理论。两者方法和步骤类似,但仍存在以下区别:首先,模型选择方面,IRT适合单维数据,MIRT适合多维数据;其次,标定方法选取方面,数据满足单维性假设时,同时标定更具优势,一旦数据无法满足单维性假设,若采用IRT方法,分别标定优于同时标定,若采用MIRT方法,同时标定则更具优势;第三,
能力估计方法方面,关于IRT方法的研究较多,MIRT相关的研究较少。

  A、内容效度    B、区分效度   C、校标效度    D、构想效度

十三、影响信度的因素:

2.4 非等组锚题设计的IRT等值方法及其应用分析

  答案:D

样本特征:

本研究在非等组锚测验设计下,根据前人的模拟与实证研究,针对常用的0-1计分三参数IRT模型,对的同时参数标定、线性参数转换和固定参数标定这三大类等值方法的优缺点总结归纳如下。

  勤思考研解析:区分效度检验测验构想效度的方法之一。检验一个测验的构想效度,要检验两个假设:一是与测验相同特质的测验分数应该有较高的相关。二是测量不同特质的测验分数间应有较低的相关,如数学能力测验与语文能力测验应该相关较低。

1、样本团体异质性的影响。样本团体较为异质的化,往
往高估测验的信度,反之则会低估测验的信度。

当锚题数量为中等或较大水平时,群体能力分布没有差异或差异很小时,CC和LSC的等值效果都很好,测验工作者可根据实际需要等值到哪个量尺上来选择不同的方法:当需要等值到基准组被试群体的量尺上时,可选用LSC;当需要等值到基准组和目标组合并后的被试群体的量尺上,应选用CC。

  60、下列选项中,不属于MMPI效度量表是(    )

2、样本团体平均能力水平的影响。

当锚题数量为中等或较大水平时,若群体能力分布差异较大时,采用CC等值效果更佳,若需转换到基准测验量尺上,可先采用CC方法估计出项目参数,再采用矩估计法转换到基准测验量尺上。

  A、说谎量表   B、诈病量表  C、校正量表   D、疑病量表

测验长度:测验越长测题取样或内容取样越有代表性;测验越长被试的猜测因素影响就越小。注:增加测验长度的效果应遵循报酬递减率原则,则测验过长会引起被试的疲劳和反感而降低可靠性。

当锚题数量为较小水平时,使用LSC中的特征曲线法时等值效果较好。

  答案:D

3、测验难度:若测验对某团体太难或太易,则分数范围将缩小,从而使信度降
低。如果某个测验适用范围很广,其难度水平通常适合于中等能力水平的受测者,而对较高水平或较低水平的受测者可能较易或较难,使得分数分布范围缩小,信度水平降低。

当构建大型题库时,采用FIPC更为灵活、有效、省时。

  勤思考研解析:明尼苏达多项人格测验(MMPI)由10个临床量表,4个效度量表组成,分别是:疑问量表、说谎量表、诈病量表、校正量表。而题干中的疑病量表是属于10个临床量表里的。

4、时间间隔:以再测法或复本法求信度,两次测验间隔时间越短,其信度系数越大;越久,其他
变因介入的可能性越大,受外界影响也越大,信度系数便越小。

样本量越大,不同等值方法的差异越小,当样本量较大时,不同等值方法的等值精度均较高,且差异很小,测验工作者可灵活选择等值方法,若对等值样本量没有信心,可参照上述四条选择合适的等值方法。

  61. 在概化理论中,公式 (其中 ) 为测量目标效应方差,
为绝对误差方差)表示的是(    )

十四、效度的评估方法:

2.53PLM和3PTM对题组测验的参数等值比较研究

  A.G系数  B.Φ系数  C.CV系数  D.W系数

1、内容效度:它和测验的内容有关。内容效度的评估方法:

考虑题组形式在实际考试中的普遍性和意义,本课题基于前人研究以及课题前阶段的研究成果,引进基于题组的TRT模型-三参数题组模型。该模型由三参数逻辑斯蒂模型加入了与每个题组相关的随机影响参数扩展而来的,考虑了题组测验中的局部依赖性。对其与3PLM的参数等值效果进行比较,考察3PTM在题组等值中是否具有优越性。

  答案:B

1)专家判断法(是一个逻辑分析的过程,因此又称逻辑效度)其步骤是:

本研究给出了利用IRT特征曲线法求解等值系数的方法和具体步骤。以等值系数估计值的误差大小作为衡量标准,以Wilcoxon符号秩检验为依据,进行了Monte
Carlo模拟实验。实验结果表明,对含题组的测验等值:

  勤思考研解析:用相对误差估计出来的信度系数是G系数,它是测量目标的有效变异占有效变异与相对误差变异之和的比值。用绝对误差估计出来的信度系数是Φ系数,它是测量目标自身的分数变异在全体分数变异中所占的比率。

①定义好测验内容的总体范围;

从被试人数、题组相依性程度,猜测度等方面比较3PTM和3PLM用于题组等值的效果,表明考虑了局部相依性的题组模型3PTM绝大部分情况下都比未考虑相依性的局部独立模型3PLM等值更为精确,绝大部分情况下优势显著。

  62. 在项目反应理论三参数logistic模型 。数学表达式
中,表示项目区分度参数的符号是(    )

②编制双向细目表;

采用6种不同的等值准则对3PTM对题组测验的等值进行研究。研究结果表明,等值系数A取值0.5-1.0之间时,SLcrit表现优于其他的等值准则。A取值为1.4-2.0之间时,Hcrit的表现最好,SQRcrit在A取值1.0-1.3之间时表现较好。SREcrit、COScrit、Wcrit占优的情况不多,胜出的范围也没有规律。

  A.a  B.b  C.c  D.d

③制定评定量表来测量测验的整个效度;

3 与等值相关的一些基础研究

  答案:B

2)统计分析法:除了描述性语言外,内容效度的统计方法可以采用一些统计分析方法如评分者信度。克伦巴赫提出,内容效度可由一组受测者在独立取自同样内容范围的两个测验复本上得分之复本相关来估计。再测法可用于内容效度的评估。

针对等值误差的控制、垂直等值和等值的测验模型等问题,本项目拓展了与等值相关的基础研究。

  勤思考研解析:在三参数模型中,参数a表示难度,参数b表示鉴别度,参数c表示猜测度。此题问区分度,应该是选择B。

3)经验推测法。

3.1概化理论的方差分量估计

  根据材料答63-65题

2、构想效度的评估方法:

本部分研究主要探讨改善GT方差分量估计,为各种分数分布形态下测量误差的估计及误差来源的控制提供更精确的方法,进而优化等值误差。结论如下:

  已知X1、X2为两个相互独立的连续变量,两个总体均为正态分布,
。检验平均数是否存在显著差异。

①对测验本身的分析:内容效度可作为构思效度的证据;测验的内部一致性指标可提供证据;被试者对题目的反应特点可提供证据。

在各种参数分布形态下,采用GIRM模型进行IRT参数估计和GT方差分量估计是可行的;在被试能力参数为标准正态分布时,GIRM模型对被试变异的估计准确性高于传统GT方法,但在均匀分布和伽马分布下略差于传统GT方法;在题目难度参数为偏态分布时,GIRM方法对题目变异估计的准确性不及传统GT方法。

  63.在进行假设检验之前,需要(    )

②测验间的相互比较:相容效度可提供依据;区分效度可提供
证据;因素分析法可提供验证方法。

Traditional方法估计正态分布和多项分布数据的方差分量相对较好,估计二项分布数据需要校正,Jackknife方法准确地估计了三种分布数据的方差分量,校正的Bootstrap方法和有先验信息的MCMC方法估计三种分布数据的方差分量结果较好。

  A。检验两个样本的联合方差是否齐性

③效标效度的证明研究;

关于方差分量估计及方差分量估计变异量的研究结果,不论何种数据分布形态,Bootstrap方法最优,校正的Bootstrap方法相比未校正的Bootstrap方法估计结果更为可靠。

  B。检验两个样本的方差是否齐性

④实验法和观察法证实。

3.2纵向数据方法探讨

  C。检验两个总体的方差是否齐性

3、效标效度又称实证效度:它分为同时效度和预测效度。

一年多考所涉及的垂直等值需要考虑数据的纵向性分析以及数据的整合分析。因此通过对纵向数据的方法性研究,开拓垂直等值的统计分析思路。结论如下:

  D。用样本方差估计总体方差

评估方法:

对于追踪研究的方法,样本量、测量次数和持续时间应依据理论模型和研究条件确定,当样本量受限,可适当增加测量次数和持续时间降低对样本量的要求,但样本量和测量次数应满足理论模型和统计模型的最低要求。对数据缺失问题可从研究设计、研究过程和缺失原因分析等多方面进行准备和干预。

上一页
1
2
3 4
5
6
下一页

①相关法

加速追踪设计可以在大型发展心理、教育研究的应用,这不但具有ALD的其他优点,
而且可获得更广泛的信息,
有利于系统探索复杂心理与行为发展的外在和内在影响因素及作用机制。

分享到:

②区分法;

整合数据分析有以下优点:1提高了结论的论证强度和效应的评估力度;2增加样本的异质性,提高研究的外在效度;3构建广泛的心理评估,提高对心理结构的评估力;4扩展发展研究的时间段。

    更多信息请访问:新浪考研频道
考研论坛

③命中率法:是当测验用来做取舍的依据时,用其正确的比例作为效度指标的一种方法。
它分为四种情况:预测成功实际也成功:预测成功但实际上失败;预测失败而实际上成功;预测失败实际上也失败。我们称正确的预测为命中,不正确的为失误。总命中率=命中/命中

3.3混合模型在测验中的应用

  特别说明:由于各方面情况的不断调整与变化,新浪网所提供的所有考试信息仅供参考,敬请考生以权威部门公布的正式信息为准。

+失误;正命中率=测验与效标皆成功的人数/预测成功人数=B/A+B。临界分数越高,正命中
率越高;反之,就越低。

混合模型与测量模型的结合有助于考虑测验中的个体质化差异,使模型更贴近实际的测量数据。因此,对混合模型的理论、方法、应用以及与测量模型的结合展开研究。结论如下:

十五、效度的功能:

基于混合因素模型的方法是潜变量空间研究的主导趋势之一,而模型选择是判断潜变量空间的关键。模型选择主要受类别间的重叠程度、外显变量数目、计分方式和样本量的影响,对群组分类时应根据群组下的平均样本量nk选择模型指标。当nk40时,首选AIC3,其次是BIC,且nk最好达到50;当nk30时,建议选用BIC*或AIC,但无法保证很高的正确率。此外,在抽样中,尽可能详细地记录各种人口学变量,进而考虑群组水平样本的差异。

1、预测误差:效度系数常用决定性系数来表示,即相关系数的平方,它表示
测验正确预测或解释的效标方差占总方差的比例。如:效度是0.8,则表示总方差中有64%的方差是测验分数的方差,即测验分数正确预测的比例是64%,其余36%则无法做出正确
的预测。

混合IRT 在IRT 与LCA
的基础上继承和发展了新的优势:不仅可以通过构造分类潜变量发掘潜在的类别,还可以对不同潜在类别之间的连续潜变量进行对比研究。同时,与传统的DIF
分析方法相比,可以提炼出被试的潜在分类信息,
而不用事先假定被试的分组信息。

2、预测效标分数:Y=a+byxX。Y是预测的效标分数,a是丛轴的截距,byx是斜
率,X是测验分数。

成果与影响

十六、影响效度的因素:

本项目针对高考一年多考的分数等值问题展开一系列的理论和方法研究。首先对基于两大测量理论下的等值方法进行比较,发现IRT等值方法的优点。然后,进一步对IRT的等值思路流程进行梳理,总结出等值的五大步骤,分别是等值设计、数据收集、参数估计、量表化及测验等值。这五步骤中的每一步所采取的方法都会影响等值的结果,其中,对于高考这种大规模考试形式基本上确定了等值设计与数据收集的方法,而对于参数估计、量表化和测验等值的方法还有待研究,这也是本项目的研究问题的关键。一方面,通过改善测量模型,来提高参数估计的精确度,例如建立适用于题组测验的题组项目反应模型,适用于垂直等值的多维项目反应模型,适用于能力的混合分布,根据不同的计分方式选择罗吉斯蒂模型、等级反应模型等。另一方面,对于等值方法的选取,需要根据锚题数量、群体能力分布差异等因素分而治之。此外,还基于概化理论这一现代测量理论,对测量误差的估计以及误差来源的控制提供更精确的方法,为等值误差的估计与控制提供研究的理论和技术铺垫。

1、测验本身的因素;

本项目一般结论为:

2、测验中的干扰因素:①主试的影响因素;②被试的影响因素;

第一,对于高考一年多考的分数等值,可以基于经典测量理论,通过原始分转换为标准分并使用线性转换的方法进行等值,只要对考试难度做较好的控制,等值的结果可靠,并易于被考生接受。

3、样本团体的特质:

第二,采用IRT的理论方法,有效地控制测量误差,建立题库,入库题目可以采用本研究中提供的等值方法,建设基于项目反应理论的项目参数等值的考试题库,在编制试题时选用等值的题目组成试卷,从而实现报告分数的等值。

①样本团体异质性。样本团体越异质,分数分布 范围越小,效度越低;反之亦然;

改进与完善

②干预变量(对于不同性质的团体,如年龄、性别、教
育水平、智力、动机、兴趣、职业等,由于这些特征的影响,使得测验对于不同的团体具有
不同的预测能力,而这些特征就是干预变量)。

本项目重点对等值中的参数估计与等值方法进行理论与应用研究,对于方法的理论探索,还可在以下方面进行改进完善:

十七、命题的一般原则:

第一,对不同的等值方法的比较,未来可考虑高考的不同题型和数据分布所形成的不同IRT模型,并基于不同模型下对等值方法进行更系统的比较。

(1)内容方面:符合测验目的:取样有代表性;题目间相互独立;

第二,对于不同等值方法得到的等值函数,还可以通过求取等值函数均值的方法得到新的等值函数,以减少等值误差,提高等值稳定性。未来的模拟研究可将求取等值函数均值的方法,与CC、LSC和FIPC进行比较研究。

(2)文字方面:准确,避免使用生僻字词;简明扼要;一句话说明一个概念;尽量少用双重否定句;

第三,对于含题组的测验等值问题,目前仅考察了被试人数、题组相依性以及猜测度等影响因素,还有其他一些影响因素如题组数量、参数估计误差等,还可进一步探讨。对于更为复杂的多级评分模型,如何与题组模型相结合,也是值得将来深入研究的问题。

(3)理解方面:应有确切答案;题目内容不超出受测团体的知识水平和理解能力;题目格式不会被人误解;

第四,对于垂直等值,未来研究应纳入更多变量条件进行比较研究,
拓展方法的应用。同时,垂直等值现阶段多是在直接等值的条件下进行的,对于间接等值下不同等值方法还有待系统比较。

(4)社会敏感性方面:避开社会敏感性问题:题目不涉及社会禁忌或个人隐私,

此外,虽然多数模拟研究会采用等值结果对真值的修复程度、RMSD等指标,但是等值效果的评价标准问题一直是等值研究中的难点,不同的研究采用的评价标准不完全一致,确定或者寻找一种评价等值研究的一致评价标准是值得进一步研究的议题。

其假设是:①命题时假定被试者具有某种行为;②命题时假定规范不一致;③指出该行为的常见的,虽然是违规的。

五、成果统计一览表

十八、项目分析包括定性分析和定量分析,通过项目分析可以选择和修改测验题目,以提高测验的信度和效度。难度的定义:难度的指标通常一通过率表示,即答对过通过该题的人数的百分比。P(项目的难度)=R(答对或通过该项目的人数)/N(全体被测人数)*100%数越多,难度越低;反之亦然。P值大小和难度高低成反比。在费能力测验中(如人格测验),
类似的指标是“通俗性”。难度的计算:二分法记分的项目大多数选择题,通过记1分,错
误记0分。被试人较多时,可分为三组:分数最高的27%被试者为高分组,分数最低的27%为低分组,中间的46%为中间组。公式:P=(Ph+Pl)/2。P代表难度;Ph代表和Pl分别代表高分组和低分组的通过率。项目的难度:取决与测验的目的、性质以及项目的形式。P值
越接近0.50,区分力越好。在选择题目时,做好使试题的平均难度接近0.5,各题难度在0.5
±0.2之间。对是非题,其难度应该为0.75最合适;四选一的题目,其难度为0.63最合适。
大多数测验在设计时最好呈常态分布的模型。为了保证项目具有较高的区分度,项目得分最
好呈现常态分布。

课题组成果统计一览表

十九、编制的三条原则:

本项目完成了由此项目资助的学术论文共28篇,其中《IRT与MIRT在测验垂直等值中的应用》是唯一指向的成果。在发表的论文中,CSSCI论文21篇,SCI
1篇;此外,硕士论文1篇。参加国际会议1次,共被收录论文23篇,同时被SSCI杂志摘要收录;参加国内学术会议2次,共被收录论文26篇。在学术期刊发表的论文列表如下,其中由负责人作为第一作者或通讯作者的文章有21篇:

1、宜用问句形式。如用填充形式,空格尽量放到最后;

注:* 为通讯作者。

2、如果是填充形式,空格不宜太多,空出来的应是关键词句;

1.成果形式请注明为论文、编著、专著或教材

3、每题应只有一个正确答案,而且
答案要简短而具体。对不完整的答案,应事先规定评分标准。

2.获奖情况请填写政府颁发的、省部级二等奖以上的奖励,奖项名称应与课题名称对应。

操作题:编制的四条原则:

3.决策采纳指被省部级以上党政领导机关完整采纳吸收,并附有基本材料和相关证明。

(1)明确所要测的目标,将其操作化;

(2)尽量选择真实性程度(即逼真度)较高的项目;

(3)指导语要简明扼要;

(4)制定好评分标准和计分方法。选择题的编制要领:

题干简单明确,意义完整;

选择要简明扼要;

每道题只给一个正确答案,其他属于诱答;

各选项长度应相等,尽量不要长短不一;

题干用词与选项用词不一致;

最好用同一形式,选项最好随机排列

二十、选择应注意二个方面:

1所选测验必须适合测量的目的;

2选测验必须符合心 理测量学的要求。受练习效应影响的具体表现为:

(1)教育背景差、经验较少、智力较高者,受练习效应的影响大;

(2)着重速度的测验练习效应比较明显;

(3)重复实施相同的 测验,受练习效应影响的程度要大于复本测验;

(4)两次测验之间的时距与练习效应成正比,相距3个月以上可忽略不计;

(5)一般平均练习效应,约1/5个标准差以下,3次后则不明显。

二十一、测验分数的综合分析:1、根据心理测验的特点进行分析,波动范围通常是用所测的IQ之加减5(85%–90%的可信限水平),例如IQ=100,IQ的波动范围是95–105;2、不能把分数绝对化,更不能根据一次测验结果下结论;3、为了对测验分数做出确切的解释,只有常模资料是不够的,还应该有信度和效度资料,在解释测验分数时,一定要依据最相近的团体、最匹配的情境中获得资料;4、对于来自不同测验的分数,不能直接进行比较。

�|�����

网站地图xml地图