摘要:信度和效度是评估语言测试最为关键的两个质量指标, 但两者在本质上又是相互冲突的。尝试论证在一定的约束条件下,为了使某一特定测试的总效用达到最大化,我们能够找到效度和信度之间最佳的平衡关系,由此而为大学英语测试的改革实践提供一些参考性建议。
关键词:英语测试;效度;信度
1 引言
据全国大学英语四、六级考试委员会与英国文化委员会的合作研究结果认为:CET4和CET6(简称)是一项信度极高的考试,每次考试客观题的内部信度都达0.9以上;效度相当高,回收问卷中有92%的教师认为CET能反映学生的实际英语水平。笔者以为这里所指的信度和效度的界定很模糊,就某次具体的测试而言,信度和效度是受特定条件限制的,不可能是绝对的。迄今为止,我国的高考、研究生入学考试、公共英语等级考试(PET),包括CET等大规模英语测试还是以客观性题型为主,主观题只占10%或20%左右。就评分方法而言,因客观性试题答案的唯一性,可用机器阅卷,从而保证了测试结果的客观性和一致性,无疑具有相对较高的信度,但不足之处就是效度难以保证。同时大量采用主观性、直接性试题的测试在阅卷信度上也令人怀疑。这样的困惑总是或多或少存地在于考试的开发、设计和评估过程中。
我们能否使信度和效度同时最大化呢?信度和效度又应如何整合而达到适当的(appropriate)平衡?Bachman和Palmer在其测试理论中认为可设置“可接受的最低程度”(minimumacceptablelevel)的效度或信度等质量指标从而使得语言测试的“效用性”(usefulness)原则中各特征之间达到适度平衡。由于测试总是在一定的价值判断、测试目标、社会环境等约束条件下进行的,本文尝试探索在可行性条件下,测试的总效用(overallusefulness)最大化时效度和信度之间可能存在的关系。
2 效度和信度的基本概念及特点
如果我们想阐释一次特定的考试成绩是否正确反映了学生的语言能力,那么在设计和使用测试时,信度和效度是我们首要关注的特征。Bachman把信度定义为“测试的一致性”(consistencyofmeasurement)。简言之,就是测试结果的可信度、可靠度。例如,我们可以这样来检验测试的信度:使用同样一份试卷,在两种不同的场合、环境中,在较短的时间间隔内,施与同样的学生,如果测试结果基本吻合,那么证明该测试是有信度的。一份试卷的测试结果如果缺乏信度,就没有使用价值,同时也减弱了考试的公正性。当然,要完全消除不一致性(inconsistency)也是不可能的,我们能做的是尽量把影响不一致性的不利因素控制在最低程度,以便于提高测试信度。
信度所涉及的问题是个体测试成绩在多大程度上是由测试误差或其它因素所影响的。效度所关注的问题是个体测试成绩在多大程度上和个体语言能力相关。因而,我们研究信度的目的是使测试误差造成的影响最小化,研究效度旨在使我们想要检测的语言能力的效果最大化,它们是两个相互补充的目标。一项测试若没有信度,也就无所谓效度。信度是效度的前提或必要条件。权衡信度和效度,效度是首要的。然而Underhill和Heaton指出信度和效度特征在本质上是互相冲突的。测试效度较高的试题有时测试信度较低。反之,测试信度较高的试题有时测试效度较低。Morrow也认为想把测试任务设计得既具有可信性又具有真实性不可能的。Hughes却说虽然测试的各种特征相互排斥,但是这并不意味着我们可以完全放弃这些特征。
3 对信度和效度在理论上能达到适当平衡的可行性研究
评价英语测试最重要的原则是总效用性(overallusefulness)。Bachman和Palmer(1996:18)把某一特定测试的“总效用性”看作是由六个因素构成的,即效用性(Usefulness)=信度(Reliability)+构想效度(Constructvalidity)+真实性(Authenticity)+互动性(Interactiveness)+冲击力(Impact)+适用性(Practicality)。这里需要说明的是:Bachman和Palmer之所以把“构想效度”作为“效用性”六大特征之一,是因为构想效度(上节已提到)关系到我们根据测试成绩所作的解释的意义性和适切性。前五者均与测试成绩的使用有关,而“适用性”与测试的方法有关,能够在很大程度上决定测试的可行性。评价一次考试是否有效用需要综合考察这些因素,在它们之间寻求最佳的平衡点,而这一平衡能否实现取决于适用性的大小。对于大规模考试,考试策划者需在试卷设计和考试任务设置时重点考虑信度和效度,而对于一般学校考试,教师就应多考虑考试任务的真实性、互动性和对教学的冲击力(或称后效作用)。
4 在英语测试实践中把握好信度和效度的平衡关系
以上已经大致证明:信度和效度作为评估测试质量的两个基本特性,两者虽然在一定程度上是相互矛盾的,但完全可以通过相互协调使之达到适切的平衡,以保证测试的总效用性最大化。这一结论给我们的启示是:在英语测试的设计和命题过程中,不能绝对、片面、盲目地追求或强调某一方面而以失去另一方面为代价,只有综合平衡二者的关系才能获得最大的总效用。
4.1 考试内容能否体现新的语言教学观
语言测试随着语言观的发展而发展,也随着教学理念、教学模式的更新而更新。八十年代中期开始流行的交际功能观和九十年代以后兴起的任务教学法(task-basedlanguageteachingapproach)都对语言测试的改革提出了新的要求。现行的四、六级考试题型还是以结构主义语言测试理论为基础的多选题为主,某些语言项目的测试与实际语言能力的相关性不高,很难体现当代语言教学观提倡的英语交际运用能力方面的考查。Bachman和Palmer(1996)也强调测试任务和目标语使用任务(target-languageusetask)的一致性。看来革新CET的试卷结构、题型设置是关键。为了提高考试的效度,可以通过调整主观题和客观题的比例(3:2或1:1),多采用直接测试法,增加听力和写作测试的权重,加大口试考核力度并设最低分,变化题型等手段。也可通过采取大题量小分值,细化评分标准,综合使用整体评分法(holisticgrading)和分析评分法(analyticmarking)等措施来提高考试信度。
4.2 能否产生正面反拨效应
测试是教和学的导向。问题是如何提高测试的正面反拨效应,减少负面反拨效应。四、六级考试长期以来采用固定不变的模式,客观上造成了学生猜题、押题,教师偏向应试教学,产生了不良的教学效果。Hughes提出了若干提高正面反拨效应的建议:测试要培养能力;测试内容要覆盖面广并具有一定的不可预测性;尽量使用直接测试法;成绩测试要与教学目标相结合,使用尺度参照等。这些建议多数涉及效度,也与信度相关。信度和效度是影响反拨效应的重要因素,正确处理好两者的关系能使测试产生积极有利的反拨效应。
5 结束语
测试的最终目的是服务于教学。作为教师,重视语言测试理论的研究,掌握命题的原则,在试卷编制过程中把握好信度、效度及其它评价指标之间最佳的平衡关系,将有利于优化各类英语测试的质量,更有效地推动英语教学的发展。
参考文献
[1]AmericanPsychologicalAssociation,1985,StandardsforEducationalandPsychologicalTesting[M],Washington,DC:AmericanPsychologicalAssociation.
[2]Bachman,L.F.&A.S.Palmer,1996,LanguageTestinginPractice[M].Oxford:OxfordUniversityPress.
[3]Weir,C.J.,1993,UnderstandingandDevelopingLanguageTests[M].NewYork:PrenticeHall.