考试不会怎么选？在蒙题与跳题上，男生女生原来还有差别

图片：《天才枪手》

Manolo，我梦扁舟浮震泽

学生年代，大家都经历过“参差不齐就选 D”的“心跳时刻”，颇有“梭哈”的快感；在教育经济学中，学生选择蒙题还是跳题，也是很有意思的话题。近年的研究表明：在“不答不扣分，答错倒扣分”的场景中，男女的抉择间有显著差异——相比冒着罚分的风险蒙一个，女生的选择更加保守。实际的考试中，从“答错倒扣”改为“答错不扣”，会显著缩减成绩的性别差异。

表 1 Baldiga 的实验结果。横栏代表性别，纵栏代表情景设定。在 Unframe 设定中，研究者仅仅是让学生回答 20 道问题，在 SAT framed 设定中，研究者指明这些是来自竞争性考试 SAT 中的题目。这一设定差异与作者的其他研究结论有关。P 值表征相应差异的显著性

Baldiga 以实验探究了这一问题：参与者随机分组，回答 20 道美国高校入学考试（SAT）历史科的选择题（五选一）。其中一组，选对得 1 分，选错不影响分数；另外一组，选对也得 1 分，但选错要扣 0.25 分。不选都不扣分。结果，选错不扣分时，几乎所有人都答完了所有题目；选错倒扣分时，男女的策略出现了显著差异——女生跳过的题目数几乎是男生的 2 倍！

图 1 Baldiga 实验中男女参与者对答案自信程度的比较，其中深色为男性，浅色为女性。可见，即使存在差异，也是女生对答案更加自信。

这一现象的成因是什么呢？在答完题目之后，实验者测量了参与者的风险规避程度与对之前答案的自信程度，同时邀请参与者再次作答（这次不记分），以衡量参与者对题目涉及的历史知识的了解程度[1]。结果，无论是自信还是历史水平，都无法解释前述差异；风险规避确实对答题策略有显著影响，但只能解释男女间40%的差异。深层原因仍需继续探究。

图 2 智利高考改革前（绿色）与改革后（棕色），不同排名段的考生，女生比男生多跳过题目的数量

类似现象在实际的考场中亦存在。2015 年，智利高考改革，将选择题计分方式由“错 1 题倒扣 0.25 分”改为“答错不扣分”（与前述实验一致。此外，智利高考也是五选一）。改革引发的后果大体如上：改革之前，排名越高，男生比女生多答的选择题题目数量就越多。在最高分段的五分之一考生中，女生平均要比男生少作答 5 道题！改革之后，这一差异几乎消失。

图 3 改革前后，智利高考的不同排名段，男生成绩相比女生的优势。图例颜色含义同上

如此变动，对两性考生的表现有什么影响呢？通过比较改革前后的两次考试，Coffman 和 Kilowski 估算了影响的幅度：“答错不扣分”，让男生的成绩优势缩小了约 0.03 个标准差，占之前差距的 9%。为排除时间趋势的干扰，作者选取多次考试成绩做了安慰剂检验（没有改革的考试中，是否有如此波动？），发现影响在分数最高的五分之一考生中最为显著[2]。

图 4 智利高考改革前后，最高排名的五分之一学生中，女生比男生多答的题目数量与男生相比女生的成绩优势的分学科比较

除各分数段外，作者还分学科检验了改革的成效，结论如上图所示：在大部分学科，多作答的题数愈多，相应的成绩提升也愈明显。生物和化学两科，男女成绩的差异缩小了约 0.1 个标准差；数学是唯一的例外。尽管女生多答了近 7 道题，最终的成绩差异没有因此发生显著变化。看来，在大部分学科中，只要倒扣不是太狠，多蒙几题可能是更加占优的策略。

[1] 测量采取的都是行为经济学中通用的办法：参与者在一系列彩票中的选择，可以揭示他们的风险偏好程度；让参与者在“自己回答”和“回答准确度已知的机器人”中做选择，可以揭示他们对自身答案的信心。除以上因素外，实验设计中还考虑了两性在面对压力时的差异。

[2] 所谓安慰剂检验，指的是将 2013 或 2014 年的数据依此回归，观察男女间成绩差异是否会产生如此变化。如果是，则说明之前看到的结论可能纯属随机波动或趋势变化。除此之外，文章还利用会考分数（没有经历改革）做了检验。以上检查，印证了前述的分析结果。

参考文献：Baldiga, K. (2013). Gender differences in willingness to guess. Management Science, 60(2), 434-448.

Coffman, K., Klinowski, D. (2018). The impact of penalties for wrong answers on the gender gap in test scores.

查看知乎讨论