上礼拜去一所小学听课,四年级数学,讲的是小数乘法。孩子们算得飞快,课堂练习全对。下课我拉住一个小男孩问:‘0.5×0.8等于多少?’他脱口而出:‘0.4!’我又问:‘那你能举个生活中的例子吗?’他眨眨眼,愣了好几秒,然后小声说:‘我妈妈买菜的时候可能会用到……吧?’
你看,这就是我们现在最头疼的事——考试评价改革喊了这么多年,孩子们的分数确实好看了,可他们真的理解自己在学什么吗?
说实话,那一瞬间我有点沮丧。不是针对那个男孩,而是对那一张张工整的试卷。它们能证明什么呢?证明这个孩子会背口诀,会套公式,但不会把知识和真实世界连起来。我们想要的评价,到底是测出这种‘假装学会’,还是测出一个人真正的素养?
——对,我用的是‘素养’这个词,虽然它快被用烂了。
纸笔测试的尽头是什么
我见过太多这样的场景:初中生能解复杂的二次函数,但连自家的水费单都看不懂。你不觉得荒谬吗?
前阵子和一个教了二十多年物理的老师聊天,他狠狠吐槽:‘以前我们还能带学生去实验室捣鼓半天,现在呢?实验题全靠背步骤!’他叹了口气,‘考试评价改革要是再不改掉那种“纸笔定终身”,科学课就全完蛋了。’
我完全理解他的愤怒。纸笔能测的东西太窄了——记忆力、一定的推理能力,仅此而已。合作能力、创新思维、批判性思维,甚至那种在真实任务里才冒出来的韧性,全都被挡在考场门外。❗

不过话说回来,纸笔测试也不是一无是处。它公平,高效,成本低。怎么破?欧盟一些国家搞过‘表现性评价’,让学生花一两周完成一个项目,比如设计一个社区的节水方案。这里面有数据采集、有数学计算、有科学探究,最后还得汇报答辩。多真实!可老师们立刻跳起来——‘一个班四十个孩子,我怎么评得过来?’
过程性评价:理想很丰满
没错,过程性评价就是那个‘香饽饽’也是‘烫手山芋’。这几年教研活动里,专家们总在喊:‘要关注学习过程,不要只看结果!’一堆新名词砸过来:成长档案袋、课堂观察量表、学生学习日志……✅ 理念当然是好的。
可我亲眼见过一位班主任的办公桌:墙角摞着半人高的档案袋,里面塞满了学生平时的作品、自评表、互评表。她说:‘每学期末光是整理这些就得花一周,我还得写评语呢。你说,我到底是当老师还是当档案管理员?’
这就是现实。我们总把评价改革的重担压在老师肩上,却不给工具、不给时间、不改变评价的最终出口——中考高考看什么?还不是那几个分数!
问:那过程性评价会不会沦为形式主义?
答:会,而且已经出现了。有些学校搞‘电子档案袋’,家长比着谁收集的证书多,变成了一种新的攀比。真正的过程性评价,应该像北欧那样,老师用简短的故事描述孩子的进步,而不是打分。但我们的文化里,没有分数大家就焦虑,对吧?
我自己琢磨过一个办法:在课堂上用即时贴快速记录。比如小组讨论时,我看到某个平时沉默的孩子提出了一个绝妙的问题,就悄悄记下来,课后夹进他的档案袋。这样负担小,而且特别真实。但——这得小班额啊!我们动不动五六十人的班额,这招就算能行,老师也会先累垮。

多元评价怎么个‘多元’法
再往深里想,考试评价改革不能只纠缠‘怎么评’,还得想‘谁来评’。家长、同学、甚至社区都能参与。我女儿学校搞过‘阅读马拉松’,孩子们自己选书、做计划,然后家长和老师一起听他们‘说书’。那种热情!完全不是为了分数。
可一回到传统考试的语境,孩子立刻变脸:‘这道题几分?能不能多得两分?’我还是不太喜欢这种功利心,但能怪孩子吗?不能。整个系统都在用分数给娃‘贴标签’。
问:如果真搞多元评价,怎么保证公平?有钱人家的孩子不是更占便宜?
答:这个问题太犀利了。确实,表现性评价如果设计不好,会放大阶层差距——有的孩子暑假能去国外博物馆实践,有的孩子连本课外书都没有。所以评价任务必须基于共同资源,比如课堂上提供的材料。而且评分标准要极其透明,甚至让学生自己也能对照标准反思。公平不是一刀切的分数,而是让每个孩子看到自己的成长,哪怕起点不同。
去年我参与过一个实验:让初中生用废旧材料设计一个保温装置,然后测评其保温效果,并撰写科学报告。评分标准包括科学理解、工程设计、团队合作、报告质量等多个维度。孩子们的热忱让我惊讶——连班里最不爱写作业的那个男生,都蹲在角落反复测试。那一刻我想,考试评价改革要成就的,难道不是这种内在驱动吗?
技术来了,人往哪去

现在到处都在谈AI批卷、大数据评价。说实话,我既兴奋又害怕。兴奋的是,技术真的能减轻老师负担,比如作文智能评阅能指出语法错误、结构问题;怕的是,我们又把评价窄化为数字。一个孩子细腻的情感、天马行空的想象,算法能捕捉吗?❗
有次我用某个APP看班级的‘学情报告’,界面花花绿绿,孩子们被分成‘优异’‘达标’‘待提高’。我盯着那个‘待提高’标签,突然觉得特别刺眼——那是活生生的人啊,怎么就成了数据库里一行待优化的记录?
所以考试评价改革的终极命题,也许不是创造更精巧的尺子,而是学会欣赏不同的花。芬兰去年开始推行‘现象式教学’,完全打破学科界限,评价也变成描述性的。他们敢这么干,因为整个社会信任教师,不迷信排名。我们能吗?还差得远,但总得有人先迈一步。
(写到这儿,我想起那个四年级小男孩的眼神。他不是不会,是没有被问到对的问题。)