那天我儿子带回一张科学课的成绩单,上面写着“制作一个能净化水的简易装置——B+”。我问他,你这个 B+ 是怎么得来的?他说,老师就是看了看就打分呗。我又问,那你觉得自己做得怎么样?他挠挠头,说不太清楚,反正大家做的都差不多。那一刻我突然意识到,我们追求的“评价”可能已经偏离了它的本意——它变成了一个黑箱,孩子只是往里扔了一件作品,然后等着一个字母或数字掉出来。
说实话,这种感觉太熟悉了。我们这代人谁不是这么过来的?考卷上的红勾勾、期末手册上的优和良,构成了我们对“学习成果”的全部想象。但问题是,当知识不再是稀缺品,当 ChatGPT 能写论文能做题的时候,我们到底想让孩子学会什么?又该如何知道他们真的学会了?
表现性评价,究竟是个什么东西?
它不是新名词。早在 1990 年代,美国教育评价专家格兰特·威金斯就提出了表现性评价(Performance Assessment)的理论,核心就一句话:让学生去完成一个真实世界里的任务,并在这个过程中展现他们的理解和能力。但不知道为什么,传到国内后就慢慢被窄化了,很多老师以为就是“做个手抄报”“搞个小组汇报”——唉,完全不是一码事!

举个例子吧。传统评价像是考驾照的科目一,你背会了交通规则就能过;但表现性评价是让你直接上路开车,考官坐在旁边看你如何处理真实路况。前者测的是记忆,后者测的是胜任力。一个典型的表现性评价任务通常有三个特征:① 基于真实或仿真的情境;② 要求学生综合运用知识与技能;③ 有一套公开、清晰的评分标准(通常叫量规)。少了任何一条,就容易沦为花架子。
我记得有一回参加一个教师工作坊,培训老师说,你们回去设计一个测量学生“数据分析能力”的表现性评价。有位数学老师做了个“统计食堂浪费”的项目,学生要去餐厅记录数据、分析原因、提出改进方案,最后还要面对全校做答辩。哇,这个设计绝了!✅ 但那位老师后来偷偷对我说,太难了,光评分就花了三个晚上,比改卷子累多了。我特别理解这种崩溃感……表现性评价对老师的要求实在太高了。
为什么我们非走这条路不可?
因为纸笔测试的“天花板”越来越明显了。一场标准化考试能轻松测出学生会不会套公式,但测不出他们面对一个模糊问题时的探索意愿;能筛出谁背熟了历史事件,但看不出谁能够用史料建构自己的解释。你可能觉得我在危言耸听,但你看近两年的中高考改革方向——情境化命题、开放性设问、跨学科融合,这些不就是在向表现性评价靠拢吗?💡 2023年某省中考语文考了“为社区设计一个文化角推广方案”,这不就是活脱脱的表现性任务?
还有一点,我们总在喊“核心素养落地”,可素养怎么测?你没法用选择题测一个人的合作精神或创新意识吧?表现性评价恰好提供了这种可能:你把学生放在一个需要合作、需要创造的情境里,然后观察、记录、分析他们的行为表现。它评的是“做事”的能力,而不是“知道”的程度。
问:表现性评价是不是就排斥任何标准化测试?两者是水火不容的关系吗?答:不不不,千万别这么想。这就是个常见的误解。表现性评价和传统纸笔测试其实应该是互补关系。前者擅长评估复杂认知和高阶思维,后者适合检视基础知识掌握情况。就像你不能拿一把尺子去量温度——工具不同,作用不同。现在很多学校搞“教-学-评一体化”,就是要把这两种评价有机嵌在学习过程中,让评价本身成为学习的一部分。
教室里真实发生的故事
去年去深圳一所小学听课,五年级数学课,学“小数除法”。老师没讲课,直接丢出一个任务:帮学校旁边的奶茶店设计一款“爆款饮品”,并核算成本与定价,确保利润率不低于30%。孩子们兴奋极了——上网查原料价格、用小数除法计算每份用量、画海报宣传……有个平时数学不及格的小胖墩,为了算清楚珍珠的成本,竟然主动请教同学,最后算得比谁都细!老师展示了他的量规表,上面有五个维度:数学计算准确性、成本分析的合理性、创意的可行性、团队合作表现、展示陈述的逻辑性。那一刻我真心觉得——❗这才是学习本该有的样子啊。

当然,不是每个故事都这么美好。也有老师尝试让学生排演历史剧来评价对“辛亥革命”的理解,结果学生光顾着背台词、做服装,对历史因果关系反而糊里糊涂。为什么?因为任务设计跑偏了,变成了一场表演秀,而评价目标若没锚定“历史解释与思考”,那就失去了灵魂。
问:作为家长,我怎么判断孩子的学校在用“真正的”表现性评价,而不是在做表面功夫?答:好问题。你可以留意三个细节。第一,要看有没有清晰的评价量规,而且这个量规是在任务开始前就告诉孩子的,而不是老师事后凭印象打分。第二,任务结束后,孩子能不能说出自己哪里做得好、哪里需要改进——这就是反思,表现性评价特别强调“自我评价与改进”。第三,老师的反馈是不是具体、有建设性,而不是简单一句“很棒”或“继续努力”。如果你看到的是有量规、有反思、有具体反馈,那基本靠谱;如果只有热闹和展示,那可能只是“表现”,不是“评价”。
这条路到底难在哪儿

既然这么好,为什么不全面推广?因为——太难了。对老师而言,设计一个高质量的表现性任务,需要吃透课程标准、熟悉学生认知水平、还要能预判各种突发状况;评分时更要花大量时间观察、记录,脑子得像摄像机一样运转。而且,我们现在的评价体系仍然以分数为主要升学依据,表现性评价很难直接转化为一个冷冰冰的总分,这让很多学校和家长感到不安。但有趣的是,不少民办学校和国际部反而走得很快,因为它们可以绕开一些制度束缚。
不过话说回来,困难不是拒绝改变的理由。我看到北京、上海、成都等地的一些区县教研员,已经开始带着老师开发表现性评价任务库了,他们用技术手段减轻评分负担,比如用录像分析、同伴互评、甚至AI辅助观察。趋势不可逆,对吧?
最后想起威金斯的一句话:“评价不应只是教学后的检查,它应该就是教学本身。” 如果有一天,孩子拿着一个自己设计的环保方案兴奋地对你说:“妈妈你看,我解决了我们小区垃圾分类的实际问题,老师说我做得特别好,但我觉得这里还能改进……” 那大概就是表现性评价最美的样子吧。至于分数?那只是额外的奖励。