近日,香港科技大学的一场特殊考试实验引起了广泛关注。张军教授和孟子立教授团队利用一副搭载了ChatGPT-5.2大语言模型的乐奇Rokid AI眼镜,成功完成了该校《计算机网络原理》课程的期末考试。在仅耗时30分钟的答题过程中,这台AI设备交出了一份得分92.5分的答卷,这一成绩超越了95%的同期人类考生。
为确保实验的有效性,研究团队完全复刻了真实考试的场景与环境。他们选择了硬件开发自由度较高的乐奇Rokid AI眼镜作为载体,并为其配备在响应速度与知识储备方面均属顶尖的ChatGPT-5.2模型。在考试中,AI眼镜通过内置摄像头拍摄试题,将图像信息传输给后端的大模型进行处理。大模型在平均0.8秒内即可完成题目推理并生成答案,随后答案被反向回显到眼镜的镜片上,供操作者抄录。

最终的答题表现相当亮眼:在面对选择题和单页短答题时,AI取得了满分;虽然在涉及跨页信息的逻辑推理题上出现了细微的计算偏差,但其答案在整体推理的连贯性与解题步骤的完整性方面,均远超大多数学生。
这一实验结果并非偶然。此前,英国雷丁大学的一项研究也曾表明,在提交的AI生成答卷中,有高达94%能够通过人工审核,并且其平均成绩普遍高于真实学生的答卷。
此次实验更深层的意义,在于尖锐地揭示了当前传统教学评估体系中的一个核心矛盾:以考查知识点记忆和标准解题步骤推导为主的笔试形式,恰恰是人工智能最为擅长的领域。当机器在“提交标准答案”方面表现得比人类更出色时,传统考试所承载的衡量与区分意义便被极大地削弱了。
面对来自人工智能的冲击,全球范围内的高等教育机构已开始积极寻求改革路径。例如,纽约大学推出了AI口试系统,通过持续追问学生的推演思路来评估其真实理解深度;部分院校则引入了需要展示过程的项目式作业与现场答辩,要求学生详细解释自己的决策依据与思考逻辑。此外,也有教育机构尝试采用“过程性档案袋”的评价方式,完整记录学生从提出问题到最终解题的整个思维轨迹,从而将评估的重点从单纯的“结果正确性”转向对“思考过程质量”的考察。





























浙公网安备 33010502007447号