2025年北京中考圆满落幕,11.05万名考生历经两天紧张的考试,共同见证了北京新一轮中考改革的首次落地。此次改革,考试时间由往年的三天压缩至两天,总分值也从670分降至510分,道德与法治更是首次采用开卷考试形式。这一系列变化,无疑让每一分的价值更加凸显,高分段的竞争也愈发激烈。

各学科命题更是别出心裁,注重考查学生的核心素养和关键能力。数学科目中,简单题占比降低,新函数、圆综题等创新题型层出不穷,区分度显著提升。语文试题则着重考察学生对语言文字的基本功和感受能力,引导学生在情境中思考如何运用语言文字解决问题。考生们纷纷感叹:“这题太难了,简直让人欲哭无泪!”
面对如此高难度的中考,我们不禁好奇:如果把当下主流的AI大模型当作中考考生,它们究竟能交出怎样的答卷?这些AI模型,能否成为传说中的学霸尖子生,一展身手呢?

为了揭开这一谜团,我们精心挑选了七位“参赛选手”:DeepSeek、字节豆包、讯飞星火、通义千问、腾讯混元、文心一言以及GPT。这七位选手,都是大家耳熟能详、常用的大模型,小众且缺乏代表性的则不在此次考察之列。
为了确保测试的公平性,我们统一关闭了所有参与测试大模型的联网功能,并开启了深度推理模式。语文作文和英语作文以文本形式提问,数学则全卷考察。在语文作文评分环节,我们更是特邀了前人大附中分校语文名师、中考命题高级研究员李豪,以及中考语文资深教研专家、曾参与多所重点中学语文备考方案制定的金宇佳两位资深教育专家进行打分,取两位老师的平均分作为最终成绩。
这场别开生面的“中考”比拼,不仅考验了AI模型的实力,也让我们对它们有了更深入的了解。究竟哪位AI模型能够脱颖而出,成为中考“学霸”?让我们拭目以待,共同期待这场智慧与技术的较量能够为我们带来更多惊喜和启示。
