今年,5款大模型参加了2025年山东高考,以文理分科统计,豆包Seed 1.6-Thinking模型以683分获文科第一,Gemini 2.5 Pro凭借655分拔得理科头筹。这场AI高考测评,让我们看到了大模型的惊人进步。
测评概况:公平公正,全科比拼
此次测评由字节跳动Seed团队组织,集结了Seed 1.6-Thinking、DeepSeek-R1-0528、Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416五款主流推理模型。采用2025年山东高考真题(主科全国Ⅰ卷 + 副科自主命题),以高考750分制全科闭卷测评。为确保公平,选择题和填空题系统机判辅以人工质检,开放题由两位有联考判卷经验的重点高中老师匿名评估并多轮质检,全程未做prompting engineering,输入均为高考原题。
各科表现:文科亮眼,理科有差距
展开剩余74%语文:得作文者得天下
豆包以128分获单科第一,Gemini以2分之差位列第二。大模型在选择题和阅读理解题上表现出色,名句默写全部满分,源于预训练阶段接触海量相关文本数据。但作文表现参差不齐,满分60分,Gemini 52分,豆包48分,o3仅20分,主要问题是写作缺乏深度思辨和逻辑推进,格式规范也有小问题。
数学:成绩突飞猛进
相比去年普遍不及格,今年不少大模型能考到140分以上,DeepSeek R1、豆包、Gemini分别以145、141、140分位列前三。不过,大模型回答存在随机性,解答题过程有差别。新一卷第6题因图像信息复杂导致全员失分,压轴大题也易出现漏掉证明过程、推导不严谨的情况。
英语:全员高分,差距小
五家大模型全部上140分,除Gemini在一道选择题出错外,主要扣分点在写作。作文满分15分,豆包、Gemini和Claude 4为“12分档”,o3和DeepSeek为“11分档”,各有优缺点。
文综:豆包实力强劲
豆包以270分领先,尤其在地理和历史双双突破90分,得益于其在处理结构化资料和逻辑推演方面的优化。o3各科均衡,Claude 4地理亮眼但政治失分多,Gemini无短板也无强项,DeepSeek成绩不理想,历史因模型故障失分严重。
理综:读图题影响发挥
Gemini以248分位居榜首,但理科总分与清北线有距离,是保底985的水平。生物、化学读图题因图片模糊,限制了多模态模型发挥,失分较多。重新用图文交织方式测试,豆包生化两科总分可提升近30分,理科总分达676分。物理压轴题中,多个模型使用超纲知识解答。
技术突破:创新优化,实力提升
多款大模型表现不凡,离不开推理能力和多模态处理方面的技术创新与优化。谷歌3月推出的Gemini 2.5 Pro,能通过思维链深度推理,理解海量数据集,处理复杂问题;OpenAI的o3是最强推理模型,可长时间思考,将图像融入思维链,具备分步思考和图像理解能力;豆包大模型1.6系列采用多模态能力融合的预训练策略,强化文本理解,引入视觉模态,支持高达256K的上下文长度,Seed1.6-Thinking在训练中采用多阶段优化,提升复杂问题思考长度和视觉理解能力。
编辑
未来展望:告别应试,投身实践
“AI参加高考”曾是检验技术进步的方式,引发大众对AI能力边界等讨论。如今,大模型在文本理解、多模态理解、推理层面进步显著,高考这个“试金石”似乎不再具挑战性。明年,大模型或许没必要再做高考试卷,可融入科学研究、艺术创作、编程开发等领域,解决复杂难题,成为各领域行家里手。我们有理由期待大模型在未来创造更多可能。
发布于:湖南省扬帆配资提示:文章来自网络,不代表本站观点。