微量配资 AI“赶考”山东卷：从“学渣”到“学霸”的逆袭之路_Gemini_模型_高考

微量配资来源：在线股票配资网站：扬帆配资日期：2025-07-16 07:56:10 查看：151

今年，5款大模型参加了2025年山东高考，以文理分科统计，豆包Seed 1.6-Thinking模型以683分获文科第一，Gemini 2.5 Pro凭借655分拔得理科头筹。这场AI高考测评，让我们看到了大模型的惊人进步。

测评概况：公平公正，全科比拼

此次测评由字节跳动Seed团队组织，集结了Seed 1.6-Thinking、DeepSeek-R1-0528、Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416五款主流推理模型。采用2025年山东高考真题（主科全国Ⅰ卷 + 副科自主命题），以高考750分制全科闭卷测评。为确保公平，选择题和填空题系统机判辅以人工质检，开放题由两位有联考判卷经验的重点高中老师匿名评估并多轮质检，全程未做prompting engineering，输入均为高考原题。

各科表现：文科亮眼，理科有差距

展开剩余74%

语文：得作文者得天下

豆包以128分获单科第一，Gemini以2分之差位列第二。大模型在选择题和阅读理解题上表现出色，名句默写全部满分，源于预训练阶段接触海量相关文本数据。但作文表现参差不齐，满分60分，Gemini 52分，豆包48分，o3仅20分，主要问题是写作缺乏深度思辨和逻辑推进，格式规范也有小问题。

数学：成绩突飞猛进

相比去年普遍不及格，今年不少大模型能考到140分以上，DeepSeek R1、豆包、Gemini分别以145、141、140分位列前三。不过，大模型回答存在随机性，解答题过程有差别。新一卷第6题因图像信息复杂导致全员失分，压轴大题也易出现漏掉证明过程、推导不严谨的情况。

英语：全员高分，差距小

五家大模型全部上140分，除Gemini在一道选择题出错外，主要扣分点在写作。作文满分15分，豆包、Gemini和Claude 4为“12分档”，o3和DeepSeek为“11分档”，各有优缺点。

文综：豆包实力强劲

豆包以270分领先，尤其在地理和历史双双突破90分，得益于其在处理结构化资料和逻辑推演方面的优化。o3各科均衡，Claude 4地理亮眼但政治失分多，Gemini无短板也无强项，DeepSeek成绩不理想，历史因模型故障失分严重。

理综：读图题影响发挥

Gemini以248分位居榜首，但理科总分与清北线有距离，是保底985的水平。生物、化学读图题因图片模糊，限制了多模态模型发挥，失分较多。重新用图文交织方式测试，豆包生化两科总分可提升近30分，理科总分达676分。物理压轴题中，多个模型使用超纲知识解答。

技术突破：创新优化，实力提升

多款大模型表现不凡，离不开推理能力和多模态处理方面的技术创新与优化。谷歌3月推出的Gemini 2.5 Pro，能通过思维链深度推理，理解海量数据集，处理复杂问题；OpenAI的o3是最强推理模型，可长时间思考，将图像融入思维链，具备分步思考和图像理解能力；豆包大模型1.6系列采用多模态能力融合的预训练策略，强化文本理解，引入视觉模态，支持高达256K的上下文长度，Seed1.6-Thinking在训练中采用多阶段优化，提升复杂问题思考长度和视觉理解能力。

编辑

未来展望：告别应试，投身实践

“AI参加高考”曾是检验技术进步的方式，引发大众对AI能力边界等讨论。如今，大模型在文本理解、多模态理解、推理层面进步显著，高考这个“试金石”似乎不再具挑战性。明年，大模型或许没必要再做高考试卷，可融入科学研究、艺术创作、编程开发等领域，解决复杂难题，成为各领域行家里手。我们有理由期待大模型在未来创造更多可能。

发布于：湖南省

扬帆配资提示：文章来自网络，不代表本站观点。