AI 一次性跑新高考 I 卷数学,究竟能拿多少分?亲测榜单公开

lvye2026/6/11
AI测试高考GPT-5.5QwenGemini

测试方法

一位 Linux.do 用户将 2026 年新高考 I 卷数学一次性全部发送给各大 AI 模型,不做任何提示优化,看模型能答多少分。

为什么选择一次性发送而非逐题?

"现在的模型都太强大了,先用这个方式来测试。把最难的题放在最后面,考验模型的长上下文注意力,这也是一种难度。"

测试环境

测试条件非常严格:

  • GPT-5.2 Pro / 5.5 / 5.4 / 5.2 Thinking:官网 Pro 20X 账号,推理强度 Extra High,无 Personalization,无 Memory/Dreaming,未使用任何工具
  • Gemini 3 DeepThink:官网,无 personalization,无记忆
  • Gemini 3.1 Pro / 3.5 Flash:Google AI Studio,思考强度 high,参数默认
  • Qwen 3.7 Max:千问官网,20 分钟思考不截断
  • Claude 4.8 Opus:由社区用户 @Nobody_233 帮忙测试,官网 max thinking

测试结果

满分选手

  • GPT-5.5:连续 3 次满分(150分),被认为是"不需要做高考卷证明实力"的存在
  • GPT-5.4:也有较大概率满分

高分选手

  • GPT-5.2 Pro / Thinking:表现优异
  • Gemini 3 DeepThink:谷歌的深度思考模型表现不错
  • Qwen 3.7 Max:国产模型中的亮眼表现,千问官网"20 分钟思考不截断,一点都不卡,比 GPT 网页版还好"

待补测

  • Claude 4.8 Opus:只测了一次(测试者没钱)
  • MiMo V2.5 Pro、GLM 5.1、DeepSeek V4 Pro:正在补测逐题发送方式

为什么有些模型没测?

测试者非常坦诚地说明了原因:

模型 未测原因
Kimi 没有 API 和官网会员
小米 MiMo 忘了 Xiaomi Mimo Studio
DeepSeek 没有 API,官网不是 max 思考强度
GLM 5.1 没有 API,官网思维链截断
Muse Spark 没有 API,官网思维链截断
Grok 没有 API,官网思维链截断
GPT-5.4 Pro GPT-5.4 已有较大概率满分
GPT-5.5 Pro GPT-5.5 已连续满分,无需再测

趣闻:GPT-5.5 的"降智"插曲

测试者发现一次 GPT-5.5 仅用 6 分 44 秒就拿到了 146 分,创下最高分/时长比。但由于怀疑是"问太多导致降智",且第二天仍在降智状态,该成绩未被记入

关键结论

  1. 高考数学已不是 AI 的挑战:GPT-5.5 级别的模型可以稳定满分
  2. 国产模型进步显著:Qwen 3.7 Max 在官网体验上甚至超过 GPT
  3. 测试公平性很重要:不同平台的思考强度、截断策略差异巨大,直接影响结果
  4. 长上下文是新考点:一次性发送整张试卷,考验的不只是数学能力,还有注意力分配

数据来源:测试者公开的多次测试对话链接