AI 一次性跑新高考 I 卷数学,究竟能拿多少分?亲测榜单公开
lvye2026/6/11
AI测试高考GPT-5.5QwenGemini
测试方法
一位 Linux.do 用户将 2026 年新高考 I 卷数学一次性全部发送给各大 AI 模型,不做任何提示优化,看模型能答多少分。
为什么选择一次性发送而非逐题?
"现在的模型都太强大了,先用这个方式来测试。把最难的题放在最后面,考验模型的长上下文注意力,这也是一种难度。"
测试环境
测试条件非常严格:
- GPT-5.2 Pro / 5.5 / 5.4 / 5.2 Thinking:官网 Pro 20X 账号,推理强度 Extra High,无 Personalization,无 Memory/Dreaming,未使用任何工具
- Gemini 3 DeepThink:官网,无 personalization,无记忆
- Gemini 3.1 Pro / 3.5 Flash:Google AI Studio,思考强度 high,参数默认
- Qwen 3.7 Max:千问官网,20 分钟思考不截断
- Claude 4.8 Opus:由社区用户 @Nobody_233 帮忙测试,官网 max thinking
测试结果
满分选手
- GPT-5.5:连续 3 次满分(150分),被认为是"不需要做高考卷证明实力"的存在
- GPT-5.4:也有较大概率满分
高分选手
- GPT-5.2 Pro / Thinking:表现优异
- Gemini 3 DeepThink:谷歌的深度思考模型表现不错
- Qwen 3.7 Max:国产模型中的亮眼表现,千问官网"20 分钟思考不截断,一点都不卡,比 GPT 网页版还好"
待补测
- Claude 4.8 Opus:只测了一次(测试者没钱)
- MiMo V2.5 Pro、GLM 5.1、DeepSeek V4 Pro:正在补测逐题发送方式
为什么有些模型没测?
测试者非常坦诚地说明了原因:
| 模型 | 未测原因 |
|---|---|
| Kimi | 没有 API 和官网会员 |
| 小米 MiMo | 忘了 Xiaomi Mimo Studio |
| DeepSeek | 没有 API,官网不是 max 思考强度 |
| GLM 5.1 | 没有 API,官网思维链截断 |
| Muse Spark | 没有 API,官网思维链截断 |
| Grok | 没有 API,官网思维链截断 |
| GPT-5.4 Pro | GPT-5.4 已有较大概率满分 |
| GPT-5.5 Pro | GPT-5.5 已连续满分,无需再测 |
趣闻:GPT-5.5 的"降智"插曲
测试者发现一次 GPT-5.5 仅用 6 分 44 秒就拿到了 146 分,创下最高分/时长比。但由于怀疑是"问太多导致降智",且第二天仍在降智状态,该成绩未被记入。
关键结论
- 高考数学已不是 AI 的挑战:GPT-5.5 级别的模型可以稳定满分
- 国产模型进步显著:Qwen 3.7 Max 在官网体验上甚至超过 GPT
- 测试公平性很重要:不同平台的思考强度、截断策略差异巨大,直接影响结果
- 长上下文是新考点:一次性发送整张试卷,考验的不只是数学能力,还有注意力分配
数据来源:测试者公开的多次测试对话链接