绿叶的个人空间

测试方法

一位 Linux.do 用户将 2026 年新高考 I 卷数学一次性全部发送给各大 AI 模型，不做任何提示优化，看模型能答多少分。

为什么选择一次性发送而非逐题？

"现在的模型都太强大了，先用这个方式来测试。把最难的题放在最后面，考验模型的长上下文注意力，这也是一种难度。"

测试条件非常严格：

GPT-5.2 Pro / 5.5 / 5.4 / 5.2 Thinking：官网 Pro 20X 账号，推理强度 Extra High，无 Personalization，无 Memory/Dreaming，未使用任何工具
Gemini 3 DeepThink：官网，无 personalization，无记忆
Gemini 3.1 Pro / 3.5 Flash：Google AI Studio，思考强度 high，参数默认
Qwen 3.7 Max：千问官网，20 分钟思考不截断
Claude 4.8 Opus：由社区用户 @Nobody_233 帮忙测试，官网 max thinking

测试者非常坦诚地说明了原因：

测试者发现一次 GPT-5.5 仅用 6 分 44 秒就拿到了 146 分，创下最高分/时长比。但由于怀疑是"问太多导致降智"，且第二天仍在降智状态，该成绩未被记入。

数据来源：测试者公开的多次测试对话链接