株式会社 LifePrompt(总部:东京都新宿区;代表取缔役:远藤聪志)于 2026 年 2 月进行了一项验证,让最新的生成式 AI(ChatGPT 5.2 Thinking/Gemini 3 Pro Preview/Claude 4.5 Opus)解答东京大学与京都大学的二次试验题目。 在河合塾讲师及株式会社 KIES 的采点协助下,ChatGPT 5.2 Thinking 与 Gemini 3 Pro Preview 在东京大学所有科类以及京都大学几乎所有学部、学科中,均超过了合格者最高分(相当于首席),并以数学为中心在多个科目中创下了满分纪录。 详细内容已在 note 公开:https://note.com/lifeprompt/n/n85674c186fbc ■ 验证主要结果 ▼ 东京大学(最难关:理科三类/总分 550 分) - ChatGPT 5.2 Thinking : 503.59 分 - Gemini 3 Pro Preview : 496.54 分 - Claude 4.5 Opus : 451.99 分 - 参考:2026 年度理科三类合格者最高分 453.60 分 ※ ChatGPT 与 Gemini 在东大全 6 个科类(理一、理二、理三/文一、文二、文三)中均超过了合格者最高分。 ▼ 京都大学(最难关:医学部医学科/总分 1275 分) - ChatGPT 5.2 Thinking : 1176.38 分 - Gemini 3 Pro Preview : 1122.75 分 - Claude 4.5 Opus : 1005.25 分 - 参考:2026 年度医学部医学科合格者最高分 1098.25 分 ※ ChatGPT 在京都大学全 19 个学部、学科中,Gemini 在 18 个中均超过了合格者最高分。Claude 也在 14 个中突破了最高分。 ▼ 纪录满分的科目 - 东大 理系数学(120分):ChatGPT、Gemini - 东大 文系数学(80分) :ChatGPT、Gemini - 京大 理系数学(200分):ChatGPT、Gemini - 京大 文系数学(150分):ChatGPT - 京大 化学(100分) :ChatGPT 在去年的验证中,最新模型的东大理系数学得分仅为 38 分。仅仅一年时间就达到了满分,这在定量上展示了生成式 AI 推理能力极其高速的进化。 ■ 验证方法 为确保验证的公平性,使用了本公司独自开发的自动受験系统。 - 将入试题目 PDF 逐页图像化,通过 API 发送至各 AI 模型。 - 排除聊天接口,通过系统间直接交互来消除人为干预。 - 提示词(Prompt)全科目通用(仅限高中教养课程知识/LaTeX 格式公式输出等)。 - 完全不使用 Web 搜索(浏览),仅凭 AI 已学习的知识与推理能力解答。 - 记述式答案由河合塾讲师按照与人类考生相同的标准进行采点。 ■ 河合塾讲师分析(节录) 负责采点的河合塾讲师们针对 AI 的实力与弱点提出了锐利的见解: 「这三个 AI 的表现都远超预期,特别是 ChatGPT 的解答能力之强令人惊讶。」(东大生物 采点担当 向井亮老师) 「各个 AI 的答案均达到合格水平。值得特笔的是处理速度,那是人类无法比拟的水平。」(京大日本史 采点担当 小仓匡老师) 同时,明确的弱点也浮出水面: - 图像读取:结构式、图表、地图的识别精度存在课题(特别是 Claude)。 - 论述构成力:相对于知识量,文章的逻辑关系与因果关系的呈现较弱。 - 输出控制:频繁出现无法完全遵守字数限制或答案栏物理约束的情况。 - 惯例依赖:优先使用英语圈的物理惯例,在日式设置下容易出错。 ■ 代表评论 「看到东大历代最高分出现,我感到由衷的感动。这次验证让我们看清了 AI 能否取得满分的任务界线。在实务中,如何将业务落实为 AI 能解决的形式将决定成果。基础模型的『聪明才智』已在入试这一共同舞台上得到充分展示,接下来将是各家公司的竞争阶段:如何连接自家数据与业务,在何处产生事业影响力。数学从 38 分到满分仅花了一年。看到这种进化速度,我们应该重新设计机制,而不是去适应目前 AI 的极限。」