【大学入试×生成式AI企划】最新AI突破东大、京大合格者最高分，部分科目取得满分

Q: What are the key facts in this article?

LifePrompt 株式会社利用 ChatGPT 5.2、Gemini 3 Pro 等最新 AI 对东大及京大入学考试进行了验证。多个模型超过了人类合格者的最高分，并在数学等科目中获得满分，证明生成式AI的推理能力在一年内实现了惊人进化。

Q: What is the direct answer?

LifePrompt 株式会社利用 ChatGPT 5.2、Gemini 3 Pro 等最新 AI 对东大及京大入学考试进行了验证。多个模型超过了人类合格者的最高分，并在数学等科目中获得满分，证明生成式AI的推理能力在一年内实现了惊人进化。

Q: What is the source and date?

Source: AI News by Washin Village | Date: Date unavailable

株式会社 LifePrompt（总部：东京都新宿区；代表取缔役：远藤聪志）于 2026 年 2 月进行了一项验证，让最新的生成式 AI（ChatGPT 5.2 Thinking／Gemini 3 Pro Preview／Claude 4.5 Opus）解答东京大学与京都大学的二次试验题目。 在河合塾讲师及株式会社 KIES 的采点协助下，ChatGPT 5.2 Thinking 与 Gemini 3 Pro Preview 在东京大学所有科类以及京都大学几乎所有学部、学科中，均超过了合格者最高分（相当于首席），并以数学为中心在多个科目中创下了满分纪录。 详细内容已在 note 公开：https://note.com/lifeprompt/n/n85674c186fbc ■ 验证主要结果 ▼ 东京大学（最难关：理科三类／总分 550 分） - ChatGPT 5.2 Thinking ： 503.59 分 - Gemini 3 Pro Preview ： 496.54 分 - Claude 4.5 Opus ： 451.99 分 - 参考：2026 年度理科三类合格者最高分 453.60 分 ※ ChatGPT 与 Gemini 在东大全 6 个科类（理一、理二、理三／文一、文二、文三）中均超过了合格者最高分。 ▼ 京都大学（最难关：医学部医学科／总分 1275 分） - ChatGPT 5.2 Thinking ： 1176.38 分 - Gemini 3 Pro Preview ： 1122.75 分 - Claude 4.5 Opus ： 1005.25 分 - 参考：2026 年度医学部医学科合格者最高分 1098.25 分 ※ ChatGPT 在京都大学全 19 个学部、学科中，Gemini 在 18 个中均超过了合格者最高分。Claude 也在 14 个中突破了最高分。 ▼ 纪录满分的科目 - 东大 理系数学（120分）：ChatGPT、Gemini - 东大 文系数学（80分） ：ChatGPT、Gemini - 京大 理系数学（200分）：ChatGPT、Gemini - 京大 文系数学（150分）：ChatGPT - 京大 化学（100分） ：ChatGPT 在去年的验证中，最新模型的东大理系数学得分仅为 38 分。仅仅一年时间就达到了满分，这在定量上展示了生成式 AI 推理能力极其高速的进化。 ■ 验证方法 为确保验证的公平性，使用了本公司独自开发的自动受験系统。 - 将入试题目 PDF 逐页图像化，通过 API 发送至各 AI 模型。 - 排除聊天接口，通过系统间直接交互来消除人为干预。 - 提示词（Prompt）全科目通用（仅限高中教养课程知识／LaTeX 格式公式输出等）。 - 完全不使用 Web 搜索（浏览），仅凭 AI 已学习的知识与推理能力解答。 - 记述式答案由河合塾讲师按照与人类考生相同的标准进行采点。 ■ 河合塾讲师分析（节录） 负责采点的河合塾讲师们针对 AI 的实力与弱点提出了锐利的见解： 「这三个 AI 的表现都远超预期，特别是 ChatGPT 的解答能力之强令人惊讶。」（东大生物 采点担当 向井亮老师） 「各个 AI 的答案均达到合格水平。值得特笔的是处理速度，那是人类无法比拟的水平。」（京大日本史 采点担当 小仓匡老师） 同时，明确的弱点也浮出水面： - 图像读取：结构式、图表、地图的识别精度存在课题（特别是 Claude）。 - 论述构成力：相对于知识量，文章的逻辑关系与因果关系的呈现较弱。 - 输出控制：频繁出现无法完全遵守字数限制或答案栏物理约束的情况。 - 惯例依赖：优先使用英语圈的物理惯例，在日式设置下容易出错。 ■ 代表评论 「看到东大历代最高分出现，我感到由衷的感动。这次验证让我们看清了 AI 能否取得满分的任务界线。在实务中，如何将业务落实为 AI 能解决的形式将决定成果。基础模型的『聪明才智』已在入试这一共同舞台上得到充分展示，接下来将是各家公司的竞争阶段：如何连接自家数据与业务，在何处产生事业影响力。数学从 38 分到满分仅花了一年。看到这种进化速度，我们应该重新设计机制，而不是去适应目前 AI 的极限。」