株式会社 Corpy (总公司:东京都千代田区,代表董事:山元浩平,以下简称「Corpy」),一家源自东京大学和法国国家信息与自动化研究所 (Inria) 的 AI 新创公司,通过 XAI & QAAI 技术支持任务关键型 AI 的实现。本公司特此宣布,已公开在国立研究开发法人新能源产业技术综合开发机构 (NEDO) 的项目「AI 安全强化相关研究开发、验证等推进项目/AI 安全强化相关研究开发」中,自 2025 年 4 月以来致力于生成的 AI 安全性评估的「从营运计划与管理角度为企业制作实作解说」之研究开发成果。 ■ 本次项目的背景:生成式 AI 的安全性确保与应对国际标准刻不容缓 随着生成式 AI 的迅速普及,幻觉(与事实不符的输出)、提示词注入(恶意输入导致误操作)和有害内容生成等与安全性相关的风险已成为社会问题。在欧洲,欧盟 AI 法案等国际 AI 监管措施正逐步生效并加速推动,日本国内企业也迫切需要创建系统性管理和评估 AI 安全性的体系。 在此背景下,AI 管理系统的国际标准 ISO/IEC 42001 为组织提供了应对 AI 风险的框架。然而,该标准并未规定具体的安全性评估方法和基准,目前「应评估什么以及按什么顺序评估」仍由各组织自行决定。 ■ 研究开发概要与成果 Corpy 在本次项目中,以弥补 ISO/IEC 42001 的要求与生成式 AI 安全性评估实践之间存在的实际「差距」为目标,开发了以下成果物。 成果物①:报告书「基于 AI 管理系统的生成式 AI 安全性评估协定及其实作指南」 这是一份与 ISO/IEC 42001 相符的生成式 AI 安全性评估协定,并将其系统化为三个阶段(分析、测试、报告)的实作指南。其中整理了从风险评估、测试计划制定、评估运行到报告书制作等一系列流程,以便实务人员具体掌握。报告中还举例说明了具体的评估案例,例如以视觉语言模型(*1)为主题的虚拟客户支持系统,针对越狱攻击(*2)的集成测试(*3)和用于数据投毒检测(*4)的单元测试(*5)等。 此外,报告还对实务中重要的概念进行了问题提出和举例,例如风险评估中的「访问」与「代理」(*6)概念、在安全性评估中使用 LLM-as-a-Judge(*7) 时的「暴露映射」(*8),以及供应链管理中的「信任链」(*9)等。 成果物②:生成式 AI 安全性评估模板(附范例) 这是一个用于记录评估协定各步骤的模板。它涵盖了所有流程,包括业务状况分析、利害关系人分析、系统结构分析、风险评估、风险应对计划与适用声明书、测试计划、测试方法以及测试所使用的资源等。 该模板假设了一个虚拟的聊天机器人系统,并附有具体的填写范例,企业可将其作为将其应用于自身 AI 系统时的参考。 ■ 成果物特点 本成果物的主要特点如下: ・与 ISO/IEC 42001 的集成性:明确阐述了从 AI 管理系统标准要求出发,到将生成式 AI 安全性评估纳入其中的过程。 ・三阶段系统性评估协定:分析 (PA) → 测试 (PB) → 报告 (PC) 的明确步骤。 ・实践性评估案例:提供了使用视觉语言模型的具体测试情境。 ・模板:与评估协定相对应,可用于记录的格式。 ■ 成果物公开信息 成果物①和②可通过以下链接下载。 https://corpy.app.box.com/s/fijqk4vu4nawvl15mxyt809xh3sp3jkq ・① 报告书(日文版・PDF 格式) ・② 评估模板(附范例・XLSX 格式) ※成果物预计在著作权归属确定后,依据创用 CC 姓名标示 4.0 国际(CC BY4.0)授权条款公开。 ■ 未来展望 Corpy 将运用本项目中获得的知识,持续为 AI 安全性评估技术的国际标准化和社会实践做出贡献。我们将普及符合 ISO/IEC 42001 等 AI 管理系统标准的方法,并协助企业创建可安心使用 AI 的环境,从而加速「任务关键型 AI」的实现。 【关于本项目】 项目名称:AI 安全强化相关研究开发、验证等推进项目/AI 安全强化相关研究开发 项目主体:国立研究开发法人新能源产业技术综合开发机构 (NEDO) 实施体制:国立研究开发法人产业技术综合研究所 (AIST)、Citadel AI 株式会社、Corpy 株式会社 Corpy 负责主题:从营运计划与管理角度为企业制作实作解说 实施期间:2025 年 4 月至 2026 年 3 月 【术语注释】 *1 视觉语言模型(VLM: Vision-Language Model):能理解和处理图像及文本两者的 AI 模型总称。能够通过查看图像来回答问题或解释图像内容。 *2 越狱攻击 (Jailbreak Attack):一种攻击手法,通过巧妙的指令文本(提示词)规避 AI 设置的安全性限制,