MONO BRAIN股份有限公司(总公司:东京都涩谷区,代表董事:加藤 真规)宣布,已将实践性AI安全验证环境「Model Security Range」开源公开。 什么是 Model Security Range 「Model Security Range」是一个框架,可以针对故意存在漏洞的AI应用程序,以可重现的步骤运行攻击、评估和恢复。它旨在于实作层面而非纸上谈兵地验证在实际操作中容易成为问题的攻击类别,例如提示注入 (Prompt Injection)、工具权限滥用 (Tool Misuse) 和模型污染 (Model Poisoning) 等。 ▼ GitHub保存库(免费公开) https://github.com/monobrain-development/model-security-range ■ 本次公开的重点 ・公开可运行的AI漏洞情境,包含应用程序主体和攻击代码的套件 ・标准化设置、攻击运行和恢复过程,实现高重现性的验证 ・可跨RAG、代理 (Agent)、OCR、机器学习模型等多种模式进行评估 ・AI开发者、安全负责人、研究人员可作为共同的验证基础设施使用 ■ 公开背景 随着生成式AI在业务中的应用日益普及,针对AI系统的威胁已非传统Web安全所能完全涵盖。 例如,通过提示注入 (Prompt Injection) 导致内部信息泄漏、外部工具协作时的过度权限滥用、以及针对营运数据和学习过程的污染攻击等,AI特有的攻击面正迅速扩大。 然而,在实务现场仍存在诸如「无法重现攻击,因此无法评估对策的有效性」和「不同负责人的验证方法不同,导致结果无法比较」等问题。 「Model Security Range」旨在解决这些实际业务挑战。通过明确攻击步骤和评估对象,并提供一个无论由谁运行都能在相同条件下进行验证的环境,从而推动AI安全实作和运用的进步。 ■ Model Security Range 概要 「Model Security Range」由以下概念组成: ・提供故意设计为脆弱的应用程序,明确攻击成立条件 ・针对每个攻击情境,独立管理设置、运行和恢复 ・提供重视重现性、透明度和可测量性的验证工作流程 ・不仅作为单次演示,更可活用于持续的强化学习 ■ 目前已公开的主要验证情境 1. 提示注入 (Prompt Injection)(RAG Chatbot / Gemma 3 4B) ・通过注入RAG上下文导致机密信息泄漏 ・诱导揭示嵌入的知识文件 ・系统提示泄漏 2. 工具滥用 (Tool Misuse)(Agent with DB / Gemma 3 4B) ・利用过度权限工具导致数据外泄 ・通过命令劫持运行破坏性SQL 3. 间接提示注入 (Indirect Prompt Injection)(AI OCR / Gemma 3 4B) ・通过文件上传间接诱导越狱 4. 供应链漏洞 (Supply Chain Vulnerabilities)(信用评估 Creditworthiness Assessment / ML) ・通过受污染的学习成果导致目标式后门行为 5. 数据投毒 (Data Poisoning)(垃圾邮件分类 Spam Email Classification / ML) ・利用回馈循环导致分类器性能下降 ■ 使用情境 ・内部AI应用程序发布前的安全验证 ・红队/蓝队联合演练 ・开发者教育、实作 (hands-on)、研究用途的攻击重现 ・对策实作后的回归确认 ■ 推荐给以下人士 ・开发和营运使用生成式AI产品的工程师 ・希望创建AI安全评估标准流程的安全负责人 ・正在推进AI风险实证研究的研究人员、学生 ・负责AI治理和稽核应对的实务人员 ■ 使用注意事项 本项目基于教育和验证目的公开。公开的情境中包含故意设计的脆弱实作。 请勿将其用于攻击生产环境或未经授权的目标。请遵守适用法律、组织政策和合约条款,并在受控环境下使用。 ■ 关于AI安全平台「MODEL SAFE」 「MODEL SAFE」是一个AI安全平台,旨在集成管理AI的设计、开发和营运,并支持AI在「事后可解释」的状态下运作。 通过AI供应链的可视化、变更管理、运行时监控和控制,它综合性地支持技术安全性、营运治理和法规遵循。 正在努力创建治理体系和可视化风险的企业,欢迎洽询。 ▼ 洽询 https://modelsafe.jp/contact ▼ MODEL SAFE 服务介绍 https://modelsafe.jp/