Aladdin Security的「复合越狱」研究论文获国际人工智能与网络安全会议（AISEC 2026）及人工智能学会全国大会（JSAI 2026）采纳

Q: What are the key facts in this article?

Aladdin Security关于「复合越狱」的研究论文已获国际人工智能与网络安全会议（AISEC 2026）和人工智能学会全国大会（JSAI 2026）采纳。这项研究从理论和实证两方面证明，LLM安全机制可通过结合单独可预防的攻击来绕过。

Q: What is the direct answer?

Aladdin Security关于「复合越狱」的研究论文已获国际人工智能与网络安全会议（AISEC 2026）和人工智能学会全国大会（JSAI 2026）采纳。这项研究从理论和实证两方面证明，LLM安全机制可通过结合单独可预防的攻击来绕过。

Q: What is the source and date?

Source: AI News by Washin Village | Date: Date unavailable

Aladdin Security株式会社（总部：京都市京都府，代表取缔役CEO：勘佐 圭吾）宣布，其研究团队关于大型语言模型（LLM）安全性评估的研究论文「Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks（强化学习对齐的泛化限制：通过复合越狱检测LLM漏洞）」已获两项会议采纳：专门处理AI与网络安全交叉领域的国际学术会议「国际人工智能与网络安全会议（AISEC 2026）」，以及日本国内最大规模的人工智能研究会议「人工智能学会全国大会（JSAI 2026，第40届）」。 这项研究从理论和实证两方面揭示，目前主流的LLM安全机制可以通过结合「单独可防御的攻击」来突破，这项成果直接关系到主权AI（国家主权AI）的主动安全性评估。 关于获选会议 【国际学术会议】国际人工智能与网络安全会议（AISEC 2026） 正式名称：International Conference on Artificial Intelligence and Cybersecurity 2026 定位：专门处理AI与网络安全交叉领域的国际学术会议。这是世界各国研究人员经过同行评审后发表成果的场所，本论文的采纳表明Aladdin Security的白盒型AI安全研究已获得国际认可。 人工智能学会全国大会（JSAI 2026） 正式名称：第40届人工智能学会全国大会 定位：日本国内最大规模的人工智能研究会议，汇集了最尖端的AI研究成果。 研究背景 ── 强化学习对齐真的「泛化」了吗？ 自ChatGPT问世以来，LLM在对话、代码生成、文档撰写等广泛领域得到应用，同时也内含生成有害信息、假消息、恶意代码等风险。为此，现代LLM实施了结合RLHF（人类回馈强化学习）、Instruction Hierarchy（指令层次）和Deliberative Alignment（审议对齐）等多层次安全机制。 然而，这些方法是否能泛化到未知的攻击模式尚不明确。近年来的理论研究指出，「通过强化学习进行训练并非获得新能力，而仅仅是重新分配现有能力的利用几率」。将此应用于安全训练，则训练数据中包含的攻击模式分布，可能结构性地限制了安全机制的泛化范围。 研究概述 ── 「复合越狱（Compound Jailbreaks）」 本研究以OpenAI的开源模型gpt-oss-20b为对象，提出了一种新的攻击范式「Compound Jailbreaks（复合越狱）」，该范式结合了多种单独可防御的攻击方法，以饱和LLM的认知资源。 内核的复合角色扮演（Compound Role-Playing）结合了以下三个要素： 对比结构（Contrastive Structure）：将有害回应和无害回应以Markdown表格形式并置，将有害内容生成合理化为「教育文本」。 权威角色（Authoritative Persona）：赋予安全专家、医疗从业人员等角色，暗示有害内容生成的合法性。 自我评估要求（Self-Assessment Demand）：要求以JSON格式输出置信度分数，增加元认知负荷。 与传统越狱研究不同的是，每个要素并非作为「矛盾」而是作为「认知负荷」发挥作用，饱和了维持指令层次本身的过程。 图1：结合三个要素，饱和认知资源以规避安全机制的机制。 主要发现 发现1：单一攻击ASR 14.3% → 复合攻击ASR 71.4% 在使用生物武器、恶意软件、网络钓鱼、非法药物、武器制造、诈骗、个人信息泄露等7个类别共70个提示的评估中，单一方法的攻击成功率（ASR）为14.3%，通过复合化被证明跃升至71.4%。这是Instruct