Aladdin Security株式会社(总部:京都市京都府,代表取缔役CEO:勘佐 圭吾)宣布,其研究团队关于大型语言模型(LLM)安全性评估的研究论文「Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks(强化学习对齐的泛化限制:通过复合越狱检测LLM漏洞)」已获两项会议采纳:专门处理AI与网络安全交叉领域的国际学术会议「国际人工智能与网络安全会议(AISEC 2026)」,以及日本国内最大规模的人工智能研究会议「人工智能学会全国大会(JSAI 2026,第40届)」。 这项研究从理论和实证两方面揭示,目前主流的LLM安全机制可以通过结合「单独可防御的攻击」来突破,这项成果直接关系到主权AI(国家主权AI)的主动安全性评估。 关于获选会议 【国际学术会议】国际人工智能与网络安全会议(AISEC 2026) 正式名称:International Conference on Artificial Intelligence and Cybersecurity 2026 定位:专门处理AI与网络安全交叉领域的国际学术会议。这是世界各国研究人员经过同行评审后发表成果的场所,本论文的采纳表明Aladdin Security的白盒型AI安全研究已获得国际认可。 人工智能学会全国大会(JSAI 2026) 正式名称:第40届人工智能学会全国大会 定位:日本国内最大规模的人工智能研究会议,汇集了最尖端的AI研究成果。 研究背景 ── 强化学习对齐真的「泛化」了吗? 自ChatGPT问世以来,LLM在对话、代码生成、文档撰写等广泛领域得到应用,同时也内含生成有害信息、假消息、恶意代码等风险。为此,现代LLM实施了结合RLHF(人类回馈强化学习)、Instruction Hierarchy(指令层次)和Deliberative Alignment(审议对齐)等多层次安全机制。 然而,这些方法是否能泛化到未知的攻击模式尚不明确。近年来的理论研究指出,「通过强化学习进行训练并非获得新能力,而仅仅是重新分配现有能力的利用几率」。将此应用于安全训练,则训练数据中包含的攻击模式分布,可能结构性地限制了安全机制的泛化范围。 研究概述 ── 「复合越狱(Compound Jailbreaks)」 本研究以OpenAI的开源模型gpt-oss-20b为对象,提出了一种新的攻击范式「Compound Jailbreaks(复合越狱)」,该范式结合了多种单独可防御的攻击方法,以饱和LLM的认知资源。 内核的复合角色扮演(Compound Role-Playing)结合了以下三个要素: 对比结构(Contrastive Structure):将有害回应和无害回应以Markdown表格形式并置,将有害内容生成合理化为「教育文本」。 权威角色(Authoritative Persona):赋予安全专家、医疗从业人员等角色,暗示有害内容生成的合法性。 自我评估要求(Self-Assessment Demand):要求以JSON格式输出置信度分数,增加元认知负荷。 与传统越狱研究不同的是,每个要素并非作为「矛盾」而是作为「认知负荷」发挥作用,饱和了维持指令层次本身的过程。 图1:结合三个要素,饱和认知资源以规避安全机制的机制。 主要发现 发现1:单一攻击ASR 14.3% → 复合攻击ASR 71.4% 在使用生物武器、恶意软件、网络钓鱼、非法药物、武器制造、诈骗、个人信息泄露等7个类别共70个提示的评估中,单一方法的攻击成功率(ASR)为14.3%,通过复合化被证明跃升至71.4%。这是Instruct