APTOが公开した安全性学习データセットの规模はどれくらいですか？

APTOが独自设计した日本语安全性学习データセットは约18,000件です。

安全性チューニングに采用されたモデルは何ですか？

Qwen3.5シリーズをベースにチューニングが行われています。

有害な质问の拒否、过剰拒否防止、応答途中からの轨道修正、捏造防止などのカテゴリが含まれています。

攻撃プロンプト设计から模范回答作成までを行う多段阶プロセスに加え、学习にはLoRAを采用し、モデルサイズごとに最适化を行っています。

AnswerCarefully v2.2、SORRY-Bench、MultiJail、MT-Benchなどのベンチマークと、Qwen・Mistral・Gemmaによるクロス评価で测定されました。

AI News NQ Analysis

尚無 AI 分析資料。

Q: APTOが公开した安全性学习データセットの规模はどれくらいですか？: A: APTOが独自设计した日本语安全性学习データセットは约18,000件です。
Q: 安全性チューニングに采用されたモデルは何ですか？: A: Qwen3.5シリーズをベースにチューニングが行われています。
Q: データセットにはどのようなカテゴリが含まれますか？: A: 有害な质问の拒否、过剰拒否防止、応答途中からの轨道修正、捏造防止などのカテゴリが含まれています。
Q: チューニングの手法には何が采用されていますか？: A: 攻撃プロンプト设计から模范回答作成までを行う多段阶プロセスに加え、学习にはLoRAを采用し、モデルサイズごとに最适化を行っています。
Q: 安全性チューニングの効果はどのように测定されましたか？: A: AnswerCarefully v2.2、SORRY-Bench、MultiJail、MT-Benchなどのベンチマークと、Qwen・Mistral・Gemmaによるクロス评価で测定されました。