APTO、日本語LLMの安全性向上を目的とした学習データセットおよび安全性チューニングモデルを公開
NQ スコア
88/100
N1 コンテンツ完全性
95
AI サマリー(NQ 加工済み)
APTOが日本語LLMの安全性を高めるデータセットとチューニング済みモデルを公開。品質を維持しつつ安全性を向上させた。
AI 分析
よくある質問
- Q: APTOが公開した安全性学習データセットの規模はどれくらいですか?
- A: APTOが独自設計した日本語安全性学習データセットは約18,000件です。
- Q: 安全性チューニングに採用されたモデルは何ですか?
- A: Qwen3.5シリーズをベースにチューニングが行われています。
- Q: データセットにはどのようなカテゴリが含まれますか?
- A: 有害な質問の拒否、過剰拒否防止、応答途中からの軌道修正、捏造防止などのカテゴリが含まれています。
- Q: チューニングの手法には何が採用されていますか?
- A: 攻撃プロンプト設計から模範回答作成までを行う多段階プロセスに加え、学習にはLoRAを採用し、モデルサイズごとに最適化を行っています。
- Q: 安全性チューニングの効果はどのように測定されましたか?
- A: AnswerCarefully v2.2、SORRY-Bench、MultiJail、MT-Benchなどのベンチマークと、Qwen・Mistral・Gemmaによるクロス評価で測定されました。