Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、「日本語2話者LR分離済みプライベート対話音声・トランスクリプト」の提供を開始します。本データセットは、WEB会議形式でステレオLR分離収録された87組・約500時間の日本語2話者対話音声にトランスクリプトを付与したコーパスです。話者ダイアライゼーション・音声分離・ASRなど、音声系基盤モデルの開発やファインチューニングに活用できます。 ■ 2話者対話音声データセットとは 2話者対話音声データセットとは、2名の話者がそれぞれ独立したチャンネルに収録された対話音声コーパスです。話者分離(Speaker Diarization)モデルの学習・評価、ASRモデルの対話ドメイン適応のほか、音声基盤モデルやLLMの事前学習・ファインチューニング用データとして活用されます。 ■ 今回提供を開始する「日本語2話者LR分離済みプライベート対話音声・トランスクリプト」の概要 本データセットは、性別・年齢の多様性を確保した日本人87組がWEB会議環境で行ったプライベートな対話を、ステレオLR分離形式で収録しています。各話者音声が左右チャンネルに分離済みのため、話者ごとの音声を個別に取り出せる状態で提供されます。趣味・特技・価値観などを題材とした自然な対話シーンを収録しており、スクリプト読み上げではなく自発的発話に近い音声的特性を持ちます。 データ種別 音声(2話者対話・LR分離) 収録話者 日本人87組(性別・年齢の多様性あり) 収録時間 約500時間(1ファイルあたり約60分) データ形式 mp3 サンプリング/ビットレート 48kHz / 192kbps / ステレオ 収録内容の特徴 ・WEB会議形式での収録 ・会話内容:趣味・特技・価値観に関する自然対話 ・トランスクリプト付き 利用用途 商用利用可能・研究利用可能・生成AI学習利用可能 サンプルデータはこちら:https://qleandataset.visual-bank.co.jp/lineup/ds-049 ■ よくある質問(FAQ) Q. このデータセットは話者ダイアライゼーション開発(Speaker Diarization)に使えますか? A. LR分離済みのため、左右チャンネルに話者が1名ずつ割り当てられています。pyannote.audioやNeMoなど話者ダイアライゼーションモデルのファインチューニングおよびDER(Diarization Error Rate)による性能評価データとして直接利用できます。混合音声からの分離精度を検証するベースラインデータとしても有効です。 Q. ASRモデルの対話ドメイン適応に活用できますか? A. はい。トランスクリプト付きのため、WhisperやESPnetなど標準語・読み上げ音声ベースで学習済みのASRモデルに対し、対話・自発話ドメインでのLoRAまたはfull fine-tuningに利用できます。WER計測によるドメインギャップ定量評価にも使用可能です。 Q. LLM開発での活用シーンは? A. 対話内容(趣味・価値観など)に関するトランスクリプトを、SFT(Supervised Fine-Tuning:教師ありファインチューニング)用の対話コーパスとして利用できます。87組・500時間規模の自然な対話テキストは、対話スタイル・自然な会話表現の学習データとして機能します。 Q. TTS(音声合成)への活用は可能ですか? A. はい。LR分離済みで話者ごとに独立した音声が取り出せるため、VITS・StyleTTS2などへのファインチューニング用の単話者音声データとして活用できます。多様な話者属性を含むため、多話者TTSモデルの構築にも対応しています。 Q. 話者数の追加収録やシチュエーションのカスタム対応は可能ですか? A. はい。特定の年齢層・性別構成・対話トピックを指定したカスタム収録や、特定ドメイン(医療・金融など)を想定した対話データの追加収集に対応しています。 ■ 「日本語2話者LR分離済みプライベート対話音声・トランスクリプト」のユースケースイメージ 話者ダイアライゼーション(Speaker Diarization)モデルの学習・評価 LR分離済みの2話者音声はグラウンドトゥルースとして機能します。pyannote.audio・NeMo・SpeakerBeamなどのダイアライゼーションモデルに対し、発話セグメント単位のDER評価データとして利用できます。混合音声を生成してから分離精度を測るシミュレーション実験