Visual Bank股份有限公司(東京都港區,代表取締役CEO 永井真之)透過旗下子公司 amana images 股份有限公司,推出AI學習用資料解決方案「Qlean Dataset(キュリンデータセット)」,並開始提供「日語・3人說話者商業主題對話音訊・逐字稿」資料集。 本資料集收錄13組以網路會議形式錄製的日語三人對話音訊,並搭配人工製作的高品質逐字稿,屬於語音AI模型開發與微調時可用於ASR領域適應、多說話者語音辨識及LLM商業對話理解能力提升的語料庫。 ■ 什麼是商業主題對話音訊資料集? 商業主題對話音訊資料集是一種語音語料庫,內容為投資、保險、商業談判等業務情境中多位參與者之間的自然對話。此類資料可用於ASR模型的領域適應、多說話者語音辨識,以及提升大型語言模型(LLM)對商業對話的理解能力。 ■ 本次推出的「日語・3人說話者商業主題對話音訊・逐字稿」概要 本資料集收錄13組日本籍說話者於網路會議環境中進行的三人商業對話,說話者在性別與年齡上具備多樣性。對話主題涵蓋投資、保險等商業議題,屬於包含專業術語、說話者交替與語氣填充詞(filler)的自發性發言,音訊特性貼近實際工作環境。逐字稿全程由人工撰寫,未使用自動轉錄技術,因此能避免專業術語誤譯、語氣填充詞遺漏或說話者邊界錯置等問題,確保WER(Word Error Rate)與CER(Character Error Rate)評估的可靠性,並保障訓練資料的高品質。 資料類型 音訊(3人對話形式) 錄音說話者 具性別與年齡多樣性的日本人(13組) 錄製時間/資料量 約25小時(63個檔案)/約55GB 資料格式 mp3 取樣率/位元率 48kHz/192kbps,立體聲收錄 收錄內容特色 模擬網路會議情境的3人商業對話(投資、保險等主題),每場次約90分鐘 使用用途 允許商業使用・允許研究使用・學術單位可申請免費使用 逐字稿 由人工進行轉錄,確保高品質與準確性 樣本資料請見:https://qleandataset.visual-bank.co.jp/lineup/ds-050 ■ 常見問題(FAQ) Q. 3人對話結構與2人對話資料有何差異? A. 3人對話的發言交替模式更為複雜,能更真實還原實際商業會議情境。此外,也適用於驗證以2人對話為基礎訓練的ASR模型之泛化能力。 Q. 可否用於金融、保險領域的ASR或LLM開發? A. 可以。本資料集搭配人工製作的逐字稿與音訊,可直接用於Whisper LoRA等模型的領域適應微調,或作為金融專用LLM的監督式微調(SFT)與評估資料,且無需擔心自動轉錄常見的錯誤。 Q. 是否適合用於會議記錄生成、會議摘要AI的開發? A. 非常適合。每場次約90分鐘的長時間錄音搭配人工逐字稿,非常適合作為摘要生成、會議記錄撰寫、行動項目提取等任務的SFT資料,並可有效訓練模型處理長篇幅上下文的能力。 Q. 是否提供客製化錄音服務? A. 是的。我們可根據產業別、職稱、年齡層、對話情境等需求,提供客製化的資料收錄服務。 ■ 應用案例示意 商業領域ASR模型微調 透過人工逐字稿與音訊的配對資料,可用於Whisper或ESPnet等模型的LoRA或全模型微調。由於資料不含自動轉錄產生的雜訊,可進行高可信度的WER/CER評估。 多說話者ASR模型性能評估 本資料包含說話者交替、重疊發言與語氣填充詞等情境,可用於測試ASR模型在2人對話資料無法模擬的複雜發話模式下的辨識能力。 以LLM進行商業對話摘要與會議記錄生成 利用人工製作的逐字稿,可建構用於摘要生成、會議記錄撰寫與行動項目提取等任務的SFT資料。每場次約90分鐘的長篇資料,亦可用於驗證與強化模型處理長上下文的能力。 『Qlean Dataset(キュリンデータセット)』簡介 Qlean Dataset是由Visual Bank集團旗下 amana images 股份有限公司所提供的AI學習用資料解決方案。amana images 累積超過40年經驗,長期合法取得並管理照片、影像與音源等內容的權利,將資料權利保護視為核心經營理念,此基礎也成為Qlean Dataset的堅實後盾。 每筆資料皆明確標示來源與權利狀態,並以可直接用於模型訓練的形式提供,已累積為國內外基礎模型開發者大規模供應資料的實績。目前服務範疇涵蓋語音、影像、影片、3D與文字等多種模態,並持續透過與國內外資料持有者、媒體機構合作,擴充資料產品線。同時也提供客製化資料收錄與蒐集服務。 Qlean Dataset官方網站:https://qleandataset.visual-bank.co.jp/ AI資料食譜:https://qleandataset.visual-bank.co.jp/lineup 聯絡資訊 Visua