世界最先端のAI技術「特徴量自動設計」で、企業のデータ分析・利活用を革新する業界リーダーのdotData, Inc.(本社:米国カリフォルニア州、CEO:藤巻 遼平、以下 dotData)は、本日、業務で蓄積されたテキストデータから“意味”を抽出して構造化する「dotData TextSense」の最新バージョン「dotData TextSense 1.3」を発表しました。本バージョンでは、LLMと機械学習を組み合わせることで、高精度かつローカル環境でラベリングを実行し、大規模なテキストデータのラベリング運用コストを最大1/100(注)に削減するとともに、テキストデータを外部に送信しないセキュアな運用を実現します。 開発の背景:大規模テキスト分析におけるAIコストの増加とセキュリティ懸念 営業日報、お客様の声(VOC)、サポートチケット、従業員評価レポートなど、企業データの多くはテキストで蓄積され、経営・業務を変革し得る重要情報を含みます。近年は、大規模言語モデル(LLM)の発展によって、テキストデータ分析の敷居が大きく下がり、LLMによるテキストデータ活用で多くの企業が成果をあげています。 dotData TextSenseは、最新の大規模言語モデル(LLM)を活用することで、形態素解析などの前処理や同義語・不要語の準備なく、テキストに「意味ラベル」を付与することができます。また、AIがテキストデータからラベルの候補を生成する「ラベル推薦」や、フィードバックに基づいてプロンプト(AIへの指示文)を自律的に調整する「自動プロンプト調整」によって、分析の専門家でなくてもテキストデータを簡単に扱える仕組みを提供します。 一方、テキストデータの規模(件数)が大きくなると、LLMに基づくアプローチでは、LLMのAPI呼び出しコストが増大するという課題があります。例えば、100万件のテキストデータをLLMで処理すると、1回の実行で約1,000〜2,000ドルのコストが発生(注)します。開発・トライアルフェーズでは、投資対効果の観点からLLMに送信するデータ量を絞ることで対応できますが、ラベル定義が固まった後の本番運用で大規模なテキストデータを全件処理しようとすると、このAPIコストが大きな障壁となっていました。 さらに、LLMによるアプローチでは、分析対象のテキストを外部のLLMサービスへ送信する必要があります。営業日報やお客様の声、サポートチケットには、顧客情報や機微な業務情報が含まれることも多く、これらを外部へ送信することは、情報セキュリティやデータガバナンスの観点から懸念となります。特に、規制の厳しい業界や機密性の高いデータを扱う業務では、外部送信を前提とするアプローチの適用が難しいケースもありました。 dotData TextSense 1.3:大規模なテキストデータを低コスト・セキュアにラベリング LLMとローカルモデルを組み合わせたハイブリッドラベリング dotData TextSense 1.2では、ラベルを設計する際に、LLMと自動プロンプト調整により精度の高いラベリングを実現しました。dotData TextSense 1.3では、新たに「ハイブリッドラベリング」が可能となりました。この機能では、LLMと機械学習モデル(ローカルモデル)を組み合わせることで、データ全体をLLMで処理することなく、ラベリングを実行します。これにより、100万件を超える大規模なテキストデータに対しても、高いラベル品質を維持しながら、低コストかつ効率的なラベリングを実現します。 ローカルモデルによるセキュアな大規模テキストラベリングの運用 ローカルモデルは、ローカル環境へエクスポートしてPythonライブラリとして実行することができます。ローカルモデルはLLMを利用しないため、ラベル定義が確定した運用フェーズにおいて、大量のテキストデータを高速かつ低コストにラベリングすることができます。また、外部へテキストデータを送信する必要がないため、運用段階において、オンプレミス環境や閉域網で、安全にテキストのラベリングを実行することができます。 なお、当社の実証実験では、財務報告書データ約100万件に対して、LLMによるラベリング結果を基準(100%)とした場合に、約98%の精度を維持しながら、約1/100のコストでラベリングできるとの結果を得ました。 dotData TextSense 1.3の各種機能は、大規模テキストデータの運用を想定し、データパイプラインの自動化や定期的なバッチ処理に組み込みやすい「Python版」として提供されます。 dotData TextSenseについて、まずはお気軽にお問い合わせください。 dotData TextSe