産総研 人工知能研究センター 言語情報研究チーム 石垣 達也 主任研究員、ストックマーク株式会社(本社:東京都港区、代表取締役:林 達、以下「ストックマーク」)広田 航らの研究チームが共同で、大規模言語モデル(LLM)によるビジネスアイデアの評価を個別最適化する手法を開発しました。 この成果は、製品・ビジネスアイデアの評価において、評価者の判断基準を一律に平均化するのではなく、個別に扱うことが重要であることを示しています。ストックマークと産総研グループ(産総研とAIST Solutionsの総称)が「ストックマーク-産総研 大規模言語モデルによる知的創造技術共創プロジェクト※1」を通じて取り組む、AIを活用したアイデア自動生成・新規事業支援技術の発展にとって、重要な一歩となります。 この成果の詳細は、AIおよび自然言語処理(NLP)分野で最も権威のある国際会議の一つであり、2026年7月2日~7日の期間、アメリカ合衆国カリフォルニア州サンディエゴ開催される「The 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)」において発表されます。 ・ACL2026:https://2026.aclweb.org/ ※1:https://www.aist-solutions.co.jp/news/release20260415-01/ (2026年4月15日) 研究成果の概要 今回開発された手法は、新規事業創出のような「正解がない・人によって意見が分かれる」といった課題において、製品・ビジネスアイデアの価値をLLMで自動評価するもので、ビジネスアイデアの評価を個別最適化(パーソナライズ)します。 近年顕著に発展しているLLMは、「正解がある・評価に個人差がない」といった課題においては、自らの出力を評価し、そのフィードバックをもとに学習を繰り返すことにより、数学やプログラミングなどの領域においては高精度な出力を実現しています。 しかしながら、実際のビジネスにおけるアイデアの評価は多角的な基準に依存し、評価者の間でも意見が分かれる領域であり、LLMをビジネスアイデアの創出に利用するためには、有望なアイデアを選ぶ評価工程がボトルネックになっています。本論文では、LLMによる平均的な評価の限界を示した上で、特定の人間をモデル化したパーソナライズLLMの必要性を実証しました。 【論文名】 Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement 【主著】 広田 航(ストックマーク) 【共著】 谷口友紀/大熊智子 (旭化成)、高橋洸丞/近江崇宏/有馬幸介/朝倉卓人 (ストックマーク)、Chung-Chi Chen (国立情報学研究所)、石垣達也 (産総研) 【概要】 従来の LLM によるアイデア発想の評価の多くは、評価者同士の評価一致度が高いという前提のもと、LLM による自動評価によって有効性を検証している。 本研究では、特許に基づく300の製品アイデアに対し、専門家が付与した約3,000件の評価を含むデータセット「PBIG-DATA」を構築。 複数の評価者の履歴を集約した「Aggregate judge」と、特定の評価者の履歴に基づく「Personalized judge」の精度を比較。 【結論】 LLMが専門家のスコアを単純に平均化した評価を出した場合、その評価は誰の意見とも一致せず(実用的ではないこと)が示された。 特定の評価者の過去の採点履歴に基づくパーソナライズされた評価(Personalized judge)の方が、集約された評価(Aggregate judge)よりも、実際の専門家の評価とより強く一致した。 正解が定まらないビジネスアイデアの評価においては、個人の視点をモデル化した評価LLMの設計が不可欠である。 研究成果の社会実装へ向けた今後の展望 近年、LLMをはじめとする生成AIのビジネス活用が進む一方で、新規事業創出のような「正解のない問い」に対して、AIの出力をいかに評価し、実務で使えるレベルに引き上げるかが業界全体の課題となっていました。産総研グループとストックマークの研究チームは、ビジネス領域におけるAIエージェントの最適な評価・設計手法の探求を続けてまいりました。 従来、アイデアの自動評価では、複数の評価者のスコアを単純に平均化したスコアを「正解」とみなすことが一般的でした。本研究では、評価者同士の意見不一致が単なるノイズではなく、評価者ごとに独自の評価基準を持ち、重視する観