Lupinus 公司(總部:東京都港區,代表取締役社長:佐野 宏喜,以下稱「本公司」)與 JCOM 公司(總部:東京都千代田區,代表取締役社長:岩木 陽一,以下稱「J:COM」)共同合作研究,開發出一種結合 Contextual Bandit 與 LLM-as-a-Judge 的問題分類方法,並於 2026 年 6 月 8 日(一)至 6 月 12 日(五)期間,在群馬縣高崎市 G Messe Gunma 舉辦的第 40 屆人工智慧學會上進行口頭發表。本公司今後也將持續透過與 J:COM 等合作夥伴的技術合作,為提升 AI 應用服務品質做出貢獻。 ■ 發表概要 學會名稱 第 40 屆人工智慧學會 舉辦日期 2026 年 6 月 8 日(一)~ 6 月 12 日(五) 舉辦地點 群馬縣高崎市 G Messe Gunma 發表標題 結合 Contextual Bandit 與 LLM-as-a-Judge 的問題分類 發表者 和田 計也(本公司)、木部 昌平(本公司)、畑 玲音(J:COM) 發表形式 口頭發表 ■ 背景與目的 【社會背景】 近年來,隨著 AI 對話系統的普及,妥善處理使用者多樣化諮詢的重要性日益增加。 特別是在接觸客戶頻繁的服務中,日常會收到包含不同說法或書寫方式的各種諮詢。 J:COM 等有線電視及通訊服務的使用者中,60 歲以上族群佔多數,因此需要準確理解廣泛年齡層使用者提出的各種諮詢意圖。 在這樣的環境下,對於整合 RAG 的對話系統而言,「是否為需要搜尋的問題,還是僅為閒聊」的區分準確度直接關係到回答品質與處理效率,因此需要一個能夠持續改善此分類器的線上學習機制。要實現線上學習,必須使用實際使用者反應作為回饋訊號,但使用者給予的 Good/Bad 評價並非針對「分類選擇的正確與否」,而是「對整體回答的滿意度」,若直接以此作為學習訊號,將會導致分類器朝錯誤方向更新,存在結構性問題。 【取り組み目的】 本研究的主要目的是驗證如何從混雜了與分類選擇正確與否無關的因素(如回答生成品質或搜尋結果有無)的 Good/Bad 評價中,提取出純粹關於分類選擇正確與否的學習訊號,以及利用該訊號進行持續的線上學習是否能實際奏效。具體而言,我們提出並驗證了一種方法,透過讓 LLM-as-a-Judge 比較各類別的回答並輸出其確信度,來建構一個獨立於使用者滿意度的、專用於分類的評估訊號。 ■ 發表內容與主要發現 【發表內容概要】 提案系統由 5 個元件組成。QueryPreprocessor 將專有名詞和日期時間替換為通用符號後,QuestionEmbedder 將問題轉換為 384 維向量。基於此向量,LinUCB 從 3 個類別(閒聊/VOD 搜尋/線性頻道搜尋)中選擇一個,AnswerGenerator 並行生成 3 個類別的回答。最後,LLM-as-a-Judge 比較這 3 個回答並輸出各類別的確信度。 LinUCB 的更新報酬設計結合了 Judge 的選擇與 LinUCB 的選擇是否一致、不一致,以及使用者的 Good/Bad 評價。僅在兩者一致時進行強烈學習與懲罰(差分報酬 Δt 的 5 倍),不一致時則僅給予 Δt 本身,處理較弱。這是為了防止過度依賴 Judge 的設計。 實驗分為兩個階段進行。階段 1 在直接回饋分類選擇正確與否的理想條件下,驗證 LinUCB 是否能學習分類策略;階段 2 則在僅使用整體回答的 Good/Bad 評價的接近實際運用的條件下進行驗證。 【主要成果與發現】 成果 1:在直接回饋分類選擇正確與否的理想條件下,確認了 LinUCB 的分類策略學習能有效運作。達到了 70.56% 的綜合正確率,比隨機選擇提高了 +30.95 個百分點。 成果 2:在混雜了與分類選擇正確與否無關的因素(整體回答的 Good/Bad)的評價訊號中,確認了透過 LLM-as-a-Judge 也能進行分類策略的學習。排除了不相關因素後,達到了 64.00% 的 Good 率,比隨機選擇提高了 +24.39 個百分點。 ■ 公司概要 公司名稱:Lupinus 公司 設立:2021 年 8 月 代表:代表取締役 佐野宏喜 所在地:〒108-0073 東京都港區三田 3-2-8 THE PORTAL MITA 4 樓 官方網站:https://www.lupinus.com 本公司致力於徹底活用數據並深化客戶理解,以提供以提升營收為核心的最高品質商業諮詢服務。以「創造日本新時代」為企業理念,推動日本企業為強化競爭力所必需的最尖端企業變革。 ---------------------------------------- ▼ 諮詢請由此處 https://www.lupinus.com/contact ------