株式会社チトセロボティクス(本社:東京都文京区、代表取締役社長:西田亮介、以下「当社」)は、VLM(Vision-Language Model:視覚言語モデル)を活用した産業用ロボットの動作指示システムにおいて、VLMに与える参照情報がロボット制御プログラムの生成品質に与える影響を検証しました。 本検証では、ロボットの手先カメラ画像と日本語による作業指示をもとに、VLMコーディングエージェント(Codex、Copilot、Claude Code)が産業用ロボットのC++制御プログラムを生成するシステムを対象としました。VLMに対して、産業用ロボット特有の事前知識を記述した「埋め込みプロンプト」、ロボット・カメラ・センサ制御のための「APIリファレンス」、実際に現場で使用されている「過去事例データベース」を段階的に追加し、それぞれが生成品質に与える効果を評価しています。 検証の結果、参照情報を役割別に整理して与えることで、作業指示への追従性、安全動作への配慮、実在する機器制御APIに沿った実装、コードの読みやすさや保守しやすさといった面で改善が確認されました。特に、過去事例データベースは、実務コードに含まれる現場由来の知見をVLMが参照するための情報源として機能する可能性が示されました。 本検証に関連して、VLM動作指示システムの実機動作を紹介する動画をYouTubeで公開します。 動画では、カメラ画像と日本語による作業指示をもとに、産業用ロボットがピック&プレイス動作を行う様子を紹介します。調査結果とあわせて見ることで、VLMを用いたロボット動作指示の可能性を、より具体的に確認できます。 ■背景 製造業では産業用ロボットの活用が急速に拡大しています。生成AIを活用して現場作業者が直接動作指示できる仕組みが求められていますが、ロボット動作の品質を継続して高めていくための動作指示システムの知見は少なく、方向性が定まっていませんでした。 本検証は、ロボット教示スキルを持たない現場の一般ユーザからの指示に対して、仕様を満たしつつ実行安全なコードを生成し、かつベテランが開発するようにコードの習熟度を向上させるには何が必要かを明らかにすることを目的としています。 ■検証対象 今回の検証では、ピック&プレイス単体タスクを対象としました。 動作指示には、「カメラで検出した赤いワークを把持して所定位置に置く」「青いワークを把持して別の所定位置に置く」「最も左にあるワークを把持してトレイ中央に置く」といった、対象物の選択を含む指示を用いました。 また、「ワークが見つからない場合は、ロボットを動かさずエラー終了する」「把持後は必ずZ方向に50mm退避してから移動する」といった、安全動作に関わる条件も評価対象に含めました。 実機システムには、産業用ロボット、ハンドアイカメラ、レーザセンサ、小型エアチャックハンドを組み合わせた構成を使用しています。 ■検証方法 人間の作業者が日本語で作業指示を行い、VLMコーディングエージェントがそれを解釈して産業用ロボットの制御プログラムを自動生成します。この際、AIに与える参照情報を次の3種類に分けて追加し、プログラムの「指示仕様の準拠度」と実務的な「コードの習熟度」がどのように変化するかを評価しました。 埋込プロンプト:衝突回避のための退避動作など、産業用ロボット特有の基本構造や事前知識を記述したルール。 ガイドブック・APIリファレンス:ロボットやカメラを制御するためのシステム構築の基礎知識や詳細な仕様書。 過去事例データベース:実際に現場で使用されている過去のプロジェクトファイルや、エラー時の安全設計などを含む実務コードの実例。 ■検証結果 本検証では、手先カメラ(ハンドアイカメラ)やレーザセンサを搭載した産業用ロボットを使用し、色の異なる部品(ワーク)の「ピック&プレイス(掴んで置く)作業」など全12タスクを対象としました。人間の作業者が日本語で作業指示を行い、VLMが制御プログラムを自動生成します。 AIが生成したプログラムは、以下の2つの観点から採点しました。 指示仕様への準拠度:タスクの目的を果たせているか、対象物を正しく画像認識できているか、衝突を回避する安全な動作や例外エラー時の処理が含まれているかなど、10項目(20点満点/タスク)で評価しました。 コードの習熟度:とりあえず動くだけのコードではなく、機能が適切に分割され、現場での保守や人間による修正が容易な「実務的で読みやすい設計」になっているかを5段階(5点満点/タスク)で評価しました。 検証の結果、AIに与える参照情報を段階的に追加していくことで、総合スコアは満点比74.3%から88.7%へと大幅に向上(+14.3ポイント)しました。 AI