ホリエモンAI学校株式会社(本社:東京都新宿区、代表取締役社長:荒木 賢二郎、以下「ホリエモンAI学校」)は、先日Anthropic社より発表されたClaude Cowork法務プラグイン「Claude for Legal」の大幅アップデートに伴い、Claude for Legal、ChatGPT、Gemini、による契約書レビュー結果を、弁護士によるブラインド採点で評価しましたので、結果を発表いたします。 背景 海外の法務AIを評価するベンチマーク期間によると、Claude Opus およびその追加機能であるClaude for Legalは高いスコアを記録しているとの報道もありますが、我々実務家にとって大切なのは、日本企業で日常の法務レビューに使えるのか?活用の部分です。 そこで、Claude for Legal プラグインを入れたClaude Coworkと、日常でよく使用されているChatGPT、Gemini、この3つのAIを用いて、同じ契約書をレビューした結果を、ワードファイルABCとして保存。弁護にによる、ブラインド評価を行いました。 実験方法 評価用に用意した架空の契約書(実際に当社で使用していた過去の契約書)を用いて、 「契約書をレビュして、word形式でダウンロードさせて」 とだけ、指示(プロンプト) 結果として出力されたワードファイルABCを、弁護士へ渡して、ブラインド評価 ・自社でチェックして、わからないところを弁護士になげる場合の、レビュー成果物点数(100点満点) 実験結果 (1)3つのAIに依頼したレビュー成果物(word) ・Geminiが最速で成果物を出しましたが、ダウンロードボタンを押してもワードファイルがダウンロードできず、数分google検索しながら格闘、追加のプロンプトを入れることでwordファイルを確保 ・ChatGPTも、Geminiに遅れること数分、wordファイルをダウンロード完了 ・Claude for Legal はGeminiからさらに遅れること数分、wordファイルをダウンロード完了 (2)弁護士のブラインド評価結果 ・第3位:Gemini:0点〜30点 相手会社視点でのチェックになってます(甲が当社で乙が相手先だが、プロンプトで指示していない)。そのため内容自体は30点ですが、実務的には0点。 ただし、当社の利用規約や他の契約書など事前情報を入れることができれば今後点数を伸ばすことは可能。甲乙を取り違える不運もあった様で実力を発揮できなかった模様。 ・第2位:ChatGPT:50点 点数が低い理由は、プロンプト、前提条件の設定が不十分だから。 ※実際に今回のプロンプトは「契約書をレビュして、word形式でダウンロードさせて」のみ ・第1位:Claude for Legal:60点 一番詳しい9頁の資料が出力されている。点数が低い理由は、ChatGPT同様、プロンプト、前提条件の設定が不十分だから。 現時点におけるAI契約書レビュー導入のポイント 1. プロンプト設計が難しい AIによる契約書レビューでは、前提情報をどこまで正確に入力できるかが非常に重要です。 今回であれば、たとえば「ホリエモンAIサービスの利用規約に同意してもらうこと」を前提条件として設定する必要があります。典型的な契約であれば比較的対応しやすい一方で、契約内容に特殊性があるほど、会社固有の事情や取引の背景を丁寧に入力しなければ、適切なレビュー結果を得ることは難しくなります。 今後は、AIに前提情報を正確に把握させるため、会社が保有する情報を包括的に読み込ませたうえで、契約書の作成・レビューを行う流れになると考えられます。 具体的には、社内ファイル、Googleドライブ上の資料、社内外の打ち合わせ音声、メール、Slack等の情報をAIに読み込ませ、それらを前提に契約書を作成・レビューする形です。 2. 誰がレビュー結果を判断するのか AIが出したレビュー結果を適切に判断し、実務に落とし込むには、結局のところ、弁護士や一定の経験を有する法務担当者の関与が必要になります。 今回のように、最も詳細な9頁のレビュー資料を正確に理解するだけでも、相応のリーガルスキルがある人でなければかなり時間がかかります。 つまり、AIはレビューの補助にはなりますが、その内容をどう評価し、どのように契約交渉や社内判断に反映させるかは、人間側の専門性に依存する部分が大きいです。 3. 交渉上の落としどころをどう判断するか 上記と関連して、AIが指摘した修正希望に対して相手方が応じない場合、どこを落としどころにするかの判断も難しいポイントです。 AIは「この条項は大きなリスクがあるため修正すべき」と強く指摘することがあります。しかし