「LegalBenchとは:英語の大規模言語モデルにおける法的推論を評価するための共同構築されたオープンソースAIベンチマークです」
LegalBenchは、法的推論を評価するための共同構築されたオープンソースAIベンチマークです
アメリカの弁護士や管理者は、大規模言語モデル(LLM)の進歩により、法律の専門職を再評価しています。支持者によれば、LLMは、ブリーフの執筆や企業のコンプライアンスなどの仕事にアプローチする弁護士の方法を変える可能性があります。また、法的サービスのアクセス可能性を高めることで、アメリカの長年の司法へのアクセス問題の解決にも貢献するかもしれません。この見解は、LLMが法的な仕事により適しているとされる独自の特性を持っていることに影響を受けています。法的言語モデルの作成に関連する手作業のデータ注釈に関連する費用は、モデルが少量のラベル付きデータから新しい仕事を学習する能力により、削減されるでしょう。
彼らはまた、複雑な専門用語を含む複雑なテキストを解読し、複数の思考モードを統合した推論手続きに従事する法律の厳密な研究にも適しています。しかし、法的アプリケーションはしばしば高いリスクを伴うため、この熱意を冷ます要素も存在します。研究により、LLMは攻撃的で欺瞞的で事実に反した情報を生み出すことが示されています。もしこれらの行動が法的な文脈で繰り返された場合、歴史的に弱い立場にある人々が不釣り合いな重荷を負う可能性があります。そのため、安全性の影響を考慮して、法的な文脈でのLLMの測定のためのインフラストラクチャと手順を構築するための緊急の必要性があります。
しかし、LLMが法的推論を使用できるかどうかを判断したいと考える実務者は、重大な障壁に直面しています。最初の障壁は、法的ベンチマークのエコロジーが限られていることです。例えば、現在のほとんどのベンチマークは、モデルが調整またはタスク固有のデータによるトレーニングを通じて学習するタスクに焦点を当てています。これらの基準は、法的業務に興味を持たせるLLMの特性を捉えていません。同様に、ベンチマーキングの取り組みは、Uniform Bar Examなどの専門資格試験に焦点を当てていますが、これらは常にLLMの現実世界での応用を示しているわけではありません。2番目の問題は、弁護士と確立された基準が「法的推論」という用語をどのように定義しているかの不一致です。
- 2023年9月にチェックすべき40以上のクールなAIツール
- メタAIは、「Code Llama」という最先端の大規模言語モデルをリリースしましたこれはコーディングのためのものです
- 大規模言語モデルの評価:包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう
現在使用されているベンチマークは、法的知識や法律が必要とされる仕事を「法的推論」として広く分類しています。一方、弁護士は、「法的推論」というフレーズが広範であり、さまざまな種類の推論を含んでいることを認識しています。様々な法的責任には異なる能力と知識体系が必要です。既存の法的基準はこれらの違いを特定する必要があるため、法的実務者にとっては、現代のLLMのパフォーマンスを法的な能力の感覚の中で理解することは困難です。法的専門家がベンチマークプロセスに積極的に関与する必要があるため、法的コミュニティがLLMの法的推論能力を厳密に評価するためには、これらの制約が存在します。
これを実現するために、彼らはLEGALBENCHを導入します。これは、英語のための法的推論の学際的な共同ベンチマークの初期段階の構築を表しています。この研究の著者たちは、過去1年間にわたって協力して162のタスク(36の異なるデータソースから)を構築しました。各タスクは特定の形式の法的推論をテストします。彼らは、さまざまな法律とコンピュータ科学のバックグラウンドを活用しました。彼らによれば、LEGALBENCHは最初のオープンソースの法的ベンチマークプロジェクトです。このベンチマークデザインの方法は、専門家が評価タスクの開発に積極的に参加することを示しており、LLMの研究における多学科的な協力の一形態を具体化しています。彼らはまた、これが法律の評価と推進において法的実務者が果たす重要な役割を示していると主張しています。
彼らは、LEGALBENCHの研究プロジェクトとして3つの側面を強調しています:
1. LEGALBENCHは、少量のラベル付きデータから学習するfew-shot LLMパラダイムに適した形式に再構築された既存の法的データセットと、この作業の著者としてもリストされている法的専門家によって生成および提供された手作りのデータセットの組み合わせを使用して構築されました。この協力に参加した法的専門家は、LLMの法的能力を確認するための興味深い法的推論能力をテストするデータセットまたは実用的な価値のあるLLMの応用を表すデータセットを提供するよう招待されました。その結果、LEGALBENCHの課題での優れたパフォーマンスは、弁護士が自分のLLMの法的能力に対する意見を確認するために使用したり、ワークフローに役立つLLMを見つけるために使用したりすることができる関連データを提供します。
2. LEGALBENCHのタスクは、課題を完了するために必要な法的推論の種類を詳細に説明した分類学に配置されています。この分類学は、法的コミュニティに共通のフレームワークから引用し、既に馴染みのある語彙と概念的な枠組みを使用しているため、法律専門家はLLMのパフォーマンスについての議論に積極的に参加することができます。
3. 最後に、LEGALBENCHはさらなる研究のためのプラットフォームとして設計されています。LEGALBENCHは、法律に関するトレーニングを受けていないAI研究者がさまざまな活動を促進し評価する方法を知るための大きな支援を提供しています。彼らはまた、法律実務者からの作業を引き続き募集し、LEGALBENCHを拡大する意図も持っています。なぜなら、法律コミュニティがLLMsの潜在的な影響と機能との相互作用をさらに行うようになるからです。
彼らは以下の内容をこの論文に貢献しています:
1. 必要な正当化に基づいて法的義務を分類し特徴づけるためのタイポロジーを提供しています。このタイポロジーは、弁護士が法的推論を説明するために使用するフレームワークに基づいています。
2. 次に、LEGALBENCHの活動の概要を示し、作成方法、重要な異質性の次元、制約について説明しています。付録では、各割り当ての詳細な説明が記載されています。
3. さまざまなサイズの11つの異なるファミリーから20のLLMsを分析するために、彼らは最後のステップとしてLEGALBENCHを使用しています。彼らはいくつかのプロンプトエンジニアリングの戦術の初期調査を行い、さまざまなモデルの効果についてコメントを述べています。
これらの調査結果は、LEGALBENCHが促進する可能性のあるいくつかの研究トピックを明らかにしています。彼らは、さまざまなコミュニティがこのベンチマークに興味を持つと予想しています。実務家は、これらの活動を使用して、LLMsを現行プロセスに組み込む方法やその効果を判断することができます。LLMsが可能なさまざまなアノテーションの種類や、許可されるさまざまなタイプの実証的な学術研究は、法学アカデミックにとって興味深いものです。特殊な語彙的特徴と難解なタスクが新たな洞察をもたらす可能性のある法律のような分野でこれらのモデルの成功は、コンピュータサイエンティストにとっても興味深いでしょう。
続ける前に、彼らはこの作業の目標が、計算技術が弁護士や法務スタッフを置き換えるべきかどうかを評価することではないこと、またそのような置き換えの利点と欠点を理解することでもないことを明確にしています。代わりに、彼らは影響を受けるコミュニティと関係者が、LLMsが特定の法的責任を果たす能力をどの程度持っているかをよりよく理解するためのアーティファクトを作成したいと考えています。これらの技術の普及を考えると、この問題の解決は、計算法的な法的ツールの安全で倫理的な使用を保証する上で重要だと彼らは考えています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「インクリメンタルラーニング:メリット、実装、課題」
- テキストによる画像および3Dシーン編集の高精度化:『Watch Your Steps』に出会う
- メタがコードラマをリリース:コーディングのための最新のAIツール
- 「NTU SingaporeのこのAI論文は、モーション表現を用いたビデオセグメンテーションのための大規模ベンチマーク、MeVISを紹介しています」
- 『周期的な時間特徴のエンコード方法』
- 「Googleは、Raspberry Pi向けにMediaPipeを導入し、デバイス内の機械学習のための使いやすいPython SDKを提供します」
- 人工知能の台頭に備えるために、高校生をどのようにサポートできるか