「ガードレールを使用して安全で信頼性のあるAIを設計する方法」

「美容とファッションの専門家が教える、魅力的で生き生きとした記事を執筆する方法」

真剣にAIの設計、構築、実装に取り組んでいる方であれば、ガードレールという概念についてはおそらく聞いたことがあるでしょう。AIのリスクを軽減するためのガードレールの概念は新しいものではありませんが、生成型AIアプリケーションの最近の波により、これらの議論がデータエンジニアや学者だけでなく、すべての人に関連するものとなりました。

AIビルダーとして、ガードレールの重要性についてステークホルダーに教育することが重要です。AIユーザーとして、組織のためにMLモデルを設計する際にガードレールが整備されているかをベンダーに適切な質問をする必要があります。

この記事では、この投稿の文脈でのガードレールの理解を深め、AIの設計と開発の各段階でガードレールを設定する方法について詳しく説明します。

AIにおけるガードレールとは何ですか？

ガードレールとは、入力、モデル、出力の間に配置されるフィルター、ルール、ツールのセットであり、間違った/有毒な出力や予期しない形式を減らし、値や正確性の期待に従っていることを確認する役割を果たします。以下の図で大まかにイメージすることができます。

要するに、ガードレールはプロセスを期待どおりに保つための方法です。これにより、モデルによりセキュリティを高め、エンドユーザーに信頼性のある結果を提供することができます。今日、多くのガードレールは生成型AIアプリケーションに使用されるものを指す場合がありますが、その他のAIアプリケーションにも多くの技術が適用されます。

AI設計全体を通じてのガードレールの設定

アプリケーションにかかわらず、ガードレールはAI設計と開発プロセスの各ポイントで設定することができます：トレーニング時に、プロンプトや入力、出力にガードレールを設定します。

トレーニング中のガードレール

ODSCに参加した際、NVIDIAのIT AI副社長であるRama Akkiraju氏から興味深い引用を聞きました。「私たちはかつて obscurity によってセキュリティを確保していました」というものです。

過去には、機密情報が文書やPDFに埋もれて保護されており、それが訓練データの中に散在していることが多かったため、この情報はスケールで利用されることはありませんでした。しかし、今では例えば顧客とのあらゆる会話の全データ書き出しが必要な言語モデルを構築しているかもしれません。おそらく、誰かが電話番号や（望ましくないですが、わかりません）社会保障番号のような個人情報を提供しているかもしれません。

トレーニングデータのスキャンと機密情報のソースを特定せずにこのデータをエクスポートすると、その情報はモデルに引き継がれてしまう可能性があります。トレーニングデータに対するガードレールを設定することで、リスクのある情報を初期データから分離する機会を得ることができます。

単体テストという概念はソフトウェア開発の世界ではよく理解されています。これは、スニペットのコードが予想どおりに実行されることを確認する一連の「コードテスト」を設計することを意味します。通常の単体テストと同様に、モデルをテストするためのシナリオや例を人間が考え出さなければなりません。さらに、大規模な言語モデルを使用してさらに多くの例を生成し、このような単体テストに使用するチームも出てきています。

実例: たとえば、言語モデルを活用した顧客サービスのチャットボットを使用して返品プロセスを改善したいとする小売業者を想像してみましょう。顧客の購入記録、過去のチャット履歴、製品情報を接続する前に、トレーニングデータを曖昧化する必要があります。顧客と過去の相互作用に基づいてモデルをトレーニングする場合、実名やその他の個人を特定できる情報がモデルに渡されないようにしてください。

イベント – ODSCイースト2024

対面とオンラインのカンファレンス

2024年4月23日から25日まで

最新のデータサイエンスとAIのトレンド、ツール、テクニックについて、LLMからデータ分析、機械学習から責任あるAIまで、詳細に掘り下げて学びましょう。

プロンプトと入力のガードレール

プロンプトと入力のガードレールを設定する際には、データをスクリーニングして、モデルが誤動作する可能性のあるデータ入力かどうかを判断することができます。

これは、新たなサイバー脆弱性であるプロンプトの中毒の試みにおいて特に重要であり、攻撃者が奇妙なトークンの並びなど特定の方法を探し、LLMが誤動作するように仕向けることを狙っています。

ストレステストと微調整を通じて、モデルが奇妙な方法で動作する要因を機能的に特定することができます。これを行うための簡単な方法は、任意のプロンプトまたは入力が以前の例とどれだけ似ている（または異なる）かを数学的に計算することです。

現実世界の例: 同じ顧客サービスのチャットボットの例では、顧客が特定の製品を返品するように要求して会話を始めるかもしれません。入力のガードレールは、情報を要求する個人がモデルをトリガーし、その情報を取得する権利を持っているかどうかを判断するのに役立ちます。

出力のガードレール

これらは、AIモデルとエンドユーザーの間に適用されるライブソリューションに対して適用されるセットの安全装置です。出力のガードレールを設計する際には、モデルに対して評判の損害や不信感を引き起こす要因を特定します。それは、ブランドイメージにそぐわない口調、機能しない結果、偏見や有害な言語、毒性などが考えられます。一般的に、この段階では次のいくつかの要素を探しています：

出力は予想される出力と一致しますか？つまり、特定の形式や応答の長さ、または構造が期待されますか？
結果は事実に基づいていますか？またはコードを生成する可能性があるアプリケーションでは、出力は実際に実行できますか？
出力に有害なバイアスが含まれていませんか？トーンは対象の観客にとって安全で適切ですか？
ユーザーは出力に含まれるすべての情報にアクセスし、それを知る権利を持っていますか？

これらのガードレールは、低品質または潜在的に有害な結果がユーザーに届くのを防ぐために重要です。出力が不正確であるよりも、「それには答えられません」といったデフォルトの応答や一連の事前設定された応答を提供する方が良いでしょう。

現実世界の例: 顧客が返金を依頼した場合、単一の取引で返金できる最大金額に関する設定ルールはありますか？このようなルールは、出力に対するガードレールの一例です。別の例として、ブランドの声に合った一定レベルのポジティブな感情を持つようにすべての出力にフィルタを設定することもあります。

AIにおけるガードレールは新しいものではありませんが、これからはそれに慣れ親しむ時です。AIビルダーとして、MLモデルに適切なフィルタやルールが備わっていることをどのように確保していますか？また、AIユーザーとして、適切なガードレールを備えたモデルを構築するために信頼できるベンダーと連携していますか？これらの前提条件を文書化し、エンドユーザーと関係者に明確に伝えることで、モデルへの信頼を築くことができます。

著者について: Cal Al-Dhubaibは、信頼性のある人工知能におけるデータサイエンティストおよびAI戦略家として世界的に認められており、クリーブランドを拠点とするAIコンサルティング、デザイン、開発会社であるPandataの創設者兼CEOです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful