あなたのオープンソースのLLMプロジェクトはどれくらいリスクがあるのでしょうか?新たな研究がオープンソースのLLMに関連するリスク要因を説明しています

あなたのオープンソースのLLMプロジェクトのリスクはどれくらいですか?新しい研究がオープンソースのLLMのリスク要因を説明しています

大規模言語モデル(LLM)と生成AI、例えばGPTエンジンは、最近AIの領域で大きな波を起こしており、小売個人や企業の間でこの新しいテクノロジーの波に乗ることへの大きな期待が市場に広がっています。しかし、この技術が市場で複数のユースケースを急速に担っている中で、特にオープンソースのLLMに関連するリスクについて、より詳細に注意を払い、使用に関連するリスクについてもっと詳細に注意を払う必要があります。

有名な自動ソフトウェア供給チェーンセキュリティプラットフォームであるRezilionが最近行った研究では、この具体的な問題を調査し、その結果は私たちを驚かせます。彼らは次の条件に合致するすべてのプロジェクトを考慮しました:

  1. 8ヶ月以内に作成されたプロジェクト(この論文の発表時点での2022年11月から2023年6月まで)
  2. LLM、ChatGPT、Open-AI、GPT-3.5、またはGPT-4のトピックに関連するプロジェクト
  3. GitHubで少なくとも3,000のスターを持つプロジェクト

これらの条件により、主要なプロジェクトが研究の対象になることが保証されました。

彼らは研究を説明するために、Open Source Security Foundation(OSSF)が作成したScorecardというフレームワークを使用しました。Scorecardは、オープンソースプロジェクトのセキュリティを評価し、改善することを目的としたSASTツールです。評価は、脆弱性の数、定期的なメンテナンスの頻度、バイナリファイルの有無など、リポジトリに関するさまざまな情報に基づいて行われます。

これらのチェックの目的は、セキュリティのベストプラクティスと業界標準の遵守を確保することです。各チェックにはリスクレベルが関連付けられています。リスクレベルは、特定のベストプラクティスに準拠しないことに関連する推定リスクを表し、スコアに重みを加えます。

現在、18のチェックは3つのテーマに分けることができます:包括的なセキュリティプラクティス、ソースコードのリスク評価、およびビルドプロセスのリスク評価。OpenSSF Scorecardは、各チェックに対して0から10の序数スコアとリスクレベルスコアを割り当てます。

結果として、これらのほとんどのオープンソースのLLMとプロジェクトは、専門家が以下のように分類した重要なセキュリティ上の懸念事項に取り組んでいます:

1.信頼境界のリスク

不適切なサンドボックス化、不正なコードの実行、SSRFの脆弱性、不十分なアクセス制御、さらにはプロンプトインジェクションなどのリスクは、信頼境界の一般的な概念に該当します。

誰でも任意の悪意のあるnlpマスクコマンドを挿入することができ、それは複数のチャンネルを越えて伝播し、ソフトウェアチェーン全体に深刻な影響を与える可能性があります。

人気のある例の1つはCVE-2023-29374 LangChainの脆弱性(3番目に人気のあるオープンソースgpt)です。

2. データ管理リスク

データ漏洩やトレーニングデータの改竄は、データ管理のリスクカテゴリに該当します。これらのリスクは、大規模言語モデルに限定されるものではなく、どんな機械学習システムにも関連しています。

トレーニングデータの改竄は、攻撃者がLLMのトレーニングデータや微調整手順を意図的に操作して、モデルのセキュリティ、効果性、倫理的な振る舞いを損なう脆弱性、バックドア、バイアスを導入することを指します。この悪意のある行為は、トレーニングプロセス中に誤解を招く情報や有害な情報を注入することで、LLMの完全性と信頼性を危険にさらすことを目的としています。

3. 固有のモデルリスク

これらのセキュリティ上の懸念事項は、基盤となる機械学習モデルの制限によって引き起こされます:適切なAIの整合性とLLMが生成するコンテンツへの過度の依存。

4. 基本的なセキュリティのベストプラクティス

これは、適切なエラーハンドリングや不十分なアクセス制御など、一般的なセキュリティのベストプラクティスに関連する問題で構成されています。これらは、一般的な機械学習モデル全般に共通し、特にLLMに特化したものではありません。

驚くべきことであり、懸念すべきことは、これらのモデルが受け取ったセキュリティスコアです。チェックされたプロジェクトの平均スコアは、わずかに10点中4.6であり、平均年齢は3.77ヶ月、平均スター数は15,909でした。比較的早く人気を獲得するプロジェクトは、長期間にわたって構築されたプロジェクトよりもはるかにリスクが高いです。

会社は、現在これらのプロジェクトが取り組んでいるセキュリティの問題を強調するだけでなく、長期的にはこれらのリスクを軽減し、より安全なものにするために取るべき手順を詳細に提案しています。

結論として、会社は適切に管理され確実に適用されるセキュリティプロトコルの必要性を強調し、特定のセキュリティ上の脆弱性を指摘し、そのようなリスクを排除するために行える変更を提案しています。包括的なリスク評価と堅牢なセキュリティ対策を行うことで、組織はオープンソースのLLMのパワーを活用しながら、機密情報を保護し、安全な環境を維持することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「人工知能と画像生成の美学」

はじめに 技術と創造力の融合という興奮を感じる中、人工知能(AI)は画像生成に生命を与え、創造性の概念を変えてきました。...

データサイエンス

デプロイ可能な機械学習パイプラインの構築

多くのデータサイエンティストは、最初のコーディング体験をノートブックスタイルのユーザーインターフェースを通じて行いま...

データサイエンス

「固有表現とニュース」

「オランダのニュース記事のデータセットに対して適用された固有表現認識を用いた実験による自動要約、推薦、およびその他の...

データサイエンス

「DeepMindによるこのAI研究は、シンプルな合成データを使用して、大規模な言語モデル(LLM)におけるおべっか使用を減らすことを目指しています」

大規模言語モデル(LLMs)は近年大きく進化し、推論を必要とする難しいタスクを処理することができるようになりました。OpenA...

機械学習

SAM-PTとは SAM(Segment Anything Model)の機能を拡張し、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです

ロボティクス、自動運転、ビデオ編集など、多くのアプリケーションはビデオセグメンテーションの恩恵を受けています。深層ニ...

機械学習

「AI時代における学術的誠実性の再考:ChatGPTと32のコースの大学生の比較分析」

機械学習アルゴリズムを使用して以前に作成されたテキスト、音声、または視覚情報を元に新しいコンテンツを生成する人工知能...