あなたのオープンソースのLLMプロジェクトはどれくらいリスクがあるのでしょうか?新たな研究がオープンソースのLLMに関連するリスク要因を説明しています

あなたのオープンソースのLLMプロジェクトのリスクはどれくらいですか?新しい研究がオープンソースのLLMのリスク要因を説明しています

大規模言語モデル(LLM)と生成AI、例えばGPTエンジンは、最近AIの領域で大きな波を起こしており、小売個人や企業の間でこの新しいテクノロジーの波に乗ることへの大きな期待が市場に広がっています。しかし、この技術が市場で複数のユースケースを急速に担っている中で、特にオープンソースのLLMに関連するリスクについて、より詳細に注意を払い、使用に関連するリスクについてもっと詳細に注意を払う必要があります。

有名な自動ソフトウェア供給チェーンセキュリティプラットフォームであるRezilionが最近行った研究では、この具体的な問題を調査し、その結果は私たちを驚かせます。彼らは次の条件に合致するすべてのプロジェクトを考慮しました:

  1. 8ヶ月以内に作成されたプロジェクト(この論文の発表時点での2022年11月から2023年6月まで)
  2. LLM、ChatGPT、Open-AI、GPT-3.5、またはGPT-4のトピックに関連するプロジェクト
  3. GitHubで少なくとも3,000のスターを持つプロジェクト

これらの条件により、主要なプロジェクトが研究の対象になることが保証されました。

彼らは研究を説明するために、Open Source Security Foundation(OSSF)が作成したScorecardというフレームワークを使用しました。Scorecardは、オープンソースプロジェクトのセキュリティを評価し、改善することを目的としたSASTツールです。評価は、脆弱性の数、定期的なメンテナンスの頻度、バイナリファイルの有無など、リポジトリに関するさまざまな情報に基づいて行われます。

これらのチェックの目的は、セキュリティのベストプラクティスと業界標準の遵守を確保することです。各チェックにはリスクレベルが関連付けられています。リスクレベルは、特定のベストプラクティスに準拠しないことに関連する推定リスクを表し、スコアに重みを加えます。

現在、18のチェックは3つのテーマに分けることができます:包括的なセキュリティプラクティス、ソースコードのリスク評価、およびビルドプロセスのリスク評価。OpenSSF Scorecardは、各チェックに対して0から10の序数スコアとリスクレベルスコアを割り当てます。

結果として、これらのほとんどのオープンソースのLLMとプロジェクトは、専門家が以下のように分類した重要なセキュリティ上の懸念事項に取り組んでいます:

1.信頼境界のリスク

不適切なサンドボックス化、不正なコードの実行、SSRFの脆弱性、不十分なアクセス制御、さらにはプロンプトインジェクションなどのリスクは、信頼境界の一般的な概念に該当します。

誰でも任意の悪意のあるnlpマスクコマンドを挿入することができ、それは複数のチャンネルを越えて伝播し、ソフトウェアチェーン全体に深刻な影響を与える可能性があります。

人気のある例の1つはCVE-2023-29374 LangChainの脆弱性(3番目に人気のあるオープンソースgpt)です。

2. データ管理リスク

データ漏洩やトレーニングデータの改竄は、データ管理のリスクカテゴリに該当します。これらのリスクは、大規模言語モデルに限定されるものではなく、どんな機械学習システムにも関連しています。

トレーニングデータの改竄は、攻撃者がLLMのトレーニングデータや微調整手順を意図的に操作して、モデルのセキュリティ、効果性、倫理的な振る舞いを損なう脆弱性、バックドア、バイアスを導入することを指します。この悪意のある行為は、トレーニングプロセス中に誤解を招く情報や有害な情報を注入することで、LLMの完全性と信頼性を危険にさらすことを目的としています。

3. 固有のモデルリスク

これらのセキュリティ上の懸念事項は、基盤となる機械学習モデルの制限によって引き起こされます:適切なAIの整合性とLLMが生成するコンテンツへの過度の依存。

4. 基本的なセキュリティのベストプラクティス

これは、適切なエラーハンドリングや不十分なアクセス制御など、一般的なセキュリティのベストプラクティスに関連する問題で構成されています。これらは、一般的な機械学習モデル全般に共通し、特にLLMに特化したものではありません。

驚くべきことであり、懸念すべきことは、これらのモデルが受け取ったセキュリティスコアです。チェックされたプロジェクトの平均スコアは、わずかに10点中4.6であり、平均年齢は3.77ヶ月、平均スター数は15,909でした。比較的早く人気を獲得するプロジェクトは、長期間にわたって構築されたプロジェクトよりもはるかにリスクが高いです。

会社は、現在これらのプロジェクトが取り組んでいるセキュリティの問題を強調するだけでなく、長期的にはこれらのリスクを軽減し、より安全なものにするために取るべき手順を詳細に提案しています。

結論として、会社は適切に管理され確実に適用されるセキュリティプロトコルの必要性を強調し、特定のセキュリティ上の脆弱性を指摘し、そのようなリスクを排除するために行える変更を提案しています。包括的なリスク評価と堅牢なセキュリティ対策を行うことで、組織はオープンソースのLLMのパワーを活用しながら、機密情報を保護し、安全な環境を維持することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

50以上の最新の最先端AIツール(2023年7月)

AIツールは急速に開発が進んでおり、新しいものが定期的に導入されています。以下は、日常のルーティンを強化することができ...

機械学習

ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム

大型言語モデル(LLM)は、高レベルの計画に優れていますが、ペン回しのような低レベルのタスクに対するサポートが必要です。...

機械学習

「FLM-101Bをご紹介します:1010億パラメータを持つ、オープンソースのデコーダのみのLLM」

最近、大規模言語モデル(LLM)はNLPとマルチモーダルタスクで優れた成績を収めていますが、高い計算コストと公正な評価の困...

AI研究

UCバークレーの研究者たちは、「リングアテンション:トランスフォーマーのメモリ要件を削減するためのメモリ効率の良い人工知能アプローチ」という提案を行っています

ディープラーニングモデルアーキテクチャの一種であるTransformerは、多くの最先端のAIモデルの文脈で使われます。これらは人...

AIニュース

「ブラックボックスを開く」

研究者は、説明可能な設計空間探索を通じて、科学者やプロセッサ設計者が深層学習アクセラレータの設計の根本的な理論を理解...

コンピュータサイエンス

ロボット犬は、人間よりも侵略的なヒアリの巣をより良く見つけることができます

中国とブラジルの科学者たちは、侵入した火蟻の巣を検出するために、ロボット犬と人工知能(AI)をテストしています