あなたのオープンソースのLLMプロジェクトはどれくらいリスクがあるのでしょうか?新たな研究がオープンソースのLLMに関連するリスク要因を説明しています

あなたのオープンソースのLLMプロジェクトのリスクはどれくらいですか?新しい研究がオープンソースのLLMのリスク要因を説明しています

大規模言語モデル(LLM)と生成AI、例えばGPTエンジンは、最近AIの領域で大きな波を起こしており、小売個人や企業の間でこの新しいテクノロジーの波に乗ることへの大きな期待が市場に広がっています。しかし、この技術が市場で複数のユースケースを急速に担っている中で、特にオープンソースのLLMに関連するリスクについて、より詳細に注意を払い、使用に関連するリスクについてもっと詳細に注意を払う必要があります。

有名な自動ソフトウェア供給チェーンセキュリティプラットフォームであるRezilionが最近行った研究では、この具体的な問題を調査し、その結果は私たちを驚かせます。彼らは次の条件に合致するすべてのプロジェクトを考慮しました:

  1. 8ヶ月以内に作成されたプロジェクト(この論文の発表時点での2022年11月から2023年6月まで)
  2. LLM、ChatGPT、Open-AI、GPT-3.5、またはGPT-4のトピックに関連するプロジェクト
  3. GitHubで少なくとも3,000のスターを持つプロジェクト

これらの条件により、主要なプロジェクトが研究の対象になることが保証されました。

彼らは研究を説明するために、Open Source Security Foundation(OSSF)が作成したScorecardというフレームワークを使用しました。Scorecardは、オープンソースプロジェクトのセキュリティを評価し、改善することを目的としたSASTツールです。評価は、脆弱性の数、定期的なメンテナンスの頻度、バイナリファイルの有無など、リポジトリに関するさまざまな情報に基づいて行われます。

これらのチェックの目的は、セキュリティのベストプラクティスと業界標準の遵守を確保することです。各チェックにはリスクレベルが関連付けられています。リスクレベルは、特定のベストプラクティスに準拠しないことに関連する推定リスクを表し、スコアに重みを加えます。

現在、18のチェックは3つのテーマに分けることができます:包括的なセキュリティプラクティス、ソースコードのリスク評価、およびビルドプロセスのリスク評価。OpenSSF Scorecardは、各チェックに対して0から10の序数スコアとリスクレベルスコアを割り当てます。

結果として、これらのほとんどのオープンソースのLLMとプロジェクトは、専門家が以下のように分類した重要なセキュリティ上の懸念事項に取り組んでいます:

1.信頼境界のリスク

不適切なサンドボックス化、不正なコードの実行、SSRFの脆弱性、不十分なアクセス制御、さらにはプロンプトインジェクションなどのリスクは、信頼境界の一般的な概念に該当します。

誰でも任意の悪意のあるnlpマスクコマンドを挿入することができ、それは複数のチャンネルを越えて伝播し、ソフトウェアチェーン全体に深刻な影響を与える可能性があります。

人気のある例の1つはCVE-2023-29374 LangChainの脆弱性(3番目に人気のあるオープンソースgpt)です。

2. データ管理リスク

データ漏洩やトレーニングデータの改竄は、データ管理のリスクカテゴリに該当します。これらのリスクは、大規模言語モデルに限定されるものではなく、どんな機械学習システムにも関連しています。

トレーニングデータの改竄は、攻撃者がLLMのトレーニングデータや微調整手順を意図的に操作して、モデルのセキュリティ、効果性、倫理的な振る舞いを損なう脆弱性、バックドア、バイアスを導入することを指します。この悪意のある行為は、トレーニングプロセス中に誤解を招く情報や有害な情報を注入することで、LLMの完全性と信頼性を危険にさらすことを目的としています。

3. 固有のモデルリスク

これらのセキュリティ上の懸念事項は、基盤となる機械学習モデルの制限によって引き起こされます:適切なAIの整合性とLLMが生成するコンテンツへの過度の依存。

4. 基本的なセキュリティのベストプラクティス

これは、適切なエラーハンドリングや不十分なアクセス制御など、一般的なセキュリティのベストプラクティスに関連する問題で構成されています。これらは、一般的な機械学習モデル全般に共通し、特にLLMに特化したものではありません。

驚くべきことであり、懸念すべきことは、これらのモデルが受け取ったセキュリティスコアです。チェックされたプロジェクトの平均スコアは、わずかに10点中4.6であり、平均年齢は3.77ヶ月、平均スター数は15,909でした。比較的早く人気を獲得するプロジェクトは、長期間にわたって構築されたプロジェクトよりもはるかにリスクが高いです。

会社は、現在これらのプロジェクトが取り組んでいるセキュリティの問題を強調するだけでなく、長期的にはこれらのリスクを軽減し、より安全なものにするために取るべき手順を詳細に提案しています。

結論として、会社は適切に管理され確実に適用されるセキュリティプロトコルの必要性を強調し、特定のセキュリティ上の脆弱性を指摘し、そのようなリスクを排除するために行える変更を提案しています。包括的なリスク評価と堅牢なセキュリティ対策を行うことで、組織はオープンソースのLLMのパワーを活用しながら、機密情報を保護し、安全な環境を維持することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となって...

データサイエンス

「データの必要量はどのくらいですか? 機械学習とセキュリティの考慮事項のバランス」

データサイエンティストにとって、データは多ければ多いほどよいものとは限りませんしかし、組織の文脈を広く見ると、自身の...

AIニュース

新しいZeroscope v2モデルに会ってください:モダンなグラフィックカード上で動作する無料のテキストからビデオへのモデル

前例のない一連の出来事の中で、次世代のオープンソースAIモデルであるZeroscopeが市場に登場しました。このモデルは、比較的...

データサイエンス

「NLP(スクラッチからのdoc2vec)&クラスタリング:テキストの内容に基づいたニュースレポートの分類」

このタイプの分類を行うためには、教師付き学習法(タグ付きのデータセットを使用する方法)、クラスタリングを使用する方法...

AI研究

『広範な展望:NVIDIAの基調講演がAIの更なる進歩の道を指し示す』

ハードウェア性能の劇的な向上により、生成型AIが生まれ、将来の高速化のアイデアの豊富なパイプラインが構築され、機械学習...