あなたのオープンソースのLLMプロジェクトはどれくらいリスクがあるのでしょうか?新たな研究がオープンソースのLLMに関連するリスク要因を説明しています
あなたのオープンソースのLLMプロジェクトのリスクはどれくらいですか?新しい研究がオープンソースのLLMのリスク要因を説明しています
大規模言語モデル(LLM)と生成AI、例えばGPTエンジンは、最近AIの領域で大きな波を起こしており、小売個人や企業の間でこの新しいテクノロジーの波に乗ることへの大きな期待が市場に広がっています。しかし、この技術が市場で複数のユースケースを急速に担っている中で、特にオープンソースのLLMに関連するリスクについて、より詳細に注意を払い、使用に関連するリスクについてもっと詳細に注意を払う必要があります。
有名な自動ソフトウェア供給チェーンセキュリティプラットフォームであるRezilionが最近行った研究では、この具体的な問題を調査し、その結果は私たちを驚かせます。彼らは次の条件に合致するすべてのプロジェクトを考慮しました:
- 8ヶ月以内に作成されたプロジェクト(この論文の発表時点での2022年11月から2023年6月まで)
- LLM、ChatGPT、Open-AI、GPT-3.5、またはGPT-4のトピックに関連するプロジェクト
- GitHubで少なくとも3,000のスターを持つプロジェクト
これらの条件により、主要なプロジェクトが研究の対象になることが保証されました。
- このAI研究は、大規模言語モデル(LLM)における合成的な人格特性を説明しています
- HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化
- MITの科学者たちは、生物学の研究のためのAIモデルを生成できるシステムを構築しました
彼らは研究を説明するために、Open Source Security Foundation(OSSF)が作成したScorecardというフレームワークを使用しました。Scorecardは、オープンソースプロジェクトのセキュリティを評価し、改善することを目的としたSASTツールです。評価は、脆弱性の数、定期的なメンテナンスの頻度、バイナリファイルの有無など、リポジトリに関するさまざまな情報に基づいて行われます。
これらのチェックの目的は、セキュリティのベストプラクティスと業界標準の遵守を確保することです。各チェックにはリスクレベルが関連付けられています。リスクレベルは、特定のベストプラクティスに準拠しないことに関連する推定リスクを表し、スコアに重みを加えます。
現在、18のチェックは3つのテーマに分けることができます:包括的なセキュリティプラクティス、ソースコードのリスク評価、およびビルドプロセスのリスク評価。OpenSSF Scorecardは、各チェックに対して0から10の序数スコアとリスクレベルスコアを割り当てます。
結果として、これらのほとんどのオープンソースのLLMとプロジェクトは、専門家が以下のように分類した重要なセキュリティ上の懸念事項に取り組んでいます:
1.信頼境界のリスク
不適切なサンドボックス化、不正なコードの実行、SSRFの脆弱性、不十分なアクセス制御、さらにはプロンプトインジェクションなどのリスクは、信頼境界の一般的な概念に該当します。
誰でも任意の悪意のあるnlpマスクコマンドを挿入することができ、それは複数のチャンネルを越えて伝播し、ソフトウェアチェーン全体に深刻な影響を与える可能性があります。
人気のある例の1つはCVE-2023-29374 LangChainの脆弱性(3番目に人気のあるオープンソースgpt)です。
2. データ管理リスク
データ漏洩やトレーニングデータの改竄は、データ管理のリスクカテゴリに該当します。これらのリスクは、大規模言語モデルに限定されるものではなく、どんな機械学習システムにも関連しています。
トレーニングデータの改竄は、攻撃者がLLMのトレーニングデータや微調整手順を意図的に操作して、モデルのセキュリティ、効果性、倫理的な振る舞いを損なう脆弱性、バックドア、バイアスを導入することを指します。この悪意のある行為は、トレーニングプロセス中に誤解を招く情報や有害な情報を注入することで、LLMの完全性と信頼性を危険にさらすことを目的としています。
3. 固有のモデルリスク
これらのセキュリティ上の懸念事項は、基盤となる機械学習モデルの制限によって引き起こされます:適切なAIの整合性とLLMが生成するコンテンツへの過度の依存。
4. 基本的なセキュリティのベストプラクティス
これは、適切なエラーハンドリングや不十分なアクセス制御など、一般的なセキュリティのベストプラクティスに関連する問題で構成されています。これらは、一般的な機械学習モデル全般に共通し、特にLLMに特化したものではありません。
驚くべきことであり、懸念すべきことは、これらのモデルが受け取ったセキュリティスコアです。チェックされたプロジェクトの平均スコアは、わずかに10点中4.6であり、平均年齢は3.77ヶ月、平均スター数は15,909でした。比較的早く人気を獲得するプロジェクトは、長期間にわたって構築されたプロジェクトよりもはるかにリスクが高いです。
会社は、現在これらのプロジェクトが取り組んでいるセキュリティの問題を強調するだけでなく、長期的にはこれらのリスクを軽減し、より安全なものにするために取るべき手順を詳細に提案しています。
結論として、会社は適切に管理され確実に適用されるセキュリティプロトコルの必要性を強調し、特定のセキュリティ上の脆弱性を指摘し、そのようなリスクを排除するために行える変更を提案しています。包括的なリスク評価と堅牢なセキュリティ対策を行うことで、組織はオープンソースのLLMのパワーを活用しながら、機密情報を保護し、安全な環境を維持することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Covid-19への闘いを加速する:研究者がAIによって生成された抗ウイルス薬を検証し、将来の危機における迅速な薬剤開発の道を開拓
- 新しいGoogle AI研究では、ペアワイズランキングプロンプティング(PRP)という新しい技術を使用して、LLMの負担を大幅に軽減することを提案しています
- トロント大学の研究者たちは、3300万以上の細胞リポジトリ上で生成事前学習トランスフォーマーに基づいたシングルセル生物学のための基礎モデルであるscGPTを紹介しました
- ウィスコンシン大学とバイトダンスの研究者は、PanoHeadを紹介しますこれは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成する、初の3D GANフレームワークです
- コンピュータビジョンが脳のように機能するとき、それは人々が見るようにもっと見ることができます
- 天候の変化:AI、高速計算がより速く、効率的な予測を提供することを約束します
- プリンストンの研究者たちは、革新的な軽量フレームワーク「InterCode」を導入しましたこれにより、人間のような言語からコード生成のための言語モデルの相互作用が効率化されました