セーフコーダーを紹介します
Introducing Safe Coder.
今日は、エンタープライズ向けのコードアシスタントソリューションであるSafeCoderの発表をお知らせいたします。
SafeCoderの目標は、エンタープライズ向けに完全に準拠し、自己ホスト型のペアプログラマーを提供することで、ソフトウェア開発の生産性を向上させることです。マーケティングの言葉で言えば、「独自のオンプレミスGitHub Copilot」です。
さらに詳しく見ていく前に、以下のことを知っておく必要があります:
- SafeCoderはモデルではなく、完全なエンドツーエンドの商用ソリューションです
- SafeCoderはセキュリティとプライバシーを中心に設計されており、トレーニングや推論中にコードがVPCから出ることはありません
- SafeCoderは、顧客が独自のインフラストラクチャ上で自己ホストすることを前提としています
- SafeCoderは、顧客が独自のCode Large Language Modelを所有することを目指して設計されています
SafeCoderの利点は何ですか?
GitHub CopilotなどのLLMを活用したコードアシスタントソリューションは、生産性の向上に大きく貢献しています。エンタープライズでは、企業のコードベースに合わせてCode LLMを調整し、独自のCode LLMを作成することで、補完の信頼性と関連性を向上させ、さらなる生産性の向上を実現できます。例えば、Googleの内部LLMコードアシスタントは、内部のコードベースをトレーニングデータとして学習することで、25-34%の補完受け入れ率を報告しています。
しかし、クローズドソースのCode LLMを利用して内部のコードアシスタントを作成することは、コンプライアンスとセキュリティの問題につながります。トレーニング中には、クローズドソースのCode LLMを内部のコードベースに微調整するために、このコードベースを第三者に公開する必要があります。そして、推論中には、微調整されたCode LLMがトレーニングデータセットからコードを「漏洩」させる可能性があります。コンプライアンス要件を満たすためには、企業は自社のインフラストラクチャ内で微調整されたCode LLMを展開する必要がありますが、クローズドソースのLLMではそれは不可能です。
Hugging Faceでは、SafeCoderによって顧客が独自のCode LLMを構築できるようになります。最新のオープンソースモデルとライブラリを使用して、独自のコードベースに微調整されたCode LLMを作成することができます。この際、顧客のコードをHugging Faceや他の第三者と共有することはありません。Hugging Faceは、SafeCoderを通じて、顧客のセキュアなインフラストラクチャ内で直接展開できる、コンテナ化されたハードウェアアクセラレーションされたCode LLM推論ソリューションを提供します。
StarCoderからSafeCoderへ
SafeCoderソリューションの中核には、Hugging Face、ServiceNow、オープンソースコミュニティの共同プロジェクトであるBigCodeプロジェクトによって作成されたStarCoderファミリーのCode LLMがあります。
StarCoderモデルは、エンタープライズの自己ホスト型ソリューションに最適な特徴を提供しています:
- 最新のコード補完結果 – 論文や多言語コード評価ランキングでのベンチマークをご覧ください
- 推論パフォーマンスのために設計されています: 15Bパラメータのモデルには、コードの最適化、メモリフットプリントの削減のためのマルチクエリアテンション、8,192トークンのコンテキストにスケーリングするためのフラッシュアテンションがあります。
- 商業的に許可されたライセンス付きコードのみを含む倫理的に取得されたオープンソースコードデータセットでトレーニングされており、開発者が最初からオプトアウトするメカニズムを備え、PIIの削除と重複排除の取り組みを通じて洗練されました。
注: StarCoderはSafeCoderの初期バージョンのインスピレーションとモデルですが、オープンソースモデルを基にしたLLMソリューションを構築する利点の一つは、最新かつ最高のオープンソースモデルに適応できることです。将来的には、SafeCoderは、倫理的に取得された透明性のあるデータセットを基にした商業的に許可された他のオープンソースモデルを提供するかもしれません。
プライバシーとセキュリティを重要視
どの企業にとっても、内部のコードベースは最も重要で貴重な知的財産の一部です。SafeCoderの核となる原則は、顧客の内部のコードベースがトレーニングや推論中にHugging Faceを含む第三者にアクセス可能になることは決してないということです。
SafeCoderの初期設定フェーズでは、Hugging Faceチームがコンテナ、スクリプト、例を提供し、顧客と手を携えて内部のコードベースデータを選択し、抽出し、準備し、重複排除し、匿名化してトレーニングデータセットに変換します。これは、顧客が利用可能なハードウェアインフラストラクチャに構成されたHugging Face提供のトレーニングコンテナで行われます。
SafeCoderの展開フェーズでは、顧客が独自のインフラストラクチャにHugging Faceが提供するコンテナを展開し、VPC内の内部プライベートエンドポイントを公開します。これらのコンテナは、顧客が利用可能なハードウェア構成に合わせて構成されます。NVIDIA GPU、AMD Instinct GPU、Intel Xeon CPU、AWS Inferentia2、Habana Gaudiアクセラレータなどが含まれます。
コンプライアンスを中心の原則として
機械学習モデルとデータセットに関する規制フレームワークが世界中でまだ作成中ですが、グローバル企業は使用するソリューションが法的リスクを最小限に抑えることを確認する必要があります。
データソース、データガバナンス、著作権のあるデータの管理など、考慮すべき重要なコンプライアンス領域は数多くあります。BigCodeは、これらの領域をAI EU法案の草案が広く認識される前にワーキンググループで取り組み、Stanford CRFMの研究では基礎モデルプロバイダーの中で最もコンプライアンスが高いと評価されました。
BigCodeは、商業的に許容されるライセンスフィルタリング、同意メカニズム(開発者はコードが存在するかどうかを簡単に確認し、データセットからの除外をリクエストすることができます)、ソースデータを検査するための詳細なドキュメントとツール、データセットの改善(重複削除やPIIの削除など)など、コンプライアンスを中心としたコードドメインの革新的な技術を実装することで、この取り組みを拡大しました。
これらの取り組みは、StarCoderモデルのユーザーやSafeCoderの顧客にとって法的リスクを最小限に抑えることにつながります。そして、SafeCoderのユーザーにとっては、これらの取り組みがコンプライアンスの機能に繋がります:ソフトウェア開発者がコード補完を受けると、提案されたコードがソースデータセット内の既存のコードと一致しているか、ライセンスは何であるかをユーザーが知ることができます。顧客は好ましいライセンスを指定し、それらの好みをユーザーに提示することができます。
どのように動作しますか?
SafeCoderは、サービス、ソフトウェア、サポートを含む完全な商用ソリューションです。
独自のSafeCoderモデルのトレーニング
StarCoderは80以上のプログラミング言語でトレーニングされ、複数のベンチマークで最先端のパフォーマンスを提供します。SafeCoderの顧客に特化したより良いコード提案を提供するために、Hugging Faceチームはオプションのトレーニングフェーズから始めて、お客様のチームと直接協力してトレーニングコードデータセットの準備と構築の手順を案内し、サードパーティやインターネットにコードベースを公開することなく、独自のコード生成モデルをファインチューニングを通じて作成します。
その結果、お客様のコード言語、標準、およびプラクティスに適応したモデルが得られます。このプロセスを通じて、SafeCoderの顧客はプロセスを学び、独自のモデルの作成と更新のためのパイプラインを構築し、ベンダーロックインを回避し、AIの能力を制御することができます。
SafeCoderの展開
セットアップフェーズ中、SafeCoderの顧客とHugging Faceは、必要な同時性をサポートするための最適なインフラストラクチャを設計および提供します。Hugging Faceは、ハードウェアアクセラレーションされ、スループットに最適化されたSafeCoder推論コンテナを構築し、顧客が独自のインフラストラクチャに展開できるようにします。
SafeCoder推論は、さまざまなハードウェアをサポートしており、顧客に幅広いオプションを提供します:NVIDIA Ampere GPUs、AMD Instinct GPUs、Habana Gaudi2、AWS Inferentia 2、Intel Xeon Sapphire Rapids CPUsなど。
SafeCoderの使用
SafeCoderが展開され、エンドポイントが顧客のVPCで利用可能になると、開発者は互換性のあるSafeCoder IDEプラグインをインストールして作業中にコードの提案を受けることができます。現在、SafeCoderは、VSCode、IntelliJなどの人気のあるIDEをサポートしており、パートナーからさらなるプラグインが提供されています。
SafeCoderを入手するにはどうすればよいですか?
今日、私たちはVMwareとの協力によりVMwareのExploreカンファレンスでSafeCoderを発表し、VMwareのエンタープライズ顧客にSafeCoderを提供します。VMwareとの協力により、顧客のVMware CloudインフラストラクチャへのSafeCoderの展開が成功します。顧客が選択するクラウド、オンプレミス、またはハイブリッドインフラストラクチャシナリオに応じて展開されます。SafeCoderを活用するだけでなく、VMwareはコードサンプルを含むリファレンスアーキテクチャを公開し、SafeCoderをVMwareインフラストラクチャ上で展開および操作する際の最速の価値実現を可能にします。VMwareのプライベートAIリファレンスアーキテクチャは、組織がプライベートデータセットに隣接するAIサービスを展開するためにrayやkubeflowなどの人気のあるオープンソースプロジェクトを迅速に活用できるようにします。これにより、オープンソースモデルの最新かつ最高の機能を利用しながら、総所有コストやパフォーマンスに妥協することなく、組織が柔軟性を維持できます。
「Hugging FaceとのSafeCoderに関する協力は、VMwareが顧客がビジネスデータのプライバシーとコントロールを維持しながらソリューションの選択肢を可能にするという目標と完全に一致しています。実際、私たちは数ヶ月間SafeCoderを内部で実行しており、素晴らしい結果を見ています。そして何よりも、Hugging Faceとの協力はこれからです。私たちは世界中の何十万もの顧客に私たちのソリューションを提供することを楽しみにしています」と、VMware AI Labsの副社長であるクリス・ウルフは述べています。この新興分野でのプライベートAIとVMwareの差別化について詳しくはこちらをご覧ください。
会社でSafeCoderに興味がある場合は、こちらからお問い合わせください – 弊社のチームがお客様の要件について話し合うためにご連絡いたします!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles