ハギングフェイスがSafeCoderを導入:エンタープライズ向けに構築されたコードアシスタントソリューション

Hanging Face adopts SafeCoder a code assistant solution built for enterprises.

コードアシスタントソリューションは、開発者がコードを書くときや編集するときに支援するツールやソフトウェアアプリケーションです。コードアシスタントソリューションは、その重要性の高さから最近広く利用されています。この分野の進歩のために、実験や研究の取り組みが世界中で行われています。これらのコードアシスタントソリューションはLLMを基に構築されています。GitHub Copilot、TabNine、IntelliCodeなどがその一例であり、これらのソリューションは生産性の向上をもたらします。これらのプラットフォームは、文脈に即したコードの提案や補完を提供することで生産性を大幅に向上させています。その影響はソフトウェア開発プロセスの効率改善に大きく貢献しています。

しかし、これらのコードアシスタントを使用することには問題があります。これらのアシスタントを使用することで、コードベースが第三者に公開される可能性があります。ファインチューニングされたCode LLMは、学習中および推論中にトレーニングデータセットからコードが漏洩する可能性があるため、コードベースは第三者に開示されます。SafeCoderでは、顧客がモデルの作成と更新のプロセスを学び、AIの機能を自社で管理することを可能にします。

そのため、Hugging Faceの研究者はこれらのコードアシスタントソリューションを徹底的に研究し、SafeCoderという方法を提案しました。この方法では、顧客のプライベートなコードベースでモデルをファインチューニングし、最先端のオープンモデルとライブラリを活用します。重要な点は、このプロセスにより、顧客のコードはHugging Faceや外部のエンティティと共有されることはないということです。SafeCoderの基本原則は、顧客の内部コードベースが学習または推論中にいかなる第三者(Hugging Faceを含む)にもアクセスされないことです。コードはトレーニングと推論の間、仮想プライベートクラウド(VPC)内に閉じられ、その完全性が保たれます。

StarCoderは、15兆パラメータを備えた頑強なトレーニングを経ており、コードの最適化技術を組み込んでいます。Flash Attentionの統合により、モデルの効率性がさらに向上し、8,192トークンの文脈を包括することができます。80以上のプログラミング言語でトレーニングされ、複数のベンチマークで最先端のパフォーマンスを提供します。

研究者は、ユーザー固有のコード提案を提供するためのオプションのトレーニングフェーズに取り組みました。Hugging Faceチームは顧客のチームと緊密に協力し、トレーニングデータセットのキュレーションと構築のためのステップバイステップのガイダンスを提供しました。このプロセスは、ファインチューニングを通じてパーソナライズされたコード生成モデルを作成するまで続き、最大限のプライバシーが確保されます。

SafeCoderの展開フェーズでは、顧客はHugging Faceが提供するコンテナを自社のインフラストラクチャに実装することで主導権を握ります。これらのコンテナは、NVIDIA GPU、AMD Instinct GPU、Intel Xeon CPU、AWS Inferentia2、Habana Gaudiアクセラレータなどのオプションを含め、顧客の特定のハードウェアセットアップに合わせて設定されます。SafeCoderのエンドポイントを顧客のVPC内に展開し、有効化すると、開発者は対応するSafeCoder IDEプラグインを統合することができます。この統合により、開発者は作業中にリアルタイムのコード提案を受け取ることができます。

将来的には、SafeCoderは商業的に許可される他のオープンソースモデルを提供するかもしれません。これらのモデルは、倫理的に信頼性のあるデータセットを基にしており、ファインチューニングに使用できる基本的なLLMとして利用できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

特定のタスクに最適に適合するニューラルネットワークを設計するためのメソッド

適切なビルディングブロックを使用することで、機械学習モデルは詐欺検知やスパムフィルタリングなどのタスクをより正確に実...

機械学習

このAIの論文は、インコンテキスト学習の秘密を解き明かすものです:言語モデルがベクトルマジックに関数をエンコードする方法

自己回帰トランスフォーマーモデルでは、関数ベクトル(FV)として知られるコンパクトなベクトルで入出力関数を表現するニュ...

人工知能

ファッションにおけるGenAI | Segmind Stable Diffusion XL 1.0アプローチ

イントロダクション ファッション業界も例外ではなく、消費者の変化する好みに合わせて革新の最前線に留まる方法を模索してき...

人工知能

「AIスタートアップのトレンド:Y Combinatorの最新バッチからの洞察」

シリコンバレーを拠点とする有名なスタートアップアクセラレータであるY Combinator(YC)は、最近、2023年冬のコホートを発...

データサイエンス

エントロピーを使用した時系列複雑性解析

すべてのデータサイエンティストはこれを知っています:Machine Learningの問題の解決における最初のステップは、データの探...

AI研究

新しいAI研究が「方向性刺激プロンプティング(DSP)」を導入:望ましい要約を生成するためにLLMをより適切に導くための新しいプロンプティングフレームワーク

自然言語処理(NLP)は、最近の大規模言語モデル(LLM)の出現により、従来の比較的小さな言語モデル(LM)であるGPT-2やT5 R...