ハギングフェイスがSafeCoderを導入:エンタープライズ向けに構築されたコードアシスタントソリューション

Hanging Face adopts SafeCoder a code assistant solution built for enterprises.

コードアシスタントソリューションは、開発者がコードを書くときや編集するときに支援するツールやソフトウェアアプリケーションです。コードアシスタントソリューションは、その重要性の高さから最近広く利用されています。この分野の進歩のために、実験や研究の取り組みが世界中で行われています。これらのコードアシスタントソリューションはLLMを基に構築されています。GitHub Copilot、TabNine、IntelliCodeなどがその一例であり、これらのソリューションは生産性の向上をもたらします。これらのプラットフォームは、文脈に即したコードの提案や補完を提供することで生産性を大幅に向上させています。その影響はソフトウェア開発プロセスの効率改善に大きく貢献しています。

しかし、これらのコードアシスタントを使用することには問題があります。これらのアシスタントを使用することで、コードベースが第三者に公開される可能性があります。ファインチューニングされたCode LLMは、学習中および推論中にトレーニングデータセットからコードが漏洩する可能性があるため、コードベースは第三者に開示されます。SafeCoderでは、顧客がモデルの作成と更新のプロセスを学び、AIの機能を自社で管理することを可能にします。

そのため、Hugging Faceの研究者はこれらのコードアシスタントソリューションを徹底的に研究し、SafeCoderという方法を提案しました。この方法では、顧客のプライベートなコードベースでモデルをファインチューニングし、最先端のオープンモデルとライブラリを活用します。重要な点は、このプロセスにより、顧客のコードはHugging Faceや外部のエンティティと共有されることはないということです。SafeCoderの基本原則は、顧客の内部コードベースが学習または推論中にいかなる第三者(Hugging Faceを含む)にもアクセスされないことです。コードはトレーニングと推論の間、仮想プライベートクラウド(VPC)内に閉じられ、その完全性が保たれます。

StarCoderは、15兆パラメータを備えた頑強なトレーニングを経ており、コードの最適化技術を組み込んでいます。Flash Attentionの統合により、モデルの効率性がさらに向上し、8,192トークンの文脈を包括することができます。80以上のプログラミング言語でトレーニングされ、複数のベンチマークで最先端のパフォーマンスを提供します。

研究者は、ユーザー固有のコード提案を提供するためのオプションのトレーニングフェーズに取り組みました。Hugging Faceチームは顧客のチームと緊密に協力し、トレーニングデータセットのキュレーションと構築のためのステップバイステップのガイダンスを提供しました。このプロセスは、ファインチューニングを通じてパーソナライズされたコード生成モデルを作成するまで続き、最大限のプライバシーが確保されます。

SafeCoderの展開フェーズでは、顧客はHugging Faceが提供するコンテナを自社のインフラストラクチャに実装することで主導権を握ります。これらのコンテナは、NVIDIA GPU、AMD Instinct GPU、Intel Xeon CPU、AWS Inferentia2、Habana Gaudiアクセラレータなどのオプションを含め、顧客の特定のハードウェアセットアップに合わせて設定されます。SafeCoderのエンドポイントを顧客のVPC内に展開し、有効化すると、開発者は対応するSafeCoder IDEプラグインを統合することができます。この統合により、開発者は作業中にリアルタイムのコード提案を受け取ることができます。

将来的には、SafeCoderは商業的に許可される他のオープンソースモデルを提供するかもしれません。これらのモデルは、倫理的に信頼性のあるデータセットを基にしており、ファインチューニングに使用できる基本的なLLMとして利用できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

銀行向けのGoogleの新しいマネーロンダリング対策AIツールに会いましょう

Google Cloud(アルファベットの部門)は、銀行向けにマネーロンダリングAIを導入しました。提案されたAIソリューションは、...

機械学習

Webスケールトレーニング解放:DeepMindがOWLv2とOWL-STを紹介、未知語彙物体検出の革新的ツール、前例のない自己学習技術によって駆動されます

オープンボキャブラリーの物体検出は、さまざまな実世界のコンピュータビジョンタスクにおいて重要な要素です。ただし、検出...

AI研究

研究者たちは「絶対的に安全な」量子デジタルペイメントを実証

この研究は、量子通信における可能性のある突破口を示し、潜在的には量子フィンテックの時代の幕開けを意味します

データサイエンス

‘LLMがデータアナリストを置き換えることはできるのか? LLMを活用したアナリストの構築’

私たちの中の誰もが、昨年の少なくとも1度は、ChatGPTがあなたの役割を置き換えることができるか(いや、むしろいつか)と考...

AIニュース

「自動運転車の安全性について、ブリティッシュコロンビア州は意見が分かれている」

カナダのブリティッシュコロンビア大学の研究者による研究では、自動運転車に対して道路利用者が快適に感じるためには、段階...

AI研究

スタンフォード大学の研究者が『FlashFFTConv』を導入:長いシーケンスのFFT畳み込みを最適化するための新しい人工知能システム

効率的な推論は、機械学習において長いシーケンスを取り扱う上での主要な困難です。最近では、畳み込みがシーケンスモデリン...