Search Results リポジトリ

「SafeCoder対クローズドソースのコードアシスタント」

数十年にわたり、ソフトウェア開発者は、コード品質の向上と生産性の向上を支援するための手法、プロセス、ツールを設計してきました。たとえば、アジャイル、テスト駆動開発、コードレビュー、CI/CDなどは、今やソフトウェア業界の定番です。 Googleは「How Google Tests Software」（Addison-Wesley、2012）で、システムテストの最終テスト段階でバグを修正するコストが、ユニットテスト段階で修正するコストの1000倍高いと報告しています。これにより、チェーンの最初のリンクである開発者には、初めから品質の高いコードを書くという大きなプレッシャーがかかります。生成型AIに関する大騒ぎがある一方で、コード生成は開発者が迅速に優れたコードを提供するのに有望な方法のようです。実際、早期の研究では、GitHub CopilotやAmazon CodeWhispererなどの管理されたサービスが、開発者の生産性を向上させるのに役立つことが示されています。ただし、これらのサービスはユーザー固有の技術文化やプロセスにカスタマイズできないクローズドソースのモデルに依存しています。Hugging Faceは数週間前にSafeCoderをリリースし、この問題を解決しました。SafeCoderは、エンタープライズ向けのコードアシスタントソリューションであり、最新のモデル、透明性、カスタマイズ性、ITの柔軟性、プライバシーを提供します。この記事では、SafeCoderをクローズドソースのサービスと比較し、当社のソリューションから期待できる利点を強調します。最先端のモデル SafeCoderは現在、StarCoderモデルをベースに構築されています。StarCoderは、BigCode共同プロジェクト内で設計およびトレーニングされたオープンソースモデルのファミリーです。 StarCoderは、80以上のプログラミング言語でコード生成のためにトレーニングされた155億のパラメータモデルです。Multi-Query Attention（MQA）などの革新的なアーキテクチャの概念を使用してスループットを向上させ、レイテンシを低減させる技術を採用しています。この技術は、FalconとLLaMa 2モデルでも使用されています。 StarCoderは8192トークンのコンテキストウィンドウを持っており、より多くのコードを考慮して新しいコードを生成するのに役立ちます。また、コードの末尾に新しいコードを追加するだけでなく、コードの途中にも挿入することができます。さらに、HuggingChatと同様に、SafeCoderは時間の経過とともに新しい最先端のモデルを導入し、シームレスなアップグレードパスを提供します。残念ながら、クローズドソースのコードアシスタントサービスは、基礎となるモデル、その機能、およびトレーニングデータに関する情報を共有していません。透明性 SafeCoderは、チンチラのスケーリング法則に従って、1兆（1,000億）のコードトークンでトレーニングされたコンピューティング最適化モデルです。これらのトークンは、許可されたオープンソースリポジトリから抽出された2.7テラバイトのデータセットで構築されています。オプトアウトのリクエストへの対応に努め、リポジトリ所有者が自分のコードがデータセットの一部であるかどうかを確認するためのツールも開発しました。透明性の精神に則り、研究論文ではモデルのアーキテクチャ、トレーニングプロセス、詳細なメトリクスについて開示しています。残念ながら、クローズドソースのサービスは、「数十億行のコードでトレーニングされました」といった曖昧な情報にとどまっています。私たちの知る限りでは、利用可能なメトリクスはありません。カスタマイズ性…

「ビッグデータの取り扱い：ツールと技術」

「ビッグデータという広大な分野では、どこから始めればいいのでしょうか？どのツールや技術を使うべきでしょうか？私たちはこれについて探求し、ビッグデータで最も一般的なツールについて話し合います」

Data Engineering

「LangChainとOpenAIを使用して、自己モデレートされたコメントシステムを作成する」

免責事項として、LangChainツールの動作を示すために作成された例であることをご承知おきください自己調整型のコメントシステムを作成する方法はさまざまあります...

「Azure OpenAIを使用して、会社独自の安全でプライベートなChatGPTを展開しましょう」

「今ごろになって、おそらくChatGPTで機密の会社データを使用するのはあまり良い考えではないことに気付いているかもしれません会社の商業秘密や知的財産の漏洩の可能性は、技術界でも大きな懸念です...」

施設分散問題：混合整数計画モデル

いくつかの施設配置問題では、施設を配置する必要があります他の施設に影響を与えたり、悪影響を及ぼしたりしないようにするために、施設の位置を決める必要がありますリスク軽減の動機によって駆動されるかどうかに関係なく...

「ワードエンベディング：より良い回答のためにチャットボットに文脈を与える」

ワードエンベディングとChatGPTを使用してエキスパートボットを構築する方法を学びましょうワードベクトルの力を活用して、チャットボットの応答を向上させましょう

「GenAIソリューションがビジネス自動化を革新する方法：エグゼクティブ向けLLMアプリケーションの解説」

最近、バイオファーマ企業の製造エグゼクティブとの協力により、私たちは生成型AI、具体的には大規模な言語モデル（LLM）の世界に深く入り込み、それらがどのように利用できるかを探求しました...

「Amazon Rekognition、Amazon SageMaker基盤モデル、およびAmazon OpenSearch Serviceを使用した記事のための意味論的画像検索」

デジタルパブリッシャーは、新しいコンテンツをできるだけ迅速に生成し、公開するために、メディアのワークフローを効率化し自動化する方法を常に探していますパブリッシャーは、何百万もの画像を含むリポジトリを持っており、これらの画像を記事間で再利用することで費用を節約する必要がありますこのようなスケールのリポジトリ内で、記事に最も適した画像を見つけることは、時間のかかる繰り返しの手作業であり、自動化することができますまた、リポジトリ内の画像が正しくタグ付けされていることも自動化できます（お客様の成功事例については、Aller Media Finds Success with KeyCore and AWSを参照してください）この記事では、Amazon Rekognition、Amazon SageMaker JumpStart、Amazon OpenSearch Serviceを使用して、このビジネスの問題を解決する方法を示します

「Amazon TextractとAmazon OpenSearchを使用してスマートなドキュメント検索インデックスを実装する」

この投稿では、ドキュメント検索インデックスソリューションを迅速に構築および展開する旅に連れて行きますこのソリューションは、組織がドキュメントから洞察をより効果的に抽出するのを支援します例えば、人事部門では従業員契約の特定の条項を探しているか、財務アナリストでは支払いデータを抽出するために膨大な数の請求書を選別している場合でも、このソリューションは、あなたが必要な情報に前例のない速度と正確さでアクセスできるようにするためにカスタマイズされています

テスト自動化のベストプラクティス

「現代の高速なIT業界では、高品質なソフトウェアの迅速な提供が不可欠ですテスト自動化はソフトウェア開発ライフサイクルの重要な要素となり、チームがより速いリリース、改善されたコード品質、強化されたテストカバレッジを実現するのに役立ちますしかし、成功する自動化には戦略的なアプローチとベストプラクティスへの遵守が必要ですこの記事では…テスト自動化のベストプラクティスについて詳しく説明します」

Tech

Learn more about Search Results リポジトリ - Page 41