Search Results リポジトリ

気候変動の責任は誰にあるのか？ – グラフィカルなアプローチ

そこで、私は自分の仕事に集中して量子コンピューティングの基礎を独学していたとき、今年の8月にIBMのグローバル量子サマースクールに参加しましたこれは集中的なコースなので、人は...

私の個人的なコパイロット：自分自身のコーディングアシスタントをトレーニングする

プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。では、始めましょう 🚀 データ収集のワークフロー私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています：このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです： [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…

「ビッグデータプロジェクトに使用するデータ形式はどれを使うべきか？」

ピクルス、パルケ、CSV、フェザー、HDF5、ORC、JSON：どれを使うべきで、なぜですか？

会社の文書から洞察を抽出するために、ビジネスユーザーにAmazon SageMaker Canvas Generative AIを活用する力を与えましょう

企業は、機械学習（ML）の潜在能力を利用して複雑な問題を解決し、成果を向上させることを目指していますこれまでは、MLモデルの構築と展開には、MLモデルの調整や運用パイプラインの維持など、高度な技術とコーディングのスキルが必要でした2021年の導入以来、Amazon SageMaker Canvasは、ビジネスアナリストがビルド、展開を行うことができるようになりました

「Amazon Kendraを使用した知的にDrupalコンテンツを検索する」

「Amazon Kendra（アマゾンケンドラ）は、機械学習（ML）によって動作するインテリジェントな検索サービスですAmazon Kendraは、さまざまなコンテンツリポジトリから簡単にコンテンツを集約し、中央のインデックスに格納しますこれにより、企業のデータ全体を迅速に検索し、最も正確な回答を見つけることができますDrupalはコンテンツ管理ソフトウェアです多くの場所で利用されています...」

「Intuitivoは、AWS InferentiaとPyTorchを使用して、AI/MLのコストを節約しながら、より高いスループットを実現します」

「これは、インテュイティボの創設者兼ディレクターであるホセ・ベニテスと、インフラストラクチャの責任者であるマティアス・ポンションによるゲスト投稿ですインテュイティボは、小売業の革新を牽引するクラウドベースのAIと機械学習（AI/ML）トランザクション処理システムでショッピングを革命化していますこの画期的な技術により、数百万の自律型購買ポイント（A-POPs）を運営することが可能になります...」