Learn more about Search Results リポジトリ - Page 24
- You may be interested
- 1Bのトレーニングペアで文埋め込みモデル...
- 『AnomalyGPTとは:産業異常を検出するた...
- 「Amazon SageMaker JumpStartを使用して...
- 「Gen-AI:楽しさ、恐怖、そして未来!」
- カフカイベントストリーミングAIと自動化
- AIが迷走するとき:現実世界での注目すべ...
- AIの汎化ギャップに対処:ロンドン大学の...
- 「普及型生成AIの環境への影響」
- 「ChatGPTの高度な設定ガイド – Top...
- もし、口頭および書面によるコミュニケー...
- 「AIプロジェクトが、アルゼンチンの軍事...
- 画像分類において、拡散モデルがGANより優...
- 共和分対スパリアス相関:正確な分析のた...
- 「作者の正体を暴く:AIか人間か?IBMの革...
- データの変形:データザウルス・ダズンを...
気候変動の責任は誰にあるのか? – グラフィカルなアプローチ
そこで、私は自分の仕事に集中して量子コンピューティングの基礎を独学していたとき、今年の8月にIBMのグローバル量子サマースクールに参加しましたこれは集中的なコースなので、人は...
私の個人的なコパイロット:自分自身のコーディングアシスタントをトレーニングする
プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。 しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。 このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。 では、始めましょう 🚀 データ収集のワークフロー 私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。 そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。 リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。 また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。 このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。 最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています: このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです: [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…
「ビッグデータプロジェクトに使用するデータ形式はどれを使うべきか?」
ピクルス、パルケ、CSV、フェザー、HDF5、ORC、JSON:どれを使うべきで、なぜですか?
会社の文書から洞察を抽出するために、ビジネスユーザーにAmazon SageMaker Canvas Generative AIを活用する力を与えましょう
企業は、機械学習(ML)の潜在能力を利用して複雑な問題を解決し、成果を向上させることを目指していますこれまでは、MLモデルの構築と展開には、MLモデルの調整や運用パイプラインの維持など、高度な技術とコーディングのスキルが必要でした2021年の導入以来、Amazon SageMaker Canvasは、ビジネスアナリストがビルド、展開を行うことができるようになりました
「Amazon Kendraを使用した知的にDrupalコンテンツを検索する」
「Amazon Kendra(アマゾン ケンドラ)は、機械学習(ML)によって動作するインテリジェントな検索サービスですAmazon Kendraは、さまざまなコンテンツリポジトリから簡単にコンテンツを集約し、中央のインデックスに格納しますこれにより、企業のデータ全体を迅速に検索し、最も正確な回答を見つけることができますDrupalはコンテンツ管理ソフトウェアです多くの場所で利用されています...」
「Intuitivoは、AWS InferentiaとPyTorchを使用して、AI/MLのコストを節約しながら、より高いスループットを実現します」
「これは、インテュイティボの創設者兼ディレクターであるホセ・ベニテスと、インフラストラクチャの責任者であるマティアス・ポンションによるゲスト投稿ですインテュイティボは、小売業の革新を牽引するクラウドベースのAIと機械学習(AI/ML)トランザクション処理システムでショッピングを革命化していますこの画期的な技術により、数百万の自律型購買ポイント(A-POPs)を運営することが可能になります...」
「Pythonを使用した最も近いバーを見つけるための近接解析」
「今日は、オープンソースのPythonライブラリを使用した空間データ処理について話し続けたいと思いますすでにOpen Street MapとLandsatのオープンデータを組み合わせる方法について話しましたが、」
「Hugging Face AutoTrainを使用して、LLM(Language Model)を微調整する方法」
このツールを使えば、簡単に私たちのLLM能力を向上させることができます
アマゾンセイジメーカーの地理情報能力を使用したメタン排出ポイント源の検出と高周波監視
メタン(CH4)は、石油やガス抽出、石炭採掘、大規模な畜産、廃棄物処理など、他のさまざまな源から発生する、主要な人為的温室効果ガスですCH4の地球温暖化潜在能はCO2の86倍であり、気候変動に関する政府間パネル(IPCC)は、メタンが観測されている温室効果の30%を担っていると推定しています
「Amazon Bedrockを使用した生成型AIアプリ:Go開発者のための入門ガイド」
「AWS Go SDKとAmazon Bedrock Foundation Models(FMs)を使用して、コンテンツ生成、チャットアプリケーションの構築、ストリーミングデータの処理などのタスクを実行します」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.