Search Results リポジトリ

「シミュレーション仮説を証明することは可能ですか？」

2003年、哲学者ニック・ボストロムは、私たちが先進的であり得る後の人類の子孫によって運営されるコンピューターシミュレーションの中に生きていると仮定しました[1][2]今日では、多くの科学者や大思想家、...

CI/CDパイプライン：Azure上のデータ処理アプリケーションのためのパート1：コンテナインスタンス

「手動でAzureや他のクラウドプロバイダにリソースを作成および展開することは比較的簡単であり、場合によっては十分であるかもしれませんしかし、ほとんどの場合、展開されたリソースは変更が必要になるでしょう...」

「時系列分析を用いた回帰モデルの頑健性向上 – 第1部」

『シンガポールは、自宅から1.5時間の場所に位置し、いつも私を魅了しますより大きな隣国に囲まれている中で、この小さな国は困難を乗り越えてきました独立時の謙虚な始まりから、今では…』

このAIニュースレターは、あなたが必要とするすべてです＃71

今週、ジョー・バイデン大統領は人工知能の規制を再び注目させるために、人工知能の監督を目的とする行政命令に署名しましたこの指令は様々な政府機関に要請し、…

はじめに電気自動車の効率を予測し、ユーザーがそのシステムを簡単に使用できるシステムがあると思ったことはありますか？電気自動車の世界では、電気自動車の効率を非常に高い精度で予測することができます。このコンセプトは現実の世界にも導入され、私たちはZenmlとMLflowに非常に感謝しています。このプロジェクトでは、技術的な深いダイブを探求し、データサイエンス、機械学習、およびMLOpsの組み合わせがこのテクノロジーを美しく作り上げる方法を見ていきます。また、電気自動車にどのようにZenMLを使用するかも見ていきます。学習目標この記事では、以下のことを学びます。 Zenmlとは何か、エンドツーエンドの機械学習パイプラインでの使用方法を学ぶ。 MLFlowの役割を理解し、機械学習モデルの実験トラッカーを作成する。機械学習モデルの展開プロセスと予測サービスの設定方法を探索する。機械学習モデルの予測との対話に使用するユーザーフレンドリーなStreamlitアプリの作成方法を発見する。この記事はデータサイエンスブログマラソンの一環として公開されました。電気自動車の効率を理解する電気自動車（EV）の効率は、バッテリーからの電気エネルギーを走行距離にどれだけ効率よく変換できるかを示します。通常、kWh（キロワット時）あたりのマイルで測定されます。モーター効率、バッテリー効率、重量、空力、および補助負荷などの要素がEVの効率に影響を与えます。したがって、これらの領域を最適化すると、EVの効率を改善することができます。消費者にとっては、より効率の高いEVを選ぶことで、より良い運転体験が得られます。このプロジェクトでは、実際のEVデータを使用して電気自動車の効率を予測するエンドツーエンドの機械学習パイプラインを構築します。効率を正確に予測することで、EVメーカーは設計を最適化することができます。 ZenMLというMLOpsフレームワークを使用して、機械学習モデルのトレーニング、評価、展開のワークフローを自動化します。ZenMLは、MLライフサイクルの各ステージでのメタデータの追跡、アーティファクトの管理、モデルの再現性の機能を提供します。データ収集このプロジェクトでは、Kaggleからデータを収集します。かわいいは、データサイエンスや機械学習プロジェクトのための多くのデータセットを提供するオンラインプラットフォームです。必要な場所からデータを収集することができます。このデータセットを収集することで、モデルへの予測を行うことができます。以下は、すべてのファイルやテンプレートが含まれている私のGitHubリポジトリです： https://github.com/Dhrubaraj-Roy/Predicting-Electric-Vehicle-Efficiency.git 問題の設定効率的な電気自動車は未来ですが、その走行範囲を正確に予測することは非常に困難です。解決策私たちのプロジェクトは、データサイエンスとMLOpsを組み合わせて、電気自動車の効率予測のための正確なモデルを作成し、消費者とメーカーの両方に利益をもたらします。仮想環境の設定なぜ仮想環境を設定したいのでしょうか？プロジェクトを他のプロジェクトとの競合せずに目立たせるためです。…

「二つの頭を持つ分類器の使用例」

実際のコンピュータビジョンタスクの実例について話しましょう初めて見ると、分類問題は非常に単純ですが、それは一部当てはまると言えますしかし、現実世界ではしばしば何かしらの…

「Amazon SageMaker JumpStartを使用して、2行のコードでファウンデーションモデルを展開して微調整する」

「Amazon SageMaker JumpStart SDKのシンプル化されたバージョンの発表をお知らせすることを楽しみにしていますこのSDKを使用することで、基礎モデルの構築、トレーニング、デプロイが簡単に行えます予測のためのコードも簡略化されていますこの記事では、わずか数行のコードで基礎モデルの使用を開始するために、簡略化されたSageMaker JumpStart SDKの使用方法をご紹介します」

最新のデータを使ってファンデーションモデルを最新の状態に保つ方法は？ AppleとCMUの研究者が、VLMの継続的なトレーニングのための最初のウェブスケールの時系列連続性（TiC）ベンチマークを導入しましたこれには12.7Bのタイムスタンプ付きのイメージとテキストのペアが含まれています

CLIP、Flamingo、およびStable Diffusionなどの大規模なマルチモーダル基盤モデルの貢献により、画像生成とゼロショット汎化の以前に考えられなかった改善が実現し、マルチモーダル学習におけるパラダイムの変革が起こっています。これらのベースラインモデルは通常、大規模なウェブスケールの静的データセットを用いてトレーニングされます。OpenAIのCLIPモデルなどの従来のモデルが、2020年までのインターネットスケールのデータでトレーニングされた場合に、将来のデータでどのように機能するかは不明です。まず、AppleとCarnegie Mellon Universityの研究者たちは、OpenAIのCLIPモデルが、2022年までの最新のキュレーションされたウェブデータセットを使用して開発されたOpenCLIPリポジトリのモデルと比較して、ロバスト性の点でどのように優れているかを調査しています。CLIPモデルを測るための標準が存在しないため、2014年から2022年までの動的な分類および検索のタスクをカバーするデータセットを作成しました。OpenCLIPモデルはパフォーマンスを維持している一方、OpenAIモデルは2021年から2022年のデータと2014年から2016年のデータとの間で検索パフォーマンスに大きな差があることがわかりました。OpenAIのCLIPモデルはわずかによりロバストであるものの、これはImageNetの分布シフトにおける正確性などの典型的なテストに完全に反映されていません。彼らの研究は、静的ベンチマーク（ImageNetなど）を使用することには限界があり、モデルはデータの分布が変化するに伴って適応・進化する必要があることを明らかにしました。データの変化に対応するための単純で頻繁な手法の1つは、新しい画像テキストデータを得た場合に再びトレーニングを開始し、新しいCLIPモデルをトレーニングすることです。この方法の理論的な根拠は、既存のモデルから新しい入力にモデルの振る舞いを適応させることはより困難であるというものです。ただし、新たな基盤モデルを始めからトレーニングするのに必要な時間とエネルギーを何度も投資することは現実的ではありません。最近のCLIPモデルの持続的学習技術に焦点を当てた取り組みは、一つの後続タスクまたは少数のタスクで効率を向上させることを目的としています。最近の研究の一部はこれらの課題に取り組み始めていますが、現在のベンチマークは範囲が狭すぎるか、画像テキストデータが関連していないため、真に有用ではありません。 CLIPモデルの時系列トレーニングへの第一歩として、研究者たちは時間の経過によるデータ分布の自然な変化を観察しました。既存のCommonPoolデータセットに「クロールタイム」データを含めることにより、彼らはCLIPモデルの時系列連続トレーニングのための新たなベンチマークであるTIC-DataCompを確立しました。研究者たちはまた、RedditやFlickrなどから収集したインターネットの大規模データセットを再利用して、新たな目的に使用しました。特に、YFCCとRedcapsが提供する時系列情報を使用して、それぞれTIC-YFCCとTICRedCapsを編集しました。新しいデータセットが利用可能になるたびに、この研究は時間の制約内で機能する持続学習技術を構築することを目指しています。これらの戦略は、新しいデータが受け取られるたびにトレーニングパラメータをリセットし、累積計算予算を新しいモデルに費やすOracleとは逆の方向を示しています。研究者たちは、TIC-CLIPフレームワークでトレーニングされたモデルのゼロショット評価を行いました。評価には、ImageNetやImageNetの分布シフト、Flickrなどの28の確立された分類および検索タスクが使用されました。最後に、彼らは自身のベンチマークを使用して、リプレイバッファ、学習率スケジュール、ウォームスタート、パッチング、蒸留など、さまざまな持続学習アプローチを設計・テストしました。チームは、最新のチェックポイントでトレーニングを開始し、過去のすべてのデータをリプレイすることにより、累積技術がOracleと同等のパフォーマンスを2.7倍の計算効率で実現することを示す重要な教訓を得ました。彼らはまた、順次トレーニングのための学習率スケジュールや、静的および動的パフォーマンスのためのバッファサイズの間における興味深いトレードオフを示しました。彼らの結果は、11Mサンプルから3Bまでのデータセットにわたる傾向を強調し、テクニックによって一貫性を持たせました。既存のデータセットに追加で収集されたコードとタイミングデータは、近々公開され、広いコミュニティが提案されたベンチマークを使用できるようにする予定です。研究チームは、この未開拓のトピックに光を当てることで、基盤モデルの持続トレーニングへの道を切り開くことを望んでいます。

データウェアハウスとデータレイクとデータマート：どれを選ぶべきか、助けが必要ですか？

データ倉庫、データレイク、およびデータマートの比較的な概要を通じて、データアーキテクチャのためのデータストレージソリューションを選択するための情報を提供します

Data Engineering

機械学習のオープンデータセットを作成中ですか？ Hugging Face Hubで共有しましょう！

このブログ投稿は誰のためですか？データ集中型の研究を行っている研究者ですか？研究の一環として、おそらく機械学習モデルの訓練や評価のためにデータセットを作成しており、多くの研究者がGoogle Drive、OneDrive、または個人のサーバーを介してこれらのデータセットを共有している可能性があります。この投稿では、代わりにHugging Face Hubでこれらのデータセットを共有することを検討する理由を説明します。この記事では以下を概説します：なぜ研究者はデータを公開共有すべきか（すでに説得されている場合は、このセクションはスキップしてください）研究者がデータセットを共有したい場合のHugging Face Hubのオファー Hugging Face Hubでデータセットを共有するための始め方のリソースなぜデータを共有するのですか？機械学習は、さまざまな分野でますます利用され、多様な問題の解決における研究効率を高めています。特にタスクやドメインに特化した新しい機械学習手法を開発する際には、データがモデルの訓練や評価において重要です。大規模な言語モデルは、生物医学のエンティティ抽出のような特殊なタスクではうまく機能せず、コンピュータビジョンモデルはドメイン特化の画像の分類に苦労するかもしれません。ドメイン固有のデータセットは、既存のモデルの限界を克服するために、機械学習モデルの評価と訓練に重要です。ただし、これらのデータセットを作成することは困難であり、データの注釈付けには相当な時間、リソース、およびドメインの専門知識が必要です。このデータの最大の影響を最大化することは、関係する研究者と各自の分野の両方にとって重要です。 Hugging Face Hubは、この最大の影響を実現するのに役立ちます。 Hugging Face Hubとは何ですか？ Hugging Face…

Learn more about Search Results リポジトリ - Page 23