Search Results ML

大規模なMLライフサイクルの統治、パート1：Amazon SageMakerを使用してMLワークロードを設計するためのフレームワーク

あらゆる規模や業界の顧客が、機械学習（ML）を自社の製品やサービスに取り入れることでAWS上で革新を遂げています生成モデルに関する最近の進展は、さらに様々な業界におけるMLの採用の必要性を高めていますただし、セキュリティ、データプライバシー、ガバナンスの制御の実装は、顧客がMLを実施する際に直面する主要な課題です

「枝は何も必要ありません：私たちの主観的なMLバージョニングフレームワーク」

「Gitブランチを使用したMLプロジェクトのバージョニングを簡素化し、ワークフローをシンプルにし、データとモデルを整理し、プロジェクトの関連する部分を結びつけるシンプルなアプローチ」

「AIの民主化：MosaicMLがオープンソースLLM運動に与える影響」

最近、私たちはオープンソースの大規模言語モデル（LLM）の作成に関する多くの最新の研究を概観しましたこのすべての研究の中で、共通のフレームワークを使用してモデルが作成されますが、そのうちのいくつかは…

「データサイエンスを利用した需要ベースのホテルルーム価格設定をMLOpsで実装する」

イントロダクション COVID-19の間、ホスピタリティ産業は売上の大幅な減少を経験しました。したがって、人々がより多く旅行する中でも、顧客の獲得は課題であり続けます。我々はこの問題に対処するためにMLツールを開発し、適切な価格設定を行い、宿泊率を向上させ、ホテルの収益を増やすためのフィッティングルームを提供します。ホテルのデータセットを使用して、正しい部屋の価格を選択し、宿泊率を増加させ、ホテルの収益を増やすAIツールを構築します。学習目標ホテルの部屋の適切な価格設定の重要性。データのクリーニング、データセットの変換、データの前処理。ホテルの予約データを使用したマップと視覚化プロットの作成。データサイエンスで使用されるホテルの予約データ分析の現実世界への応用。 Pythonプログラミング言語を使用したホテルの予約データ分析の実施。この記事はデータサイエンスブログマラソンの一部として公開されました。ホテルルーム価格データセットとは何ですか？ホテルの予約データセットには、ホテルタイプ、成人の人数、滞在時間、特別な要件など、異なる情報源からのデータが含まれています。これらの値は、ホテルの部屋の価格予測やホテルの収益の増加に役立ちます。ホテルルーム価格分析とは何ですか？ホテルの部屋の価格分析では、データセットのパターンやトレンドを分析します。この情報を使用して、価格設定や運営に関する意思決定を行います。これらの要素はいくつかの要因に依存します。季節性：繁忙期（祝日など）において、部屋の価格は著しく上昇します。需要：イベントの祝賀やスポーツイベントなど、需要が高まると部屋の価格も上昇します。競争：近くのホテルの価格がホテルの部屋の価格に大きく影響を与えます。エリア内のホテルの数が多いほど、部屋の価格は低くなります。設備：プール、スパ、ジムなどの設備があるホテルは、これらの施設に対してより高い料金を請求します。場所：中心地のホテルは、郊外のホテルと比べて高い料金を請求することがあります。適切なホテルの部屋の価格設定の重要性…

ML向けETLの構築に関するベストプラクティス

この記事では、トレーニングデータセットを構築するためのETLのいくつかのベストプラクティスについて取り上げていますMLに適用されるいくつかのソフトウェアエンジニアリングの技術とパターンについて深く探求しています

Data Engineering

pd.read_htmlの良い点と悪い点、そして醜い点

pd.read_html（）やその仲間のpd.to_html（）にまだファンでないなんて...もったいないですねそして、もしチャンスをくれれば、この記事の終わりまでにあなたを変えることでしょうこの記事では、まず最初に...

初心者のためのZenML完全ガイド：MLOpsの簡素化

データサイエンス、機械学習、またはMLOpsに初めて取り組み、ツールの選択肢に圧倒されていますか？ ZenMLを考慮してみてください-効率化されたプロダクションパイプラインのためのオーケストレーションツールです。この記事では、ZenMLの機能と特徴について調査し、MLOpsの旅を簡素化します。学習目標 ZenMLの概念とコマンド ZenMLを使用したパイプラインの作成メタデータのトラッキング、キャッシング、およびバージョニングパラメータと設定 ZenMLの高度な機能この記事はData Science Blogathonの一部として公開されました。まず、ZenMLが何であるか、他のツールとの違い、そしてそれをどのように利用するかを把握しましょう。 ZenMLとは何ですか？ ZenMLは、データサイエンティスト、MLエンジニア、およびMLOps開発者向けのオープンソースのMLOps（機械学習オペレーション）フレームワークです。本番用のMLパイプラインの開発におけるコラボレーションを容易にします。 ZenMLは、そのシンプルさ、柔軟性、およびツールに依存しない性質で知られています。 MLワークフローに特化したインターフェースと抽象化を提供し、ユーザーが好みのツールをシームレスに統合し、ユニークな要件に合わせてワークフローをカスタマイズできるようにします。なぜZenMLを使うべきですか？ ZenMLは、データサイエンティスト、MLエンジニア、およびMLOpsエンジニアにいくつかの重要な利点をもたらします：簡素化されたパイプラインの作成： @stepおよび@pipelineデコレータを使用して簡単にMLパイプラインを構築できます。容易なメタデータのトラッキングとバージョニング： ZenMLは、パイプライン、実行、コンポーネント、アーティファクトを追跡するユーザーフレンドリーなダッシュボードを提供します。自動化された展開： ZenMLは、パイプラインとして定義されている場合に自動的に展開することで、モデルの展開を効率化し、カスタムドッカーイメージの必要性を排除します。…

「MLOpsを活用した顧客離反予測プロジェクト」

イントロダクションデータサイエンスと聞くと、まず思い浮かぶのはノートブック上でモデルを構築しデータをトレーニングすることです。しかし、実際の世界のデータサイエンスでは、このような状況はありません。実際の世界では、データサイエンティストはモデルを構築し、それを本番環境に展開します。本番環境には、モデルの開発、展開、信頼性の間にギャップがあり、効率的でスケーラブルな運用を実現するために、データサイエンティストはMLOps（Machine Learning Operations）を使用します。MLOpsは本番環境でMLアプリケーションを構築し展開するための手法です。この記事では、MLOpsを使用して、顧客の離反予測プロジェクトを構築し展開します。学習目標この記事では、次のことを学びます：プロジェクトの概要 ZenMLとMLOpsの基礎を紹介します予測のためにモデルをローカルに展開する方法を学びますデータの前処理とエンジニアリング、モデルのトレーニングと評価に入ります。この記事はData Science Blogathonの一部として公開されました。プロジェクトの概要まず、プロジェクトの内容を理解する必要があります。このプロジェクトでは、通信会社からのデータセットを使用します。このデータセットを使用して、ユーザーが会社のサービスを継続するかどうかを予測するモデルを構築します。このMLアプリケーションを構築するために、ZenmMLとMLFlowの助けを借ります。プロジェクトのワークフローは以下の通りです。プロジェクトのワークフローデータ収集データの前処理モデルのトレーニングモデルの評価展開 MLOpsとは？ MLOpsは、開発から展開、継続的なメンテナンスまでのエンドツーエンドの機械学習ライフサイクルです。MLOpsは、機械学習モデルのライフサイクル全体を効率的かつスケーラブルに自動化することで、拡張性、信頼性、効率性を確保します。簡単な例を使って説明しましょう：…

スタンフォード大学の研究者たちは、MLAgentBenchを提案しました：AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた状態で、人間の研究者は未知の領域を探索し、その過程で画期的な発見をします。今では、同様の能力を持つAI研究エージェントを構築することが可能かどうかが研究されています。オープンエンドの意思決定と環境との自由な相互作用は、パフォーマンス評価に困難をもたらします。これらのプロセスは時間がかかる、リソースを消費する、量化が難しいといった特徴を持っています。自由な形式の意思決定能力を持つAI研究エージェントを評価するために、スタンフォード大学の研究者らはMLAgentBenchを提案しています。MLAgentBenchの核となるアイデアは、よく範囲のある実行可能な研究課題において、研究エージェントを自動的に評価するための一般的なフレームワークを提供することです。具体的には、各研究課題にはタスクの説明と必要なファイルのリストが与えられます。これらを持つ研究エージェントは、読み書きやコード実行などのタスクを人間の研究者と同様に実行することができます。エージェントの行動と作業スペースの仮間スナップショットは、評価のための相互作用トレースの一部として収集されます。研究チームは、研究エージェントの以下の3つの観点で評価しています。1) 目標達成能力（成功率や平均改善量など）、2) 推論と研究プロセス（結果の達成方法やミス）、3) 効率性（目標達成に必要な時間や努力など）。チームは、さまざまな分野をカバーする15のMLエンジニアリングプロジェクトのコレクションを用意し、実行が簡単でコストが低い実験を行いました。エージェントが有効な提出を行えるように、これらの活動のいくつかのための単純な初期プログラムを提供しています。例えば、CIFAR10データセットで畳み込みニューラルネットワーク（CNN）モデルのパフォーマンスを10％以上向上させるといったチャレンジがあります。研究エージェントの汎化能力をテストするために、CIFAR10などのよく知られたデータセットだけでなく、数か月前のKaggleチャレンジや新しい研究データセットも含まれています。彼らの長期目標は、現在のタスクコレクションにさまざまな分野の科学的な研究課題を含めることです。最近の大規模な言語モデル（LLM）に基づく生成エージェントの進化を考慮して、チームは簡単なLLMベースの研究エージェントを設計しました。このエージェントは研究計画を自動的に作成し、スクリプトを読み書きし、実験を行い、結果を解釈し、次の実験に進むことができます。テキスト以外の行動やリアクションからもわかるように、LLMは日常的な常識から特定の科学領域まで幅広い前提知識を持ち、優れた推論とツール使用能力を持っています。高いレベルでは、利用可能な情報や前のステップに基づいて自動的に生成されるプロンプトを使って次のアクションをLLMに尋ねるだけです。このプロンプトのデザインは、目標達成のための他のLLMベースの生成エージェントの作成方法（推論、反省、ステップバイステップの計画、研究ログの管理など）から大いに影響を受けています。チームはまた、AI研究エージェントの信頼性と正確性を高めるために、階層的な行動と事実チェックのステージを使用しています。MLAgentBenchでAI研究エージェントをテストした結果、GPT-4を基にして高い解釈可能性の動的な研究計画を作成し、多くのタスクで優れたMLモデルを構築できることがわかりましたが、いくつかの欠点もまだあります。例えば、ogbn-arxivデータセット上でのモデルの改良など、確立されたタスクでは基準予測に対して平均48.18％の改善を達成しています。ただし、チームはKaggleチャレンジやBabyLMに対して研究エージェントの成功率が0〜30％に過ぎないことに注目しています。その後、他の変更が加えられたエージェントとの比較で研究エージェントのパフォーマンスを評価しました。結果は、記憶ストリームを継続することが単純なタスクのパフォーマンスを阻害する可能性があることを示しています。これは、それが気を散らされる要因となり、複雑な変更を探求するエージェントを奨励しているためかもしれません。

「ML（Machine Learning）製品に自信を持つことを忘れないでください」

「ほとんど毎日、私たちは新しい機械学習の製品、サービス、またはデータセットの発売を発見しますAIの時代ですが、これらの製品のほとんどがユーザーに自信の程度をどれだけ知らせるかをあまり報告していません...」

Learn more about Search Results ML - Page 7