Airbnbの研究者がChrononを開発:機械学習モデルの本番用機能を開発するためのフレームワーク

Airbnbの研究者がChrononを開発

機械学習の絶え間なく進化する風景において、特徴管理はAirbnbのMLエンジニアにとって重要な課題となっています。彼らはさまざまな製品のための革新的なモデルを作成することを目指していますが、モデルにすべての焦点を当てる代わりに、インフラの複雑さに時間を費やすことがしばしばあります。Airbnbは、特徴データの管理を効率化し、リアルタイムの更新を提供し、トレーニングと本番環境の整合性を確保する解決策の必要性を認識しました。

そこで登場するのがChrononです。Airbnbチームによって設計された強力なAPIで、これらの課題に対処することを目指しています。Chrononは、MLプラクティショナーが特徴を定義し、モデルのトレーニングと本番推論のためのデータ計算を一元化することを可能にし、プロセス全体での正確性と一貫性を保証します。

さまざまなソースからのデータの取り込み

Chrononは、イベントストリーム、データウェアハウスの事実/寸法テーブル、テーブルのスナップショット、変更データストリームなど、さまざまなソースからデータを取り込むことができます。リアルタイムのイベントデータや履歴のスナップショットなど、Chrononはすべてのデータをシームレスに処理します。

柔軟性を持ってデータを変換する

ChrononのSQLのような変換と時間ベースの集計により、MLプラクティショナーは簡単にデータを処理することができます。標準の集計や高度なウィンドウ処理技術など、ChrononのPython APIは、複雑な計算を実行する能力をユーザーに与えながら、完全な柔軟性と組み合わせ性を保証します。

オンラインおよびオフラインの結果生成

Chrononは、オンラインおよびオフラインのデータ生成の要件の両方に対応しています。Chrononは、特徴データを提供する低レイテンシのエンドポイントやトレーニングデータのためのHiveテーブルなど、さまざまなユースケースに適した「Accuracy」パラメータを提供します。これにより、リアルタイムの更新からデイリーのリフレッシュまで、幅広い用途に対応できます。

正確性とデータソースの理解

Chrononの正確性へのユニークなアプローチにより、派生データの望ましい更新頻度を表現することができます。ほぼリアルタイムまたはデイリーの間隔であるかどうかに関係なく、Chrononの「Temporal」または「Snapshot」の正確性モデルは、各ユースケースの特定の要件に合わせて計算が整合することを保証します。

データソースはChrononエコシステムの重要なコンポーネントです。Chrononは、次の3つの主要なデータ取り込みパターンをサポートしています:

  • タイムスタンプ付きアクティビティのためのイベントデータソース
  • ビジネスエンティティに関連する属性メタデータのためのエンティティデータソース
  • 遅変化次元での履歴的な変更を追跡するための累積イベントソース

計算コンテキストとタイプ

Chrononは、オンラインとオフラインの2つの異なるコンテキストで動作します。オンラインの計算は低レイテンシのアプリケーションに提供され、オフラインの計算はバッチジョブを使用してデータウェアハウスのデータセットで実行されます。すべてのChrononの定義は、集計のためのGroupBy、さまざまなGroupBy計算からのデータの組み合わせのためのJoin、およびカスタムのSpark SQL計算のためのStagingQueryの3つのカテゴリに分類されます。

強力な洞察を得るための集計の理解

ChrononのGroupBy集計は、従来のSQLのgroup-by機能にさまざまな拡張機能を提供します。ユーザーは、時間に基づいた集計のためのウィンドウ、追加の粒度のバケット、および配列内のネストデータを処理するための自動展開を活用することができます。さらに、時間ベースの集計は、MLモデルのための洞察に富んだ特徴を作成するためのさらなる柔軟性を提供します。

AirbnbのMLプラクティショナーにとってのシームレスな統合

Chrononは、AirbnbのMLプラクティショナーにとって画期的な変革をもたらしました。Chrononは、特徴エンジニアリングを簡素化することで、MLモデルのパワーを引き出すために数千もの特徴を生成することができるようにユーザーに提供します。この革命的なソリューションにより、MLエンジニアは手動のパイプラインの実装の負担から解放され、常に変化するユーザーの行動と製品の需要に対応する革新的なモデルの構築に集中することができます。

まとめると、ChrononはAirbnbの機械学習の武器庫に欠かせないツールとなりました。包括的な特徴管理ソリューションを提供することで、特徴エンジニアリングの生産性と拡張性を引き上げ、MLプラクティショナーによる最先端のモデルの提供と数百万人のユーザーのAirbnb体験の向上を実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

オーディオSRにお会いください:信じられないほどの48kHzの音質にオーディオをアップサンプリングするためのプラグ&プレイであり、ワンフォーオールのAIソリューション

デジタルオーディオ処理の分野における重要な課題の一つは、オーディオの超解像度です。これは、低解像度のオーディオデータ...

機械学習

フリーユーについて紹介します:追加のトレーニングや微調整なしで生成品質を向上させる新しいAIテクニック

確率的拡散モデルは、画像生成モデルの最新のカテゴリであり、特にコンピュータビジョンに関連するタスクにおいて研究の重要...

AIニュース

『Q-Starを超えて OpenAIのPPOによるAGIのブレイクスルーが可能』

人工汎用知能(AGI)はAIの領域を魅了し、人間の能力を超えるシステムを象徴しています。OpenAIは重要なAGIの研究者であり、...

データサイエンス

偽預言者:回帰モデルとMeta's Prophetの比較

「クロスバリデーションを使用して、カスタムの時系列回帰モデルとメタの予測ツールトラフォードの比較を行うためのビジュア...

AIニュース

「Amazon SageMakerの非同期エンドポイントを使用して、Amazon SageMaker JumpStartの基礎モデルのデプロイコストを最適化する」

この投稿では、これらの状況を対象にし、Amazon SageMaker JumpStartからAmazon SageMaker非同期エンドポイントに大規模な基...

機械学習

もう1つの大規模言語モデル!IGELに会いましょう:指示に調整されたドイツ語LLMファミリー

IGELはテキストのための指示に調整されたドイツの大規模言語モデルです。 IGELバージョン001(Instruct-igel-001)は、既存の...