Airbnbの研究者がChrononを開発:機械学習モデルの本番用機能を開発するためのフレームワーク

Airbnbの研究者がChrononを開発

機械学習の絶え間なく進化する風景において、特徴管理はAirbnbのMLエンジニアにとって重要な課題となっています。彼らはさまざまな製品のための革新的なモデルを作成することを目指していますが、モデルにすべての焦点を当てる代わりに、インフラの複雑さに時間を費やすことがしばしばあります。Airbnbは、特徴データの管理を効率化し、リアルタイムの更新を提供し、トレーニングと本番環境の整合性を確保する解決策の必要性を認識しました。

そこで登場するのがChrononです。Airbnbチームによって設計された強力なAPIで、これらの課題に対処することを目指しています。Chrononは、MLプラクティショナーが特徴を定義し、モデルのトレーニングと本番推論のためのデータ計算を一元化することを可能にし、プロセス全体での正確性と一貫性を保証します。

さまざまなソースからのデータの取り込み

Chrononは、イベントストリーム、データウェアハウスの事実/寸法テーブル、テーブルのスナップショット、変更データストリームなど、さまざまなソースからデータを取り込むことができます。リアルタイムのイベントデータや履歴のスナップショットなど、Chrononはすべてのデータをシームレスに処理します。

柔軟性を持ってデータを変換する

ChrononのSQLのような変換と時間ベースの集計により、MLプラクティショナーは簡単にデータを処理することができます。標準の集計や高度なウィンドウ処理技術など、ChrononのPython APIは、複雑な計算を実行する能力をユーザーに与えながら、完全な柔軟性と組み合わせ性を保証します。

オンラインおよびオフラインの結果生成

Chrononは、オンラインおよびオフラインのデータ生成の要件の両方に対応しています。Chrononは、特徴データを提供する低レイテンシのエンドポイントやトレーニングデータのためのHiveテーブルなど、さまざまなユースケースに適した「Accuracy」パラメータを提供します。これにより、リアルタイムの更新からデイリーのリフレッシュまで、幅広い用途に対応できます。

正確性とデータソースの理解

Chrononの正確性へのユニークなアプローチにより、派生データの望ましい更新頻度を表現することができます。ほぼリアルタイムまたはデイリーの間隔であるかどうかに関係なく、Chrononの「Temporal」または「Snapshot」の正確性モデルは、各ユースケースの特定の要件に合わせて計算が整合することを保証します。

データソースはChrononエコシステムの重要なコンポーネントです。Chrononは、次の3つの主要なデータ取り込みパターンをサポートしています:

  • タイムスタンプ付きアクティビティのためのイベントデータソース
  • ビジネスエンティティに関連する属性メタデータのためのエンティティデータソース
  • 遅変化次元での履歴的な変更を追跡するための累積イベントソース

計算コンテキストとタイプ

Chrononは、オンラインとオフラインの2つの異なるコンテキストで動作します。オンラインの計算は低レイテンシのアプリケーションに提供され、オフラインの計算はバッチジョブを使用してデータウェアハウスのデータセットで実行されます。すべてのChrononの定義は、集計のためのGroupBy、さまざまなGroupBy計算からのデータの組み合わせのためのJoin、およびカスタムのSpark SQL計算のためのStagingQueryの3つのカテゴリに分類されます。

強力な洞察を得るための集計の理解

ChrononのGroupBy集計は、従来のSQLのgroup-by機能にさまざまな拡張機能を提供します。ユーザーは、時間に基づいた集計のためのウィンドウ、追加の粒度のバケット、および配列内のネストデータを処理するための自動展開を活用することができます。さらに、時間ベースの集計は、MLモデルのための洞察に富んだ特徴を作成するためのさらなる柔軟性を提供します。

AirbnbのMLプラクティショナーにとってのシームレスな統合

Chrononは、AirbnbのMLプラクティショナーにとって画期的な変革をもたらしました。Chrononは、特徴エンジニアリングを簡素化することで、MLモデルのパワーを引き出すために数千もの特徴を生成することができるようにユーザーに提供します。この革命的なソリューションにより、MLエンジニアは手動のパイプラインの実装の負担から解放され、常に変化するユーザーの行動と製品の需要に対応する革新的なモデルの構築に集中することができます。

まとめると、ChrononはAirbnbの機械学習の武器庫に欠かせないツールとなりました。包括的な特徴管理ソリューションを提供することで、特徴エンジニアリングの生産性と拡張性を引き上げ、MLプラクティショナーによる最先端のモデルの提供と数百万人のユーザーのAirbnb体験の向上を実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

次元の呪いの真の範囲を可視化する

非常に多くの特徴を持つ観測の振る舞いを視覚化するために、モンテカルロ法を使用する

機械学習

「Googleは、Raspberry Pi向けにMediaPipeを導入し、デバイス内の機械学習のための使いやすいPython SDKを提供します」

組み込みシステムでの機械学習(ML)ツールへの需要が急速に増加するに伴い、研究者たちはRaspberry Piシングルボードコンピ...

AI研究

「GoogleとMITの研究者がStableRepを紹介:合成イメージによるAIトレーニングで機械学習を革新する」

研究者たちは、テキストから画像への変換モデルによって生成される合成画像の潜在能力を探ることで、視覚的な表現を学び、よ...

機械学習

「BeLFusionに出会ってください:潜在的拡散を用いた現実的かつ多様な確率的人間の動作予測のための行動的潜在空間アプローチ」

人工知能(AI)が世界を魅了し続ける中で、コンピュータビジョンとAIの交差点において、人間の動き予測(HMP)という注目すべ...

人工知能

「自分自身を未来に対応させるための最高のAIツール(2023年)」

12ft 12ftは、有料の購読が必要な記事やコンテンツにアクセスして読むことができるブラウザプラグインです。ユーザーが有料コ...

データサイエンス

データセットの凝縮の潜在能力を解き放つ:SRe^2LがImageNet-1Kで記録的な精度を達成

近年、データの圧縮と蒸留手法に注目が集まり、人工知能の研究に革新をもたらしています。これらの手法は、大規模なデータセ...