アマゾンセージメーカーとAWSバッチを使用して、ゲティールはモデルトレーニングの時間を90%短縮しました

アマゾンセージメーカーとAWSバッチを使って、ゲティールはモデルトレーニングの時間を90%短縮!

これはGetirのNafi Ahmet Turgut、Hasan Burak Yel、およびDamla Şentürkによる共同執筆のゲスト投稿です。

2015年に設立されたGetirは、超高速の食料品配達の先駆者として位置づけられています。この革新的なテック企業は、「数分でお買い物」の魅力的な提供を通じて、最後のマイル配送セグメントを革新しました。Getirは、トルコ、イギリス、オランダ、ドイツ、アメリカに展開し、多国籍の力を持つ企業に成長しました。今日、Getirブランドは、単一の傘下でシナジーを発揮する9つの異なる垂直部門を含む多様化した複合企業を代表しています。

この投稿では、アマゾンセージメーカーを使用し、モデルトレーニングの時間を90%短縮することで、商業チームを支援するエンドツーエンドの商品カテゴリ予測パイプラインを構築した方法について説明します。

今日の快速かつ競争の激しい市場で、既存の製品アソートを詳細に把握することは重要な課題です。その問題に対する効果的な解決策は、製品カテゴリの予測です。包括的なカテゴリツリーを生成するモデルは、商業チームが競合他社との既存の製品ポートフォリオを比較検証し、戦略的な利点を提供することができます。そのため、中心となる課題は、正確な商品カテゴリ予測モデルの作成と実装です。

私たちはAWSが提供する強力なツールを活用して、この課題に取り組み、機械学習(ML)と予測分析の複雑な分野を効果的に航海しました。私たちの努力により、SageMakerとAWS Batchの強みを組み合わせたエンドツーエンドの商品カテゴリ予測パイプラインの成功した作成が実現しました。

特に商品カテゴリの正確な予測能力を備えたこの予測分析の機能は、非常に貴重でした。それにより、私たちのチームには、在庫管理の最適化、顧客との相互作用の向上、市場での存在感の強化につながるデータ駆動型の洞察が提供されました。

この投稿で説明する方法論は、特徴セットの収集の初期段階から予測パイプラインの最終的な実装までの範囲をカバーしています。戦略の重要な側面として、7つの異なる言語の事前学習済みBERTモデルを洗練するためにSageMakerとAWS Batchを使用しました。さらに、AWSのオブジェクトストレージサービスであるAmazon Simple Storage Service(Amazon S3)とのシームレスな統合は、これらの洗練されたモデルの効率的な保存とアクセスに重要な役割を果たしました。

SageMakerは、完全管理型のMLサービスです。SageMakerを使用すると、データサイエンティストや開発者は迅速かつ容易にMLモデルを構築、トレーニングし、それを本番用のホスト環境に直接デプロイすることができます。

完全管理型サービスであるAWS Batchは、任意の規模のバッチ計算ワークロードを実行するのに役立ちます。AWS Batchは、ワークロードの量とスケールに基づいて、コンピューティングリソースを自動的にプロビジョニングし、ワークロードの配布を最適化します。AWS Batchでは、バッチ計算ソフトウェアをインストールまたは管理する必要がないため、結果の分析と問題の解決に時間を費やすことができます。私たちは、インスタンスのGPUを利用するジョブを使用しました。

ソリューションの概要

Getirのデータサイエンスチームとインフラストラクチャチームの5人がこのプロジェクトで協力しました。プロジェクトは1ヶ月で完了し、テストの後、本番環境に展開されました。

次のダイアグラムは、ソリューションのアーキテクチャを示しています。

モデルパイプラインは、各国ごとに別々に実行されます。アーキテクチャには、定義されたスケジュールで実行される各国に対して2つのAWS Batch GPU cronジョブが含まれています。

私たちは、SageMakerとAWS Batch GPUリソースを戦略的に展開することで、いくつかの課題を乗り越えました。それぞれの困難に対処するために使用したプロセスは、以下のセクションで詳細に説明されています。

AWS Batch GPUジョブを使用した多言語BERTモデルの微調整

多様なユーザーベースをサポートするための複数の言語のサポートを実現する解決策を探していました。BERTモデルは、複雑な自然言語タスクを効果的に処理する能力が確立されているため、明白な選択肢でした。これらのモデルを私たちのニーズに合わせるために、私たちはAWSのパワーを活用し、単一ノードのGPUインスタンスジョブを使用しました。これにより、サポートが必要な7つの言語それぞれについて、事前学習済みBERTモデルを微調整することができました。この方法により、商品カテゴリの予測において高い精度を確保し、言語の壁を克服しました。

Amazon S3を使用した効率的なモデルのストレージ

次に、モデルのストレージと管理に取り組む必要がありました。そのために、スケーラビリティとセキュリティの面で知られるAmazon S3を選択しました。Amazon S3に私たちの調整済みBERTモデルを保存することで、組織内のさまざまなチームが簡単にアクセスできるようにし、展開プロセスを大幅に効率化することができました。これは、運用の迅速化とMLの取り組みのシームレスな統合を実現するために重要な要素でした。

エンドツーエンドの予測パイプラインの作成

事前トレーニング済みモデルを最大限に活用するために、効率的なパイプラインが必要でした。まず、これらのモデルをSageMakerに展開しました。これにより、低レイテンシでリアルタイムの予測が可能となり、ユーザーエクスペリエンスを向上させることができました。また、運用にとって重要な大規模なバッチ予測には、AWS Batch GPUジョブを利用しました。これにより、リソースの最適な使用が確保され、パフォーマンスと効率の完全なバランスが提供されました。

SageMaker MMEを使用した将来の可能性の探索

MLパイプラインの効率性を向上させるために私たちが探求しているアベニューの一つは、Fine-tunedモデルを展開するためにSageMakerのマルチモデルエンドポイント(MME)を使用することです。MMEを使用することで、さまざまなFine-tunedモデルの展開を効率化し、シャドウバリアント、オートスケーリング、そしてAmazon CloudWatchの統合など、SageMakerのネイティブ機能の恩恵を受けることができます。この探索は、予測分析能力を向上させ、顧客に優れた体験を提供するという私たちの持続的な追求と一致しています。

結論

SageMakerとAWS Batchの成功した統合は、私たちの特定の課題を解決するだけでなく、運用効率を大幅に向上させました。洗練された製品カテゴリ予測パイプラインの実装により、商業チームにデータに基づいた洞察を提供することができ、より効果的な意思決定を促進しています。

私たちの結果は、私たちのアプローチの効果的な性質を物語っています。私たちは、カテゴリの四つのレベルすべてで80%の予測精度を達成しており、これは私たちが提供する各国の製品アソートメントの形成に重要な役割を果たしています。この精度のレベルは言語の壁を越えて私たちの範囲を広げ、最高の精度で多様なユーザーベースに対応することを保証しています。

さらに、スケジュールされたAWS Batch GPUジョブを戦略的に使用することで、モデルのトレーニング時間を90%短縮することができました。この効率性は、プロセスをさらに効率化し、運用の迅速性を高めました。Amazon S3を使用した効率的なモデルのストレージは、リアルタイムとバッチ予測の両方をバランス良く実現する上で重要な役割を果たしました。

SageMakerを使用して独自のMLパイプラインを構築する方法についての詳細は、Amazon SageMakerのリソースを参照してください。低コストでスケーラブルなバッチジョブの実行において、AWS Batchは低い運用オーバーヘッドで優れたオプションです。始めるには、AWS Batchの入門をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

適切なバランスを取る:機械学習モデルにおける過学習と過小適合の理解

機械学習の問題に取り組むすべての人は、自分のモデルができるだけ最適に動作することを望んでいますしかし、望むほどモデル...

AI研究

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つ...

AIニュース

スナップチャットの不具合がパニックを引き起こす:私のAIが謎のストーリーと画像を投稿します

人気のあるソーシャルメディアプラットフォームであるSnapchatは、最近、AIを搭載したチャットボット「My AI」に関する技術的...

データサイエンス

テキストから画像への革命:SegmindのSD-1Bモデルが最速のゲームで登場

紹介 Segmind AIは、画期的なオープンソースのテキストから画像への生成モデルであるSSD-1B(Segmind Stable Diffusion 1B)...

人工知能

生成型AIによる検索のスーパーチャージ

私たちは、ジェネレーティブAIを使用するSGE(Search Generative Experience)という名前の検索ラボの実験から始めます

機械学習

このAIニュースレターは、あなたが必要なもの全てです#58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシ...