「Intuitivoは、AWS InferentiaとPyTorchを使用して、AI/MLのコストを節約しながら、より高いスループットを実現します」
「Intuitivoが、AWS InferentiaとPyTorchを組み合わせ、AI/MLの費用を節約し、より高いスループットを実現する方法」
これはJose Benitez、Intuitivoの創設者兼ディレクターであるとMattias Ponchon、インフラストラクチャ責任者が共同執筆したゲスト投稿です。
Intuitivoは小売りの革新におけるパイオニアであり、クラウドベースのAIと機械学習(AI / ML)の取引処理システムによってショッピングを革命化しています。この画期的な技術により、数百万の自律型の購買ポイント(A-POPs)を同時に運営することが可能となり、顧客のショッピングスタイルを変えることができます。従来の自動販売機や代替手段に比べて、当社のソリューションは10倍安価であり、簡単なセットアップとメンテナンスフリーな運用が可能です。当社の革新的な新しいA-POPs(または自動販売機)は、AWS Inferentiaのパフォーマンスとコストの優位性により、顧客エクスペリエンスを向上させながらコストを10倍低減しています。Inferentiaにより、以前のソリューションと比べてYou Only Look Once(YOLO)のコンピュータビジョンモデルを5倍高速化し、顧客にシームレスでリアルタイムなショッピング体験を提供しています。さらに、Inferentiaのおかげで、以前のソリューションと比較してコストを95%削減することもできました。この投稿では、Inferentiaを使用した利用事例、課題、およびソリューションの概要について説明します。
変化する小売景観とA-POPの必要性
小売業界は急速に変化しており、消費者はデジタルショッピングに慣れている簡単で摩擦のない体験を求めています。デジタルと物理世界のギャップを効果的に埋めるために、および顧客の変化するニーズと期待に応えるためには、革新的なアプローチが必要です。Intuitivoでは、高度に個別化された、AIパワーとコンピュータビジョンが駆使された自律型の購買ポイント(A-POP)を作り出すことで小売業の未来があると考えています。この技術革新により、顧客は手の届く範囲で製品にアクセスできるようになります。顧客のお気に入りのアイテムを手に入れるだけでなく、長い列や複雑なトランザクション処理システムのない円滑なショッピング体験も提供します。私たちはこのエキサイティングな小売業の新時代をリードすることに興奮しています。
当社の先端技術により、小売業者は迅速かつ効率的に数千のA-POPsを展開することができます。スケーリングは小売業者にとって常に困難な課題でしたが、従来の自動販売機や他のソリューションを拡張する際の物流およびメンテナンスの複雑さが主な原因です。しかし、当社のカメラベースのソリューションは、重量センサーやRFIDなどの高コストセンサーの必要性を排除し、メンテナンス不要でかなり安価です。これにより、小売業者は効率的に数千のA-POPsを確立することができ、顧客には比類のないショッピング体験を提供し、小売業者にはコスト効果の高いスケーラブルなソリューションを提供できます。
- 「サンゴ礁の衰退を転換する:CUREEロボットが深海にディープラーニングでダイブする」
- AI「ブレイクスルー」:ニューラルネットが人間と同様の言語の一般化能力を持つ
- 統合と自動化の簡素化:Boomi CTOが開発者と共有するビジョン
クラウド推論を使用したリアルタイム製品識別
カメラベースの製品認識および支払いシステムを設計する際に、エッジかクラウドのどちらで実行するかの判断に直面しました。いくつかのアーキテクチャを考慮した後、トランザクションのビデオをクラウドにアップロードして処理するシステムを設計しました。
エンドユーザーはA-POPのQRコードをスキャンしてトランザクションを開始し、A-POPがロックを解除し、その後、顧客は欲しい商品を手に取って店内を出ます。これらのトランザクションの事前処理済みのビデオはクラウドにアップロードされます。当社のAIパワーを活用したトランザクションパイプラインは、これらのビデオを自動的に処理し、顧客のアカウントに料金を請求します。
次の図は、当社のソリューションのアーキテクチャを示しています。
AWS Inferentiaを使用した高性能かつコスト効果の高い推論の解除
小売業者はオペレーションを拡大するにつれて、A-POPsのコストが懸念事項となります。同時に、エンドユーザー向けにシームレスなリアルタイムショッピング体験を提供することが重要です。当社のAI / ML研究チームは、システムに最適なコンピュータビジョン(CV)モデルを特定することに焦点を当てています。私たちはAI/MLモデルを、深層学習における推論ワークロードを高速化するために設計されたAmazonの最初のMLシリコンであるInferentiaが搭載されたAmazon EC2 Inf1インスタンスに展開しています。Inferentiaは、推論コストを大幅に削減することが示されています。私たちはInferentiaとともに使用するためのソフトウェアツールセットであるAWS Neuron SDKを使用して、EC2 Inf1インスタンスへのモデルのコンパイルと最適化を行いました。
次に示すコードスニペットは、Neuronを使用してYOLOモデルをコンパイルする方法を示しています。このコードはPyTorchとシームレスに連携し、torch.jit.trace()やneuron.trace()などの関数は、モデルの操作を順方向パス中の例の入力で記録し、静的なIRグラフを構築します。
from ultralytics import YOLOimport torch_neuronximport torchbatch_size = 1imgsz = (640, 640)im = torch.zeros(batch_size, 3, *imgsz).to('cpu') # モック入力# コンパイラのオプションhalf = True # fp16fp8 = Falsedynamic = False # 動的バッチf = 'yolov8n.neuronx' # 出力モデルの名前neuronx_cc_args = ['--auto-cast', 'none']if half: neuronx_cc_args = ['--auto-cast', 'all', '--auto-cast-type', 'fp16']elif fp8: neuronx_cc_args = ['--auto-cast', 'all', '--auto-cast-type', 'fp8_e4m3']model = torch.load('yolov8n.pt')['model']model.eval()model.float()model = model.fuse()neuronx_model = torch_neuronx.trace( model, example_inputs=im, compiler_args=neuronx_cc_args,)if dynamic: neuronx_model = torch_neuronx.dynamic_batch(neuronx_model)neuronx_model.save(f)
私たちは計算集約型のモデルをInf1に移行しました。AWS Inferentiaを使用することで、ビジネスニーズに合わせたスループットとパフォーマンスを実現しました。MLOpsライフサイクルでInferentiaベースのInf1インスタンスを採用することは、驚くべき結果を得るための鍵となりました:
- 性能向上:私たちの大規模なコンピュータビジョンモデルは、現在5倍速く動作し、秒間120フレーム以上の実行が可能です。これにより、顧客にとってリアルタイムでシームレスなショッピング体験が可能となります。さらに、このフレームレートで処理できることは、トランザクション速度を高めるだけでなく、モデル内での製品検出の精度を向上させるための情報をさらに入力できるようにします。このデータ入力の増加により、モデル内の製品検出の精度が大幅に向上し、ショッピングシステム全体の効果をさらに高めます。
- コスト削減:推論コストを大幅に削減しました。これにより、A-POPをサポートするアーキテクチャデザインが大幅に向上しました。
AWS Neuron SDKを使用したデータ並列推論は簡単でした
推論ワークロードのパフォーマンスを向上させ、Inferentiaから最大のパフォーマンスを引き出すために、InferentiaアクセラレータのすべてのNeuronCoreを使用したかったため、torch.neuron.DataParallel()
APIを使用しました。現在、私たちはinf1.2xlargeを使用しており、これには4つのNeuronアクセラレータを搭載した1つのInferentiaアクセラレータがあります。したがって、torch.neuron.DataParallel()
を使用して、Inferentiaハードウェアをフルに利用し、すべての利用可能なNeuronCoreを使用しています。このPython関数は、PyTorch Neuron APIで作成されたモデルのモジュールレベルでデータ並列処理を実装します。データ並列処理は、複数のデバイスまたはコア(InferentiaのNeuronCore)間の並列化の形式であり、ノードと呼ばれます。各ノードには同じモデルとパラメータが含まれていますが、データは異なるノードに分散されます。データを複数のノードに分散することで、データ並列処理はシーケンシャル処理に比べて大容量のバッチサイズ入力の総処理時間を短縮します。データ並列処理は、大容量のバッチサイズ要件を持つレイテンシに敏感なアプリケーションのモデルに最適です。
展望:基礎モデルとスケーラブルな展開による小売業の変革の加速
私たちが未来に進む中で、小売業への基礎モデルの影響は大きいと言えます。基礎モデルは製品のラベル付けにおいて大きな差を生み出すことができます。異なる製品を迅速かつ正確に識別し、分類する能力は、高速な小売環境では重要です。現代のトランスフォーマーベースのモデルを使用することで、より多様なモデルを展開し、高い精度でAI/MLのニーズを満たすことができます。これにより、ユーザーの体験が向上し、モデルの訓練に時間とコストをかける必要がなくなります。基礎モデルのパワーを活用することにより、ラベリングプロセスを加速させることができ、小売業のA-POPソリューションをより迅速かつ効率的にスケーリングすることができます。
私たちは「Segment Anything Model(SAM)」と呼ばれる、どんな画像でもオブジェクトをセグメント化することができるビジョントランスフォーマー基礎モデルの実装を開始しました(詳細は別のブログ記事で説明します)。SAMを使用することで、ラベリングプロセスを非常に高速化することができます。SAMは非常に効率的であり、同じ時間フレーム内で人間が手動でバウンディングボックスを作成することのできる画像の約62倍の数を処理することができます。SAMの出力は、トランザクションでセグメンテーションマスクを検出するためのモデルのトレーニングに使用され、数百万の画像を指数関数的に高速処理する機会を提供します。これにより、製品プラノグラムモデルのトレーニング時間とコストが大幅に削減されます。
私たちの製品とAI / ML研究チームは、この変革の最前線にいることを喜んでいます。 AWSとの継続的なパートナーシップおよび私たちのインフラストラクチャでのInferentiaの使用により、これらの基盤モデルをコスト効果的に展開できることが保証されます。早期採用者として、私たちは新しいAWS Inferentia 2ベースのインスタンスと協力しています。 Inf2インスタンスは、今日の生成AIおよび大型言語モデル(LLM)推論アクセラレーションに対応しており、高いパフォーマンスと低コストを提供します。 Inf2により、小売業者がAI駆動のテクノロジーの利点を手頃な価格で利用できるようになり、最終的には小売業界をより革新的で効率的、お客様志向のものにします。
InferentiaおよびInferentia2へのモデルの移行を続けることにより、トランスフォーマーに基づく基礎モデルを含む、AWSとの提携によって信頼できるクラウドプロバイダーと共に成長しイノベーションすることができると自信を持っています。共に、小売業の未来を再構築し、よりスマートで、より速く、消費者の絶えず変化するニーズに合わせたものにします。
結論
この技術的なトラバースでは、イノベーティブなAI / MLトランザクション処理システムとしてAWS Inferentiaを使用した変革の旅を強調しました。このパートナーシップにより、以前のソリューションと比較して処理速度が5倍増加し、推論コストは驚異的な95%削減されました。それはリアルタイムかつシームレスなショッピング体験を実現することによって小売業界の現在のアプローチを変えました。
Inferentiaが推論アプリケーションのパフォーマンスを最適化しつつコストを節約する方法について詳しく知りたい場合は、Amazon EC2 Inf1インスタンスおよびAmazon EC2 Inf2インスタンスの製品ページをご覧ください。 AWSでは、Neuron SDK向けのさまざまなサンプルコードや初めてのリソースを提供しており、それらはNeuronサンプルリポジトリで見つけることができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- PEFTの概要:最先端のパラメータ効率の良い微調整の概要
- 「OWLv2のご紹介:ゼロショット物体検出におけるGoogleのブレークスルー」
- 「BoomiのCEOが統合と自動化プラットフォームのビジョンを概説」
- 「Gradio-liteと出会う:Pyodideを使用してブラウザでインタラクティブな機械学習ベースのライブラリ(Gradio)を向上させるJavaScriptライブラリ」
- 「GANが人工的なセレブリティのアイデンティティを作り出す方法」
- 「カスタムファインチューニングされた大規模言語モデルの安全性への深い潜入」
- 「Hugging Face AutoTrainを使用して、LLM(Language Model)を微調整する方法」