「キャリアは、AWS GlueとAmazon SageMakerを使用してHVACの故障を予測する方法」

「HVACの故障予測方法:AWS GlueとAmazon SageMakerの活用」

彼ら自身の言葉で言えば、「1902年、ウィリス・キャリアは現代のエアコンによる室内環境の制御という、人類が長年追い求めていた難題を解決しました。今日、キャリアの製品は快適な環境を作り出し、世界の食糧供給を守り、厳しい条件下で重要な医療品の安全な輸送を可能にしています。」

キャリアでは、私たちの成功の基盤は、お客様が一年中快適で安全な状態で過ごせる製品を作ることです。極端な気温が気候変動の影響でより一般的になるにつれ、高い信頼性と低い機器のダウンタイムはますます重要になっています。私たちはこれまで、エンジニアリングチームが定義したパラメータによって異常な機器の挙動を警告する閾値ベースのシステムを使用してきました。このようなシステムは効果的ですが、機器の問題を特定し診断することを目的としており、予知することは意図されていませんでした。故障が発生する前に予測することで、私たちの暖冷房機販売業者は問題に積極的に対処し、顧客体験を向上させることができます。

機器の信頼性を向上させるために、私たちはAmazon Machine Learning Solutions Labとパートナーシップを組み、故障が発生する前に機器の問題を予測することができるカスタムの機械学習(ML)モデルを開発しました。私たちのチームは、50 TB以上の歴史的なセンサーデータを処理し、91%の精度で故障を予測するためのフレームワークを開発しました。これにより、機器の故障が迫っていることを販売業者に通知することができ、点検をスケジュールし、ユニットのダウンタイムを最小限に抑えることができます。ソリューションフレームワークは、より多くの機器がインストールされるにつれて拡張性があり、さまざまな下流のモデリングタスクに再利用することができます。

この投稿では、CarrierとAWSのチームが単一のモデルを使用して大規模な機器群全体での故障予測にMLを適用した方法を紹介します。まず、AWS Glueを使用して高並列データ処理を行う方法を強調します。次に、Amazon SageMakerが私たちをサポートして特徴エンジニアリングとスケーラブルな教師ありディープラーニングモデルの構築を行う方法について説明します。

ユースケース、目標、リスクの概要

このプロジェクトの主な目標は、故障が迫っている機器の故障を予測し、販売業者に通知することによってダウンタイムを減らすことです。これにより、販売業者は予防保守をスケジュールし、優れた顧客サービスを提供することができます。このソリューションに取り組む際には、以下の3つの主要な課題に直面しました:

  • データのスケーラビリティ – 大量の歴史的なセンサーデータに対してデータ処理と特徴抽出をスケーリングする必要があります
  • モデルのスケーラビリティ – モデリングアプローチは1万台以上のユニットにスケーリングできる必要があります
  • モデルの精度 – 不必要なメンテナンス点検を避けるために低い誤検知率が必要です

スケーラビリティは、データとモデリングの両方の観点から、このソリューションにおいて重要な要件です。私たちが持つ歴史的な機器データは50 TB以上あり、これがクラウドに接続されたHVACユニットが増えるにつれて急速に増加することを予想しています。データの処理とモデルの推論は、データの成長に応じてスケーリングする必要があります。1万台以上のユニットにわたってスケーリングするため、単一のモデルに依存するのではなく、機器のフリートから学習するモデルが必要です。これにより、ユニット間での一般化が可能となり、単一モデルのホスティングによる推論コストを削減することができます。

このユースケースのもう一つの懸念事項は、誤報を発生させないことです。つまり、ディーラーや技術者が現地に行って顧客の機器を点検し、すべてが正常に動作していることがわかるということです。このソリューションでは、ディーラーがアラートを受け取ったとき、機器が故障する可能性が高いことを保証するために、高精度なモデルが必要です。これにより、ディーラーや技術者、そして住宅所有者の信頼を得ることができ、不要な現地点検に関連するコストを削減することができます。

私たちはAmazon ML Solutions LabのAI / MLの専門家と14週間の開発作業を行いました。最終的に、私たちのソリューションには2つの主要なコンポーネントが含まれています。1つ目は、AWS Glueで構築されたデータ処理モジュールであり、機器の挙動を要約し、トレーニングデータのサイズを効率的なダウンストリーム処理のために削減します。2つ目は、SageMakerを介して管理されるモデルトレーニングインターフェースであり、本番エンドポイントに展開される前にモデルをトレーニング、チューニング、評価することができます。

データ処理

私たちがインストールする各HVACユニットは、システム全体のRPM、温度、圧力など、90種類の異なるセンサーからデータを生成します。これにより、1日あたりユニットごとに約800万のデータポイントが生成されます。HVACシステムがクラウドに接続されるにつれて、データの量は急速に増加すると予想されるため、ダウンストリームのタスクで使用するためにデータのサイズと複雑さを管理することが非常に重要です。センサーデータの履歴の長さもモデリングの課題となります。ユニットは故障がトリガーされるまで数ヶ月前から故障の兆候を示し始める場合があります。これにより、予測信号と実際の故障の間に大きな遅延が生じます。MLモデリングにおいて、入力データの長さを圧縮する方法が重要となります。

センサーデータのサイズと複雑さに対処するために、図1に示すように、サイクルの特徴にデータを圧縮します。これにより、装置の挙動を特徴づける特徴をキャプチャしながら、データのサイズを劇的に削減します。

図1:HVACセンサーデータのサンプル

AWS Glueは、大量のデータをスケールで処理するためのサーバーレスデータ統合サービスです。 AWS Glueを使用すると、並列データ前処理と特徴抽出を簡単に実行できます。 AWS Glueを使用して、エンジニアリングチームによって特定されたキーの特徴を使用してサイクルを検出し、ユニットの動作をまとめました。これにより、データセットのサイズが1日あたりのユニットあたりの800万以上のデータポイントから約1,200に大幅に減少しました。重要なことは、このアプローチにより、ユニットの動作に関する予測情報が、はるかに小さなデータフットプリントで保持されることです。

AWS Glueジョブの出力は、各サイクルのユニットの動作の概要です。次に、Amazon SageMaker Processingジョブを使用して、サイクル全体での特徴量を計算し、データにラベルを付けます。私たちは、次の60日間の機器の故障を予測することを目標とした2値分類タスクとしてMLの問題を定式化しています。これにより、ディーラーネットワークが潜在的な機器の故障にタイムリーに対応できるようになります。重要な点として、すべてのユニットが60日以内に故障するわけではないことに注意してください。性能の低下がゆっくりしたユニットは、故障までにより多くの時間を要する場合があります。この点は、モデル評価のステップで対処します。私たちは、モデリングを夏季に焦点を当てました。これは、米国のほとんどのHVACシステムが一貫して動作し、より過酷な条件下にある月です。

モデリング

トランスフォーマーアーキテクチャは、時系列データの処理における最先端のアプローチとなっています。それらは、消失勾配の問題を抱えることなく、各時刻で長い履歴データのシーケンスを使用することができます。私たちのモデルの入力は、1つの時間点での前の128の機器サイクルの特徴から構成されており、これはおおよそ1週間のユニット操作に相当します。これは、3層のエンコーダーで処理され、その出力は平均化されてマルチレイヤーパーセプトロン(MLP)分類器に供給されます。MLP分類器は、ReLU活性化関数を持つ3つの線形層と、LogSoftMax活性化関数を持つ最終層で構成されています。私たちは、重み付けされた負の対数尤度損失関数を使用して、損失関数に対して陽性クラスに異なる重みを与えます。これにより、モデルは高い精度にバイアスがかかり、高コストな誤報を回避します。また、ビジネス目標をモデルトレーニングプロセスに直接組み込みます。図2は、トランスフォーマーアーキテクチャを示しています。

図2:時系列トランスフォーマーアーキテクチャ

トレーニング

この時系列学習モデルをトレーニングする際の課題の1つは、データの不均衡です。一部のユニットは他のユニットよりも長い運用履歴を持っており、したがってデータセットにはより多くのサイクルがあります。これらのユニットはデータセットで過剰に表現されるため、モデルにより大きな影響を与えます。これを解決するために、各ユニットの履歴で故障の確率を評価するために、100サイクルをランダムにサンプリングします。これにより、各ユニットがトレーニングプロセス中に均等に表現されることが保証されます。不均衡データの問題を解消するだけでなく、このアプローチには、本番で使用されるバッチ処理アプローチを再現するという利点があります。このサンプリングアプローチは、トレーニング、検証、およびテストセットに適用されました。

トレーニングは、SageMaker上のGPUアクセラレートインスタンスを使用して行われました。損失を監視すると、図3に示すように、最も良い結果を得るために180のトレーニングエポック後になります。図4に示すように、結果の時系列分類モデルのROC曲線下面積は81%です。

図3:エポックごとのトレーニング損失

図4:60日間のロックアウトのROC-AUC

評価

モデルはサイクルレベルで訓練されていますが、評価はユニットレベルで行う必要があります。このように、複数の真陽性検出を持つ1つのユニットは、ユニットレベルでは1つの真陽性としてのみカウントされます。このため、予測された結果と故障前の60日間のウィンドウの重なりを分析します。以下の図に示されているように、4つの予測結果のケースがあります:

  • 真陰性 – すべての予測結果が陰性(紫)です(図5)
  • 偽陽性 – 陽性の予測は誤報です(図6)
  • 偽陰性 – 予測はすべて陰性ですが、実際のラベルは陽性かもしれません(緑)(図7)
  • 真陽性 – 予測の一部は陰性(緑)であり、少なくとも1つの予測は陽性(黄色)です(図8)

図5.1:真陰性の場合

図5.2:偽陽性の場合

図5.3:偽陰性の場合

図5.4:真陽性の場合

訓練後、評価セットを使用してアラートの閾値を調整します。モデルの信頼度の閾値を0.99に設定すると、おおよそ81%の適合率が得られます。これは、初期の成功基準である90%には達していません。ただし、60日間の評価ウィンドウの外で故障が発生するユニットの大部分が失敗していることがわかりました。これは理にかなっています。なぜなら、ユニットは故障を起こす活動的な異常を示すかもしれませんが、故障するまで60日よりも長い時間がかかる場合があるからです。これを処理するために、効果的な適合率という指標を定義しました。これは、真陽性の適合率(81%)に加えて、目標の60日間のウィンドウを超えた30日間に発生したロックアウトの追加の適合率の組み合わせです。

HVACディーラーにとって重要なのは、現地検査が顧客の将来のHVACの問題を防止することです。このモデルを使用すると、検査が次の60日間にロックアウトを防止する確率は81.2%と推定されます。さらに、ロックアウトが検査後の90日以内に発生する場合は10.4%です。残りの8.4%は誤報です。訓練されたモデルの効果的な適合率は91.6%です。

結論

この投稿では、私たちのチームがAWS GlueとSageMakerを使用して、予測保守のためのスケーラブルな教師あり学習ソリューションを作成した方法を紹介しました。私たちのモデルは、長期間のセンサーデータの傾向を捉え、数週間前に数百の機器故障を正確に検出することができます。故障を事前に予測することで、私たちのディーラーはよりタイムリーな技術支援を提供し、全体的な顧客体験を向上させることができます。このアプローチの影響は、毎年より多くのクラウド接続HVACユニットが設置されるにつれて、徐々に広がっていきます。

次のステップは、これらの洞察をCarrierのConnected Dealer Portalの次回リリースに統合することです。このポータルは、これらの予測アラートをAWSベースのデータレイクからの他の洞察と組み合わせることで、ディーラーがクライアント全体の機器の健康状態についてより明確な情報を得ることを目的としています。私たちは、さらに多くのデータソースからのデータを統合し、センサーデータからより高度な特徴を抽出することで、モデルを改善し続けます。このプロジェクトで使用された方法は、保証請求を削減し、現場での機器の効率を向上させるための他の重要な質問に答え始めるための強力な基盤を提供しています。

製品やサービスでの機械学習の利用を加速させるためのお手伝いが必要な場合は、Amazon ML Solutions Labにお問い合わせください。このプロジェクトで使用されたサービスについては、AWS Glue Developer GuideとAmazon SageMaker Developer Guideを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

スタンフォード大学の研究者たちは、MLAgentBenchを提案しました:AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた...

機械学習

「Amazon SageMakerでのMLOpsによる堅牢な時系列予測」

データ駆動の意思決定の世界では、時系列予測は企業が過去のデータのパターンを利用して将来の結果を予測するための重要な要...

機械学習

「鳩の中に猫を投げ込む?大規模言語モデルによる人間の計算の補完」

「語源学には常に魅了されてきました多くの場合、言葉やフレーズが私たちが非常に馴染んでいる意味を獲得する過程には、興味...

AI研究

「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」

ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声...

データサイエンス

ステアラブルニューラルネットワーク(パート1)への優しい紹介

「幾何学的深層学習は、Deep Learningの一分野として、グラフとして表現された3Dまたは2Dジオメトリオブジェクトを処理するた...

機械学習

ジェネラティブ人工知能を解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシ...