『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました

『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』に関する富士通の新AIリサーチ発表

人間の行動認識の最近の進展は、人間とロボットの相互作用(HRI)において驚くべきブレークスルーを実現しました。この技術により、ロボットは人間の行動を理解し、それに応じて反応することができるようになりました。行動セグメンテーションは、人間の行動のラベルと時間的な境界を決定するプロセスであり、行動認識の重要な部分です。ロボットは人間の行動を動的に特定し、人々とうまく働くためにこのスキルを持っている必要があります。

従来の行動セグメンテーションモデルのトレーニング方法では、大量のラベルが必要です。徹底した監視のために、フレームごとのラベル、すなわち、アクションの各フレームに適用されるラベルが理想的ですが、これらのラベルは2つの重要な困難を提供します。まず、各フレームにアクションラベルを注釈付けすることは、高価で時間がかかることがあります。第二に、複数の注釈付け者からの一貫性のないラベリングやアクションの時限の明確さにより、データにバイアスが生じる可能性があります。

これらの課題に対処するために、最近の研究で、研究者チームは学習フェーズ中に新しいユニークな学習技術を提案しました。彼らの方法は、連続するタイムスタンプの間にある未ラベルフレームのアクションユニオンの尤度を最大化します。与えられたフレームが周囲のタイムスタンプのラベルによって示されるアクションの組み合わせを持つ確率をアクションユニオンと呼びます。このアプローチにより、アクションユニオン確率を考慮して未ラベルフレームの信頼性の高い学習ターゲットを提供することで、トレーニングプロセスの品質が向上します。

チームは推論ステップ中に新しい改良方法を開発し、モデルのソフト割り当て予測からより正確なハード割り当てアクションラベルを提供します。フレームに割り当てられるアクションクラスは、この改良プロセスにより、より正確かつ信頼性の高いものになります。これには、フレームごとの予測だけでなく、異なるビデオセグメントの時間にわたるアクションラベルの一貫性と滑らかさも考慮されます。これにより、モデルの正確なアクション分類能力が向上します。

この研究で開発された技術はモデルに依存しないものであり、様々な現行の行動セグメンテーションフレームワークで利用することができます。これらの方法の柔軟性により、大幅な変更を加える必要なく、さまざまなロボット学習システムに組み込むことが可能です。これらの手法の有効性は、3つの一般的な行動セグメンテーションデータセットを使用して評価されました。結果は、この方法が以前のタイムスタンプ監視技術を上回る最新のパフォーマンスレベルを達成し、完全に監視されたラベルの1%未満で同様の結果を生み出すとした。これにより、パフォーマンスの観点で完全に監視された手法と同等またはそれ以上の効果を持つ、非常に経済的な解決策となる可能性を示しています。これは、彼らが提案する方法が効果的に行動セグメンテーションの分野と人間とロボットの相互作用への応用を進めることができることを示しています。

以下に、この研究の主な貢献をまとめました。

  1. アクションユニオンの最適化を行動セグメンテーションのトレーニングに導入し、モデルのパフォーマンスを向上させました。この革新的な手法では、タイムスタンプ間の未ラベルフレームのアクションの組み合わせの確率を考慮しています。
  1. アクションセグメンテーションモデルの出力を改善するために、新しいかなり有益なポストプロセッシング技術を導入しました。この改良プロセスにより、アクション分類の正確さと信頼性が大幅に向上します。
  1. この手法は、関連するデータセット上で最新の成果を達成し、人間とロボットの相互作用の研究をさらに進める可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

NVIDIA AIがSteerLMを発表:大規模言語モデル(LLMs)の推論中にユーザーが応答をカスタマイズできる新たな人工知能(AI)メソッド

人工知能の絶えず進化する風景の中で、開発者やユーザーの双方を悩ませる課題があります: 大規模言語モデルからよりカスタマ...

データサイエンス

vLLM:24倍速のLLM推論のためのPagedAttention

この記事では、PagedAttentionとは何か、そしてなぜデコードを大幅に高速化するのかを説明します

機械学習

Amazon SageMakerノートブックのジョブをスケジュールし、APIを使用してマルチステップノートブックのワークフローを管理します

Amazon SageMaker Studioは、データサイエンティストが対話的に構築、トレーニング、展開するための完全に管理されたソリュー...

データサイエンス

「コンピュータビジョンと言語モデルが見たものを理解する手助け」

研究者は、概念的な情報を理解する能力を向上させるために、合成データを使用してモデルを改善しますこれにより、自動キャプ...

データサイエンス

Amazon SageMaker Ground Truthのはじめ方

イントロダクション ジェネレーティブAIの時代において、データ生成はピークに達しています。正確な機械学習およびAIモデルの...

機械学習

「生成AIをめぐる旅」

私の豊富な経験に深く踏み込んで、全力でGenerative AIを受け入れ、あなたが利益を得るために活用できる貴重な洞察と知識を得...