『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました

『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』に関する富士通の新AIリサーチ発表

人間の行動認識の最近の進展は、人間とロボットの相互作用(HRI)において驚くべきブレークスルーを実現しました。この技術により、ロボットは人間の行動を理解し、それに応じて反応することができるようになりました。行動セグメンテーションは、人間の行動のラベルと時間的な境界を決定するプロセスであり、行動認識の重要な部分です。ロボットは人間の行動を動的に特定し、人々とうまく働くためにこのスキルを持っている必要があります。

従来の行動セグメンテーションモデルのトレーニング方法では、大量のラベルが必要です。徹底した監視のために、フレームごとのラベル、すなわち、アクションの各フレームに適用されるラベルが理想的ですが、これらのラベルは2つの重要な困難を提供します。まず、各フレームにアクションラベルを注釈付けすることは、高価で時間がかかることがあります。第二に、複数の注釈付け者からの一貫性のないラベリングやアクションの時限の明確さにより、データにバイアスが生じる可能性があります。

これらの課題に対処するために、最近の研究で、研究者チームは学習フェーズ中に新しいユニークな学習技術を提案しました。彼らの方法は、連続するタイムスタンプの間にある未ラベルフレームのアクションユニオンの尤度を最大化します。与えられたフレームが周囲のタイムスタンプのラベルによって示されるアクションの組み合わせを持つ確率をアクションユニオンと呼びます。このアプローチにより、アクションユニオン確率を考慮して未ラベルフレームの信頼性の高い学習ターゲットを提供することで、トレーニングプロセスの品質が向上します。

チームは推論ステップ中に新しい改良方法を開発し、モデルのソフト割り当て予測からより正確なハード割り当てアクションラベルを提供します。フレームに割り当てられるアクションクラスは、この改良プロセスにより、より正確かつ信頼性の高いものになります。これには、フレームごとの予測だけでなく、異なるビデオセグメントの時間にわたるアクションラベルの一貫性と滑らかさも考慮されます。これにより、モデルの正確なアクション分類能力が向上します。

この研究で開発された技術はモデルに依存しないものであり、様々な現行の行動セグメンテーションフレームワークで利用することができます。これらの方法の柔軟性により、大幅な変更を加える必要なく、さまざまなロボット学習システムに組み込むことが可能です。これらの手法の有効性は、3つの一般的な行動セグメンテーションデータセットを使用して評価されました。結果は、この方法が以前のタイムスタンプ監視技術を上回る最新のパフォーマンスレベルを達成し、完全に監視されたラベルの1%未満で同様の結果を生み出すとした。これにより、パフォーマンスの観点で完全に監視された手法と同等またはそれ以上の効果を持つ、非常に経済的な解決策となる可能性を示しています。これは、彼らが提案する方法が効果的に行動セグメンテーションの分野と人間とロボットの相互作用への応用を進めることができることを示しています。

以下に、この研究の主な貢献をまとめました。

  1. アクションユニオンの最適化を行動セグメンテーションのトレーニングに導入し、モデルのパフォーマンスを向上させました。この革新的な手法では、タイムスタンプ間の未ラベルフレームのアクションの組み合わせの確率を考慮しています。
  1. アクションセグメンテーションモデルの出力を改善するために、新しいかなり有益なポストプロセッシング技術を導入しました。この改良プロセスにより、アクション分類の正確さと信頼性が大幅に向上します。
  1. この手法は、関連するデータセット上で最新の成果を達成し、人間とロボットの相互作用の研究をさらに進める可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「14%のコンバージョン率成長ストーリー:Pixis AIとのダイナミックなパートナーシップを解き明かすJOE&THE JUICE」

この html を日本語に翻訳する(結果には html コードを保持する): 2002年、JOE & THE JUICE はデンマークの都市オアシ...

データサイエンス

複雑さを解き明かす:ノイズ導入を用いたマニフォールド学習への革新的アプローチ

データサイエンスの世界では、高次元のデータは課題と機会の両方を提供しますそれは関係性やパターンの宝庫を提供し、形作ら...

AIニュース

新技術による道路と橋の建設および修復のためのツール:人工知能

「ペンシルベニア州とその他の地域で、AIが国の老朽化したインフラに適用されていますそれは賢明な判断でしょうか?」

機械学習

『AI入門』

「ここでは、AIの学び方についての私の以前の記事を読んでいることを前提としています再度お伝えしますが、機械学習を学ぶ際...

データサイエンス

大規模言語モデル、ALBERT - 自己教示学習用のLite BERT

近年、大規模な言語モデルの進化は急速に進んでいますBERTは、高い精度でさまざまなNLPタスクを解決することができる最も人気...

AI研究

「新しいAI研究が、PanGu-Coder2モデルとRRTFフレームワークを提案し、コード生成のための事前学習済み大規模言語モデルを効果的に向上させる」というものです

大規模言語モデル(LLM)は、最近の数ヶ月で非常に注目を集めています。これらのモデルは、関連する質問に答えることや、正確...