Learn more about Search Results この - Page 5

このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器

あらゆるところに対称性があります。物理学の普遍的な原則は、空間と時間の両方において成り立ちます。空間座標が変換、回転、時間的にシフトされると、対称性が現れます。さらに、システムは、いくつかの似ているまたは同等のアイテムが番号でラベル付けされた場合、そのラベルの置換に関して対称です。具現化エージェントはこの構造に直面し、多くの日常的なロボット活動が時間的、空間的、または置換シンメトリーを示しています。四足歩行の動作は、運動の方向に依存しません。同様に、ロボットグリッパーはラベルに関係なく、複数の同一のアイテムと接触するかもしれません。ただし、この豊かな構造は、ほとんどの計画および強化学習(RL)アルゴリズムに考慮される必要があります。 十分なトレーニングを受けた後、明確に定義された問題に対して印象的な結果を示しているにもかかわらず、これらのアルゴリズムは頻繁にサンプリングの非効率性や環境変化への耐性の欠如を示します。研究チームは、RLアルゴリズムが対称性を理解していることでサンプル効率と耐性を向上させることが重要であると考えています。これらのアルゴリズムは、2つの重要な要件を満たす必要があります。まず、世界とポリシーモデルは関連する対称性グループについて同変である必要があります。これは、離散時間シフトZの部分群、空間対称性グループSE(3)の積集合グループ、および具現化エージェントの1つ以上の対象置換群Snです。第二に、実際の問題の解決のために、対称性グループの(一部の)緩やかな崩壊が可能であるべきです。ロボットグリッパーの目標は、空間の指定された位置にオブジェクトを移動することであり、これにより対称性グループSE(3)が崩壊します。同変RLの初期の試みは、この技術の潜在的な利点を明らかにしました。ただし、これらの作品は通常、Cnなどの小規模な有限対称群のみを考慮し、テスト中の仕事に応じてソフトな対称性の崩壊を許可することはありません。 この研究では、Qualcommの研究チームが、Equivariant Diffuser for Generating Interactions (EDGI) と呼ばれるモデルベースの強化学習および計画のための同変方法を提案しています。EDGIの基礎要素は、研究チームが具現化された文脈で遭遇することを予想している、SE(3) × Z × Snという完全な積集合群に関して同変です。さらに、EDGIはテスト時に柔軟なソフト対称性の崩壊を許可します。彼らの方法論は、以前に研究者から提案されたDiffuserメソッドに基づいており、ダイナミクスモデルの学習とその内部での計画の課題に対処しています。Diffuserの主な概念は、状態-行動の軌跡のオフラインデータセットで拡散モデルをトレーニングすることです。このモデルからの1つのサンプルは、現在の状態に条件付けられて計画されます。彼らの主な貢献は、多様な表現データを許容し、空間的、時間的、および置換対称性の積集合群SE(3) × Z × Snについて同変な拡散モデルを可能にすることです。 研究チームは、個々の対称性に作用する革新的な時間、オブジェクト、および置換レイヤー、および複数の入力表現を単一の内部表現に埋め込む革新的な方法を提案しています。クラス分類の案内と条件付けと組み合わせることで、計画アルゴリズムに含まれるテスト時のタスク要件によって対称性グループを柔軟に崩壊させることができます。研究チームは、ロボットのアイテムハンドリングと3Dナビゲーションの設定を使用して、EDGIの客観的な検証を示しています。研究チームは、訓練データが桁違いに少ない状況で、EDGIが低データドメインでの性能を著しく向上させ、最良の非同変ベースラインと同等のパフォーマンスを発揮することを発見しました。さらに、EDGIは以前に発見されていない配置にも効果的に適応し、環境の対称性変化に対して明らかに耐性があります。

「光子チップ ‘レゴのようにはめ込む’」

新しいコンパクトなシリコンフォトニック半導体チップは、無線周波数(RF)帯域を大幅に拡張します

このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています

マイクロソフトの研究者が、ドメイン特化のトレーニングなしでGPT-4が医療の質問に答える能力を向上させる課題に取り組みました。彼らはGPT-4の性能を向上させるために異なるプロンプティング戦略を用いる「Medprompt」を紹介しています。目標は、MultiMedQAスイートの全ての9つのベンチマークで最先端の結果を達成することです。 この研究では、GPT-4の医療能力に関する事前の研究(特にBioGPTとMed-PaLM)を拡張し、性能を向上させるためにプロンプトエンジニアリングを体系的に探求しています。Medpromptの柔軟性は、電気工学、機械学習、哲学、会計、法律、看護、臨床心理学を含むさまざまな領域で実証されています。 この研究は、汎用的な問題解決のための計算機インテリジェンス原則の創造を目指すAIの目標を探求しています。GPT-3やGPT-4などの基礎モデルの成功を強調し、専門的なトレーニングを必要とせずにさまざまなタスクで優れた能力を発揮しています。これらのモデルは、大規模なウェブデータから幅広く学習するテキスト対テキストのパラダイムを採用しています。次の単語の予測精度などのパフォーマンスメトリクスは、トレーニングデータ、モデルのパラメータ、計算リソースのスケールアップによって改善されます。基礎モデルはスケーラブルな問題解決能力を示し、領域を横断した一般化されたタスクに向けた潜在能力を示しています。 この研究では、プロンプトエンジニアリングを体系的に探求し、GPT-4の医療課題におけるパフォーマンスを向上させています。注意深い実験設計により、過学習を軽減するために伝統的な機械学習に似たテストメソドロジーを採用しています。Medpromptは、目を付けたと目をつけないといった分割を使ったMultiMedQAデータセットの評価を通じて、見えない質問に対する堅牢な一般化能力を示しています。この研究では、GPT-4のCoT根拠とMed-PaLM 2の根拠を比較して、生成された出力のより長く詳細な論理を明らかにしています。 Medpromptは、医療の質問応答データセットでGPT-4のパフォーマンスを向上させ、MultiMedQAなどの既存の結果を達成し、Med-PaLM 2などの専門モデルをより少ない呼び出しで上回ります。Medpromptを使用することで、GPT-4はMedQAデータセットのエラーレートを27%削減し、初めて90%のスコアを獲得します。ダイナミックな少数サンプルの選択、自己生成された思考の連鎖、選択肢のシャッフルアンサンブルなど、Medpromptの技術は医学に限定されず、さまざまな領域でGPT-4のパフォーマンスを向上させるために適用することができます。厳密な実験設計により過学習の問題は軽減されます。 まとめると、Medpromptは医療の質問応答データセットで優れたパフォーマンスを発揮し、MultiMedQAを上回り、さまざまな領域での適応性を示しています。過学習を防ぐために目をつけたと目をつけないといった評価の重要性を強調し、プロンプトエンジニアリングや微調整のさらなる探求が医療などの重要な分野での基礎モデルの活用に必要であることを推奨しています。 今後の研究では、プロンプトの改良と基礎モデルの能力向上について、少数の例をプロンプトに組み込む方法を洗練させることが重要です。また、健康などの高リスク領域でのプロンプトエンジニアリングと微調整の連携には潜在的な可能性があり、迅速なエンジニアリングと微調整は重要な研究領域として探求されるべきです。ゲーム理論的なシャプレー値は、除去研究における信用割り当てに使用でき、シャプレー値の計算とその応用に関するさらなる研究が必要です。

「ADHDを持つ思春期の若者において、この深層学習研究はMRIスキャンの分析において独特な脳の変化を明らかにする:MRIスキャン分析の飛躍的な進歩」

画期的な開発により、研究者は人工知能(AI)の力を活用して、思春期の注意欠陥多動性障害(ADHD)の診断に内在する課題に取り組んでいます。主観的な自己報告調査に依存する従来の診断環境は、客観性の欠如により長い間批判を浴びてきました。今や、研究チームは革新的なディープラーニングモデルを導入し、Adolescent Brain Cognitive Development(ABCD)研究からの脳イメージングデータを活用してADHDの診断を革新しようとしています。 現在のADHDの診断方法は、主観的な性質と行動調査への依存から欠陥があります。これに対して、研究チームは1万1千人以上の思春期の脳イメージングデータを探るAIベースのディープラーニングモデルを考案しました。この手法は、拡散強調画像から導かれる重要な指標である分率異方性(FA)の測定を使用してモデルを訓練することを包括しています。このアプローチは、ADHDに関連する特異的な脳パターンを明らかにし、より客観的かつ定量的な診断フレームワークを提供します。 提案されたディープラーニングモデルは、FA値の統計的に有意な差を認識するよう設計されており、ADHDの思春期におけるエグゼクティブ機能、注意、および音声理解に関連する9つの白質索において測定値が上昇していることを明らかにしました。これらの研究結果は、Radiological Society of North Americaの年次会議で発表され、重要な進歩を示しています: ADHD患者のFA値は、非ADHDの個人と比較して、30つの白質索のうち9つで有意に上昇していました。 予測されたFA値と実際のFA値の間の平均絶対誤差(MAE)は0.041であり、ADHDの有無で有意に異なりました(0.042 vs 0.038、p=0.041)。 これらの定量的な結果は、ディープラーニングモデルの効果を裏付けると同時に、FA測定がADHDの診断の客観的なマーカーとしての潜在能力を強調しています。 研究チームの手法は、現在の主観的な診断の制約に取り組み、より客観的かつ信頼性の高い診断手法の開発に向けた途上にあります。白質索の特異的な差異は、ADHD診断におけるパラダイムシフトへの有望な一歩を示しています。研究者がより広範な研究からの追加データで調査結果をさらに充実させるなか、数年以内にAIがADHD診断に革命をもたらす可能性はますます高まっています。 結論として、この先駆的な研究はADHDの診断における常識に挑戦するだけでなく、客観的な評価にAIを活用する新たな可能性を開拓しています。神経科学と技術の交差点は、思春期のこの普及している障害に関する包括的な理解を提供する脳イメージングの微細な部分に根ざした、より正確なADHD診断の未来に希望をもたらします。 投稿:This Deep Learning Research Unveils Distinct Brain…

このAIペーパーは、さまざまなタスクでChatGPTに追いついたり超えたりすると主張するオープンソースの大規模言語モデルの詳細なレビューを公開しています

昨年のChatGPTのリリースは、人工知能コミュニティを驚かせました。最新の大規模言語モデルであるGPTのトランスフォーマーアーキテクチャに基づいて開発されたChatGPTは、学術および商業アプリケーションの両方に大きな影響を与えています。このチャットボットは、リインフォースメントラーニングフロムヒューマンフィードバック(RLHF)の能力を利用し、監視付きのファインチューニングを通じて指示を調整することで、簡単に人間に応答し、コンテンツを生成し、クエリに答え、さまざまなタスクを実行することができます。 最近の研究では、シンガポール国立大学(NTU)、SalesForce AI、I2Rの研究者チームが、オープンソースの大規模言語モデル(LLM)の最新研究をまとめ、さまざまなコンテキストでChatGPTと同等またはそれ以上のパフォーマンスを発揮するモデルの完全な概要を提供するために広範な調査を行いました。ChatGPTのリリースと成功により、学界と産業界の両方で、この分野に専念したスタートアップから生まれた新しいLLMが豊富に見られるなど、LLM関連の追求が盛んになりました。 AnthropicのClaudeのようなクローズドソースのLLMは一般的にオープンソースの対抗モデルよりも優れているものの、OpenAIのGPTなどのモデルはより速く進化してきました。特定のタスクで同等またはそれ以上のパフォーマンスを達成するという主張が増えており、これによりクローズドソースモデルの歴史的な優位性が危うくなっています。 研究の観点から、新しいオープンソースのLLMの連続的なリリースとそれらの成功が、これらのモデルの強みと弱点を再評価することを余儀なくさせています。オープンソースの言語モデリングソフトウェアの進展は、言語モデルを組織の運営に取り入れたい企業にとって、ビジネスに関連する課題を提供しています。独自の代替品と同等またはそれ以上のパフォーマンスを得る可能性のおかげで、企業は独自の要件に最適なモデルを選択するためにより多くの選択肢を持つようになりました。 チームは、調査の貢献を特徴づけるために使用できる3つの主要なカテゴリを共有しました。 評価のまとめ:調査では、オープンソースのLLMがChatGPTとどのように異なるかについて客観的かつ包括的な視点を提供するために、さまざまな評価をまとめました。この総合は、オープンソースのLLMの利点と欠点を読者に包括的に理解させます。 モデルのシステマティックなレビュー:ChatGPTと同等またはそれ以上のパフォーマンスを発揮するオープンソースのLLMが、さまざまなタスクで調査されました。さらに、チームはリアルタイムで更新されるウェブページを共有しました。これにより、読者は最新の変更を確認できます。これは、オープンソースのLLMの開発のダイナミックな性質を反映しています。 助言と洞察:レビューや評価に加えて、調査はオープンソースのLLMの進化に影響を与えるパターンについての洞察力のある情報を提供しています。また、これらのモデルの潜在的な問題を探求し、オープンソースのLLMを教育するためのベストプラクティスについても議論しています。これらの結果は、企業セクターと学術コミュニティの両方に対して、既存のコンテキストと将来の可能性について詳細な視点を提供しました。

ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています

芸術的なテキストから画像までの拡散モデルの利用者は、通常、生成された画像に表現される視覚的特徴と概念において細かい制御が必要ですが、現在は実現不可能です。単純なテキストのプロンプトを使用して、個人の年齢や天候の強度などの連続的な品質を正確に修正するのは難しい場合があります。この制約により、プロデューサーはイメージをより良く反映させるために画像を修正することが難しくなります。マサチューセッツ工科大学と独立研究者からなるノースイースタン大学の研究チームは、この研究で解釈可能なアイデアスライダーを提案し、拡散モデル内で詳細なアイデアの操作を可能にします。彼らのアプローチは、アーティストに高品質な制御と生成画像の提供を可能にします。研究チームは、トレーニングされたスライダーとコードをオープンソースで提供します。コンセプトスライダーは、他のアプローチが十分に対応する必要があるいくつかの問題に対して複数の解決策を提供します。 多くの画像プロパティは、プロンプトを変更することで直接制御することができますが、出力はプロンプトとシードの組み合わせに対して感度があり、プロンプトを変更すると画像の全体的な構造が大きく変化する場合があります。PromptToPromptやPix2Videoなどの事後処理手法では、異なるビジュアル概念を変えるためにクロスアテンションを変更し、拡散プロセスを反転させることができます。ただし、これらの手法は同時に変更できる数が制限されており、新しいアイデアごとに独立した推論ステップが必要です。研究チームは、単純で汎用的な制御を学習する代わりに、特定の画像に適したプロンプトを設計する必要があります。適切にプロンプトされなければ、年齢が変わると同時に人種も変わるなどの概念的な絡み合いが生じる可能性があります。 一方、コンセプトスライダーは、軽量で事前トレーニングされたモデルに適用できる簡単なプラグアンドプレイのアダプターを提供します。これにより、一度の推論実行で目的の概念を正確かつ連続的に制御し、エンタングルメントが少なく効率的な組み合わせを実現できます。各コンセプトスライダーは、ランクの低い拡散モデルの変更です。研究チームは、低ランク制約が概念の精度制御において重要な要素であることを発見しています。低ランクトレーニングにより、最小の概念部分空間が特定され、高品質で制御されたディスエンタングル編集が生成されます。一方、低ランク正則化なしでのファインチューニングは、精度と生成画像の品質を低下させます。この低ランクフレームワークは、モデルのパラメータではなく個々の写真に対応する事後処理の画像変更技術には適用されません。 コンセプトスライダーは、これまでのテキストに頼る既存の概念編集技術とは異なり、書かれた説明によって表現されない視覚的概念の変更を可能にします。画像ベースのモデルカスタマイズ技術は画像編集において課題がありますが、研究チームは新しいトークンを導入することで新しい画像ベースの概念を表現できるようにしています。一方、概念スライダーでは、アーティストがいくつかのペアの写真で望ましい概念を指定できます。その後、コンセプトスライダーは視覚的概念を一般化し、他の画像に適用します。そのような画像では、変化を言葉で表現することが不可能な場合でも、変化を適用できます(図1を参照)。以前の研究では、GANのような他の生成画像モデルには、生成された出力に対して高度なディスエンタングル制御を提供する潜在的な領域が含まれていることが示されています。 図1は、さまざまなテキストプロンプトまたはマッチした画像データの範囲内で、他の品質への干渉を最小限に抑えたフォーカスされたアイデア制御のための拡散パラメータ空間での低ランク方向を見つける手法を示しています。これらの方向は、複雑なマルチ属性制御のために組み合わせることができ、アーティストによって作成された相反するテキスト概念またはビジュアルのペアから形成することができます。ディスエンタングルスタイルGANの潜在領域を拡散モデルに転送し、スタブルディフュージョンの出力で歪んだ手を修正することで、研究者は自身のアプローチの効果を示しています。 具体的には、StyleGANのスタイルスペースニューロンは、言葉でうまく説明することの難しい画像のいくつかの重要な特徴に対して、細かい制御が可能であることが示されています。研究チームは、FFHQの顔写真でトレーニングされたStyleGANのスタイル空間の潜在的な方向を拡散モデルに転送することが可能であり、彼らの手法の可能性をさらに示しています。興味深いことに、彼らのアプローチは、顔データセットからのものであっても、異なる画像生成にわたって微妙なスタイル制御を提供するようにこれらの潜在的な空間を適応させることに成功しています。これは、拡散モデルがGANの潜在的な視覚的概念を表現できることを示しています。書かれた説明はなくても表現できます。 研究者らは、コンセプトスライダーの表現力が、リアリズムの向上と手の変形の修正という2つの有用なアプリケーションを処理するのに十分であることを示しています。生成モデルは、リアルな画像合成を実現するために大きな進歩を遂げてきましたが、最新の拡散モデルであるStable Diffusion XLも、歪んだ顔、浮いたオブジェクト、歪んだパースペクティブ、さらには解剖学的に不合理な余分な指や欠損した指を生み出す傾向がまだあります。研究チームは知覚的なユーザースタディにより、2つのコンセプトスライダー、「固定された手」と「リアルな画像」によって、画像の実際的なリアリズムが統計的に有意に向上することを確認していますが、画像の本質を変えることはありません。 コンセプトスライダーは組み立てられ、分解することができます。研究チームは、50以上の異なるスライダーを作成することが可能であり、出力品質を犠牲にすることなく行うことがわかりました。この適応性により、アーティストたちは多くのテキスト、ビジュアル、GANで定義されたコンセプトスライダーを組み合わせることができるため、微妙な画像制御の新たな世界が開けます。彼らの技術は、通常のプロンプトトークンの制約を超えることができるため、テキストだけでは提供できないより複雑な編集を可能にします。

「GPUの加速なしで大規模なシーンをリアルタイムでマッピングできるのか?このAI論文は、高度なLiDARベースの位置特定とメッシュ作成のために「ImMesh」を紹介します」

実際の世界にマッチする仮想環境を提供することで、メタバース、VR / AR、ビデオゲーム、物理シミュレータを含む3Dアプリケーションの広範な普及が人間の生活スタイルを向上させ、生産効率を向上させています。これらのプログラムは、実際の環境の複雑なジオメトリーを代表する三角形メッシュに基づいています。現在のほとんどの3Dアプリケーションは、オブジェクトモデリングの基本ツールとして、頂点と三角形の面を集めた三角形メッシュに依存しています。 レンダリングとレイトレーシングの最適化と高速化の能力に無鉄砲であり、センサーシミュレーション、高密度マッピングと測量、剛体力学、衝突検出などでも有用です。しかし、現在のメッシュは、大規模なシーンメッシュの大量生産の能力を妨げるCADソフトウェアを使用して作成された優れた3Dモデラーの出力であることがほとんどです。 そのため、3D再構成コミュニティでは、特に大規模なシーンに対して実時間のシーン再構成が可能な効率的なメッシュアプローチの開発が注目されています。 コンピュータ、ロボット工学、3Dビジョンにおける最も困難な課題の1つは、センサー測定から大規模シーンのリアルタイムメッシュ再構成です。これには、近くにある三角形の面でシーン表面を再作成し、エッジで接続する必要があります。幾何学的なフレームワークを高い精度で構築することは、この困難な課題にとって不可欠であり、実世界の表面で三角形の面を再構築することも重要です。 リアルタイムなメッシュ再構成と同時位置推定の目標を達成するために、香港大学と南方科技大学の最近の研究では、ImMeshというSLAMフレームワークが紹介されています。 ImMeshは、正確で効率的な結果を提供するために協力して作動する4つの相互依存モジュールに依存する、細心の注意を払って開発されたシステムです。 ImMeshは、メッシュ再構成と同時にローケライゼーションを達成するためにLiDARセンサーを使用しています。 ImMeshには、以前の研究で構築された新しいメッシュ再構成アルゴリズムであるVoxelMapが含まれています。具体的には、提案されたメッシングモジュールはボクセルを使用して3次元空間を分割し、新しいスキャンからポイントを含むボクセルを迅速に特定することができます。効率的なメッシングの次のステップは、次元を減少させることであり、これによりボクセルごとの3Dメッシュ化の問題が2Dの問題に変換されます。最後の段階では、ボクセル単位のメッシュのプル、コミット、プッシュプロシージャを使用して三角形面をインクリメンタルに再作成します。 チームは、これが従来のCPUを使用して大規模なシーンの三角形メッシュをオンラインで再作成するための最初の公開努力であると主張しています。 研究者は合成データと実世界のデータを使用して、ImMeshの実行時間のパフォーマンスとメッシュ化の精度を徹底的にテストし、その結果を既知のベースラインと比較してどれだけうまく機能するかを確認しました。まず、まとめてデータを収集することで、データ収集中にメッシュが迅速に再構築されていることを確認するために、メッシュのライブビデオデモを示しました。その後、異なるシナリオで4つの別々のLiDARセンサーによって取得された4つの公開データセットを使用して、ImMeshを徹底的にテストしてシステムのリアルタイム能力を検証しました。最後に、実験3でのImMeshのメッシング性能を既存のメッシングベースラインと比較してベンチマークを確立しました。結果によると、ImMeshはすべてのアプローチの中で最高の実行時間パフォーマンスを維持しながら、高いメッシング精度を達成しています。 彼らはまた、LiDARポイントクラウドの補強にImMeshを使用する方法を実証しています。この方法は、生のLiDARスキャンよりも密集して広い視野(FoV)を持つ規則的なパターンで補強ポイントを生成します。アプリケーション2では、彼らは自分たちの作品をR3LIVE ++およびImMeshと組み合わせることで、シーンのテクスチャ再構築の目標を損なうことなく達成しました。 チームは、空間解像度に関してはスケーラブル性に乏しいという大きな欠点を強調しています。固定された頂点密度のため、ImMeshは大きな平らな表面を扱う際に数多くの小さな面を非効率的に再構築する傾向があります。提案されたシステムにはまだループ補正メカニズムがないため、これが2番目の制限です。これは、再訪問領域での累積ローカリゼーションエラーによる徐々のドリフトの可能性があることを意味します。再訪問の問題が発生すると、再構築結果が一貫していないかもしれません。LiDARポイントクラウドを使用したループ識別の最近の作業をこの作業に取り込むことで、研究者はこの問題を克服するのに役立ちます。ループ検出アプローチを利用することで、リアルタイムでループを識別し、ドリフトの影響を軽減し、再構築結果の信頼性を高めるためにループ補正を実装することが可能になります。

「ジョンズホプキンスのこの論文は、時間と望遠鏡を超えて宇宙の発見の確率的カタログマッチングを加速させるデータサイエンスの役割を強調しています」

宇宙研究において、同じ星や銀河が異なる天空調査で見つかるかどうかという問題があります。現在の望遠鏡は、さまざまな種類の光を使用して、数千や数十億のオブジェクトについての大量のデータを収集します。しかし、異なる調査からのこのデータを結びつけることは非常に難しいです。 古い方法では多種多様なデータの大量処理が難しく、広大な天空のイメージをカバーする巨大な部分についての、同じ天体(星や銀河など)を2つの調査が見ているかどうかを判断することが困難でした。このため、科学者は異なる天空調査からの同じオブジェクトの測定値を組み合わせることができませんでした。 ジョンズ・ホプキンス大学の研究者達は、この問題を解決する新しい方法を考案しました。彼らは異なる天空調査からの観測対をスコアリングするインテリジェントなコンピュータプログラム(アルゴリズム)を作成しました。これらのスコアは、観測が同じオブジェクトである可能性を示しています。プログラムは、物体の位置、明るさ、色などを考慮して、それらが同じかどうかを判断します。 この方法は非常に正確であり、大量のデータとも非常に適合します。これにより、異なる方法で捉えられた場合でも、微かなオブジェクトと明るいオブジェクトの観測を結びつけることができます。プログラムは、数十億のデータエントリを含むカタログを見ることができ、天体の対応関係を見つけることができます。スコアはまた、対応関係が正しいかどうかを確認するのにも役立ちます。 このデータの結びつけ方は、データサイエンスの強みと宇宙測定に関する知識を活用しています。観測の不確実性を理解しながら、位置、明るさ、色などの事象の確率を考慮しています。これにより、異なる調査で同じものを見たときに、確実に言えるようになりました。 個々の星、銀河、その他の天体に関するデータを組み合わせることで、科学者はそれらの性質、位置、動き、時間の経過に関してさらに詳しく学ぶことができます。この方法では、紫外線、光学、赤外線、X線、ガンマ線、ラジオ波など、さまざまな種類の光からの測定値を結びつけることができます。これにより、さまざまな天文望遠鏡で捉えた独特な天体をより詳しく観察することができます。星の変動から大きなブラックホールまで、さまざまなものについての新たな発見の方法です。

「AIは本当に私たちの感情を理解できるのか? このAIの論文では、ビジョン・トランスフォーマーモデルを用いた高度な顔の感情認識について探求されています」

以下のHTMLコードを日本語に翻訳してください: FERはヒューマンコンピュータインタラクション、感情分析、感情計算、仮想現実において重要な役割を果たしています。それは機械が人間の感情を理解し、対応するのを支援します。手法は、マニュアルの抽出からCNNおよびトランスフォーマーベースのモデルへと進化しています。応用にはヒューマンコンピュータインタラクションの改善やロボットの感情応答の向上などがあり、FERは人間と機械のインターフェース技術において重要です。 FERの最先端の手法は大きく変化してきました。初期のアプローチは手動で作成された特徴量とサポートベクターマシンやランダムフォレストなどの機械学習アルゴリズムに大きく依存していました。しかし、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)の登場により、FERは複雑な表情の空間パターンを巧みに捉えることができるようになりました。それらの成功にもかかわらず、画像の品質、照明条件の変動、人間の表情の複雑さなど、対照度の変動、クラス間のバランスの取れていないデータセット、目隠しなどの課題が依然として存在しています。さらに、FER2013リポジトリなどのデータセットのバランスの取れていない性質がモデルの性能に影響を及ぼしています。これらの課題の解決は、FERの精度と信頼性を向上させることを目指す研究者にとっての焦点となっています。 これらの課題に対応するため、最近の論文「Augmented Balanced Datasetsを使用した顔の感情認識におけるVision Transformerモデルの比較分析」は、FER2013のような既存のデータセットの制限に対処するための新しい手法を紹介しています。この研究では、異なるVision Transformerモデルのパフォーマンスを顔の感情認識において評価することを目的としています。また、拡張とバランスの取れたデータセットを使用してこれらのモデルを評価し、顔の表情に正確に感情を認識する能力を確認することに重点を置いています。 具体的には、提案された手法は、FER2013リポジトリから品質の低い画像を洗練させ、水平反転、トリミング、パディングなどの高度なデータ拡張手法を用いて新しいバランスの取れたデータセットを作成することが含まれています。この新しいバランスの取れたデータセットであるFER2013_balancedは、データの不均衡を正し、さまざまな感情クラスの間で公平な分布を確保することを目指しています。データの拡張と品質の低い画像の除去により、研究者はデータセットの品質を向上させ、したがってFERモデルのトレーニングを改善することを意図しています。この論文では、データセットの品質がバイアスの予測を緩和し、FERシステムの信頼性を高める上での重要性について詳しく説明しています。 最初に、この手法ではFER2013データセットから品質の低い画像を特定し、除外しました。これには対比度の低い画像や目隠しのある画像などが含まれており、これらの要因はそのようなデータセットでトレーニングされたモデルのパフォーマンスに大きく影響します。その後、クラスの不均衡問題を軽減するために拡張が行われました。この拡張は、代表されていない感情の表現を増やすことを目指し、FER2013_balancedデータセット内の各感情カテゴリに対して画像数を均等にすることを目指しました。 この後、この手法では幸せ、中立、悲しみなどの過剰なクラスから多くの画像を削除することでデータセットをバランスさせました。この手順により、FER2013_balancedデータセット内の各感情カテゴリについて画像の数を均等にすることを目指しました。バランスの取れた分布は、多数派クラスに対するバイアスのリスクを軽減し、FER研究のより信頼性のある基準を確保します。データセットの問題を解決することへの重点は、顔の感情認識の研究における信頼性の高いスタンダードを確立する上での重要な役割を果たしています。 この手法により、バランスの取れたデータセットの構築後、Tokens-to-Token ViTモデルのパフォーマンスが顕著に向上しました。このモデルは、FER2013_balancedデータセットで評価された際に、オリジナルのFER2013データセットに比べて高い精度を示しました。分析はさまざまな感情カテゴリを網羅しており、怒り、嫌悪、恐怖、中立的な表現に対して大きな精度向上が示されています。Tokens-to-Token ViTモデルは、FER2013_balancedデータセットで74.20%の総合精度を達成し、FER2013データセットでの61.28%に対して、提案手法のデータセット品質の向上とそれによる顔の感情認識タスクのモデルのパフォーマンスの改善の効果を強調しています。 まとめると、著者はデータセットの品質を向上させることによりFERを向上させる画期的な手法を提案しました。そのアプローチは品質の低い画像を入念にクリーニングし、高度なデータ拡張技術を用いてバランスの取れたデータセットFER2013_balancedを作成することを含んでいます。このバランスの取れたデータセットは、Tokens-to-Token ViTモデルの精度を大幅に向上させ、データセットの品質がFERモデルのパフォーマンス向上において重要な役割を果たすことを示しています。この研究は、データセットの入念なキュレーションと拡張がFERの精度向上に与える重要な影響を強調し、ヒューマンコンピュータインタラクションと感情計算の研究において有望な展望を開いています。 記事「AIは本当に私たちの感情を理解できるのか?このAI論文はビジョントランスフォーマーモデルを使用した高度な顔の感情認識を探求します」は、MarkTechPostで最初に掲載されました。

UCバークレーの研究者たちは、「RLIF」という強化学習方法を導入しましたこの方法は、対話型の模倣学習に非常に近い環境での介入から学ぶものです

UCバークレーの研究者たちは、ユーザーの介入シグナルをリインフォースメントラーニング(RL)と統合した学習ベースの制御問題への未踏のアプローチを紹介しています。ユーザーの修正によって学習プロセスを導くDAggerスタイルの介入のオフポリシーRLを活用することで、提案された方法は高次元の連続制御ベンチマークや現実世界のロボット操作タスクで優れたパフォーマンスを発揮します。以下の内容を提供します: 分析のための理論的根拠と統一フレームワーク。 サブオプティマルな専門家とともに提案手法の効果を示す。 サンプルの複雑さとサブオプティマルギャップに関する洞察を提供する。 この研究はロボティクスにおけるスキルの獲得と対話型模倣学習とRL手法を比較し、改善された学習を提供するためにオフポリシーRLとユーザーの介入シグナルを報酬として組み合わせた「RLIF(介入のフィードバックを介したリインフォースメントラーニング)」を紹介しています。この研究では、理論的な分析を提供し、制御問題やロボットタスクにおける介入戦略の経験的なパフォーマンスに与える影響を議論しています。 この研究では、RLIFはDAggerのように最適な専門家の介入を前提とせず、リワードとしてユーザーの介入シグナルを活用することで、ナイーブな行動複製や対話型模倣学習の制限に取り組みます。理論的な分析には、サブオプティマルギャップと非漸近的なサンプルの複雑さが含まれます。 RLIFは、ユーザーの介入シグナルを報酬として利用することで、サブオプティマルな人間の専門家のパフォーマンスを改善するRLの一種です。DAggerスタイルの修正から得られる介入を最小化し、報酬信号を最大化します。この手法は、漸近的なサブオプティマルギャップの分析と非漸近的なサンプルの複雑さの境界を含む理論的な分析を経ています。ロボット操作などのさまざまな制御タスクの評価では、異なる介入戦略を考慮しながら、RLIFがDAggerに比べて優れた性能を発揮しています。 結論として、RLIFは連続制御タスクにおいて、特にサブオプティマルな専門家との取り組みにおいて、DAggerのようなアプローチよりも優れた機械学習手法であることが証明されました。理論的な分析では、サブオプティマルギャップと非漸近的なサンプルの複雑さがカバーされており、さまざまな介入戦略を探索することで、異なる選択手法での良好なパフォーマンスを示しています。RLIFの最大の利点は、最適な専門家を前提とすることなく、リラックスした仮定を持つことで、完全なRL手法に対する実用的でアクセス可能な代替手段を提供することです。 今後の課題としては、オンライン探索のもとでの専門家の監視下でポリシーを展開する際の安全性の課題に対処することが挙げられます。RLIFの向上には、介入戦略のさらなる調査が必要です。コントロールタスク以外のさまざまな領域でRLIFを評価することで、その汎化性を明らかにすることができます。理論的な分析を他のメトリックに拡張し、RLIFを他の手法と比較することで、理解を深めることができます。人間のユーザーによる高報酬状態の指定などの技術との組み合わせを探索することで、RLIFのパフォーマンスと適用性を向上させることができます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us