Learn more about Search Results この - Page 6

『このAI研究は、IFPおよびリポソーム蓄積を予測するための物理ベースの深層学習を発表します』

がん治療の精緻化を追求する中、研究者たちは、腫瘍のダイナミクスを飛躍的に向上させる画期的な解決策を導入しました。この研究は、筋内腫瘍内液圧（IFP）とリポソーム蓄積を正確に予測する、先駆的な物理学に基づく深層学習モデルに焦点を当てています。この革新的な手法は、がん治療戦略の最適化や腫瘍内での治療薬の分布に対する正確な洞察を提供するという約束を持っています。多くのナノセラピューティクスの基盤となるのは、高い浸透性および保持（EPR）効果です。これは、腫瘍の特性である血管透過性と血管間圧力勾配を利用しています。しかし、EPR効果が治療結果に与える影響は一貫性がないことが示されています。この一貫性の欠如は、固形腫瘍内での薬物送達に影響を与える要素のより深い探求を促しました。これらの要因の中で、間質液圧（IFP）が重要な決定要因として浮上し、リポソーム薬物の中心領域への送達を厳しく制約しています。さらに、高いIFPは独立した予後マーカーとして機能し、特定の固形がんにおける放射線療法や化学療法の効果に大きな影響を与えます。これらの課題に直面し、研究者たちは、前処理および投与後の画像データを使用して、ボクセルごとの筋内腫瘍内リポソーム蓄積とIFPを予測する高度なモデルを提案しています。彼らのアプローチのユニークさは、機械学習と偏微分方程式を組み合わせた最先端の物理学に基づく機械学習の統合にあります。研究者たちは、合成生成された腫瘍から得られたデータセットにこの革新的な技術を適用することで、モデルの高い予測精度と最小限の入力データでする予測を実証しています。既存の方法論は、腫瘍内でのリポソームの分布とIFPを一貫かつ正確に予測する必要があります。この研究の貢献は、物理学に基づいた原則と機械学習を統合する前例のないアプローチを導入することで、自らを区別しています。この革新的なモデルは、正確な予測だけでなく、がん治療の設計に即効性のある示唆を提供します。腫瘍内でのリポソームおよびIFPの空間的分布を予測できる能力は、腫瘍のダイナミクスに関するより深い理解のための新たな道を開き、より効果的かつ個別化された治療介入への道を築きます。提案された手法の詳細に踏み込んで、ウォータールー大学とワシントン大学の研究チームは、物理学に基づいた深層学習を使用してボクセルレベルでの予測を達成する方法を説明しています。このモデルが合成腫瘍データに依存していることは、その堅牢性と効率を示し、がん治療における高いIFPがもたらす課題への潜在的な解決策を提供しています。研究者たちは、最小限の入力データでの拡張性と適用可能性を披露することで、そのポテンシャルを強調しており、腫瘍の進行予測や治療計画の支援におけるその可能性を強調しています。まとめると、この画期的な研究は、リポソームベースのがん治療に関連する複雑さに取り組むための変革的なアプローチを示しています。物理学に基づく機械学習を統合した彼らのモデルは、筋内腫瘍内リポソーム蓄積と間質液圧の正確なボクセルレベルの予測を提供します。この革新は、腫瘍のダイナミクスの理解を進め、治療設計に即効性のある示唆を持つことで、より効果的かつ個別化された介入の可能性を強調しています。予測可能性の向上と治療の成功に向けた重要な進歩を示すこの研究の重要性は、見逃すことはできません。

このAI研究は、トライアングルとしてメッシュを直接出力する革新的な形状生成手法であるMeshGPTを紹介しています

メッシュGPTは、ドイツ工科大学ミュンヘン校、トリノ工科大学、アウディAGの研究者によって提案された三角形メッシュの自己回帰生成法であり、学習済みトライアングルシーケンスの語彙を利用したGPTベースのアーキテクチャを活用しています。この手法では、幾何学的な語彙と潜在的な幾何学的トークンを使用して三角形を表現し、鮮明なエッジを持つ整合性のある、クリーンでコンパクトなメッシュを生成します。他の手法とは異なり、MeshGPTは変換を必要とせずに三角形メッシュを直接生成し、既知の形状だけでなく、新しい現実的な形状も高い精度で生成する能力を示しています。従来の形状生成手法（ボクセルベースやポイントクラウド手法など）は、細部や複雑な形状を捉えることに制限がありました。暗黙的な表現手法は、形状をボリューメトリックな関数としてエンコードするものの、しばしばメッシュ変換が必要であり、密なメッシュを生成してしまいました。これまでの学習ベースのメッシュ生成手法では、適切な形状の詳細捕捉に支援が必要でした。一方、PolyGenとは異なり、MeshGPTはシングルデコーダーのみのネットワークを活用し、学習されたトークンを使用して三角形を表現することで、効率的かつ高精度なメッシュ生成を実現し、推論時の堅牢性を向上させています。 MeshGPTは、デコーダーのみのトランスフォーマーモデルを使用して三角形メッシュを直接生成する3D形状生成手法を提供します。この手法では、学習された幾何学的な語彙とグラフ畳み込みエンコーダーを使用して三角形を潜在的なエンベッディングにエンコードします。ResNetデコーダーにより、自己回帰的なメッシュシーケンス生成を実現します。MeshGPTは、形状のカバレッジとフレシェ・インセプション・ディスタンス（FID）スコアにおいて、既存の手法を上回り、ポスト処理をしないで密なメッシュや過度に滑らかな出力を生成するための効率的なプロセスを提供します。 MeshGPTは、ジオメトリックな語彙に基づいてトークンをデコードして三角形メッシュ面を生成するためのデコーダーのみのトランスフォーマーモデルを使用します。三角形を潜在的な量子化されたエンベッディングに変換するためにグラフ畳み込みエンコーダーを活用し、ResNetによって頂点座標を生成します。全てのカテゴリでの事前トレーニング、トレインタイムの拡張によるファインチューニング、ジオメトリックなエンベッディングの影響を評価するための実験などが行われます。MeshGPTのパフォーマンスは、形状のカバレッジとFIDスコアに基づいて評価され、最先端の手法に優れた性能を示します。 MeshGPTは、Polygen、BSPNet、AtlasNet、GET3Dなどの主要なメッシュ生成手法と比較して、形状品質、三角形化品質、形状多様性において優れた性能を発揮し、鮮明なエッジを持つクリーンで整合性のある詳細なメッシュを生成します。ユーザースタディでは、総合的な形状品質や三角形化パターンの類似性において、MeshGPTが他の手法よりも明らかに優れています。MeshGPTはトレーニングデータを超える新しい形状を生成することができ、そのリアリティが際立ちます。アブレーションスタディでは、形状品質において学習されたジオメトリックなエンベッディングの正確さが、単純な座標トークン化と比較してどれだけ良い影響を与えるかを明らかにしています。結論として、MeshGPTは鮮明なエッジを持つ高品質な三角形メッシュの生成において優れた性能を発揮しています。デコーダーのみのトランスフォーマーや学習されたジオメトリックなエンベッディングの語彙学習への組み込みにより、実際の三角形化パターンに近い形状を生成し、既存の手法を凌駕しています。最近の研究では、他の手法と比較して、ユーザーはMeshGPTを総合的な形状品質やグラウンドトゥルースの三角形化パターンとの類似性において優れていると評価しています。

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施しました。透明性、解釈性、およびドメイン知識を重視したこの32の論文の分析により、説明可能な機械学習のこれらの重要な要素はバラつきがあり、貧困と福祉の科学的な洞察と発見の要求を完全に満たすことができないことが明らかになっています。この研究では、調査データをグラウンドトゥルースとして貧困/富を予測し、都市部および農村地域に適用し、深層ニューラルネットワークを含む32の論文を分析することで、これらのコア要素の状況のバラつきを明らかにしています。現在の状況は、貧困と福祉に関する洞察に対する科学的な要件を満たしていないと論じています。このレビューは、開発コミュニティ内での広範な普及と受け入れの重要性を強調しています。導入部では、脆弱なコミュニティの特定と貧困の決定要因の理解における課題について言及し、情報のギャップと家計調査の制約を引用しています。深層機械学習と衛星画像がこれらの課題の克服に役立つ可能性を強調し、科学的なプロセスでの説明可能性、透明性、解釈性、およびドメイン知識の必要性を強調しています。調査データ、衛星画像、および深層ニューラルネットワークを使用した貧困/富の予測における説明可能な機械学習の状況を評価することで、広範な普及と開発コミュニティ内での受け入れを促進することが目的です。総合的な文献レビューを行い、特定の基準を満たす32の研究を分析した結果、説明可能な機械学習のコア要素である透明性、解釈性、およびドメイン知識の状況は、科学的な要件を満たすことができず、バラつきがあります。解釈性と説明性は弱く、モデルを解釈したり予測データを説明したりするための努力が限られています。ドメイン知識は、選択のための特徴ベースのモデルではよく使用されますが、他の側面ではあまり使用されていません。実験結果は、富の指標の制約や低解像度衛星画像の影響などの洞察を示しています。一つの論文は、ドメイン知識の強い仮説と肯定的な評価によって際立っています。貧困、機械学習、および衛星画像のドメインでは、説明可能な機械学習アプローチにおける透明性、解釈性、およびドメイン知識の状況は異なり、科学的な要件を満たしていません。開発コミュニティ内での広範な普及にとって重要な説明可能性は、単なる解釈性を超えています。レビューされた論文の透明性はバラバラであり、いくつかはよく文書化されており、他のいくつかは再現性に欠けています。解釈性と説明性の欠点は依然として存在し、モデルを解釈したり予測データを説明したりする研究者はほとんどいません。特徴ベースのモデルではドメイン知識が一般的に使用されますが、他のモデリングの側面では広くは適用されていません。影響の特徴のソートとランキングは重要な将来の研究方向です。

MITとMeta AIからのこのAI研究は、高度なリアルタイムのロボットにおける手でのオブジェクト再配置のための革新的かつ手ごろな価格のコントローラーを発表します

MITとMeta AIの研究者は、単一の深度カメラを使用して、多様な形状のオブジェクトをリアルタイムに再配置するオブジェクト再配置コントローラを開発しました。この開発によって解決される課題は、一貫性のあるポイントの姿勢を必要とせずに、新たな条件に汎用的で効率的なオブジェクト操作システムが必要です。このプラットフォームは、オブジェクト再配置だけでなく、他の巧妙な操作タスクにも展開でき、将来の研究のためのさらなる改善の機会が示されています。オブジェクト再配置の研究で使用される現在の方法には、特定のオブジェクトに焦点を当て、範囲が限定された遅い操作、高価なセンサーに依存し、シミュレーション結果のみが得られる制約があります。これらの方法は、シミュレーションから実世界のシナリオへの転送の課題を効果的に解決する必要があります。成功率は、タスクによって異なるエラー閾値によって決定されます。学生のビジョンポリシーネットワークは、これらの制限を対処するためにトレーニングされ、データセット間で最小限の汎化ギャップを示しました。この研究では、手の中でのオブジェクト再配置の課題に対処することで、ロボットの手の器用さを向上させる方法を提示しています。以前の手法では制約があるため、高価なセンサーが必要であり、柔軟性に限界があります。これらの制約を克服するために、シミュレーションで強化学習を用いてコントローラをトレーニングし、新しい形状に対して実世界での汎化を成功させました。視覚入力を使用してコントローラをトレーニングし、効果的なシミュレーションから実世界への転送を達成する方法についても議論が行われました。提案された方法は、シミュレーションでビジョンベースのオブジェクト再配置コントローラをトレーニングし、ゼロショット転送のために直接実世界で展開することを含みます。トレーニングでは、Isaac Gymの物理シミュレータを使用したテーブルトップセットアップで、容量向上型の畳み込みネットワークとゲート付きリカレントユニットを使用します。報酬関数には成功基準と追加の整形項が組み込まれています。方法の有効性を評価するために、3Dプリントおよび実世界のオブジェクトの両方でテストが行われ、エラー分布および定義された閾値内の成功率に基づいてシミュレーションと実世界の結果が比較されます。シミュレーションでトレーニングされた単一のコントローラは、150のオブジェクトの再配置に成功し、3本指と変更された4本指のD’Clawマニピュレータの両方で実世界に展開されました。標準のワークステーションを使用して、12 Hzのリアルタイムパフォーマンスが達成されました。OptiTrackモーションキャプチャシステムを使用した評価では、正確なオブジェクト再配置と新しいオブジェクト形状への汎化能力が示されました。エラー分布と閾値内の成功率の分析により、シミュレーションから実世界への転送の課題に対するシステムの有効性と追加の仮定なしでの精度向上の可能性が示されました。まとめると、この研究は、リアルタイムの強化学習によるコントローラの開発に成功し、実世界でのオブジェクト再配置を効果的に行うことができます。ただし、システムの中央の再配置時間は約7秒であり、再配置タスクにおける形状情報の重要性についての疑問を投げかけます。それは、シミュレーション結果を実世界に転送する重要性の課題を示しています。これらの課題にもかかわらず、コントローラは手の中での巧妙な操作において、特に構造のない環境での応用の可能性を持ち、追加の仮定なしでの精度向上の必要性を強調しています。将来の研究の潜在的なアプローチは、形状特徴を組み込むことで、コントローラの性能を向上させる方法を探ることです。特に、正確な操作と新しい形状への一般化の観点でのコントローラの訓練の視覚的な入力の利用を調査する価値があるかもしれません。最後に、従来の作品との比較的研究は、既存の文献における研究結果を文脈化するのに役立つかもしれません。また、オープンソースハードウェアを使用した巧妙な操作もさらなる調査が求められます。

このAI研究は、車両の後続振る舞いモデリングのための包括的なベンチマークデータセット「FollowNet」を紹介します

他の車に続くことは、最も一般的で基本的な運転行動です。他の車に安全に従うことは、衝突を減らし、交通の流れを予測しやすくします。ドライバーが道路上で他の車に従うとき、適切な車両追跡モデルは、この行動を数学的または計算的に表現します。運転データの実世界での利用可能性と機械学習の進歩は、過去10年間にデータ駆動型の車両追従モデルのブームに大きく貢献しました。車両に従うためにデータに依存するモデルには、ニューラルネットワーク、再帰型ニューラルネットワーク、強化学習などがあります。ただし、次のようないくつかの制約もあります：まず、車両追従モデルは、標準のデータ形式の不在のためにまだ十分に評価されていません。NGSIMやHighDなどの公開運転データセットが利用可能であるにもかかわらず、車両追従モデルの新規提案モデルのパフォーマンスを既存のものと比較するのは困難です。第二に、現在の研究の限られたデータセットでは、混合交通流における車両追従行動を正確に描写することは不可能です。自律型車両を考慮しない小規模なデータセットで車両追従行動をモデリングしているということが先行研究の主な焦点であり、これは人力および自動運転車両が道路を共有している時期に行われたものです。これらの問題を解決し、標準的なデータセットを作成するために、香港科技大学、広東省統合通信キーラボ、同济大学、ワシントン大学の研究者らによる新しい研究によって、FollowNetというベンチマークが作成されました。彼らは一貫した基準を使用して、5つの公開データセットから車両追跡イベントを抽出し、ベンチマークを確立しました。研究者らはベンチマーク内で5つのベースラインの車両追従モデルを実行し、評価し、従来の手法とデータ駆動型の手法を包括しています。彼らは車両追従モデルの作成を容易にするために、一貫したデータ形式を使用してこのような行動の最初の基準を設定しました。さまざまなデータ構造やフレームワークの取り扱いは困難かもしれませんが、彼らの標準化された車両追従ベンチマークはそれを考慮に入れています。ベンチマークを使って、GHR、IDM、NN、LSTM、DDPGの2つの従来型および3つのデータ駆動型の車両追従モデルがトレーニングおよび評価されます。HgihD53、Next Generation Simulation（NGSIM）54、Safety Pilot Model Deployment（SPMD）55、Waymo56、およびLyf57という5つの人気のある公開運転データセットは、提案されたベンチマークを構成する車両追従イベントを含んでいます。研究者らは複数のデータセットについて車両追従行動のパターンや基本的な統計情報を調査しました。結果は、一貫した評価指標を用いてベースラインモデルのパフォーマンスを評価することを示しています。特にWaymoとLyfのデータセットでは、車両追従の発生が混合交通状況であることが示されています。静止時間が90％以上のイベントは含まれていません。データ駆動型のモデルがクラシックなモデルよりもスペーシングのMSEが低くなったとしても、衝突はまだ起こり得ます。衝突率がゼロで、スペーシングエラーが少ない車両追従モデルの開発は望ましいです。データ駆動型モデルを現実世界で実用的かつ安全に使用するために、衝突回避機能を組み込むことは有益です。提案されたベンチマークでは、すべての車両が一貫して似たような行動パターンを示すと考えられています。しかし現実的には、運転習慣はドライバーや車両、交通状況によって大きく異なることがあります。そのため、幅広い運転スタイル、行動、交通状況をカバーする適応可能なアルゴリズムと代表的なデータセットを作成することは、車両追従モデルに運転の異質性を含めるために不可欠です。研究者らは、将来のデータセットが更なる性能と現実性を向上させるために、追加のフィーチャーを取り入れる必要があると提案しています。例えば、交通信号や道路の状況データを追加することで、より完全な道路環境の全体像が得られるかもしれません。さらに、アルゴリズムは、近くの車両やその活動に関するデータを統合すれば複雑な関係性を考慮し、より良い予測を提供することができます。これらの追加データソースを使用することで、将来のデータセットはより現実世界の運転シナリオを反映できるようになり、頑健かつ効果的な車両追従アルゴリズムの作成を可能にします。

このAIリサーチはGAIAを紹介します：一般AIの能力の次のマイルストーンを定義するベンチマーク

FAIR Meta、HuggingFace、AutoGPT、GenAI Metaの研究者は、論理思考や多様性のハンドリングなどの基本的なスキルを必要とする現実世界の問題を、人間のような応答能力を持つ高度なAIに対してテストする問題に取り組んでいます。GAIAの開発は、人間レベルの堅牢性を目指すことで、人工汎用知能（AGI）の達成を目指しています。 GAIAは、人間と高度なAIの両方にとって困難なタスクに重点を置くことで、現在のトレンドから外れています。クローズドシステムとは異なり、GAIAは現実のAIアシスタントの使用例を反映しています。GAIAは、品質を重視し、GPT-4とのプラグインを使用して人間の優位性を確認するため、慎重に選ばれたゲーム可能性のない質問を特集しています。それは、マルチステップの完了を確実にし、データの汚染を防ぐための質問設計を指南することを目指しています。 LLM（Language and Logic Models）は現在のベンチマークを超える性能を持つようになってきており、その能力を評価することはますます困難になっています。ただし、複雑なタスクに重点を置くにもかかわらず、LLMにとっての難易度レベルは必ずしも人間を挑戦するものではありません。この課題に対処するために、GAIAという新しいモデルが導入されました。GAIAは、LLMの評価の落とし穴を回避するために、実世界の問題に焦点を当てた一般的なAIアシスタントです。AIアシスタントの使用例を反映する人間が作成した質問によって実用的性を確保しています。NLPにおけるオープンエンドの生成を目指すことで、GAIAは評価ベンチマークを再定義し、次世代のAIシステムを進化させることを目指しています。 GAIAによって行われたベンチマークでは、実世界の質問に対する人間とGPT-4の間に大きな性能差があることが明らかになりました。人間は92％の成功率を達成しましたが、GPT-4はわずか15％のスコアでした。ただし、GAIAの評価では、LLMの正確性と使用例は、ツールAPIやWebアクセスを介して向上させることができることも示されています。これは、ヒューマン・AIモデルと次世代のAIシステムの進歩のための機会を提供します。全体として、このベンチマークはAIアシスタントの明確なランキングを提供し、一般的なAIアシスタントの性能向上のためにさらなる改善の必要性を浮き彫りにしています。まとめると、GAIAによる実世界の質問に対する一般的なAIアシスタントの評価のためのベンチマークでは、ヒューマンがプラグインと共にGPT-4を凌駕していることが示されました。それは概念的に単純で複雑な質問に対しても、人間と同様の堅牢性をAIシステムが示す必要性を強調しています。ベンチマークの方法論のシンプルさ、ゲーム性のなさ、解釈可能性は、人工汎用知能を実現するための効率的なツールとして役立ちます。さらに、注釈付きの質問とリーダーボードの公開は、NLPおよびそれ以上の領域におけるオープンエンドの生成評価の課題に対処することを目指しています。

ディープマインドのこの機械学習研究は、動的な環境での高度な計画に対してベクトル量子化モデル（VQ）を導入しています

技術の絶え間ない進歩により、人間の脳力を模倣することで、人間と同じように思考し学習することができるようになった人工知能（AI）が成功を収めています。人工知能、機械学習（ML）、ディープラーニングの最近の進展により、医療、金融、教育などの多くの分野が改善されています。最近注目を集めている大規模言語モデルは、人間の模倣能力に優れています。質問応答やテキスト要約からコード生成やコード補完まで、これらのモデルはあらゆるタスクで優れた性能を発揮します。大規模言語モデル（LLMs）は、機械学習パラダイムである強化学習の概念を用いて微調整されます。強化学習では、エージェントは周囲との相互作用を通じて意思決定能力を身につけます。環境に対して時間の経過に伴う積み重ねられた報酬信号を最大化することを目指します。モデルベースの強化学習（RL）は最近進化し、計画を必要とするさまざまな状況で有望な結果を示しています。ただし、これらの成功例は、完全に観測可能で決定論的な状況に限定されています。最新の研究では、DeepMindの研究チームがベクトル量子化モデルを使用した新しい計画戦略を提案しています。このアプローチは、確率的で部分的に観察可能な環境で問題を解決することを目的としています。この手法では、状態VQVAE（ベクトル量子化変分オートエンコーダ）および遷移モデルを使用して、将来の観測値を離散的な潜在変数にエンコードします。これにより、確率的または部分的に観測可能なコンテキストに関連付けられる、将来の観測値および将来の行動に対する計画が可能になります。チームは、この手法で離散的なオートエンコーダを使用して、確率的な状況での行動のさまざまな可能な結果を捉えることができました。オートエンコーダは入力データを潜在的な表現にエンコードし、元の形式にデコードします。確率的なコンテキストにおけるエージェントの行動から生じる複数の代替的な結果の描写は、離散的なオートエンコーダの使用によって可能になりました。チームは、この種のコンテキストで計画を容易にするために、モンテカルロツリーサーチの確率的なバージョンを使用しました。計画と意思決定プロセスでの意思決定を行うための人気のある手法の1つはモンテカルロツリーサーチです。この場合、確率的バリアントは環境の不確実性を考慮に入れることができます。エージェントの行動に加えて、環境の可能な応答を示す離散的な潜在変数が計画プロセスに組み込まれています。これにより、部分的な観測可能性と確率性によってもたらされる複雑さを捉える包括的な手法を実現しています。チームは、この手法を評価し、確率的なチェスの解釈において、よく知られているRLシステムであるMuZeroのオフラインバリアントを上回ることを示しました。この視点では、対戦相手はシステムに不確実性をもたらし、周囲の重要な要素と見なされます。DeepMind Labによる効果的な実装により、提案された手法の拡張性が証明されました。このシナリオで観察された好ましい結果は、伝統的なボードゲームを超えた複雑でダイナミックなコンテキストの管理における手法の柔軟性と効果を示しています。結論として、このモデルベースの強化学習技術は、部分的に観測可能な確率的な環境における完全に観測可能な決定論的な環境の効果を拡大します。不確実な環境での生じる困難を洞察するための離散的なオートエンコーダと確率的なモンテカルロツリーサーチのバージョンは、実用的なアプリケーションにおけるパフォーマンスの向上をもたらします。

「このAI論文は、超人的な数学システムの追求において、認知科学と機械学習の融合を探る」という記事です

MIT BCS、ケンブリッジ大学、アラン・チューリング研究所の研究者たちは、人工知能における自動化数学者の歴史的追求を探求し、LLMsの最近の影響を強調しています。認知科学の視点を主張し、人間または超人間レベルの数学システムを構築するために不可欠な古典的な研究および進行中の研究方向に重点を置いています。数学的AIシステムの進化を促進するために、認知科学者、AI研究者、および数学者の間での協力を奨励し、数学の最前線と人間の認知能力についての洞察を提供します。より洗練された数学的AIシステムの開発には、オープンな議論と学際的な取り組みが不可欠です。数学者の自動化の可能性を探る際には、認知科学の視点を考慮することが重要です。多様な人間の数学的能力を包括することは、適応性のある最先端の自動化数学者の創造に不可欠です。学習の自己説明の重要性とAIシステム設計への説明の組み込みには特に注意を払う必要があります。この研究では、大規模な言語モデルを使用した人間レベルの数学パフォーマンスの実現に向けたさまざまな個人やグループの貢献を評価し、課題を認識しています。研究チームは、AIにおける計算システムによって数学の人間レベルの熟練度を実現するという長年の目標に取り組んでいます。 LLMsが可能にした進歩にもかかわらず、数学パフォーマンスは他の領域に追いつく必要があります。彼らのアプローチは、静的なベンチマークを超える自動化された数学者を開発するための総合的な方法を提案しており、洞察力、判断力、理性、および問題解決の戦術を取り入れて数学の知識を推進します。数学の人間レベルのAIを実現するためには、認知科学者、AI研究者、および数学者の間での協力が重要です。認知科学の視点の重要性を強調することで、研究は数学の最前線を押し進める、適応性のある革新的な自動化された数学者の開発を描いています。この研究は具体的な結果を提供していませんが、認知科学とAIの交差点のさらなる探求を奨励し、高度な数学システムを作成するための洞察力の重要性を強調しています。柔軟性のある、最先端のAI数学者の創造が最終目標です。この共同研究は、認知科学、AI、および数学の洞察から導かれた、人間レベルでのパフォーマンスを発揮できるAI数学者の開発を目指しています。研究は、数学の熟練度に必要な基本的な知識と数感に焦点を当てています。 AIシステムの設計は、学習における自己説明の力によって指示を受けています。研究はまた、LLMsの認知的側面と新しい促進戦略についての反省を重視しています。学際的なアプローチを重視することで、計算基盤、問題解決、および数学学習における事前知識の役割を探求するためのディスカッションとツールの提供が行われています。

このAIニュースレターはあなたが必要なすべてです＃75

今週は、OpenAIのドラマが終わり、Sam AltmanとGreg BrockmanがOpenAIに復帰し、2人の新しい取締役が任命されました（既存の1人とともに…

このAI論文は『プライバシー保護MAE-Alignと呼ばれる新しい事前トレーニング戦略を提案し、合成データと人間除去された実データを効果的に組み合わせる』というものです

アクション認識は、ビデオシーケンスから人間の動作を識別・分類するタスクであり、コンピュータビジョンの中で非常に重要な分野です。しかし、このタスクは人々の画像を含む大規模なデータセットに依存しており、プライバシー、倫理、データ保護に関連する重要な課題を引き起こします。これらの問題は、個人属性に基づく個人の特定や、明示的な同意なしでのデータ収集によるものです。さらに、特定のグループが実行する特定の行動に関連するジェンダーや人種などのバイアスは、このようなデータセットで訓練されたモデルの正確性や公平性に影響を与える可能性があります。アクション認識では、大規模なビデオデータセット上での事前学習の進歩が画期的な役割を果たしています。しかし、この進歩には、倫理的な考慮事項、プライバシーの問題、人間イメージのデータセットに固有のバイアスなどの課題が付随しています。これらの課題に対処するための既存のアプローチには、顔のぼかし、ビデオのダウンサンプリング、または合成データの使用が含まれます。しかし、これらの取り組みにもかかわらず、プライバシーを保護する事前学習モデルが学んだ表現が、さまざまなアクション認識タスクへの転移性がどれほど良いかについて、さらなる分析が必要です。最先端のモデルは、バイアスや訓練データの多様性の欠如により、アクションの予測が正確でない場合があります。これらの課題に対処するためには、プライバシーに関する懸念を解決し、学習された表現の転移性を向上させる革新的なアプローチが求められます。プライバシーの懸念や人間中心のデータセットに対するバイアスによる課題を克服するために、最近行われたNeurIPS 2023という有名なカンファレンスで、画期的なアプローチが発表されました。この新たに発表された研究では、仮想人間を含む合成ビデオと人間のいない実世界のビデオを組み合わせてアクション認識モデルを事前学習する方法論が提案されています。この革新的な方法をプライバシー保護MAE-Align（PPMA）と呼びます。この方法は、合成データから時間的なダイナミクスを学習し、人間のいないビデオから文脈特徴を学習することで、個人データに関連するプライバシーや倫理上の懸念に対処します。PPMAは、学習された表現をさまざまなアクション認識タスクに転送する能力を大幅に向上させ、人間中心のデータを使用したモデルとの性能差を縮小します。具体的には、提案されるPPMA手法は以下の主要なステップに従います：プライバシー保護実データ：このプロセスは、Kineticsデータセットを使用し、HATフレームワークを使って人間を除去し、No-Human Kineticsデータセットを作成することから始まります。合成データ追加：SynAPTから合成ビデオを追加し、時間的特徴にフォーカスした仮想人間の動作を提供します。ダウンストリームの評価：6つの異なるタスクでモデルの転移性を評価します。 MAE-Align事前学習：この2段階の戦略は以下のようなものです：ステージ1：MAEトレーニング – ピクセル値の予測を行い、実世界の文脈特徴を学習します。ステージ2：教師ありアライメント – No-Human Kineticsと合成データを使用してアクションラベルに基づくトレーニングを行います。プライバシー保護MAE-Align（PPMA）：ステージ1（No-Human Kineticsで訓練されたMAE）とステージ2（No-Human Kineticsと合成データの両方を使用したアライメント）を組み合わせることで、PPMAはプライバシーを保護しながら頑健な表現学習を実現します。研究チームは、提案手法を評価するために実験を行いました。ImageNetの事前学習を行わずにゼロからトレーニングされたViT-Bモデルを使用し、MAEトレーニング（200エポック）の後に教師ありアライメント（50エポック）を行いました。6つの異なるタスクにおいて、PPMAは他のプライバシー保護手法に比べて、微調整（FT）では2.5％、線形プロービング（LP）では5％の性能向上を達成しました。高いシーン-オブジェクトバイアスのタスクでは多少効果が低かったものの、PPMAは人間中心の実データで訓練されたモデルとの性能差を大幅に縮小し、プライバシーを保護しながら頑健な表現を実現する可能性を示しました。削除実験はMAE事前学習が転移学習においてどれだけ効果的かを示し、さらなる研究の余地を開く文脈と時間的な特徴の組み合わせ、モデルの重みの平均化や動的な学習率の調整などの手法も表現を向上させる可能性を示しました。本記事では、アクション認識モデルに対する新しいプライバシー保護手法PPMAを紹介し、人間中心のデータセットに関連するプライバシー、倫理、バイアスの課題に取り組んでいます。合成データと人間不在の実世界データを活用することで、PPMAは学習された表現を異なるアクション認識タスクに効果的に転送し、人間中心のデータを使用したモデルとの性能差を縮小します。実験結果は、PPMAがプライバシーを保護しながらアクション認識を進化させ、従来のデータセットに関連する倫理的な懸念やバイアスを軽減する能力を示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us