Learn more about Search Results 導入
- You may be interested
- 「タコ」の複雑な細胞は彼らの高い知能の...
- レストランの革命:飲食業界におけるAIの力
- 「自動推論とツールの利用(ART)を紹介し...
- 「条件付き生成敵対的ネットワークとは何...
- 「5つのステップで始めるSQL」
- X / Twitterでお金を稼ぐ方法
- 「ベストインクラスのセッションが開催中...
- PyRCAをご紹介します:AIOpsにおけるRoot ...
- 「Appleの研究者たちは、動的なポーズのRG...
- 「前方予測デコーディング」:LLM推論を加...
- AIにおいて大胆であることは、最初から責...
- 「ヘルスケア業界における生成型AIは、説...
- Google AIは、Symbol Tuningを導入しまし...
- 「AIによる生成写真を用いた文学作品にお...
- 「生成AIは私たちをAIの転換点へと押し進...
Google AIがMedLMを導入:医療業界の利用事例に特化したファミリー型基盤モデル
Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Googleの医療と医学における以前の研究であるMed-PaLM 2という医用に調整された大規模言語モデルに基づいて構築されています。MedLMには、別々のエンドポイントを持つ2つのモデルがあり、顧客にさまざまなユースケースに対する柔軟性を提供します。MedLMは、医療の質問応答や要約に優れた性能を発揮します。 最初のモデルは大きなバリアントで、複雑なタスクを処理するために設計されています。一方、二番目のVoAGIサイズのモデルは、微調整やさまざまなアプリケーションへのスケーラビリティに対して柔軟性を提供します。特定の医療と生命科学の要件に基づいて設計されたこれらのモデルは、基本的な機能から洗練されたワークフローまで、医療におけるAIの採用を強化することが期待されています。 Googleは、HCA Healthcare、BenchSci、Accenture、およびDeloitteと協力し、既存のプロジェクトでのパフォーマンスと効率を向上させるためにMedLMを活用しています。HCA Healthcareとの協力により、MedLMはAugmedixのプラットフォームに統合されています。MedLMの技術を活用したこのアプリは、自然言語処理を使用してクリニシャンと患者の会話をドラフト医療ノートに変換し、医療規制に準拠します。この自動化は、パフォーマンスを向上させるだけでなく、時間の節約、バーンアウトの軽減、そして患者ケアの向上にも貢献します。 BenchSciは、前臨床の研究開発の領域で、ASCENDプラットフォーム内でMedLMを活用しています。目標は、前臨床研究のスピードと品質を向上させることにより、薬の発見を加速することです。ASCENDは、AIパワーのエビデンスエンジンであり、MedLMと協力してバイオマーカーの識別と分類を強化し、科学的な発見プロセスを効率化しています。 Accentureとの協力により、Googleは生成型AIを活用して患者のアクセス、体験、および結果を向上させることを目指しています。Google CloudのClaims Acceleration SuiteとMedLMを統合することで、医療機関は新しい洞察を発見し、最終的にはより良い患者結果につながることができます。MedLMの機能をパイロット導入することにより、DeloitteとGoogle Cloudは、プロバイダディレクトリや福利厚生文書からの情報の簡素化を図り、さまざまな基準に基づいて適切なプロバイダを特定する際にコンタクトセンターエージェントをサポートしています。 これらのプロジェクトすべてが示しているように、MedLMの利用は医療および医学産業におけるAIの成長を支援することができます。Google Researchは、今後数ヶ月間にさらなる機能を提供するために、Geminiベースのモデルを組み込んでMedLMスイートを拡大する予定です。業界のリーダー企業との協力努力は、医療における生成型AIの変革的な可能性を示しています。技術が進化するにつれて、Googleは医療現場の開業医、研究者、および医療組織と緊密に連携し、健康・生命科学における画期的な研究を推進するためにAIの安全かつ責任ある使用を確保することに取り組んでいます。 この投稿は、Google AI Introduces MedLM: A Family of Foundation Models Fine-Tuned…
バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入
諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキストだけを使用するシステムに比べて大きな利点をもたらします。画像は主に、言語では部分的または不完全にしか説明できない、詳細で豊かな視覚情報を提供します。例えば、画像はテクスチャ、色、空間的な関係などの細かな特徴を明確かつ即座に表現することができますが、単語の説明では同じレベルの詳細を完全に表現するためには助けが必要であり、非常に長い説明が必要になる場合もあります。システムは実際の視覚的な手がかりを直接参照することができるため、書かれた説明を解釈するよりも、複雑さや主観性に幅広いばらつきがあることがありますが、このビジュアルの特異性はより正確で詳細な3Dモデルの生成に役立ちます。 さらに、視覚的な手段を利用することで、特に言葉で自分のビジョンを表現するのが難しい人々にとって、意図した結果をより簡単かつ直接的に説明することができます。この多重モダリティの方法は、テキストの文脈の深さと視覚データの豊かさを組み合わせることで、より信頼性のある、ユーザーフレンドリーで効果的な3D制作プロセスを提供する幅広い創造的および実用的なアプリケーションに役立ちます。しかし、3Dオブジェクトの開発の代替手段として写真を使用する際には、いくつかの困難が存在します。テキストとは異なり、画像には色、テクスチャ、空間的な関係など、多くの追加要素があり、これらは単一のエンコーダ(CLIPなど)を使用して正しく分析および理解するのが難しくなります。 さらに、オブジェクトの光、形状、自己遮蔽の大きな変化は、不完全またはぼやけた3Dモデルを提供する可能性がある視点合成において、より正確で一貫性のあるものにするために、高度な計算負荷の技術が必要です。画像処理の複雑さにより、視覚情報を効果的にデコードし、多くの視点で一貫した外観を保証するために、研究者はZero123などのさまざまな拡散モデル手法を使用して2Dアイテム画像を3Dモデルに変換してきました。画像のみのシステムの1つの欠点は、合成された視点は素晴らしいように見える一方で、再構築されたモデルは時々ジオメトリの正確さや緻密なテクスチャに関して補完が必要です、特にオブジェクトの背面の視点に関してです。この問題の主な原因は、生成または合成された視点間の大きな幾何学的な不一致です。 その結果、再構築時に非一致のピクセルが平均化され、ぼやけたテクスチャと丸みを帯びたジオメトリが生じます。要するに、画像条件付きの3D生成は、テキスト条件付きの生成に比べてより制限の多い最適化問題です。3Dデータの量が限られているため、正確な特徴を持つ3Dモデルを最適化することはより困難になります。最適化プロセスは訓練分布から逸脱しやすい傾向があります。例えば、訓練データセットには様々な馬のスタイルが含まれている場合、テキストの説明だけから馬を作成すると、詳細なモデルが生成される可能性があります。しかし、画像が特定の毛皮の特徴、形状、テクスチャを指定する場合、新しい視点のテクスチャ作成は教授された分布から容易に逸脱することがあります。 これらの問題に対処するために、ByteDanceの研究チームは本研究でImageDreamを提案します。研究チームは、現在のアーキテクチャに容易に組み込むことができる多階層画像プロンプトコントローラを提案します。具体的には、カノニカルカメラ座標に基づいて、生成された画像はオブジェクトの中央の正面ビューを描写しなければなりません(アイデンティティの回転とゼロの移動を使用します)。これにより、入力画像の差異を3次元への変換プロセスがよりシンプルになります。多階層コントローラによって情報伝達プロセスが合理化され、画像入力から各アーキテクチャブロックへの拡散モデルの導入が指示されます。 図1: たった1枚の写真で、画期的なフレームワークImageDreamはあらゆる角度から高品質な3Dモデルを作成します。以前のSoTAであるMagic123などに比べて、3Dジオメトリの品質を大幅に向上させています。さらに重要なのは、MVDreamと比較して、作成された画像プロンプトからのテキストの優れた画像対応を保持していることです。さまざまな技術を使用して作成されたアイテムの8つのビューが以下に示されており、ImageDreamによって生成されたモデルによって描かれた一致する法線マップが最後の行に表示されています。 MVDreamのような厳格にテキストに基づいたモデルと比較して、ImageDreamは図1に示すように、与えられた画像から正確なジオメトリを持つオブジェクトを生成することで優れています。これにより、ユーザーは画像とテキストの整列を改善するために、よく開発された画像生成モデルを使用することができます。ジオメトリとテクスチャの品質に関しては、ImageDreamは現在の最先端技術(SoTA)のゼロショット単一画像3Dモデル生成器であるMagic123を凌駕しています。ImageDreamは、実験部分での定量評価とユーザーテストを通じた定性的比較を含む、これまでのSoTAの技術を凌駕していることが示されています。
「ビジネスにスピーチAIを導入する際に考慮すべき5つのポイント」
「退屈な仕事が働く時間の60〜70%を消し去るという世界を想像してくださいMcKinseyの報告によると、自然言語理解の進化により、生成AIがこの夢をすぐに現実化する可能性がありますそれには驚くべきことではありません伝統的な業界でも、ますます多くの企業がこれに取り組んでいるからです...」
Google DeepMindはAlphaCode 2を導入しました:競争プログラミングの優れた進歩において、ジェミニモデルの力を利用した人工知能(AI)システム
機械学習の分野では、テキストデータの生成と理解において驚くべき進展が見られています。しかし、問題解決における新しい革新は比較的単純な算術とプログラミング問題に制約されています。競技プログラミングは、限られた時間内に複雑な問題のためのコードソリューションを書く競技者のコーディングスキルを評価する厳しいものであり、批判的思考、論理的思考、アルゴリズムとコーディングの概念の徹底的な理解が必要です。 Google DeepMindは、競技プログラミングの分野を解決し、向上させることを目指して、AlphaCode 2を導入しました。AlphaCodeよりも高速で正確さと迅速さが求められるゲームであり、AlphaCode 2は基準を引き上げ、ゲームのルールを変えました。この人工知能(AI)システムは、GoogleのGeminiチームによって2023年に作成された強力なGeminiモデルに基づいており、その洗練された論理思考と問題解決能力の基盤となっています。 チームは、AlphaCode 2のアーキテクチャは強力な大規模言語モデル(LLM)と競技プログラミングに特化した高度な検索および再順位付けシステムに基づいていると共有しています。それはコードサンプルを生成するポリシーモデルのファミリー、多様性を促進するサンプリングメカニズム、非準拠のサンプルを除去するフィルタリングメカニズム、冗長性を除去するクラスタリングアルゴリズム、および最適な候補を選ぶスコアリングモデルで構成されています。 プロセスの最初のステップは、AlphaCode 2の基盤となったGemini Proモデルです。それはGOLDトレーニングターゲットを使って厳密な調整を2回行います。1回目はCodeContestsデータセットの新バージョンに焦点を当て、多くの問題と人間が生成したコード例が含まれています。その結果、競技プログラミングで遭遇する多くの困難に対応するために特別に設計された洗練されたモデルのファミリーが生成されます。 AlphaCode 2は包括的かつ綿密なサンプリング戦略を採用しています。システムはチャレンジごとに最大100万のコードサンプルを生成し、各サンプルにランダムに温度パラメータを割り当てることで多様性を促進します。高品質のC++のサンプルがGeminiの助けを借りてAlphaCode 2に使用されています。 評価によると、AlphaCode 2は競技プログラミングのよく知られたプラットフォームであるCodeforcesで最近のテストでその能力を示しました。AlphaCode 2はたった10回の試行で驚異的な43%の問題に回答することができました。同様の状況下で25%の問題を扱った先行システムAlphaCodeに比べて、これは重要な進展です。AlphaCode 2は平均して85番目のパーセンタイルに位置し、中央値の競合相手を上回り、かつてはAIシステムの能力とは考えられていなかったレベルで動作しています。 まとめると、AlphaCode 2は競技プログラミングにおいて困難な問題に取り組むためにAIシステムを使用する方法を示す、驚くべき開発です。このシステムの成功は技術的な成果であり、人間とAIプログラマがプログラミングの限界を押し上げるために協力する可能性を示しています。
新しいCMUとMetaによるAI研究、PyNeRFの導入:スケールに意識したグリッドベースのレンダリングにおけるニューラル輝度場の進化
ニューラル・ラディアンス・フィールド(NeRF)は、シーン再構成時のスケールの変動とエイリアシングのアーティファクトを減らすためにどのように改善できるのでしょうか? CMUとMetaからの新しい研究論文では、ピラミッド状のニューラル・ラディアンス・フィールド(PyNeRF:Pyramidal Neural Radiance Fields)を提案することで、この問題に取り組んでいます。PyNeRFは、異なる空間グリッド解像度でモデルヘッドを訓練することにより、さまざまなカメラ距離でシーンを再構成する際に生じる視覚的な歪みを軽減するのに役立ちます。PyNeRFはパフォーマンスに大きな影響を与えることなく、NeRFを高速化しながら高品質のシーン再構成を維持する効果的な解決策です。 NeRFに触発されて、この研究ではボクセルグリッドやテンソル近似を使用して描画速度とメモリ効率を向上させるためのグリッドベースの手法(NSVF、Plenoxels、DVGO、TensoRF、K-Planes、Instant-NGP)を探求しています。PyNeRFは、速度の利点と品質の維持を兼ね備え、Instant-NGPやNerfactoなどの他の高速描画手法を凌駕し、描画品質とトレーニング速度で優れた結果を示します。 Nerfを含む最近のニューラルボリューメトリックレンダリングの進歩は、現実的な視点合成の進展をもたらしています。ただし、NeRFはMLP表現と仮定により遅いため、エイリアシングが発生します。Mip-NeRFなどのグリッドベースの手法はトレーニングを加速しますが、位置符号化との互換性に欠けます。PyNeRFは、分割と征服のNeRF拡張と古典的な技術からインスピレーションを受けています。PyNeRFのモデルピラミッドはレイに沿ってサンプリングされ、分割アプローチが採用されることにより、高速化されたNeRF実装の速度を維持しながら、描画品質が改善されます。効率的かつ高品質な新しい視点合成のための幅広い解決策を提供します。 研究では、より大きなボリュームサンプルの描画に向けて、グリッドベースのモデルを修正し、異なる空間グリッド解像度でモデルヘッドを訓練することを提案しています。バックボーンモデルとしてSUDSを使用し、徐々により高い解像度でトレーニングします。学習した特徴をボクセルグリッドやハッシュテーブルなどの構造に保存するさまざまなグリッドベースの加速手法について議論されています。研究者は、LaplacianPyNeRFや他の補間手法と比較して、特徴グリッドの再利用と2Dピクセル領域の使用の影響を評価しています。主な貢献は、既存のグリッド描画手法において描画速度を保持しながら視覚的な忠実度を向上させる多目的の分割手法です。 PyNeRFは、合成と実世界のシーンにおいて誤差率を20〜90%低下させ、パフォーマンスへの影響を最小限に抑えることで描画品質を大幅に向上させます。Mip-NeRFと比較して、トレーニング速度が60倍速い状態で誤差を20%削減します。PyNeRFは2時間でSUDS品質に収束し、さまざまなメトリックでベースラインを凌駕しますが、SUDSには4時間かかります。さまざまな合成およびマルチスケールブレンダーデータセットでのテストと評価によって、PyNeRFの高品質な再構築はArgoverse 2 Sensorデータセットでの評価に証明されています。 まとめると、PyNeRFは高速ボリューメトリックレンダラーのアンチエイリアシング機能の向上において印象的な進展を示し、さまざまなデータセットで優れた結果を示しています。この手法は、現実世界のキャプチャを共有することでニューラルボリューメトリックレンダリングの研究を更に進めることを提唱していますが、高品質なニューラル表現の効率的な構築におけるセキュリティとプライバシーのリスクにも言及しています。 今後の研究は、追加の実世界のキャプチャの共有や統合ボリュームを階層レベルに割り当てるための代替マッピング関数の探求から利益を得ることができるでしょう。モデルのトレーニング中にプライバシーフィルタリングのためにセマンティック情報を使用することも有益な調査方向です。将来の興味深い展望には、高速なNeRF手法において描画速度を保持しながら視覚的な忠実度を向上させるためのアーキテクチャのさらなる探求が含まれます。潜在的な研究領域には、ピラミッドアプローチを他の高速NeRF実装に適用し、そのパフォーマンスを評価することがあります。
『Google AI Researchが効率的な連成振動子のシミュレーションに革新的な量子アルゴリズムを導入』
古典力学は、物体の運動、それに作用する力、およびその活動に関連付けられたエネルギーについて扱います。量子力学は、物質とエネルギーの振る舞いを原子スケールと亜原子レベルで記述する物理学の基本理論です。 量子コンピュータは、古典コンピュータよりも指数関数的に速く問題を解決することを約束しています。しかし、ショアの因数分解アルゴリズムや量子シミュレーションなどの、これほどの劇的なスピードアップを示す例はほんの一握りです。 古典力学の問題は、特に結合した調和振動子のシミュレーションにおいて計算上の障壁を持っています。質量がばねで結ばれた系は、この振動子の一つの群の変位が系全体で連続的な振動を引き起こす一般的な例です。質量の数が増えるにつれて、これらの相互に関連する運動をシミュレートする複雑さも増します。複雑さの課題は、長い間古典力学のシミュレーションを妨げ続けてきました。 そのため、研究者たちは、すべての質量とばねの位置と速度を量子ビット系の量子波動関数に符号化するマッピング技術を考案しました。量子ビット系のパラメータの指数関数的な増加を利用して、研究者たちは、質量の情報を効率的に符号化するにはおおよそ log(N) 個の量子ビットが必要であることを見つけました。これは、量子ビット系の量子波動関数を記述するパラメータの数が、量子ビットの数に指数関数的に増加するためです。 このパラメータの指数関数的な成長の利用により、量子ビット系の波動関数の進化によって後でボールとばねの座標が決定されるため、このようなシステムをシミュレートするために必要なリソースは、単純な古典的なアプローチに比べてはるかに少なくて済みます。 研究者たちは、量子アルゴリズムで効率的に解決可能な任意の問題を、結合した振動子ネットワークを含む状況に変換できることを示しました。この発見により、量子コンピュータの使用方法に新たな可能性が生まれました。また、古典的なシステムについて考えることにより、量子アルゴリズムの新しい開発方法も提案されました。 研究者たちは、古典力学と量子力学の動力学が等価であることを証明するだけでなく、この研究は指数的なスピードアップを提供するさらなる量子アルゴリズムの開発への道を切り開いています。この革新的な量子アルゴリズムにより、計算上要求の厳しい問題を解決する能力が革命的に向上しました。彼らは、古典的な波が量子環境でどのように伝播するかを理解することにより、科学者が難解な問題を効果的に解決するための新たな可能性を開くことができると述べています。 まとめると、この研究は古典力学と量子コンピューティングを組み合わせる重要な一歩となります。発見された量子アルゴリズムは、効率的なシミュレーションによる結合した古典的調和振動子を行う強力なツールを提供します。この革新的な発見の可能性が広がるにつれて、量子コンピューティングの範囲も拡大しています。
データのセキュリティとコラボレーションの強化:AWS Clean Roomsが機械学習と差分プライバシー機能を導入
Amazon Web Services(AWS)は、セキュアなデータ共有サービスであるClean Roomsの新しいアップデートを発表しました。このアップデートにより、最新の機械学習(ML)と差分プライバシー機能を組み込むことで、企業はセキュリティを強化し、機械学習モデルの活用とデータのプライバシー保護を両立させながら正確なデータ分析を推進することができます。 最新のClean Roomsでは、データプライバシーを強化しセキュアな共同作業を促進するさまざまな機能が追加されました。機械学習のサポートを組み込むことにより、オリジナルデータを公開することなくMLモデルを活用することができます。この革新的な機能により、機密情報を明かすことなく共同データ分析を行うことが可能となり、データプライバシーを重視する企業にとって大きな利点となります。 差分プライバシー機能もClean Roomsに統合されることで、データクエリの結果に適切にキャリブレートされたエラー(「ノイズ」とも呼ばれる)を組み込むことができます。これにより、個々のデータ貢献を曖昧化しながら分析の正確性を確保することができます。プライバシーバジェットコンポーネントを使用してプライバシーを有限のリソースとして取り扱うことにより、この機能はデータ漏洩を防ぎ、プライバシーリソースの枯渇や潜在的な侵害の回避に寄与します。 差分プライバシーは、特定の個人情報を漏洩することなく統計的パターンを明らかにする技術であり、AWS Clean Roomsはこの技術の適用を簡略化します。ユーザーは差分プライバシー機能を有効にし、共同作業の設定内でプライバシーポリシーを設定することで、このプライバシー強化技術を簡単に使用することができます。 今回のアップデートにおける画期的な機能であるClean Rooms MLにより、ユーザーは機械学習モデルを活用しながら機密データを保護することができます。この機能はさまざまな産業に適用され、ターゲットマーケティングの効果の高化、潜在的な顧客の特定、臨床研究の迅速化などを行う際に重要な情報を保護しながら支援します。 Clean Rooms MLの導入により、ユーザーはAWSによって管理されたモデルを組織内のデータ共有のコラボレーションにおいて訓練する必要がなくなります。このML機能のシームレスな統合により、ユーザーはモデルの予測を柔軟に制御し、分析において適応性と精度を確保することができます。 さらに、Clean Roomsではプライバシーコントロール機能も導入されており、適切な権限を持つClean Roomsメンバーが実行するクエリや出力を管理する権限を使用者に与えることができます。この追加のセキュリティレイヤーにより、コラボレーションエコシステム内のデータセキュリティとプライバシーの措置がさらに強化されます。 要するに、刷新されたAWS Clean Roomsは、セキュアなデータコラボレーションにおけるパラダイムシフトを象徴し、包括的なデータ分析の可能性を引き出しつつ、重要な情報の保護を重視しています。最新の機械学習と差分プライバシーの機能を組み合わせることで、AWSはデータセキュリティを確保しつつ分析の効率を高める道を開拓し、より安全で洞察に満ちた共同作業の未来を切り拓いています。 この記事の投稿は、Enhancing…
「Pixel 8 Pro」という初めてのAI搭載スマートフォンは、現在Gemini Nanoで稼働しており、さらにAIのアップデートがPixelポートフォリオにも導入されています」
ニューフィーチャードロップは、Pixelハードウェアへのアップデートをもたらしますさらに、Gemini Nanoは、Pixel 8 Proのデバイス内生成AI機能をパワーアップします
「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」
人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の体の配置や位置を指します。良い姿勢は、筋肉、関節、靭帯の最適な配置をサポートし、筋力バランスの崩れ、関節痛、過度の使用による怪我のリスクを軽減します。体重を均等に分散させ、特定の体の部位に過度のストレスをかけないようにすることもできます。 適切な姿勢により、肺の拡張が容易になり、適切な呼吸が促進されます。 背が丸まったり、姿勢が悪いと、胸腔を圧迫し、肺の容量が制限され、効率的な呼吸が妨げられます。さらに、良い姿勢は全身の健康な循環をサポートします。研究によると、良い姿勢を維持することは、気分や自信に良い影響を与える可能性があります。直立かつ姿勢の開いた姿勢は、自己主張力が増し、ポジティブさが増し、ストレスレベルが低下すると関連付けられています。 マックス・プランク・インテリジェントシステムズ、ETHチューリッヒ、メッシュケイド、清華大学の研究者チームは、PoseGPTと呼ばれる大規模言語モデルを使用したフレームワークを作成し、画像またはテキストの記述から3D人体ポーズを理解し、推論することができます。画像ベースやテキストベースの従来の人体ポーズ推定手法では、より包括的なシーンの理解と微妙な推論が必要であり、視覚データとその現実世界での意味のギャップが生じることがあります。PoseGPTは、テキストと視覚的な入力の両方から3Dボディポーズを直接生成することができるように、SMPLポーズを異なる信号トークンとして埋め込むことで、これらの制約に対応します。 彼らの手法では、SMPLポーズをユニークなトークンとして埋め込み、SMPLポーズに関連する問い合わせに対してLMMをプロンプトすることで、これらを出力させます。このトークンから言語の埋め込みを抽出し、MLP(多層パーセプトロン)を使用してSMPLポーズパラメーターを直接予測します。これにより、モデルはテキストまたは画像を入力として受け取り、3Dボディポーズを出力することができます。 彼らは、PoseGPTを単一画像からの3D人体ポーズ推定やテキストの説明からのポーズ生成など、様々なタスクで評価しました。これらの古典的なタスクの評価精度は、特化した手法と同等にはまだ達していませんが、これを概念実証の最初の段階と見なしています。さらに重要なことは、LLMがSMPLポーズを理解すると、追加のデータやトレーニングを必要とせずに、人体ポーズに関連して世界の知識を活用し、推論することができる点です。 通常のポーズ回帰手法とは異なり、彼らの手法では、マルチモーダルLMMに個人を囲むトリミングされた領域外境界ボックスを提供する必要はありません。代わりに、モデルは全体のシーンにさらされ、そのコンテキスト内の個人や個々のポーズに関するクエリを形成することができます。 LLMが3Dボディポーズの概念を把握すると、人体ポーズを生成し、世界を理解する能力を持つようになります。これにより、複雑な口頭および視覚的な入力を通じて推論し、人体ポーズを開発することができます。この能力により、これまでには実現不可能だった新たなタスクや、どのモデルのパフォーマンスを評価するためのベンチマークが導入されます。
「人間の活動認識におけるディープラーニング:このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」
ヒューマンアクティビティ認識(HAR)は、さまざまなセンサから収集したデータに基づいて、自動的に人間の活動を識別および分類する方法と技術の開発に焦点を当てた研究領域です。HARは、スマートフォン、ウェアラブルデバイス、またはスマート環境などのマシンがリアルタイムで人間の活動を理解し解釈することを目指しています。 従来は、ウェアラブルセンサに基づく方法やカメラに基づく方法が使用されていました。ウェアラブルセンサはユーザにとって不快で不便です。カメラに基づく方法は侵入的な設置が必要で、プライバシーの懸念があります。既存のHAR技術は、位置依存性、ノイズへの感度、さまざまなアプリケーション(スマートホーム、ヘルスケア、モノのインターネットなど)で多様な活動をより柔軟に認識するための必要性などの課題に直面しています。UTeMが使用する方法は、正確で適応性があり、位置に依存しない解決策を提供します。 マラッカ工科大学(UTeM)の研究者は、従来の制約に対処するためのヒューマンアクティビティ認識(HAR)の手法を作り出しました。彼らはChannel State Information(CSI)と高度な深層学習技術を活用したシステムを導入しました。 このシステムは、Channel State Information(CSI)をLong Short-Term Memory(LSTM)ネットワークと組み合わせて使用します。システムは、無線通信チャネルの状態を抽出し、リアルタイムな分類と絶対的な位置に依存しないセンシングを可能にします。LSTMネットワークは、活動の特徴の連続的な学習を実現し、異なる人と環境における人間の活動の変動に対応することで、識別プロセスを容易にします。 研究者は、まずRaspberry Pi 4と専用ファームウェアを使用して原始的なチャネル状態情報(CSI)データを収集および前処理し、MATLABを使用して品質と応用を最適化するためにデータを改善したと強調しました。 Long Short-Term Memory(LSTM)ネットワークを使用して、CSIデータから重要な特徴を抽出し、複雑な人間の活動を正確に認識できるようにしました。彼らはLSTMモデルと分類プロセスに厳密なトレーニングを行いました。オンラインフェーズではパターン認識、オフラインフェーズではパフォーマンスの向上が含まれています。 このシステムは、LSTMアルゴリズムを使用して信号のセグメンテーション方法を導入し、人間の活動の開始点と終了点を正確に決定します。 研究者は、このシステムは人間の活動の認識において驚異的な97%の正確さを達成しました。新しい環境に適応する能力を示し、HAR技術の重要な進展を示しました。 研究者は、システムの顕著な適応性を強調しました。再学習や大幅な変更を必要とせずに異なる設定に簡単に統合することができます。この柔軟性により、さまざまな分野に実用的な解決策となり、スマートホーム、ヘルスケア、モノのインターネットなどの様々な実世界の要件に効果的に対応することができます。この手法は、HAR技術の重要な進展を表し、スマートホーム、ヘルスケア、モノのインターネットなどの多くの業界に大きな影響を与える可能性があります。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.