Learn more about Search Results MarkTechPost - Page 20

「単一細胞生物学のAIのフロンティアを探索する:GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

単一細胞生物学における基礎モデルの応用は、研究者の間で最近の議論のトピックとなっています。scGPT、GeneCompass、Geneformerなどのモデルは、この分野において有望なツールの一部です。しかし、特にゼロショット設定での効果が懸念されており、特に探索的実験や微調整のための明確なラベルの欠如がこの分野に関与する場合において、その有効性が問題となっています。この論文は、この問題に基づいて、これらのモデルのゼロショットパフォーマンスを徹底的に評価しています。 以前の研究では、特定のタスクに対してこれらのモデルを微調整することに頼ってきましたが、この分野の性質や高い計算要件のため、その限界は一目瞭然です。そのため、この課題に対処するため、マイクロソフトの研究者はGeneformerとscGPTの基礎モデルのゼロショットパフォーマンスを、異なるデータセットや細胞型クラスタリング、バッチエフェクトの修正、事前トレーニング目標に基づくモデルの入力再構築の有用性など、多様なタスクについて評価しました。 これらの2つのモデルを選んだ理由は、(評価時点で)事前学習済みの重みが利用可能であるためです。評価には、研究者はそれぞれのデータセットで訓練された生成モデルであるscVIを比較対象としました。以下のメトリックスを各タスクに使用しました: 細胞埋め込みの評価には、Average Silhouette Width(ASW)およびAverage Bio(AvgBIO)スコアを使用し、細胞型が埋め込み空間内でどの程度一意であるかを計算しました。 バッチ統合においては、スケール0から1までのAWSスコアの変形を使用し、0はバッチの完全な分離を示し、1は完璧なバッチの混合を示します。 scGPTおよびGeneformerの事前トレーニング目標のパフォーマンス評価には、それぞれ平均二乗誤差(MSE)およびピアソンの相関係数を使用しました。 scGPTおよびGeneformerは、両方のメトリックスにおいてベースライン戦略よりも劣った結果となりました。Geneformerは異なるデータセットに対して高い分散を示し、scGPTは1つのデータセットにおいてはベースモデルscVIよりも優れた性能を発揮しましたが、2つのデータセットでは遅れを取りました。その後、研究者は事前学習データセットがモデルのパフォーマンスに与える影響を評価しました。特にscGPT(scGPTの4つのバリアント)に焦点を当て、すべてのモデルバリアントで中央値スコアが改善されたことが分かりました。 バッチエフェクトの評価では、両モデルが低い結果を示し、しばしばscVIのようなモデルに遅れを取ることから、ゼロショット環境においてバッチエフェクトに完全に頑健ではないことが示されています。最後の評価セットでは、研究者はscGPTが遺伝子の発現を再構築できないこと、一方Geneformerがより良いパフォーマンスを示すことを発見しました。ベースラインと比較した結果、すべてのscGPTバリアントよりもベースラインの予測の方が優れており、Geneformerはデータセットの1つで平均ランキングよりも優れた性能を発揮しました。 結論として、研究者は単一細胞生物学に適用した場合のscGPTとGeneformerのゼロショット能力を詳細に分析し、その結果はこれらのモデルの劣ったパフォーマンスを示しています。研究者はさらなる研究が必要な領域についても洞察を提供し、特に事前トレーニングタスクとデータセット、およびダウンストリーム分析タスクのパフォーマンスとの関係を明示しました。

Gスイートの見逃せない5つのGoogle Duet AIの驚異的な機能

Googleは最新のイノベーション、Duet AIにより再びレベルを引き上げました。このG-Suiteファミリーの強力な追加機能は、Sheets、Meet、Slides、Docs、そしてGmailを通じて生産性を向上させ、タスクを効率化するために設計されています。ここでは、働き方や協力方法を変えるであろうこれらの5つのゲームチェンジングな機能について詳しく見ていきましょう。 1. Sheets + Duet AI = これまで以上に高速な分析 Sheets内のDuet AIは、ユーザーが自然言語を使用して複雑な式を簡略化することで、複雑なタスクを簡略化します。それはタスクやプロジェクトのためのカスタマイズされた計画の作成を容易にします。複雑さと簡素さのギャップを埋めることにより、ユーザーはデータ分析と計画作成のプロセスを大幅にスピードアップすることができます。 2. Meet + Duet AI = より意味のあるコネクション Duet AIによりビデオ会議の体験が向上し、ユーザーは顧客の業界に基づいて背景を個別にカスタマイズすることができます。これにより仮想ミーティングにプロフェッショナルな印象を加えることができます。さらに、ミーティング中の自動メモ機能により、参加者は気を散らさずに重要なポイントを捉えることができます。 3. Slides + Duet…

ソウル国立大学の研究者たちは、ディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成において、画期的なAI手法であるLucidDreamerを紹介します

商業的で混合現実プラットフォームの開発と、3Dグラフィックス技術の急速な進歩により、高品質な3Dシーンの作成はコンピュータビジョンの主要な課題の一つとなっています。これには、任意の入力テキスト、RGB、RGBD画像などをリアルな多様な3Dシナリオに変換する能力が求められます。3Dスキャンに基づく訓練データの制約により、ボクセル、ポイントクラウド、暗黙的なニューラル表現を使用して直接3Dオブジェクトとシーンを構築しようとする試みはあったものの、制限された多様性と品質を示しました。Stable Diffusionのような事前訓練された画像生成拡散モデルを使用して、多様な優れた3Dシナリオを生成するアプローチが問題の解決策の一つです。このような巨大なモデルは、大量の訓練セットから得られるデータ駆動型の知識に基づいて信じられる画像を生成しますが、生成される画像間の多視点の一貫性を保証することはできません。 ソウル大学の研究チームは、この論文で「LucidDreamer」というパイプラインを紹介しています。これは、テキスト、RGB、RGBDなどのさまざまな種類の入力から、3Dガウススプラッティングと安定した拡散を使用して高品質な3Dシナリオを生成するために交互に繰り返される「Dreaming」と「Alignment」という2つのステップを提供します。「LucidDreamer」パイプラインを使用して、1つの大きなポイントクラウドを作成します。2つのプロセスを開始する前に、元の画像と一致する深度マップで初期のポイントクラウドを作成します。幾何学的に一貫した画像を作成し、それらを三次元空間に投影することは、夢の体験の一部です。新しいカメラ座標上の可視ポイントクラウド領域を新しいカメラ平面に投影する前に、研究チームはカメラを事前に定義されたカメラ軌跡に沿って移動させます。次に、投影された画像はStable Diffusionベースのインペインティングネットワークに送られ、画像を使用してアイデア全体を作成します。インペインティングされた画像と予測された深度マップを3D空間に持ち上げることにより、新しい3Dポイントのコレクションが作成されます。次に、新しいポイントの位置を3D空間でゆっくりと移動させることにより、提案されたアライメント技術が現在のポイントクラウドにスムーズに結合します。以上の手順を十分な回数行った結果得られる巨大なポイントクラウドを、Gaussian splatsの最適化のためのSfMポイントの開始点として使用します。 3Dガウススプラッティングの連続的な表現により、ポイントクラウド内の深度差によるギャップがなくなり、より写真のような3Dシナリオを表示することができます。図1は、シンプルなLucidDreamerテクニックと共に3D生成の結果を示しています。現行のモデルと比較して、LucidDreamerは非常に現実的で驚くほどの結果を示します。研究チームによると、ScanNet、NYUDepth、Stable Diffusionの画像を条件とした作成された3Dシーンを比較すると、すべてのデータセットでより良い視覚効果が見られます。 図1:研究チームは、テキスト、RGB、RGBDなどの入力タイプから高品質で多視点一貫の3Dシナリオを生成するための基本的なフレームワーク「LucidDreamer」を作成します。RGBD画像を持ち上げて最初のポイントクラウドを生成した後、LucidDreamerはアライメントとドリーミングの2つのプロセスを繰り返してワールドモデルを成長させます。Gaussian splattingの表現を最適化することで、3Dシーンが完成します。 彼らのモデルは、現実的、アニメ、レゴ、屋外/屋内など、さまざまなジャンルの3Dシナリオを作成できます。そのコンセプトは多くのドメインをサポートし、複数の入力条件を同時に使用することができます。たとえば、テキストに基づいて3Dシーンを作成し、画像を追加することができます。これにより、テキストだけから意図したシーンを完全に作成する際の困難が解消され、大量のサンプルを作成する必要もありません。さらに、彼らの方法では、3D空間の作成中に入力条件を変更することができます。これらの機能は、さまざまな3D設定を構築する機会を提供することで創造性を刺激します。 以下は彼らがまとめて行った貢献です。 • 研究チームはLucidDreamerを提案します。これはドメインに依存しない高品質な3Dシーン制作ツールであり、明示的な3D表現、深度推定、安定した拡散を使用して、3Dシーン合成のドメイン一般化を改善します。 • 彼らのDreamingアプローチは、各画像生成のための幾何学的ガイドラインとしてポイントクラウドを生成し、Stable Diffusionから複数の視点の画像を生成します。生成された写真は彼らのAlignment技術を用いて巧みに統合され、一貫した3Dシーンが作成されます。 • 彼らの手法により、複数の入力タイプ(テキスト、RGB、RGBD)をサポートし、複数の入力を同時に使用したり、生成プロセス中に入力を変更したりすることで、ユーザーはさまざまな方法で3Dシーンを生成できます。

韓国大学の研究者たちは、HierSpeech++を発表しました:高品質で効率的なテキスト読み上げと声の変換のための画期的なAIアプローチ

韓国大学の研究者たちは、HierSpeech++という新しい音声合成器を開発しました。この研究は、堅牢で表現豊かで自然で人間らしい合成音声を作り出すことを目的としています。チームは、テキスト-音声の対応データセットに頼らずにこれを達成し、既存モデルの短所を改善することを目指しました。HierSpeech++は、音声合成における意味論的な空間と音響的な表現とのギャップを埋めることを目的として設計され、スタイルの適応を改善します。 これまで、LLMに基づくゼロショット音声合成には制約がありました。しかし、HierSpeech++はこれらの制約に対処し、推論速度の遅さに関連する問題を解決するために開発されました。HierSpeech++は、テキストとイントネーションのプロンプトに基づいて自己教師あり音声とF0表現を生成するテキスト-ベクトルフレームワークを活用することで、LLMベースおよび拡散ベースのモデルを上回るパフォーマンスを発揮することが証明されています。これらの高速化、堅牢性の向上、品質の進歩により、HierSpeech++は強力なゼロショット音声合成器として位置付けられています。 HierSpeech++は、事前トレーニングなしで音声を生成するための階層的なフレームワークを使用しています。テキストとイントネーションのプロンプトに基づいて自己教師ありのアドレスとF0表現を開発するために、テキスト-ベクトルフレームワークを採用しています。音声は、階層的なバリアショナルオートエンコーダーと生成されたベクトル、F0、および音声プロンプトを使用して生成されます。この方法には、効率的な音声の超解像度フレームワークも含まれています。包括的な評価では、対数スケールメルエラー距離、音声品質の知覚評価、ピッチ、周期性、音声/非音声F1スコア、自然さ、平均評価スコア、音声の類似性MOSなど、ロスケールのメトリックスと主観的なメトリックスを備えたさまざまな事前トレーニングモデルと実装が使用されます。 HierSpeech++はゼロショットのシナリオで優れた自然さを実現し、堅牢性、表現力、話者の類似性を向上させます。自然さ、平均評価スコア、音声の類似性MOSなどの主観的なメトリックスが音声の魅力を評価するために使用され、その結果、HierSpeech++は真実の音声を上回る性能を示しました。音声の自然さをさらに向上させるために、16 kHzから48 kHzへの音声の超解像度フレームワークも取り入れられました。実験結果はまた、HierSpeech++における階層的なバリアショナルオートエンコーダーがLLMベースのモデルおよび拡散ベースのモデルに優れていることを示し、堅牢なゼロショット音声合成器となっています。また、ノイズのあるプロンプトでのゼロショットテキスト音声合成が、見知らぬ話者からの音声生成におけるHierSpeech++の有効性を検証することも明らかにされました。階層的な合成フレームワークは、柔軟なイントネーションと声のスタイルの転送も可能にし、合成音声をさらに柔軟にします。 まとめると、HierSpeechはゼロショット音声合成において人間レベルの品質を達成するための効率的かつ強力なフレームワークを提供します。意味モデリング、音声合成、超解像度、イントネーションと声のスタイルの転送の切り離しにより、合成音声の柔軟性が向上します。このシステムは、小規模なデータセットでも堅牢性、表現力、自然さ、話者の類似性の向上を実証し、推論速度を大幅に向上させます。この研究では、クロスリンガルおよび感情制御可能な音声合成モデルへの拡張の可能性も探求されています。

このAI研究は、トライアングルとしてメッシュを直接出力する革新的な形状生成手法であるMeshGPTを紹介しています

メッシュGPTは、ドイツ工科大学ミュンヘン校、トリノ工科大学、アウディAGの研究者によって提案された三角形メッシュの自己回帰生成法であり、学習済みトライアングルシーケンスの語彙を利用したGPTベースのアーキテクチャを活用しています。この手法では、幾何学的な語彙と潜在的な幾何学的トークンを使用して三角形を表現し、鮮明なエッジを持つ整合性のある、クリーンでコンパクトなメッシュを生成します。他の手法とは異なり、MeshGPTは変換を必要とせずに三角形メッシュを直接生成し、既知の形状だけでなく、新しい現実的な形状も高い精度で生成する能力を示しています。 従来の形状生成手法(ボクセルベースやポイントクラウド手法など)は、細部や複雑な形状を捉えることに制限がありました。暗黙的な表現手法は、形状をボリューメトリックな関数としてエンコードするものの、しばしばメッシュ変換が必要であり、密なメッシュを生成してしまいました。これまでの学習ベースのメッシュ生成手法では、適切な形状の詳細捕捉に支援が必要でした。一方、PolyGenとは異なり、MeshGPTはシングルデコーダーのみのネットワークを活用し、学習されたトークンを使用して三角形を表現することで、効率的かつ高精度なメッシュ生成を実現し、推論時の堅牢性を向上させています。 MeshGPTは、デコーダーのみのトランスフォーマーモデルを使用して三角形メッシュを直接生成する3D形状生成手法を提供します。この手法では、学習された幾何学的な語彙とグラフ畳み込みエンコーダーを使用して三角形を潜在的なエンベッディングにエンコードします。ResNetデコーダーにより、自己回帰的なメッシュシーケンス生成を実現します。MeshGPTは、形状のカバレッジとフレシェ・インセプション・ディスタンス(FID)スコアにおいて、既存の手法を上回り、ポスト処理をしないで密なメッシュや過度に滑らかな出力を生成するための効率的なプロセスを提供します。 MeshGPTは、ジオメトリックな語彙に基づいてトークンをデコードして三角形メッシュ面を生成するためのデコーダーのみのトランスフォーマーモデルを使用します。三角形を潜在的な量子化されたエンベッディングに変換するためにグラフ畳み込みエンコーダーを活用し、ResNetによって頂点座標を生成します。全てのカテゴリでの事前トレーニング、トレインタイムの拡張によるファインチューニング、ジオメトリックなエンベッディングの影響を評価するための実験などが行われます。MeshGPTのパフォーマンスは、形状のカバレッジとFIDスコアに基づいて評価され、最先端の手法に優れた性能を示します。 MeshGPTは、Polygen、BSPNet、AtlasNet、GET3Dなどの主要なメッシュ生成手法と比較して、形状品質、三角形化品質、形状多様性において優れた性能を発揮し、鮮明なエッジを持つクリーンで整合性のある詳細なメッシュを生成します。ユーザースタディでは、総合的な形状品質や三角形化パターンの類似性において、MeshGPTが他の手法よりも明らかに優れています。MeshGPTはトレーニングデータを超える新しい形状を生成することができ、そのリアリティが際立ちます。アブレーションスタディでは、形状品質において学習されたジオメトリックなエンベッディングの正確さが、単純な座標トークン化と比較してどれだけ良い影響を与えるかを明らかにしています。 結論として、MeshGPTは鮮明なエッジを持つ高品質な三角形メッシュの生成において優れた性能を発揮しています。デコーダーのみのトランスフォーマーや学習されたジオメトリックなエンベッディングの語彙学習への組み込みにより、実際の三角形化パターンに近い形状を生成し、既存の手法を凌駕しています。最近の研究では、他の手法と比較して、ユーザーはMeshGPTを総合的な形状品質やグラウンドトゥルースの三角形化パターンとの類似性において優れていると評価しています。

「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」

人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に重要です。AIとMLの手法の持続的な向上は、機械が何を達成できるかと人間が機械とどのように相互作用するかの可能性を再定義しました。 ディープラーニングを含むAIの分野はデータに完全に依存しており、重要なデータはデータウェアハウスに格納されており、これは主外部キーの関係を介して複数のテーブルに分散されています。このようなデータを使用してMLモデルを開発することはいくつかの困難を伴い、既存のML手法は複数の関係テーブルにまたがるデータから直接学習するのに適していません。現在の手法では、データをフィーチャーエンジニアリングと呼ばれる手順を介して単一のテーブルに変換する必要があります。 この課題に対処するため、スタンフォード、Kumo AI、イエール、マックス・プランク、イリノイ大学アーバナ・シャンペーン校の研究者チームは最近、Relational Deep Learningを提案しました。このエンドツーエンドのディープレプリゼンテーション学習手法は、複数のテーブルに分散されたデータを扱うことができます。この手法は、関係テーブルを異種グラフとして基本的な方法で再構築するために開発されました。このグラフモデルでは、各テーブルの行がノードを表し、主外部キーの関係がエッジを定義します。 Message Passing Neural Networks(MPNN)を使用して複数のテーブルを自動的にトラバースし、学習することで、手動のフィーチャーエンジニアリングを必要とせずに、すべての入力データを活用する表現を抽出します。チームはまた、ベンチマークデータセットとRelational Deep Learningの実装を含む包括的なフレームワークであるRELBENCHを提供しています。これらのデータセットには、Amazon Product Catalogの書籍レビューやStack Exchangeなどのサイトでの会話など、さまざまな主題が含まれています。 RELBENCHには、次の3つの主要なモジュールが含まれています。 データモジュール:RELBENCHのデータモジュールは、関係データセットを効率的に使用するためのフレームワークを提供します。その中には、時間的なデータ分割、タスクの指定、データの読み込みという3つの主要な機能が含まれています。 モデルモジュール:このモジュールは、未処理のデータをグラフ表現に変換することで、Graph Neural Networks(GNN)の予測モデルを構築します。頑健なディープラーニングライブラリPyTorch Geometricを使用して、RELBENCHはいくつかの広く使用されているGNNアーキテクチャのベンチマークを行います。このモジュールはモデルアーキテクチャの柔軟性を可能にし、予測モデルの開発と生の関係データの間のギャップを埋めるのに不可欠です。 評価モジュール:このモジュールは、モデルの性能を評価するための一貫した手順を作成します。モデルの予測を方法論的に評価することで、モデルの効果を定量化する量的な指標を提供します。このモジュールは、深層学習フレームワークから独立して作られているため、さまざまな人気のある深層学習ツールと連携します。この柔軟性により、研究者や実践者は評価手順を犠牲にすることなく、自分の選択したフレームワークを使用することができます。

東京理科大学の研究者は、材料科学におけるこれまで知られていなかった準結晶相を検出する深層学習モデルを開発しました

物質における新しい結晶構造を発見する探求は、電子から製薬まで幅広い産業において重要な意味を持ち、科学的な探求の中核となってきました。原子の秩序だった配置によって定義される結晶材料は、技術の進歩で重要な役割を果たします。これらの構造を正確に特定し、特徴づけるためには、X線回折などの方法に依存してきました。しかし、異なる結晶構造の複雑な混合物を持つ多相サンプルの出現は、正確な特定に困難をもたらしました。 この課題に対処するために、東京理科大学(TUS)の研究者と一流の機関との共同研究により、新しい深層学習モデルが紹介されました。研究では、多相粉末X線回折パターンから舞い降りた抽象的な二十面体の非周期結晶(i-QC)相を検出することができる機械学習ベースのバイナリ分類器の開発が概説されています。 研究者たちは、80の畳み込みニューラルネットワークを利用したバイナリ分類器を構築しました。彼らは、予想されるi-QC相パターンをシミュレートするために設計された合成的な多相X線回折パターンを使用してこのモデルを訓練しました。厳格な訓練の結果、このモデルは非凡な性能を発揮し、92%を超える精度を誇りました。440以上の測定されたX線回折パターンを解析し、6つの合金系で異なる未知の材料からの結晶構造を正確に特定しました。 このモデルは、優位な成分を検出する能力にとどまらず、混合物中で主要な成分でない場合でも、舞い降りたi-QC相を効果的に特定する能力を持っています。また、その潜在性はi-QC相に留まらず、新たな十角形および十二角形非周期結晶やさまざまな結晶材料の特定にも応用する可能性を示唆しています。 このモデルは、多相サンプルの特定プロセスを迅速化するという精度を持っています。このモデルの成功によって支えられたこの技術革新は、中空シリカ、鉱物、合金、液晶など、物質科学の相特定に重要な役割を果たしており、エネルギー貯蔵の最適化から電子技術の進歩まで、多様な産業分野において革新的な技術進展の約束を持っています。 この研究の影響は、単なる非周期結晶相の特定を超えて、物質分析におけるパラダイムシフトをもたらします。これにより、物質科学において未知の領域を探索するための科学者の能力が向上し、加速された発見と革新の時代が到来するでしょう。

「マルチモーダル人工知能とは?その応用と使用例」という文章です

技術革新によって定義され、技術進歩に支配される現代において、人工知能(AI)の領域は我々の生活を変革し、産業を再構築する原動力として成功裡に浮上しています。AIは、人間の脳の能力を模倣することにより、コンピュータに人間と同様に思考し学習する能力を与えます。人工知能、機械学習、ディープラーニングの最近の進歩は、企業の運営、医学診断の精度の向上、自動運転車やバーチャルアシスタントの開発への道を開くなど、複数の分野の改善を支援しています。 マルチモーダルAIとは何ですか? マルチモーダルAIは、テキスト、画像、音声、ビデオなど、複数のソースからのデータを組み合わせるAIのモデルです。これにより、主にテキスト入力に頼る従来のAIモデルとは異なり、より包括的かつ詳細な世界知識を生み出すことができます。マルチモーダルAIの主な目標は、複数の感覚を同時に使用して情報を理解し解釈する、人間の理解力を模倣することです。異なるモダリティの収束により、より正確な予測と判断が可能となります。 GPT-4のリリース 最近、大型言語モデル(LLM)は注目と人気を集めています。OpenAIによる最新バージョンのLLMであるGPT 4の開発により、この進歩はモデルのマルチモーダル性の進展に道を開きました。以前のバージョンであるGPT 3.5と異なり、GPT-4はテキスト入力だけでなく、画像の形式での入力も受け付けることができます。マルチモーダル性により、GPT-4は人間と同様の方法で様々なタイプのデータを理解し処理することが可能です。GPT-4は、OpenAIが深層学習のスケーリングを目指す取り組みの重要なマイルストーンと位置付け、さまざまな専門的な基準において人間レベルのパフォーマンスを達成すると述べています。 マルチモーダルAIの能力 画像認識 – マルチモーダルAIは、写真や動画などの視覚データの分析と解釈によって、オブジェクト、人物、活動を正確に識別することができます。画像と動画の分析に依存するテクノロジーは、視覚情報の分析能力の向上によって大幅に発展しました。人物識別機能を備えたセキュリティシステムの改善や、自動運転車が環境を認識し反応する能力など、その例は多岐にわたります。 テキスト分析 – 自然言語処理、自然言語理解、自然言語生成を通じて、マルチモーダルAIは単純な認識を超えた印刷テキストの理解が可能です。これには、感情分析、言語間の翻訳、テキストデータからの結論の導出などが含まれます。言語の壁を乗り越えることが必要なさまざまなアプリケーションにおいて、書かれた言語を読み取り理解する能力が重要です。 音声認識 – マルチモーダルAIは、音声認識の分野で重要な役割を果たします。音声記録と理解における高い実力により、マルチモーダルAIは単語認識に加えて、文脈や意図などの人間の発話の微妙なニュアンスを理解することができます。音声指示を使用して、機械とシームレスにコミュニケーションすることができます。 統合能力 – マルチモーダルAIは、テキスト、ビジュアル、音声など、さまざまなモダリティの入力を組み合わせて、特定のシナリオのより包括的な理解を生み出すことができます。視覚的および聴覚的な信号の両方を使用して、個人の感情を認識し、より正確かつ微妙な結果を提供することができます。多様なソースからのデータの統合により、AIの文脈認識が向上し、困難な現実世界の状況に対処できるようになります。 マルチモーダルAIの実用例 顧客サービス:オンラインストアでのマルチモーダルなチャットボットの使用により、顧客サービスの向上に寄与することができます。画像理解や音声応答の機能を備えたチャットボットは、通常のテキストベースの対話に加えて、よりダイナミックで使いやすいサポート体験を提供することができます。マルチモーダルAIは、顧客クレームの処理の効率化に加えて、より効果的なサポート体験を提供することにも役立ちます。 ソーシャルメディア分析:テキスト、写真、動画が頻繁に組み合わされるソーシャルメディア上の情報の分析には、マルチモーダルAIが不可欠です。企業は、さまざまなソーシャルメディアチャンネルでの顧客の商品やサービスに対する評価について、マルチモーダルAIを使用してより詳細に学ぶことができます。書かれた感情と視覚的コンテンツの両方を徹底的に理解することで、ビジネスは迅速に顧客のフィードバックに対応し、パターンを見つけ、戦略を修正することができます。この積極的なソーシャルメディアリサーチのアプローチは、消費者の満足度とブランドの認知度を向上させ、ビジネスモデルをより適応性と柔軟性を持たせます。 トレーニングと開発…

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施しました。透明性、解釈性、およびドメイン知識を重視したこの32の論文の分析により、説明可能な機械学習のこれらの重要な要素はバラつきがあり、貧困と福祉の科学的な洞察と発見の要求を完全に満たすことができないことが明らかになっています。 この研究では、調査データをグラウンドトゥルースとして貧困/富を予測し、都市部および農村地域に適用し、深層ニューラルネットワークを含む32の論文を分析することで、これらのコア要素の状況のバラつきを明らかにしています。現在の状況は、貧困と福祉に関する洞察に対する科学的な要件を満たしていないと論じています。このレビューは、開発コミュニティ内での広範な普及と受け入れの重要性を強調しています。 導入部では、脆弱なコミュニティの特定と貧困の決定要因の理解における課題について言及し、情報のギャップと家計調査の制約を引用しています。深層機械学習と衛星画像がこれらの課題の克服に役立つ可能性を強調し、科学的なプロセスでの説明可能性、透明性、解釈性、およびドメイン知識の必要性を強調しています。調査データ、衛星画像、および深層ニューラルネットワークを使用した貧困/富の予測における説明可能な機械学習の状況を評価することで、広範な普及と開発コミュニティ内での受け入れを促進することが目的です。 総合的な文献レビューを行い、特定の基準を満たす32の研究を分析した結果、説明可能な機械学習のコア要素である透明性、解釈性、およびドメイン知識の状況は、科学的な要件を満たすことができず、バラつきがあります。解釈性と説明性は弱く、モデルを解釈したり予測データを説明したりするための努力が限られています。ドメイン知識は、選択のための特徴ベースのモデルではよく使用されますが、他の側面ではあまり使用されていません。実験結果は、富の指標の制約や低解像度衛星画像の影響などの洞察を示しています。一つの論文は、ドメイン知識の強い仮説と肯定的な評価によって際立っています。 貧困、機械学習、および衛星画像のドメインでは、説明可能な機械学習アプローチにおける透明性、解釈性、およびドメイン知識の状況は異なり、科学的な要件を満たしていません。開発コミュニティ内での広範な普及にとって重要な説明可能性は、単なる解釈性を超えています。レビューされた論文の透明性はバラバラであり、いくつかはよく文書化されており、他のいくつかは再現性に欠けています。解釈性と説明性の欠点は依然として存在し、モデルを解釈したり予測データを説明したりする研究者はほとんどいません。特徴ベースのモデルではドメイン知識が一般的に使用されますが、他のモデリングの側面では広くは適用されていません。影響の特徴のソートとランキングは重要な将来の研究方向です。

ロンドン大学の研究者がDSP-SLAMを紹介:深い形状の事前情報を持つオブジェクト指向SLAM

人工知能(AI)の急速な進展の中で、ディープラーニングはますます人気が高まり、生活をより便利にしています。AIの中で、同時位置推定と地図作成(SLAM)は、ロボット、無人運転車、拡張現実システムなど、あらゆる産業に進出しています。 SLAMは、周囲の環境を再構築し、動くカメラの軌跡を同時に推定するものです。SLAMには、カメラの軌跡を正確に推定し、優れた幾何学的な再構築を行う素晴らしいアルゴリズムがあります。しかし、幾何学的な表現だけでは、より高度なシーン理解を必要とする複雑なタスクにおいて重要な意味情報を提供することはできません。 現在使用されているセマンティックSLAMシステムでは、シーン内のオブジェクトの数、サイズ、形状、相対位置などの具体的な詳細を推論することは難しいです。最近の研究では、ロンドン大学カレッジのコンピュータ科学部の研究チームが、最新のオブジェクト指向SLAMシステムであるDSP-SLAMを紹介しました。 DSP-SLAMは、包括的かつ正確な共同マップを構築するように設計されており、前景オブジェクトは密な3Dモデルで表現され、背景は疎なランドマーク点で表現されます。このシステムは、モノカメラ、ステレオ、またはステレオ+LiDARの入力モダリティでも十分に機能します。 研究チームは、DSP-SLAMの主な機能は、特徴ベースのSLAMシステムによって生成された3Dポイントクラウドを入力として受け取り、特定のオブジェクトを密な再構築する能力を追加することです。オブジェクトの検出にはセマンティックインスタンスセグメンテーションが使用され、カテゴリ固有の深層形状埋め込みがこれらのオブジェクトの形状と位置を推定するための先行情報として使用されています。 研究チームは、DSP対応バンドル調整がシステムの主要な特徴であり、カメラの位置、オブジェクトの位置、特徴点の共同最適化のためのポーズグラフを作成することを強調しています。この戦略を使用することで、シーンの表現方法を改善し最適化し、背景のランドマークと前景のオブジェクトの両方を考慮に入れることができます。 モノカメラ、ステレオ、およびステレオ+LiDARの複数の入力モダリティで秒間10フレームの速度で動作する提案されたシステムは、印象的なパフォーマンスを発揮しました。DSP-SLAMは、KITTIオドメトリデータセットからのステレオ+LiDARシーケンスやFreiburg、Redwood-OSデータセットからのモノカメラRGBシーケンスなど、複数のデータセットでテストされ、その能力が確認されています。不完全な観測にもかかわらず、システムは優れた完全物体再構築と一貫したグローバルマップを保持する能力を示しました。 研究者たちは、主な貢献を以下のように要約しています。 DSP-SLAMは、前景オブジェクトのみを表現する以前の手法とは対照的に、疎な特徴点を使用して背景を再構築することで、オブジェクトに対するセマンティックマッピングの豊かさと特徴ベースのカメラトラッキングの正確さを組み合わせています。 DSP-SLAMは、RGBのみのモノカメラストリームを使用するため、ノード-SLAMではなく、RGBのみのモノカメラストリームを使用しているため、デンスな深度画像に依存する手法よりも優れたパフォーマンスを発揮し、50個の3Dポイントでオブジェクトの形状を正確に推定することができます。 DSP-SLAMは、オブジェクトの形状と位置推定において、事前にベースとなる技術である自動ラベリングを数量的および質的に凌駕しています。 KITTIオドメトリデータセットの実験結果は、DSP-SLAMの共同バンドル調整がトラジェクトリー推定においてORB-SLAM2を凌駕し、特にステレオ+LiDAR入力を使用した場合に優れていることを示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us