Learn more about Search Results モード - Page 21

「高給与のデータサイエンスの仕事を見つけるための7つのプラットフォーム」

「データサイエンスの求人活動で落ち込んでいませんか?次の高報酬のデータサイエンスの仕事をゲットするために、これらの素晴らしい7つのプラットフォームをチェックしてみてください!」

ジェネラティブ人工知能を解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシーンの物理的特性を推測したりするために、数十年間物理的に現実的なモデルを作成するために取り組んできました。ビジュアルエフェクト、ゲーム、画像およびビデオ処理、コンピュータ支援設計、仮想および拡張現実、データ可視化、ロボティクス、自律型車両、リモートセンシングなどを含むいくつかの業界は、レンダリング、シミュレーション、ジオメトリ処理、フォトグラメトリを含むこの手法に基づいて構築されています。生成的人工知能(AI)の台頭により、視覚コンピューティングについての完全に新しい思考のあり方が現れました。生成的AIシステムにより、書き込みのプロンプトまたは高レベルの人間の指示のみを入力として、写真、映画、または3Dオブジェクトの作成および操作が可能になります。 これらのテクノロジーは、以前は専門的なトピックの専門家にしか利用できなかった視覚コンピューティングの多くの時間を要するタスクを自動化します。Stable Diffusion、Imagen、Midjourney、またはDALL-E 2およびDALL-E 3などの視覚コンピューティングの基礎モデルは、生成的AIの無類の能力を開放しました。これらのモデルは、何億ものテキストと画像のペアリングで訓練された後、すでに「それをすべて見てきた」と言えるほど膨大で、数十億の学習可能なパラメータを持っています。これらのモデルは、非常に強力なグラフィックス処理ユニット(GPU)のクラウドで訓練されました。 画像、ビデオ、および3Dオブジェクトを生成するために使用される畳み込みニューラルネットワーク(CNN)に基づく拡散モデルは、CLIPなどのトランスフォーマベースのアーキテクチャを使用して計算されたテキストを多様な形式で統合します。2D画像生成のための基礎モデルを他の高次元のドメイン(ビデオや3Dシーン作成など)で使用するために、学術界にはまだ大きな貢献をする余地があります。 主により具体的な種類のトレーニングデータの必要性がこれを引き起こします。たとえば、ウェブ上には高品質で多様な3Dオブジェクトや設定の例よりも、低品質で一般的な2D写真の例がはるかに多くあります。また、ビデオ、3Dシーン、または4Dマルチビューコンシステントシーン合成に必要なより大きな次元に合わせて2Dイメージ生成システムをスケーリングする方法がすぐには明らかではありません。現在のネットワークアーキテクチャは、(ラベルのない)大量のビデオデータがウェブ上で利用可能であっても、訓練するには時間がかかりすぎるか、適切な計算リソースがないため、しばしば非効率なのです。これにより、拡散モデルは推論時間が非常に遅くなります。これは、ネットワークの大きさと反復的な性質に起因します。 図1:視覚コンピューティングの拡散モデルの理論と応用については、この最新の論文でカバーされています。これらのモデルは、最近では2Dおよび3D/4Dでのイメージ、ビデオ、およびオブジェクトの生成と変更のための受け入れられた基準として取って代わりました。 未解決の問題にもかかわらず、視覚コンピューティングの拡散モデルの数は昨年急増しました(図1に示すような例があります)。複数の大学の研究者によって開発されたこの最新のレポート(STAR)の目的は、視覚コンピューティングでの拡散モデルの応用に焦点を当てた多くの最近の出版物の整理されたレビューを提供し、拡散モデルの原理を教え、未解決の問題を特定することです。

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相互接続を含む複雑な問題を解決するための多学科的な分野です。多モーダルグラフ学習は、視覚データとテキスト情報を組み合わせることで画像の記述的なキャプションを生成することができます。クエリに基づいて関連する画像やテキストドキュメントを検索する精度を向上させることができます。多モーダルグラフ学習は、カメラ、LiDAR、レーダー、GPSなどのさまざまなセンサからのデータを組み合わせて知覚を向上させ、適切な運転の決定をするために自律型車両でも使用されています。 現在のモデルは、事前学習された画像エンコーダとLMを使用して、与えられたテキスト/画像上で画像/テキストを生成することに依存しています。入力として、明確な1対1のマッピングを持つペアモダリティの方法を使用します。多モーダルグラフ学習の文脈では、モダリティとはデータおよび情報ソースの異なるタイプまたはモードを指します。各モダリティは、データの特定のカテゴリや側面を表し、異なる形式を取ることができます。問題は、これらのモデルをモダリティ間の多対多のマッピングに適用するときに発生します。 カーネギーメロン大学の研究者は、生成タスク用の多モーダルグラフ学習の一般的かつ体系的なフレームワークを提案しています。彼らの手法は、それ自体との関係構造を持つ複数の多モーダルな近傍から情報を取得することを含みます。彼らは、複雑な関係をグラフとして表現し、モダリティの数とモダリティ間の複雑な関係を柔軟に変化させることができます。 彼らのモデルは、隣接エンコーディングを抽出し、グラフ構造と組み合わせ、パラメータ効率の良い微調整を行います。多対多のマッピングを完全に理解するために、チームはテキストと埋込みを使用したセルフアテンション、単に埋め込みを使用したセルフアテンション、および埋込みを使用したクロスアテンションなどの近傍エンコーディングモデルを研究しました。彼らは、ラプラシアン固有ベクトル位置エンコーディング(LPE)とグラフニューラルネットワークエンコーディング(GNN)を使用して順序位置エンコーディングを比較しました。 微調整は、通常、ターゲットタスクに特化したラベル付きデータが必要です。関連するデータセットを既に持っているか、合理的なコストで入手できる場合、微調整はゼロからモデルをトレーニングするよりも費用効果が高い場合があります。研究者は、自己注意とテキストおよび埋め込みを使用したSA-TEのためのプレフィックスチューニングとLoRA、埋め込みモデルとのクロスアテンションのためのフラミンゴスタイルの微調整を使用します。彼らは、SA-TE近傍エンコーディングでほぼ4倍少ないパラメータを使用するプレフィックスチューニングがコストを低下させることを見つけました。 彼らの研究成果は、将来のMMGL研究とその分野での探求のための基礎を築くための深い分析です。研究者は、将来の多モーダルグラフ学習の範囲は期待され、機械学習、データ収集の進歩、およびさまざまなアプリケーションでの複雑な多モーダルデータの取り扱いの必要性によって大幅に拡大すると述べています。

「LLMとGUIの協力:チャットボットを超えて」

私たちは、自然言語バーの形で、会話型AIとグラフィカルユーザインターフェース(GUI)の相互作用を最適に融合させるための革新的なUXアプローチを紹介しますそれは画面の下部に配置されています

「CLIP、直感的にも網羅的に解説」

この投稿では、「コントラスティブ言語-画像事前学習(CLIP)」について学びますこれは、高度に特化したものを作るために使用できるほど良いビジョンと言語表現を作成するための戦略です...

2023年10月の10個の最高のパスワードマネージャーツール

今日のデジタル時代では、私たちが利用するオンラインアカウントやサービスの数は驚くほど多いものですソーシャルメディアプラットフォームやメールアカウントからオンラインバンキングやEコマースサイトまで、それぞれ独自の認証情報が必要ですこれらすべてのパスワードを思い出すことは、圧倒的な課題であり、複数のアカウントで同じパスワードを使用することは、 [...]

スピーチファイのレビュー:2023年の究極のテキスト音声アプリは?

信頼できるテキスト読み上げアプリをお探しですか?このSpeechifyのレビューをチェックして、移動中の読書の究極のソリューションを発見しましょう

探索的なノートブックの使い方[ベストプラクティス]

「Jupyterノートブックは、データサイエンスコミュニティにおいて最も議論のあるツールの一つとなっています意見の異なる批評家もいますが、熱狂的なファンも存在しますそれにもかかわらず、多くのデータサイエンティストは、うまく使われれば本当に価値があると同意するでしょうそして、この記事では、それに焦点を当てていきます」

『臨床試験結果予測』

このシリーズの第一部では、ClinicalTrials.govから得られた多様なモードの現実世界のデータの埋め込みに焦点を当てましたこの記事では、基本的なXGBoostモデルを実装し、それを埋め込みでトレーニングします...

「TikTokショップドロップシッピングでお金を稼ぐ方法」

セバスチャン・エスケダさんは、ドロップシッピングで年間200万ドルにスケールするために使用した正確なモデルを共有しています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us