Search Results 詳細

畳み込みニューラルネットワーク ― 直感的かつ詳細に説明されました

畳み込みニューラルネットワークは、コンピュータビジョン、信号処理、および多数の他の機械学習タスクで主力となっていますそれらは非常に直感的であり、そのため多くの人々が利用しています…

ジェネラティブ人工知能を解明：拡散モデルと視覚コンピューティングの進化についての詳細な解説

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシーンの物理的特性を推測したりするために、数十年間物理的に現実的なモデルを作成するために取り組んできました。ビジュアルエフェクト、ゲーム、画像およびビデオ処理、コンピュータ支援設計、仮想および拡張現実、データ可視化、ロボティクス、自律型車両、リモートセンシングなどを含むいくつかの業界は、レンダリング、シミュレーション、ジオメトリ処理、フォトグラメトリを含むこの手法に基づいて構築されています。生成的人工知能（AI）の台頭により、視覚コンピューティングについての完全に新しい思考のあり方が現れました。生成的AIシステムにより、書き込みのプロンプトまたは高レベルの人間の指示のみを入力として、写真、映画、または3Dオブジェクトの作成および操作が可能になります。これらのテクノロジーは、以前は専門的なトピックの専門家にしか利用できなかった視覚コンピューティングの多くの時間を要するタスクを自動化します。Stable Diffusion、Imagen、Midjourney、またはDALL-E 2およびDALL-E 3などの視覚コンピューティングの基礎モデルは、生成的AIの無類の能力を開放しました。これらのモデルは、何億ものテキストと画像のペアリングで訓練された後、すでに「それをすべて見てきた」と言えるほど膨大で、数十億の学習可能なパラメータを持っています。これらのモデルは、非常に強力なグラフィックス処理ユニット（GPU）のクラウドで訓練されました。画像、ビデオ、および3Dオブジェクトを生成するために使用される畳み込みニューラルネットワーク（CNN）に基づく拡散モデルは、CLIPなどのトランスフォーマベースのアーキテクチャを使用して計算されたテキストを多様な形式で統合します。2D画像生成のための基礎モデルを他の高次元のドメイン（ビデオや3Dシーン作成など）で使用するために、学術界にはまだ大きな貢献をする余地があります。主により具体的な種類のトレーニングデータの必要性がこれを引き起こします。たとえば、ウェブ上には高品質で多様な3Dオブジェクトや設定の例よりも、低品質で一般的な2D写真の例がはるかに多くあります。また、ビデオ、3Dシーン、または4Dマルチビューコンシステントシーン合成に必要なより大きな次元に合わせて2Dイメージ生成システムをスケーリングする方法がすぐには明らかではありません。現在のネットワークアーキテクチャは、（ラベルのない）大量のビデオデータがウェブ上で利用可能であっても、訓練するには時間がかかりすぎるか、適切な計算リソースがないため、しばしば非効率なのです。これにより、拡散モデルは推論時間が非常に遅くなります。これは、ネットワークの大きさと反復的な性質に起因します。図1：視覚コンピューティングの拡散モデルの理論と応用については、この最新の論文でカバーされています。これらのモデルは、最近では2Dおよび3D/4Dでのイメージ、ビデオ、およびオブジェクトの生成と変更のための受け入れられた基準として取って代わりました。未解決の問題にもかかわらず、視覚コンピューティングの拡散モデルの数は昨年急増しました（図1に示すような例があります）。複数の大学の研究者によって開発されたこの最新のレポート（STAR）の目的は、視覚コンピューティングでの拡散モデルの応用に焦点を当てた多くの最近の出版物の整理されたレビューを提供し、拡散モデルの原理を教え、未解決の問題を特定することです。

詳細な説明でPythonでテキストから特徴を抽出するためのCountVectorizer

「自然言語処理（NLP）のプロジェクトで必要な最も基本的なデータ処理は、テキストデータを数値データに変換することですデータがテキスト形式である限り、何もできません…」

「中国が新しい生成AIの安全性を判断する計画を策定し、詳細に詰まっています」

新しい提案は、企業がAIセキュリティを評価し、AIモデルでの検閲を強制するための非常に具体的な方法を明示しています

「Devtoolsを使ったRデータパッケージの作成と公開の詳細ガイド」

「2023年のPositカンファレンスでスピーカーに招待され、アニメーションと相互作用を使ったストーリーテリングについてプレゼンをする機会を得たとき、完璧なデータセットについて数ヶ月間悩みましたどれも興味深いものばかりでした...」

NVIDIA RTXビデオスーパーレゾリューションのアップデートがビデオ品質や詳細の保全を向上させ、GeForce RTX 20シリーズのGPUへの拡張も行われました

今日、NVIDIAはRTXビデオスーパーレゾリューション（VSR）のアップデートを発表しました。このアップデートにより、全体的なグラフィカルな忠実度が向上し、詳細が保持され、ネイティブのビデオのアップスケーリングとGeForce RTX 20シリーズのデスクトップおよびノートPCのGPUのサポートが可能になります。 RTX VSRなどのAIアシストで、より向上した創造性や生産性から、爆速のゲームまで、詳細はAI向けのRTXページをご覧ください。また、今週の「NVIDIA Studio」では、TwitchパーソナリティのRunebeeさんが自身のインスピレーション、ストリーミングのヒント、およびAIとRTX GPUの加速をどのように活用しているかについて共有しています。そして、10月にはお化けのハロウィンテーマのアート、11月には収穫と秋をテーマにした作品を投稿してくださることをお忘れなく。インスピレーションの源として、iryna.blender3dさんなどのアーティストの作品をTwitterでご覧ください。 The #SeasonalArtChallenge continues on with an incredible render from iryna.blender3d (IG). 🎃 Share your spooky/Halloween-themed…

拡散モデルの謎を解き明かす：詳細な探求

Midjourney、Stable Diffusion、DALL-Eなど、テキストのプロンプトが与えられただけで、時には美しい画像を生成することができますこれらのアルゴリズムの曖昧な説明を聞いたことがあるかもしれません…

『LSTM-CRFモデルの詳細解説』

「自然言語処理の急速な進化の中で、トランスフォーマーが優れたモデルとして台頭し、さまざまなシーケンスモデリングのタスクで驚くべきパフォーマンスを発揮しています...」

NLP のマスタリング：ディープラーニングモデルの詳細な Python コーディング

この記事は、テキストデータ、分類、再帰ニューラルネットワーク、およびその他の注目されているトピックについて、数多くの資料リソースを読み、YouTubeのビデオを参照した結果として生まれました...

「専門家から汎用アシスタントへ：ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介する包括的なフレームワークを確立するために、数多くの講演論文が議論されました。この時期には、問題に関連する大量のデータでモデルを事前トレーニングし、その後、同じ問題タイプに関連するさまざまな実世界のシナリオにそれらを転送するアプローチが一般的でした。これには、しばしばゼロショットまたはフューショットテクニックが使用されます。最近のマイクロソフトの研究では、ビジョンとビジョン言語の能力を持つ多モーダルな基礎モデルの歴史と開発について、詳細な調査結果を提供しています。特に、専門的なヘルパーから汎用的なヘルパーへの移行を重点的に取り上げています。彼らの論文によると、主に以下の3つの主要な教育戦略のカテゴリが議論されています。ラベル付き教育: ラベル付き教育は、モデルをトレーニングするために以前にラベル付けされた例を使用します。ImageNetなどのデータセットを使用することで、この方法の効果を証明しています。インターネット、画像、人間が作成したラベルから大量のノイズのあるデータセットにアクセスできます。「言語監督」とも呼ばれるこの戦略は、最も頻繁に画像 – テキストのペアで無監督のテキスト信号を使用します。CLIPとALIGNは、コントラスティブロスを使用して画像 – テキストのペアを比較するための事前トレーニングモデルの例です。画像のみの自己教育学習: この技術は、視覚情報のみを監督信号のソースとしています。マスク画像モデリング、非コントラスティブ、およびコントラストベースの学習は、いずれも有効なオプションです。研究者は、画像キャプショニング、ビジュアル質問応答、領域レベルの基礎トレーニング、セグメンテーションのためのピクセルレベルの基礎トレーニングなど、視覚理解に対するいくつかのアプローチがどのように統合されて最良の結果を得ることができるかを調査しました。マルチモーダル基礎モデルテキストと画像などの複数のモダリティで提示されるデータを理解し解釈する能力が、マルチモーダルの基礎モデルの特徴です。これによって、大量のデータ収集と合成が必要なさまざまなタスクが可能になります。重要な多モーダルの概念的フレームワークには、以下が含まれます。 CLIP（コントラスティブ言語画像事前トレーニング）は、共通の画像とテキストの埋め込み空間を発見する革新的な技術です。画像テキストの検索やゼロショットの分類などが可能です。 BEiT（ビジョンのBERT）は、視覚ドメインでのBERTのマスク画像モデリング技術を適応させています。マスク画像のトークンを予測することで、画像変換モデルは他のタスクに進むことができます。 CoCa（コントラスティブおよびキャプショニング事前トレーニング）は、対照的な学習とキャプション損失を組み合わせて画像エンコーダを事前トレーニングするための手法です。パラフレーズ画像キャプショニングシステムのおかげで、多モーダルタスクの完了を観察することが現実的になりました。 UniCL（統一コントラスティブ学習）は、CLIPのコントラスティブ学習を画像ラベルデータに拡張することで、画像テキストと画像ラベルのペアに対する統一コントラスティブ事前トレーニングを可能にします。 MVP（マスク画像モデリングビジョン事前トレーニング）は、マスク画像と高レベルの特徴目標を使用してビジョントランスフォーマーを事前トレーニングする方法です。 MIMの精度を向上させるため、EVA（Vision-Text Alignmentの活用）は、CLIPなどのモデルからの画像特徴をターゲット特徴として使用します。 BEiTv2は、DINOのような自己蒸留損失を取り入れることで、学習中にグローバルな視覚表現の獲得を促進するようにBEiTを改良します。これらのマルチモーダルの基礎モデルにより、コンピュータビジョンと自然言語処理のアプリケーションは、洞察力と処理の向上に大いに恩恵を受けています。…

Learn more about Search Results 詳細 - Page 2