Learn more about Search Results Descript - Page 15
- You may be interested
- KerasとTensorFlowでのSiamese Networkの実装
- 「Zero123++:一枚の画像から一貫したマル...
- AIをトレーニングするために雇われた人々...
- マルチモーダルインタラクティブエージェ...
- 2024年に探索するべきトップ12の生...
- 混沌からの彫刻芸術:拡散モデル — SMLD
- 「忙しい?これが拡散モデルのブラックボ...
- ウェブ3.0とブロックチェーンの進化による...
- 「第一の汎用ビジュアルと言語のAI LLaVA」
- 「意思決定科学は静かに新しいデータサイ...
- 「MITキャンパスでのAIパイロットプログラ...
- NVIDIA Studio LineupにRTX搭載のMicrosof...
- ベクトルデータベース:それは何か、そし...
- 「Hugging Faceを使用してLLMsを使ったテ...
- 「Scikit-Learnによる次元削減:PCAの理論...
「トップ40+の生成AIツール(2023年9月)」
ChatGPT – GPT-4 GPT-4はOpenAIの最新のLLMであり、従来のモデルよりも創造的で正確かつ安全です。また、画像、PDF、CSVなどのマルチモーダルな機能も備えています。コードインタプリタの導入により、GPT-4は自身のコードを実行して幻覚を回避し、正確な回答を提供することができます。 Bing AI Bing AIはOpenAIのGPT-4モデルを搭載しており、正確な回答を提供するためにウェブを横断することができます。また、ユーザーのプロンプトから画像を生成する能力も持っています。 GitHub Copilot GitHub Copilotは、コードを分析して即時フィードバックや関連するコードの提案を行うAIコード補完ツールです。 DALL-E 2 DALL-E 2はOpenAIが開発したテキストから画像を生成するツールであり、ユーザーのプロンプトに基づいてオリジナルの画像を作成します。不適切なユーザーリクエストを拒否するように設計されています。 Cohere Generate Cohere Generateは、AIの潜在能力を活用してビジネスのオペレーションを向上させるものです。メール、ランディングページ、製品説明などに対するパーソナライズされたコンテンツを提供します。 AlphaCode AlphaCodeはDeepMindによって開発され、競争力のあるレベルでコンピュータプログラムを作成することができます。 Adobe Firefly…
プロンプトエンジニアリング:AIを騙して問題を解決する方法
「これは、実践的な大規模言語モデル(LLM)の使用に関するシリーズの第4回目の記事ですここでは、プロンプトエンジニアリング(PE)について説明し、それを使用してLLM対応のアプリケーションを構築する方法について話しますまずは、...」
Siameseネットワークの導入と実装
イントロダクション シャムネットワークは、たった1つの例に基づいて正確な画像分類を可能にする興味深いアプローチを提供します。これらのネットワークは、データセット内の画像のペアの類似性を測定するためにコントラスティブロスと呼ばれる概念を使用します。画像の内容を解読する従来の方法とは異なり、シャムネットワークは画像間の変動と類似点に集中しています。この独特な学習方法は、限られたデータのシナリオにおいても強さを発揮し、ドメイン固有の知識なしでも性能を向上させます。 この記事では、シャムネットワークのレンズを通して署名の検証の魅力的な領域に深く入り込みます。PyTorchを使用して機能的なモデルを作成する方法について、洞察と実装手順を提供します。 学習目標 シャムネットワークの概念と双子のサブネットワークを含むユニークなアーキテクチャの理解 シャムネットワークで使用されるロス関数(バイナリクロスエントロピー、コントラスティブロス、トリプレットロス)の違いを理解する シャムネットワークが効果的に使用できる実世界のアプリケーション(顔認識、指紋認識、テキストの類似性評価など)を特定し説明する シャムネットワークの1ショット学習、汎用性、ドメインに依存しないパフォーマンスに関する利点と欠点をまとめる この記事はデータサイエンスブログマラソンの一部として公開されました。 シャムネットワークとは何ですか? シャムネットワークは、ワンショット分類のために2つの同じ構造のサブネットワークを使用するネットワークのカテゴリに属しています。これらのサブネットワークは、異なる入力を受け入れながら、同じセットアップ、パラメータ、重みを共有します。シャムネットワークは、複数のクラスを予測するために豊富なデータで訓練される従来のCNNとは異なり、類似性関数を学習します。この関数により、少ないデータを使用してクラスを識別することができるため、ワンショット分類に非常に効果的です。このユニークな能力により、これらのネットワークは多くの場合、1つの例で正確に画像を分類することができます。 シャムネットワークの実世界の応用例として、顔認識や署名の検証のタスクがあります。例えば、会社が自動顔認識に基づいた出席システムを導入するとします。従来のCNNでは、各従業員の1枚の画像しか利用できないため、正確に何千人もの従業員を分類するのは困難です。そこでシャムネットワークが登場し、このようなシナリオで優れた性能を発揮します。 フューショットラーニングの探求 フューショットラーニングでは、モデルは限られた数の例に基づいて予測を行うためのトレーニングを行います。これは、従来のアプローチとは対照的で、トレーニングには大量のラベル付きデータが必要です。フューショットモデルのアーキテクチャは、わずかな数のサンプル間の微妙な違いを活用し、わずかな数やたった1つの例に基づいて予測を行うことができます。シャムネットワーク、メタラーニングなどのさまざまな設計フレームワークが、この機能を可能にします。これらのフレームワークは、モデルが意味のあるデータ表現を抽出し、それを新しい、未知のサンプルに使用することができるようにします。 フューショットラーニングが活躍する実用例には、以下のものがあります: 監視カメラにおける物体検出: フューショットラーニングは、物体の検出において、それらの物体の例がわずかしかない場合でも効果的に識別することができます。わずかなラベル付きの例を使ってモデルをトレーニングした後、それらの物体を新しい映像で検出することができます。 2. 個別のヘルスケア: 個別のヘルスケアでは、医療専門家は患者の医療記録の限られたセットを持っている場合があります。これにはCTスキャンや血液検査の少数の例が含まれます。フューショットラーニングモデルを使用すると、トレーニング用のわずかな例から、患者の将来の健康状態を予測することができます。これには、特定の疾患の発症の予測や特定の治療法への反応の予測などが含まれます。 シャムネットワークのアーキテクチャ Siameseネットワークの設計には、2つの同一のサブネットワークが含まれており、それぞれが入力の1つを処理します。最初に、入力は畳み込みニューラルネットワーク(CNN)を介して処理されます。このCNNは、提供された画像から有意な特徴を抽出します。その後、これらのサブネットワークはエンコードされた出力を生成し、通常は完全に接続された層を介して、入力データの縮約表現を生成します。 CNNは、2つのブランチと共有の特徴抽出コンポーネントで構成される、畳み込み、バッチ正規化、ReLU活性化、最大プーリング、およびドロップアウト層のレイヤーからなります。最後のセグメントでは、抽出された特徴を最終的な分類結果にマッピングするFC層が含まれています。関数は、線形層の後にReLU活性化のシーケンスと連続的な操作(畳み込み、バッチ正規化、ReLU活性化、最大プーリング、およびドロップアウト)の系列が続きます。フォワード関数は、入力をネットワークの両方のブランチに案内します。 差分層は、入力の類似性を特定し、異なるペア間の差を増幅するためにユークリッド距離関数を使用します:…
ロボットスキル合成のための言語から報酬への変換
Googleの研究科学者、Wenhao YuとFei Xiaによる投稿 エンドユーザーがロボットに新しいタスクを教えるためのインタラクティブな機能を持つことは、実世界の応用において重要な能力です。例えば、ユーザーはロボット犬に新しいトリックを教えたり、マニピュレータロボットにユーザーの好みに基づいてランチボックスの整理方法を教えたりすることがあります。大量の言語モデルが、インターネット上の広範なデータで事前学習された最近の進歩は、この目標を達成するための有望な道を示しています。実際、研究者たちは、LLMをロボットに活用するためのさまざまな方法を探索しています。それは、ステップバイステップの計画や目標指向の対話からロボットコードの生成までです。 これらの方法は、新しい行動の構成的一般化の新しい方法を提供しますが、既存の制御原理のライブラリーから新しい行動をリンクするために言語を使用することに焦点を当てています。これらの制御原理は、手動で設計されるか、あらかじめ学習されるものです。ロボットの動きに関する内部知識を持っているにもかかわらず、LLMは関連するトレーニングデータが限られているため、低レベルのロボットコマンドを直接出力することが困難です。その結果、これらの方法の表現は、使用可能な基本要素の幅によって制約されます。これらの基本要素の設計は、広範な専門知識や大量のデータ収集を必要とすることがしばしばあります。 「Language to Rewards for Robotic Skill Synthesis」では、自然言語入力を介してユーザーがロボットに新しいアクションを教える手法を提案しています。これを行うために、言語と低レベルのロボットアクションの間のギャップを埋めるインターフェースとして報酬関数を活用しています。報酬関数は、その意味、モジュール性、解釈性の豊かさから、このようなタスクにとって理想的なインターフェースを提供します。また、報酬関数は、ブラックボックス最適化や強化学習(RL)を介した低レベルポリシーへの直接的な接続を提供します。我々は、LLMsを活用して自然言語のユーザー指示を報酬指定コードに翻訳し、それからMuJoCo MPCを適用して生成された報酬関数を最大化する最適な低レベルのロボットアクションを見つける言語から報酬へのシステムを開発しました。我々は、四足歩行ロボットと器用なマニピュレータロボットを使用して、シミュレーション上のさまざまなロボット制御タスクで我々の言語から報酬へのシステムを実証しました。さらに、物理的なロボットマニピュレータでも我々の手法を検証しました。 言語から報酬へのシステムは、2つの主要なコンポーネントで構成されています:(1)報酬トランスレータ、および(2)モーションコントローラ。報酬トランスレータは、ユーザーの自然言語の指示をPythonコードとして表される報酬関数にマッピングする役割を担っています。モーションコントローラは、与えられた報酬関数を最適化するために、リシーディングホライズン最適化を使用して、ロボットモーターごとに適用されるトルクの量などの最適な低レベルのロボットアクションを見つけます。 LLMsは、事前学習データセット内のデータが不足しているため、直接的に低レベルのロボットアクションを生成することができません。我々は報酬関数を使用して、言語と低レベルのロボットアクションのギャップを埋め、自然言語の指示から新しい複雑なロボットモーションを実現することを提案しています。 報酬トランスレータ:ユーザーの指示を報酬関数に翻訳する 報酬トランスレータモジュールは、自然言語のユーザー指示を報酬関数にマッピングすることを目指して構築されました。報酬の調整は、特定のハードウェアに対して専門知識が必要なため、一般的な言語データセットで訓練されたLLMsが特定の報酬関数を直接生成できないことは驚くべきことではありませんでした。これを解決するために、LLMsのインコンテキスト学習能力を適用しました。さらに、報酬トランスレータをモーションディスクリプタと報酬コーダーの2つのサブモジュールに分割しました。 モーションディスクリプタ まず、モーションディスクリプタを設計し、ユーザーからの入力を解釈して、あらかじめ定義されたテンプレートに従ったロボットの動きの自然言語の説明に展開します。このモーションディスクリプタは、曖昧またはあいまいなユーザーの指示をより具体的で具体的なロボットの動きに変換し、報酬コーディングのタスクをより安定させます。さらに、ユーザーはモーションの説明フィールドを介してシステムと対話するため、これは報酬関数を直接表示するよりもユーザーにとってより解釈可能なインターフェースも提供します。 モーションディスクリプタを作成するために、ユーザーの入力をLLMで翻訳し、希望するロボットの動作の詳細な説明に変換します。 LLMが適切な詳細度と形式でモーションの説明を出力するようにガイドするプロンプトを設計します。 あいまいなユーザーの指示をより詳細な説明に翻訳することで、システムで報酬関数をより信頼性の高い方法で生成することができます。 このアイデアは、ロボットのタスクを超えて一般的に応用することも可能であり、Inner-Monologueとchain-of-thoughtのプロンプトに関連しています。 Reward…
「言葉から世界へ:AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」
言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲーションを使用して特定の場所に導くなど、情報を伝達するための効果的なチャネルとしても機能します。視覚障がいのある人々の場合、映画を聴覚的な解説で体験することができます。前者は言語が他の感覚モードを向上させる方法を示し、後者は言語が異なるモダリティで最大限の情報を伝える能力を強調しています。 多様なモダリティ間の言語との関係を確立するための現代の取り組みでは、画像や動画のキャプション付け、画像や動画からのテキスト表現の生成、テキストによってガイドされた視覚的なコンテンツの操作などのタスクが含まれます。 しかし、これらの取り組みでは、言語は主に他の感覚入力に関する情報を補完する役割を果たしています。その結果、これらの取り組みは異なる感覚モード間の情報の複雑な交換を包括的に描写することができません。これらは主に1文のキャプションなどの単純な言語要素に焦点を当てています。 これらのキャプションは短く、主要なエンティティやアクションを説明することしかできません。そのため、これらのキャプションを通じて伝えられる情報は、他の感覚モダリティに存在する情報の豊富さに比べてかなり限定的です。この差異により、他の感覚領域から情報を言語に翻訳しようとする際に情報の大幅な損失が生じます。 この研究では、研究者たちは言語をマルチモーダルモデリングで情報を共有する手段として捉えています。彼らは「Fine-grained Audible Video Description(FAVD)」という新しいタスクを作成しました。通常、動画の短いキャプションは主要な部分を指しますが、FAVDではモデルにより人々が行うように動画を説明するよう要求し、短い概要から徐々に詳細な情報を追加していきます。このアプローチにより、言語のフレームワーク内にビデオ情報のより確かな部分が保持されます。 ビデオは視覚的および聴覚的な信号を含んでいるため、FAVDタスクではオーディオの説明も総合的な描写を向上させるために組み込まれています。このタスクの実行をサポートするために、Fine-grained Audible Video Description Benchmark(FAVDBench)という新しいベンチマークが構築されました。FAVDBenchはYouTubeから収集された11,000以上のビデオクリップで構成されており、70以上の実生活のカテゴリをカバーしています。注釈には簡潔な1文の概要と、ビジュアル要素に関する4〜6文の詳細なセンテンス、オーディオに関する1〜2文のセンテンスが含まれており、包括的なデータセットとなっています。 FAVDタスクを効果的に評価するために、2つの新しいメトリックが考案されました。最初のメトリックであるEntityScoreは、ビデオから説明文への情報の伝達を評価し、視覚的な説明文内のエンティティの包括性を測定します。2番目のメトリックであるAudioScoreは、事前学習済みのオーディオ・ビジュアル・言語モデルの特徴空間内でオーディオの説明の品質を定量化します。 研究者たちは、新しく導入されたタスクのための基礎モデルを提供しています。このモデルは、確立されたエンドツーエンドのビデオキャプションフレームワークを基にしており、さらにオーディオブランチが追加されています。さらに、ビジュアル言語トランスフォーマーからオーディオ・ビジュアル・言語トランスフォーマー(AVLFormer)への拡張も行われています。AVLFormerは、以下に示すようなエンコーダ・デコーダ構造の形式です。 https://arxiv.org/abs/2303.15616 ビデオクリップとオーディオをそれぞれ処理するために、ビジュアルエンコーダとオーディオエンコーダが適応され、マルチモーダルトークンの結合が可能となっています。ビジュアルエンコーダはビデオスウィン・トランスフォーマーを使用し、オーディオエンコーダはパッチアウトオーディオトランスフォーマーを利用しています。これらのコンポーネントは、ビデオフレームとオーディオデータからビジュアルとオーディオの特徴を抽出します。トレーニング中には、マスクされた言語モデリングや自己回帰言語モデリングなどの他のコンポーネントも組み込まれます。AVLFormerは、以前のビデオキャプションモデルからのインスピレーションを得て、テキストの記述も入力として使用します。テキストを特定のフォーマットに変換するために、ワードトークナイザと線形埋め込みが使用されます。トランスフォーマーはこのマルチモーダル情報を処理し、入力として与えられたビデオの詳細な説明を出力します。 以下には、定性的な結果のいくつかの例と最新の手法との比較が報告されています。 https://arxiv.org/abs/2303.15616 結論として、研究者たちは、細かい音声付きビデオの説明のための新しいビデオキャプションタスクFAVDと、教師付きトレーニングのための新しいベンチマークFAVDBenchを提案しています。さらに、彼らはFAVDタスクに対処するための新しいトランスフォーマーベースのベースラインモデルAVLFormerを設計しました。興味があり、詳細を知りたい場合は、以下に引用されたリンクを参照してください。
「勾配降下法アルゴリズムとその直感的な考え方」
最適化手法の中で、そして一次のアルゴリズムタイプにおいて、確かにGradient Descentとして知られるものを聞いたことがあるでしょうこれは一次の最適化タイプであり、…を必要とします
2023年のビデオ作成と編集のための40以上のAIツール
Adobe Premiere Pro Adobe Premiere Proは、AIの機能を備えたビデオ編集ソフトウェアで、ユーザーは素早く素晴らしいビデオを作成することができます。カラーマッチング、オーディオダッキング、自動リフレームなどの機能があります。 Keyframes Studio Keyframes Studioは、すべてのソーシャルメディアプラットフォーム向けのビデオの作成と編集をユーザーに可能にします。このツールは、ビデオをより重要な部分に焦点を当てるために分割することができます。 Wondershare Filmora Filmoraは、AIを組み込んだ長年のツールで、以前数時間かかっていた作業を高速化することができます。一部の機能には、オブジェクトの簡単な削除と移動、オーディオの長さの調整、背景ノイズの低減、さまざまなフォーマットにコンテンツのリサイズなどがあります。 Vimeo One Take Vimeoは、AIパワードのスクリプトジェネレーター、テレプロンプター、テキスト操作を通じた画期的なビデオ編集方法を使用して、ユーザーが迅速にコンテンツを生成できるようにします。 Synthesia Synthesiaは、AIパワードのビデオ作成プラットフォームで、120以上の言語、アクセント、トーンでビデオを作成します。カスタムAIアバター、シームレスなナレーションのためのテキスト読み上げ、アバター同期のための音声個別化などの機能を提供しています。 Roll Rollを使用すると、ユーザーはスマートフォンだけでスタジオクオリティのビデオを作成することができます。画面内にAI生成の3Dスタジオが提供されます。 Pictory Pictoryは、長いビデオをソーシャルメディアの注意スパンに合うようにカットします。 Munch…
関数呼び出し:GPTチャットボットを何にでも統合する
OpenAIのGPTの新しい関数呼び出し機能を探索し、チャットボットが外部ツールやAPIと対話できるようにしますAIパワーを活用したアプリケーションの可能性を解き放つ
「ベストインクラスのセッションが開催中:新しいNVIDIA Studioノートパソコンがコンテンツ、ゲーム、教育を超高速化する」
編集者注:この投稿は、週刊NVIDIA Studioシリーズの一部であり、注目のアーティストを紹介し、クリエイティブなヒントやトリックを提供し、NVIDIA Studioテクノロジーがクリエイティブなワークフローを向上させる方法を示しています。また、新しいGeForce RTX 40シリーズGPUの機能、技術、リソースについても詳しく説明し、コンテンツの作成を劇的に加速する方法について深堀りしています。 新学年の始まりは、学生がNVIDIA Studioラップトップを手に入れて、コンテンツの作成、ゲーム、教育の能力をアップグレードする理想的な時期です。これらのラップトップは、GeForce RTX 40シリーズのグラフィックスカードで動作します。 Marmoset Toolbagは、完全な3Dアート制作ツールであるバージョン4.06をリリースしました。これは、Toolbag 4ユーザー向けの無料アップデートで、OpenUSDファイル形式のサポートを拡張し、NVIDIA Omniverseとの互換性を追加し、NVIDIA DLSS機能、AI OptiXノイズリダクション、およびレンダリングとベイキングの高速化を提供します。すべてがRTXでアクセラレートされます。 最後に、今週のNVIDIA Studioで人気のあるインフルエンサーであるJiffyVFX氏が、120万回以上再生された「Doors to Realities」というバイラルビデオシリーズについて話します。 創造、ゲーム、学習 GeForceとNVIDIA Studio RTX 40シリーズのラップトップは、AIの力を利用してコンテンツの作成、ゲーム、学習アプリを高速化します。…
オムニバースへ:Reallusionは、2方向のライブ同期とOpenUSDサポートにより、キャラクターアニメーションのワークフローを向上させます
編集者の注:この投稿はInto the Omniverseシリーズの一部であり、アーティスト、開発者、企業がOpenUSDとNVIDIA Omniverseの最新の進歩を活用してワークフローを変革する方法に焦点を当てています。 単一の3Dキャラクターをアニメーション化したり、産業のデジタル化のためにそれらのグループを生成したりする場合、人気のあるReallusionソフトウェアを使用するクリエイターや開発者は、今月リリースされたiClone Omniverse Connectorの最新のアップデートでワークフローを向上させることができます。 このアップグレードにより、NVIDIA Omniverseを使用するクリエイターにとって、シームレスなコラボレーションが可能になり、創造的な可能性が拡大します。NVIDIA Omniverseは、OpenUSDベースのツールやアプリケーションを接続および構築するための開発プラットフォームです。 新機能には、プロジェクトのリアルタイム同期や、Universal Scene Descriptionフレームワーク(OpenUSDとも呼ばれる)の強化されたインポート機能が含まれており、これによりiCloneとOmniverseの間の作業がより迅速でスムーズかつ効率的になります。このアップデートには、バグ修正と改善も含まれています。 3Dキャラクターをより良くアニメーション化する 世界中のクリエイターは、リアルタイムの3DアニメーションソフトウェアであるReallusion iCloneを使用してキャラクターを生き生きとさせています。 ソロモン・ジャグウェは、3Dアーティスト、アニメーター、受賞歴を持つ映画監督であり、彼の作品はしばしば環境に焦点を当てています。 東アフリカで育ったジャグウェは、兄と一緒に田舎に冒険に出かけたときに見た生物を描くという幼い頃の思い出を思い出します。今でも、彼の3D作品の多くは、ペンと紙を使ったシンプルなスケッチから始まります。 このアーティストは、常に影響を与えるアートを作り出すことを目指していると語っています。 たとえば、ジャグウェは、ウガンダの文化についてあらゆる年齢の人々に教育するためのビデオシリーズ「Adventures of Nkoza and Nankya」を作成しました。彼はこのシリーズのためのセットをAutodesk…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.