Search Results A

オムニバースへ：Reallusionは、2方向のライブ同期とOpenUSDサポートにより、キャラクターアニメーションのワークフローを向上させます

編集者の注：この投稿はInto the Omniverseシリーズの一部であり、アーティスト、開発者、企業がOpenUSDとNVIDIA Omniverseの最新の進歩を活用してワークフローを変革する方法に焦点を当てています。単一の3Dキャラクターをアニメーション化したり、産業のデジタル化のためにそれらのグループを生成したりする場合、人気のあるReallusionソフトウェアを使用するクリエイターや開発者は、今月リリースされたiClone Omniverse Connectorの最新のアップデートでワークフローを向上させることができます。このアップグレードにより、NVIDIA Omniverseを使用するクリエイターにとって、シームレスなコラボレーションが可能になり、創造的な可能性が拡大します。NVIDIA Omniverseは、OpenUSDベースのツールやアプリケーションを接続および構築するための開発プラットフォームです。新機能には、プロジェクトのリアルタイム同期や、Universal Scene Descriptionフレームワーク（OpenUSDとも呼ばれる）の強化されたインポート機能が含まれており、これによりiCloneとOmniverseの間の作業がより迅速でスムーズかつ効率的になります。このアップデートには、バグ修正と改善も含まれています。 3Dキャラクターをより良くアニメーション化する世界中のクリエイターは、リアルタイムの3DアニメーションソフトウェアであるReallusion iCloneを使用してキャラクターを生き生きとさせています。ソロモン・ジャグウェは、3Dアーティスト、アニメーター、受賞歴を持つ映画監督であり、彼の作品はしばしば環境に焦点を当てています。東アフリカで育ったジャグウェは、兄と一緒に田舎に冒険に出かけたときに見た生物を描くという幼い頃の思い出を思い出します。今でも、彼の3D作品の多くは、ペンと紙を使ったシンプルなスケッチから始まります。このアーティストは、常に影響を与えるアートを作り出すことを目指していると語っています。たとえば、ジャグウェは、ウガンダの文化についてあらゆる年齢の人々に教育するためのビデオシリーズ「Adventures of Nkoza and Nankya」を作成しました。彼はこのシリーズのためのセットをAutodesk…

コンピュータ科学者がAIを活用して危険なアプリを特定する

マサチューセッツ大学アマースト校のブライアン・レビーン教授と数名のコンピュータ科学者が、子供やティーンエイジャーにとって安全ではない可能性のあるソーシャルネットワーキングアプリの顧客レビューを評価するための計算モデルを開発しました

「ChatGPTは、ソフトウェアエンジニアリングの質問の半分以上に対して誤った回答をします」

ChatGPTは、パデュー大学の研究者による調査によれば、517件のStack Overflowの質問のうち52%を誤って回答し、回答の77%が不必要に冗長であったとされています

AIとコンテンツの創造：デジタルイノベーションの新たな地平

人工知能（AI）の出現は、かつてはSFの題材だった驚くべき能力を提供することで、多くのセクターを変革しましたAIが大きな進歩を遂げている分野の1つは、コンテンツ制作の領域です高度なアルゴリズムを活用することによって、独自で魅力的なコンテンツを前例のないスピードで制作することが可能になりましたでは、デジタルイノベーションにおけるAIとコンテンツ制作の新たな地平を探ってみましょう... AIとコンテンツ制作：デジタルイノベーションにおける新たな地平を読む »

「カンチレバー対ChatGPT」カンチレバーとChatGPTの比較

ChatGPTは、Large Language Modelとして、どれだけ遠くまで押しのけることができるかを見るために、さまざまな分野でテストされてきましたそれは「人生、宇宙、そしてすべてに関する」質問に対する答えを与えるためにどこまで進めることができるかという範囲に及ぶ質問です

JEN-1に会ってください：テキストまたは音楽表現に応じて条件付けられた高品質な音楽を生成するために、双方向および単方向のモードを組み合わせたユニバーサルAIフレームワーク

音楽は、ヘンリー・ワズワース・ロングフェローによって「人間の普遍的な言語」として讃えられ、調和、メロディ、リズムの本質を内包し、文化的な意義を織り交ぜて、世界中の人々と深く共鳴するものです。深層生成モデルの最近の進歩により、音楽生成の進歩が実現されています。ただし、テキストの説明に基づいて条件付けられた場合に、その複雑さやニュアンスを捉えた、高品質で現実的な音楽を生成するという課題は、依然として困難です。既存の音楽生成方法は大きな進歩を遂げていますが、自由形式のテキストプロンプトと一致する複雑でリアルな音楽を開発するためには、さらなる改善が必要です。楽器やハーモニーの複雑な相互作用とメロディやハーモニーのアレンジにより、複雑で複雑な音楽構造が生まれます。音楽は不協和音に非常に敏感であるため、精度が重要です。音楽は広い周波数スペクトルを持っており、細部を捉えるために44.1KHzステレオのような高いサンプリングレートが必要です。これは、低いサンプリングレートで動作する音声とは対照的です。楽器の複雑な相互作用とメロディやハーモニーのアレンジは、複雑で複雑な音楽構造を生み出します。音楽は不協和音に非常に敏感であるため、精度が重要です。キー、ジャンル、メロディのような属性を制御し続けることは、意図した芸術的なビジョンを実現するために重要です。テキストから音楽を生成するという課題に対処するために、Futureverse研究チームはJEN-1を設計しました。JEN-1は、オートレグレッシブ（AR）と非オートレグレッシブ（NAR）のパラダイムを組み合わせたユニークな全方向拡散モデルを活用し、シーケンシャルな依存関係を捉えながら生成を加速することができます。音声データをメルスペクトログラムに変換する従来の方法とは異なり、JEN-1は生のオーディオ波形を直接モデル化し、より高い忠実度と品質を維持します。これは、ノイズに強いマスク付きオートエンコーダを使用して元のオーディオを潜在表現に圧縮することによって実現されます。研究者は、潜在埋め込みにおける異方性を減少させる正規化ステップを導入し、モデルのパフォーマンスをさらに向上させました。 JEN-1のコアアーキテクチャは、バイドとユニディレクショナルモードを組み合わせた全方向1D拡散モデルです。このモデルは、Efficient U-Netアーキテクチャに触発された時間的な1D効率的なU-Netを活用しています。このアーキテクチャは、波形を効果的にモデル化するために設計されており、シーケンシャルな依存関係と文脈情報の両方を捉えるために、畳み込み層とセルフアテンション層の両方を含んでいます。音楽生成において時系列性が重要であるため、ユニディレクショナルモードは因果パディングとマスク付きセルフアテンションを介して組み込まれており、生成された潜在埋め込みが右側の潜在埋め込みに依存するようにしています。 JEN-1のユニークな強みの一つは、統一された音楽マルチタスクトレーニングアプローチにあります。JEN-1は、主に次の3つの音楽生成タスクをサポートしています：双方向テキストガイドの音楽生成双方向音楽インペインティング（欠落セグメントの復元）ユニディレクションの音楽継続（外挿）マルチタスクトレーニングにより、JEN-1はタスク間でパラメータを共有し、より良い汎化性能を持ち、シーケンシャルな依存関係をより効果的に処理することができます。この柔軟性により、JEN-1はさまざまな音楽生成シナリオに適用できる多目的なツールとなります。実験設定では、JEN-1を高品質の音楽データを5,000時間分トレーニングしました。モデルはマスク付き音楽オートエンコーダとFLAN-T5を使用しています。トレーニング中には、マルチタスク目的をバランスさせ、分類器フリーガイダンスを採用しています。JEN-1は、8つのA100 GPUでAdamWオプティマイザを使用して200kステップでトレーニングされました。 JEN-1の性能は、客観的および主観的な評価基準を用いていくつかの最新の手法と比較されます。JEN-1は、信憑性（FAD）、音声テキストの整合性（CLAP）、人間の評価に基づくテキストから音楽への品質（T2M-QLT）および整合性（T2M-ALI）の面で他の手法を上回っています。計算効率にもかかわらず、JEN-1はテキストから音楽への合成において競合モデルを上回っています。除去実験により、JEN-1の異なる構成要素の効果が示されています。自己回帰モードの組み込みとマルチタスキング目標の採用により、音楽の品質と汎化性能が向上しています。提案手法は、トレーニングの複雑さを増加させることなく、一貫して高品質な音楽生成を実現しています。総括すると、JEN-1はテキストから音楽を生成するための強力な解決策を提供し、この分野を大幅に前進させています。波形の直接モデリングと自己回帰および非自己回帰トレーニングの組み合わせにより、高品質な音楽を生成します。統合拡散モデルとマスクされたオートエンコーダーは、シーケンスモデリングを向上させます。JEN-1は、強力なベースラインと比較して主観的品質、多様性、および制御性において優れた性能を発揮し、音楽合成における効果を示しています。

LangChain チートシート

LangChainは、大規模な言語モデルを使用したAIアシスタントの構築を簡素化し、直感的なAPI、メモリ機能、外部ツールへのアクセス、LLMアクションのチェーン化機能、およびプロンプトテンプレートを提供します最新のチートシートをチェックして、すぐに始めましょう

Natural language processing

マイクロソフトは、エンタープライズ向けにカスタマイズされたAzure ChatGPTを発表しました

I had trouble accessing your link so I’m going to try to continue without it. Microsoft Azure ChatGPTは、ネットワークエコシステム内でChatGPTの機能を活用することができる画期的な提供です。コードの修正やその他多岐にわたるタスクにおける優れた能力で知られるChatGPTは、グローバルなビジネス領域で広く称賛されています。このMicrosoft Azureに緻密に組み込まれたChatGPTのバージョンは、プライベートAzureホスティングの柔軟性を備えたオープンソースのソリューションとしてGitHubで利用可能です。既存のAzureインフラストラクチャにシームレスに統合されるこのソリューションは、既にAzureを活用している企業にChatGPTを業務フレームワークに統合することを容易にします。エンタープライズグレードのアプリケーションの厳しい要求に対応するために、Azure上のChatGPTソリューションアクセラレータは、公開サービスをミラーリングした独占的でカスタマイズされたChatGPT体験を提供します。GitHubリポジトリに提供される包括的なガイドラインにより、実装プロセスは簡単です。 Microsoft Azure ChatGPTの企業向けの利点は、本当に変革的です：…

「Google Chromeは、努力を要さずに読むことができるAIによる記事の要約を表示するようになりました」

Googleは、AIを活用したSearch Generative Experience（SGE）により、再びイノベーションの最前線に立っています。このテックジャイアントは、Google Chromeブラウザ上でウェブの読み物を効率的にするためのエキサイティングな機能を導入しました。新しい「SGE while browsing」機能により、Googleはユーザーに記事の簡潔な要約を提供することを目指しています。これにより、長文をひたすら読み続ける必要がなくなります。この最新の開発により、ブラウジング体験が向上し、情報の取得がスムーズになります。また読む：MicrosoftのBing ChatがChromeブラウザとSafariに拡大 AIによるウェブ読書の向上 AIを活用したSGEは、すでに要約された検索結果を生成することでその価値を証明しており、ユーザーが迅速に求める情報を見つけることを保証しています。そして、Googleはこの利便性を、ウェブリンクを介してアクセスされる記事にも拡張することで、さらなるレベルに引き上げます。ユーザーが記事全体を読むことを強制するのではなく、Googleの「キーポイント」機能が必要な情報を抽出し、簡潔に提示します。これにより、人々がオンラインのコンテンツを消費する方法が変わることが約束されています。また読む：OpenAIの大胆な動き、GPTBotの公開初期の実験この機能に対する興奮は感じられますが、Googleは実装には慎重なアプローチを取っています。初期段階の実験である「SGE while browsing」機能は、GoogleのSearch Labsプログラムに参加したユーザーに最初に提供されます。SGEを有効にしたユーザーは、記事の要約化の利点を最初に体験できるでしょう。この機能はGoogleアプリ（AndroidとiOS）でアクセス可能ですが、デスクトップ上のChromeブラウザとの統合も近づいています。また読む：GoogleがAIパワーのブラウザベースの開発者の楽園「Project IDX」を発表キーポイントへの簡単なアクセスこの機能にアクセスできるユーザーは、Googleモバイルアプリの画面下部にあるアイコンをタップすることで、AIによって生成された記事の「キーポイント」を表示できます。重要な情報を迅速に抽出することで、記事の読み物が効率的で楽しいものになることを目指しています。ただし、この機能はウェブ上で無料で利用できる記事にのみ適用され、有料のコンテンツでは機能しません。 SGEへの追加の改良 Googleは記事の要約化だけで満足しません。同社はSGEの体験をさらに洗練させることに取り組んでいます。ユーザーは特定の単語にカーソルを合わせると、科学、経済、歴史などのトピックの定義や図を参照できます。さらに、SGEのコーディング情報の要約はユーザーフレンドリーに表示されます。また読む：GoogleがAIパワーの文法チェッカー機能を追加：有効化方法を学ぶ未来への一瞥…

「Cheetorと会ってください：幅広い種類の交互に織り交ぜられたビジョン言語の指示を効果的に処理し、最先端のゼロショットパフォーマンスを達成する、Transformerベースのマルチモーダルな大規模言語モデル（MLLMs）」

教示的なスタイルで言語タスクのグループに対する指示のチューニングを通じて、大規模言語モデル（LLM）は最近、さまざまな活動のための汎用モデルとして優れた能力を示しています。指示のチューニングにより、単一の指示応答形式でさまざまなタスクを微調整することで、LLMは新しいタスク指示に対するゼロショットの汎化能力を大幅に開放します。さまざまな実世界のアプリケーションにおける長年の目標を持つこの結果は、テキストのみの指示に従うモデルをマルチモーダルに拡張するための新たな研究の波を刺激しました。この目的を達成するために、FlamingoとBLIP-2は、視覚入力を理解するための凍結されたビジュアルエンコーダをLLMに備えています。モデルの指示に従う能力は、LLaVA、MiniGPT-4、InstructBLIPのフォローアップによるマルチモーダルな指示に従うデータセットの微調整によりさらに強化されています。このような指示に従うアシスタントの利用可能性は、主にビジョン言語指示に重点を置いたマルチモーダルな大規模言語モデル（MLLM）によって制約されています。これらのモデルは、視覚的な文脈として単一の画像のみを含むビジョン言語指示に主に焦点を当て、指示のバリエーションが限られています。対照的に、人々は現実の生活で関連するメッセージとビジュアルのシリーズを通じて自分のニーズを表現することがよくあります。例えば、人々はオープンドメインの問い合わせに対応するために、さまざまな情報源（視覚的に魅力的なウェブサイト、教科書、クラスのスライドなど）を参照するモデルが必要になる場合があります。異なる写真とテキストが意味的に関連している交互に使用されるビジョン言語指示は、これらの参照および問い合わせを表します。浙江大学、シンガポール国立大学、南洋理工大学の研究者は、統一された指示応答形式でバリエーション豊かな指示を持つ31のタスクの包括的な大規模ベンチマークであるI4（意味的に関連し、交互に配置された画像テキスト指示に従う）を開発しました。このベンチマークは、20の異なるシナリオをカバーし、交互に配置されたビジョン言語指示の研究を支援するために設計されています。I4には3つの重要な特徴があります。 (1) 指示はすべて、ストーリーボードや図解付きの教科書など、相互に関連する画像と言葉の連続で構成されています。これは交互に配置されたビジョン言語コンテキストとして知られています。 (2) 複雑な指示が多くあります。タスクは、会話に基づく具体的な活動から監視写真の不整合を特定すること、コミックのためのスピーチ予測までさまざまです。 (3) ベンチマークは、漫画、商業イメージ、ドライビング映像、レシピの指示など、さまざまな指示に従うシナリオをカバーしており、提案されたベンチマークを使用して現代のMLLMを体系的に評価し、これらの複雑なマルチモーダル指示を実行するための支援が必要であることが明らかになりました。彼らは、視覚的なプロンプトジェネレータ（VPG）が複雑な指示の理解においてMLLMにとって重要であると主張します。現在のMLLMは主に、より多様で高品質な指示チューニングデータを作成するための洗練された方法を構築することに重点を置いていますが、いくつかのVPG（線形射影、リサンプラー、Q-formerなど）を使用して、ビジョンのバックボーン（ViTなど）に含まれる豊富な画像情報から関連する視覚的な手がかりを抽出し、LLMが視覚入力を理解するように修正します。凍結されたLLMに対して視覚的な手がかりに基づいたキャプションを提供するように挑戦することで、彼らはVPGを数百万の画像キャプションペアに対してトレーニングします。効率的ではありますが、ウェブクロールされたキャプションは通常、画像の前景の一部しか記述しません。そのため、VPGは通常のキャプションの明白な情報の抽出のみを教授されているため、一部の活動に必要な正確な情報を抽出できない場合があります。さらに、I4では、タスクがコンテキスト内の他の画像に関連する特定の視覚的な詳細に注目するようにVPGを要求するため、この問題は悪化します。彼らは軽量のControllable Knowledge Re-Injection（CLORI）モジュールを提案しています。このモジュールは、既存のMLLMにおけるVPGの重要な問題を解決するために、LLMの洗練された推論能力を使用してVPG（つまり、Q-former）を制御するために使用されます。より具体的には、彼らはQ-formerを使用して、言語モデルからタスクに依存しない視覚的な手がかりを提供し、LLMに画像に関する重要な情報を与えます。彼らはまず、言語モデルからタスク固有の条件を構築し、Q-formerを制御し、画像から特定の情報を条件付きで抽出します。これらの条件は、LLMに取り込まれます。内部のクロスアテンションマップを使用して、まずQ-formerが無視した画像の領域を特定します。その後、ChatGPTとSAMを使用して編集対象を識別し、適切な編集説明を生成します。次に、編集指示に従って元の画像に局所的な調整を行い、ブレンドされた拡散を使用してカウンターファクト画像を作成します。その後、作成されたカウンターファクト画像と元の画像の微小な違いを説明するために、画像間の識別的な事前トレーニングタスクが開発されます。CLORIモジュールは、変更されたビットが最も無視されている場所から選択されるため、カウンターファクト画像とタスク指示に基づいて、抜け落ちた視覚情報を抽出する必要があります。彼らは、調整可能な知識再注入により、さまざまな複雑なビジョン言語指示から包括的な意味を効果的に作成できる、TransformerベースのMLLMであるCheetorを提案しています。軽量なCLORIモジュールは、100万を切る画像テキストペアで効率的にチューニングできます。巨大なマルチモーダル指示調整データを必要とせず、単一のA100 GPUで数時間で完了することができます。彼らのモデルは、計算やデータの効率性を保ちながら、以前のMLLMよりもI4ベンチマークで優れたパフォーマンスを発揮します。さらに、彼らはMMEベンチマークを使用してCheetorを評価し、そのモデルは優れた結果を示します。以下は彼らの貢献の要約です：（1）彼らは、31のチャレンジからなる干渉するビジョン言語指示の包括的なベンチマークであるI4を構築します。これは幅広い現実世界の設定をカバーしています。（2）彼らは、最小限に制御された知識再注入（CLORI）モジュールを提供します。これは、LLMが生成した状況に応じて、指示固有の視覚情報をLLMに補完的に再注入します。（3）わずか30,000枚の画像を使用して、彼らはクロスアテンションガイド付きの反事実的な画像トレーニング手法を使用して、CLORIモジュールを効果的に教育します。（4）彼らのCheetorは、高品質のマルチモーダル指示調整データがなくても、7つのA100 GPU時間を要する費用で、I4テストで最先端のパフォーマンスを達成します。

Learn more about Search Results A - Page 286