Search Results Discord

この秋登場予定：NVIDIA DLSS 3.5 が Chaos Vantage、D5 Render、Omniverse、そして人気のあるゲームタイトルに対応します

エディターの注：この投稿は、弊社の週刊「NVIDIA Studio」シリーズの一部であり、注目のアーティストを称え、クリエイティブなヒントやトリックを提供し、NVIDIA Studioテクノロジーがクリエイティブなワークフローを向上させる方法を示しています。また、新しいGeForce RTX 40シリーズGPUの機能、技術、リソースについて詳しく掘り下げ、コンテンツ作成を劇的に加速する方法も説明しています。年間最大のゲームイベントであるGamescomが明日ドイツのケルンで開催されますが、ゲーマーやコンテンツクリエイターは、今週NVIDIA Studioで最新のイノベーション、ツール、AIパワードテクノロジーを見つけることができます。公式オープンの前夜に、NVIDIAは、リアルタイムの3Dクリエイティブアプリやゲームにおいて、従来のレンダリング方法よりも美しくリアルなレイトレーシングビジュアルを作成する新しいニューラルレンダリングAIモデルである「NVIDIA DLSS 3.5 featurning Ray Reconstruction」を発表しました。 NVIDIA Omniverse上に構築された無料のモディングプラットフォームである「NVIDIA RTX Remix」は、古典的なゲームのための#RTXONモッズを作成して共有するためのツールを提供します。また、私たちはValveのハイレーティングゲームである「Half-Life 2」のコミュニティリマスタープロジェクトである「Half-Life 2 RTX: An RTX Remix Project」も発表しました。…

2023年に使用するための10の最高のAI画像生成ツール

2023年、最高のAI画像生成ツールは非常に複雑で高度であり、ユニークなデザインを育んでいます。デザイナーは時間制約やクリエイティブな障害に取り組むのに役立つシームレスなソリューションにアクセスできるため、無限の創造的な可能性の王国を開放します。この記事では、2023年のトップ10のAI画像生成ツールを紹介し、デザイナーに視覚的に魅力的なコンテンツを作成するための新たな自由を提供します。今日のAI写真生成技術がクリエイティブ業界を変革する能力を持っているかを探求しましょう。 AI画像生成ツールとは何ですか？既存のデータからパターンを学習して新しい画像を作成するために使用されるAI技術は、一般的にAI画像生成ツールとして知られています。このような画像生成ツールの他の技術的な名称には、AIパワード画像合成ツールまたは生成的対抗ネットワーク（GAN）があります。生成的対抗ネットワークは、ジェネレータとディスクリミネータの2つのニューラルネットワークで構成されています。これらのネットワークは競争的なプロセスで同時に動作します。ジェネレータは新しい画像を作成し、ディスクリミネータはそれらをデータセットと比較します。ジェネレータのますますリアルな視覚効果を活用することで、芸術、デザイン、エンターテイメントなど、さまざまな用途に活用することができます。 AI画像生成ツールはデザイナーをどのようにサポートできますか？さまざまな分野のデザイナーは、AI画像生成ツールを通じてさまざまな利点を享受しています：アクセシビリティ： AIによって生成された画像は、デザインの専門知識がない人々にもコンテンツ制作やデザインツールをより利用しやすくすることができます。芸術における協力： AI技術を使用することで、デザイナーやアーティストは人間の創造力とAI生成の特徴を組み合わせたハイブリッドな芸術作品を共同で制作することができます。創造性の向上： AI画像生成ツールは、デザイナーが制約を超えて新しいデザイン手法を試してみることを促すモチベーションの源となることができます。スタイルの探求：デザインの専門家は、さまざまな芸術的および美学的スタイルを試して実験することができ、創造的な可能性を広げることができます。アイデアの生成：デザイナーは迅速にさまざまなデザインのコンセプトやバリエーションを生み出し、新しいコンセプトやアプローチを試すことができます。パーソナライズとカスタマイズ：デザイナーは人工知能を活用して、特定のクライアント、観客、またはブランディング原則にカスタマイズされたパーソナライズされたビジュアルを作成することができます。時間の効率化： AI生成ツールによって単調なプロセスを自動化することで、デザインプロセスを大幅に高速化し、デザイナーがより創造的で戦略的な要素に集中する時間を確保することができます。ビジュアルプロトタイピング：デザイナーはAI生成ツールによって生成されたビジュアルプロトタイプやモックアップを利用して、手作業のデザイン作業に多くの時間を費やす前にアイデアを視覚化することができます。トップ10のAI画像生成ツール以下は、2023年のトップ10のAI画像生成ツールの徹底的なリストです：…

オムニバースへ：Reallusionは、2方向のライブ同期とOpenUSDサポートにより、キャラクターアニメーションのワークフローを向上させます

編集者の注：この投稿はInto the Omniverseシリーズの一部であり、アーティスト、開発者、企業がOpenUSDとNVIDIA Omniverseの最新の進歩を活用してワークフローを変革する方法に焦点を当てています。単一の3Dキャラクターをアニメーション化したり、産業のデジタル化のためにそれらのグループを生成したりする場合、人気のあるReallusionソフトウェアを使用するクリエイターや開発者は、今月リリースされたiClone Omniverse Connectorの最新のアップデートでワークフローを向上させることができます。このアップグレードにより、NVIDIA Omniverseを使用するクリエイターにとって、シームレスなコラボレーションが可能になり、創造的な可能性が拡大します。NVIDIA Omniverseは、OpenUSDベースのツールやアプリケーションを接続および構築するための開発プラットフォームです。新機能には、プロジェクトのリアルタイム同期や、Universal Scene Descriptionフレームワーク（OpenUSDとも呼ばれる）の強化されたインポート機能が含まれており、これによりiCloneとOmniverseの間の作業がより迅速でスムーズかつ効率的になります。このアップデートには、バグ修正と改善も含まれています。 3Dキャラクターをより良くアニメーション化する世界中のクリエイターは、リアルタイムの3DアニメーションソフトウェアであるReallusion iCloneを使用してキャラクターを生き生きとさせています。ソロモン・ジャグウェは、3Dアーティスト、アニメーター、受賞歴を持つ映画監督であり、彼の作品はしばしば環境に焦点を当てています。東アフリカで育ったジャグウェは、兄と一緒に田舎に冒険に出かけたときに見た生物を描くという幼い頃の思い出を思い出します。今でも、彼の3D作品の多くは、ペンと紙を使ったシンプルなスケッチから始まります。このアーティストは、常に影響を与えるアートを作り出すことを目指していると語っています。たとえば、ジャグウェは、ウガンダの文化についてあらゆる年齢の人々に教育するためのビデオシリーズ「Adventures of Nkoza and Nankya」を作成しました。彼はこのシリーズのためのセットをAutodesk…

ビッグテックと生成AI：ビッグテックが生成AIを制御するのか？

「ビッグテックと生成AIの深まる関係を探求する：これらの巨人はセクターを支配するのか、それともバランスの取れたAIの景観が生み出されるのか？データ、力、イノベーションの相互作用にダイブしてください」

このAI研究は、多モーダル大規模言語モデル（LLM）の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています

コーヒーを飲みたいと思った場合、ロボットに作ってもらうように指示することを想像してください。指示には「コーヒーのカップを作ってください」というものが含まれますが、「台所に行って、コーヒーマシンを見つけて、スイッチを入れてください」といった手順の指示は含まれていません。現在の既存システムには、対象のオブジェクトを特定するために人間の指示に依存するモデルが含まれています。これらのシステムには、ユーザーの意図の推論と積極的な理解の能力が欠けています。これを解決するために、マイクロソフトリサーチ、香港大学、およびSmartMoreの研究者たちは、推論セグメンテーションという新しいタスクを提案しています。この自己推論の能力は、次世代の知覚システムの開発において重要です。推論セグメンテーションは、複雑で暗黙のクエリテキストに対して出力をセグメンテーションマスクとして設計することを含みます。彼らはまた、推論と世界知識を含む1000以上の画像-指示のペアからなるベンチマークを作成し、評価のためのワールド知識と推論を備えたLanguage Instructed Segmentation Assistant（LISA）というGoogle AssistantやSiriに似たアシスタントを構築しました。LISAは、マルチモーダル大規模言語モデルの言語生成能力を継承しながら、セグメンテーションタスクを生成する能力を処理することができます。 LISAは、複雑な推論、世界知識、説明的な回答、および複数の会話を処理することができます。研究者は、彼らのモデルが推論フリーのデータセットでトレーニングされた場合でも堅牢なゼロショット能力を示すことができると述べています。たった239の推論セグメンテーション画像-指示ペアだけでモデルを微調整すると、パフォーマンスが向上します。推論セグメンテーションタスクは、以前の参照セグメンテーションとは異なり、モデルが推論能力を持ち、世界知識にアクセスする必要があります。モデルがタスクをうまく実行するためには、クエリを完全に理解する必要があります。研究者たちは、彼らの方法が複雑で標準的な推論に比べて効果的な新しい推論セグメンテーションを解き明かすことを示しています。研究者は、推論セグメンテーションのサンプルを含まないトレーニングデータセットを使用しました。このデータセットには、クエリテストで明示的にターゲットオブジェクトが示されているインスタンスのみが含まれています。複雑な推論のトレーニングデータセットがなくても、彼らはLISAがReasonSeg（ベンチマーク）で印象的なゼロショット能力を示すことを発見しました。研究者は、LISAが20％以上のgIoUパフォーマンス向上を達成する複雑な推論タスクを達成することを見つけました。ここで、gIoUはすべての画像ごとのIntersection-over-Union（IoU）の平均です。彼らはまた、LISA-13Bが長いクエリシナリオで7Bを上回ることも発見しました。これは、より強力なマルチモーダルLLMがパフォーマンスのさらなる向上をもたらす可能性があることを意味しています。研究者はまた、彼らのモデルがバニラの参照セグメンテーションタスクにも適任であることを示しています。彼らの今後の研究では、本当に知的な感知システムを構築するために重要な自己推論の能力にさらに重点を置く予定です。ベンチマークの確立は評価において重要であり、コミュニティに新しい技術を開発することを促します。論文とGithubをチェックしてください。この研究における研究者には、このプロジェクトでのすべての功績があります。また、最新のAI研究ニュースやクールなAIプロジェクトなどを共有している28k+のML SubReddit、40k+のFacebookコミュニティ、Discordチャンネル、およびEメールニュースレターにも参加するのをお忘れなく。この記事は、MarkTechPostに最初に掲載されたものです。

「AIを使わない人々の7つの愚かな理由」

「今では誰もが人工知能を使っていますあなたのいとこがMidjourneyを使って劇的なアニメ風のシーンを作るために使っていたり、お母さんがレシピを簡単にするために使っていたりするのを見ても、AIはもはや夢物語ではありません無数の無料で使いやすくリソースに優しいツールが存在しているため、AIの恩恵を受けることができる人に理由がないのです...」

「このAIニュースレターが必要なすべて #59」

今週、Zoomの利用規約の変更（3月から）が、顧客のビデオデータの使用に関する懸念が拡散したことで注目されましたZoomの利用規約は、主に会社に自由な利用を許可するように見えました...

「Hugging Face Transformersライブラリを解剖する」

これは、実践的に大規模言語モデル（LLM）を使用するシリーズの3番目の記事ですここでは、Hugging Face Transformersライブラリについて初心者向けのガイドを提供しますこのライブラリは、簡単で...

「CMUの研究者たちは、シンプルで効果的な攻撃手法を提案しましたこれにより、言語モデルが高い成功率で問題のある行動を生成することが可能となります」

大規模言語モデル（LLM）は、人間の言語で作業するための深層学習モデルの最近の進歩です。これらの深層学習トレーニングモデルは、人間のようにテキストを理解し生成します。これらのモデルは、書籍、記事、ウェブサイトなどの情報源からスクレイピングされた巨大なデータセットでトレーニングされます。彼らは言語を翻訳し、テキストを要約し、質問に答えることができ、さまざまな自然言語処理タスクを実行することができます。最近、これらのモデルが問題のあるコンテンツを生成する能力とそれに伴う結果についての懸念が高まっています。そのため、この領域で重要な研究が行われています。その後、カーネギーメロン大学のコンピュータ科学学部（SCS）、CyLabセキュリティとプライバシー研究所、およびAIセーフティセンターの研究者らは、言語モデルで問題のある振る舞いを生成することを研究しました。彼らの研究では、クエリの幅広い範囲に接尾辞を追加することで、オープンソースおよびクローズドソースの言語モデル（LLM）が通常拒否する質問に肯定的な応答を生成する確率が大幅に増加する新しい攻撃手法を提案しました。研究中、研究者らはChatGPT、Bard、Claudeなどの公開インターフェースやLLMa-2-Chat、Pythia、FalconなどのオープンソースLLMなど、さまざまな言語モデルに攻撃接尾辞を適用しました。その結果、これらの言語モデルの出力に問題のあるコンテンツを効果的に誘発しました。この方法は、Vicunaでは100回のインスタンス中99回で有害な行動を生成しました。また、Vicunaの出力に対して目標の有害な文字列と88回の完全一致を生み出しました。研究者らは、GPT-3.5やGPT-4などの他の言語モデルに対しても攻撃手法をテストし、最大84％の成功率を達成しました。PaLM-2では、成功率は66％でした。研究者らは、チャットボットに問題のあるまたは有害なコンテンツを生成させることによって直接人々にもたらされる可能性のある害は、現時点では特に深刻ではないと述べています。懸念されるのは、これらのモデルが人間の監視なしで自律システムでより大きな役割を果たすことです。彼らはさらに、自律システムが現実の一部となるにつれて、これらの攻撃による乗っ取りを止めるために信頼性のある方法を確保することが非常に重要になると強調しました。研究者らは、プロプライエタリな大規模言語モデルやチャットボットを攻撃することを目指していなかったと述べています。しかし、彼らの研究は、大きな兆パラメータのクローズドソースモデルがあったとしても、人々は自由に利用できる、より小さな、簡単なオープンソースモデルを見て攻撃する方法を学ぶことができるということを示しています。研究者らは、研究中、攻撃接尾辞を複数のプロンプトとモデルでトレーニングすることで攻撃手法を拡張しました。その結果、Google BardやClaudなどのさまざまな公開インターフェース、およびLLama 2 Chat、Pythia、Falconなどのオープンソース言語モデルにも攻撃が影響し、問題のある振る舞いを示しました。この研究は、彼らの攻撃手法が公開インターフェースやオープンソースの実装を含むさまざまな言語モデルに広範な適用可能性を持ち、影響を与えることが示されました。彼らはさらに、現在このような攻撃に対抗する方法がないことを強調し、次のステップはこれらのモデルを修正する方法を見つけることです。論文とブログ記事をチェックしてください。この研究のすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している27k+ ML SubReddit、40k+ Facebookコミュニティ、Discordチャンネル、およびメールニュースレターにぜひご参加ください。この記事はMarkTechPostで最初に掲載されました。

「SD-Small」と「SD-Tiny」の知識蒸留コードと重みのオープンソース化

近年、AIコミュニティでは、Falcon 40B、LLaMa-2 70B、Falcon 40B、MPT 30Bなど、より大きく、より高性能な言語モデルの開発が著しく進んでいます。また、SD2.1やSDXLなどの画像領域のモデルでも同様です。これらの進歩は、AIが達成できることの境界を押し広げ、高度に多様かつ最先端の画像生成および言語理解の能力を可能にしています。しかし、これらのモデルのパワーと複雑さを驚嘆しながらも、AIモデルをより小さく、効率的に、そしてよりアクセスしやすくするという成長するニーズの認識が不可欠です。特に、オープンソース化によってこれらのモデルを利用可能にすることが求められています。 Segmindでは、生成型AIモデルをより速く、安価にする方法に取り組んできました。昨年、voltaMLという加速されたSD-WebUIライブラリをオープンソース化しました。これはAITemplate/TensorRTベースの推論高速化ライブラリであり、推論速度が4～6倍向上しました。生成モデルをより速く、小さく、安価にする目標に向けて、私たちは圧縮されたSDモデル「SD-Small」と「SD-Tiny」の重みとトレーニングコードをオープンソース化しています。事前学習済みのチェックポイントはHuggingfaceで利用可能です🤗 知識蒸留私たちの新しい圧縮モデルは、知識蒸留（KD）技術に基づいてトレーニングされており、この論文に大きく依存しています。著者は、いくつかのUNetレイヤーを削除し、学習された生徒モデルの重みを説明したブロック除去知識蒸留法について説明しています。論文で説明されているKDの手法を使用して、圧縮モデル2つをトレーニングしました。🧨 diffusersライブラリを使用してトレーニングした「Small」と「Tiny」は、ベースモデルと比較してそれぞれ35%と55%少ないパラメータを持っており、ベースモデルと同様の画像品質を実現しています。私たちはこのリポジトリで蒸留コードをオープンソース化し、Huggingfaceで事前学習済みのチェックポイントを提供しています🤗 ニューラルネットワークの知識蒸留トレーニングは、先生が生徒をステップバイステップで指導するのと似ています。大きな先生モデルは大量のデータで事前トレーニングされ、その後、より小さなモデルは小規模なデータセットでトレーニングされ、クラシカルなトレーニングと共に、大きなモデルの出力を模倣するようになります。この特定の種類の知識蒸留では、生徒モデルは通常の拡散タスクである純粋なノイズからの画像の復元を行うようにトレーニングされますが、同時に、モデルは大きな先生モデルの出力と一致するようになります。出力の一致はU-netの各ブロックで行われるため、モデルの品質はほとんど保たれます。したがって、前述のアナロジーを使用すると、このような蒸留中、生徒は質問と回答だけでなく、先生の回答からも学び、回答に至る方法もステップバイステップで学ぼうとします。これを達成するために、損失関数には3つのコンポーネントがあります。まず、ターゲット画像の潜在変数と生成された画像の潜在変数の間の従来の損失です。次に、先生が生成した画像の潜在変数と生徒が生成した画像の潜在変数の間の損失です。そして最後に、最も重要なコンポーネントであるフィーチャーレベルの損失です。これは、先生と生徒の各ブロックの出力の間の損失です。これらすべてを組み合わせて、知識蒸留トレーニングが成り立ちます。以下は、論文「テキストから画像への拡散モデルのアーキテクチャ圧縮について」（Shinkookら）からのアーキテクチャの例です。画像はShinkookらによる論文「テキストから画像への拡散モデルのアーキテクチャ圧縮について」から取得私たちは、ベースとなる先生モデルとしてRealistic-Vision 4.0を選び、高品質な画像の説明を持つLAION Art Aestheticデータセットでトレーニングしました（画像スコアが7.5以上のもの）。論文とは異なり、私たちはSmallモードでは100Kステップ、Tinyモードでは125Kステップで1M枚の画像で2つのモデルをトレーニングしました。蒸留トレーニングのコードはこちらで見つけることができます。モデルの使用方法モデルは🧨 diffusersのDiffusionPipelineを使用して利用できます from diffusers import DiffusionPipeline…

Learn more about Search Results Discord - Page 7