Learn more about Search Results A - Page 342

「テキストゥアをご紹介します:3Dメッシュのテキストゥアリングのための新しい人工知能(AI)フレームワーク」

テキストから画像を生成することは、人工知能(AI)の分野における新しい興味深い研究領域であり、テキストの説明に基づいて現実的な画像を生成することを目指しています。テキストから画像を生成する能力は、アートからエンターテイメントまでさまざまな応用があります。本や映画、ビデオゲームの視覚的な要素を作成するために使用することができます。 テキストから画像を生成する応用の一つは、テクスチャイメージです。これは、布地や表面、素材など、さまざまな種類のテクスチャを表現する画像を作成することを意味します。テクスチャイメージは、コンピュータグラフィックス、アニメーション、仮想現実などで重要な応用があり、リアルなテクスチャはユーザーの没入体験を向上させることができます。 AIの研究のもう一つの興味深い分野は、3Dテクスチャの転送です。これは、3D環境でのオブジェクト間でテクスチャ情報を転送することを意味します。このプロセスにより、ソースオブジェクトからターゲットオブジェクトへのテクスチャ情報の転送によって、真実味のある3Dモデルが作成されます。このアプローチは、製品の視覚化などの分野で利用することができます。 ディープラーニングの技術は、テキストから画像を生成する分野を革新し、高度にリアルで詳細な画像を作成することが可能となりました。深層ニューラルネットワークを使用することで、研究者はテキストの説明に合わせて画像を生成したり、3Dオブジェクト間でテクスチャを転送したりするモデルを訓練することができます。 最近の言語ガイドモデルに関する研究では、よく知られたテキストから画像を生成するモデルである安定拡散を利用してスコア蒸留を行っています。この技術は、大規模なネットワークから小さなネットワークに知識を蒸留することを意味します。小さなネットワークは、最初のネットワークから画像に割り当てられたスコアを予測するために訓練されます。 これらのモデルは以前に使用されていた技術と比べて大幅な改良をもたらしていますが、2Dの対応物に比べて3Dテクスチャの転送プロセスで達成される品質にはまだ十分ではありません。 3Dテクスチャの転送の精度を向上させるために、新しいAIフレームワークであるTEXTureが提案されています。 パイプラインの概要を以下に示します。 出典:https://texturepaper.github.io/TEXTurePaper/static/paper.pdf 上記のアプローチとは異なり、TEXTureは深度条件付きの拡散モデルを利用してレンダリングされた画像に完全なノイズ除去処理を適用します。 テクスチャを適用する3Dメッシュが与えられた場合、核心となるアイデアは、異なる視点から反復的にレンダリングし、深度に基づいたペイントスキームを適用し、アトラスに再投影することです。 ただし、このプロセスを単純に適用するリスクは、生成プロセスの確率的な性質により、非現実的なまたは一貫性のないテクスチャリングが生成されることです。 この問題に対処するために、選択された3Dメッシュは、「保持」「改善」「生成」の領域に分割されます。 「生成」の領域は、地面から塗りつぶす必要のあるオブジェクトの部分を指します。「改善」は、異なる視点からテクスチャを適用し、新しい視点に合わせて調整する必要があるオブジェクトの部分を指します。「保持」は、塗りつぶされたテクスチャを保持する行為を表します。 著者によれば、これらの3つの技術を組み合わせることで、わずか数分で高度にリアルな結果を生成することができます。 著者によって提示された結果は、以下に報告され、最先端の手法と比較されています。 出典:https://texturepaper.github.io/TEXTurePaper/static/paper.pdf これは、TEXTureという新しいAIフレームワークの要約であり、3Dメッシュのテキストガイドテクスチャリングに使用されます。 もし興味がある場合やこのフレームワークについてもっと学びたい場合、論文とプロジェクトページへのリンクがあります。 以下の論文、コード、プロジェクトページをチェックしてください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している、私たちの26k+のML SubReddit、Discordチャンネル、およびメールニュースレターにも参加することを忘れないでください。 効果的な転移学習のためのTensorLeapの活用: ドメインのギャップの克服 この記事「TEXTure:…

この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します

人間の視覚システムと似たように、世界を見て認識する人工システムを構築することは、コンピュータビジョンの重要な目標です。 人工ネットワークのアーキテクチャの特徴を生物学的脳の潜在的表現と比較することで、最近の人口脳活動測定の進歩と深層ニューラルネットワークモデルの実装と設計の改善により、脳活動から視覚画像を再構築することが可能になりました。 たとえば、機能的磁気共鳴イメージング(fMRI)によって検出される脳活動のようなものです。 これは魅力的ですが、脳の基礎となる表現はほとんどわかっておらず、脳データのサンプルサイズが通常小さいため、困難な問題です。 近年の学術研究では、教師なし学習や生成的対抗ネットワーク(GAN)、自己教師あり学習などの深層学習モデルや技術が、これらの課題に取り組むために使用されています。 ただし、これらの試みは、fMRI実験で使用される特定の刺激に対して微調整するか、fMRIデータを使用して新しい生成モデルをトレーニングする必要があります。 これらの試みは、脳科学データの量が少ないことと、複雑な生成モデルの構築に関連する複数の困難により、ピクセルごとの信頼性や意味の信頼性において非常に制約されたパフォーマンスを示しました。 拡散モデル、特に計算資源をあまり必要としない潜在的拡散モデルは、最近のGANの代替手段です。 しかし、LDMはまだ比較的新しいため、内部でどのように機能するかを完全に理解することは困難です。 大阪大学とCiNetの研究チームは、fMRI信号から視覚画像を再構築するためのLDMであるStable Diffusionを使用して、上記で述べた問題に取り組む試みを行いました。 彼らは、複雑な深層学習モデルのトレーニングや調整の必要性を排除し、高解像度で高い意味の信頼性を持つ画像を再構築することができる直感的なフレームワークを提案しました。 この調査で著者が使用したデータセットは、ナチュラルシーンデータセット(NSD)であり、各被験者が10,000枚の画像の3回のリピートを見た間に収集されたfMRIスキャナからのデータを提供しています。 出典:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full まず、著者たちはLatent Diffusion Modelを使用してテキストから画像を作成しました。上の図(上部)では、zは生成された潜在表現であり、cは画像を説明するテキストの潜在表現であり、zcはオートエンコーダによって圧縮された元の画像の潜在表現と定義されています。 デコーディングモデルを分析するために、著者たちは3つのステップに従いました(上の図、中央)。まず、彼らは初期の視覚皮質(青)内のfMRI信号から提示された画像Xの潜在表現zを予測しました。 zはその後、デコーダによって粗い復号化画像Xzを生成するために処理され、次に拡散プロセスを経てエンコードされました。最後に、ノイズのある画像には、高次視覚皮質(黄色)内のfMRI信号からの復号化された潜在テキスト表現cが追加され、zcが作成されました。 zcから、デコーディングモジュールが最終的な再構築画像Xzcを生成しました。このプロセスに必要なトレーニングは、fMRI信号をLDMコンポーネントzc、z、およびcに線形にマッピングすることだけであることを強調しておくことが重要です。 zc、z、およびcから始めると、著者たちはエンコーディング分析を実施し、それらを脳活動にマッピングすることでLDMの内部動作を解釈しました(上の図、下部)。表現から画像を再構築した結果は以下の通りです。 出典:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 単にzを使用して再作成された画像は、元の画像と視覚的な一貫性を持っていましたが、その意味的な価値は失われました。一方、cを使用して部分的に再構築された画像は、意味的な忠実度が高いが視覚的に不一致な画像を生成しました。zcを使用して回復された画像が高解像度の画像を作成し、意味的な忠実度も高いことで、この方法の妥当性が示されました。 脳の最終解析では、DMモデルに関する新しい情報が明らかになりました。脳の後ろにある視覚皮質では、全ての3つの要素が優れた予測性能を達成しました。特に、zは視覚皮質の後ろにある初期視覚皮質で強力な予測性能を提供しました。また、上部視覚皮質(視覚皮質の前部)でも強力な予測値を示しましたが、他の領域ではより小さな値でした。一方、上部視覚皮質では、cが最も優れた予測性能を示しました。…

「Amazon Transcribe Toxicity Detectionを使用して、会話中の有害な言語をフラグ付けします」

オンラインのソーシャルネットワーキングやオンラインゲームなどの活動が増えるにつれて、しばしば敵意や攻撃的な行動が見られ、それによってヘイトスピーチやサイバーいじめ、嫌がらせなどの不要な表現が引き起こされることがあります例えば、多くのオンラインゲームコミュニティでは、ユーザー間のコミュニケーションをサポートするためにボイスチャット機能を提供していますボイスチャットは通常、友好的なコミュニケーションを促進しますが、

「NVIDIA H100 GPUがAWS Cloudで利用可能になりました」

AWSユーザーは、AIトレーニングおよび推論の業界ベンチマークで示された最先端のパフォーマンスにアクセスできるようになりました。 クラウド大手は、NVIDIA H100 Tensor Core GPUを搭載した新しいAmazon EC2 P5インスタンスを正式に稼働させました。このサービスを使用すると、ブラウザからクリックするだけで生成型AI、ハイパフォーマンスコンピューティング(HPC)およびその他のアプリケーションをスケーリングできます。 このニュースは、AIのiPhone時代の続きです。開発者や研究者は、大規模な言語モデル(LLM)を使用して、ほぼ毎日新しいAIの応用を見つけ出しています。これらの新しいユースケースを市場に導入するには、高速計算の効率性が必要です。 NVIDIA H100 GPUは、第4世代のテンソルコア、LLMを加速するための新しいトランスフォーマーエンジン、および最新のNVLinkテクノロジーなど、アーキテクチャイノベーションによって、スーパーコンピューティングクラスのパフォーマンスを提供します。これにより、GPU同士が900GB/秒で通信できるようになります。 P5インスタンスでのスケーリング Amazon EC2 P5インスタンスは、ますます複雑なLLMやコンピュータビジョンモデルのトレーニングおよび推論に最適です。これらのニューラルネットワークは、最も要求の厳しいおよび計算集約型の生成型AIアプリケーション、質問応答、コード生成、ビデオおよび画像生成、音声認識などを駆動します。 P5インスタンスは、クラウド内の高性能なコンピューティング、ネットワーキング、およびストレージから構成されるハイパースケールクラスタであるEC2 UltraClustersに展開できます。各EC2 UltraClusterは、複数のシステム上で最も複雑なAIトレーニングおよび分散HPCワークロードを実行できる強力なスーパーコンピュータです。 P5インスタンスは、AWS EFAによってパベタビットスケールのノンブロッキングネットワークを備えており、コンピュートノード間の高レベルの通信を必要とするスケールアプリケーションを実行できます。AWS EFAはAmazon EC2インスタンス用の3,200 Gbpsネットワークインターフェースです。…

「クリエイティブな人々がAIに対して訴訟で反撃しています」

「法的措置によってAI企業は自社のプログラムのトレーニング方法を変更することを強いられるのか?」

「AIによる完全自律戦争の未来がここにある」

乗組員のいない船自律型のドローンスワーム米海軍の特殊部隊が、市販のロボット技術と人工知能を活用して、次世代の紛争に備えている方法

「ChatGPTを活用して成功する製品ローンチ戦略を構築しましょう」

「人々に製品を購入してもらいたいのであれば、完璧な製品のローンチ戦略を考える必要がありますChatGPTに手助けしてもらいましょう」

「UBCカナダの研究者が、都市ドライバーに最も安全な経路をマッピングする新しいAIアルゴリズムを紹介」

ナビゲーションアプリはリアルタイムでのナビゲーション指示を提供するアプリケーションです。利用可能なほとんどのナビゲーションアプリは、指定された場所への最速の移動経路を表示することができますが、これらのアプリは私たちに最も安全な経路を教えてくれません。 最速の経路は常に最高レベルの安全性を保証するわけではありませんので、安全性の重要性を考慮し、世界中で広範な研究が行われています。これにより、ナビゲーションシステムを向上させ、最も安全で効率的な経路を特定することが可能になります。 UBCの研究者は、最も安全な経路をナビゲートし提案することができるアルゴリズムを開発しました。研究チームは、リアルタイムの事故リスクデータを使用して都市ネットワーク内で最も安全な経路を特定する方法を開発しました。さらに、このアルゴリズムはGoogleマップなどのナビゲーションアプリにも組み込むことができ、誰でも利用できるようになります。 この研究を支援するために、研究チームはアテネ市上空で複数の日にわたって運用される10台のドローンを使用し、これらのドローンによって生成されたデータを収集しました。彼らが収集したデータには、車両の位置、速度、加速度などが含まれています。この情報は、車両間の接近事故を特定するために非常に重要であり、その後、リアルタイムで車両間の衝突リスクを予測しました。この研究では、特定の経路の異なるポイントでの衝突リスクの大きさとその状況に曝される時間の長さを考慮したリアルタイムの経路探索アルゴリズムを開発することを目指しています。最も安全な経路は最速の経路と比較され、安全性と移動性のトレードオフが検証されます。 この研究の結果は非常に興味深いものです。研究では、最も安全な経路は最速の経路よりも22%安全である傾向がありますが、最速の経路は最も安全な経路よりもわずかに11%速いです。多くの状況では、最も安全な経路アルゴリズムは最速の経路と同じ経路をたどりますが、危険な場所を回避するために特定のポイントで迂回します。実際に、最も安全な経路は時間の54%で最速の経路となります。研究者は、道路利用者が方向を選択する際に安全性と効率性の両方を考慮すべきだと述べています。 この実験は、最速の経路と最も安全な経路の間にトレードオフが存在することを示しています。また、この研究はドメインのさまざまな他の研究領域への道を切り開きました。将来的には、1つの経路の安全性を他の経路の安全性と比較して数量化することもできるようになるでしょう。 このモデルの制限は、データが特定の都市でしか収集されず、限られた期間にわたってのみ収集されているため、交通環境の変化を正確に記述しない可能性があります。したがって、より大規模なスケールで、より長い期間にわたり、より多くの利用可能な経路でこのモデルをテストすることは有益であり、安全性と移動性のトレードオフを長距離にわたって特定し、潜在的に一般化することができるでしょう。そのため、研究者は現在、研究の範囲を他のいくつかの都市に拡大しています。

スタビリティAIがStable Diffusion XL 1.0を発表しました

AIスタートアップのStability AIは、生成AIモデルの領域で大きな飛躍を遂げました同社は最新のテキストから画像へのモデル「Stable Diffusion XL 1.0」のリリースを最近発表しましたこのモデルは、同社の「これまでで最も高度な」モデルと説明されており、GitHub上のオープンソースやStabilityのAPIを通じて利用可能です

「AWSは、人工知能、機械学習、生成AIのガイドを提供しており、AI戦略を計画するための新しい情報を提供しています」

人工知能(AI)と機械学習(ML)のブレークスルーは、数ヶ月間の間、見出しを賑わせてきました - そしてその理由は十分にあるのですこの技術の新たに出現し進化する能力は、あらゆるセクターや産業の顧客に新たなビジネスの機会を約束していますしかし、この革命の速さは、組織や消費者が何を評価すべきかを判断するのを困難にしています...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us