Search Results 22

Voxel51 は、コンピュータビジョンデータセット分析のための Python コードを生成するために GPT-3.5 の能力を活用する AI アシスタントである VoxelGPT をオープンソース化しました

データ中心のコンピュータビジョンと機械学習ソフトウェアの有名なイノベーターであるVoxel51は、最近VoxelGPTを立ち上げ、コンピュータビジョンの分野で驚くべきブレークスルーを実現しました。GPT-3.5の力とFiftyOneの多目的コンピュータビジョンクエリ言語を活用することで、VoxelGPTはコンピュータビジョンエンジニア、研究者、組織が高品質のデータセットを編集し、高性能のモデルを開発し、AIプロジェクトを概念実証から製品化まで迅速に移行することを可能にします。 VoxelGPTは、自然言語クエリと実用的なPythonコードのシームレスな統合を提供します。この変革的な機能により、ユーザーは1行のコードを書くことなく、データセット内の画像やビデオを簡単にフィルタリング、ソート、意味的にスライスし、洞察を得ることができます。従来のノーコードおよびローコードソリューションとは異なり、VoxelGPTはFiftyOneの高度なクエリと視覚化の簡易性を組み合わせ、ユーザーが好みのツールやライブラリの柔軟性を活用しながら、コンピュータビジョンのワークフローを加速します。 VoxelGPTには、コンピュータビジョンのワークフローを簡素化し、時間とリソースを節約するいくつかの重要な機能があります。 1. コンピュータビジョンデータセットを検索する：ユーザーは自然言語クエリを使用してデータセットを検索し、ランダムサンプルを取得したり、偽の楽観的な予測を行った一意の画像を特定することができます。 2. コンピュータビジョン、機械学習、データサイエンスの質問をする：VoxelGPTは、基本的なコンセプトの洞察や一般的なデータ品質の問題に対する解決策を提供する包括的な教育リソースです。ユーザーは、画像中のオブジェクト検出、データセットの冗長性を減らす方法などについて質問することができます。 3. ドキュメンテーション、API仕様、チュートリアルを検索する：VoxelGPTは、FiftyOneドキュメンテーションの完全なコレクションへのアクセスを提供し、FiftyOne関連の質問に素早く答えるのに役立ちます。カスタムデータセットをFiftyOneにロードする方法、COCO形式でデータセットをエクスポートする方法、ポイントクラウドの2D画像を生成する方法などのトピックを迅速に取り上げることができます。 Voxel51は、データの透明性と明確性を提唱し、高品質のデータセットとコンピュータビジョンモデルを構築するためのオープンソースおよび商用ソフトウェアソリューションを提供しています。数千人のエンジニアや科学者が、機械学習のワークフローのためにその提供を広く採用しています。自動車、ロボット、セキュリティ、小売、ヘルスケアなど多様なセクターのエンタープライズ顧客は、Voxel51が提供する協調プラットフォームであるFiftyOne Teamsに依存して、データセットとモデルの安全な共同作業を行っています。データ中心のAIソリューションを提供することにコミットするVoxel51は、世界にデータ中心のAIをもたらすビジョンを共有する卓越した個人のチームを拡大し続けています。

Paellaを紹介します：安定した拡散よりもはるかに高速に高品質の画像を生成できる新しいAIモデル

過去2〜3年で、人工知能（AI）を使用してテキストから画像を生成する方法に関する研究の質と量が驚異的に増加しています。この分野で最も画期的で革命的な作品の1つは、最先端の生成モデルである拡散モデルを参照しています。これらのモデルは、深層学習アルゴリズムの力を利用して、テキストの記述を使用して高品質の画像を生成する方法を完全に変革しました。また、拡散に加えて、他の多くの強力な技術が存在し、テキスト入力から写真のようなリアルなビジュアルコンテンツを生成するエキサイティングなパスが提供されています。ただし、これらの最先端の技術によって達成された例外的な結果には、特定の制限があります。新興の生成AI技術の多くは、拡散モデルに依存しており、トレーニングと画像生成に複雑なアーキテクチャと相当な計算リソースが必要です。これらの高度な手法はまた、推論速度を低下させ、リアルタイムの実装には不適切です。さらに、これらの技術の複雑さは、可能にする進歩に直接関連しており、これらのモデルの内部動作を把握する一般の人々にとって課題を提供し、ブラックボックスモデルとして認識される状況を引き起こしています。この前述の懸念に対処するために、ドイツのTechnische Hochschule IngolstadtとWand Technologiesの研究チームは、新しいテキスト条件付き画像生成技術を提案しました。この革新的な技術は拡散に似ていますが、高品質の画像をはるかに速く生成します。この畳み込みベースのモデルの画像サンプリング段階は、わずか12ステップで実行でき、それでも例外的な画像品質を発揮します。このアプローチは、その卓越したシンプルさと、既存の最先端の技術に欠ける利点を楽しむためにモデルを条件付けることができることで際立っています。提案された技術の固有の単純さは、そのテキストから画像への技術を理解し、実装することができる、異なるバックグラウンドを持つ人々によって容易に利用できるようになりました。研究者は、実験評価を通じて自分たちの手法を検証するために、驚異的な10億のパラメーターを持つテキスト条件付きモデル「Paella」をトレーニングしました。チームはまた、彼らのコードとモデルの重みをMITライセンスの下でオープンソース化し、彼らの仕事に関する研究を促進するようにしました。拡散モデルは、トレーニングインスタンスからノイズの異なるレベルを順次除去する学習プロセスを経ます。純粋なノイズが提示されると、モデルは数百ステップにわたってノイズを反復的に減算して画像を生成します。ドイツの研究者が考案した技術は、これらの拡散モデルの原則から大いに影響を受けています。拡散モデルと同様に、Paellaは、画像を表すトークンからさまざまな程度のノイズを除去し、新しい画像を生成するためにそれらを使用します。このモデルは、LAION-5B美的データセットからの9億の画像テキストペアでトレーニングされました。Paellaは、事前にトレーニングされた畳み込みニューラルネットワークに基づくエンコーダーデコーダーアーキテクチャを使用し、事前トレーニング中に学習された8,192トークンのセットから選択された256トークンを使用して256×256の画像を表すことができます。研究者たちは、トレーニングフェーズ中に自分たちの例にノイズを追加するために、このリストにいくつかのランダムに選択されたトークンを含めました。研究者は、画像のテキスト記述に基づいてテキスト埋め込みを生成するために、画像とテキストの説明の間に接続を確立するCLIP（Contrastive Language-Image Pretraining）モデルを利用しました。次に、U-Net CNNアーキテクチャを使用して、テキスト埋め込みと前のイテレーションで生成されたトークンを使用して、元のトークンセットの完全なセットを生成するモデルのトレーニングが行われました。この反復プロセスは12回繰り返され、前回の反復で生成されたトークンの一部を徐々に置き換えていきます。残りの生成されたトークンのガイダンスの下で、U-Netは各ステップでノイズを徐々に減らしていきます。推論中、CLIPは与えられたテキストプロンプトに基づいて埋め込みを生成し、U-Netはランダムに選択された256トークンのセットに対して12ステップですべてのトークンを再構築しました。最後に、デコーダーは生成されたトークンを使用して画像を生成しました。研究効果を評価するために、研究者たちはFréchet inception distance（FID）メトリックを使用して、PaellaモデルとStable Diffusionモデルから得られた結果を比較しました。結果はわずかにStable Diffusionに有利でしたが、Paellaは速度の点で大きなアドバンテージを持っています。この研究は、以前に考慮されていなかったアーキテクチャを完全に再構成することに焦点を当てたため、以前の取り組みとは異なります。結論として、Paellaは、既存のモデルに比べて小さなモデルサイズと少ないサンプリングステップで高品質の画像を生成でき、それでも顕著な成果を達成できます。研究チームは、ジェネラティブAIの分野が時間とともにますます注目を集める中、非技術的な分野を含むさまざまなバックグラウンドを持つ個人が簡単に採用できるシンプルなセットアップを提供するアプローチのアクセシビリティを強調しています。

メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました

人間の目は素晴らしい器官であり、視覚を可能にし、重要な環境データを保管することができます。通常、目は2つのレンズとして使用され、光をその網膜を構成する感光細胞に向けて誘導します。しかし、他人の目を見ると、角膜から反射された光も見ることができます。カメラを使用して他人の目を写真に撮ると、イメージングシステム内の一対のミラーに自分の目を変えます。観察者の網膜に届く光と彼らの目から反射する光は同じ源から来るため、彼らのカメラは観察している環境に関する詳細を含む写真を提供するはずです。以前の実験では、2つの目の画像が、観察者が見ている世界の全景表現を回復させました。リライト、焦点オブジェクトの推定、グリップ位置の検出、個人認識などのアプリケーションは、後続の調査でさらに研究されています。現在の3Dビジョンとグラフィックスの開発により、単一の全景環境マップを再構築するだけでなく、観察者の現実を3次元で復元できるかどうか熟考しています。頭が自然に動くと、目が複数のビューから情報をキャプチャし、反映することを知っています。メリーランド大学の研究者たちは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。彼らの方法は、静止したカメラを使用し、目の画像からマルチビューの手掛かりを抽出します。通常のNeRFキャプチャセットアップでは、マルチビュー情報を取得するために移動カメラが必要です（しばしばカメラ位置の推定に続きます）。概念的には単純ですが、実際には、目の画像から3D NeRFを再構築することは困難です。最初の困難は、ソース分離です。彼らは、人間の目の複雑な虹彩のテクスチャと反射を区別する必要があります。これらの複雑なパターンにより、3D再構築プロセスが不明瞭になります。通常、正常なキャプチャでは、場面のクリーンな写真に対して、虹彩のテクスチャが混在することはありません。この構成により、再構築技術はより困難になり、ピクセルの相関が崩れます。角膜のポーズの推定は、2つ目の困難を提示します。画像観察から正確に位置を特定することが困難であり、小さく、難解な目です。ただし、それらの位置と3D方向の正確さは、マルチビュー再構築にとって重要です。これらの困難を克服するために、この研究の著者は、虹彩テクスチャを全体的な輝度場から区別しやすくするために、2つの重要な要素を追加して、目の画像でNeRFをトレーニングするためにNeRFを再利用しました。短い放射線を使用したテクスチャ分解（a）およびアイポーズの微調整（b）です。彼らは、現実的なテクスチャを持つ人工的な角膜から反射をキャプチャする写真で複雑な屋内環境の合成データセットを作成して、彼らの技術のパフォーマンスと効果を評価します。彼らはまた、いくつかのアイテムで実際に収集された人工および実際の眼球画像の研究を行い、彼らの方法論のいくつかの設計決定を支援します。これらが彼らの主な貢献です。 •彼らは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。 •彼らは、目の画像で虹彩テクスチャを分解するための放射状事前分布を導入することで、再構築された輝度場の品質を大幅に向上させています。 •彼らは、アイボールのノイズのあるポーズ推定を減らす角膜ポーズの微調整プロセスを開発することにより、人間の目から特徴を収集する特別な問題を解決しています。これらの進展により、視線外の3Dシーンを明らかにし、キャプチャするためのアクシデンタルイメージングの広い範囲で研究・開発の新しい機会が生まれました。彼らのウェブサイトには、彼らの開発を実証するいくつかのビデオがあります。図1は、目の反射を使用して放射輝度場を再構築することを示しています。人間の目は非常に反射します。被写体の目の反射だけを使用して、移動する頭を記録する一連のフレームから彼らが見ている3Dシーンを再構築して表示することができることを示しています。

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野（BERTやGPTモデルなど）やコンピュータビジョンなど、多くの分野で成功を収めていますしかし、時間の問題になると...

医師たちはバーチャルリアリティでトレーニングします

シミュレーションは外科医を実際の手術に準備させます

私たちの早期警戒システムへのサポート

GoogleのYossi MatiasさんとWMOのインフラストラクチャー部門ディレクターであるAnthony Reaさんが「Early Warnings For All Initiative」について話し合っています

Light & WonderがAWS上でゲーミングマシンの予測保守ソリューションを構築した方法

この記事は、ライトアンドワンダー（L＆W）のアルナ・アベヤコーン氏とデニス・コリン氏と共同執筆したものですライトアンドワンダーは、ラスベガスを拠点とするクロスプラットフォームゲーム会社であり、ギャンブル製品やサービスを提供していますAWSと協力して、ライトアンドワンダーは最近、業界初の安全なソリューション「Light & Wonder Connect（LnW Connect）」を開発しました[…]

黄金時代：『エイジオブエンパイア III』がGeForce NOWに参加

Microsoftの受賞歴を誇るAge of Empires III：Definitive Editionで土地を征服しましょう。これは、GeForce NOWでサポートされている10の新しいゲームの1つです。あなたの指揮の下でクラウドからすべての戦闘をストリームできます。 Age of Empires III：Definitive Editionは、より良いビジュアル、強化されたゲームプレイ、クロスプラットフォームマルチプレイヤーなどを特徴とする、最も愛されたリアルタイムストラテジーフランチャイズのリマスター版です。ヨーロッパやアメリカ、アジアの戦場に飛び込んで、偉大な文明を指揮してください。メンバーは、Historical BattlesとThe Art of War Challenge Missionsの2つの新しいゲームモードを体験できます。また、2つの新しい国、スウェーデンとインカがこの版に加わり、それぞれ新しい世界を征服するための利点があります。今日帝国を築き、究極のメンバーシップで壮大な4K解像度でデバイス全体でストリーミングできます。ゲームリストを征服する今週は「Conqueror’s Blade」で包囲戦術の芸術をマスターしましょう。 GeForce…

F.T.C.、AmazonをPrimeに加入させるためにユーザーをだますと非難

訴訟は、連邦取引委員会の委員長であるリナ・カーンが指揮する初めてのアマゾンに対する訴訟です

ウィンブルドン、ビデオハイライトの解説にAIを使用

この発表は、テニスがテクノロジーを受け入れるスポーツとして広がる傾向の一部です

Learn more about Search Results 22 - Page 152