Search Results 構成

スタンフォード大学の研究者が、多様な視覚的な概念に対する現行モデルの解釈性と生成能力を向上させるための新しい人工知能フレームワークを紹介しました

多様な視覚的なアイデアを得るためには、既存のモデルの解釈性と生成力を高めることが重要です。スタンフォード大学の研究者たちは、言語に基づいた視覚的な概念表現の学習のためのAIフレームワークを紹介しました。このフレームワークでは、言語に基づいた概念軸により情報を符合化する概念エンコーダを訓練し、事前学習されたビジュアルクエスチョンアンサリング（VQA）モデルからのテキスト埋め込みとの関連付けを可能にします。概念エンコーダは、言語に基づいた概念軸によって情報を符合化するように訓練されます。モデルは新しいテスト画像から概念の埋め込みを抽出し、新しい視覚的概念構成を持つ画像を生成し、未知の概念にも対応します。このアプローチは、視覚的なプロンプトとテキストクエリを組み合わせてグラフィカルな画像を抽出し、テキストから画像を生成するモデルにおける視覚言語の根拠の重要性を示しています。この研究は、人間と似た視覚的概念を認識するシステムを作成することを目指しています。言語で指定された概念軸に対応する概念エンコーダを使用するフレームワークを導入しています。これらのエンコーダは画像から概念の埋め込みを抽出し、新しい構成の画像を生成します。フレームワーク内では、概念エンコーダは言語に基づいた概念軸に沿って視覚情報を符合化するように訓練されます。推論時に、モデルは新しい画像から概念の埋め込みを抽出し、新しい構成のアイデアを生成します。比較評価では、他の手法と比べて優れた再構築結果が示されています。提案された言語に基づく視覚的概念学習フレームワークは、テキストに基づく手法よりも優れたパフォーマンスを発揮します。フレームワークはテスト画像から概念の埋め込みを効果的に抽出し、新しい視覚的概念の構成を生成し、より明解性と組成性が高いです。比較分析では、より優れた色の変化捕捉が示され、人間の評価ではリアリティと編集指示に対する忠実さの高いスコアが示されています。結論として、この研究では事前学習モデルからの蒸留による言語に基づいた視覚的概念の効果的なフレームワークを提案しています。このアプローチにより、視覚的概念エンコーダの明解性が向上し、新しい概念の組成を持つ画像の生成が可能になります。この研究は、高いリアリティと編集指示への忠実さを持つ画像生成を制御するために、視覚的プロンプトとテキストクエリの使用効率も強調しています。研究は、言語に基づく視覚的概念学習フレームワークを改善するために、より大規模かつ多様なトレーニングデータセットの使用を推奨しています。また、異なる事前学習されたビジョン言語モデルの影響や、柔軟性を高めるための追加の概念軸の統合についても調査することを提案しています。また、フレームワークは様々な視覚的概念編集タスクとデータセットで評価されるべきです。研究は自然画像のバイアス緩和を特定し、画像合成、スタイル変換、視覚的ストーリーテリングの潜在的な応用についても提案しています。

「ゼロから始めるLoRAの実装」

「LoRA（ローラ）は、既存の言語モデルを微調整するための効率的で軽量な方法を提供する、Low-Rank AdaptationまたはLow-Rank Adaptorsの頭字語ですこれには、BERTのようなマスクされた言語モデルも含まれます...」

ポイントクラウド用のセグメント化ガイド「Segment Anything 3D for Point Clouds Complete Guide (SAM 3D)」

「セマンティックセグメンテーションアプリケーションを3Dポイントクラウドに適用し、Segment Anything Model（SAM）とPythonで構築しますボーナス：2Dから3Dへのプロジェクションのためのコードも提供します」

Amazon SageMaker JumpStartを使用してLLMと対話するためのWeb UIを作成します

ChatGPTの発売および生成AIの人気の上昇は、AWS上で新しい製品やサービスを作成するためにこの技術をどのように利用できるかについての好奇心を持つ顧客たちの想像力を捉えていますこれにより、より対話的なエンタープライズチャットボットなどの製品やサービスを作成する方法を紹介しますこの記事では、Web UIを作成する方法について説明します

「月光スタジオのAIパワード受付アバター、NANAに会いましょう」

エディター注：この投稿は、当社の週刊「In the NVIDIA Studio」シリーズの一環であり、注目のアーティストを紹介し、クリエイティブのヒントやトリックを提供し、NVIDIA Studio技術がクリエイティブなワークフローを向上させる方法を示しています。また、新しいGeForce RTX 40シリーズGPUの機能、技術、リソースについて詳しく説明し、コンテンツ制作を劇的に加速させる方法を探求しています。ムーンシャインスタジオのクリエイティブチームは、アニメーションとモーションデザインに特化したアーティスト志向の視覚効果（VFX）スタジオであり、問題を解決するように指示されました。彼らの台湾オフィスでは、受付担当者が常に面会や挨拶に忙しく、他の重要な事務作業を完了できませんでした。さらに悪いことに、自動化されたキオスクの挨拶システムは予想通りに機能していませんでした。シニアムーンシャインスタジオ3Dアーティストであり、今週のNVIDIA StudioクリエーターであるEric Chiangは、この課題に取り組みました。彼は現実的でインタラクティブな3Dモデルを作成しました。これは新しいAIパワードのバーチャルアシスタントであるNANAの基盤となります。このアバターは、ゲストを歓迎し、基本的な会社情報を提供することができ、受付担当者チームの負担を軽減します。 Chiangは、彼のお気に入りのクリエイティブアプリでGPUアクセラレーションの機能を使用してNANAを構築しました。それは彼のNVIDIA StudioバッジのついたMSI MEG Trident X2 PCという装備されたGeForce RTX 4090グラフィックカードで駆動されています。彼のクリエイティブワークフローは、彼のGPUのテンソルコアによって強化され、AI特有のタスクを高速化し、作業の品質を向上させました。RTXとAIはゲームのパフォーマンスを向上させ、生産性を向上させるなどもします。これらの高度な機能はNVIDIA Studio Driversによってサポートされています。…

ロボットウナギが魚の効率的な泳ぎ方を明らかにする

スイス連邦工科大学ローザンヌ校の研究者たちは、防水のウナギのようなロボットを開発しましたこのロボットは、さまざまなパターンでうねることができます

PythonからRustへ：3つの大きな障害を解明する

私を囲む人々は、私が🐍 Pythonの大ファンであることをみんな知っています私は約15年前にMathworksのMatlabにうんざりしてPythonの使用を始めましたMatlabのアイデアは良さそうに思えましたが、マスターした後に…

UCバークレーの研究者たちは、LLMCompilerを紹介しました：LLMの並列関数呼び出しパフォーマンスを最適化するLLMコンパイラ

以下は、UCバークレー、ICSI、およびLBNLの研究チームが開発したLLMCompilerというフレームワークです。このフレームワークは、LLMの効率と精度を向上させるために設計されており、マルチファンクションコーリングタスクの遅延と不正確さを解決します。LLMCompilerは、LLMプランナー、タスクフェッチングユニット、エグゼキュータのコンポーネントを通じて関数呼び出しの並列実行を可能にします。 LLMCompilerは、マルチファンクションタスクにおける効率と精度を向上させるLLMのフレームワークです。LLMプランナー、タスクフェッチングユニット、エグゼキュータから構成されるLLMCompilerは、ベンチマーキングにおいてReActやOpenAIの並列関数呼び出し機能よりも優れた性能を発揮し、一貫したレイテンシの高速化と精度の改善を示します。LLAMA-2やOpenAIのGPTモデルのようなオープンソースモデルと互換性があり、LLMの知識の限界や算術スキルなどの制約に対処し、関数呼び出しの実行に最適化されたソリューションを提供します。このフレームワークはオープンソースであり、さらなる研究と開発を容易にします。 LLMの進化により、コンテンツ生成の能力を超えて関数呼び出しの実行が可能になりました。LLMプランナー、タスクフェッチングユニット、エグゼキュータから構成されるLLMCompilerは、関数呼び出しのオーケストレーションを最適化します。ベンチマーキングの結果、ReActやOpenAIの並列関数呼び出しと比較して一貫したレイテンシ、コスト、精度の改善が示されました。 LLMCompilerは、LLMにおける関数呼び出しの並列化を可能にするフレームワークです。LLMプランナー、タスクフェッチングユニット、エグゼキュータから成り立っており、LLMプランナーは実行戦略を策定し、タスクフェッチングユニットはタスクをディスパッチして更新し、エグゼキュータはそれらを並列実行します。LLAMA-2やOpenAIのGPTなどのオープンソースモデルと互換性があり、LLMにおけるマルチファンクション呼び出しタスクを効率的にオーケストレーションするLLMCompilerは、ReActに比べてレイテンシの高速化、コスト削減、精度の改善を実現します。動的なリプランニングをサポートすることで適応的な実行が可能であり、オープンソースのフレームワークはLLMにおけるマルチファンクション呼び出しタスクの効率的なオーケストレーションを提供します。複雑な依存関係や動的なリプランニングのニーズを含むさまざまなタスクでベンチマークが行われ、LLMCompilerは一貫してReActを上回りました。レイテンシの高速化で最大3.7倍、コスト削減で最大6.7倍、精度の改善で9%の向上を実現しました。Game of 24のベンチマークでは、LLMCompilerはTree-of-Thoughtsに比べて2倍の高速化を達成し、OpenAIの並列関数呼び出し機能を最大1.35倍のレイテンシの向上で上回りました。オープンソースのコードは、さらなる探索と開発を容易にします。 LLMCompilerは、LLMにおける並列関数呼び出しの効率、コスト、精度を大幅に改善する有望なフレームワークです。既存のソリューションを上回り、LLMを使用した大規模タスクの効率的かつ正確な実行の可能性を秘めています。そのオープンソースの性質により、利点を活用したい開発者にとってもアクセス可能です。 LLMに焦点を当てたオペレーティングシステムの観点から、LLMCompilerをさらに探求することが推奨されます。計画と実行のレイテンシを考慮しながら、LLMCompilerによるスピードアップの可能性を調査することが望まれます。LLMCompilerに並列関数呼び出しを組み込むことは、LLMを使用した複雑なタスクの効率的な実行に有望です。LLMCompilerの継続的な開発と探求は、LLMベースのソフトウェアの進展に貢献することができます。

「Mixtral 8x7Bについて知っていることミストラルの新しいオープンソースLLM」

「ミストラルAIは、オープンソースのLLM（語彙・言語モデル）の領域で限界に挑戦する最も革新的な企業の一つですミストラルの最初のリリースであるミストラル7Bは、市場で最も採用されているオープンソースのLLMsの一つとなりましたA...」

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール（FGS）を使用した痛み予測に使用できます」

人工知能（AI）の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施すために、痛みの特定は重要な第一歩です。特に痛みを伝えることができない人々では、代替の診断技術の使用が求められます。従来の方法には、痛み評価システムの使用や行動反応の追跡などがありますが、主観性、妥当性の欠如、観察者のスキルとトレーニングへの依存、そして痛みの複雑な感情と動機的な側面を十分に表現できないなど、いくつかの欠点があります。特にAIを活用することで、これらの問題に取り組むことができます。いくつかの動物種には、苦痛の重要な指標となる表情があります。苦痛のある人とそうでない人を区別するために表情の尺度が確立されています。これらは特定の顔のアクションユニット（AU）にスコアを割り当てることで機能します。しかし、現在のグリマスケールを使用して静止画やリアルタイムの痛みをスコアリングするための技術は、労働集約的で手動のスコアリングに重く依存しているという制約がいくつかあります。また、毛色、品種、年齢、性別に加えて、さまざまな自然発生的な痛みの症候群をカバーし、幅広い動物データセットを考慮した完全に自動化されたモデルの不足が指摘されています。これらの課題を克服するため、研究チームは最近の研究で「猫の表情指標スケール（FGS）」を提案し、猫の急性疼痛を評価するための信頼性のある手法として提示しました。このスケールを構成するために5つのアクションユニットが使用され、それぞれが存在するか否かに基づいて評価されています。累積FGSスコアは、猫が不快感を経験しており、援助を必要としている可能性を示します。FGSは、使用の容易さと実用性により、急性疼痛評価においてさまざまな文脈で使用できる柔軟な手法です。 FGSスコアと顔の特徴点は、ディープニューラルネットワークと機械学習モデルを利用して予測されました。畳み込みニューラルネットワーク（CNN）が使用され、サイズ、予測時間、スマートフォン技術との統合の可能性、および正規化された二乗平均平方根誤差（NRMSE）に基づく予測パフォーマンスなどの要素に基づいて必要な予測を行うためにトレーニングされました。データ解析を改善するために、35の幾何学的記述子が並列して生成されました。 FGSスコアと顔の特徴点はXGBoostモデルにトレーニングされました。平均二乗誤差（MSE）と精度メトリックを使用して、これらのXGBoostモデルの予測パフォーマンスを評価するために使用されました。この調査で使用されたデータセットには、37の特徴点で煩雑な注釈がされた3447枚の猫の顔写真が含まれています。研究チームは、評価の結果、ShuffleNetV2が顔の特徴点の予測において最良の選択肢として浮上し、最も成功したCNNモデルは、正規化された二乗平均平方根誤差（NRMSE）が16.76％でした。最も優れたXGBoostモデルは、FGSスコアを95.5％の驚異的な精度と0.0096の最小平均二乗誤差（MSE）で予測しました。これらの測定結果は、猫の痛みの有無を区別するための高い正確性を示しています。猫の疼痛の評価プロセスを簡素化し、改善するためにこの技術的な進展が利用できることを結論として述べられています。

Learn more about Search Results 構成 - Page 8