Search Results A

「NumPyを使用して、ゼロから畳み込みニューラルネットワークを構築する」

「コンピュータビジョンアプリケーションは、現在私たちの日常生活のあらゆる場所に存在しているため、データサイエンスの実践者としては、その機能原理を理解し、慣れ親しむことが基本的です...」

人工一般知能の定義

先週、サム・アルトマン氏はOpenAIのCEOとして解任されました彼の辞任の真の理由は未だにはっきりしていません取締役会によれば、彼は「一貫して誠実でなかった」との理由で解任されたとされています

マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています

人工一般知能（AGI）システムでは、タスクに関係なく利点を提供する事前トレーニング可能な適応的表現の使用に向けた noticeable な傾向が見られました。自然言語処理（NLP）は、この傾向の良い例です。洗練されたモデルは、明快な指示で複数のドメインとタスクをカバーする包括的な知識を持つ柔軟性を示します。NLPの人気は、コンピュータビジョンにおいて補完的な戦略を促しています。特徴やマスキングされた輪郭、オブジェクト配置など、コンピュータビジョンでは特徴的な視覚データの処理が必要です。コンピュータビジョンにおいて普遍的な表現を実現するためには、図1に示されるように、2次元に配置されたさまざまな厳しい課題を上手に処理する必要があります。図1 空間の階層性：モデルは、細部のピクセル情報と画像レベルのアイデアを理解することで異なるサイズの空間情報を認識する必要があります。図に示したビジョンにおける複雑な空間の階層をサポートするためには、モデルはさまざまな粒度を管理できる能力を持たなければなりません。意味的な粒度：コンピュータビジョンでは、普遍的な表現はさまざまな意味的な粒度をカバーする必要があります。抽象的なタイトルからより詳細な説明へのパラダイムの変化により、さまざまな使用方法に対する柔軟な理解が提供されます。この追求は、特異性と重要な挑戦に特徴付けられます。主要な障害は、より多くのデータの必要性であり、空間の階層性と意味的な粒度の複雑なニュアンスを捉える基盤モデルの開発を妨げます。ImageNet、COCO、Flickr30k Entitiesなどの既存のデータセットは、特殊なアプリケーション向けに広範に人間によってラベル付けされています。この制約に対処するためには、より大規模なスケールで各画像の詳細な注釈を生成することが不可欠です。また、コンピュータビジョンで空間の階層性と意味的な粒度をシームレスに統合するモデルが存在しません。タスク固有のデザインにより、従来のモデルは、意味的セグメンテーション、オブジェクト識別、画像キャプションなどのタスクで優れたパフォーマンスを発揮します。ただし、異なるビジョンタスクに対してタスク非依存的な方法で適応できる完全で統一的なモデルを作成することは、重要です。統一された事前トレーニングとネットワークデザインを通じて、このモデルは、コンピュータビジョンにおける空間、時間、多モーダルの特徴の統合を先駆的に行っています。最初の進化的イテレーションは、ノイズのあるテキスト-イメージのペアリングでの事前トレーニングとカスタマイズされたアダプタを使用したタスク固有の微調整を通じて転送学習に優れています。ただし、大規模なタスク固有のデータセットとアダプタへの依存は、上記の2つの主要な問題に取り組む際にギャップを生じさせる原因となります。この研究では、Azureの研究者が、豊富なビジュアル注釈を使用して獲得された普遍的なバックボーンを提供しています。これにより、不完全かつ包括的なデータと均一なアーキテクチャの不足を成功裏に解決できる、様々なビジョンタスクに対するプロンプトベースの統一された表現が実現されます。多タスク学習には、大規模で高品質な注釈付きデータが必要です。時間のかかる人間の注釈に頼らずに、彼らのデータエンジンは、\fld という広範なビジュアルデータセットを作成します。このエンジンには2つの効果的な処理モジュールがあります。第1のモジュールでは、特化モデルを使用して写真に共同でおよび自律的に注釈を付けることにより、従来の単一および手動の注釈戦略から脱却します。集団の知恵理論に類似して、多くのモデルが協力して一致を作り出し、より公平で信頼性のある画像解釈を実現します。習得された基本モデルを使用して、第2のモジュールはこれらの自動注釈を反復的に洗練し、フィルタリングします。彼らのモデルは、この大規模なデータセットを活用して、シーケンス対シーケンス（seq2seq）アーキテクチャを使用して、イメージエンコーダとマルチモダリティエンコーダ‐デコーダを統合しています。このアーキテクチャは、タスク固有のアーキテクチャの調整を必要とせずに、さまざまなビジョンタスクをサポートします。これは、NLPコミュニティの柔軟なモデル作成と統一された基盤の目標と一致しています。データセット内のすべての注釈は、一貫してテキストの出力に標準化されます。これにより、目標と同じ損失関数を使用して単一の多タスク学習戦略を一貫して最適化することが可能になります。その結果、統一されたパラメータを持つ単一のモデルの制御下で、オブジェクト認識、キャプション付け、およびグラウンディングを含むさまざまな機能を処理できる柔軟なビジョン基盤モデル、またはモデルが作成されます。大規模な言語モデル（LLM）が使用する方法と一致して、テキストをプロンプトとして活用することにより、タスクを活性化させます。彼らの方法は、一般的な表現を達成し、多くの視覚的タスクで広範な利用が可能です。主な見つかりとしては以下のとおりです：モデルは柔軟なビジョン基礎モデルであり、RefCOCOでの参照表現の理解、Flick30kでの視覚的根拠、およびCOCOでのキャプション作成などのタスクにおいて、新しい最先端のゼロショット性能を提供します。モデルは小さなサイズにもかかわらず、公開された人間によるアノテーションデータを使用して微調整した後、より専門化されたモデルと競合します。特に、改良されたモデルはRefCOCOで新しいベンチマークの最先端スコアを設定しています。事前に学習されたバックボーンは、下流のタスクであるCOCOオブジェクト検出、インスタンスセグメンテーション、およびADE20K意味セグメンテーションにおいて、教師付きおよび自己教師付きモデルを上回ります。彼らのモデルは、Mask-RCNN、DINO、およびUperNetフレームワークを使用しており、COCOおよびADE20Kデータセットに対してそれぞれ6.9、5.5、および5.9ポイントの大幅な向上をもたらし、またImageNetでの事前学習モデルのトレーニング効率を4倍にしています。

製品の特徴が保持率にどのような影響を与えるかの分析の強化版

「分析を適用した後、私たちはこのような機能ごとの保持率の表を受け取りました（平均％の戻ってきたユーザーの降順でソート）：これで問題を簡単に特定できますたとえば、最初の2つ...」

アマゾンEC2 Deep Dive：ハードウェアインサイトを活用したワークロードの最適化

あなたのアプリケーションのニーズに合った適切な基盤ハードウェアを選ぶことで、クラウドリソースの効率が向上します本記事では、このアプローチを取る方法について説明します

「MITの研究者が開発した機械学習技術により、ディープラーニングモデルがエッジデバイス上で効果的に新しいセンサーデータに適応し、直接学習することが可能となりました」

テクノロジーの急速な進歩により、エッジデバイスは私たちの日常生活の重要な一部となり、完璧にネットワーク化された社会に統合されています。これら広く使用されるエッジデバイスは、ネットワークのエッジで無比の量のデータを生成します。スマートでカスタマイズされた機密性の高いAIの需要が増加しています。1つのモデルではさまざまなユーザーの多様な要件には応えることができません。エッジデバイスはしばしばディープラーニングのタスクを処理しますが、ディープニューラルネットワークのトレーニングは通常、強力なクラウドGPUサーバーで行われます。ただし、既存のトレーニングフレームワークは、アクセラレータを備えた強力なクラウドサーバーに特化しており、エッジデバイス上での効果的な学習を可能にするために最適化する必要があります。カスタマイズされたディープラーニングモデルによって、ユーザーのなまりにあわせてAIチャットボットが適応したり、以前の入力活動に基づいて単語の予測を継続的に改善するスマートキーボードが可能になるかもしれません。ユーザーデータは通常、スマートフォンやその他のエッジデバイスにはこの調整プロセスに必要なメモリと処理能力が欠如しているため、クラウドサーバーに送信されます。これらのサーバーはモデルの更新を行う場所であり、AIモデルの微調整という難しいタスクを完了するリソースを持っています。したがって、MITなどの研究者は、直接エッジデバイス上で新鮮なセンサーデータに適応するためのディープラーニングモデルを効果的に調整する技術であるPockEngineを開発しました。 PockEngineは、精度を向上させるために更新が必要な大規模な機械学習モデルの正確な部分のみを保持して計算します。これらの計算のほとんどはランタイム前のモデルの準備中に完了されるため、計算オーバーヘッドが削減され、微調整手順が迅速化されます。 PockEngineはデバイス上のトレーニングを劇的に高速化し、特定のハードウェアプラットフォームでは最大15倍の速度向上を実現しました。 PockEngineにより、モデルの精度を損なうことなく効果的にトレーニングが可能となりました。彼らの微調整技術により、よく知られたAIチャットボットはより正確に困難なクエリに答えることができました。 PockEngineは一部のハードウェアプラットフォームで最大15倍のスピード向上を実現しました。微調整を行う際にPockEngineの広範なトレーニンググラフの最適化が組み込まれることで、トレーニングプロセスがさらに加速されます。デバイス上の微調整の利点には、プライバシーの向上、費用の低減、カスタマイズオプション、終身学習などがあります。ただし、このプロセスを容易にするためにはさらなるリソースが必要です。彼らは、モデルのコンパイルと展開の準備中にバックプロパゲーショングラフを生成するPockEngineに言及しました。これにより、レイヤーの冗長なセクションが削除され、ランタイム中に利用できる簡略化されたダイアグラムが生成されます。その後、効率を改善するために追加の最適化が行われます。この方法は、多くの例が微調整される必要があるモデルに特に有用です。研究者たちは、大規模な言語モデルであるLlama-V2に適用しました。 PockEngineは、各レイヤーを個別に特定のタスクに微調整し、各レイヤーの精度の向上を追跡します。PockEngineは、精度とコストのトレードオフを考慮し、各レイヤーの必要な微調整割合を判断することができます。システムはまず、各レイヤーを順番に特定のタスクに微調整し、各レイヤーの精度向上を計測します。研究者たちは、PockEngineが各レイヤーの貢献度と精度と微調整コストのトレードオフを識別し、必要な微調整割合を自動的に決定することを強調しました。 Raspberry Pi用の事前構築されたTensorFlowに比べて15倍の高速化を実現するPockEngineは、印象的な速度向上を証明しています。さらに、Jetson AGX Orinでのバックプロパゲーション時のメモリセービング率が5.6倍に向上するなど、PockEngineは素晴らしい速度向上を実現しました。主に、PockEngineはNVIDIA上でLLAMAv2-7Bを効果的に微調整することができます。

Learn more about Search Results A - Page 528

「NumPyを使用して、ゼロから畳み込みニューラルネットワークを構築する」

人工一般知能の定義

マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています

製品の特徴が保持率にどのような影響を与えるかの分析の強化版

アマゾンEC2 Deep Dive：ハードウェアインサイトを活用したワークロードの最適化

「MITの研究者が開発した機械学習技術により、ディープラーニングモデルがエッジデバイス上で効果的に新しいセンサーデータに適応し、直接学習することが可能となりました」

カスタムレンズを使用して、優れたアーキテクチャのIDPソリューションを構築する – パート5：コスト最適化

自分自身のレンズでウェルアーキテクチャなIDPソリューションを構築する – パート6：持続可能性

「カスタムレンズを使用して、よく設計されたIDPソリューションを構築する-パート4パフォーマンス効率性」

「カスタムレンズを使用して、信頼性のあるよく設計されたIDPソリューションを構築する」シリーズの第3部：信頼性

Find the right Blockchain Investment for you