Learn more about Search Results A - Page 649

「人物再識別入門」

「人物再識別」は、異なる非重複カメラビューに現れる個人を識別するプロセスですこのプロセスは、顔認識に頼らずに、服装を考慮します...

「MITの研究者達が、シーン内の概念を理解するために機械学習モデルを支援するために、様々なシナリオを描いた画像の新しい注釈付き合成データセットを作成しました」

大規模な事前学習済みのビジョンと言語モデルは、数多くのアプリケーションで驚異的なパフォーマンスを発揮しており、固定された一連のサポートされるクラスをゼロショットオープンボキャブラリークエリに置き換えることが可能です。しかし、最近の研究では、これらのモデルには根本的な欠陥があることが明らかになっています。例えば、それらのモデルは「名詞を超えた」ビジュアル言語概念(VLC)を理解する能力がないため、非対象語(属性、アクション、関係、状態など)の意味を理解することができず、また、文の単語の順序の重要性を理解することも困難です。 テキストと画像をマッチングさせるために学習する強力な機械学習アルゴリズムであるビジョンと言語モデルは、ビデオのキャプションや要約を生成するよう要求された場合に驚異的な結果を示しています。これらのモデルはオブジェクトの識別に優れていますが、物の属性やシーン内のアイテムの配置などの概念を理解するのには頻繁に助けが必要です。例えば、ビジョンと言語モデルは画像内のカップとテーブルを認識できますが、カップがテーブルの上にあることを理解することはできません。 MITの研究者は、この欠点を克服するためにコンピュータ生成データを活用する新しい技術を実証しました。具体的には、生成されたビジュアルとテキストデータのVLCと組成性の側面を向上させ、これらの特性により注意を払うようVLモデルを微調整することを提案しています。さらに、実質的に無料で無限にスケーラブルなシンセティックデータは、常に実データに伴うプライバシーの懸念がないという利点もあります。大量の実データで事前学習されたVLモデルのVLCと組成性の側面を向上させるために効果的に使用できるシンセティックデータを作成することは、追加の技術的な課題を提起します。従来のシンセティックビジュアルデータの生成に関するほとんどの先行研究とは異なり、彼らはシーンの組成要素を記述する画像とテキストを開発する必要があります。さらに、異なる3D環境と異なる3Dオブジェクト、人の動きとアクションアセット、物との相互作用、さまざまなカメラアングルなど、実際の物理的な3Dシミュレーションを利用したシンセティックビデオも生成します。 以前の研究では、合成データを生成するためにモーションアセットが使用されましたが、視覚データにはテキストのキャプションが付属しておらず、組成性を考慮して設計する必要がありました。研究者は、シンセティックビジュアルコンセプト(SyViC)という大規模(百万スケール)の生成されたシンセティックVLデータセットを提供し、データ合成コードを通じて容易に拡張可能な豊富なテキストの注釈とともに、VLC理解と組成性の推論を向上させるための設計および生成コードベース2を提供しています。 貢献内容 研究者は、VLC理解と組成性の推論を向上させるために設計された豊富なテキストの注釈を持つ百万スケールのシンセティックデータセットSyViC、およびその合成と拡張性のための方法論と生成コードベース2を提供します。 SyViCデータを活用して強力な事前学習済みVLモデルの特性を改善する効果的な一般的なVLモデルの微調整。 最新のVL-Checklist、ARO、Winogroundベンチマークで測定されたVLC理解と組成推論の有意な改善(一部で10%以上)を実験結果と包括的な削除研究によって示し、最も人気のあるCLIPモデルおよびその派生(最新のCyCLIPなど)で検証します。 結果 提案された方法とSyViCシンセティックデータを使用して、すべてのモデルのバリエーションが生成されました。SyViCでの微調整前に、各モデルは大規模な実データでトレーニングされたそれぞれのソースモデルと比較されます。研究者の調査結果によると、SyViCのシンセティックデータと提案された微調整レシピは、それぞれのソースベースラインに比べて大幅な改善を示しています。さらに、研究者は、CLIPのVLCチェックリストとAROベンチマークにおける個々のVLCメトリクスの改善を示し、それぞれ9.1%および12.6%の絶対的な改善を示しています。これは、メソッドとSyViCシンセティックデータのVLC理解と組成性の推論を向上させる効率とポテンシャルを示しています。 ここで試してみてください https://synthetic-vic.github.io/  制限事項 3つの異なるベンチマークで非常に有望な結果を得ましたが、この研究には制限があります。例えば、グラフィックスシミュレータは、実際の世界と比較して照明、センサーノイズ、反射関数のモデルが単純化されているため、色の一定性の強さに影響を与える可能性があります。さらなる改善を図るには、より洗練されたドメイン適応とレンダリング技術が必要となるでしょう。また、シンセティックデータのスケーリング法則のより詳細な調査は、この研究の潜在能力を完全に実現するための優れた方法です。  要約すると 大規模なビジョンと言語モデルは、コンピュータビジョンとマルチモーダルパーセプションの現状を規定し、いくつかの難しいベンチマークで最先端の結果を達成してきました。しかし、既存のモデルは、属性や関係などのオブジェクト名以外の概念の合成的な推論や理解に助けが必要です。これは、合成データがこれらの不足を緩和できるかどうかについての初めての研究です。MITの研究者は、合成画像とそれに付随するキャプションの百万規模のデータセットを生成するためのデータ生成パイプラインと、ゼロショット分類性能を損なうことなく、マルチモーダルモデルの合成的な理解能力と概念理解能力を向上させるための効率的な微調整戦略を提案し、包括的な分析を行いました。

「機械学習リスク管理のための文化的な能力」

「人工知能(AI)が完璧に課題を遂行し、一切のミスを犯さずに動作する世界を想像してみてくださいまるでSFの夢のようですねようこそ…」

「持続的な学習:データサイエンティストのオデッセイ」

データサイエンティストになるということは、終生学習者としての契約を結ぶことですデータサイエンスの分野では常に新しいものが出てきます - 新しいアルゴリズム、新しい実践、新しい概念私たちはどのようにデータを扱うべきでしょうか...

「ドローンがニューヨークのビーチでサメの安全対策に取り組む」

ニューヨークのジョーンズビーチの安全当局は、人間とサメの潜在的な相互作用を監視するためにドローンを使用しています

「大規模言語モデルを改善するための簡単な方法3つ」

「大規模言語モデルのパフォーマンスを向上させるための使いやすい方法を共有しますこれらの方法は、パフォーマンスを最大化するために一緒に使用することもできます!」

「GPT-4を超えて 新機能は何ですか?」

「GPT-4を超えて:生成AIの4つの主要なトレンド:LLMからマルチモーダル、ベクトルデータベースへの接続、エージェントからOSへ、そしてファインチューニングからプラグインへそして、MetaのLlama 2とCode Llama」

「プロダクションでのあなたのLLMの最適化」

注意: このブログ投稿は、Transformersのドキュメンテーションページとしても利用可能です。 GPT3/4、Falcon、LLamaなどの大規模言語モデル(LLM)は、人間中心のタスクに取り組む能力を急速に向上させており、現代の知識ベース産業で不可欠なツールとして確立しています。しかし、これらのモデルを実世界のタスクに展開することは依然として課題が残っています: ほぼ人間のテキスト理解と生成能力を持つために、LLMは現在数十億のパラメータから構成される必要があります(Kaplanら、Weiら参照)。これにより、推論時のメモリ要件が増大します。 多くの実世界のタスクでは、LLMには豊富な文脈情報が必要です。これにより、推論中に非常に長い入力シーケンスを処理する能力が求められます。 これらの課題の核心は、特に広範な入力シーケンスを扱う場合に、LLMの計算およびメモリ能力を拡張することにあります。 このブログ投稿では、効率的なLLMの展開のために、現時点で最も効果的な技術について説明します: 低精度: 研究により、8ビットおよび4ビットの数値精度で動作することが、モデルのパフォーマンスに大幅な低下を伴わずに計算上の利点をもたらすことが示されています。 Flash Attention: Flash Attentionは、よりメモリ効率の高いアテンションアルゴリズムのバリエーションであり、最適化されたGPUメモリの利用により、高い効率を実現します。 アーキテクチャのイノベーション: LLMは常に同じ方法で展開されるため、つまり長い入力コンテキストを持つ自己回帰的なテキスト生成として、より効率的な推論を可能にする専用のモデルアーキテクチャが提案されています。モデルアーキテクチャの中で最も重要な進歩は、Alibi、Rotary embeddings、Multi-Query Attention(MQA)、Grouped-Query-Attention(GQA)です。 このノートブックでは、テンソルの視点から自己回帰的な生成の分析を提供し、低精度の採用の利点と欠点について包括的な探索を行い、最新のアテンションアルゴリズムの詳細な調査を行い、改良されたLLMアーキテクチャについて議論します。これを行う過程で、各機能の改善を示す実用的な例を実行します。 1. 低精度の活用 LLMのメモリ要件は、LLMを重み行列とベクトルのセット、およびテキスト入力をベクトルのシーケンスとして見ることで最も理解できます。以下では、重みの定義はすべてのモデルの重み行列とベクトルを意味するために使用されます。 この投稿の執筆時点では、LLMは少なくとも数十億のパラメータから構成されています。各パラメータは通常、float32、bfloat16、またはfloat16形式で保存される10進数の数値で構成されています。これにより、LLMをメモリにロードするためのメモリ要件を簡単に計算できます: X十億のパラメータを持つモデルの重みをロードするには、おおよそ4 *…

「LLMの利点:電子商取引の検索を変革する」

「LLMの優れた能力は、さまざまなビジネス領域で数多くの課題に取り組む上で、顕著な成果を上げています知識発見に関連する高度な成果は、...」

「スノーフレーク vs データブリックス:最高のクラウドデータプラットフォームを作るために競争する」

「最高のクラウドデータプラットフォームの競争に参加したいですか?SnowflakeとData Bricksの違いを見てみてください」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us