Search Results CLIP

「UCバークレーの研究者が開発したALIA：微細分類タスクのための自動言語ガイド画像拡張の画期的なブレイクスルー」

細粒度イメージ分類は、大きなカテゴリ内のサブカテゴリに画像を分類するコンピュータビジョンのタスクです。これは、特定の、しばしば珍しい動物の繊細な同定を必要とします。しかし、より広範なトレーニングデータが必要であるというニーズにより、分類器は天候条件や地理的な場所の変化など、ドメインの異なる側面において適応に苦労しています。データ拡張は、細粒度分類のような特殊なタスクでは、困難に直面しています。ジェネレーティブモデルやフリップや切り抜きなどの従来の手法を使用したアプローチは、有望ですが、しばしば緻密な調整が必要であり、そのようなタスクには適さない画像を生成することがあります。これらの課題に対処しようとするさまざまな提案された手法にもかかわらず、この分野は、視覚的な一貫性と元のトレーニングデータとの関連性を維持しながら多様な変動を表現する拡張データセットを作成する上でのハードルに直面しています。新しいアプローチであるALIA（Automated Language-guided Image Augmentation）は、これらの持続的な課題を克服するために登場しました。ALIAは、データセットの領域についての自然言語の説明と大規模なビジョンモデルを組み合わせて、言語による画像編集を通じてトレーニングデータの多様な変化を自動的に生成します。通常の手法とは異なり、ALIAは高価な微調整やユーザーが提供するプロンプトに頼らない。代わりに、最小限の編集やタスクに関連する情報を破壊する可能性のある編集を賢くフィルタリングして、データセットの多様性を向上させ、細粒度分類のような特殊なタスクにおける分類器の一般化能力を改善する有望な解決策を提示します。このプロセスは次のようなものです：ドメインの説明の生成：イメージキャプションと大規模言語モデル（LLM）を使用して、10未満のドメインの説明にイメージのコンテキストを簡潔にまとめます。言語のガイダンスを使用した画像の編集：これらの説明に合わせて多様な画像を作成するために、テキストに依存する画像編集技術を使用します。失敗した編集のフィルタリング：セマンティックフィルタリングのためにCLIPを使用し、信頼度に基づいたフィルタリングのために分類器を使用して、失敗した編集を取り除き、タスクに関連する情報と視覚的な一貫性を保ちます。筆者によると、この方法はデータセットを20%〜100%拡張し、視覚的な一貫性を保ち、より広範なドメインを含んでいます。研究チームは、ALIAのデータ拡張手法の効果を評価するために、ドメインの一般化、細粒度分類、および鳥の分類におけるコンテキストバイアスなどの特殊なタスクについて大規模な実験を行いました。ResNet50モデルの微調整と画像編集のための安定した拡散を使用し、ALIAは従来の拡張技術や実データの追加さえもドメインの一般化のタスクで常に優れたパフォーマンスを発揮し、元のデータに比べて17%の改善を見せました。細粒度分類では、ALIAはドメインの変化がなくても精度を維持し、コンテキストバイアスを伴う機能においても、インドメインとアウトオブドメインの精度で優れたパフォーマンスを発揮しましたが、画像編集の品質やテキストのみの修正では課題がありました。これらの実験は、ALIAがデータセットの多様性とモデルのパフォーマンスを高める可能性を示していますが、モデルの品質と画像編集方法の選択にいくらか依存性があるということも明らかにしました。総括すると、筆者たちは、ALIAという、大規模言語モデルとテキストにガイドされた画像編集技術を活用する、データ拡張のための先進的な戦略を紹介しました。提供されたトレーニングセット内のドメインの説明と拡張データに対して、この手法はドメイン適応、バイアスの低減、さらにはドメインシフトがない場面でも優れた能力を発揮しました。今後の研究では、筆者たちは、キャプション作成、大規模言語モデル、および画像編集のさらなる進展が、このアプローチの効果と応用性を大幅に向上させると考えています。実際のトレーニングデータから派生した構造化されたプロンプトを使用することは、現在の手法で遭遇するさまざまな制約を改善し、データセットの多様性を向上させるために重要な役割を果たす可能性があります。これは、ALIAの広範な影響と潜在的な進化に関する有望な研究の方向性を示唆しています。

「ベクターデータベースのベンチマークには、ストリーミングワークロードを使用してください」

「ベクトルデータベースは、高次元ベクトルの検索のために構築されています現在、多くのベクトルは、GPTやCLIPなどの深層ニューラルネットワークによって生成された埋め込みで、テキストのようなデータポイントを表現します...」

大規模に基礎モデルをトレーニングするためのAmazon SageMaker HyperPodの紹介

基盤モデル（FMs）の構築には、数十億から数千億のパラメータを持つモデルを大量のデータで訓練するために、大規模なクラスタの構築、維持、最適化が必要ですモデルのトレーニングの進行状況を数日または数週間失わずに、障害や環境変化に対応できる堅牢な環境を構築することは、運用上の課題です

「安定したビデオ拡散：大規模データセットへの潜在ビデオ拡散モデル」

ジェネラティブAIは長い間、AIコミュニティの中で推進力となっており、特に拡散モデルの使用によるジェネラティブ画像モデリングの進歩は、研究だけでなく実世界の応用においてもジェネラティブビデオモデルの進歩に大いに貢献しています従来的には、ジェネラティブ[…]

「OpenAIモデルに対するオープンソースの代替手段の探索」

序文 AIの領域では、11月はドラマチックな展開がありました。GPTストアやGPT-4-turboのローンチ、そしてOpenAIの騒動まで、まさに忙しい一ヶ月でした。しかし、ここで重要な問題が浮かび上がります：クローズドモデルとその背後にいる人々はどれだけ信頼できるのでしょうか？自分が実際に運用しているモデルが内部の企業ドラマに巻き込まれて動作停止するのは快適な体験とは言えません。これはオープンソースモデルでは起こらない問題です。展開するモデルには完全な管理権限があります。データとモデルの両方に対して主権を持っています。しかし、OSモデルをGPTと置き換えることは可能でしょうか？幸いなことに、既に多くのオープンソースモデルが、GPT-3.5モデル以上の性能を発揮しています。本記事では、オープンソースのLLM（Large Language Models）およびLMM（Large Multi-modal Models）の最高の代替品をいくつか紹介します。学習目標オープンソースの大規模言語モデルについての議論。最新のオープンソース言語モデルとマルチモーダルモデルについての探求。大規模言語モデルを量子化するための簡易な導入。 LLMをローカルおよびクラウド上で実行するためのツールやサービスについて学ぶ。この記事は、データサイエンスブログマラソンの一環として公開されました。オープンソースモデルとは何ですかモデルがオープンソースと呼ばれるのは、モデルの重みとアーキテクチャが自由に利用できる状態にあるからです。これらの重みは、例えばMeta’s Llamaのような大規模言語モデルの事前訓練パラメータです。これらは通常、ファインチューニングされていないベースモデルやバニラモデルです。誰でもこれらのモデルを使用し、カスタムデータでファインチューニングして下流のアクションを実行することができます。しかし、それらはオープンなのでしょうか？データはどうなっているのでしょうか？多くの研究所は、著作権に関する懸念やデータの機密性の問題などの理由から、ベースモデルの訓練データを公開しません。これはまた、モデルのライセンスに関する部分にも関連しています。すべてのオープンソースモデルは、他のオープンソースソフトウェアと同様のライセンスが付属しています。Llama-1などの多くのベースモデルは非商用ライセンスとなっており、これらのモデルを利用して収益を上げることはできません。しかし、Mistral7BやZephyr7Bなどのモデルは、Apache-2.0やMITライセンスが付属しており、どこでも問題なく使用することができます。オープンソースの代替品 Llamaのローンチ以来、オープンソースの領域ではOpenAIモデルに追いつこうとする競争が繰り広げられています。そしてその結果は今までにないものでした。GPT-3.5のローンチからわずか1年で、より少ないパラメータでGPT-3.5と同等またはそれ以上のパフォーマンスを発揮するモデルが登場しました。しかし、GPT-4は依然として理性や数学からコード生成までの一般的なタスクには最も優れたモデルです。オープンソースモデルのイノベーションと資金調達のペースを見ると、GPT-4のパフォーマンスに近づくモデルが間もなく登場するでしょう。とりあえず、これらのモデルの素晴らしいオープンソースの代替品について話しましょう。 Meta’s Llama 2 Metaは今年7月にLlama-2という彼らの最高のモデルをリリースし、その印象的な能力により一瞬で人気を集めました。MetaはLlama-7b、Llama-13b、Llama-34b、Llama-70bの4つの異なるパラメータサイズのLlama-2モデルをリリースしました。これらのモデルは、それぞれのカテゴリにおいて他のオープンモデルを上回る性能を発揮しました。しかし、現在ではmistral-7bやZephyr-7bのような複数のモデルが、多くのベンチマークで小さなLlamaモデルを上回る性能を発揮しています。Llama-2 70bはまだそのカテゴリーで最高のモデルの一つであり、要約や機械翻訳などのタスクにおいてGPT-4の代替モデルとして価値があります。 Llama-2はGPT-3.5よりも多くのベンチマークで優れたパフォーマンスを発揮し、GPT-4に迫ることもできました。以下のグラフは、AnyscaleによるLlamaとGPTモデルのパフォーマンス比較です。…

デジタルアートの革新：ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能（AI）に興味を引かせています。問題は、DALL-EやStableDiffusionなどの既存のAIツールによって生成される単なるコラージュの模倣にとどまらず、本物のコラージュを自律的に作成できるAIエージェントを育成する必要がある点にあります。ソウル大学の研究者たちは、人間の芸術家が行う緻密な手順を再現して本物のコラージュを作成できるAIエージェントを育成するという使命に取り組んでいます。既存のAIツールはコラージュのような画像を生成できますが、真のコラージュ作成プロセスの本物さが求められます。ソウル大学の研究チームは、強化学習（RL）を活用してAIエージェントに「本物のコラージュ」の制作を学ばせる画期的な手法を導入しています。この手法は、ピクセルベースの手法とは異なり、有名な作品や他の画像を再現するために素材を引き裂き、貼り付けることを含みます。研究者たちは、既存のツールの制約から離れてRLに取り組み、AIエージェントにコラージュ作成の微妙な手順を理解し実行する能力を与えました。研究者の方法論は、RLモデルをキャンバスと対話させ、コラージュ作成プロセスの各ステップで判断を下すように訓練することを含みます。訓練中はランダムに割り当てられた画像をエージェントに与え、後の段階でどのターゲットや素材にも適応できるように学習します。多様な切り抜きや貼り付けのオプションを通じて、RLエージェントは材料を実験し、ターゲットの画像に似たコラージュを生成するのに最適なものを見つけます。報酬システムは時間とともに進化し、エージェントが作成したコラージュとターゲット画像との類似性を主に高めます。重要な要素の一つは、微分可能なコラージュ環境の開発であり、モデルベースのRLの適用を可能にします。この環境により、エージェントはコラージュ作成プロセスの動態を容易に追跡することができます。研究チームのモデルは、さまざまな画像やシナリオに対して優れた汎化性能を示しています。このアーキテクチャは自律性が特筆されます。そのため、学習に大量のサンプルデータやデモデータが必要なく、RLが提供する強力なデータフリーラーニングドメインを重視しています。評価にはユーザースタディとCLIPベースの評価が含まれます。その結果、他のピクセルベースの生成モデルと比較して優れたパフォーマンスを示しています。この手法は、人間の芸術的才能と創造性に似たAI生成のコラージュを実現しようとする重要な進展を表しています。まとめると、ソウル大学の研究チームは、強化学習を使用して本物のコラージュ作成のためのAIエージェントの訓練の課題に成功しました。既存のピクセルベースの手法を超える革新的なモデルは、本物のコラージュ作成における複雑な手順を自律的に学習し実行する能力をRLが提供する可能性を示しています。ユーザースタディと客観的評価によって検証されたこのアプローチは、人間の芸術の深みを反映したAI生成アートの大きな進歩を示しています。このブレークスルーにより、機械が視覚芸術の世界に有意義に貢献する可能性を秘めたAIによる芸術創造の新たな可能性が開かれました。 “`

大規模な言語モデル：DeBERTa — デコーディング強化BERTと解釈された注意力

最近、BERTは多くの自然言語処理の課題で第一のツールとなりました情報の処理と理解、高品質の単語埋め込みの構築能力に優れています…

「合成イメージングがAIトレーニングの効率性を新たな基準に設定」

研究チームが、合成画像を使用して機械学習モデルをトレーニングすることが、実際の画像を使用した従来のトレーニング方法よりも優れていることを示しました

「脱拡散を用いたLLMsにおける強力なクロスモーダルインターフェースのための情報豊富なテキストの生成」

世界的な現象であるLLM（Large Language Model）製品の例として、ChatGPTの広範な採用が注目されています。LLMは自然言語会話を理解し、人間のクリエイティブなタスクを支援する上での利点について、多くの人々の間で一致が生まれています。しかし、この認識にもかかわらず、これらのテクノロジーの進化の先にはどのような展望があるのでしょうか？顕著な傾向として、画像、動画、音声など、さまざまなモダリティを理解するためのモデルへのシフトが示されています。優れた画像理解能力を持つマルチモーダルモデルであるGPT-4が最近発表され、オーディオ処理能力も付属しています。ディープラーニングの登場以来、クロスモーダルなインタフェースではしばしばディープエンベディングが使われてきました。これらのエンベディングは、自己符号化器としてトレーニングされた際に画像ピクセルを保持する能力を備えており、最近のモデル（CLIPなど）によって示されているように、意味のある内容を実現することもできます。音声とテキストの関係を考えると、テキストは直感的なクロスモーダルなインタフェースとして自然に機能し、しばしば見落とされがちです。音声オーディオをテキストに変換することにより、コンテンツは効果的に保持され、成熟したテキスト読み上げ技術を使用して音声オーディオを再構築することができます。さらに、転写されたテキストは必要なすべての意味情報を具備していると考えられています。類推して言えば、画像をテキストに同様に「転写」することができます。これは一般的には画像キャプションと呼ばれるプロセスです。ただし、典型的な画像キャプションは内容の保持には短所があり、精度を重視する傾向があります。画像キャプションは、幅広い視覚的な問い合わせに対応するのに苦労しています。画像キャプションの制約にもかかわらず、正確かつ包括的なテキストが実現可能である場合、直感的にも実用的にも有望な選択肢となります。実用的な観点からは、テキストはLLMにとってネイティブな入力ドメインとなります。テキストの使用により、ディープエンベディングとしばしば関連付けられる適応トレーニングの必要性がなくなります。トップパフォーマーのLLMのトレーニングと適応の手間が膨大なコストとなることを考えると、テキストのモジュラーデザインはより多くの可能性を開放します。では、どのようにして画像の正確で包括的なテキスト表現を達成できるのでしょうか？解決策は、古典的なオートエンコーディングのテクニックに頼ることにあります。従来のオートエンコーダーとは異なり、採用されたアプローチでは、デコーダーとして事前トレーニングされたテキストから画像への変換モデルを使用し、テキストを自然な潜在空間として扱います。エンコーダーは入力画像をテキストに変換するためにトレーニングされ、その後、テキストをテキストから画像への変換モデルに入力して元の入力を再構築します。再構築エラーを最小化することを目的としており、潜在的なテキストが入力画像の「ばらばらのキャプション」として組み合わされる場合でも、正確かつ包括的であることが求められます。最近のテキストから画像への生成モデルの進歩により、複雑な文章（10語以上）を非常に詳細なイメージに変換する能力が顕著に示されています。これにより、これらの生成モデルが複雑なテキストを視覚的に整合した出力に処理する能力が備わっていることが示されています。デコーダーとしてこのような生成的なテキストから画像モデルを組み込むことで、最適化されたエンコーダーはテキストの広範な潜在空間を探索し、生成モデルに内包された豊富なビジュアル-言語知識を明らかにします。これらの発見に支えられ、研究者たちはDe-Diffusionというオートエンコーダーを開発し、テキストを堅牢なクロスモーダルインタフェースとして利用しています。そのアーキテクチャの概要は以下のとおりです。 De-Diffusionにはエンコーダーとデコーダーが含まれています。エンコーダーは入力画像を説明的なテキストに変換するためにトレーニングされ、そのテキストは固定された事前トレーニング済みのテキストから画像への拡散デコーダーに供給され、元の入力を再構築します。提案された手法の実験により、De-Diffusionによって生成されたテキストは、画像の意味的な概念を巧みに捉えることができると確認され、テキストプロンプトとして使用する際にさまざまなビジョン-言語アプリケーションを実現できることが示されました。 De-Diffusionテキストは、さまざまなテキストから画像へのツールのプロンプトとして転用可能な汎化能力を持っています。再構築FIDを使用した定量的評価では、De-Diffusionテキストは、人間の注釈付きキャプションに比べて第三者のテキストから画像モデルへのプロンプトとして有意に優れています。さらに、De-Diffusionテキストは、数少ないタスク固有の例をプロンプトとして提供するだけで、オフシェルフのLLMを使用してオープンエンドのビジョン-言語タスクを実行することを容易にします。これらの結果は、De-Diffusionテキストが人間の解釈とさまざまなドメイン間のさまざまなオフシェルフモデルを効果的に結びつけることを示しています。これはDe-Diffusionの要約であり、入力画像を豊かな情報を持つテキストに変換する新しいAI技術です。このテキストはさまざまなモダリティ間で柔軟なインターフェースとして機能し、多様な音声、映像、言語のアプリケーションを可能にします。興味がある場合は、以下に引用されたリンクを参照して詳細を学ぶことができます。

「ハイブリッド検索を用いたRAGパイプラインでの検索パフォーマンスの向上」

「キーワードとベクトル検索を組み合わせたハイブリッド検索としての検索強化型生成チャットボットアプリケーションの製品準備の向上」

Learn more about Search Results CLIP - Page 5