Learn more about Search Results CLIP - Page 15

「🧨 JAXを使用したCloud TPU v5eでの高速で安定したXL推論の拡散を加速する」

生成AIモデルであるStable Diffusion XL(SDXL)などは、幅広い応用において高品質でリアルなコンテンツの作成を可能にします。しかし、このようなモデルの力を利用するには、大きな課題や計算コストが伴います。SDXLは、そのUNetコンポーネントがモデルの以前のバージョンのものよりも約3倍大きい大きな画像生成モデルです。このようなモデルを実稼働環境に展開することは、増加したメモリ要件や推論時間の増加などの理由から難しいです。今日、私たちはHugging Face DiffusersがJAX on Cloud TPUsを使用してSDXLをサポートすることを発表できることを大いに喜んでいます。これにより、高性能でコスト効率の良い推論が可能になります。 Google Cloud TPUsは、大規模なAIモデルのトレーニングや推論を含む、最先端のLLMsや生成AIモデルなどのために最適化されたカスタムデザインのAIアクセラレータです。新しいCloud TPU v5eは、大規模AIトレーニングや推論に必要なコスト効率とパフォーマンスを提供するよう特別に設計されています。TPU v4の半分以下のコストで、より多くの組織がAIモデルのトレーニングと展開が可能になります。 🧨 Diffusers JAX連携は、XLAを介してTPU上でSDXLを実行する便利な方法を提供します。それに対応するデモも作成しました。このデモは、時間のかかる書式変換や通信時間、フロントエンド処理を含めて約4秒で4つの大きな1024×1024の画像を提供するために複数のTPU v5e-4インスタンス(各インスタンスに4つのTPUチップがあります)で実行されます。実際の生成時間は2.3秒です。以下で詳しく見ていきましょう! このブログ記事では、 なぜJAX + TPU + DiffusersはSDXLを実行するための強力なフレームワークなのかを説明します。…

「AIガバナンスの12のコア原則」

ベテランのAI開発者であるサラは、道徳的な十字路に立たされた一つのアルゴリズムは効率を最大化する一方で、プライバシーの犠牲が必要となる他方は個人データを保護するが、スピードに欠けるこれらの…

「ジェネレーティブAIによる先進的なトランスフォーマーで創造性を解き放つ」

導入 人工知能の絶え間なく進化する風景において、近年際立った存在となっている名前があります。それがトランスフォーマーという強力なモデルです。これらのモデルは、AIにおける生成タスクのアプローチ方法を変革し、機械が創造し想像することのできる範囲を広げました。本記事では、トランスフォーマーの生成AIにおける高度な応用について掘り下げ、その内部構造、現実世界での使用事例、そしてこの分野への画期的な影響について探求します。 学習目標 トランスフォーマーの生成AIにおける役割と、さまざまな創造的な領域への影響を理解する。 テキスト生成、チャットボット、コンテンツ作成、さらには画像生成などのタスクにトランスフォーマーを使用する方法を学ぶ。 MUSE-NET、DALL-Eなどの高度なトランスフォーマーについて学ぶ。 トランスフォーマーの使用に伴う倫理的考慮事項と課題を探求する。 トランスフォーマーベースのモデルの最新の進展と現実世界での応用について洞察を得る。 この記事は、Data Science Blogathonの一環として掲載されました。 トランスフォーマーの台頭 先転げする前に、トランスフォーマーがどのようなものであり、なぜAIにおいて力強い存在になったのかを理解するための時間を取りましょう。 トランスフォーマーは、その中核となるのは、シーケンシャルなデータに適用されるディープラーニングモデルです。これらは、2017年にVaswaniらによる画期的な論文「Attention Is All You Need」で紹介されました。トランスフォーマーの特徴は、予測を行う際にシーケンス全体の文脈を見つけたり認識したりすることができる注目メカニズムです。 このイノベーションは、自然言語処理(NLP)と生成タスクの革命を助けます。トランスフォーマーは固定されたウィンドウサイズに頼るのではなく、シーケンスの異なる部分に動的に焦点を当てることができるため、コンテキストと関係をキャプチャするのに非常に適しています。 自然言語生成への応用 トランスフォーマーは、自然言語生成の領域で最も有名です。この領域でのいくつかの高度な応用について探求しましょう。 1. GPT-3とその先 Generative…

中国の研究者が「ImageReward」という画期的な人工知能アプローチを発表人間の好みフィードバックを利用してテキストから画像のモデルを最適化する方法です

最近の数年間で、テキストから画像を生成するモデルの進歩は著しいものがあります(具体的には、自己回帰型や拡散ベースの手法など)。これらのモデルは、適切な言語の記述(つまり、プロンプト)が与えられた場合に、多様なトピックに関連する高品質で意味的に適切な視覚的な情報を生成することができます。その結果、可能性のある使用方法や効果について、大いなる関心が生まれています。しかし、現在の自己教師あり事前学習済み生成器は、まだ改善の余地があります。事前学習の分布がノイズの多いものであり、実際のユーザープロンプトの分布と異なるため、モデルを人間の好みに合わせることは非常に困難です。 その結果、次のような、写真におけるよく知られた問題が生じますが、これに限定されません: ・テキストと画像の整合性のエラー:図1(a)(b)に示されるように、テキストプロンプトで述べられたオブジェクトの数、品質、特性、および関係をうまく描写できないこと。 ・身体の問題:図1(e)(f)に示されるように、四肢や他の捻れた、欠落した、重複した、または異常な人間や動物の身体の部分を表示してしまうこと。 ・人間の美的感覚:一般的な或いは主流の美的好みから逸脱すること、図1(c)(d)に示されるように。 ・有害性とバイアス:攻撃的、暴力的、性的、差別的、違法、または不快なコンテンツを含むこと、図1(f)に示されるように。 図1:(上)いくつかのテキスト-画像スコアラーによって判断された64世代のうち、トップ1の生成画像(下)ReFLトレーニングに続いてImageRewardをフィードバックに使用した1ショットの生成。斜体はスタイルや機能を示し、太字は一般的にプロンプトの内容を示します(実際のユーザーから抜粋)。 ただし、これらの普遍的な問題を克服するために、モデルの設計や事前学習データを改善するだけ以上の取り組みが必要です。研究者たちは自然言語処理(NLP)における人間のフィードバックからの強化学習(RLHF)を使用して、大規模な言語モデルを人間の好みや価値観に向ける手法を開発してきました。この手法は、人間の好みを捉えるために、極めて多くのエキスパートによるモデル出力の比較を用いて報酬モデル(RM)を学習することに依存しています。その効果にもかかわらず、アノテーションプロセスは費用と困難を伴います。ラベリング基準を定義し、エキスパートを雇い、教育し、返信を検証し、RMを生成するには数ヶ月かかるからです。 清華大学と北京郵電大学の研究者たちは、このような生成モデルの困難に取り組むことの重要性を認識し、最初の汎用的なテキストから画像への人間の嗜好RMであるImageRewardを発表し、提供しています。ImageRewardは、実際のユーザープロンプトと対応するモデル出力に基づく137,000ペアの専門家による比較でトレーニングおよび評価されています。彼らはまた、努力に基づいて拡散生成モデルを改善するための直接最適化戦略であるReFLについての研究も続けています。 •彼らは、テキストから画像への人間の嗜好アノテーションのパイプラインを開発しました。その際には、難点の体系的な特定、定量的評価とアノテーターのトレーニングのための基準の確立、ラベリング効率の向上、品質の確認などを行いました。彼らは、パイプラインベースのテキストから画像への比較データセットを作成し、ImageRewardモデルをトレーニングしました。 •詳細な研究とテストを通じて、彼らはImageRewardが他のテキスト-画像スコアリング技術(CLIPより38.6%、Aestheticより39.6%、BLIPより31.6%)を凌駕して人間の好みの理解において優れていることを示しました。さらに、ImageRewardは上記の問題に対してかなりの改善が見られ、人間の欲望を生成モデルに組み込むための示唆に富んだ情報を提供しています。 •彼らは、自動化されたテキストから画像への評価指標であるImageRewardが有用であると主張しています。ImageRewardは、実際のユーザーからのプロンプトやMS-COCO 2014に基づくFIDとCLIPスコアと比較して、一貫して人間の嗜好ランキングに合致し、モデルとサンプル間で優れた識別性を示しています。 ・ 人間の好みスコアに関する微調整拡散モデルのために、Reward Feedback Learning(ReFL)が提案されています。拡散モデルは生成物に対して確率を提供しないため、ImageRewardの品質の特定性が後のノイズリダクションフェーズで直接的なフィードバック学習を可能にします。ReFLは自動的および手動で広範に評価され、データ拡張や損失再量化など他の方法と比較してその利点が示されています。

「マルチモーダルAIの最新の進歩:(ChatGPT + DALLE 3)+(Google BARD + 拡張)など、さまざまなものがあります….」

マルチモーダルAIは、テキスト、画像、ビデオ、オーディオなどのさまざまなデータタイプ(モーダリティ)を組み合わせて、より優れたパフォーマンスを実現する人工知能(AI)の領域です。ほとんどの伝統的なAIモデルは単一モーダルであり、1つのデータタイプのみを処理できます。それらは訓練され、そのモーダリティに特化したアルゴリズムであります。単一モーダルAIシステムの例として、ChatGPTがあります。それは自然言語処理を使用してテキストデータの理解と意味抽出を行います。さらに、テキストのみを出力することができます。 それに対して、マルチモーダルAIシステムは複数のモーダリティを同時に処理し、複数の出力タイプを生成することができます。GPT-4を使用した有料版のChatGPTは、マルチモーダルAIの例です。それはテキストだけでなく画像も処理でき、PDF、CSVなどの異なるファイルを処理することができます。 この記事では、マルチモーダルAIの最近の進歩について紹介します。 ChatGPT + DALLE 3 DALLE 3は、AIによる画像生成技術の最新の進歩を表しており、AIによって生成される芸術の大きな進歩となっています。システムはユーザープロンプトの文脈を理解する能力が向上し、ユーザーが提供した詳細をより理解することができます。 出典: https://openai.com/dall-e-3 上の画像からは、モデルがプロンプトの詳細を捉えて、入力されたテキストに厳密に従った包括的な画像を作成する能力があることがはっきりとわかります。 DALL·E 3はChatGPTに直接統合されており、シームレスに連携することができます。アイデアが与えられると、ChatGPTはDALL·E 3のために特定のプロンプトを簡単に生成し、ユーザーのコンセプトに命を吹き込むことができます。イメージの調整が必要な場合、ユーザーは簡単な言葉でChatGPTに尋ねることができます。 ユーザーはChatGPTの助けを借りて、DALL·E 3がアートワークを生成するために使用できるプロンプトを作成するには、ChatGPTの支援を求めることができます。DALL·E 3はまだユーザーの特定のリクエストを処理することができますが、ChatGPTの助けを借りることで、AIによるアートの創造がよりアクセスしやすくなります。 Google BARD + 拡張機能 Googleが開発した対話型AIツールであるBARDは、拡張機能を通じて重要な向上を遂げました。これらの改善により、BARDはさまざまなGoogleアプリやサービスと連携できるようになりました。拡張機能により、BARDはGmail、Docs、Drive、Google Maps、YouTube、Google…

セールスフォースAIがGlueGenを導入:効率的なエンコーダのアップグレードとマルチモーダル機能により、テキストから画像へのモデルが革新的になります

テキストから画像への変換(T2I)モデルの急速に進化する風景の中で、GlueGenの導入により新たなフロンティアが現れています。T2Iモデルは、テキストの説明から画像を生成する驚異的な能力を示していますが、機能の修正や強化の点での堅牢さは重要な課題となっています。GlueGenは、シングルモーダルまたはマルチモーダルのエンコーダを既存のT2Iモデルと調整することにより、このパラダイムを変えることを目指しています。このアプローチは、ノースウェスタン大学、Salesforce AI Research、スタンフォード大学の研究者によって行われ、アップグレードや拡張を簡素化し、多言語サポート、音声から画像の生成、強化されたテキストエンコーディングの新たな時代を切り拓いています。本記事では、GlueGenの変革的なポテンシャルについて掘り下げ、X-to-image(X2I)生成の進化におけるその役割を探求します。 拡散プロセスに基づく既存のT2I生成手法は、特にユーザが提供するキャプションに基づいて画像を生成する点で、著しい成功を収めています。しかし、これらのモデルは、テキストエンコーダを画像デコーダときちんと結びつけるという課題を抱えており、修正やアップグレードが煩雑となっています。他のT2Iアプローチへの参照としては、GANベースの方法(Generative Adversarial Nets(GANs)、Stack-GAN、Attn-GAN、SD-GAN、DM-GAN、DF-GAN、LAFITE)や、DALL-E、CogViewなどの自己回帰トランスフォーマーモデル、さらにはGLIDE、DALL-E 2、Imagenなどの拡散モデルが用いられています。 アルゴリズムの改善と広範なトレーニングデータによって、T2I生成モデルは大きく進化しています。拡散ベースのT2Iモデルは画像の品質に優れていますが、制御性と構成性に苦労し、望ましい結果を得るために即座のエンジニアリングを必要とすることがしばしばあります。また、英語のテキストキャプションでの訓練が主流であることも制約となっています。 GlueGenフレームワークは、異なるシングルモーダルまたはマルチモーダルのエンコーダの特徴を既存のT2Iモデルの潜在空間と調整するためのGlueNetを導入しています。彼らのアプローチは、平行コーパスを使用した新しいトレーニング目的を用いて、異なるエンコーダ間の表現空間を整合させるものです。GlueGenの機能は、非英語のキャプションから高品質な画像生成を可能にするXLM-Robertaなどの多言語言語モデルをT2Iモデルと調整することにも広がります。さらに、音声から画像の生成を可能にするAudioCLIPなどのマルチモーダルエンコーダをStable Diffusionモデルと調整することもできます。 GlueGenは、多様な特徴表現を整列させる能力を提供し、既存のT2Iモデルに新しい機能をシームレスに統合することができます。これは、非英語のキャプションから高品質な画像を生成するためにXLM-Robertaのような多言語言語モデルをT2Iモデルと整列させることにより実現します。また、音声から画像の生成を可能にするAudioCLIPなどのマルチモーダルエンコーダをStable Diffusionモデルと整列させることもGlueGenが行うことができます。この方法は、提案された目的リウェイト技術により、バニラのGlueNetに比べて画像の安定性と精度も向上させます。評価はFIDスコアとユーザースタディによって行われます。 まとめると、GlueGenは、さまざまな特徴表現を整列させることで、既存のT2Iモデルの適応性を向上させる解決策を提供します。多言語言語モデルやマルチモーダルエンコーダを整列させることにより、T2Iモデルの能力を拡張し、さまざまなソースから高品質な画像を生成することができます。GlueGenの効果は、提案された目的リウェイト技術によって支えられる画像の安定性と精度の向上によって示されます。さらに、T2Iモデルにおけるテキストエンコーダと画像デコーダの緊密な結び付きを破るという課題にも取り組み、簡単なアップグレードと置換を可能にしています。全体として、GlueGenはX-to-image生成機能を進化させる有望な手法を提案しています。

「FinBERTとSOLID原則を活用して感情スコアの正確性を向上させる」

このラボでは、PythonのJupyter Notebookを使用して、人気のあるFinBERT MLアルゴリズムを用いて市場のニュースの感情分析の正確性を向上させました

「ODSC West 2023で機械学習をより良くする11の方法」

多くの企業が現在データサイエンスと機械学習を活用していますが、ROIの面ではまだ改善の余地がたくさんあります2021年のVentureBeatの分析によれば、AIモデルの87%が実稼働環境には到達しておらず、MIT Sloan Management Reviewの記事では70%という結果が示されています...

「TRLを介してDDPOを使用して、安定したディフュージョンモデルを微調整する」

導入 拡散モデル(例:DALL-E 2、Stable Diffusion)は、特に写真のような写真のリアルな画像を生成することで広く成功している生成モデルの一種です。ただし、これらのモデルによって生成される画像は常に人間の好みや意図と一致しているわけではありません。これが整合性の問題が生じます。つまり、「品質」といった人間の好みやプロンプトを介しては表現しにくい意図との整合性がモデルの出力と一致していることを確認する方法は何でしょうか?そこで、強化学習が登場します。 大規模言語モデル(LLM)の世界では、強化学習(RL)はモデルを人間の好みに合わせるための非常に効果的なツールとして証明されています。それはChatGPTのようなシステムが優れたパフォーマンスを発揮するための主要なレシピの一つです。より具体的には、ChatGPTが人間のようにチャットするためのReinforcement Learning from Human Feedback(RLHF)の重要な要素です。 Blackらは、「Training Diffusion Models with Reinforcement Learning, Black」という論文で、拡散モデルをRLを活用して目的関数に対して微調整する方法を示しています。これはDenoising Diffusion Policy Optimization(DDPO)と呼ばれる手法を使用します。 このブログ記事では、DDPOが生まれた経緯、その動作方法の簡単な説明、およびRLHFワークフローにDDPOを組み込んで人間の美意識により整合したモデルの出力を達成する方法について説明します。そして、新たに統合されたDDPOTrainerとtrlライブラリを使用してモデルにDDPOを適用する方法について、Stable Diffusionでの実行結果を検討します。 DDPOの利点 DDPOは、RLを使用して拡散モデルを微調整する方法に関する唯一の有効な回答ではありません。 入る前に、他のRLソリューションとの利点の理解に関して覚えておくべき2つの重要なポイントがあります。…

モデルの自信を求めて ブラックボックスを信頼できるか?

この記事では、大規模な言語モデル(LLM)によって生成されたラベルの信頼性を評価する戦略を探求しますさまざまなアプローチの効果を議論し、様々な応用に対する実践的な洞察を提供します

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us