「DALL·E 3はどのように作られましたか?(OpenAIの最高のテキストから画像を生成するモデル)」

「DALL·E 3の作成過程を詳しく解説!(OpenAIの画像生成モデルについて)」

キャプションを改善して画像生成を向上させる

louisbouchard.aiで最初に公開され、2日前に私のブログで読むことができます。

動画を見る:

昨年、OpenAIによる初の驚くべきテキストからイメージを生成するモデル、DALL·E 2に驚かされました。しかし、今日はその第三バージョンによって、芸術と技術がこれまで以上に融合した世界に足を踏み入れる準備をしてください!

OpenAIが最近公開した新しい論文で、DALL·E 3にダイブして、DALL·E 2から大きく進化した点を明らかにしましょう!

<img 1の結果。openaiのブログ記事からの画像:a.="" al.、ゼロショットのテキストからイメージを生成、2021.="" alt="ファンタジーの世界において、細部まで緻密に描かれた毛皮のフミノイドのスカンクが、鋭い目つきで自信を持って立っています。彼は動物の毛皮のジャケットを着ています。アーティストはこのキャラクターをデジタルアートで見事に描き、毛皮や服のテクスチャの細部まで再現しています。画像とキャプションは論文より引用。</figcaption></figure><p>詳細な生成画像キャプションでトレーニングされたDALL·E 3は、単にプロンプトに従うだけではありません。それらに命を吹き込むのです。その結果は信じられないもので、プロンプトにだけでなく、プロンプトの背後にあるストーリーも理解できます。2020年からの進歩はまさに驚くべきものです。</p><figure><img alt=" arxiv:2102.12092。

DALL·E 3の優位性の中核には、強力なイメージキャプションがあります。すべてはイメージキャプションにかかっています。トレーニング中にテキストは供給され、生成するべき画像とともに与えられます。この新しいイメージキャプションは、DALLE 3がDALLE 2よりも優れている主要な要因です。以前のモデルは、インターネットから取り込まれた画像とテキストのペアを使用して、自己教師ありの方法で最初にトレーニングされました。Instagramの写真とそのキャプションやハッシュタグを想像してみてください。いつもそれが情報提供的なものや関連性があるものとは限りません。投稿の著者は、主題に関する説明のみを行い、画像に現れる環境やテキスト、および主題以外の全体のストーリーについて説明しません。さらに悪いことに、多くのキャプションはただのジョークや関係のない考えや詩です。この段階では、そのようなトレーニングでは…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

最速の道 AIを使用して手術室でがん細胞を分析するヘルスケアスタートアップ

医療機器会社のInvenio Imagingは、手術室で組織生検を評価することができる技術を開発しており、サンプル採取後すぐに、病理...

AI研究

ディープマインドのこの機械学習研究は、動的な環境での高度な計画に対してベクトル量子化モデル(VQ)を導入しています

技術の絶え間ない進歩により、人間の脳力を模倣することで、人間と同じように思考し学習することができるようになった人工知...

データサイエンス

このAIニュースレターはあなたが必要なすべてです#75

今週は、OpenAIのドラマが終わり、Sam AltmanとGreg BrockmanがOpenAIに復帰し、2人の新しい取締役が任命されました(既存の1...

AI研究

「CMUの研究者たちは、シンプルで効果的な攻撃手法を提案しましたこれにより、言語モデルが高い成功率で問題のある行動を生成することが可能となります」

大規模言語モデル(LLM)は、人間の言語で作業するための深層学習モデルの最近の進歩です。これらの深層学習トレーニングモデ...

データサイエンス

「Llama 2内のストップ生成の課題」

メタによるLlama 2の発売は、コミュニティ内で興奮を引き起こし、以前は...を通じてのみアクセス可能だった優れた大規模言語...

機械学習

「事前学習済みのテキストからイメージへの拡散モデルを用いたポイントクラウドの補完」

ポイントクラウドという言葉を聞いたことがありますか?それは、オブジェクトや環境のジオメトリと空間属性を記述する三次元...