「AIの画像をどのように保存すべきか?Googleの研究者がスコアベースの生成モデルを使用した画像圧縮方法を提案」

Googleの研究者がスコアベースの生成モデルを使い、AIの画像の保存方法を提案

1年前、AIによるリアルな画像生成は夢でした。ほとんどの出力が3つの目や2つの鼻などを持つものであるにもかかわらず、実際の顔に似た生成された顔を見ることに感動しました。しかし、拡散モデルのリリースにより、状況は非常に急速に変化しました。現在では、AIによって生成された画像と本物の画像を区別することが困難になりました。

高品質な画像を生成する能力は方程式の一部です。それらを適切に利用するためには、効率的に圧縮することが、コンテンツ生成、データ保存、伝送、および帯域幅の最適化などのタスクにおいて重要な役割を果たします。しかし、画像の圧縮は、変換符号化や量子化技術などの伝統的な手法に主に依存しており、生成モデルの探索は限定的でした。

画像生成の成功にもかかわらず、拡散モデルやスコアベースの生成モデルは、画像圧縮の主要な手法としてまだ台頭していません。彼らは、高解像度の画像に関しては、HiFiCなどのGANベースの手法に劣るか同等の結果を示すことが多いです。また、テキストから画像へのモデルを画像圧縮に再利用しようとする試みも、元の入力から逸脱した再構成や望ましくないアーティファクトを含む結果に終わっています。

画像生成のタスクにおけるスコアベースの生成モデルの性能と、画像圧縮の特定のタスクにおけるGANを上回ることができないというギャップは、興味深い疑問を提起し、さらなる調査を促しています。高品質な画像を生成できるモデルが、画像圧縮の特定のタスクでGANを上回ることができなかったことは驚きです。この相違点は、スコアベースの生成モデルを圧縮タスクに適用する際に、固有の課題と考慮事項が存在し、その全ポテンシャルを引き出すために専門のアプローチが必要であることを示唆しています。

したがって、スコアベースの生成モデルを画像圧縮に使用する可能性があることがわかりました。問題は、どのようにしてそれを実現するかということです。それでは、その答えに入ってみましょう。

Googleの研究者は、標準のオートエンコーダを使用し、平均二乗誤差(MSE)に最適化された拡散プロセスと組み合わせて、オートエンコーダによって破棄された微細なディテールを復元し追加する方法を提案しました。画像のエンコードのビットレートは、拡散プロセスでは追加のビットは必要としないため、オートエンコーダによってのみ決定されます。画像圧縮のために拡散モデルを特に微調整することで、画像の品質に関していくつかの最近の生成アプローチを凌駕することが示されています。

提案された方法は、最先端のアプローチと比較して、詳細をより良く保存することができます。出典:https://arxiv.org/pdf/2305.18231.pdf

この方法は、拡散モデルと直接関連している2つのアプローチを探求しています。拡散モデルは、サンプリングステップの数が多いほど優れた性能を発揮しますが、サンプリングステップが少ない場合には、修正フローの方が優れたパフォーマンスを発揮します。

この2ステップのアプローチは、まずMSEに最適化されたオートエンコーダを使用して入力画像をエンコードし、その後、拡散プロセスまたは修正フローを適用して再構成のリアリズムを高めることで構成されています。拡散モデルは、テキストから画像へのモデルとは逆の方向にシフトされたノイズスケジュールを使用し、グローバルな構造よりも詳細を優先します。一方、修正フローモデルは、オートエンコーダから提供されるペアリングを利用して、オートエンコーダの出力を非圧縮画像に直接マッピングします。

提案されたHFDモデルの概要。出典:https://arxiv.org/pdf/2305.18231.pdf

さらに、この研究では、この領域での将来の研究に役立つ具体的な詳細が明らかにされました。たとえば、ノイズスケジュールや画像生成時に注入されるノイズの量が結果に大きな影響を与えることが示されています。興味深いことに、高解像度の画像をトレーニングする際には、テキストから画像へのモデルはノイズレベルの増加によって利益を得る一方で、拡散プロセス全体のノイズを減らすことが圧縮に有利であることがわかっています。この調整により、モデルは細部により注力することができ、粗い詳細は既にオートエンコーダの再構築によって十分に捉えられています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「グラフ注意ネットワーク論文のイラストとPyTorchによる実装の説明」

グラフニューラルネットワーク(GNN)は、グラフ構造のデータに作用する強力なニューラルネットワークの一種ですノードのロー...

AI研究

Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました

Google AR&VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバー...

データサイエンス

「データサイエンス、機械学習、コンピュータビジョンプロジェクトを強化する 効果的なプロジェクト管理のための必須ツール」

「機械学習またはデータサイエンスのプロジェクトは非常に大規模であり、多くの種類のファイルや多様なアーキテクチャを含ん...

AIニュース

AIが宇宙へ!NASAがChatGPTのようなチャットボットを宇宙船通信に導入予定

興味深い進展として、NASAのエンジニアたちは地球の境界を超えて人工知能(AI)を宇宙にもたらす取り組みを始めています。最...

AIニュース

「ドバイ、ロボタクシーの試験を開始する予定」

「アラブ首長国連邦の都市ドバイは、混雑や事故を減らすため、今月初めてのロボットタクシーの導入を開始します」

データサイエンス

「データサイエンティストのためのAI Chrome拡張のトップ10(2023年)」

Grammarly GO 洞察力のあるメモ。コンテキスト、好み、目標を考慮して、高品質なタスクリスト、メモ、推奨事項、およびドラフ...