「GoogleのDeblur AI:画像をシャープにする」

Google's Deblur AI Sharpening Images

ぼやけた画像にさようなら。Googleの新しい技術があなたの携帯のカメラの真のポテンシャルを引き出します。

Image by Author

はじめに

私たちの進化し続けるデジタル時代において、写真を通じて瞬間を捉え、共有することが私たちの生活の一部となっています。ぼやけた画像ができた場合の失望感は大きいものです。大切な家族の写真、息をのむような風景、特別な場面のスナップショットなど、ぼやけた画像は視覚的なインパクトを減らし、私たちが望む明瞭さを奪ってしまいます。

しかし、心配しないでください。Googleの新しい手法を使用することで、携帯電話から直接クリアな画像を撮影する方法が提供されます。現在のほとんどの携帯電話には複数のカメラが搭載されています。Googleは、2つの異なるカメラからの単一のキャプチャを使用し、学習可能なポストプロセッシングを利用してぼやけた画像を再焦点化します。広角(W)カメラと超広角(UW)カメラを同時に使用して同じシーンをキャプチャすることで、より鮮明な結果を得ることを目指しています。

アーキテクチャ

Image from Paper

DFNetモデルは、同じシーンの広角と超広角の撮影とそれらのフォーカスマップを入力として受け取ります。入力とターゲットのフォーカスマップは、元の画像と出力画像のぼやけ具合を表し、各ピクセルの値は対応する画像ピクセルのぼやけ具合に比例します。

超広角と超広角の画像は非常に異なるため、被写界深度、対称性、焦点距離、および色が異なります。これらの画像を組み合わせることは容易なタスクではありません。そのため、Googleはこれらの画像を繋ぎ合わせるための学習ベースの手法を導入しています。

モデルは広角画像をベース画像として、超広角画像を高周波詳細の参照として使用します。モデルは、提供されたフォーカスマップに従って、両方の画像をブレンドし、出力がぼやけた画像になるようにします。

テスト時には、対象のフォーカスマップを簡単に変更することで、必要に応じて画像の異なる部分をぼやけさせることができます。

Image from Paper

上記のように、完全にクリアな画像を生成するには、フォーカスマップをすべてゼロに設定することができます。これにより、モデルは画像のすべての部分をぼやけさせるようになります。他の場合では、テスト時に提供されたフォーカスマップに従って、画像の特定の部分をぼやけさせることができます。

結果

PSNRスコアが29.78、SSIMスコアが0.898となり、このポストプロセッシング手法は定性的および定量的な分析の両方で以前の手法を上回ります。

Image from Paper
Image from Paper

結果は、以前の手法とGoogleのDFNetとの比較で、DFNetがより鮮明さと詳細を備えた最先端の結果を示しています。

このモデルは、画像の再焦点化、被写界深度(DoF)制御と再レンダリング、およびぼやけ除去といった領域での潜在的な利用があります。

制約事項

複数のカメラが必要

このモデルは、高周波詳細の参照を提供する広角と超広角のカメラを使用しています。両方の画像は、シーンの異なる部分に焦点を当てた異なる被写界深度を持つ必要があります。同じカメラからキャプチャされた画像では、このような結果を再現することはできません。また、デュアルカメラの携帯電話に大きく依存しており、単一の画像入力では画像の修復はできません。

データセットの生成

広角および超広角で撮影された画像のデータセットは一般的に広く利用できません。また、実世界のシナリオにおけるノイズを再現することができる画像にガウシアンぼかしを追加して合成することも不可能です。ドメインギャップを減らすために、著者はこの手法のために100枚の画像スタックを撮影しました。

既存の手法への依存

データの前処理部分では、デフォーカスマップ、深度マップ、遮蔽マスクを生成するために前提となるオプティカルフローおよびステレオデプスアルゴリズムが必要です。この前処理では、重大なアーティファクトを生成することがあるため、出力画像の劣化が生じることがあります。

結論

ブラーをなくす。Googleの最新の画像復元技術により、ぼやけた画像に終止符を打つことができます。これがスマートフォンのカメラのAIに取り込まれれば、毎日完璧な写真が見られるようになるでしょう。

詳細な理解のためには、論文をお読みください。

論文: https://defocus-control.github.io/static/dc2_paper.pdf

この記事がお気に入りの場合、または機械学習や研究コミュニティの最新の進展についてもっと学びたい場合は、フォローしてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ChatGPTから独自のプライベートなフランス語チューターを作成する方法

議論された外国語チューターのコードは、私のGitHubページの同梱リポジトリで見つけることができます非商業利用に限り、自由...

機械学習

「リトリーバル増強生成によるジェネラティブAIの最適化:アーキテクチャ、アルゴリズム、およびアプリケーションの概要」

この記事はAIの専門家を対象にし、AIのアーキテクチャー、トレーニング、そして応用に焦点を当てて検討します

データサイエンス

「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上...

AIニュース

「AIの成長する需要が世界的な水不足を引き起こす可能性がある」

人工知能は技術革命の原動力でありながら、静かに私たちの水資源を枯渇させています。OpenAIのChatGPTなどの高度なシステムを...

機械学習

エンタープライズAIとは何ですか?

エンタープライズAIの紹介 時間は重要であり、自動化が答えです。退屈で単調なタスク、人間によるミス、競争の混乱、そして最...

AI研究

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相...