「ニューヨーク大学の研究者が、人の見かけの年齢を画像内で変える新しい人工知能技術を開発しましたが、その人の独自の識別特徴を維持します」
ニューヨーク大学の研究者が、人の見かけの年齢を変える新しい人工知能技術を開発しましたが、独自の識別特徴を維持します
AIシステムは、画像解析を使用して個人の年齢を正確に推定および変更するために、ますます使用されています。老化の変動に堅牢なモデルを構築するには、多くのデータと高品質の長期データセットが必要です。長期データセットとは、数年にわたって収集された多数の個人の画像を含むデータセットのことです。
多くのAIモデルがこのようなタスクを実行するために設計されていますが、多くの場合、個人の顔の特徴を保持しながら年齢属性を効果的に操作することに課題を抱えています。これらのシステムは、多くの年間を通じて個人を示す画像の大規模なトレーニングデータセットの作成という典型的な課題に直面しています。
NYU Tandon School of Engineeringの研究者たちは、個人の一意の生体認証情報を保持しながら、画像内の人物の見かけの年齢を変更するための新しい人工知能技術を開発しました。
- Googleの研究者たちは、AIによって生成された画像を透かしを入れたり識別するためのデジタルツールである「𝗦𝘆𝗻𝘁𝗵𝗜𝗗」を紹介しました
- 「GoogleはDeepfakeへの対策として、AIによって生成された画像にウォーターマークを付けます」
- このAI研究は、深層学習システムが継続的な学習環境で使用される際の「可塑性の喪失」という問題に取り組んでいます
研究者たちは、各個人の少数の画像セットでモデルをトレーニングしました。また、別の画像セットを使用して、キャプションによってその人物の年齢カテゴリ(子供、ティーンエージャー、若者、中年、老人、高齢者)が示された画像を収集しました。この画像セットには、有名人の生涯を通じてキャプチャされた画像が含まれており、キャプション付きの写真はモデルに画像と年齢の関係を説明します。その後、トレーニングされたモデルは、テキストプロンプトを介して目標の年齢を指定することによって、エージングまたはデエージングのシナリオをシミュレートするために使用できるようになりました。これらのテキストプロンプトは、画像生成プロセスでモデルをガイドします。
研究者たちは、事前にトレーニングされた潜在拡散モード、個人の身元特定情報を学習するための20枚の顔のトレーニング画像の小さなセット、および画像とそのキャプションの関連性を理解するための600組の画像キャプションの補助的なセットを使用しました。
彼らは適切な損失関数を使用してモデルを微調整しました。また、画像にランダムな変動やノイズを加えたり、取り除いたりしました。さらに、研究者は「DreamBooth」という技術を使用して、ニューラルネットワークコンポーネントの融合によって、人間の顔の画像を徐々に制御された変換プロセスで操作しました。
彼らは、他の年齢変更技術と比較してモデルの正確性を評価しました。この評価を行うために、26人のボランティアに対して生成された画像を同じ個人の実際の写真と関連付けるように依頼しました。さらに、顕著な顔認識アルゴリズムであるArcFaceを使用した比較も行いました。その結果、彼らの方法は優れたパフォーマンスを示し、他の技術のパフォーマンスを上回り、不正な拒否の頻度を最大で44%削減しました。
研究者たちは、トレーニングデータセットに中年のカテゴリの画像が含まれている場合、生成された画像はさまざまな年齢グループを効果的に表現することを発見しました。一方、トレーニングセットには主に高齢者の画像が含まれている場合、モデルは逆の極端な範囲(子供のカテゴリなど)に属する画像を生成しようとする際に課題に直面します。さらに、生成された画像は、トレーニング画像をより古い年齢グループに変換する能力を男性と比較して特に示しています。この不一致は、トレーニング画像にメイクが含まれていることに起因する可能性があります。逆に、人種や民族の変動は生成された出力には顕著で識別できる効果をもたらしませんでした。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Googleとジョージア工科大学の研究者が、セグメンテーションマスクを作成するための直感的な後処理AIメソッドであるDiffSegを紹介しました
- 「S-LabとNTUの研究者が、シーニメファイ(Scenimefy)を提案しましたこれは、現実世界の画像から自動的に高品質なアニメシーンのレンダリングを行うための画像対画像翻訳フレームワークであり、セミスーパーバイズド(半教師付き)手法を採用しています」
- プリンストン大学の研究者が、MeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は、大規模言語モデル(LLM)を微調整することができます
- 「SynthIDを使ったAI生成画像の識別」
- UCLとGoogleの研究者が提案する「AudioSlots:オーディオドメインの盲目的なソース分離のためのスロット中心の生成モデル」
- 初心者のための2023年の機械学習論文の読み方
- ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します