「S-LabとNTUの研究者が、シーニメファイ(Scenimefy)を提案しましたこれは、現実世界の画像から自動的に高品質なアニメシーンのレンダリングを行うための画像対画像翻訳フレームワークであり、セミスーパーバイズド(半教師付き)手法を採用しています」
S-Lab and NTU researchers proposed Scenimefy, an image-to-image translation framework that automatically renders high-quality anime scenes from real-world images using a semi-supervised approach.
アニメの風景は創造力と時間を大量に必要とするため、自動的なシーンのスタイル化のための学習ベースの手法の開発には明らかな実用的かつ経済的な意義があります。自動スタイル化は、最近の生成的対抗ネットワーク(GAN)の発展により、大幅に改善されていますが、この研究のほとんどは主に人間の顔に焦点を当てています。複雑な現実世界のシーン写真から高品質なアニメの風景を作成するプロセスは、その莫大な研究価値にもかかわらず、まだ研究が必要です。現実のシーン写真をアニメスタイルに変換するには、いくつかの要素が関与して多くの作業が必要です。
1) シーンの構成:図1は、シーン内の前景と背景部分の階層関係を示しており、これらの部分はしばしば複雑な方法で接続された複数のアイテムで構成されています。
2) アニメの特徴:図1は、草、木、雲などの自然環境で事前に設計された筆触が使用されることで、アニメを定義する特異なテクスチャと正確なディテールが作成される様子を示しています。これらのテクスチャの有機的で手描きの性質は、以前の実験で示された鮮明なエッジと均一な色のパッチよりも模倣がはるかに困難です。
- プリンストン大学の研究者が、MeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は、大規模言語モデル(LLM)を微調整することができます
- 「SynthIDを使ったAI生成画像の識別」
- UCLとGoogleの研究者が提案する「AudioSlots:オーディオドメインの盲目的なソース分離のためのスロット中心の生成モデル」
3) データの不足とドメインのギャップ:高品質なアニメのシーンデータセットは、背景の風景とは異なる美的を持つ多くの人間の顔や他の前景アイテムのため、現実とアニメのシーンの間のギャップを埋める上で重要です。既存のデータセットは低品質です。
対称的な画像変換は、対になったトレーニングデータがない場合に複雑なシーンのスタイル化に使用される人気のある方法です。アニメスタイルに焦点を当てた既存の技術は、有望な結果を示しているにもかかわらず、いくつかの分野で追いつく必要があります。まず、複雑な風景ではピクセルごとの相関が欠如しているため、現在のアプローチでは明らかなテクスチャのスタイル化を実行するのが困難であり、意外な出力や目立つアーティファクトを含む可能性があります。2つ目に、一部の方法ではアニメのシーンの微細なディテールを生成しません。これは、エッジや表面のなめらかさを強制する構築されたアニメ固有の損失や事前抽出された表現に起因しています。
上記の問題を解決するために、南洋理工大学のS-Labの研究者は、高品質なアニメスタイルのシーン写真の表現を作成するためのユニークな半教師ありイメージ間変換(I2I)パイプラインであるScenimefyを提案しています。彼らの主な提案は、疑似対応データを使用して、教師なしフレームワークに新しい教師ありトレーニングブランチを導入し、教師なしトレーニングの欠点に対処することです。彼らはStyleGANの有利な特性を使用して、実際のアニメまたは偽の対応データ間の粗い対応データを提供するためにそれを微調整するというメインの提案を行っています。
彼らは、CLIPやVGGなどの豊富な事前学習モデルの先行知識を使用して、StyleGANが複雑なシーンの詳細を捉え、過学習を減らすようにするための新しい意味制約型微調整手法を提供しています。低品質のデータをフィルタリングするために、彼らはセグメンテーションに基づいたデータ選択手法も提供しています。疑似対応データとユニークなパッチごとの対照的なスタイル損失を使用することで、Scenimefyは2つのドメイン間の微細な詳細を作成し、効果的なピクセルごとの対応を学習します。彼らの半教師ありフレームワークは、シーンのスタイル化の忠実さと正確さ、教師なしトレーニングブランチの間で望ましいトレードオフを試みます。
彼らはまた、トレーニングを支援するために純粋なアニメシーンの高品質なデータセットを収集しました。彼らは広範なテストを実施し、Scenimefyの有効性を示し、知覚品質と数量評価の業界基準を上回りました。以下は彼らの主な貢献の概要です:
• 彼らは、実際の写真を洗練されたアニメシーンの優れた品質の画像に変換する新しい準教師付きシーンスタイライゼーションフレームワークを提供しています。彼らのシステムは、スタイライゼーションと細部を向上させるために独自のパッチ単位の対比的なスタイル損失を追加します。
• 豊富な事前トレーニングのガイダンスに続いて、セグメンテーションによるデータ選択スキームによって構造一貫性のある擬似ペアデータが生成される、新しく開発された意味制約付きStyleGAN微調整技術があります。これはトレーニングの監督の基礎となります。
• 彼らは、将来のシーンスタイライゼーションの研究に役立つ高解像度のアニメシーンのコレクションを収集しました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 初心者のための2023年の機械学習論文の読み方
- ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します
- Google Researchにおける責任あるAI:パーセプションの公平性
- Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です
- 「Google DeepMindの研究者が、チェスの課題に取り組むためのAIの多様性の力を明らかにする:計算問題解決における次の飛躍、AZ_dbの紹介」
- ウィスコンシン大学マディソン校の研究者たちは、「エベントフルトランスフォーマー:最小限の精度損失でコスト効果のあるビデオ認識手法」というタイトルで、イベントフルトランスフォーマーに基づくビデオ認識の費用対効果の高い手法を提案しています
- 「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」