Learn more about Search Results 写真 - Page 162

スタンフォード大学、コーネル大学、オックスフォード大学の新しいAI研究は、単一の画像のわずかなインスタンスからオブジェクトの固有性を発見する生成モデルを紹介しています

バラの本質は、その独特の形状、質感、および材料組成で構成されています。これを使用して、さまざまな位置で、さまざまな形状のバラをさまざまな照明効果で作成できます。各バラが独自のピクセル値セットを持っていても、それらを同じクラスのメンバーとして識別できます。 Stanford、Oxford、およびCornell Techの研究者たちは、単一の写真からのデータを使用して、異なる視点と照明から新しい形状と画像を生成できるモデルを作成することを望んでいます。 この問題を解決するためには、3つの障壁があります: トレーニングデータセットには1枚の画像しかなく、数百のインスタンスしかありません。 これらの数少ない状況には、幅広い可能なピクセル値があります。これは、姿勢も照明条件も記録されていないか、または不明であるためです。 どのバラも同じではなく、形状、質感、材料の分布をキャプチャする必要があります。したがって、推論されるオブジェクト固有量は確定的ではなく、確率的です。これは、静的なオブジェクトやシーンに対する現在のマルチビュー再構成またはニューラルレンダリングアプローチと比較して、重要な変更です。 提案されたアプローチは、モデル作成にバイアスを誘導するためにオブジェクト固有量を出発点としています。これらのルールには2つの部分があります: 提示されるインスタンスはすべて、同じオブジェクト固有量またはジオメトリ、質感、材料の分布を持つ必要があります。 固有の特性は、レンダリングエンジンによって定義され、最終的には物理世界によって定義された特定の方法で相互に関連しています。 より具体的には、彼らのモデルは、単一の入力画像を取り、インスタンスマスクのコレクションとインスタンスの特定のポーズ分布を使用して、オブジェクトの3D形状、表面反射率、および艶の分布のニューラル表現を学習し、姿勢と照明の変動の影響を排除します。この物理的に基礎づけられた明示的な分離は、彼らのインスタンスの簡単な説明を支援します。モデルは、単一の画像によって提供される疎な観測に過剰適合することなく、オブジェクト固有量を取得することができます。 研究者たちが言及するように、その結果得られたモデルによって、多くの異なる用途が可能になります。たとえば、学習されたオブジェクト固有量からランダムにサンプリングすることで、異なるアイデンティティを持つ新しいインスタンスを生成できます。外部要素を調整して、新しいカメラ角度や照明セットアップで合成インスタンスを再レンダリングすることができます。 チームは、モデルの改良された形状再構成と生成性能、革新的なビュー合成、およびリライト性能を示すために、徹底的なテストを実施しました。

公共関係(PR)における10以上のAIツール(2023年)

ChatGPT  簡単に説明すると、ChatGPTは、AIによる会話型ユーザーインターフェースです。ユーザーからの入力を受け取り、分析して回答を生成します。OpenAIテクノロジーにより、マシンは書かれた言語と口頭言語の両方を理解できます。決められた回答をすることも、ユーザーに空欄を埋めるように要求することもできます。機械学習と自然言語処理を採用しているため、このテクノロジーは消費者と意味のある対話をする可能性があります。システムの柔軟性により、顧客サービス、バーチャルエージェント、チャットボットなど、さまざまな設定に適用できます。ChatGPTは、OpenAIテクノロジーを活用して、ユーザーが要求を理解し、実現するための会話型AIシステムを提供しています。 Midjourney Midjourneyは強力な機能と迅速な画像合成のため、最高の人工知能画像生成ツールの1つです。MidjourneyにSMSコマンドを送信するだけで、あとはMidjourneyが処理します。多くのクリエイティブプロフェッショナルが、Midjourneyを使用して、自分たちの仕事にインスピレーションを与える画像を生成しています。Midjourneyで作成された人工知能作品「Théâtre d’Opéra Spatial」は、20人の他の画家を抑えて、コロラド州の博覧会の美術部門で1位を獲得しました。ただし、現在のMidjourneyのホームはDiscordサーバーです。MidJourney Discordサーバーに参加し、ボットのコマンドを利用して画像を作成する必要があります。ただし、すぐに始めることができます。 Brandwatch メディアモニタリングがクライアントの優先事項である場合、Brandwatchはあなたの人工知能ソーシャルリスニングソリューションです。Brandwatchは、あなたの会社に関する書かれた言及と、ロゴや製品の視覚的表現をモニターするためにAIを使用しています。彼らの洗練されたテキスト分析ツールは、ユーザーがあなたのブランドに関するコメントが好意的、悪い、または中立的かどうかを判断することもでき、これらすべての指標を追跡することが容易になっています。 Cleanup.pictures Cleanup.picturesは、AIを搭載した写真編集アプリケーションで、写真から望ましくないオブジェクト、人、テキスト、欠陥を削除することができます。簡単に学習でき、品質を損なうことなく数秒で写真を修正することができます。写真家、広告会社、不動産業者、オンライン小売業者、テキスト、ロゴ、またはウォーターマークを取り除く必要がある人など、さまざまな人々がこのツールを利用できます。Adobe Photoshopのクローンツールとは異なり、このプログラムは、不要なテキスト、人物、オブジェクトの背後に何があるかを正確に特定することができます。任意の解像度の画像をインポートして編集することができます。無料版ではエクスポート解像度が720pxに制限されていますが、Pro版にはそのような制限はありません。 Looka  Lookaは、AIによるブランドアイデンティティプラットフォームを使用して、努力を最小限に抑えて洗練されたロゴとブランドアイデンティティを作成できます。ロゴジョイの再ブランド版であるLookaは、無料で利用できます。プロセスは、人工知能を利用して素早く数百の潜在的なロゴデザインを生成するロゴメーカーから始まります。ユーザーは、レイアウトを自分好みに変更することができます。ブランドキットでは、ロゴ、色、フォントを活用して、数十、場合によっては数百の統一されたプロモーション用品を簡単かつ迅速に作成することができます。名刺、ソーシャルメディアプロファイル、メール署名、その他のサンプルドキュメントがブランドキットに含まれています。人工知能によって動作するプラットフォームであるLookaのユーザーは、YouTube、Twitter、Facebookなど、多くのソーシャルメディアプラットフォーム上のプロフィール画像とカバー画像を変更することができます。 Canva  Canvaの無料画像作成ツールを使用することで、製品マネージャーがどのように利益を得ることができるかが簡単に理解できます。ステークホルダーミーティング、製品発売などでプレゼンテーションやデッキ用の関連画像を入手することは常に難しい課題でした。時には、望んでいるものの完璧なビジョンがあるにもかかわらず、作業中のストック画像を修正する必要があります。CanvaのAIによるエディターを使用すると、コンテンツを事前に計画し、アイデアを生成し、入力に応じて完璧なグラフィックを見つけるために検索結果を調整することができます。 TLDR  この最新のAI搭載Webツールは、記事、文書、エッセイ、論文などの長文を簡潔で情報量の多い段落に自動的に要約することができます。試験勉強をする学生、素早く記事を要約したい作家、生徒に長いドキュメントや章を要約する必要がある教師、新聞や雑誌の長い記事を要約する必要があるジャーナリストなど、すべての人々がこのツールを利用できます。TLDRは、広告、ポップアップ、グラフィックなどのオンライン上の邪魔な要素を取り除き、テキストの主要なアイデアを選択し、弱い議論、未サポートの推測、派手なフレーズ、無駄な注意をそらすものなど、不要な材料を除去することによって、きれいで焦点の合った読書体験を提供します。 ヒント ヒントは人工知能(A.I.)を活用した生産性ツールで、他のアプリと同期して、やるべきこと、ノート、取引、スケジュールを管理するのに役立ちます。Notion、Obsidian、Trello、ClickUp、Hubspot、Pipedrive、Google Calendar、Jiraなどのサービスが統合できます。Telegram、WhatsApp、SMSなどのお気に入りのメッセージングアプリでヒントを見つけることができます。また、ボイスメールを残すこともできます。様々なサービスに接続することで、飛行中にデータを作成、更新、引き出す能力が可能になり、ビジネスと個人の生活をシングルインターフェイスで効率的に管理することができます。ヒントの多くの潜在的な応用例は、プロジェクト管理、販売、CRM管理、ノート取り、情報管理、個人の整理などです。ヒントは、他の人気のあるサービスと統合し、A.I.を利用して、日常的なタスクの効率を改善することで、時間と労力を節約することを目的としています。 DeepL 信頼性の高い翻訳者が必要な場合は、AIを搭載したDeepL翻訳を利用してください。PDF、Word文書、PowerPointプレゼンテーションなど、31の他の言語にテキストやファイル全体を翻訳することができます。技術が言語を迅速かつ自動的に認識できるため、翻訳プロセスは短く、結果は信頼できます。DeepLには、クイック定義用の辞書や用語集もあります。DeepLは、デスクトップコンピュータ、モバイルデバイス、またはChrome拡張機能からアクセスできるため、外出先の消費者にとっては優れたツールです。DeepLは、毎日何百万人もの人々によって最も広く使用されている翻訳ツールの一つです。 Otter.AI…

AIの汎化ギャップに対処:ロンドン大学の研究者たちは、Spawriousという画像分類ベンチマークスイートを提案しましたこのスイートには、クラスと背景の間に偽の相関が含まれます

人工知能の人気が高まるにつれ、新しいモデルがほぼ毎日リリースされています。これらのモデルには新しい機能や問題解決能力があります。近年、研究者たちは、AIモデルの抵抗力を強化し、スパリアスフィーチャーへの依存度を減らすアプローチを考えることに重点を置いています。自動運転車や自律型キッチンロボットの例を考えると、彼らは彼らが訓練データから学習したものと大きく異なるシナリオで動作する際に生じる課題のためにまだ広く展開されていません。 多くの研究がスパリアス相関の問題を調査し、モデルのパフォーマンスに対するその負の影響を軽減する方法を提案しています。ImageNetなどのよく知られたデータセットで訓練された分類器は、クラスラベルと相関があるが、それらを予測するわけではない背景データに依存していることが示されています。SCの問題に対処する方法の開発に進展はあったものの、既存のベンチマークの制限に対処する必要があります。現在のWaterbirdsやCelebA hair color benchmarksなどのベンチマークには制限があり、そのうちの1つは、現実では多対多(M2M)のスパリアス相関がより一般的であり、クラスと背景のグループを含む単純な1対1(O2O)スパリアス相関に焦点を当てていることです。 最近、ロンドン大学カレッジの研究チームが、クラスと背景の間にスパリアス相関が含まれる画像分類ベンチマークスイートであるSpawriousデータセットを導入しました。それは1対1(O2O)および多対多(M2M)のスパリアス相関の両方を含み、3つの難易度レベル(Easy、VoAGI、Hard)に分類されています。データセットは、テキストから画像を生成するモデルを使用して生成された約152,000の高品質の写真リアルな画像で構成されており、画像キャプションモデルを使用して不適切な画像をフィルタリングし、データセットの品質と関連性を確保しています。 Spawriousデータセットの評価により、現在の最先端のグループ頑健性アプローチに対してHard-splitsなどの課題が課せられ、ImageNetで事前学習されたResNet50モデルを使用してもテストされた方法のいずれも70%以上の正確性を達成できなかったことが示されました。チームは、分類器が間違った分類を行った際に背景に依存していることを見て、モデルのパフォーマンスの短所が引き起こされたと説明しています。これは、スパリアスデータの弱点を成功裏にテストし、分類器の弱点を明らかにすることができたことを示しています。 O2OとM2Mベンチマークの違いを説明するために、チームは、夏に訓練データを収集する例を使用しました。それは、2つの異なる場所から2つの動物種のグループで構成され、各動物グループが特定の背景グループに関連付けられているものです。しかし、季節が変わり、動物が移動すると、グループは場所を交換し、動物グループと背景の間のスパリアス相関が1対1で一致することはできなくなります。これは、M2Mスパリアス相関の複雑な関係と相互依存関係を捉える必要性を強調しています。 Spawriousは、OOD、ドメイン汎化アルゴリズムにおける有望なベンチマークスイートであり、スパリアスフィーチャーの存在下でモデルの評価と改善を行うためにも使用できます。

サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました

旧石器時代から、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストロークフィッティングなどのより新しいアプリケーションまで、スケッチの使用方法を理解するために大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその細かいグレインの対応(FGSBIR)だけが、スケッチの表現力の潜在能力を調査しています。最近のシステムは、すでに商業的に適応するために十分に成熟しており、スケッチの表現力を開発することがどれだけ重要かを示す素晴らしい証拠です。 スケッチは非常に示唆的であり、自動的に微妙で個人的な視覚的手がかりをキャプチャするためです。しかし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの示唆的な力を使用して、ビジョンの最も基本的なタスクであるシーン内のオブジェクトの検出にシステムをトレーニングするようになっています。最終的な製品は、スケッチに基づくオブジェクトの検出フレームワークであり、つまり、群れの中の特定の「シマウマ」(たとえば、草を食べているシマウマ)にピンポイントでアプローチできるようになります。さらに、研究者たちは、モデルが次のようなことなしに成功することを課しています。 (ゼロショット)テストに何らかの結果を期待せずに進むこと。 (完全に教師付きのように)追加の境界ボックスやクラスラベルを必要としないこと。 研究者たちは、スケッチに基づく検出器も、ゼロショットの方法で動作することを要求しており、システムの新規性を高めています。以下のセクションで、彼らはオブジェクト検出を閉じたセットからオープンボキャブ構成に切り替える方法を詳述しています。たとえば、オブジェクトディテクターは、分類ヘッドの代わりにプロトタイプ学習を使用し、エンコードされたクエリスケッチ機能をサポートセットとして使用します。モデルは、ウィークリー教師ありオブジェクト検出(WSOD)環境で、すべての考えられるカテゴリまたはインスタンスのプロトタイプに対する多カテゴリ交差エントロピー損失を使用してトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。これにより、SBIRオブジェクト検出器のトレーニングでは、オブジェクトレベルと画像レベルの特性の間に橋渡しが必要です。 研究者たちの貢献は次のとおりです。 人間のスケッチの表現力を養うことによるオブジェクト検出の改善。 スケッチに基づいたオブジェクト識別フレームワークの構築。スケッチを理解しているものであり、カテゴリレベル、インスタンスレベル、パーツレベルの検出が可能です。 クリップとSBIRを組み合わせた新しいプロンプト学習構成によるスケッチに注意を払った検出器の作成。バウンディングボックスの注釈やクラスラベルなしでゼロショットファッションで機能します。 結果は、ゼロショット設定でSODおよびWSODよりも優れています。 研究者たちは、基礎となるモデル(CLIPなど)と、既にスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルとの直感的なシナジーを実証しました。特に、SBIRモデルのスケッチと写真のブランチで別々のプロンプトを行った後、CLIPの汎化能力を使用して高度に一般化されたスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真の埋め込みと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計します。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、教師あり(SOD)およびウィークリー教師あり(WSOD)オブジェクト検出器をゼロショット設定で上回ります。 まとめ オブジェクト検出を改善するために、研究者たちは、スケッチで人間の表現力を積極的に促進しています。提案されたスケッチに対応したオブジェクト識別フレームワークは、スケッチで何を伝えようとしているかを理解できるインスタンスレベルとパーツレベルのオブジェクト検出器です。そのため、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチに注意を払った検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案します。また、ゼロショットファッションで動作するように指定されています。一方、SBIRは、単一のもののスケッチと写真のペアを使用して教育されます。オブジェクトとイメージのレベルの間のギャップを埋めるために、耐破壊性を高め、語彙外への一般化を増加させるデータ拡張アプローチを使用します。結果として得られるフレームワークは、ゼロショット設定で教師ありおよびウィークリー教師ありオブジェクト検出器を上回ります。

がん検出の革命:サリー大学が機械学習における画像ベースのオブジェクト検出ツールを発表し、ゲームチェンジとなる

先史時代以来、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストローク適合などのより新しいアプリケーションに至るまで、スケッチの使用方法について大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその微細な対応(FGSBIR)のみが、スケッチの表現力の可能性を調査しています。最近のシステムは、すでに商業展開に向けて十分に成熟しており、スケッチ表現力の開発がどのように重要な影響を与えるかについて素晴らしい証拠です。 スケッチは、微妙で個人的な視覚的な手がかりを自動的にキャプチャするため、非常に示唆的です。ただし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの表現力を最も基本的なビジョンのタスクであるシーン内のオブジェクトの検出に使用するようシステムをトレーニングするのに初めて取り組んでいます。最終的な製品は、スケッチに基づいてオブジェクトを検出するためのフレームワークであり、これにより、群れの中の特定の「シマウマ」(たとえば草を食べているもの)に絞り込むことができます。さらに、研究者たちは、モデルが以下のようなものであっても成功するように規定しています。 テストに入る前にどのような結果を期待するかについてのアイデアがない(ゼロショット)。 余分な境界ボックスやクラスラベルが必要ない(完全に監視されたものと同じように)。 研究者たちは、スケッチベースの検出器もまた、ゼロショットで動作するようにして、システムの新規性を高めています。続くセクションでは、彼らはオブジェクト検出をクローズドセットからオープンボキャブ構成に切り替える方法について詳しく説明し、たとえば、分類ヘッドの代わりにプロトタイプ学習を使用することにより、エンコードされたクエリスケッチ機能がサポートセットとして使用されます。モデルは、弱く監視されたオブジェクト検出(WSOD)環境のあらゆる考えられるカテゴリまたはインスタンスのプロトタイプ全体にわたるマルチカテゴリクロスエントロピー損失でトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。このため、SBIRオブジェクト検出トレーニングには、オブジェクトレベルと画像レベルの特性の橋渡しを必要とします。 研究者たちの貢献は次の通りです。 スケッチングの表現力を育成して、オブジェクト検出に人間の表現力を積極的に促進する。 スケッチをベースにしたオブジェクト識別フレームワークで、何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器。 従来のカテゴリレベルおよびインスタンスおよびパートレベルの検出が可能なオブジェクト検出器。 CLIPとSBIRを組み合わせた新しいプロンプト学習構成により、バウンディングボックス注釈やクラスラベルなしで機能するスケッチ感知検出器を生成する。 その結果は、ゼロショット設定でSODおよびWSODを上回る。 研究者たちは、既に優雅に解決できるスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルと基礎モデル(CLIPなど)の直感的なシナジーを示しました。特に、彼らはまず、SBIRモデルのスケッチと写真の枝にそれぞれ別個のプロンプトを実行し、次にCLIPの一般化能力を使用して高度に汎化可能なスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真のものと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計しています。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、監視された(SOD)および弱く監視された(WSOD)オブジェクト検出器をゼロショット設定で上回ります。 まとめ 研究者たちは、オブジェクト検出を改善するために、スケッチングにおける人間の表現力を積極的に促進しています。提案されたスケッチを有効にしたオブジェクト識別フレームワークは、スケッチで何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器です。したがって、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチ感知検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案しました。検出器は、ゼロショット設定でも動作するように指定されています。一方、SBIRは、個々のオブジェクトのスケッチと写真のペアで教えられます。彼らは、オブジェクトと画像のレベルのギャップを埋めるために、汚染に対する抵抗力を高め、語彙外への一般化を高めるデータ拡張手法を使用します。その結果得られるフレームワークは、ゼロショット設定で監視されたおよび弱く監視されたオブジェクト検出器を上回ります。

あなたのポケットにアーティストの相棒:SnapFusionは、拡散モデルのパワーをモバイルデバイスにもたらすAIアプローチです

拡散モデル。AI領域の進歩に注目している場合、この用語については多く聞いたことがあるでしょう。それらは生成型AI手法の革命を可能にした鍵でした。我々は今や、テキストプロンプトを使用して数秒で写真のような逼真的な画像を生成するモデルを持っています。それらは、コンテンツ生成、画像編集、スーパーレゾリューション、ビデオ合成、3Dアセット生成を革新しました。 しかし、この印象的なパフォーマンスには高いコンピューテーション要件が伴います。つまり、それらを完全に活用するには本当に高性能のGPUが必要です。はい、それらをローカルコンピュータで実行する試みもありますが、それでも高性能なものが必要です。一方、クラウドプロバイダを使用することも代替解決策となりますが、その場合はプライバシーを危険にさらす可能性があります。 そして、考えなければならないのは、移動中に使用することです。ほとんどの人々は、コンピュータよりもスマートフォンで時間を過ごしています。拡散モデルをモバイルデバイスで使用したい場合、デバイス自体の限られたハードウェアパワーにとって要求が高すぎるため、うまくいく可能性はほぼありません。 拡散モデルは次の大きな流行ですが、実用的なアプリケーションに適用する前にその複雑さに対処する必要があります。モバイルデバイスでの推論の高速化に焦点を当てた複数の試みが行われていますが、シームレスなユーザーエクスペリエンスや定量的な生成品質を達成していませんでした。それは今までの話であり、新しいプレイヤーがフィールドに登場しているのです。SnapFusionと名付けられたこのプレイヤーです。 SnapFusionは、モバイルデバイスで2秒以下で画像を生成する最初のテキストから画像への拡散モデルです。UNetアーキテクチャを最適化し、ノイズ除去ステップ数を減らすことで推論速度を向上させています。さらに、進化するトレーニングフレームワークを使用し、データ蒸留パイプラインを導入し、ステップ蒸留中に学習目標を強化しています。 SnapFusionの概要。出典:https://arxiv.org/pdf/2306.00980.pdf SnapFusionの構造に変更を加える前に、SD-v1.5のアーキテクチャの冗長性を調査して、効率的なニューラルネットワークを得ることが最初に行われました。しかし、SDに従来のプルーニングやアーキテクチャサーチ技術を適用することは、高いトレーニングコストのために困難でした。アーキテクチャの変更は性能の低下につながる可能性があり、大規模な計算リソースを必要とする厳密な微調整が必要となります。そのため、その道は閉ざされ、彼らは、事前にトレーニングされたUNetモデルのパフォーマンスを維持しながら効果を徐々に向上させる代替方法を開発する必要がありました。 推論速度を向上させるために、SnapFusionは、条件付き拡散モデルのボトルネックであるUNetアーキテクチャを最適化することに焦点を当てています。既存の作品は主にトレーニング後の最適化に焦点を当てていますが、SnapFusionはアーキテクチャの冗長性を特定し、元のStable Diffusionモデルを上回る進化するトレーニングフレームワークを提案することで、推論速度を大幅に向上させています。また、イメージデコーダーを圧縮して高速化するためのデータ蒸留パイプラインを導入しています。 SnapFusionには、各クロスアテンションとResNetブロックを一定の確率で実行する確率的フォワード伝播が適用される堅牢なトレーニングフェーズが含まれています。この堅牢なトレーニング拡張機能により、ネットワークがアーキテクチャの変化に対して耐性があることが保証され、各ブロックの正確な評価と安定したアーキテクチャの進化が可能になります。 効率的なイメージデコーダーは、チャネル削減によって得られたデコーダーを使用して合成データを使用して蒸留パイプラインを介して達成されます。この圧縮デコーダは、SD-v1.5のものよりもはるかに少ないパラメータを持ち、より速くなっています。蒸留プロセスには、テキストプロンプトを使用してSD-v1.5のUNetから潜在表現を取得することで、効率的なデコーダーから1つ、SD-v1.5から1つの画像を生成することが含まれます。 提案されたステップ蒸留アプローチには、バニラ蒸留損失目的が含まれており、これは、生徒のUNetの予測と教師のUNetのノイズのある潜在表現との不一致を最小化することを目的としています。さらに、CFG-aware蒸留損失目的が導入され、CLIPスコアを改善します。CFGガイドされた予測は、教師モデルと生徒モデルの両方で使用され、CFGスケールはトレーニング中にFIDスコアとCLIPスコアのトレードオフを提供するためにランダムにサンプリングされます。 SnapFusionによって生成されたサンプル画像。出典: https://arxiv.org/pdf/2306.00980.pdf 改善されたステップ蒸留とネットワークアーキテクチャの開発のおかげで、SnapFusionは、モバイルデバイス上のテキストプロンプトから512×512の画像を2秒未満で生成することができます。生成された画像は、最先端のStable Diffusionモデルと同様の品質を示しています。

ベイジアンマーケティングミックスモデルの理解:事前仕様に深く入り込む

ベイジアン・マーケティング・ミックス・モデリングは、特にLightweightMMM(Google)やPyMC Marketing(PyMC Labs)などのオープンソースツールの最近のリリースにより、ますます注目を集めています...

私の博士号入学への道 – 人工知能

大学の出願書類を取り組んで、日々をカウントダウンして過ごした6ヶ月間の後、2023年秋に人工知能の博士号を取得することになりました以下の内容をまとめてみました…

特徴量が多すぎる?主成分分析を見てみましょう

次元の呪いは、機械学習における主要な問題の1つです特徴量の数が増えると、モデルの複雑さも増しますさらに、十分なトレーニングデータがない場合、それは...

チャットGPTの潜在能力を引き出すためのプロンプトエンジニアリングのマスタリング

プロンプトエンジニアリングは、ChatGPTやその他の大規模言語モデルのおかげで、風のように私たちの生活の一部にすぐになりました完全に新しい分野ではありませんが、現在...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us