Learn more about Search Results A - Page 207

あなたの生産性を向上させるためのトップ10のAI自動化

私たちの高速なデジタルワールドでは、競争力を維持し、さまざまな分野で成功を収めるためには、生産性と仕事と生活の調和の取れたバランスが必要です。最新のAI自動化ツールやテクノロジーを取り入れることで、生産性を大幅に向上させ、仕事とプライベートの両方で優れた成果を上げることができます。このバランスを実現し、さまざまな生活の側面で生産性を向上させるためのトップ10のAI自動化ツールを探ってみましょう。 生産性を向上させるためのトップ10のAI自動化ツール 以下は、この現代において生産性とキャリアの成長を向上させるために役立つトップ10のAI自動化ツールです: Notion NotionはAIパワーのあるツールで、プロジェクトの共同作業に適したエクステンションです。共有ドキュメントを作成したり、タスクを監視したりするのが簡単で便利な最も人気のあるプラットフォームの一つです。さらに、このAIパワーのツールは既存のノートやドキュメント内でアイデア、コンテンツ、または反復を形成する際に労働者をサポートするのに役立ちます。 主な特徴 既存のドキュメントに対する編集や翻訳オプションを提供 大量のドキュメントの簡単な概要を作成できる 大きなテキストセグメントを要約し、キーワードを指摘する 前回の予定されたミーティングから自動的にタスクリストを思い出す テキスト生成ツールを使用して思考やアイデアのブレストを支援 魅力的なキーポイントを持つクオリティの高いオーセンティックなコピーライティングを支援 価格 無料版あり 有料: メンバー1人あたり月額10ドル さらに読む:AIの助けを借りて仕事の生産性を向上させたいですか?最新のAIツールについて学べるジェネレーティブAIコースをご覧ください。 Trello Trelloは人気のあるタスク管理ツールの一つです。このAIパワーのツールは、チームの各メンバーに割り当てられたタスクを定義、整理、追跡する能力を持っており、ワークフローがスムーズになります。このツールを使用することで、チームリーダーは進捗状況を個々のメンバーに個別に問い合わせる必要がありません。Trelloはタスクの整理、共同作業、進捗の効率的なモニタリングを行い、チームに現在のタスクを常に把握させます。 さらに、ソフトウェアアプリケーションを使用している場合でも、システムが遅くなることはありませんので、貴重なプロジェクトを効果的に管理し、チームの生産性を向上させることができます。 主な特徴 ウェブとソフトウェアアプリケーションで利用可能 AndroidとiPhoneの両方のユーザーに対応 使いやすいインターフェース…

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAIツールの利点と欠点について詳しく読んでください

富士通とLinux Foundationは、富士通の自動機械学習とAIの公平性技術を発表:透明性、倫理、アクセシビリティの先駆者

人工知能(AI)技術の急速な進展を特徴とする時代において、透明性、倫理性、アクセシビリティの問題が中心になっています。AIのソリューションは確かにこの分野を前進させていますが、公正性とアクセシビリティに関連する問題に対処する必要が依然としてあります。この緊急性を認識し、日本のAI技術の主要な開発者である富士通は、Linux Foundationとの協力のもと、オープンソースのAIに対する画期的な取り組みを開始しました。このイニシアチブはこれらの課題に対応し、より幅広い範囲の開発者や産業に利益をもたらすアクセス可能なソリューションを提供することを目指しています。 既存のAIソリューションは確かにこの分野で進歩を促進してきましたが、公正性とアクセシビリティに関連する問題にはしばしば短所があります。富士通はLinux Foundationとの最新の取り組みを通じて、これらのギャップを埋め、開発者や産業の両方に力を与える実用的なソリューションを提供することを目指しています。 このイニシアチブの基礎の一つは、SapientMLとして知られる自動機械学習プロジェクトです。この革新的なプロジェクトは、企業固有のデータに対して迅速に高効率な機械学習モデルとカスタムアルゴリズムを作成する能力を提供します。開発プロセスの迅速化と正確なモデルの微調整を容易にすることにより、SapientMLはAI分野の進歩を加速する重要な役割を果たしています。AIソリューションの市場投入までの時間を大幅に短縮し、企業が革新をより迅速かつ効果的に世界に提供することができます。 2番目のプロジェクトである交差的公正性は、AIシステム内のバイアスを軽減するというAI開発の重要な側面に取り組んでいます。この技術は、性別、年齢、人種などの属性の交差点で生じる微妙なバイアスを識別する能力に優れています。これらしばしば見過ごされるバイアスを克服することは、多様な人口に公正かつ倫理的なAIシステムを作る上で重要です。交差的公正性技術は社会的な価値と倫理基準に合致し、AIシステムが包括的で公平であることを保証します。 これらのソリューションの有効性は、それらの能力の具体的な証拠を提供するメトリクスによってさらに強調されています。SapientMLの最適化された機械学習モデルとカスタムコードを迅速に生成する能力は、AI開発に革新的な影響を与え、産業で競争力を持たせます。一方、交差的公正性技術は隠れたバイアスを特定するだけでなく、それらを積極的に排除することにも貢献し、技術的に先進的で倫理的に優れたAIシステムの創造を促進します。 まとめると、富士通のLinux FoundationとのオープンソースAIへの確固たる取り組みは、AI技術の発展における新たな時代を告げています。このイニシアチブは単に透明性と公正性の問題に対処するだけでなく、先端のAI技術へのアクセスを民主的に開放しています。AIが私たちの現代社会を形作る中で、共同のオープンソースの取り組みは、厳格な倫理基準に従いながら、AIが世界的なイノベーションのツールとなるという巨大な潜在能力を具体化しています。AIの未来は包括性、アクセシビリティ、公正性を全て含んでおり、富士通のイニシアチブはこの明るい未来への道を切り開いています。

ペンシルバニア大学の研究者が、軽量で柔軟、モデルに依存しないオープンソースのAIフレームワーク「Kani」を導入し、言語モデルアプリケーションの構築を行います

大規模言語モデルの応用は人気が高まっています。その驚異的な能力により、ますます洗練されてきています。ツールの使用追跡や検索の強化などの機能を組み込むことで、これらのモデルは人工知能コミュニティで注目を浴びています。このようなアプリケーションを構築するための既存のフレームワークは、開発者に対してプロンプトのフォーマットやカスタマイズの制限を指示することで、意見のあるアプローチを取っています。 これらの問題に対処するために、ペンシルベニア大学の研究チームは最近、Kaniという軽量で拡張可能なモデル非依存のオープンソースフレームワークを導入しました。Kaniはチャットインタラクションのコア要素をサポートすることで、開発者がさまざまな複雑な機能を追加できるように設計されています。モデルのインタラクション、チャットの管理、堅牢な関数呼び出しは、そのいくつかです。 Kaniのビルディングブロックを使用して言語モデルアプリケーションを作成することで、開発者は事前定義された構造や制限に制約されることなく、柔軟性とカスタマイズ性を備えたアプリケーションを作成できます。すべてのKaniの基本機能は簡単に変更できるように作成されており、チームは広範なドキュメントも提供しています。これにより、開発者はフレームワークの機能を変更して、独自の要求や要件に合わせることができます。 Kaniは学術研究者、アマチュア、ビジネスパーソンなど、さまざまな人々にとって有用なツールです。Kaniは、研究者が作業の再現性を向上させるために、細かい制御を可能にしながら、言語モデルアプリケーションの作成を支援します。GPT-4などの強力なモデルでも、ユーザーはわずかなコードでアプリの設計を迅速に開始するためにKaniを使用できます。Kaniの柔軟性と耐久性は、特にチャットの管理や関数の管理などの分野で、産業労働者にも有利です。 KaniはPython 3.10+を必要とし、言語モデルのインストールとクエリの簡素化を実現します。pipを介してインストールでき、OpenAIエンジンなどのコア依存関係とオプションの拡張機能を提供します。Kaniフレームワークの基本処理ユニットは「Kani」と呼ばれます。Kaniを使用してアプリケーションを構築する際に、ユーザーはさまざまなKaniオブジェクトと操作することになります。これらのオブジェクトには、推論エンジン、チャット履歴、関数コンテキストの3つの基本要素が含まれます。 推論エンジンを介して、Kaniオブジェクトは言語モデルと通信します。この対話により、アプリケーションのコードを変更することなく、開発者は異なるモデル間をスムーズに移行することができます。Kaniはトークンの総数とトピックの切り替えを追跡します。対話の文脈がモデルの範囲内にとどまり、過度にならないようにします。最後に、言語モデルはKaniを介して呼び出し可能な関数にアクセスできます。Kaniは関数呼び出しを検証し、適切なコードを実行し、結果を推論エンジンに送信します。 まとめると、Kaniは言語モデルアプリケーション開発者が直面する問題に対する解決策として提示されています。基本的なビルディングブロックを提供することで、カスタマイズ、柔軟性、信頼性を備えた信じられないほどのアプリケーションを作成する方法を開発者に提供することで、コントロールと相互運用性を維持します。

ファッションにおけるGenAI | Segmind Stable Diffusion XL 1.0アプローチ

イントロダクション ファッション業界も例外ではなく、消費者の変化する好みに合わせて革新の最前線に留まる方法を模索してきました。もしファッションに興味があり、ファッションフリークであるなら、安定した拡散器の能力を考慮するべきです。セグマインドAPIは、この可能性を容易にします。人工知能(AI)は、デザイナーが製品を作成し、マーケティングし、販売する方法を変えることで、ファッション界においてゲームチェンジャーとして現れました。このブログでは、ファッション業界におけるセグマインドステーブルディフュージョンXL 1.0アプローチとGenAIの意義について探求します。 学習目標 生成型人工知能(Generative Artificial Intelligence)の紹介 ステーブルディフュージョンのアイデア ファッショニスタ向けのGenAIのアプリケーションとユースケース ファッションにおけるステーブルディフュージョンの特徴と可能性 GenAI倫理の概観 この記事は、データサイエンスブログマラソンの一環として公開されました。 生成型AI 生成型人工知能は、過去に学んだ類似性を利用して、これまで存在しなかった新しいアイデアを生成するアプローチを利用するAIの分野です。たとえば、綿のキャラクターにトレーニングされた新しいカートゥーンの画像を生成するGenAIモデルが見られます。AIで行われるように新しい画像を単にカートゥーンかどうかで分類するのではなく、GenAIはトレーニングされた過去の画像を含まない新しいカートゥーン画像を生成することができます。これにより、さまざまな可能性が開かれます。この記事では、ファッショニスタがSegmindモデルを使用する可能性について考えます。 AIとファッションの交差点 先に述べたように、ファッションはクリエイティビティ、トレンド、消費者の好みによって常に進化しています。従来、デザイナーやファッションハウスは、新しいスタイルやコレクションを作成するために人間のクリエイティビティに頼ってきました。このプロセスは時間がかかり、イノベーションを制限することがあります。ここでGenAIが登場するのです。 ファッションにおける生成型AIは、強力なアルゴリズムと膨大なデータセットを活用して、ユニークで革新的なデザイン、パターン、スタイルを生成します。また、ファッションデザイナーやブランドは、クリエイティブなプロセスを効率化し、生産時間を短縮し、新しいクリエイティブなアイデアを探求することも可能にします。 SegmindステーブルディフュージョンXL 1.0の紹介 セグマインドには、さまざまなGenAIタスク用の多様なモデルがあり、そのまま使用できます。これらのモデルはウェブサイトで利用可能で、各オプションに簡単にアクセスできるように構成されています。ランディングページでは、「モデル」のナビゲーションバーからモデルのリストに移動することができます。これにより、特定のユースケースに適したモデルを簡単に見つけることができます。 SegmindステーブルディフュージョンXL 1.0モデルは、ファッショニスタ向けのアプローチを提供します。Segmindの素晴らしい点は、アプリにシームレスに統合できる無料および有料のAPIキーも提供していることです。これは、ファッションアプリ、ウェブサイト、またはプライベートファッションハウスなどになります。これらのいずれも必要ない場合は、プレイグラウンドにアクセスすることもできます。プレイグラウンドでは、プロンプトを入力し、ダウンロードのための画像を表示するために単一のボタンをクリックするだけで済みます。 このモデルにはさまざまなユースケースがありますが、この記事ではファッショニスタ向けの使用方法について探求します。 ステーブルディフュージョンXL…

「言語モデルは放射線科を革新することができるのか?Radiology-Llama2に会ってみてください:指示調整というプロセスを通じて特化した大規模な言語モデル」

トランスフォーマーをベースとした大規模言語モデル(LLM)は、ChatGPTやGPT-4などを含むトランスフォーマーに基づく自然言語処理の驚異的な能力を示しています。トランスフォーマーをベースとしたNLPモデルの作成は、コンピュータビジョンやその他のモダリティでのトランスフォーマーをベースとしたモデルの設計と使用の進歩をもたらしました。2022年11月以来、LLMは臨床研究、薬局、放射線学、アルツハイマー病、農業、脳科学研究などで広く利用されており、多様な特性と広範な評価に触発されています。しかし、医療などの専門分野ではまだ広く採用されていません。まず、プライバシー法のため、病院はChatGPTやGPT-4のような商用モデルとデータを交換またはアップロードすることができません。そのため、現実の医療にはローカライズされた大規模言語モデルが必要です。 広範なドメイン(ChatGPT、GPT-4、PaLM 2など)でトレーニングされたLLMでは、放射線学などの専門分野でより多くの医学的専門知識が必要です。また、Radiology-Llama2などのモデルは、放射線科医の話し方を正確に模倣していますが、ChatGPTのようなモデルは、ウィキペディアに似た詳細な回答を提供するため、実際の放射線科医が使用する明確でわかりやすい言語とは異なり、情報伝達を高速化させます。最後に、その研究は、各医師の好みに合ったカスタマイズされた放射線学的助手の道を開拓します。 放射線学において臨床的に有意義なドメインデータで適切にトレーニングされたモデルが必要です。Radiology-Llama2は、結果から放射線学的な印象を提供するために指示チューニングによって放射線学に調整されたLLMで、研究によると、生成された印象の一貫性、簡潔さ、臨床的な有用性において標準的なLLMを上回っています。 ・最先端のパフォーマンス:MIMIC-CXRデータセットとOpenIデータセットで、臨床的な印象を生成するための他の言語モデルをすべて上回り、新たな基準を設定します。 ・柔軟性とダイナミズム:BERTベースの競合他社とは異なり、放射線学的なLlama2は特定の入力構造に制約されず、より広範な入力と複雑な推論などさまざまな放射線学的なタスクに対して柔軟性を提供します。 ・会話能力を備えた臨床的な使いやすさ:生成型LLMには、クエリに応答し、人間らしい文脈情報を提供する会話能力が組み込まれています。これにより、診断と報告が改善され、Radiology-Llama2は臨床的な状況で医療従事者に非常に役立ちます。 図1はRadiology-Llama2の全体的な構造を示しています 適切に構築されたローカライズされたLLMは、Radiology-Llama2によって示されるように、放射線学を革新する可能性があります。 適切に規制されれば、臨床的な意思決定支援など、さまざまな用途において非常に有望です。この調査の結果は、追加の医療専門分野での専門化されたLLMの可能性を開くものです。結論として、Radiology-Llama2は医学におけるLLMの使用における重要な進歩です。モデルの構築と評価に関する継続的な研究により、このような専門化されたLLMは医療AIの進歩を促進することができます。

「Google ResearchがMediaPipe FaceStylizerを紹介:少数のショットでの効率的な顔スタイリゼーションのための設計」

近年、研究者や消費者は、拡張現実(AR)を組み合わせたスマートフォンアプリケーションに対する関心を高めています。これにより、ユーザーはリアルタイムで短いビデオ、VR、ゲームのために顔の特徴を生成し変更することができます。生成的対抗ネットワーク(GAN)アプローチに基づく顔の生成と編集モデルは、優れた品質を維持しながら軽量であるため、人気があります。しかし、ほとんどのGANモデルは、計算の複雑さに厳しい制限があり、膨大なトレーニングデータセットを必要とします。また、GANモデルの倫理的な使用も重要です。 Googleの研究者は、これらのモデルの複雑さとデータ効率性を考慮したfew-shot顔スタイリゼーションの効果的な解決策として、MediaPipe FaceStylizerを開発しました。このモデルでは、GANの逆変換が画像を顔生成器の潜在コーディングに変換します。彼らは、粗いから細かいまでの粒度で高品質の画像を生成するために、顔生成器用のモバイルフレンドリーな合成ネットワークを導入しました。このネットワークには、各生成器レベルで特徴をRGBに変換する補助ヘッドも備えています。さらに、彼らは教師StyleGANモデルから学生ジェネレータを蒸留し、前述の補助ヘッドの損失関数を注意深く設計し、共通のGAN損失関数と組み合わせることで、良好な生成品質を維持する軽量なモデルを作り出しました。MediaPipeは提案されたソリューションへのオープンソースアクセスを提供しています。MediaPipe Model Makerを使用すると、ユーザーはジェネレータを微調整して1つまたは数枚の写真からスタイルを学ぶことができます。MediaPipe FaceStylizerにより、結果のモデルをデバイス上の顔スタイリゼーションアプリケーションに展開することができます。 MediaPipe Faceスタイライザータスクのヘルプを受けて、画像やビデオの中の顔を強化またはゼロから作成することができます。この活動により、幅広い美的オプションを持つ仮想キャラクターが作成されることがあります。 このタスクには、顔生成器と顔エンコーダを含むBlazeFaceStylizerモデルが使用されます。StyleGANモデルファミリーの軽量な実装であるBlazeStyleGANは、与えられた美的に合わせた顔を生成および洗練します。顔エンコーダは、入力写真を顔生成器によって生成された顔と関連付けます。 このプロジェクトの目的は、MediaPipe FaceStylizerモデルを様々なスタイルに合わせて微調整するのに役立つパイプラインを提供することです。研究者は、GANの逆変換エンコーダと効果的な顔生成器モデルを使用して、顔スタイリゼーションパイプラインを構築しました(詳細は以下参照)。エンコーダとジェネレータのパイプラインは、さまざまなスタイルの少数の例でトレーニングすることができます。まず、ユーザーは目的の美意識の代表的なサンプルを1つまたは複数送信します。微調整手順では、エンコーダモジュールは凍結され、ジェネレータのみが調整されます。入力スタイル画像のエンコーディング出力周辺のいくつかの潜在コードをサンプリングしてジェネレータをトレーニングします。その後、共通の美意識のある画像と同じ美意識で顔画像を再構築するために、ジョイント対立損失関数を最適化します。この微調整プロセスにより、MediaPipe FaceStylizerはユーザーの入力に柔軟に対応することができます。この方法では、実際の人間の顔のテスト写真にスタイリゼーションを適用することができます。 Googleの研究チームは、BlazeStyleGANを教師モデルとして広く使用されているStyleGAN2を使って知識蒸留を行いました。さらに、学習プロセスにマルチスケールパーセプチュアル損失を導入することで、モデルがより良い画像を生成するようにトレーニングしました。BlazeStyleGANはMobileStyleGANよりもパラメータが少なく、モデルが簡素化されています。彼らはBlazeStyleGANをいくつかのモバイルデバイスでベンチマークテストし、モバイルGPUでリアルタイム速度で実行できることを示しました。BlazeStyleGANの出力は、教師モデルと非常に近い視覚的品質を持っています。彼らはまた、BlazeStyleGANが教師モデルによって生成されるアーティファクトを減らすことで、一部の状況で視覚的品質を向上させることができると述べています。BlazeStyleGANのFrechet Inception Distance(FID)の結果は、教師のStyleGANの結果と比較可能です。以下に貢献の概要を示します: 研究者は、各生成器レベルで追加のUpToRGBヘッドを追加し、推論中のみ使用することで、モバイルフレンドリーなアーキテクチャを作成しました。 補助ヘッドを使用してマルチスケールのパーセプチュアル損失を計算し、実際の画像に対する対立損失を計算することで、蒸留技術を向上させ、画像生成を改善し、教師モデルのアーティファクトの影響を軽減しました。 BlazeStyleGANは、さまざまな人気のあるスマートフォン上でリアルタイムで高品質の画像を生成することができます。 Googleの研究チームは、ほとんどのプレミアムスマートフォンでリアルタイムに高品質な顔写真を生成できる世界初のStyleGANモデル(BlazeStyleGAN)を開発しました。効率的なオンデバイス生成モデルにはまだ多くの探索の余地があります。教師モデルのアーティファクトの影響を軽減するために、StyleGAN合成ネットワークの洗練されたアーキテクチャと蒸留技術の微調整を行いました。BlazeStyleGANは、モデルの複雑さが大幅に削減されたため、モバイルデバイスでリアルタイムのパフォーマンスを実現することができます。

ウェイブは、LINGO-1という新しいAIモデルを開発しましたこのモデルは、運転シーンにコメントをすることができ、質問に対しても回答することができます

検出と診断は、車両の運用効率、安全性、安定性を改善するために不可欠です。近年、利用可能な車両データを使用して車両診断プロセスを改善するためのデータ駆動型の手法について、さまざまな研究が行われており、さまざまなデータ駆動型の手法が顧客サービスエージェントのインタラクションを向上させるために使用されています。 自然言語は、自律走行システムにおいて人間との車両間相互作用や歩行者や他の道路利用者との車両間コミュニケーションにおいて重要な役割を果たします。安全性、ユーザーエクスペリエンス、人間と自律システムの効果的な相互作用を確保するために必要です。設計は明確で、文脈を理解しやすく、ユーザーフレンドリーである必要があります。 自動運転技術企業「Wayve」は機械学習を使用して自動運転の課題を解決し、高度な詳細な地図やプログラムされたルールを必要とする高価かつ複雑なロボットスタックの必要性を排除しています。彼らはオープンループドライブコメンテータ「LINGO – 1」を立ち上げました。この技術は、明示的なプログラミングなしでどんな環境や新しい場所でも経験から学習して運転することができます。 LINGO-1は、使用者が選択肢を問いただし、シーンの理解と意思決定に対する洞察を得ることで、有意義な対話に参加することができます。さまざまな運転シーンに関する質問に答えたり、運転の意思決定に影響を与えた要因を明確にしたりすることができます。乗客と自動車の間のこのユニークな対話は透明性を高め、人々がこれらのシステムを理解し信頼するのを容易にすることができます。 LINGO-1は、カメラやレーダーからのデータ入力をハンドル操作や減速などの運転出力に変換することができます。ニューラルネットワークの意思決定は、パフォーマンスに対して徹底的にテストされ、堅牢に統合されて使用者の安全性を確保します。LINGO-1は、イギリス中を走行しながらエキスパートドライバーのコメントを収集した画像、言語、アクションデータを組み込んだスケーラブルで多様なデータセットで訓練されています。 LINGO-1は、信号待ちでの減速、車線変更、交差点での他の車両の接近による停止、他の道路利用者の選択した行動の分析など、さまざまな活動を行うことができます。人間レベルのパフォーマンスと比較して、LINGO-1は60%の正確さです。その結果は、認識や質問応答の能力、運転スキルなどを測定したベンチマークに基づいています。 LINGO-1には、モデルの能力を向上させるフィードバックメカニズムもあります。運転教官が学生ドライバーを指導するように、修正指示やユーザーフィードバックは、モデルの理解力や意思決定プロセスを時間とともに磨くことができます。最後に、自然言語を使用して基礎となる運転モデルの学習と説明可能性を向上させるための重要な第一歩となります。

「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階のサンプリング手順は、望ましい結果を得るために多くの推論ステップを要求することが多く、その鈍さで認識されています。本論文では、著者らはオープンソースのStable Diffusion(SD)モデルから派生した革新的なワンステップ生成モデルを紹介しています。 彼らは、SDを蒸留しようとする単純な試みが、重大な問題であるノイズと画像の非最適な結合によって完全に失敗したことを発見しました。この課題を克服するために、研究者たちは確率的フローを組み込んだ生成モデルの最近の進展であるRectified Flowに頼りました。Rectified Flowは、確率フローの軌跡を徐々に直線化するというユニークな手法である「リフロー」を組み込んでいます。 これにより、ノイズ分布と画像分布間の輸送コストが低減されます。この結合の改善により、蒸留プロセスが大幅に容易になり、初期の問題が解決されます。上記の画像はInstaflowの動作を示しています。 MS COCO 2017-5kデータセットにおけるFID(フレシェ・インセプション・ディスタンス)スコア23.3により、ワンステップ拡散ベースのテキストから画像への生成モデルの利用が証明されました。これは、従来のプログレッシブ蒸留と呼ばれる最新の技術(37.2 → 23.3のFID)と比べて、大幅な改善を示しています。さらに、17億のパラメータを備えた拡張ネットワークを使用することで、FIDをさらに向上させ、22.4のスコアを達成しました。このワンステップモデルは「InstaFlow」と呼ばれています。 MS COCO 2014-30kデータセットでは、InstaFlowは0.09秒でFID 13.1という優れたパフォーマンスを示し、≤ 0.1秒のカテゴリで最も優れたパフォーマーとなっています。これは、最近のStyleGAN-Tモデル(0.1秒でFID 13.9)を上回ります。特筆すべきは、InstaFlowのトレーニングにはわずか199 A100 GPU日という比較的低い計算コストがかかります。 これらの結果に基づき、研究者たちは以下の貢献を提案しています: ワンステップSDの改善: 2-Rectified Flowモデルのトレーニングは完全に収束せず、75.2 A100…

「韓国のAI研究がマギキャプチャを紹介:主題とスタイルの概念を統合して高解像度のポートレート画像を生成するための個人化手法」

人々はよく、履歴書や結婚式などに適した高品質の肖像写真を作成するために、写真スタジオに通ったり、高価で時間のかかる画像編集手続きに従ったりする必要があります。ただ数枚の自撮り写真や参考写真を使用して、パスポートやプロフィール写真などの特定のスタイルで高品質の肖像写真を手に入れることができる状況を想像してみてください。この論文では、この手続きを自動化します。大規模なテキストから画像へのモデル(Stable DiffusionやImagenなど)の最近の進歩により、高品質でリアルな肖像写真が実現可能になりました。これらのモデルをカスタマイズする現在の研究では、利用可能なトレーニング写真を使用して特定の主題や美学を組み合わせることを目指しています。 この論文では、マルチコンセプトのカスタマイズチャレンジを目指しています。ソース素材と参考スタイルがそれぞれ学習された後、合成された出力が生成されます。テキストによる編集ではなく参考写真を使用することで、細かいアドバイスを提供することができ、この目的により適しています。しかし、以前のパーソナライズ技術の期待される結果にもかかわらず、リアリティを欠いた視覚的なものや商業的に実用的ではないものがしばしば現れます。これは、わずか数枚の写真で大規模なモデルのパラメータを更新しようとする際に一般的に起こります。組み合わせた概念のためのグラウンドトゥルース写真が不足しているマルチコンセプト生成では、異なる概念の人工的な混合や元の概念からの転換がより明白になるため、品質の低下はさらに顕著です。 人間のバイアスによる固有の問題により、肖像写真の制作において人工的なアーティファクトやアイデンティティの変化が明らかになります。この問題が最も顕著なのは、マジカプチャ(KAIST AIとSogang大学の研究者によるマルチコンセプトのカスタマイズアプローチ)がこれらの問題の解決策として提案されています。彼らのアプローチでは、合成プロンプト学習が使用され、合成プロンプトがトレーニングプロセスの一部として含まれ、ソース素材と参考スタイルの密な統合を強化しています。このために、補助損失と偽のラベルが使用されます。彼らはまた、Attention Refocusing損失を提案し、マスク付きの再構築目標と組み合わせることを提案しています。これは、情報の分離と推論中の情報の漏洩を避けるために重要な戦術です。マジカプチャは、定量的および定性的評価において他のベースラインよりも優れたパフォーマンスを発揮し、わずかな調整で他の非人間のオブジェクトにも適用できます。 以下は、彼らの論文の主な貢献です: • ソースと参考写真の特徴を正確に再現する高解像度の肖像写真を生成することができるマルチコンセプトのパーソナライズ技術を提供します。 • 入力画像から必要な情報を分離し、生成中に情報の漏洩を防ぐためのマスク付き再構築目標を持つ、新しいAttention Refocusing損失を提供します。 • ソース素材と参考スタイルを効果的に統合するために、補助損失と擬似ラベルを使用する構成プロンプト学習戦略を提供します。彼らの方法は、定量的および定性的評価において既存のベースライン手法を上回り、わずかな修正で非人間の物体の写真を作成するためにも適用できます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us