Learn more about Search Results A - Page 148

Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行

機械学習の最大の課題の1つは、ニューラルネットワークを効率的にトレーニング及び使用することです。トランスフォーマーモデルアーキテクチャの導入により、勾配降下の並列化と分散戦略への新たな機会が生まれ、より大きく、複雑なモデルを広範にトレーニングすることが可能になりました。しかしこれらのモデルのサイズの指数関数的な増加により、メモリ制約やGPUの利用可能性などの問題が浮上しています。特に問題となるのは、多くのモデルが単一のGPU上に存在するRAMよりも大きいということです。事前トレーニングされた言語とビジョンモデルの間のサイズの差は、別の課題を提示しています。コンパイルのアイデアは、計算効率とモデルサイズのバランスを取る可能性がある有効な対処法です。 最近の研究では、研究チームが特にニューラルネットワークトレーニングに向けたディープラーニングコンパイラを紹介しました。マルチスレッド実行、コンパイラのキャッシュ、そして同期フリーの最適化器という3つの重要な要素を持つ彼らの研究は、通常のアプローチ(ネイティブ実装やPyTorchのXLAフレームワーク)と比較して、一般的な言語とビジョンの問題の両方に対して非常に効果的な高速化を示しました。 このディープラーニングコンパイラは、同期フリーの最適化器の実装で開発されています。最適化器は、損失関数を最小化するためにモデルパラメータを修正する役割を果たします。同期バリアは、従来の最適化器の一般的な特徴であり、分散トレーニングにおいてボトルネックとなる場合があります。一方、同期フリーの最適化器は同期の要求を軽減または廃止することを目指しており、より効果的な並列処理と計算リソースの効率的な利用が可能です。この機能は、同期によってトレーニングの速度とリソース効率が低下する場合に特に有効です。 このディープラーニングコンパイラのもう一つの重要な特徴は、コンパイラのキャッシュです。一部のニューラルネットワークや計算グラフの事前コンパイル済み表現は、キャッシングのプロセスを通じて保存され、再利用されます。モデルをトレーニングするたびにネットワーク全体をゼロから再構築することは非効率です。以前に構築されたコンポーネントを保存および再利用することで、コンパイラのキャッシュはこの非効率性を軽減し、トレーニング時間を大幅に短縮することができます。この機能により、以前のコンパイル試行の利点を利用して、計算リソースを効率的に保存します。 3つ目の重要な要素は、マルチスレッド実行です。ニューラルネットワークトレーニングでは、多数の並列化可能なアクティビティが必要な場合があります。これらの操作は、マルチスレッドを使用してマルチコアプロセッサ上で同時に実行することができ、大幅な高速化が実現できます。ディープラーニングモデルのトレーニングをマルチスレッド実行に最適化することで、コンパイラはハードウェアをより効果的に活用し、ディープラーニングモデルのトレーニング速度を向上させることができます。 このディープラーニングコンパイラを、ネイティブ実装とPyTorchディープラーニングフレームワーク内のXLAフレームワークという2つの確立されたベースラインと比較することで、研究チームはこれらのコンパイラ特性の実用的な重要性を示しました。これらのパラレルを使用して、コンピュータビジョンと自然言語処理の一般的な問題を解決しました。これらのベースラインメソッドと比較して、結果はこのコンパイラが大幅な高速化とリソース効率を実現できることを示し、ディープラーニングコンパイラの重要性と有望性を強調しています。これは実世界のアプリケーションにおけるニューラルネットワークトレーニングの効果と実用性の改善に向けた重要な進歩です。 まとめると、この研究はディープラーニングの分野において大きな前進です。この研究の試験と結果は、PyTorch XLAコンパイラへの変更の効果を示しています。これらの変更は、様々なドメインや設定でのニューラルネットワークモデルのトレーニングを高速化するのに非常に役立つものです。

「AutoGen:次世代の大規模言語モデルアプリケーションの動力源」

「大型言語モデル(LLM)は現在、主流のAI分野で最も話題とされています世界中の開発者たちは、LLMの潜在的な応用可能性を探求していますこれらのモデルは、ディープラーニングの技術と膨大な量のトレーニングデータを利用して、テキスト、音声、画像など、さまざまなコンテンツを理解、要約、予測、生成するAIアルゴリズムです」

『責任ある生成AIの基準の確立』

AIの急速な発展に伴い、責任あるAIは意思決定者やデータサイエンティストにとって注目のトピックとなっていますしかし、手軽に利用できる生成AIの登場により、ますます重要性が増しています技術の進歩に伴い、責任あるAIがなぜ重要なのかにはいくつかの理由があります...

『自分のデータでChatGPTを訓練する方法:ソフトウェア開発者向けガイド』

「MEMWALKERとの対話型リーディングにより、AIモデルの強化が行われ、より豊かで文脈を理解した対話が可能となり、現代のAIの可能性を広げています」

「ジェネレーティブAIがビジネス、健康医療、芸術を再構築する方法」

紹介 生成的な人工知能、一般にはGenAIと呼ばれるものは、AI革命の最前線に位置し、ロボットの無限の創造力と問題解決能力を可能にしています。GenAIは、最先端の技術と人間の創造力を融合させたものであり、人工知能が可能な限りの領域を追求する世界において、単なる予測を超えた内容やデータ、解決策を人間の情報に近い形で生成するために機械を使用することによって分類されます。この記事では、芸術、医学、ビジネス、交通、ゲームなどの世界を探求しながら、GenAIの重要な影響について、基本的なアイデアから実際の応用や複雑な実装までを探ります。この詳細な研究では、生成的なAIが私たちの周りのすべてを再構築している様子を検証します。GenAIの能力を深く理解し、実際の応用例に触発されることでしょう。 学習目標 この記事を読むことで、あなたは生成的なAIの基礎を理解することができます。 実践的な効果をもたらすために生成的なAIをどのように使用するかを知ることができます。 これらのユースケースがいかに生成的なAIを活用しているかについてさらに学ぶことができます。 将来的に生成的なAI技術の可能性についてさらに学ぶことができます。 この記事はデータサイエンスブロガソンの一環として公開されました。 生成的なAIの理解 「生成的なAI」として知られる一連の人工知能モデルとアルゴリズムは、人間が生み出したデータや素材、その他のアウトプットに驚くほど似た結果を生み出すことができます。テキスト、音楽、グラフィックス、さらにはソフトウェアのコードや学術研究論文など、さまざまな出力が含まれます。 生成的なAIとは何ですか? 「新しいコンテンツ、データ、または解決策を作り出す人工知能」とも呼ばれる生成的なAIは、人工知能の最先端のサブフィールドです。通常のAIモデルが主に分析と予測に焦点を当てるのに対し、生成的なAIはディープラーニングのアルゴリズムの力を活用して、人間のデータに密接に似た結果を生み出すことができます。 これらの最先端のモデル、例えば変分オートエンコーダ(VAE)や生成的対抗ネットワーク(GAN)などは、複雑なデータ分布を理解し、独自の文脈に関連する情報を提供する能力を持っており、広範な応用領域で貴重な存在となっています。 生成的なAIのユースケース さて、さまざまなユースケースと生成的なAIが私たちの周りのすべてを再構築する方法について深く掘り下げましょう。 芸術と創造性 機械が音楽やアートを創造する能力により、生成的なAIは創造的な革命を引き起こしました。ミュージシャンやアーティストは、これらのモデルを使用して新しい表現方法を実験しています。たとえば、AIVA(Artificial Intelligence Virtual Artist)音楽作曲システムでは、ディープラーニングが使用され、人間のミュージシャンに匹敵する古典音楽の作品を創造しています。 自然言語処理(NLP) 生成的なAIモデルは、自然言語処理におけるチャットボットやテキスト生成の改善に道を開きました。OpenAIが開発したGPT-3(Generative Pre-trained Transformer…

「3年以内に労働力の40%がAIの影響を受ける予測」

「ジェネラティブAIブームによる次の3年間に何を期待すべきか?」

このAI研究は、FlashAttentionに基づいた新しい人工知能アプローチであるフラッシュデコーディングを紹介しますこれにより、長いコンテキストのLLM推論を最大8倍速く行うことができます

ChatGPTやLlamaなどの大規模言語モデル(LLM)は、優れた自然言語処理能力により、テキスト生成からコード補完までさまざまなアプリケーションで注目を集めています。これらのモデルの運用コストが高いため、効率とスケーラビリティを向上させるための革新的な解決策を求める研究者も登場しました。 一つの応答を生成するのにかかる平均コストが0.01ドルであるため、膨大なユーザー(それぞれが複数回の日常的なインタラクションを持つ)にこれらのモデルをスケーリングする費用は急速に蓄積される可能性があります。特にコードの自動補完のような複雑なタスクでは、モデルはコーディングプロセス中に引き続き関与しているため、これらのコストは指数関数的に増加する可能性があります。デコードプロセスの最適化の必要性を認識し、研究者は一貫した文脈に基づいたその他のテキストを生成するための注意操作を統合し、スピードと効率性を改善するための技術を探求してきました。 LLMの推論、通常はデコードと呼ばれる操作は、一度に一つのトークンを生成することを含んでおり、注意操作は全体の生成時間を決定する重要な要素です。FlashAttention v2やFasterTransformerのような進歩により、トレーニングプロセスがメモリ帯域幅と計算リソースを最適化することができ、推論フェーズ中の課題も解消されています。デコーディング中の最も大きな制約のうちの1つは、より長い文脈での注意操作のスケーラビリティです。LLMはますます広範なドキュメント、会話、コードベースの処理に従事するため、注意操作は推論時間のかなりの部分を消費する可能性があります。このため、モデル全体の効率に影響を及ぼします。 研究者は、これらの課題に取り組むために、Flash-Decodingと呼ばれる画期的なテクニックを導入しました。このテクニックは、以前の手法の基盤を活用しながら、並列化に焦点を当てています。キーと値のシーケンス長に基づいた戦略的なパーティションにより、小さなバッチサイズと拡張されたコンテキストでもGPUの効率的な利用が可能となります。Flash-Decodingは、並列化された注意操作および対数和の指数関数を活用し、モデル全体のアーキテクチャにわたる効率的で効果的な計算を実現することで、GPUメモリの要件を大幅に削減します。 Flash-Decodingの効果を評価するために、堅牢なアーキテクチャと高度な機能を持つ最新のCodeLLaMa-34bモデルで総合ベンチマークテストが行われました。その結果、既存の手法と比較して、より長いシーケンスに対してデコーディング速度が8倍向上したことが示されました。また、さまざまなシーケンス長とバッチサイズに対してスケーリングされたマルチヘッドアテンションのマイクロベンチマークは、Flash-Decodingの効果をさらに裏付け、シーケンス長が64kまでスケールアップされても一貫した性能を示しました。この卓越したパフォーマンスは、LLMの効率性とスケーラビリティを大幅に向上させる役割を果たし、大規模言語モデル推論技術の飛躍的な進歩を示しています。 まとめると、Flash-Decodingは、大規模言語モデルのデコードプロセスにおける注意操作に関連する課題に対処するための革新的な解決策として登場しました。GPUの利用率を最適化し、モデル全体のパフォーマンスを向上させることで、Flash-Decodingは運用コストを大幅に削減し、さまざまなアプリケーションにおけるこれらのモデルの利用可能性を促進する可能性を秘めています。この先駆的な技術は、大規模言語モデル推論における重要なマイルストーンとなり、自然言語処理技術の効率性と加速度を飛躍的に向上させる道を開いています。

このAI研究は、ロボット学習および具現化人工知能の研究のための包括的なソフトウェアプラットフォームとエコシステムであるRoboHiveを提案しています

近年、人工知能(AI)の進歩は、言語モデリング、タンパク質折りたたみ、およびゲームプレイなどで特に顕著なものがありました。ロボット学習の発展は控えめでした。AIエージェントにとってセンサーモーターの行動は高度な認知活動よりも inherently(本質的に)困難である、と主張するモラベックの逆説の一部がこの進展の鈍さの原因とされるかもしれません。さらに、ロボット学習のためのソフトウェアフレームワークの複雑さと共通の基準の欠如という重要な問題に焦点を当てなければなりません。その結果、敷居が上がり、迅速なプロトタイプ作成が制限され、アイデアの流れが制約されます。ロボット工学の学問領域は、コンピュータビジョンや自然言語処理のような他の領域に比べて、ベンチマークやデータセットが標準化されているため、より分断されています。 ワシントン大学、UCバークレー、CMU、UTオースティン、Open AI、Google AI、およびMeta-AIの研究者たちは、このギャップを埋めるために、ロボHiveという統合環境を提供しています。 RoboHiveは、ベンチマークおよび研究ツールの両方として機能するプラットフォームです。強化学習、模倣学習、転移学習などのさまざまな学習パラダイムを可能にするために、幅広いコンテキスト、具体的なタスクの説明、厳格な評価基準を提供しています。これにより、研究者は効率的な調査とプロトタイピングを行うことができます。また、RoboHiveはハードウェアの統合と遠隔操作の機能も提供し、現実世界と仮想ロボットの間でスムーズな移行が可能です。彼らは、RoboHiveを使用して、現在のロボット学習の状況と開発の潜在力とのギャップを埋めたいと考えています。 RoboHiveというロボット学習のための統一フレームワークの作成とオープンソース化が彼らの業績の主要な貢献です。 RoboHiveの特徴は以下の通りです: 1. 環境動物園:RoboHiveは、さまざまな学術分野をカバーするさまざまな設定を提供しています。これらの設定は、器用な手の操作、二足歩行ロボットや四足歩行ロボットを使用した移動、および筋骨格の腕・手モデルを使用した操作など、操作タスクに使用することができます。彼らは、物理的な現実主義に重点を置いた物理学シミュレーションを提供するMuJoCoを使用して、仮想世界を動かしています。 2. RoboHiveは、simhooksとハードウェアフックを介して仮想および実際のロボットとスムーズに連携する統一的なRobotClass抽象を提供します。この特別な機能により、一つのフラグを変更するだけで、研究者は簡単にロボットのハードウェアとやり取りし、シミュレーションから現実世界への発見の移行を行うことができます。 3. 遠隔操作とエキスパートデータセット:RoboHiveは、キーボード、3Dスペースマウス、およびバーチャルリアリティコントローラーなど、さまざまなモダリティを介した遠隔操作の機能を提供しています。彼らは、ヒトの遠隔操作によって蓄積された最大の実世界操作データセットの一つであるRoboSetを共有しており、料理の種々のタスクにわたる12の能力をカバーしています。模倣学習、オフライン学習、および関連学科で働く研究者にとって、これらの遠隔操作の機能とデータセットは特に役立ちます。 4. ビジュアルの多様性と物理的な忠実度:RoboHiveは、物理的な現実主義と広範なビジュアルの多様性を重視し、以前のベンチマークを超えて、現実世界のロボットの次の研究フロンティアを明らかにします。複雑なアセット、豊富なテクスチャ、および高度なシーン配置を含めることで、彼らはビジュオモーター制御の研究を日常生活のビジュアルの難しさと結びつけています。さらに、RoboHiveは、さまざまな状況でのシーンのレイアウトやビジュアルドメインのランダム化をネイティブにサポートし、視覚認識の適応性を高め、現実的で豊かな物理的な素材を提供します。 5. メトリクスとベースライン:RoboHiveは、さまざまな状況でアルゴリズムのパフォーマンスを評価するために、短く明確なメトリクスを使用しています。このフレームワークは、学習アルゴリズムとのシームレスな統合に向けたユーザーフレンドリーなgymのようなAPIを提供し、多くの学術研究者や実践家にアクセス可能にします。さらに、RoboHiveはTorchRLとmjRLと提携して、研究コミュニティ内で頻繁に研究されているアルゴリズムの詳細なベースライン結果を提供し、パフォーマンスの比較と研究のためのベンチマークを提供します。

「セグミンドの生成AIによるエンパワーリングなロゴデザイン」

イントロダクション ブランドの世界では、ロゴがブランドの本質を象徴しています。従来、ロゴの作成にはデザイナーの才能と修正が必要でしたが、セグマインドが登場し、生成的な人工知能(AI)によってロゴデザインを変革しました。セグマインドのAI駆動アプローチはデザインプロセスを簡素化し、創造性を引き出し、制限のないロゴの創造を可能にします。変革の概念である「生成的AI」はデザインデータを学習し、効率的にロゴを自律的に作成することで、人間の創造性を補完し、費用効果の高いソリューションを提供します。本記事では、技術的な優位性から実世界の応用まで、セグマインドの生成的AIがロゴデザインに与える影響について詳しく解説します。技術とデザインの融合がロゴ作成を革新する方法を発見してください。 出典:Adweek 学習目標 ロゴデザインがブランディングにおいて重要である理由やデザインとマーケティングにおいてなぜ重要なのかについて理解する。 主に生成的AIのような人工知能の変革的な役割をロゴデザインにおいて発見し、創造プロセスをどのように向上させるかについて知る。 セグマインドの革新的なプラットフォームについて学び、AIを人間の創造性と組み合わせてロゴデザインを再定義する方法について理解する。 セグマインドの生成的AIの技術的側面に深く入り、ディープラーニングと大規模なデザインデータセットを活用する方法を理解する。 ビジネス、スタートアップ、個人ブランディング、教育などの分野でのAI生成ロゴの実際的な用途を探索し、異なる産業にどのような利益をもたらすかを知る。 ロゴデザインにおける最新トレンド、ミニマリズム、ロゴを通じたストーリーテリング、AIがロゴ作成の未来を形作る役割などについての洞察を得る。 本記事はデータサイエンスブログマラソンの一環として公開されました。 強力なセグマインドの生成的AI 人工知能とデザインの素晴らしい世界において、セグマインドは真のパワーハウスとして進化し、ロゴデザインのための革新的なソリューションを先駆的に提供しています。セグマインドの生成的人工知能は革新、精度、芸術的な才能の証です。セグマインドのロゴデザインへの取り組みは、堅牢で緻密に作り込まれたプラットフォームから始まります。最先端の生成的AIモデルに基づくこのプラットフォームは、ロゴデザインの限界を再定義する創造の触媒です。AIの技術的な優位性をデザイナーの芸術的感性とシームレスに統合し、視覚的に優れただけでなくブランドのアイデンティティと深く共鳴するロゴを生み出します。 セグマインドのAIアルゴリズムの技術的な驚異 セグマインドが他と異なる点は、技術の卓越性に対する献身です。生成的AIのアルゴリズムの基盤となるのは、デザイン原則、美学、ブランドアイデンティティに関する広範なデータに基づいて訓練されたニューラルネットワークです。これらのアルゴリズムはロゴデザインの複雑さを解剖し、カラーパレット、タイポグラフィ、視覚的なモチーフを解読することができます。 セグマインドのAIモデルの核心は、学習と適応の能力にあり、継続的にその創造的な結果を改善します。ディープラーニングを活用してパターンを見つけ出し、生成されるロゴが各ブランドのユニークな本質とシームレスに調和することを保証します。さらに、セグマインドのAIは豊富なデザインの歴史に基づいて訓練され、多様な視覚要素や芸術的スタイルからインスピレーションを得ます。この知識の深さにより、プラットフォームは普通ではないロゴを創り上げ、クライアントに幅広い創造的可能性を提供します。 セグマインドの生成的AIは芸術的な共同創作者であり、デザインのマスターです。創造プロセスを補完し、ロゴデザインを新たな高みに押し上げますが、ブランドの本質と個性を守ります。セグマインドの生成的AIを用いたロゴデザインは、もはや手作業に限定されないものです。これは人間の直感と人工知能が調和する場であり、創造性には制約がありません。このパワーハウスはロゴデザインを革新し、創造的美学の中で見逃せない存在です。 出典:Segmind ロゴデザインにジェネレーティブAIを使用する利点 効率性:ジェネレーティブ人工知能は、従来の複数の修正や長いデザインサイクルを必要とするロゴデザインプロセスを大幅に加速させます。 AIは迅速にロゴのコンセプトを生成でき、時間とリソースの両方を節約します。 費用対効果:特にスタートアップや中小企業の場合、AIはプロのデザイナーやデザインエージェンシーを雇う手頃な代替手段を提供します。高品質のロゴを手に入れるための予算にやさしい方法です。 インスピレーションとアイデア:人工知能はデザイナーやビジネスオーナーのインスピレーションの源です。新鮮なアイデアやデザイン要素を生成し、創造性を引き出し、革新的なロゴのコンセプトを探求するのに役立ちます。 カスタマイズ:ジェネレーティブAIにより、ロゴのカスタマイズが可能になります。ユーザーは色の好み、タイポグラフィ、スタイルを提供し、ロゴを特定のニーズに合わせることができます。…

マイクロソフト エージェントAIがIdea2Imgを導入:自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデアには、”イメージと同じように見える犬”などの参照イメージや、”Idea2Imgシステムのためのロゴ”など、デザインの意図された応用をさらに定義する指示が含まれる場合があります。人間はテキストから画像へ(T2I)のモデルを利用して、想像された画像(アイデア)の詳細な説明に基づいて画像を作成することができます。ユーザーは、問題(T2Iプロンプト)を最もよく説明するものを見つけるまで、いくつかのオプションを手動で探索する必要があります。 大規模なマルチモーダルモデル(LMM)の印象的な能力を考慮すると、研究者はLMMに基づいたシステムをトレーニングして、概念を視覚的なものに変換する手間を省く能力を獲得できるかどうかを調査します。未知の領域に進出したり、困難なタスクに取り組んだりする際、人間は継続的に手法を改善する傾向があります。頭字語生成、感情の抽出、テキストベースの環境探索などの自然言語処理のタスクは、大規模言語モデル(LLM)エージェントシステムによる自己改善のサポートでより効果的に対処することができます。テキストのみの活動からマルチモーダルな設定に移ると、多くの交互に配置された画像とテキストのシーケンスなど、マルチモーダルコンテンツの向上、評価、検証に関する課題が生じます。 自己探索により、LMMフレームワークはグラフィカルユーザーインターフェース(GUI)を使用してデジタルデバイスと対話したり、具象エージェントを使用して未知の領域を探索したり、デジタルゲームをプレイしたりするための広範な現実世界の課題に対応することを自動的に学習します。Microsoft Azureの研究者は、「画像の設計と生成」を調査するために、反復自己改善能力を持つマルチモーダル能力を研究します。この目的のために、彼らは画像の開発と設計のための自己円滑化マルチモーダルフレームワークであるIdea2Imgを提案します。LMMであるGPT-4V(ビジョン)は、Idea2ImgのT2Iモデルとインタラクトし、モデルのアプリケーションを調査し、有用なT2Iの手がかりを特定します。T2Iモデルのリターンシグナル(つまり、草案画像)の分析や、次のラウンドの問い合わせ(つまり、テキストのT2Iプロンプトの作成)は、LMMによって処理されます。 T2Iプロンプトの生成、ドラフト画像の選択、フィードバックの反映は、マルチモーダルな反復自己改善能力に貢献します。具体的には、GPT-4Vは以下の手順を実行します: 1. プロンプトの生成:GPT-4Vは、前のテキストのフィードバックと改善履歴に基づいて、入力のマルチモーダルユーザーアイデアに対応するN個のテキストプロンプトを生成します。 2. ドラフト画像の選択:GPT-4Vは、同じアイデアに対するN個のドラフト画像を注意深く比較し、最も有望なものを選択します。 3. フィードバックの反映:GPT-4Vは、草案画像とアイデアの間の不一致を分析します。その後、GPT-4Vは、何がうまくいかなかったのか、なぜそれがうまくいかなかったのか、およびT2Iプロンプトを改善する方法についてのフィードバックを提供します。 さらに、Idea2Imgには、各プロンプトの種類(画像、テキスト、フィードバック)ごとの探索履歴を記録する組み込みのメモリモジュールがあります。画像の自動作成と生成のために、Idea2Imgフレームワークはこれらの3つのGPT-4Vベースのプロセスの間で繰り返しサイクルを行います。改良された画像のデザインと作成支援ツールであるIdea2Imgは、ユーザーにとって有用なツールです。綿密な画像の説明ではなく、デザインの指示を受け入れ、マルチモーダルなアイデア入力に対応し、より高い意味的および視覚的品質の画像を生成することで、Idea2ImgはT2Iモデルと異なります。 チームは画像の作成とデザインのサンプルケースをいくつかレビューしました。例えば、Idea2Imgは任意の交互配置された画像とテキストのシーケンスを有するアイデアを処理し、視覚デザインと意図された使用法の説明をアイデアに取り込み、入力画像から任意の視覚情報を抽出することができます。これらの更新された機能とユースケースに基づいて、彼らは104個のサンプル評価アイデアセットを作成しました。この評価アイデアセットには、人間が最初に間違える可能性のある複雑な質問が含まれています。チームはIdea2ImgとさまざまなT2Iモデルを使用してユーザーの好みの調査を実施しています。SDXLを使用した場合など、多くの画像生成モデルにおけるユーザーの好みのスコアの改善は、Idea2Imgの有効性を示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us