Search Results A

中国の研究者が「ImageReward」という画期的な人工知能アプローチを発表人間の好みフィードバックを利用してテキストから画像のモデルを最適化する方法です

最近の数年間で、テキストから画像を生成するモデルの進歩は著しいものがあります（具体的には、自己回帰型や拡散ベースの手法など）。これらのモデルは、適切な言語の記述（つまり、プロンプト）が与えられた場合に、多様なトピックに関連する高品質で意味的に適切な視覚的な情報を生成することができます。その結果、可能性のある使用方法や効果について、大いなる関心が生まれています。しかし、現在の自己教師あり事前学習済み生成器は、まだ改善の余地があります。事前学習の分布がノイズの多いものであり、実際のユーザープロンプトの分布と異なるため、モデルを人間の好みに合わせることは非常に困難です。その結果、次のような、写真におけるよく知られた問題が生じますが、これに限定されません: ・テキストと画像の整合性のエラー：図1(a)(b)に示されるように、テキストプロンプトで述べられたオブジェクトの数、品質、特性、および関係をうまく描写できないこと。・身体の問題：図1(e)(f)に示されるように、四肢や他の捻れた、欠落した、重複した、または異常な人間や動物の身体の部分を表示してしまうこと。・人間の美的感覚：一般的な或いは主流の美的好みから逸脱すること、図1(c)(d)に示されるように。・有害性とバイアス：攻撃的、暴力的、性的、差別的、違法、または不快なコンテンツを含むこと、図1(f)に示されるように。図1：（上）いくつかのテキスト-画像スコアラーによって判断された64世代のうち、トップ1の生成画像（下）ReFLトレーニングに続いてImageRewardをフィードバックに使用した1ショットの生成。斜体はスタイルや機能を示し、太字は一般的にプロンプトの内容を示します（実際のユーザーから抜粋）。ただし、これらの普遍的な問題を克服するために、モデルの設計や事前学習データを改善するだけ以上の取り組みが必要です。研究者たちは自然言語処理（NLP）における人間のフィードバックからの強化学習（RLHF）を使用して、大規模な言語モデルを人間の好みや価値観に向ける手法を開発してきました。この手法は、人間の好みを捉えるために、極めて多くのエキスパートによるモデル出力の比較を用いて報酬モデル（RM）を学習することに依存しています。その効果にもかかわらず、アノテーションプロセスは費用と困難を伴います。ラベリング基準を定義し、エキスパートを雇い、教育し、返信を検証し、RMを生成するには数ヶ月かかるからです。清華大学と北京郵電大学の研究者たちは、このような生成モデルの困難に取り組むことの重要性を認識し、最初の汎用的なテキストから画像への人間の嗜好RMであるImageRewardを発表し、提供しています。ImageRewardは、実際のユーザープロンプトと対応するモデル出力に基づく137,000ペアの専門家による比較でトレーニングおよび評価されています。彼らはまた、努力に基づいて拡散生成モデルを改善するための直接最適化戦略であるReFLについての研究も続けています。 •彼らは、テキストから画像への人間の嗜好アノテーションのパイプラインを開発しました。その際には、難点の体系的な特定、定量的評価とアノテーターのトレーニングのための基準の確立、ラベリング効率の向上、品質の確認などを行いました。彼らは、パイプラインベースのテキストから画像への比較データセットを作成し、ImageRewardモデルをトレーニングしました。 •詳細な研究とテストを通じて、彼らはImageRewardが他のテキスト-画像スコアリング技術（CLIPより38.6%、Aestheticより39.6%、BLIPより31.6%）を凌駕して人間の好みの理解において優れていることを示しました。さらに、ImageRewardは上記の問題に対してかなりの改善が見られ、人間の欲望を生成モデルに組み込むための示唆に富んだ情報を提供しています。 •彼らは、自動化されたテキストから画像への評価指標であるImageRewardが有用であると主張しています。ImageRewardは、実際のユーザーからのプロンプトやMS-COCO 2014に基づくFIDとCLIPスコアと比較して、一貫して人間の嗜好ランキングに合致し、モデルとサンプル間で優れた識別性を示しています。・人間の好みスコアに関する微調整拡散モデルのために、Reward Feedback Learning（ReFL）が提案されています。拡散モデルは生成物に対して確率を提供しないため、ImageRewardの品質の特定性が後のノイズリダクションフェーズで直接的なフィードバック学習を可能にします。ReFLは自動的および手動で広範に評価され、データ拡張や損失再量化など他の方法と比較してその利点が示されています。

NVIDIAはAI市場で権力を乱用しているのか？EUがNVIDIAのAIチップセクターでの圧倒的な支配力を調査中

Nvidia、有名なGPUメーカーは、人工知能チップ市場における支配力について、ヨーロッパで注目を浴びています。ウォール・ストリート・ジャーナルからの最新の報告によると、フランスの寡占反トラスト当局は、Nvidiaのフランスのオフィスを捜索しました。この行動は、Nvidiaが不正な独占的な慣行に従事しているかどうかを調査するためです。フランス競争当局（FCA）は、グラフィックスチップセクターの特定のメーカーのオフィスでの捜索を確認しました。目的は何でしょうか？独占的な行動の兆候を調査するためです。FCAは調査対象の企業名を明示していませんが、ワシントン・デイリーの情報筋は調査対象がNvidiaであることを確認しています。フランスの当局は捜索中に、Nvidiaのスタッフとのインタビューを行い、物理的およびデジタルな文書を押収しました。しかしながら、Nvidiaはこの問題について沈黙を守ることを選んでいます。関連動向として、ブルームバーグは、欧州競争委員会が現在、様々な業界の関係者と非公式な議論を行っていると情報筋によって伝えられています。目的は、特にエンタープライズとゲーミング分野において、Nvidiaが人工知能チップ市場を操作しているかどうかを評価することです。NvidiaのA100とH100チップは、人工知能チップ市場の驚異的な80%を占めており、IntelやAMDといった従来のCPU大手は追いつくのに苦労しています。EUの調査が独占的行為を確認すれば、Nvidiaは数十億ドルの罰金を突きつけられる可能性があります。人工知能の人気の急増はNvidiaにとって恩恵です。同社の株価は急騰し、最近の四半期の売上高はなんと133億5100万ドルで、年間成長率101%を記録しました。時価総額が1兆ドルを超えるNvidiaの成功は言うまでもありません。しかし、大きな力には大きな監視が伴うものであり、このヨーロッパの調査がどのように進展するかはまだ見通せません。

Uncategorized

OpenAIはAIチップ製造リーグへの参加を検討しています

有名なChatGPTを開発した強力な企業であるOpenAIは、まもなく人工知能チップ製造のダイナミックな世界に飛び込むかもしれません新しいロイターの報道によると、同社は独自のAIチップの開発を積極的に検討しており、さらにこの領域での潜在的なターゲットの買収についても考えていますAIのグローバルな需要は絶えず拡大しているため、OpenAIはこの分野への進出を真剣に考えているようです

「私たちはAIとの関係をどのように予測できるのか？」

現在の段階やAGIの後の人間とAIの相互作用は常に議論の的です次の否定的な側面にいるのか、立場をとっているのかに関わらず、私たちの人生におけるAIの結果を解きほぐしたいと思います...

Azure Machine Learningにおける生成AI：AI変革のためのアプリ開発の運用化

「ジェネラティブAIの時代において、リーダーたちは革新と目的の交差点に立たされています取締役会やデータサイエンスの会議場で響き渡るのは次のような疑問です：この最新鋭の技術の星座をどうやって活用し、創造性とビジネスの柔軟性を持って組織の目標を前進させつつ、社会とのバランスを取ることができるのでしょうか...」

「マルチモーダルAIの最新の進歩：（ChatGPT + DALLE 3）+（Google BARD + 拡張）など、さまざまなものがあります….」

マルチモーダルAIは、テキスト、画像、ビデオ、オーディオなどのさまざまなデータタイプ（モーダリティ）を組み合わせて、より優れたパフォーマンスを実現する人工知能（AI）の領域です。ほとんどの伝統的なAIモデルは単一モーダルであり、1つのデータタイプのみを処理できます。それらは訓練され、そのモーダリティに特化したアルゴリズムであります。単一モーダルAIシステムの例として、ChatGPTがあります。それは自然言語処理を使用してテキストデータの理解と意味抽出を行います。さらに、テキストのみを出力することができます。それに対して、マルチモーダルAIシステムは複数のモーダリティを同時に処理し、複数の出力タイプを生成することができます。GPT-4を使用した有料版のChatGPTは、マルチモーダルAIの例です。それはテキストだけでなく画像も処理でき、PDF、CSVなどの異なるファイルを処理することができます。この記事では、マルチモーダルAIの最近の進歩について紹介します。 ChatGPT + DALLE 3 DALLE 3は、AIによる画像生成技術の最新の進歩を表しており、AIによって生成される芸術の大きな進歩となっています。システムはユーザープロンプトの文脈を理解する能力が向上し、ユーザーが提供した詳細をより理解することができます。出典: https://openai.com/dall-e-3 上の画像からは、モデルがプロンプトの詳細を捉えて、入力されたテキストに厳密に従った包括的な画像を作成する能力があることがはっきりとわかります。 DALL·E 3はChatGPTに直接統合されており、シームレスに連携することができます。アイデアが与えられると、ChatGPTはDALL·E 3のために特定のプロンプトを簡単に生成し、ユーザーのコンセプトに命を吹き込むことができます。イメージの調整が必要な場合、ユーザーは簡単な言葉でChatGPTに尋ねることができます。ユーザーはChatGPTの助けを借りて、DALL·E 3がアートワークを生成するために使用できるプロンプトを作成するには、ChatGPTの支援を求めることができます。DALL·E 3はまだユーザーの特定のリクエストを処理することができますが、ChatGPTの助けを借りることで、AIによるアートの創造がよりアクセスしやすくなります。 Google BARD + 拡張機能 Googleが開発した対話型AIツールであるBARDは、拡張機能を通じて重要な向上を遂げました。これらの改善により、BARDはさまざまなGoogleアプリやサービスと連携できるようになりました。拡張機能により、BARDはGmail、Docs、Drive、Google Maps、YouTube、Google…

Meta AIがAnyMALを紹介：テキスト、画像、ビデオ、音声、動作センサーデータを結びつけるマルチモーダル言語モデルの未来

人工知能において、根本的な課題の一つは、機械が画像、動画、音声、運動信号といった様々な感覚入力と共に、人間の言語を理解し生成することです。この問題は、人間とコンピュータの対話、コンテンツ生成、アクセシビリティといった多数のアプリケーションに重要な影響を与えます。従来の言語モデルは、しばしばテキストベースの入力と出力のみに焦点を当てており、人間が世界との対話を行うさまざまな方法に対応する能力を制限しています。この制限を認識し、研究者チームはこの問題に直面し、画期的なマルチモーダル言語モデルであるAnyMALの開発につながりました。言語理解の現在の方法とツールは、多様なモダリティの処理に追いつく必要があるとされています。しかし、AnyMALの研究チームは、この課題に取り組むための新しいアプローチを考案しました。彼らは、様々な感覚入力をシームレスに統合する大規模なマルチモーダル言語モデル（LLM）を開発しました。AnyMALは単なる言語モデルではなく、マルチモーダルな文脈で言語を理解し生成するAIのポテンシャルを具現化しています。私たちの周りの世界から感覚的な手がかりを組み合わせてAIモデルと対話することを想像してみてください。AnyMALは、視覚、聴覚、運動の手がかりを含めた感覚的な認識を通じて共有された世界の理解を前提とするクエリを可能にします。テキストにのみ依存する従来の言語モデルとは異なり、AnyMALは様々なモダリティが提供する豊かな文脈を考慮しながら言語を処理し生成することができます。 AnyMALの方法論は、その潜在的な応用の印象的さに匹敵します。研究者たちは、このマルチモーダル言語モデルをトレーニングするために、オープンソースのリソースとスケーラブルなソリューションを活用しました。そのうちの1つが、マルチモーダルインストラクションチューニングデータセット（MM-IT）であり、これは複数の感覚入力を含むインストラクションデータのための注意深くキュレーションされた注釈の収集です。このデータセットはAnyMALのトレーニングに重要な役割を果たし、複数の感覚入力を伴う指示を理解し応答できるようにしました。 AnyMALの優れた機能の一つは、複数のモダリティを統一的で同期した方法で処理できることです。他の画像言語モデルとの比較によって示されるように、さまざまなタスクで注目すべきパフォーマンスを発揮します。例を挙げると、AnyMALはクリエイティブなライティングのプロンプトから、ナッツクラッカーの人形の画像に関連するユーモラスなジョークの応答まで、その能力を示しています。これは、AnyMALの視覚的な理解力や創造性とユーモアの能力を示しています。ハウツーのシナリオでは、フラットタイヤの修理に関する明確かつ簡潔な指示を提供し、画像の文脈を理解し関連する言語を生成する能力を示しています。ワインとステーキのペアリングに関するおすすめのクエリでは、AnyMALは2つのワインボトルの画像に基づいてステーキとのよりよいペアリングするワインを正確に特定します。これにより、視覚的なコンテキストに基づいた実践的なおすすめを提供する能力が示されます。さらに、質問と回答のシナリオでは、AnyMALはイタリアのフィレンツェの画像にあるアルノ川を正しく識別し、その長さに関する情報を提供します。これは、強力なオブジェクト認識と事実知識の能力を示しています。結論総括すると、AnyMALは多様な感覚的なインプットと共に言語を理解し生成することができる、マルチモーダル言語理解の大きな飛躍です。AnyMALの手法は包括的なマルチモーダルデータセットと大規模なトレーニングに基づいており、クリエイティブな文章から実践的なおすすめまで、さまざまなタスクで印象的な結果を生み出します。ただし、最先端の技術であるため、AnyMALには制約があります。テキストベースの手がかりよりも視覚的なコンテキストを優先することが難しい場合や、画像とテキストのペアデータの量に制約があることがあります。しかし、4つの初期的に検討されたモダリティ以外のさまざまなモダリティを収容する可能性は、AIによるコミュニケーションの将来の研究や応用にとってエキサイティングな可能性を開いています。

セールスフォースAIがGlueGenを導入：効率的なエンコーダのアップグレードとマルチモーダル機能により、テキストから画像へのモデルが革新的になります

テキストから画像への変換（T2I）モデルの急速に進化する風景の中で、GlueGenの導入により新たなフロンティアが現れています。T2Iモデルは、テキストの説明から画像を生成する驚異的な能力を示していますが、機能の修正や強化の点での堅牢さは重要な課題となっています。GlueGenは、シングルモーダルまたはマルチモーダルのエンコーダを既存のT2Iモデルと調整することにより、このパラダイムを変えることを目指しています。このアプローチは、ノースウェスタン大学、Salesforce AI Research、スタンフォード大学の研究者によって行われ、アップグレードや拡張を簡素化し、多言語サポート、音声から画像の生成、強化されたテキストエンコーディングの新たな時代を切り拓いています。本記事では、GlueGenの変革的なポテンシャルについて掘り下げ、X-to-image（X2I）生成の進化におけるその役割を探求します。拡散プロセスに基づく既存のT2I生成手法は、特にユーザが提供するキャプションに基づいて画像を生成する点で、著しい成功を収めています。しかし、これらのモデルは、テキストエンコーダを画像デコーダときちんと結びつけるという課題を抱えており、修正やアップグレードが煩雑となっています。他のT2Iアプローチへの参照としては、GANベースの方法（Generative Adversarial Nets（GANs）、Stack-GAN、Attn-GAN、SD-GAN、DM-GAN、DF-GAN、LAFITE）や、DALL-E、CogViewなどの自己回帰トランスフォーマーモデル、さらにはGLIDE、DALL-E 2、Imagenなどの拡散モデルが用いられています。アルゴリズムの改善と広範なトレーニングデータによって、T2I生成モデルは大きく進化しています。拡散ベースのT2Iモデルは画像の品質に優れていますが、制御性と構成性に苦労し、望ましい結果を得るために即座のエンジニアリングを必要とすることがしばしばあります。また、英語のテキストキャプションでの訓練が主流であることも制約となっています。 GlueGenフレームワークは、異なるシングルモーダルまたはマルチモーダルのエンコーダの特徴を既存のT2Iモデルの潜在空間と調整するためのGlueNetを導入しています。彼らのアプローチは、平行コーパスを使用した新しいトレーニング目的を用いて、異なるエンコーダ間の表現空間を整合させるものです。GlueGenの機能は、非英語のキャプションから高品質な画像生成を可能にするXLM-Robertaなどの多言語言語モデルをT2Iモデルと調整することにも広がります。さらに、音声から画像の生成を可能にするAudioCLIPなどのマルチモーダルエンコーダをStable Diffusionモデルと調整することもできます。 GlueGenは、多様な特徴表現を整列させる能力を提供し、既存のT2Iモデルに新しい機能をシームレスに統合することができます。これは、非英語のキャプションから高品質な画像を生成するためにXLM-Robertaのような多言語言語モデルをT2Iモデルと整列させることにより実現します。また、音声から画像の生成を可能にするAudioCLIPなどのマルチモーダルエンコーダをStable Diffusionモデルと整列させることもGlueGenが行うことができます。この方法は、提案された目的リウェイト技術により、バニラのGlueNetに比べて画像の安定性と精度も向上させます。評価はFIDスコアとユーザースタディによって行われます。まとめると、GlueGenは、さまざまな特徴表現を整列させることで、既存のT2Iモデルの適応性を向上させる解決策を提供します。多言語言語モデルやマルチモーダルエンコーダを整列させることにより、T2Iモデルの能力を拡張し、さまざまなソースから高品質な画像を生成することができます。GlueGenの効果は、提案された目的リウェイト技術によって支えられる画像の安定性と精度の向上によって示されます。さらに、T2Iモデルにおけるテキストエンコーダと画像デコーダの緊密な結び付きを破るという課題にも取り組み、簡単なアップグレードと置換を可能にしています。全体として、GlueGenはX-to-image生成機能を進化させる有望な手法を提案しています。

「MITとハーバードの研究者が革命的なAIベースの計算手法を公開：少ない実験で最適な遺伝子介入を効率的に特定する」

細胞再プログラミングの分野では、研究者は遺伝子の最適な変異を特定するという課題に直面しています。これは細胞免疫療法や再生療法などの応用において有望な技術です。人間のゲノムは約2万の遺伝子と1,000以上の転写因子から成る膨大な複雑さを持つため、理想的な変異を探す作業は費用と手間がかかります。現在、大規模な実験はしばしば経験則に基づいて設計されており、最適な介入を見つける過程で高い費用がかかり、進捗が遅くなることがあります。しかし、MITとハーバード大学の研究チームは、この問題に取り組む画期的な計算手法を提案しました。提案された手法は、ゲノム調節など複雑なシステム内の因果関係を活用し、従来の手法よりも少ない実験で最適な遺伝子の変異を効率的に特定します。研究者たちはこの手法を支える理論的なフレームワークを開発し、細胞再プログラミング実験をシミュレートするための実生物データに適用しました。彼らの手法は既存のアルゴリズムよりも優れており、最良の遺伝子介入を見つけるためのより効率的かつ費用対効果の高い方法を提供します。彼らの革新の核心は、機械学習の手法であるアクティブラーニングを逐次実験プロセスに適用することにあります。従来のアクティブラーニング手法は複雑なシステムに対して苦戦する一方、新しい手法はシステム内の因果関係の理解に焦点を当てています。最適な結果につながりやすい介入を優先することで、探索範囲を大幅に絞り込むことができます。さらに、研究チームは出力の重み付けという技術を用いて手法を強化し、最適解に近い介入をより強調します。細胞再プログラミングのための実生物データにおける実地テストでは、獲得関数がベースラインの手法と比較して常に優れた介入を特定しました。これは、少ない実験でも同等またはそれ以上の結果を得ることができ、効率性を高めて実験コストを削減できることを意味します。研究者たちは実験家と協力して、彼らの手法を実験室で実装する予定です。この手法は、ゲノミクスに限らず、消費者製品の価格最適化や流体力学の制御など、さまざまな分野に広がる潜在的な応用があります。まとめると、MITとハーバードの画期的な計算手法は、細胞再プログラミングの進歩を加速させるための効率的かつ費用対効果の高い最適な遺伝子介入を特定する方法として非常に有望です。この開発は、より効果的な免疫療法や再生療法を求める取り組みにおいて重要な一歩であり、他の分野における広範な応用の可能性を持っています。

データベーススキーマのレトロエンジニアリング：GPT vs. Bard vs. LLama2（エピソード2）

第一の記事に説明されているように、従業員情報を含む人工知能によって生成されたフェイクデータセットで始めます元のテーブルは11列 x 7688行ですが、抽出を制限します...

Learn more about Search Results A - Page 176