Learn more about Search Results A - Page 143

研究者たちは、AIシステムを取り巻くガードレールはあまり堅牢ではないと述べています

オープンAIは、外部の人々がチャットボットの動作を微調整できるようにしました新しい論文では、それがトラブルを引き起こす可能性があると述べています

「13の簡単なステップでローカルコンピュータにAutoGenをインストールする方法」

「私は、AIエージェントとAutoGenの能力に興奮していると思いますそして、あなたは実践ガイドのためにここにいるのでしょう注意:もし AIエージェントの旅をどこから始めればいいかわからない場合は、説明しています...」

「Scikit-Learnによる次元削減:PCAの理論と実装」

小説『フラットランド』では、二次元の世界に住むキャラクターが、三次元の存在に出会った際に当惑し、理解できない自分自身を見つけます私はこの比喩を使って説明します…

「K-Means初期化の課題に対する効果的な戦略」

K-Means(ケイ・ミーンズ)は、機械学習において広く使われるクラスタリングアルゴリズムであり、多くの利点を誇りながらも重要な課題も抱えていますこの記事では、その制約に深く立ち入り、解決策を提案します…

『ScaleCrafterを知る:事前学習済みの拡散モデルによる超高解像度画像合成の解放』

画像合成技術の開発は、近年著しい上昇を経験し、学術界や産業界から大きな関心を集めています。テキストから画像を生成するモデルや安定拡散(SD)は、この分野で最も広く利用されている進展です。これらのモデルは注目すべき能力を示していますが、現在は最大解像度1024 x 1024ピクセルの画像しか生成することができず、広告などの高解像度アプリケーションの要件を満たすには不十分です。 これらのトレーニング解像度よりも大きな画像を生成しようとすると、オブジェクトの繰り返しや変形されたオブジェクトの構造などの問題が発生します。ステーブル拡散モデルを使用して512 × 512または1024 x 1024の寸法で画像を生成しようとする場合、オブジェクトの重複がより問題となります。 オブジェクトの繰り返しや誤ったオブジェクトの形態など、これらの問題は主にオブジェクトの重複や誤ったオブジェクトの形態として現れます。結合拡散技術や注意機構に基づいたより高解像度の画像を作成するための既存の方法は、これらの問題に十分に対処することが難しいとされています。研究者は、問題の原因となる重要な要素である畳み込みカーネルの制約された知覚フィールドを拡散モデルのU-Netアーキテクチャの構造要素に詳細に検討することにより、オブジェクトの再現などの問題が生じるわけです。つまり、入力画像の内容を見て理解する能力に制約があるため、オブジェクトの再発のような問題が生じるのです。 研究チームは、推論時の高解像度可視化のためにScaleCrafterを提案しました。これは再膨張と呼ばれる、単純でありながらも非常に強力な解決策であり、畳み込みの知覚フィールドを画像生成プロセス全体で動的に調整することによって、モデルがより高い解像度と異なるアスペクト比を効果的に処理できるようにします。このモデルは、受容野を動的に調整することにより、生成される画像の一貫性と品質を向上させることができます。この研究ではさらに二つの進歩が提案されており、拡散畳み込みとノイズ抑制分類器フリーガイダンスです。これにより、モデルは4096×4096ピクセルの超高解像度の写真を生成することができます。この方法では、追加のトレーニングや最適化の段階を必要とせず、高解像度の画像合成の繰り返しや構造的な問題に対する実用的な解決策となります。 この研究では、オブジェクトの繰り返しの問題に対処し、特に複雑なテクスチャの詳細を表示することで、より高い解像度の画像を生成するという提案手法が成功裏に評価されました。また、これまで低解像度の画像でトレーニングされた拡散モデルを使用して高解像度の視覚表現を生成するために、多くの再トレーニングを必要とせずに済む可能性にも光を当てており、今後の超高解像度画像や動画合成の研究に向けた指針となるでしょう。 主な貢献は以下のとおりです。 チームは、オブジェクトの繰り返しの主な原因は注目トークンの数ではなく、畳み込み手順の制約された受容野であることを発見しました。 これらの結果に基づいて、チームは、推論が進行している間に畳み込み受容野を動的に増加させる再膨張アプローチを提案し、問題の根本に取り組んでいます。 拡散畳み込みとノイズ抑制分類器フリーガイダンスという二つの革新的な戦略が紹介されました。これらは、超高解像度の画像の作成に使用されるものです。 この手法は、テキストから動画へのモデルに適用され、さまざまな拡散モデルを含む多様なイテレーションで包括的に評価されています。これらのテストにはさまざまなアスペクト比と画像解像度が含まれており、オブジェクトの再発の問題や高解像度画像合成の改善におけるモデルの効果を示しています。

創造的AIの進展により、責任あるAIに対処する時が来ています

「2022年には、企業は平均して3.8つのAIモデルを運用していました現在、10社中7社がジェネレーティブAIを試験的に使用しており、これにより運用中のAIモデルの数は今後数年間で急増することになりますその結果、責任あるAIに関する業界の議論がますます重要になってきました良いニュースは、...」

なぜLLaVa-1.5はオープンソースAIにおける大勝利であるのか

マイクロソフトは、外観が素晴らしいだけでなく、オープンソースがようやく手頃な価格であることを証明する、彼らのマルチモーダルソリューションの新しいバージョンであるLLaVa-1.5をリリースしました

「マイクロソフトの研究者たちはDeepSpeed-VisualChatを提案:スケーラブルなマルチモーダル言語モデルの訓練の大きな進歩」というタイトルで、記事の内容を日本語に翻訳すると、以下のようになります

大規模言語モデルは、人間と同様に言語を理解し生成するために作成された洗練された人工知能システムです。これらのモデルは、質問応答、コンテンツ生成、対話など、さまざまなアプリケーションで有用です。その有用性は、オンラインの大量のデータを分析し理解する長期の学習プロセスによって得られます。 これらのモデルは、さまざまな文脈で言語のより洗練された効果的な使用を促進することで、人間とコンピュータの対話を改善するための発展したツールです。 テキストの読み書きだけでなく、音声や画像などのさまざまな形式の情報を理解し使用する方法についての研究が行われています。マルチモーダルの能力の向上は非常に魅力的であり、大きな可能性を秘めています。GPTなどの現代の大規模言語モデル(LLM)は、テキスト関連のさまざまなタスクで優れたパフォーマンスを示しています。これらのモデルは、監督された微調整や人間のガイダンスを用いた強化学習などの追加のトレーニング手法を使用して、さまざまな対話タスクで非常に優れた能力を発揮します。特にコーディングや定量的思考、数学的論理、AIチャットボットのような会話における専門家と同等の専門知識を持つためには、これらのトレーニング手法を通じてモデルを洗練させることが重要です。 これらのモデルが画像、音声、ビデオなどのさまざまな形式で素材を理解・生成できるようになってきています。特徴の整合やモデルの修正などの手法が適用されています。ビジョンと言語の大規模モデル(LVLM)は、その一つです。しかし、トレーニングやデータの利用可能性に問題があるため、現在のモデルは複雑なシナリオ、例えば複数の画像を含む複数のラウンドの対話などに対応するのが困難であり、各種の相互作用の文脈において適応性とスケーラビリティが制約されています。 Microsoftの研究者たちは、DeepSpeed-VisualChatと名付けました。このフレームワークは、LLMにマルチモーダルの機能を取り込み、70兆のパラメータを持つ言語モデルのサイズでさえ優れたスケーラビリティを示すように設計されました。これにより、複数のラウンドと複数の写真の対話をダイナミックに行うことができます。フレームワークは、マルチモーダル因果関心(MMCA)と呼ばれる方法を使用して、マルチモーダルモデルの適応性と応答性を向上させるために、複数のモダリティにわたって別々に注意の重みを推定します。研究チームは、利用可能なデータセットに関する問題を克服するためにデータのブレンディングアプローチを使用し、豊かで多様なトレーニング環境を実現しました。 DeepSpeed-VisualChatは、DeepSpeedフレームワークを緻密に組み込むことで優れたスケーラビリティが実現されています。このフレームワークは、2兆のパラメータを持つビジョンエンコーダと70兆のパラメータを持つ言語デコーダをLLaMA-2から利用することで、マルチモーダル対話システムにおける可能性の限界を押し、非凡なスケーラビリティを実現しています。 研究者たちは、DeepSpeed-VisualChatのアーキテクチャがMiniGPT4に基づいていることを強調しています。この構造では、画像は事前訓練されたビジョンエンコーダを使用してエンコードされ、その後、線形層を使用してテキスト埋め込み層の隠れ次元との整列を行います。これらの入力は、LLaMA2のような言語モデルに供給され、画期的なマルチモーダル因果関心(MMCA)メカニズムによってサポートされています。この手順中、言語モデルとビジョンエンコーダは凍結されたままであることが重要です。 研究者によると、クラシックなクロスアテンション(CrA)は新たな次元と問題を提供しますが、マルチモーダル因果関心(MMCA)は異なるアプローチを取ります。テキストと画像のトークンに対して、MMCAは別々の注意重み行列を使用し、ビジュアルトークンは自身に、テキストは直前のトークンにフォーカスできるようにします。 実際の結果によると、DeepSpeed-VisualChatは以前のモデルよりもスケーラブル性が優れています。複雑さやトレーニングコストを増加させることなく、さまざまな相互作用シナリオでの適応を向上させます。言語モデルのサイズを70兆のパラメータまでスケーリングすることで、特に優れたスケーラビリティを提供します。この成果は、マルチモーダル言語モデルのさらなる進歩のための堅固な基盤を提供し、重要な一歩となります。

「WHOが医療分野におけるAI規制の考慮事項の概要を発表」

世界保健機関(WHO)は、保健分野におけるAIの重要な規制上の考慮事項をまとめた包括的な出版物を発表しましたこれらのガイドラインは、安全性と有効性の重要性、さらにはさまざまな利害関係者間の対話の必要性を強調しており、医療セクターにおけるAIの受け入れにおいて重要な一歩ですこれまでにも見てきたように...

In English Building a Batch Data Pipeline with Athena and MySQL

この物語では、データ変換タスクを実行する最も人気のある方法の1つであるバッチデータ処理について話しますこのデータパイプラインのデザインパターンは、私たちが...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us