Search Results T5

「SEINEをご紹介します：シーン間のスムーズでクリエイティブなトランジションがある高品質な拡張ビデオのためのショートトゥロングビデオ拡散モデル」

テキストから画像を生成する拡散モデルの成功を受けて、ビデオ生成技術が急速に発展し、この領域での興味深い応用が見られるようになりました。しかし、ほとんどのビデオ生成技術は、通常「ショットレベル」のビデオを生成し、数秒間の一つのシーンを描写するものです。コンテンツの短さから、これらのビデオは映画や映像制作に必要な要件を満たすことが明らかにできません。映画や産業レベルのビデオ制作では、通常「ストーリーレベル」と呼ばれる長いビデオは、異なるシーンを特徴とした個別のショットの作成によって特徴付けられます。これらの個別のショットは、長さが異なり、トランジションや編集といった技術を介して相互に接続され、より長いビデオや複雑なビジュアルストーリーテリングを可能にします。シーンやショットを映画やビデオ編集で組み合わせるという、トランジションとして知られる作業は、アフタープロダクションにおいて重要な役割を果たします。ディゾルブ、フェード、ワイプなどの伝統的なトランジション手法は、事前に定義されたアルゴリズムや確立されたインタフェースに依存しています。しかし、これらの手法は柔軟性に欠け、能力が制限されていることが多いです。シームレスなトランジションへの代替手法は、異なるシーン間をスムーズに切り替えるために多様で想像力豊かなショットを使用する方法です。この技術は映画でよく使用されますが、あらかじめ定義されたプログラムを使用して直接生成することはできません。この研究では、異なるシーン間に中間フレームを生成することに焦点を当て、シームレスでスムーズなトランジションの生成という一般的ではない問題を取り扱うモデルを紹介しています。このモデルは、生成されたトランジションフレームが与えられたシーンイメージと意味的に関連し、一貫性があり、滑らかで提供されたテキストと一致していることを求めます。この研究では、ショットレベルのビデオを組み合わせた滑らかで創造的なトランジションを含む高品質な長いビデオを生成するためのショートトゥロングビデオ拡散モデルであるSEINEを紹介しています。以下の図に、この手法の概要が示されています。 SEINEは、観測可能な条件付き画像やビデオに基づいて以前に見たことのないトランジションフレームと予測フレームを生成するために、ランダムマスクモジュールを組み込んでいます。著者は、ビデオデータセットに基づいて、事前学習された変分オートエンコーダによってエンコードされた元のビデオからNフレームを抽出します。さらに、モデルはテキストの説明を入力として受け取り、トランジションビデオのコンパクト性を向上させ、ショートテキストからビデオを生成する機能を活用します。トレーニング段階では、潜在ベクトルはノイズで破損され、ランダムマスク条件層が適用され、フレーム間の中間表現をキャプチャします。マスキングメカニズムは、元の潜在コードから情報を選択的に保持または抑制します。SEINEは、マスク付きの潜在コードとマスク自体を条件入力として受け取り、どのフレームがマスクされ、どのフレームが見えるかを決定します。モデルは、全体の破損した潜在コードに影響を与えるノイズを予測するためにトレーニングされます。これにより、モデルは、可視フレームとマスクされていないフレームをシームレスにブレンドするリアルで視覚的に一貫したトランジションフレームを生成しようとします。この研究から抽出した一部のシーケンスを以下に示します。これは、シームレスなトランジションを生成するためのショートトゥロングビデオ拡散モデルであるSEINEの要約でした。興味がある場合や詳細を学びたい場合は、以下に引用されたリンクをご参照ください。

Google AIは、『AltUp（Alternating Updates）』というアートフィシャルインテリジェンスの手法を導入しましたこれは、トランスフォーマーネットワークのスケールの拡大を利用するための手法であり、計算コストを増やさずに行われます

ディープラーニングにおいて、トランスフォーマーニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボティクス、自動運転などの新興アプリケーションを含め、さまざまなドメインでの有効性に対して注目を集めています。ただし、パフォーマンスの向上に伴い、これらのモデルの規模がますます拡大することで、計算コストと推論遅延が大幅に増加します。大規模なモデルの利点を享受する際に、実用上の計算負荷をもたらさないような困難が存在します。特にトランスフォーマーモデルを含むディープラーニングモデルの現在の状況は、さまざまな領域で著しい進歩を示しています。ただし、増加した計算要件により、これらのモデルのスケーラビリティを向上させる必要がある場合があります。従来の取り組みは、Switch Transformer、Expert Choice、V-MoEなど、スパース混合専門家モデルによって示されるように、ネットワークパラメータの効率的なスケーリングや入力あたりの計算の増加を軽減することに主に焦点を当ててきました。ただし、トークン表現の次元自体のスケーリングに関する研究上の課題が存在します。ここで、この課題を解決するために導入された新しい方法であるAltUpが登場します。 AltUpは、計算のオーバーヘッドを増やさずにトークン表現を拡張する方法を提供することで際立っています。この方法では、拡張された表現ベクトルを等しいサイズのブロックに分割し、各層で1つのブロックのみを処理します。AltUpの有効性の核心は、処理されていないブロックの推論を可能にする予測-訂正メカニズムにあります。直接的な拡張に伴う計算量の二次的な増加を回避することで、モデルの次元を維持しながら、AltUpは、より大きなTransformerネットワークによってもたらされる計算上の課題に対する有望な解決策として浮上しています。 AltUpのメカニズムは、トークン埋め込みの複雑さに深く入り込み、計算の複雑さを増やさずにトークン表現を拡張する方法を検討しています。この方法は以下の手順で行われます: ブロックの1x幅トランスフォーマーレイヤーを呼び出します。「アクティブ」ブロックと呼ばれます。同時に軽量な予測子を使用します。この予測子は、すべての入力ブロックの重み付き組み合わせを計算し、予測値と活性化されたブロックの計算値は、軽量な修正子を介して修正されます。この修正メカニズムにより、非活性なブロックは活性化されたブロックに基づいて更新されます。重要なのは、予測と修正のステップの両方が、通常のトランスフォーマーレイヤーよりもはるかに高速なベクトルの加算と乗算を必要としないということです。 T5モデルに対するAltUpの評価は、同じ精度で密なモデルを上回る一貫した能力を示しています。特に、AltUpで拡張されたT5ラージモデルは、GLUE、SuperGLUE、SQuAD、Trivia-QAの各ベンチマークで、それぞれ27%、39%、87%、29%の著しいスピードアップを実現しています。AltUpの相対的な性能向上は、モデルのサイズが大きくなるにつれてより顕著になり、スケーラビリティと向上した効果を強調しています。 AltUpは、Transformerニューラルネットワークの効率的なスケーリングアップの長年の課題に対する注目すべき解決策として浮上しています。計算コストの比例的な増加を伴わずにトークン表現を拡張する能力は、さまざまなアプリケーションにおいて重要な約束を持っています。AltUpの革新的なアプローチは、分割と予測-訂正メカニズムを特徴とし、大きなモデルの利点を活用するための現実的な方法を提供します。計算要求に適しています。研究者たちによるAltUpの拡張であるRecycled-AltUpは、提案された手法の適応性をさらに示しています。初期トークンの埋め込みを広げる代わりに、再現埋め込みによってRecycled-AltUpは、認識可能な遅延を引き起こすことなく、事前学習パフォーマンスの厳格な改善を示しています。AltUpとMoEのような他のテクニックとのシームレスな統合を伴うこの二重アプローチは、その多様性を具現化し、トレーニングとモデルのパフォーマンスのダイナミクスを探求するための将来的な研究の可能性を開いています。 AltUpは、Transformerネットワークの効率的なスケーリングの追求における画期的なものであり、モデルのサイズと計算効率のトレードオフに対する魅力的な解決策を提供しています。この論文で述べられているように、研究チームの貢献は、大規模なTransformerモデルをさまざまな応用によりアクセス可能で実用的なものにするための重要な一歩です。

動くAI

「2023年はLLM（Large Language Models）の年だったとすれば、2024年はLMM（Large Multimodal Models）の年となるでしょう主な違いは、テキストと画像の認識による生成が行われることです...」

このAI論文は、オープンエンドのシナリオでの大規模言語モデルのスケーラブルな評価のための新しいアプローチ、JudgeLMを紹介しています

最近、大規模な言語モデル（LLM）は、優れた命令の従順さと幅広いオープンエンドシナリオの処理能力により、注目を浴びています。研究者は命令の微調整を通じて、FlanT5、OPT、LLaMA、およびPythiaなどのオープンソースのLLMに基づいてこれらのモデルを人間の好みと調整するための多くの技術を提供しています。調整されたLLMは、人間の命令の理解力が向上し、より論理的な応答を生成します。しかし、オープンエンドのシナリオでのLLMの能力は、現在のベンチマークと従来の測定によって十分に評価される必要があります。したがって、オープンエンドの活動でのLLMの評価を徹底的に評価する新しいベンチマーク手法が必要です。同時の研究では、LLMのパフォーマンスを決定するための異なる手法を調査しています。アリーナ形式の手法は、クラウドソーシングプラットフォームを利用して匿名化されたLLMの競争結果を取得します。人間の評価は信頼性がありますが、コストがかかり、多くの努力が必要です。一部の手法ではGPT-4を仲裁者として使用しますが、これらの手法には可変APIモデルのシフトと可能なデータの開示への支援が必要であり、裁判官の繰り返し可能性が危険にさらされる可能性があります。PandaLMは、回答評価に使用されるオープンソースのLLMを改善することを目指しています。図1（a）：JudgeLMのデータ生成パイプライン。105Kのシードタスクが最初に質問として収集されます。その後、11つのLLMから回答を取得し、回答セットから2つをランダムに選択します。最後に、タスク、サンプル回答ペア、および必要に応じてGPT-4への応答を入力します。これにより、裁判官インストラクターのスコアと綿密な理由が生成されます。ただし、精緻なモデルの有用性は、モデルのサイズ、トレーニングデータの品質、および固有のLLMバイアスから生じる制約により弱体化します。北京人工知能研究院と華中科技大学の研究者は、本研究で最適化されたオープンソースのLLMを使用してLLMを評価することを提案しており、スケーラブルな裁判官（JudgeLM）として十分な合意に達する裁判官としての機能を持つLLMを組み合わせます。彼らの手法では、裁判官モデルのトレーニングと評価に役立つ高品質のデータセットを組み合わせ、スケーラブルな裁判官を使用してオープンエンドの割り当てで評価します。彼らは、オープンソースのLLMを彼らのフレームワーク内で裁判官として使用するために改変し、モデルのサイズ（7Bから33B）とトレーニングデータのボリューム（3.5Kから100K）の観点でどれだけスケールするかを調査します。図1（b）：JudgeLMの異なる特徴と微調整の例。スケーラブルな裁判官としてのLLMのパフォーマンスを向上させるために、裁判官のサンプルを使用します。また、形式バイアス、知識バイアス、および位置バイアスを克服するために、LLMをウェイトジャッジとして微調整するために参照ドロップ、参照サポート、およびスワップ増強も提案されます。図1aに示すように、彼らのデータセットは105Kのシード質問、LLM回答ペア、および教師裁判官で構成されています。各シードチャレンジについて、生徒は参考回答で1つと参考回答なしで1つの意思決定を行いました。このデータセットの分割では、トレーニング用に100Kのシード質問を確保し（PandaLMよりも大きい×2倍）、残りの質問を検証用に確保し（PandaLMよりも29倍大きい）、LLMを裁判官として使用する際には、位置バイアス（特定の状況での応答を好む）、知識バイアス（事前トレーニングされた情報に対する過度の依存）、および形式バイアス（特定のプロンプト形式の下でのみ最適なパフォーマンス）などのバイアスが必ず導入されます。彼らはそれらに対処する方法を提供しています。さらに、図1bに示されるように、彼らのJudgeLMシステムには、マルチターンの会話、単一の応答の評価、およびマルチモーダルモデルに加えて複数の回答の判断など、拡張された機能があります。アリーナ形式のアプローチと比較して、彼らのものは迅速かつコストパフォーマンスの高い解決策です。例えば、JudgeLM-7Bは3分で5000の応答ペアを評価することができ、たった8つのA100 GPUだけが必要です。JudgeLMは、クローズドソースのLLMジャッジよりもプライバシー保護と繰り返し可能性を提供します。彼らの方法では、同時にオープンソースのLLMジャッジと比較して、LLMの微調整のスケーリング能力とバイアスを調査しています。さらに、彼らが提示するデータセットは最も包括的で優れており、将来のモデル分析の研究に大いに役立ちます。以下に彼らの主要な貢献を簡単に説明します： • 彼らはJudgeLMを提案しており、オープンエンドのシナリオでLLMを評価するために設計されたスケーラブルな言語モデルジャッジです。 • 彼らは、多様なシードタスク、LLMが生成した回答、およびGPT-4からの詳細な判断を組み込んだ高品質で大規模なデータセットを導入し、LLMの評価に関する将来の研究のための基盤を築きました。これには人間との合意を超える90％以上の合意があります。さらに、JudgeLMは長時間のジョブを処理するための幅広い機能を備えています。 • 彼らはLLMの中に存在するバイアス、ジャッジの微調整を調査し、いくつかの解決策を提示しています。彼らの技術は、様々なシナリオでのモデルの一貫性を大幅に向上させ、JudgeLMの信頼性と適応性を高めます。

機械学習のための高品質データセットの作成初心者ガイド

このチュートリアルでは、高品質なデータを取得し、機械学習の分類結果を改善する方法を紹介します

「PyMC-Marketingによる顧客のライフタイムバリュー予測」

要約：顧客生涯価値（CLV）モデルは、顧客分析において価値のある顧客を特定するための重要な技術ですCLVを無視すると、過剰な投資が生じる可能性があります...

画像埋め込みのためのトップ10の事前訓練モデル、データサイエンティストが知っておくべきもの

「コンピュータビジョンの急速な進化– 画像分類のユースケースは、転移学習の台頭によってさらに加速されています大規模な画像データセットを使用してコンピュータビジョンニューラルネットワークモデルを訓練するには、多くの計算リソースと時間が必要です幸いなことに、この時間とリソースは…」

「画像認識の再構想：GoogleのVision Transformer（ViT）モデルが視覚データ処理のパラダイムシフトを明らかにする」

画像認識において、研究者や開発者は常に革新的なアプローチを追求してコンピュータビジョンシステムの精度と効率を向上させようとしています。伝統的に、畳み込みニューラルネットワーク（CNN）は画像データの処理に使用されるモデルとして主要な選択肢であり、意味のある特徴を抽出し視覚情報を分類する能力を活用してきました。しかし、最近の進展により、トランスフォーマベースのモデルを視覚データ分析に統合することが促進され、代替アーキテクチャの探求が行われるようになりました。そのような画期的な進展の一つが、ビジョントランスフォーマ（ViT）モデルであり、画像をパッチのシーケンスに変換し、標準のトランスフォーマエンコーダを適用して価値ある洞察を視覚データから抽出する方法を再考しています。セルフアテンションメカニズムを活用し、シーケンスベースの処理を利用することで、ViTは画像認識に新しい視点を提供し、伝統的なCNNの能力を超え、複雑な視覚課題の効果的な処理に新たな可能性を拓いています。 ViTモデルは、2D画像をフラット化された2Dパッチのシーケンスに変換することで、画像データの処理において伝統的な理解を再構築し、元々自然言語処理（NLP）タスクで考案された標準的なトランスフォーマーアーキテクチャを適用します。各層に焼きこまれた画像固有の帰納バイアスに大きく依存するCNNとは異なり、ViTはグローバルなセルフアテンションメカニズムを活用し、モデルが効果的に画像シーケンスを処理するための一定の潜在ベクトルサイズを使用します。また、モデルの設計では学習可能な1D位置埋め込みを統合し、埋め込みベクトルのシーケンス内で位置情報を保持することが可能になります。さらに、ViTはCNNの特徴マップからの入力シーケンス形成を受け入れるハイブリッドアーキテクチャを通じて、異なる画像認識タスクに対する適応性と汎用性を向上させます。提案されたビジョントランスフォーマ（ViT）は、画像認識タスクでの優れたパフォーマンスを示し、精度と計算効率の面で従来のCNNベースのモデルに匹敵します。セルフアテンションメカニズムとシーケンスベースの処理の力を活かして、ViTは画像データ内の複雑なパターンと空間関係を効果的に捉え、CNNに内在する画像固有の帰納バイアスを超越します。モデルの任意のシーケンス長の処理能力と画像パッチの効率的な処理により、ViTはImageNet、CIFAR-10/100、Oxford-IIIT Petsなどの人気のある画像分類データセットを含むさまざまなベンチマークで優れた結果を収めることができます。研究チームによって実施された実験は、JFT-300Mなどの大規模データセットで事前学習を行った場合、ViTが最先端のCNNモデルを圧倒し、事前学習には大幅に少ない計算リソースを使用することを示しています。さらに、モデルは自然な画像分類から幾何学的理解を必要とする特殊なタスクまで幅広いタスクを扱う能力を示し、堅牢かつスケーラブルな画像認識ソリューションとしての潜在能力を確立しています。まとめると、ビジョントランスフォーマ（ViT）モデルは、Transformerベースのアーキテクチャの力を活用して視覚データを効果的に処理する、画像認識における画期的なパラダイムシフトを提案しています。伝統的な画像解析アプローチを再構築し、シーケンスベースの処理フレームワークを採用することにより、ViTは従来のCNNベースのモデルを上回るパフォーマンスを示し、計算効率を維持しながら、さまざまな画像分類ベンチマークで優れた結果を収めます。グローバルなセルフアテンションメカニズムと適応的なシーケンス処理を活用することにより、ViTは複雑な視覚タスクを処理するための新たな展望を開き、コンピュータビジョンシステムの未来に向けた有望な方向性を提供します。

モデルアーキテクチャのための生成AIに向けて

「Attention is All You Need」というトランスフォーマー革命は、深層学習モデルのアーキテクチャの設計に深い影響を与えましたBERTが登場して間もなく、RoBERTa、ALBERT、DistilBERTが続きました...

マイクロソフトの研究者たちは「エモーションプロンプト」を発表しました：複数の言語モデルにおけるAIの感情的知性を向上させる

感情的知性は、人間の質の多様なモザイクの中に位置する歴史的な要素です。感情の理解は、感情的なデータを正しく認識し処理し、そのデータを問題解決や行動管理のような論理的かつ分析的なプロセスの適用に利用する能力です。反射、知覚、認知、行動はすべて感情を生み出し、さまざまな内的および外的要因がこれらの要素に影響を与えることができます。自己モニタリング、社会認知理論、ポジティブな感情の重要性は、感情の制御が人間の問題解決能力に影響を与えることを示しています。その広範囲な効果のため、感情調整理論は教育や健康など、さまざまな分野で使用されています。 CAS、Microsoft、ウィリアム&メアリー大学、北京師範大学、香港科技大学による新しい研究は、EQと洗練されたAIモデルとの関連を調査しています。新興の大規模言語モデル（LLM）は、推論、自然言語処理と生成、STEM問題解決など、さまざまなタスクで印象的なパフォーマンスを発揮しており、人工一般知能への有望な研究の取り組みの一つとなっています。最近の研究では、LLMによる人間によって開発された困難なタスクの実行を許すことで、LLMはAGIへの顕著な潜在能力を示すと示唆されています。しかし、LLMが心理的な感情の衝動を解釈できるかどうかはまだ不明です。心理学的な域内学習方法を使用して、いくつかの学者はさまざまな分野で大きな進歩を遂げています。ただし、容量の違いがあるため、現在利用可能な方法からすべてのLLMが同じように利益を得るわけではありません。最近の研究では、LLMが感情的な手がかりを認識し処理できることが示されていますが、この研究ではLLMの感情的知性がパフォーマンスの向上にどのような重要な影響を与えるかは評価されていません。この新しい研究は、LLMが感情の刺激を理解し活用する潜在能力を調査するための最初のステップを踏み出します。希望、自信、および同輩の承認と関連付けられた感情的手がかりが、以前の心理学的研究で肯定的な効果を持つことが証明されています。この現象の現実世界の応用には、学業成績の向上や身体の健康増進のための励ましの言葉が含まれます。研究者らはこれらの心理学的プロセスに着想を得て、LLMの感情的知性を調査するためのシンプルで強力な方法であるEmotionPromptを提案しました。具体的には、感情的な反応を引き起こすために使用される心理フレーズとして11の文を設計しました。幅広い難易度レベルを含む決定論的および生成課題を、彼らの詳細な調査で使用しています。彼らはFlanT5-Large、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4など、いくつかのLLMでトライアルを行いました。これらのトライアルは24のインストラクション誘導タスクと21のカリキュレートBIG-Benchタスクであり、いずれも決定論的で一般的なメトリックで評価できます。GPT-4に基づいてバニラおよび感情的なプロンプトを使用してタスクの生成品質を判断するために、106人の参加者を対象に人間の研究を行いました。その人間の研究では、感情的なプロンプトが生成タスクのパフォーマンス（パフォーマンス、真実性、責任度の平均改善率が10.9％）を有意に向上させることが示されました。一方、標準的な実験では、LLMは感情的な知性を持ち、感情的な刺激によって向上させることができることが示されています。研究者らはまた、EmotionPromptがLLMにとってなぜ有益なのかを、入力注意を通じた感情的な刺激の最終出力への影響を評価することによって分析しました。その結果、LLMの勾配は感情的な刺激からより重要な重みを持つことで恩恵を受け、元のプロンプトの表現を改善することにより結果を向上させます。モデルのサイズや温度がEmotionPromptの効果にどのような影響を与えるかを学ぶために、彼らは消去研究を実施しました。最後に、多くの感情的な手がかりを一緒に使用することがパフォーマンスにどのような影響を与えるかを調べ、それが結果を大幅に改善することが示されました。探索誘導の場合、EP02が最も優れた刺激であり、最も劣った刺激に比べてパフォーマンスが6.06％向上しました。一方、BIG-Benchの場合、EP06が最も優れた刺激です。刺激のパフォーマンスには、タスクの複雑さ、タスクの種類、使用されるメトリックなど、さまざまな要素が影響することを忘れずにおいてください。

Learn more about Search Results T5 - Page 9