Learn more about Search Results これ - Page 4

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは、さまざまなベンチマークで最先端のパフォーマンスを実現しています。このような進展はLLMにとって重要な課題も提起しており、透明性の問題があります。一般の人々にはこれらの大規模モデルとそのトレーニングプロセスに関するごくわずかな知識しか提供されておらず、この情報を公開することは、このスケールの高品質LLMのトレーニングを容易にするでしょう。 清華大学と智匯AIの研究者グループは、130Bパラメータを持つオープンソースのバイリンガル(英語と中国語)のプリトレーニング言語モデルであるGLM-130Bを公開しました。この論文の研究者たちは、100BパラメータのGPT-3に匹敵するモデルをオープンソース化するために、モデルのトレーニングプロセスおよびその最適化方法を示しています。また、研究者たちは、トレーニングプロセスの成功と失敗の両側面を共有しています。 GLM-130Bは、基本として双方向の一般言語モデル(GLM)を使用しています。このアーキテクチャは、GPTスタイルのモデルと比較してコンテキストの理解を向上させるために、自己回帰的なブランク埋め込みをトレーニング目的としています。GLM-130Bは、LAMBADAのゼロショットで80.2%の正答率を達成することで、GPT-3とPaLM 540Bの両方を上回るパフォーマンスを発揮することができます。 本論文の著者たちは、GLM-130Bのトレーニングプロセスを安定化させるために、さまざまなレイヤーノーマライゼーション(LN)テクニックを試しました。プレLN、ポストLN、サンドイッチLNなどの既存の手法は効果がありませんでしたが、DeepNormで初期化されたポストLNは有望な結果を示しました。モデルのプレトレーニングデータは、オンラインフォーラム、百科辞典などから抽出された2TB以上の英語と中国語のテキストコーパスからなるバランスの取れたデータセットです。 先ほど述べたように、GLM-130BはLAMBADAデータセットで記録的な精度を達成しています。言語モデリングの一連のベンチマークであるPileテストセットでは、GLMモデルのパフォーマンスはGPT-3とJurassic-1と同等でした。また、モデルはMMLUベンチマークでも優れたパフォーマンスを発揮し、そのフューショットのパフォーマンスはGPT-3と同等です。 さらに、BIG-benchベンチマークでは、GLM-130Bがゼロショット設定でGPT-3とPaLMを上回ることができました。モデルは重要なパフォーマンスを示しましたが、研究者たちは、フューショットサンプルに対する成長がGPT-3ほど大きくないことに気付きました。モデルの双方向性や、パラムと品質の面でPaLMと同等のデータセットの制約など、複数の理由があると仮説を立てています。 研究者たちはまた、モデルのゼロショットパフォーマンスを中国のベンチマークでテストしました。GLM-130BはERNIE Titan 3.0を超える10以上のタスクでのパフォーマンスだけでなく、要約MRCの2つのデータセットでも少なくとも260%以上の改善を実現しました。これは、GLMのプレトレーニング目標が、要約MRCに類似した自己回帰的なブランク埋め込みを含んでいるためかもしれません。 まとめると、GLM-130Bは強力なオープンソースのバイリンガルプリトレーニング言語モデルであり、さまざまなベンチマークでGPT-3およびPaLMと同等のパフォーマンスを発揮し、一部のタスクではそれを上回る性能を持っています。そのパフォーマンスに加えて、このモデルの特徴はその開発の透明性です。研究者たちは、モデルのトレーニングプロセスを公にし、成功と失敗の経験も共有しています。このアプローチは、LLMの分野でのオープンかつ包括的な研究への取り組みを反映しています。

テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな進歩が見られています。この技術は、電子商取引のコンテンツ生成において広範な応用があり、人物再識別などの下流のタスクの改善にも役立ちます。しかし、ソースとターゲットのポーズの不一致によるいくつかの課題があります。 研究者たちは、ポーズガイドの人物画像合成の課題を解決するために、さまざまなGANベース、VAEベース、フローベースの手法を試みてきました。GANベースのアプローチは、安定したトレーニングを必要とし、非現実的な結果を生み出す場合があります。VAEベースの手法は、詳細をぼかしたり、ポーズを誤って配置する場合があります。一方、フローベースのモデルはアーティファクトを導入する可能性があります。一部の手法では解析マップを使用していますが、スタイルやテクスチャに苦労することがあります。拡散モデルは有望ですが、改善された結果のためにはポーズの不一致に関連する課題を解決する必要があります。 これらの課題に取り組むために、最近公開された論文ではProgressive Conditional Diffusion Models(PCDMs)が紹介されており、高品質な画像を段階的に生成することができます。予測、密な対応の確立、およびテクスチャと詳細の整合性を向上させるための画像の改善の3つの段階を経て、高品質な画像を生成します。 提案された手法は、ポーズガイドの人物画像合成の中で重要な貢献を提供します。ソースの画像の外観とターゲットのポーズの座標の整合性を明らかにすることで、単純な事前条件の拡散モデルを導入し、グローバルなターゲット画像特徴を生成します。画像の不整合を整列させる画期的なインペイント条件付き拡散モデルは、ソースとターゲットの画像とそれぞれのポーズが画像、ポーズ、特徴の複数のレベルで整列するようにします。さらに、改善条件付き拡散モデルによって画像の品質と忠実度が向上します。 PCDMは、全体の画像合成プロセスに貢献する3つのキーステージで構成されています: 1) 事前条件付き拡散モデル:最初のステージでは、モデルがポーズ座標と画像の外観の整合関係を活用して、ターゲット画像のグローバルな特徴を予測します。モデルは、ソースとターゲットの画像とソース画像のポーズに応じたトランスフォーマーネットワークを使用します。CLIPイメージエンコーダから得られたグローバル画像埋め込みは、ターゲット画像の合成をガイドします。このステージの損失関数は、モデルがノイズのない画像埋め込みを直接予測するように促します。このステージは、特徴レベルでソースとターゲットの画像間のギャップを埋める役割を果たします。 2) インペイント条件付き拡散モデル:インペイント条件付き拡散モデルは、2番目のステージで導入されます。前のステージで得られたグローバルな特徴を利用して、ソースとターゲットの画像間の密な対応を確立し、不整合のある画像から画像への生成タスクを整列させます。このステージでは、画像、ポーズ、特徴を含む複数のレベルでソースとターゲットの画像およびそれぞれのポーズが整列することを保証します。これは、ソースとターゲットの画像間の整列を改善し、現実的な結果を生成するために重要です。 3) 修正条件付き拡散モデル:前の段階で予備的な粗いターゲット画像を生成した後、修正条件付き拡散モデルが画像の品質と詳細のテクスチャを向上させます。このステージでは、前段階で生成された粗い画像を条件として使用して、画像の忠実度とテクスチャの整合性をさらに向上させます。このステージでは、最初の畳み込み層を修正し、ソース画像から特徴を抽出するために画像エンコーダを使用します。クロスアテンションメカニズムは、ネットワークにテクスチャ特徴を注入し、テクスチャの修復と詳細の強化を行います。 この手法は、一連の公開データセットによる包括的な実験によって検証され、定量的なメトリック(SSIM、LPIPS、FID)を介して競争力のあるパフォーマンスを発揮します。ユーザースタディは、メソッドの有効性を更に検証しました。割愛研究は、PCDMsの個々のステージの影響を調査し、その重要性を明らかにしました。最後に、PCDMの人物再識別への適用可能性が示され、ベースライン手法と比較して改善された再識別パフォーマンスを示しました。 まとめると、PCDMはポーズガイドの人物画像合成における顕著な飛躍を示しています。マルチステージアプローチを使用することで、PCDMは整列とポーズの整合性の問題に効果的に対処し、高品質で現実的な画像を生成します。実験は、パフォーマンスの優れた定量的なメトリクスとユーザースタディによるその優れたパフォーマンスを示し、人物再識別タスクへの適用可能性はその実用的な有用性をさらに強調しています。PCDMは、ポーズガイド画像合成のフィールドを進歩させる幅広い応用のための有望な解決策です。

最新のデータを使ってファンデーションモデルを最新の状態に保つ方法は? AppleとCMUの研究者が、VLMの継続的なトレーニングのための最初のウェブスケールの時系列連続性(TiC)ベンチマークを導入しましたこれには12.7Bのタイムスタンプ付きのイメージとテキストのペアが含まれています

CLIP、Flamingo、およびStable Diffusionなどの大規模なマルチモーダル基盤モデルの貢献により、画像生成とゼロショット汎化の以前に考えられなかった改善が実現し、マルチモーダル学習におけるパラダイムの変革が起こっています。これらのベースラインモデルは通常、大規模なウェブスケールの静的データセットを用いてトレーニングされます。OpenAIのCLIPモデルなどの従来のモデルが、2020年までのインターネットスケールのデータでトレーニングされた場合に、将来のデータでどのように機能するかは不明です。 まず、AppleとCarnegie Mellon Universityの研究者たちは、OpenAIのCLIPモデルが、2022年までの最新のキュレーションされたウェブデータセットを使用して開発されたOpenCLIPリポジトリのモデルと比較して、ロバスト性の点でどのように優れているかを調査しています。CLIPモデルを測るための標準が存在しないため、2014年から2022年までの動的な分類および検索のタスクをカバーするデータセットを作成しました。OpenCLIPモデルはパフォーマンスを維持している一方、OpenAIモデルは2021年から2022年のデータと2014年から2016年のデータとの間で検索パフォーマンスに大きな差があることがわかりました。OpenAIのCLIPモデルはわずかによりロバストであるものの、これはImageNetの分布シフトにおける正確性などの典型的なテストに完全に反映されていません。 彼らの研究は、静的ベンチマーク(ImageNetなど)を使用することには限界があり、モデルはデータの分布が変化するに伴って適応・進化する必要があることを明らかにしました。データの変化に対応するための単純で頻繁な手法の1つは、新しい画像テキストデータを得た場合に再びトレーニングを開始し、新しいCLIPモデルをトレーニングすることです。この方法の理論的な根拠は、既存のモデルから新しい入力にモデルの振る舞いを適応させることはより困難であるというものです。ただし、新たな基盤モデルを始めからトレーニングするのに必要な時間とエネルギーを何度も投資することは現実的ではありません。 最近のCLIPモデルの持続的学習技術に焦点を当てた取り組みは、一つの後続タスクまたは少数のタスクで効率を向上させることを目的としています。最近の研究の一部はこれらの課題に取り組み始めていますが、現在のベンチマークは範囲が狭すぎるか、画像テキストデータが関連していないため、真に有用ではありません。 CLIPモデルの時系列トレーニングへの第一歩として、研究者たちは時間の経過によるデータ分布の自然な変化を観察しました。既存のCommonPoolデータセットに「クロールタイム」データを含めることにより、彼らはCLIPモデルの時系列連続トレーニングのための新たなベンチマークであるTIC-DataCompを確立しました。研究者たちはまた、RedditやFlickrなどから収集したインターネットの大規模データセットを再利用して、新たな目的に使用しました。特に、YFCCとRedcapsが提供する時系列情報を使用して、それぞれTIC-YFCCとTICRedCapsを編集しました。新しいデータセットが利用可能になるたびに、この研究は時間の制約内で機能する持続学習技術を構築することを目指しています。これらの戦略は、新しいデータが受け取られるたびにトレーニングパラメータをリセットし、累積計算予算を新しいモデルに費やすOracleとは逆の方向を示しています。 研究者たちは、TIC-CLIPフレームワークでトレーニングされたモデルのゼロショット評価を行いました。評価には、ImageNetやImageNetの分布シフト、Flickrなどの28の確立された分類および検索タスクが使用されました。最後に、彼らは自身のベンチマークを使用して、リプレイバッファ、学習率スケジュール、ウォームスタート、パッチング、蒸留など、さまざまな持続学習アプローチを設計・テストしました。 チームは、最新のチェックポイントでトレーニングを開始し、過去のすべてのデータをリプレイすることにより、累積技術がOracleと同等のパフォーマンスを2.7倍の計算効率で実現することを示す重要な教訓を得ました。彼らはまた、順次トレーニングのための学習率スケジュールや、静的および動的パフォーマンスのためのバッファサイズの間における興味深いトレードオフを示しました。彼らの結果は、11Mサンプルから3Bまでのデータセットにわたる傾向を強調し、テクニックによって一貫性を持たせました。既存のデータセットに追加で収集されたコードとタイミングデータは、近々公開され、広いコミュニティが提案されたベンチマークを使用できるようにする予定です。研究チームは、この未開拓のトピックに光を当てることで、基盤モデルの持続トレーニングへの道を切り開くことを望んでいます。

「これら6つの必須データサイエンススキルをマスターせずにテック業界へ応募しないでください – Spotifyのデータサイエンティストの完全ガイド(ハロウィンエディション)」

あなたはホグワーツからの手紙を待ち続けていますか?あなたのフクロウは郵便で迷子になり、それが二度と来ないかもしれないと心配していますか?もしあなたが魔法使いの世界に参加したいと思うデータサイエンティストならば...

「IBMが脳をモチーフにしたコンピュータチップを発表、これにより人工知能(AI)がより高速かつ省電力で動作する可能性が高まる」

人工知能の絶え間なく進化する領域において、より速く、効率的な処理能力の必要性は、コンピュータサイエンティストやエンジニアにとって絶えずの課題でした。 IBM Researchからの最新のブレークスルー、NorthPoleという専用のコンピュータチップは、有望な解決策を提供しています。この革新的なチップは、専門家の大きなチームによって精巧に作られ、現行の市場提供のAIベースの画像認識アプリケーションと比較して22倍もの速度向上を実証しています。 ChatGPTなどの人気ツールを含む既存のAIアプリケーションは、インターネットアクセス可能なデータに頼ることで時間の遅延に苦労することが多いです。この課題に対応するため、研究者は「エッジ」コンピューティングシステムへの移行の必要性を強調しました。このアプローチでは、データをAIアプリケーションに物理的に近い位置に配置し、より高速な処理と迅速な応答時間を実現します。 NorthPoleは、この目標を達成するために重要な進歩を表しています。その設計は、人間の脳の入念な働きからインスピレーションを受けています。メモリブロックと相互接続されたCPUの二次元配列を通じて、このデジタル全体のアーキテクチャは、コンピューティングコアが近くのブロックと遠くのブロックとの間でシームレスに通信することを可能にします。この革新的なアプローチにより、データの迅速な処理と迅速な応答が容易になります。 研究チームは、NorthPoleを含む様々な既存のチップ、NVIDIA GPUなどとのパフォーマンスを入念に評価しました。その結果は驚くほどでした。NorthPoleは競合他社を上回り、タスクを最大22倍速く完了しました。さらに、トランジスタ速度もより速かったことでその驚異的な能力が強調されました。 ただし、革命的である一方で、NorthPoleには制約があります。このチップは特定のAIプロセスを実行することに特化しており、トレーニングプロセスやChatGPTのような大規模な言語モデルのサポートはできません。この点を認識し、研究者たちは既に次の進展を見据えています。NorthPoleチップの複数の統合をテストする計画が進行中であり、現在の制約を克服し、さらに大きな処理能力を引き出す可能性があります。 結論として、IBM ResearchによるNorthPoleチップの発表は、人工知能の分野における重要なマイルストーンを示しています。この専用チップの驚異的な速度と効率は、AIベースの画像認識アプリケーションを実行する能力において、コンピューティングパワーの限界を超えた未来の一端を垣間見ることができます。現在の制約があるとはいえ、複数のNorthPoleチップの統合を通じた機能の向上の約束は、莫大な可能性を秘めています。将来を見据えると、NorthPoleは人工知能のフィールドを革新し、長年にわたり技術的な景色を形作ることは明らかです。

スタンフォード、NVIDIA、およびUT Austinの研究者は、クロスエピソードカリキュラム(CEC)と呼ばれる新しい人工知能アルゴリズムを提案しましたこれにより、トランスフォーマーエージェントの学習効率と汎化能力が向上します

シーケンシャルな意思決定の問題は、ファウンドメーションモデルの導入によるパラダイムの転換により、大きな変革を遂げています。トランスフォーマーモデルなどのこれらのモデルは、計画、制御、および事前学習された視覚表現など、さまざまな領域を完全に変えてきました。しかし、これらのデータハングリーなアルゴリズムをデータが少ないロボティクスのような領域に適用することは非常に困難です。データの量が制限された状況で、ソースや品質に関係なく、より効果的な学習をサポートするために、アクセス可能なデータを最大限に活用することが可能かどうかという疑問が生じます。 これらの課題に対応するために、研究者グループが最近開発した独特のアルゴリズム、Cross-Episodic Curriculum(CEC)があります。CECテクニックは、カリキュラムに異なる経験が異なる分布で配列される際の方法を活用します。CECの目標は、トランスフォーマーモデルの学習と汎化効率を向上させることです。CECの基本的なコンセプトは、トランスフォーマーモデルにクロスエピソードの経験を組み込んでカリキュラムを作成することです。このカリキュラムでは、オンライン学習トライアルとミックスクオリティのデモが段階的に配置され、学習曲線とエピソード間でのスキル向上が捉えられます。CECは、トランスフォーマーモデルの強力なパターン認識能力を活用して、クロスエピソードの注意機構を作り出します。 チームは、CECの有効性を示すために2つのシナリオを提供しています。 DeepMind Labのディスクリートコントロールを伴うマルチタスク強化学習:このシナリオでは、CECを使用してディスクリートコントロールのマルチタスク強化学習の課題を解決します。CECによって開発されたカリキュラムは、個々の状況と徐々に複雑になる文脈の学習経路を捉えます。これにより、エージェントは学習と適応を小さなステップで進めることで、徐々により難しいタスクをマスターすることができます。 RoboMimic、連続制御のためのミックスクオリティデータを使用した模倣学習 – RoboMimicに関連する第2のシナリオでは、連続制御とミックスクオリティデータを使用した模倣学習が行われます。CECが作成したカリキュラムの目標は、デモンストレーターのレベルの向上を記録することです。 CECによって生成されたポリシーは、どちらのシナリオでも優れたパフォーマンスと強力な一般化能力を示しており、これにより、CECはトランスフォーマーエージェントの適応性と学習効率をさまざまな文脈で向上させるための有効な戦略であることが示唆されています。Cross-Episodic Curriculum法には、次の2つの重要なステップが含まれています。 カリキュラムデータの準備:カリキュラムデータの準備はCECプロセスの初めのステップです。特定の順序と構造でイベントを配置することを意味します。これらのイベントは、カリキュラムのパターンを明確に示すために特定の順序で配置されます。これらのパターンは、単一環境でのポリシー改善、徐々に困難な環境での学習の進展、デモンストレーターの専門知識の向上など、さまざまな形で表現されます。 クロスエピソード注意モデルの訓練:これはモデルの訓練の2番目の重要な段階です。この訓練段階では、モデルはアクションを予測するために訓練されます。この方法の特徴的な点は、モデルが現在のエピソードに加えて以前のエピソードを参照することができることです。これにより、カリキュラムデータで注目された改善とポリシーの調整を内面化することができます。過去の経験を利用するため、学習はより効率的に行われることがあります。 通常、因果トランスフォーマーモデルを示すために、これらの段階を視覚的に示すために色付きの三角形が使用されます。これらのモデルはCECメソッドにとって重要であり、学習プロセスにクロスエピソードのイベントを取り入れるのを容易にします。推奨されたアクションは、「a ^」で示され、意思決定に重要な役割を果たします。

シンガポール国立大学の研究者たちは、ピクセルベースと潜在ベースのVDMを結びつけたハイブリッド人工知能モデルであるShow-1を提案しますこれはテキストからビデオを生成するものです

シンガポール国立大学の研究者たちは、Show-1というハイブリッドモデルを導入しました。テキストからビデオを生成するためのピクセルベースと潜在ベースのビデオ拡散モデル(VDM)の強みを組み合わせています。ピクセルベースのVDMは計算コストが高く、潜在ベースのVDMは正確なテキストとビデオの整合性に苦しんでいますが、Show-1は新しいソリューションを提供します。まず、ピクセルベースのVDMを使用して、強いテキストとビデオの関連性を持つ低解像度のビデオを作成し、その後、潜在ベースのVDMを使用してこれらのビデオを高解像度にアップサンプリングします。その結果、標準的なビデオ生成のベンチマークで検証された正確な整列がされた、高品質で効率的に生成されるビデオが得られます。 彼らの研究はテキストの説明から写実的なビデオを生成する革新的なアプローチを示しています。初期のビデオ作成にはピクセルベースのVDMを活用し、正確な整列と運動表現を保証し、効率的なスーパーレゾリューションには潜在ベースのVDMを利用しています。Show-1はMSR-VTTデータセットで最先端のパフォーマンスを実現し、有望なソリューションです。 彼らの手法は、テキストの説明から非常に現実的なビデオを生成する方法を提案しています。ピクセルベースのVDMを活用して正確な初期ビデオ作成を行い、効率的なスーパーレゾリューションには潜在ベースのVDMを使用します。この手法であるShow-1は、正確なテキストとビデオの整列、運動表現、費用対効果に優れています。 彼らの手法はピクセルベースと潜在ベースのVDMを組み合わせてテキストからビデオを生成します。ピクセルベースのVDMは正確なテキストとビデオの整列と運動表現を保証し、潜在ベースのVDMは効率的なスーパーレゾリューションを実行します。トレーニングにはキーフレームモデル、補間モデル、初期スーパーレゾリューションモデル、およびテキストからビデオ(t2v)モデルが含まれます。キーフレームモデルのトレーニングには3日かかり、補間モデルと初期スーパーレゾリューションモデルはそれぞれ1日かかります。t2vモデルはWebVid-10Mデータセットを使用して3日間の専門的な適応トレーニングが行われます。 研究者はUCF-101データセットとMSR-VTTデータセットで提案手法を評価しました。UCF-101では、ISメトリックによる他の手法との比較で、Show-1は強力なゼロショット能力を示しています。MSR-VTTデータセットでは、FID-vid、FVD、CLIPSIMスコアにおいて最先端のモデルを凌駕し、優れた視覚的な一致性と意味的な結束性を示しています。これらの結果は、Show-1が高度に忠実で写実的なビデオを生成する能力を確認し、光学的な品質とコンテンツの一致性に優れていることを示しています。 ピクセルベースと潜在ベースのVDMを結合したShow-1は、テキストからビデオの生成において優れた性能を発揮します。この手法は正確なテキストとビデオの整列、運動表現、効率的なスーパーレゾリューションを保証し、計算の効率性を高めます。UCF-101データセットとMSR-VTTデータセットでの評価は、他の手法を凌駕するかそれに迫る優れたビジュアル品質と意味的な一致性を確認しています。 今後の研究では、テキストからビデオの生成においてピクセルベースと潜在ベースのVDMを組み合わせること、効率を最適化し、整列を改善するための別の手法を探求する必要があります。高度な整列と運動表現のための代替手法の探索や、様々なデータセットの評価も検討するべきです。転移学習と適応性の調査も重要です。時間的な結束性を高め、現実的な出力と品質評価のためのユーザースタディを強化することは不可欠であり、テキストからビデオの進歩を促進します。

「Pythonデコレータ:包括的なガイド」

「Pythonのデコレータは、理解していると簡単に思える概念の一つですが、そうでない場合は非常に難しいと思われるものです多くのPython初心者は、それらを学び、使用しなければならない魔法のツールと見なしています...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us