Learn more about Search Results 15 - Page 16
- You may be interested
- 『ChatGPTを活用したソフトウェアテストと...
- 写真を撮るだけで、財産の査定を簡単にする
- 「DeepMindからスタートアップの成功へ:A...
- 『3Dディープラーニングへの道:Pythonで...
- 「あなたのデータは(ついに)クラウドに...
- 『インドで働くためのトップ10のAIスター...
- LLMの理論的思考力を向上させるための方法...
- オリジナルのPDFのフォーマットを保持し、...
- あなたが作るものはあなたそのものです:...
- Hugging Faceの機械学習デモ(arXiv上)
- 「OpenLLMの紹介:LLMのためのオープンソ...
- 大規模言語モデルを使用した要約のための...
- 新しい視点から世界を見るために反射を使...
- 「生成的なAIアプリケーションと3D仮想世...
- 「WavJourneyをご紹介します:大規模な言...
「2024年のデータサイエンティストにとってのトップ26のデータサイエンスツール」
イントロダクション データサイエンスの分野は急速に進化しており、最新かつ最もパワフルなツールを活用することで、常に最先端に立つことが求められます。2024年には、プログラミング、ビッグデータ、AI、可視化など、データサイエンティストの業務のさまざまな側面に対応した選択肢が豊富に存在します。この記事では、2024年のデータサイエンスの領域を形作っているトップ26のデータサイエンスツールについて探っていきます。 データサイエンティストのためのトップ26のツール プログラミング言語によるツール 1. Python Pythonは、そのシンプルさ、多様性、豊富なライブラリエコシステムのため、データサイエンティストにとって必須の言語です。 主な特徴: 豊富なライブラリサポート(NumPy、Pandas、Scikit-learn)。 広範なコミュニティと強力な開発者サポート。 2. R Rは統計プログラミング言語であり、データ分析と可視化に使用され、頑健な統計パッケージで知られています。 主な特徴: 包括的な統計ライブラリ。 優れたデータ可視化機能。 3. Jupyter Notebook Jupyter Notebookは対話型のコンピューティング環境であり、データサイエンティストがライブコード、数式、可視化、ナラティブテキストを含むドキュメントを作成し共有することができます。 主な特徴: 複数の言語(Python、R、Julia)のサポート。 インタラクティブで使いやすい。…
このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています
最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成することができます。テキストから画像の生成に成功することは稀であり、3Dトレーニングデータが必要なため、テキストから3Dへの移行は難しいです。拡散モデルと微分可能な3D表現の良い性質により、最近のスコア蒸留最適化(SDS)ベースの手法では、事前学習済みの大規模テキストから画像を生成するモデルから3D知識を抽出し、大量の3Dデータで完全に学習する代わりに、印象的な結果を達成しています。DreamFusionは、3Dアセットの作成に新たなアプローチを導入した模範的な研究です。 過去1年間で、2Dから3Dへの蒸留パラダイムに基づいて方法論が急速に進化してきました。複数の最適化段階を適用することで、生成品質を改善するための多くの研究が行われており、3D表現の前に拡散を最適化したり、スコア蒸留アルゴリズムをさらに精密化したり、パイプライン全体の詳細を向上させたりしています。これらの手法は細かいテクスチャを生成できますが、2Dの拡散先行は依存していないため、生成された3Dコンテンツの視点の一貫性を確保することは困難です。そのため、複数のビュー情報を事前学習済みの拡散モデルに強制的に組み込むための試みがいくつか行われています。 ベースモデルは制御ネットワークと統合され、制御されたテキストからマルチビュー画像の生成が可能になります。同様に、研究チームは制御ネットワークのみを訓練し、MVDreamの重みはすべて凍結されています。研究チームは実験的に、相対姿勢条件が条件画像に関してテキストからマルチビューの生成を制御するためにより良い結果をもたらすことを発見しました。これに対して、MVDreamが絶対座標系で記述されたカメラの姿勢で訓練されている場合でも、事前学習済みのMVDreamネットワークの記述とは異なります。さらに、視点の一貫性は、シングルイメージの作成に対応する条件付けメカニズムを持つ2D ControlNetの制御ネットワークをベースモデルとの相互作用に直接採用することで容易に達成できます。 これらの問題に対処するために、浙江大学、西湖大学、同济大学の研究チームは、制御ネットワークを基にした独自の条件付けテクニックを作成し、制御されたテキストからマルチビューの生成を提供するために十分に成功したControlNetアーキテクチャを提案しました。幅広い2DデータセットLAIONと3DデータセットObjaverseの一部を共同で使用してMVControlを訓練しました。この研究では、エッジマップを条件として使用することを調査しましたが、彼らのネットワークは深度マップ、スケッチ画像など、さまざまな種類の入力状況を活用する能力に制約はありません。訓練が終了すると、研究チームはMVControlを使用して制御されたテキストから3Dアセットの生成に3D先行を提供することができます。具体的には、MVControlネットワークと事前学習済みのStable-Diffusionモデルに基づくハイブリッド拡散先行が使用されます。細かいステップでは、ベースモデルから十分なジオメトリを得た段階でのテクスチャの最適化のみが行われます。包括的なテストにより、提案された手法が入力条件画像と書かれた説明を使用して、高精度で細かい制御が可能なマルチビュー画像と3Dコンテンツを生成できることが示されています。 まとめると、以下が彼らの主な貢献です。 ・ネットワークが訓練された後、SDS最適化を介した制御されたテキストから3Dコンテンツ合成にハイブリッド拡散の一部として使用できます。 ・独自のネットワーク設計を提案し、細かい制御が可能なテキストからマルチビュー画像の生成を実現します。 • 彼らのアプローチは、入力条件画像とテキストのプロンプトによって細かく制御されることができる高精度なマルチビュー画像と3Dアセットを生成することができます。これは、広範な実験結果によって示されています。 • SDS最適化による3Dアセットの生成に加えて、彼らのMVControlネットワークは、3Dビジョンとグラフィックのコミュニティでさまざまなアプリケーションに役立つ可能性があります。
「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」
人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施すために、痛みの特定は重要な第一歩です。特に痛みを伝えることができない人々では、代替の診断技術の使用が求められます。 従来の方法には、痛み評価システムの使用や行動反応の追跡などがありますが、主観性、妥当性の欠如、観察者のスキルとトレーニングへの依存、そして痛みの複雑な感情と動機的な側面を十分に表現できないなど、いくつかの欠点があります。特にAIを活用することで、これらの問題に取り組むことができます。 いくつかの動物種には、苦痛の重要な指標となる表情があります。苦痛のある人とそうでない人を区別するために表情の尺度が確立されています。これらは特定の顔のアクションユニット(AU)にスコアを割り当てることで機能します。しかし、現在のグリマスケールを使用して静止画やリアルタイムの痛みをスコアリングするための技術は、労働集約的で手動のスコアリングに重く依存しているという制約がいくつかあります。また、毛色、品種、年齢、性別に加えて、さまざまな自然発生的な痛みの症候群をカバーし、幅広い動物データセットを考慮した完全に自動化されたモデルの不足が指摘されています。 これらの課題を克服するため、研究チームは最近の研究で「猫の表情指標スケール(FGS)」を提案し、猫の急性疼痛を評価するための信頼性のある手法として提示しました。このスケールを構成するために5つのアクションユニットが使用され、それぞれが存在するか否かに基づいて評価されています。累積FGSスコアは、猫が不快感を経験しており、援助を必要としている可能性を示します。FGSは、使用の容易さと実用性により、急性疼痛評価においてさまざまな文脈で使用できる柔軟な手法です。 FGSスコアと顔の特徴点は、ディープニューラルネットワークと機械学習モデルを利用して予測されました。畳み込みニューラルネットワーク(CNN)が使用され、サイズ、予測時間、スマートフォン技術との統合の可能性、および正規化された二乗平均平方根誤差(NRMSE)に基づく予測パフォーマンスなどの要素に基づいて必要な予測を行うためにトレーニングされました。データ解析を改善するために、35の幾何学的記述子が並列して生成されました。 FGSスコアと顔の特徴点はXGBoostモデルにトレーニングされました。平均二乗誤差(MSE)と精度メトリックを使用して、これらのXGBoostモデルの予測パフォーマンスを評価するために使用されました。この調査で使用されたデータセットには、37の特徴点で煩雑な注釈がされた3447枚の猫の顔写真が含まれています。 研究チームは、評価の結果、ShuffleNetV2が顔の特徴点の予測において最良の選択肢として浮上し、最も成功したCNNモデルは、正規化された二乗平均平方根誤差(NRMSE)が16.76%でした。最も優れたXGBoostモデルは、FGSスコアを95.5%の驚異的な精度と0.0096の最小平均二乗誤差(MSE)で予測しました。これらの測定結果は、猫の痛みの有無を区別するための高い正確性を示しています。猫の疼痛の評価プロセスを簡素化し、改善するためにこの技術的な進展が利用できることを結論として述べられています。
「ハグフェース上のトップ10大きな言語モデル」
イントロダクション Hugging Faceは、自然言語処理の愛好家や開発者にとって宝庫となり、さまざまなアプリケーションに簡単に統合できる事前学習済み言語モデルの幅広いコレクションを提供しています。Large Language Models(LLM)の世界で、Hugging Faceは頼りになるプラットフォームとして際立っています。この記事では、Hugging Faceで利用可能なトップ10のLLMモデルを紹介し、言語理解と生成の進化する景色に貢献します。 さあ、始めましょう! Mistral-7B-v0.1 Mistral-7B-v0.1は、70億のパラメータを誇る大規模言語モデル(LLM)です。これは事前学習済みの生成テキストモデルとして設計されており、Llama 2 13Bが検証されたドメインで設定したベンチマークを上回ることで知られています。このモデルは、グループ化されたクエリアテンションやスライディングウィンドウアテンションなどの注意機構に特定の選択を行ったトランスフォーマーアーキテクチャに基づいています。Mistral-7B-v0.1は、Byte-fallback BPEトークナイザーも組み込んでいます。 ユースケースとアプリケーション テキスト生成:Mistral-7B-v0.1は、コンテンツ作成、創造的な文章作成、または自動ストーリーテリングなど、高品質のテキスト生成を必要とするアプリケーションに適しています。 自然言語理解:高度なトランスフォーマーアーキテクチャと注意機構を備えたこのモデルは、感情分析やテキスト分類などの自然言語理解を必要とするタスクに適用することができます。 言語翻訳:生成能力と大規模なパラメータサイズを考慮すると、このモデルはニュアンスのある文脈に即した正確な翻訳が重要な言語翻訳タスクで優れたパフォーマンスを発揮するかもしれません。 研究開発:研究者や開発者は、さまざまな自然言語処理プロジェクトでのさらなる実験や微調整のためにMistral-7B-v0.1をベースモデルとして活用することができます。 このLLMにはこちらでアクセスできます。 Starling-LM-11B-alpha この大規模言語モデル(LLM)は、110億のパラメータを持ち、NurtureAIから生まれました。このモデルは、その基盤としてOpenChat 3.5モデルを利用し、AIのフィードバックからの強化学習(RLAIF)によるfine-tuningを経ています。このアプローチでは、ヒトによってラベル付けされたランキングのデータセットを利用してトレーニングプロセスを誘導します。 ユースケースとアプリケーション Starling-LM-11B-alphaは、マシンとの対話方法を革新する潜在的な大規模言語モデルであり、オープンソースの性質、優れたパフォーマンス、多様な機能を備えており、研究者、開発者、クリエイティブプロフェッショナルにとって貴重なツールです。…
メタAIは、オープンで創造的なAIモデルを使って倫理的に建設するために、パープルラマをコミュニティの支援として発表しました
<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-1024×710.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-150×150.png”/><p>データの増加、モデルサイズ、自己回帰言語モデリングのための計算能力の向上により、対話型AIエージェントは過去数年で驚くべき進化を遂げました。チャットボットは、自然言語処理、推論、ツールの習熟度など、多くの有用なスキルで知られる大規模な言語モデル(LLM)を使用することがよくあります。</p><p>これらの新しいアプリケーションは、潜在的な危険を軽減するために徹底的なテストと慎重な展開が必要です。したがって、生成AIによって動作する製品には、ポリシーに違反する高リスクなコンテンツの生成を防ぐための保護策を実装することが推奨されます。さらに、アドバーサリアルな入力やモデルのジェイルブレイクの試みを防ぐためにも、これらはLlama 2 Responsible Use Guideなどのリソースで確認できます。</p><p>オンラインのコンテンツを管理するためのツールを探している場合、Perspective API1、OpenAI Content Moderation API2、およびAzure Content Safety API3はすべて良い出発点です。ただし、これらのオンラインモデレーション技術は、入出力のガードレールとして使用した場合にはいくつかの理由で失敗します。最初の問題は、ユーザーとAIエージェントの危険性を区別する方法が現在存在しないことです。結局のところ、ユーザーは情報や援助を求めますが、AIエージェントはそれを提供する可能性が高いです。さらに、すべてのツールは設定されたポリシーを強制するため、ユーザーはツールを新しいポリシーに合わせて変更できません。第三に、個々のユースケースに合わせて微調整することは不可能です。最後に、すべての既存のツールは控えめな伝統的なトランスフォーマーモデルに基づいています。より強力なLLMと比較すると、これは彼らのポテンシャルを大幅に制限します。</p><p>新しいメタ研究は、会話型AIエージェントのプロンプトとレスポンスの潜在的な危険を分類するための入出力保護ツールを明らかにします。これにより、LLMを基にしたモデレーションが可能となり、この分野でのニーズを満たします。</p><p>彼らの分類ベースのデータは、ロジスティック回帰に基づく入出力保護モデルであるLlama Guardをファインチューニングするために使用されます。 Llama Guardは関連する分類ベースをモデルの入力として受け取り、指示義務を適用します。ユーザーは、ゼロショットまたはフューショットのプロンプティングを使用してモデルの入力を個別のユーズケースに適した分類ベースでカスタマイズすることができます。推論時間では、複数のファインチューニングされた分類ベースの中から選択し、適切にLlama Guardを適用することができます。</p><p>彼らは、LLMの出力(AIモデルからの応答)とヒューマンリクエスト(LLMへの入力)のラベリングに異なるガイドラインを提案しています。したがって、ユーザーとエージェントの責任の意味差をLlama Guardが捉えることができます。 LLMモデルがコマンドに従うという能力を利用することで、彼らはたった1つのモデルでこれを実現することができます。</p><p>彼らはまた、Purple Llamaを発表しました。将来的には、これはリソースと評価をまとめたプロジェクトとなり、オープンで創造的なAIモデルを倫理的に構築するためのコミュニティを支援します。サイバーセキュリティと入出力保護ツールおよび評価は、最初のリリースの一部となり、さらに多くのツールが追加されます。</p><p>彼らは業界で初めてのLLMのための包括的なサイバーセキュリティ安全評価を提供しています。これらのガイドラインは、セキュリティの専門家と共同で開発され、業界の推奨事項や基準(CWEやMITRE ATT&CKなど)に基づいています。この最初のリリースでは、ホワイトハウスが責任あるAIの創造を約束した中で、以下のような危険を緩和するのに役立つリソースを提供することを目指しています。</p><ul><li>LLMサイバーセキュリティの脅威を数量化するためのメトリック。</li><li>安全でないコード提案の普及を評価するためのツール。</li><li>LLMをより安全に書き換えることやサイバー攻撃の実行を助けるための手段。</li></ul><p>これらのツールにより、LLMが安全でないAI生成コードを提案する頻度を減らすことによって、サイバー攻撃者へのLLMの有用性が低下すると予想されます。彼らの研究では、LLMが安全でないコードを提案したり、悪意のあるリクエストを受け入れたりする場合に、深刻なサイバーセキュリティの懸念があることがわかっています。 </p><p>LLMへのすべての入力と出力は、Llama…
NexusRaven-V2をご紹介します:13B LLMは、ゼロショット機能呼び出しでGPT-4を凌駕し、ナチュラルランゲージの指示を実行可能なコードに変換する能力を持っています
<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.42.47-AM-1024×623.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.42.47-AM-150×150.png”/><p>LLMsは、コード関連のデータセットで微調整することができ、関数呼び出しを含むコードスニペットを生成することができます。これらのモデルは、コンテキストやプロンプトによって提供された入力に基づいて、関数呼び出しを含むコードを提案または生成することができます。言語モデルは、コードに関連するクエリや指示の自然言語理解に使用することができます。開発者は質問や説明を入力し、モデルはそれらを解釈して関連する関数呼び出しやコードセグメントを提供することができます。</p><p>LLMsは、提供されたコンテキストや部分的なコードに基づいて、関数呼び出しを提案したり関連する関数を提案したりすることによって、コード補完を支援することができます。これにより、開発者はより迅速かつ正確にコードを記述することができます。LLMsは、特定のタスクや問題の説明に基づいて、適切なAPIや手順をガイドすることで、開発者がコード内で呼び出すべき適切な関数を見つけるのを支援することができます。LLMsを開発環境に統合することで、開発者に対して関数呼び出し、パラメータのタイプ、または潜在的なエラーに対してリアルタイムのサポートを提供することができます。</p><p>Nexusflowの研究者は、オープンソースのLLMモデル、<strong><a href=”https://www.voagi.com/nexusravenv2-outperforms-gpt4-in-nexusflows-latest-battle.html”>NexusRaven-V2</a></strong>を提案しています。これは自然言語の指示を実行可能なコードに変換してツールを使用することができます。OpenAIアシスタントAPIは、コパイロットとエージェントがソフトウェアツールを使用するための鍵として機能します。NexusRaven-V2は、コパイロットとエージェントのオープンソースモデルを進化させることを目指しています。</p><p>NexusRaven-V2は、ネストや複合関数を使用する人間が生成したユースケースで、関数呼び出しの成功率でGPT-4を最大7%上回っています。NexusRavenはMetaのCodeLlama-13 Bインストラクションにチューニングされた指示です。Nexusflowのパイプラインを使用して、プロプライエタリなLLMを使用せずにオープンコードのコーポラから情報源を提供しています。コミュニティ開発者と企業の両方に対して商業許容です。</p><p>当社の人間によるベンチマークで、NexusRaven-V2は、関数呼び出しの成功率において、最新のGPT-4モデルよりも平均で4%高い成功率を示すことが観察されました。なお、ネストや複合関数呼び出しを必要とする4つの厳しいタスクでは、NexusRaven-V2の方がGPT-4よりも堅牢性が高いと言えます。また、開発者の関数の説明におけるバリエーションを処理する際にも、NexusRaven-V2はGPT-4よりも優れた性能を発揮します。</p><p>チームは、ユーザーがメインストリームのプロプライエタリな関数呼び出しAPIをシームレスにNexusRaven-V2で置き換えることができるオープンソースのユーティリティアーティファクトをリリースしました。また、オンラインデモやコラボノートブックを提供してオンボーディングと統合デモを行っています。彼らは評価ベンチマーク<a href=”https://www.voagi.com/call-all-functions.html”>Nexus-Function-Calling</a>をオープンソース化し、Huggingfaceの<a href=”https://www.voagi.com/create-and-analyze-advanced-machine-learning-models-using-the-sagemaker-canvas-model-leaderboard.html”>リーダーボード</a>を確立しています。このリーダーボードには、さまざまな関数呼び出しのユースケースと難易度をカバーした、実生活で人間が選定した関数呼び出しの例が多数収録されています。</p><p>将来的には、関数呼び出しのLLMは教育現場において、学習者がリアルタイムのサポートを受けながら関数の呼び出し方を正しく学び、プログラミングの概念の理解を促進することができるでしょう。</p>
UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました
現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復するために人々が計画するのに重要な役割を果たしており、気候変動への懸念が高まる中で環境をよりよく理解するために研究者を支援しています。数値天気予報(NWP)モデルは、大気科学者の業務の中核です。これらのモデルは、熱力学と流体力学を説明する微分方程式のシステムを使用し、時間を経て結合されることで将来の予測を作成します。NWPモデルは、放射や雲物理学などの重要な小スケールの物理現象のパラメータ化の誤りなど、いくつかの欠点がありますが、広く使用されています。 大規模な微分方程式の統合の困難さから、数値的なアプローチは特に空間および時間の解像度を高くする場合には計算コストが非常に高くなります。さらに、これらのモデルは気候科学者の知識に依存して方程式、パラメータ化、アルゴリズムを改善するため、NWPの予測精度は追加データによっては改善されません。NWPモデルの問題に対処するため、ますます多くの人々がデータ駆動型、深層学習ベースの天気予測手法に関心を示しています。歴史的データ(ERA5再解析データセットなど)を使用して、深層ニューラルネットワークは将来の天気予測を訓練するために使用されます。これがこの手法の主たる前提です。従来のNWPモデルが数時間かかるのに対し、訓練後は数秒で予測することができます。 この分野の初期の取り組みでは、気象データと自然の画像は似たような空間構造を持つため、ResNetやUNetなどの従来のビジョンアーキテクチャを天気予測に使用しようとしました。しかし、それらのパフォーマンスは数値モデルに劣っていました。しかし、改善されたモデル設計、トレーニングレシピ、データとパワーの増加により、最近では注目すべき進展がありました。最初に実用IFCを上回ったモデルは、0.25°データ(721×1440グリッド)でトレーニングされた3D地球特有のトランスフォーマーモデルであるPangu-Weatherでした。すぐに、Keislerのグラフニューラルネットワーク設計がGraphCastによって0.25°データにスケールアップされ、Pangu-Weatherを上回る結果を示しました。 予測精度は優れているものの、現在の手法では複雑で高度にカスタマイズされたニューラルネットワークのトポロジーがしばしば使用され、抜け穴実験がほとんど行われないため、その効果の正確な要素を特定するのは困難です。たとえば、GraphCastにおける多重メッシュメッセージパッシングが効率にどの程度貢献しているのか、3D地球特有のトランスフォーマーが通常のトランスフォーマーと比べてどのような利点を持っているのかは分かりません。この分野では、これらの現行手法をより良く理解し、できれば簡素化するために統合フレームワークが必要です。また、気候や天候の予測を超える気象基礎モデルを作成することも容易になります。この研究では、適切なトレーニングの公式と組み合わせることで、簡単な設計が先端技術を上回る性能を発揮することを示しています。 UCLA、CMU、Argonne National Laboratory、およびPenn State Universityの研究者は、Stormerと呼ばれる、従来のトランスフォーマーのバックボーンにほとんどの変更を加える必要のないシンプルなトランスフォーマーモデルを提案しています。研究チームは、従来のビジョントランスフォーマー(ViT)アーキテクチャをベースにして、モデルのパフォーマンスに影響を与える3つの要素を詳細に調査しました:モデルは次の3つの要素から構成されます:(1)大気変数間の相互作用をモデル化し、入力データをトークンのシーケンスに変換する天気固有の埋め込み層、(2)モデルをランダムな間隔で天気の動態を予測するようにトレーニングするランダムなダイナミクス予測目標、(3)ロス関数において異なる圧力レベルの変数を重み付けして各圧力レベルの密度を近似する圧力加重ロス。提案されたランダムなダイナミクス予測目標は、モデルがトレーニングされた間隔のさまざまな組み合わせを使用することによって、推論中に特定のリードタイムに対して多くの予測を生成するため、1つのモデルが複数の予測を可能にします。 たとえば、6時間の予測を12回配布するか、12時間の予測を6回配布することで、3日間の予測を得ることができます。これらの予測を組み合わせることにより、特に長期のリードタイムにおいて、大きな性能向上が得られます。研究チームは、データ駆動型の天気予測のための人気のあるベンチマークであるWeatherBench 2を使用して、Stormerという提案手法を評価しました。テスト結果は、Stormerが7日後に先端の予測システムを上回り、1日から7日間の重要な大気変数の予測精度で競争力のある結果を達成していることを示しています。特に、Stormerはほぼ5倍低解像度データおよび数桁少ないGPU時間で訓練されることにより、ベースラインよりも性能が向上しています。さらに、スケーリングの研究により、モデルの容量とデータサイズを増やすとStormerの性能が継続的に向上する可能性があることが証明されました。
Google DeepMindの研究者は、言語モデル(LM)のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code(CoC)」を提案しました
Google DeepMind、スタンフォード大学、およびカリフォルニア大学バークレー校の研究者たちは、言語モデルのコード駆動型の推論能力を向上させる問題に対処するために、Code of Chain(CoC)を開発しました。CoCは、LM(“LMulator”としての言語モデルを示す)でシミュレーションするために、undefinedな動作を明示的にキャッチし、シンタックス上のセマンティックなサブタスクを柔軟な擬似コードとしてフォーマットすることを促すことで、問題に対処します。CoCは、大規模なモデルや小規模なモデルでスケーリングが可能であり、コードで考えることで、LMが正しく答えることができる推論の範囲を広げることができます。 Chain of Thought、最小から最大まで、およびScratchPadのようなワークは、タスクを中間ステップに分解するか、中間結果のトレースを保持することにより、プロンプトを活用して推論能力を向上させています。GithubでトレーニングされたLMは、コードの記述と実行を促すようにプロンプトされ、数値または記号的な推論を含む複雑な問題を解決するのに役立ちます。 CoCは、与えられた問題を解決するために、コード構造内の推論のサブステップを生成します。このコードは、痛みを通して推論するためのフレームワークを提供し、明示的なコード、擬似コード、または自然言語の形式で表される場合があります。CoCは、コードによる表現の利点とLMの優れたセマンティックおよび常識的な知識を組み合わせることで、新たな領域でコードの使用を可能にします。コードで表現が難しいルールを簡単に表現できます(たとえば、果物はどのような食べ物ですか?)。 CoCの主要な貢献は、推論コードの生成だけでなく、その実行方法です。コードが書かれた後、コードはコードインタプリタ(この研究ではPythonが考慮されていますが、アプローチ自体は任意のインタプリタに適用可能です)で実行されようとします。コードが正常に実行される場合、プログラムの状態が更新され、実行が続行されます。コードが実行不可能であるか例外を発生させる場合、言語モデルは代わりに実行のシミュレーションに使用されます。言語モデルの出力がプログラムの状態を更新し、実行が続行されます。 CoCアプローチの全体的なパフォーマンスは、他の方法を上回り、タスク数と全体的な量の両方で人間の基準を超えています。CoCは、いくつかの研究において最先端のパフォーマンスを実現しています。Chain of Thoughtプロンプティングと同様に、モデルのサイズが増えるほど性能が向上します。クロスタスクプロンプティングは、すべての方法においてパフォーマンスが低下しますが、CoCはスケール時にはChain of Thoughtと直接プロンプティングを上回るパフォーマンスを示し、人間の平均パフォーマンスに近づきます。 CoCは、言語モデルを用いた推論をコードの記述とコードの実行により行うアプローチです。コードが実行不可能な場合、インタプリタまたはコードの実行をシミュレーションする言語モデルを使用することができます。CoCは、規制の表現の表現力豊かな構造とその強力なツールの両方を活用できます。さらに、実行不可能なコードのシミュレーションにより、CoCはコードの範囲外の問題(例えば、意味的な推論問題)に適用することができます。
Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス
トランスフォーマーは最初に導入され、自然言語処理の主要なアーキテクチャとして急速に台頭しました。最近では、コンピュータビジョンでも非常に人気があります。Dosovitskiyらは、画像をパッチのシーケンスに分割し、それらのパッチを線形に埋め込み、その結果得られる特徴のシーケンスをトランスフォーマーエンコーダに供給することで、CNNベースのアーキテクチャに勝る効果的な画像分類器を作成する方法を示しました。セグメンテーション、検出、および分類などの多くの区別的なビジョンタスクにおいて、このアプローチは現在の標準です。ただし、生成トランスフォーマーデコーダはある事前定義された有限のボキャブラリーから離散的なトークンを消費して予測するため、画像を(非量子化された)特徴ベクトルのシーケンスにマッピングすることは、トランスフォーマーベースの画像生成には適切ではありません。 このような構造は自然言語に自然に適合し、デコーダーモデル単体では、効果的なトレーニングがインストラクターフォースと強力な連続生成モデリングを介して可能です。最近の取り組みでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)を使用して画像を離散トークンのシーケンスにマッピングし、その後、トランスフォーマーデコーダを使用して潜在的な離散トークンの分布をモデル化するための手法を採用しています。このアプローチは、画像を利用した多走的生成モデルも容易にします。しかし、2段階のメソッドは画像とマルチモーダルコンテンツの作成には適していますが、いくつかの問題があります。 VQ-VAE内のボキャブラリーサイズによって、潜在的なモデリングや画像の細部調整の調整が困難になるため、潜在的なコードの情報量が減少します。また、トークンを使用して密度予測や低レベルの区別的なタスクにトークンを使用するアプリケーションの品質にも影響を与えます。ボキャブラリーサイズの拡大はこの問題の解決に役立ちますが、それによってボキャブラリーの使用が不十分になる場合があります。したがって、高品質なVQ-VAEセットアップでは、エントロピー損失やコードブックの分割などの洗練された方法に頼る必要があります。さらに、巨大なボキャブラリーは記憶容量を多く消費する埋め込み行列をもたらし、異なるモダリティのボキャブラリーが混在するマルチモーダルシナリオでは、問題が発生する可能性があります。研究チームは、これらの問題を回避するために、デコーダーモデルを変更して、離散的なトークンと、したがって、固定された有限のボキャブラリーを必要としない連続した実数値のベクトルシーケンスで動作する生成トランスフォーマーデコーダを提案しています。 特に、Google DeepMindとGoogle Researchの研究チームは、実数値のベクトルシーケンスを用いて機能する生成型無限ボキャブラリートランスフォーマー(GIVT)を提案しています。実数値のベクトルは無限ボキャブラリーと見なすことができるため、研究チームはこれをGIVTと呼んでいます。図1に示されているように、研究チームはトランスフォーマーデコーダの設計をわずかに変更しました(合計2つの変更)。1)入力では、研究チームは離散的なトークンの代わりに連続した実数値のベクトルシーケンスを線形に埋め込む。2)出力では、研究チームは有限のボキャブラリー上のカテゴリカル分布のパラメータを予測するのではなく、連続した実数値のベクトル上の連続した分布のパラメータを予測します。研究チームは、教師強制と因果関係注意マスクを使用してこのモデルをトレーニングしました。また、研究チームはMaskGITに類似した高速進行マスクバイダイレクショナルモデリングも調査しました。 図1は、連続した無限ボキャブラリーのバリエーション(右側のGIVT)を典型的な離散トークン生成トランスフォーマー(左側)と比較するための同じデコーダーモデルを使用しています。 GIVTは、入力時に斜めに並んだ連続した実数値ベクトルのシーケンスで離散トークンを置き換えます。有限のボキャブラリー上のカテゴリカル分布を予測する代わりに、GIVTは出力時に連続した実数値ベクトル上の連続した分布のパラメータを予測します。 高解像度の画像を平坦化して生成されるRGBピクセルの系列は、理論的には任意の特徴ベクトルの系列にGIVTを適用することができるものの、直接的にモデル化するのは難しい例です。それは長くて複雑な分布を持っていることもあります。したがって、研究チームはまず、ガウス事前VAEを使用して低次元の潜在空間をトレーニングし、次にGIVTでモデル化します。これは、VQ-VAEと類似した2段階のテクニックに似ています。研究チームはまた、シーケンスモデリングの文献からいくつかの推論戦略(温度サンプリングや分類器フリーガイディングなど)を転用しました。 注目すべきは、実数値トークンだけを使って、これによってVQベースの技術と同等か優れたモデルが生成されることです。以下に彼らの主な貢献を簡潔に述べます: 1. UViMを使用して、研究チームはGIVTが密な予測タスク(セマンティックセグメンテーション、深度推定、ピクチャーシンセシスなど)において、通常の離散トークン変換デコーダーよりも同等または優れたパフォーマンスを達成することを示しています。 2. 研究チームは、連続ケースにおける従来のサンプリング方法の効果(温度サンプリング、ビームサーチ、分類器フリーガイディング)の派生と有効性を導き出し、証明しました。 3. KL項の重み付けを使用して、研究チームはVAE潜在空間の正規化レベルと現れるGIVTの特性との関連性を検討しました。研究チームは、VQ-VAE文献の洗練されたトレーニング方法(潜在表現への補助損失、コードブックの再初期化、専用の最適化アルゴリズムなど)はVAEおよびGIVTのトレーニングでは使用されていないことを強調しており、単純に通常の深層学習ツールボックスのアプローチに依存していると述べています。
機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索
アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生成するためには、通常、視覚知覚を理解してだます必要があります。しかし、新しいアプローチが登場し、これらの魅力的な多視点光学錯視を簡単かつ効果的に生成する方法を提供しています。 視覚錯覚を作成するためのさまざまなアプローチが存在しますが、ほとんどは人間がイメージをどのように理解するかについての特定の仮定に依存しています。これらの仮定はしばしば、われわれの視覚体験の本質をときどき捉えるだけの複雑なモデルにつながります。ミシガン大学の研究者たちは、新しい解決策を提案しています。人間が物事を見る方法に基づいたモデルを構築するのではなく、テキストからイメージへの拡散モデルを使用します。このモデルは人間の知覚について何も仮定しません。データのみから学習します。 この手法は、フリップや回転時に変形するイメージなど、古典的な錯視を生成するための新しい方法を提案しています。さらに、ピクセルを並び替えると外観が変化する「視覚アナグラム」と呼ばれる新しい錯視の領域にも進出しています。これには、フリップ、回転、ジグソーパズルのような複数の解を持つより複雑な変換も含まれます。この手法は、3つや4つの視点にまで拡張され、魅力的な視覚変換の範囲が広がっています。 この手法が機能するための鍵は、ビューを注意深く選択することです。画像に適用される変換は、ノイズの統計的特性を維持する必要があります。なぜなら、このモデルはランダム、独立、同一分布のガウスノイズを仮定してトレーニングされるからです。 この手法では、画像をさまざまな視点からデノイズするために、拡散モデルを利用して複数のノイズの推定値を生成します。これらの推定値は、逆拡散プロセスの1つのステップを容易にするために組み合わされます。 この論文では、これらの視点の効果を支持する経験的根拠が示され、生成される錯視の品質と柔軟性が紹介されています。 結論として、このシンプルでありながら強力な手法は、魅力的な多視点光学錯覚を作成するための新しい可能性を開拓しています。人間の知覚に対する仮定を避け、拡散モデルの機能を活用することで、視覚変換の魅力的な世界への新たなアプローチを提供しています。フリップ、回転、ポリモーフィックジグソーパズルなど、この方法は、視覚理解を魅了し挑戦する錯視を作り出すための多目的なツールを提供します。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.