Learn more about Search Results A - Page 613

タイムズネット:時系列予測の最新の進歩

「以前の記事で、2020年にリリースされたN-BEATS、2022年のN-HiTS、および2023年3月のPatchTSTなど、最新の最先端の予測技術の進歩を探求してきました思い出してください…」

ドメインを橋渡しする:MLリスク管理における金融、プライバシー、ソフトウェアのベストプラクティスの注入

2018年、ブルームバーグの記事「Zillowのアルゴリズムによる買収ラッシュが自社のホームフリッピング実験を失敗に終わらせた」というニュースが大きな話題となりましたこの記事では、ZillowがiBuyingの世界へ果敢に参入し、自社の成功を賭けていたことが詳細に説明されています

意味レイヤーの力:データエンジニアのガイド

「意味層を理解し、データスタックを向上させたいとお考えですか? ギガウムのソノールレポート『意味層について』は、深く掘り下げるのに役立ちます」(I'm sorry if I did this wrong)

「分類メトリックの理解:モデルの精度評価ガイド」

機械学習における正確性、精度、再現率の迷宮を進む

「新しい取り組みによる輸送とエネルギーの排出削減法」

これらの新製品の特徴と展開は、人々、都市計画者、政策立案者が持続可能な未来を構築するための行動を取るのに役立ちます

「Pythonのitertoolsで無限イテレータを探索する」

Itertoolsは、イテレータとジェネレーターを効率的に扱うためのさまざまなツールを提供するPythonモジュールライブラリですitertoolsライブラリの魅力的な要素の1つは、無限イテレータとの連携が可能であることですこの記事では、itertoolsでの無限イテレータの活用方法、機能、そして一般的な…

「LLMファインチューニングにおけるPEFTテクニック」

イントロダクション 言語モデルまたはLLM(Language models)は、自然言語処理の世界を席巻しています。これらは人間に似たテキストを生成し、自然言語入力に対して理解し応答するために設計された強力なAIシステムです。基本的に、彼らは人間の言語理解と生成を模倣することを目指しています。LLMの微調整の複雑さを理解し、この分野を変革している革新的なPEFT(Prompt Engineering and Fine Tuning)技術を探索する旅に出かけましょう。 学習目標: 言語モデルの微調整の概念を理解する。 PEFT技術とその意義を理解する。 効率的な係数の選択のための技術を探索する。 PEFT技術の理解 まず、頭字語「PEFT」の解読を試みましょう。PEFTはパラメータ効率的な微調整を表します。しかし、この文脈ではパラメータの効率性は何を意味し、なぜ重要なのでしょうか? 機械学習では、モデルは基本的には数多くの係数または重みを持つ複雑な数学方程式です。これらの係数はモデルの振る舞いを制御し、データから学習することが可能にします。機械学習モデルを訓練する際には、これらの係数を調整してエラーを最小化し正確な予測を行います。LLMの場合は、数十億のパラメータを持つ可能性がありますので、すべての係数を訓練中に変更するのは計算コストが高くメモリを消費することになります。 ここで微調整が登場します。微調整とは、事前に訓練されたモデルを特定のタスクに適応させるプロセスです。モデルは既に言語の基本的な理解力を持っていると仮定し、特定の領域での優れた性能を発揮するように調整することに焦点を当てます。 PEFTは、微調整のサブセットとしてパラメータの効率性を重要視しています。すべての係数を変更する代わりに、PEFTはそれらのサブセットを選択し、計算やメモリの要件を大幅に減らします。効率性が重要なFalcon 7Bのような大規模なモデルのトレーニングに特に有効なアプローチです。 トレーニング、微調整、プロンプトエンジニアリング:主な違い PEFTに深く入る前に、トレーニング、微調整、プロンプトエンジニアリングの違いを明確にしましょう。これらの用語はしばしば同義に使用されますが、LLMの文脈で特定の意味を持っています。 トレーニング:モデルがゼロから作成されるとき、トレーニングが行われます。これには、モデルのすべての係数や重みを調整してデータのパターンや関係性を学習する作業が含まれます。モデルに言語の基礎を教えるということです。 微調整:微調整では、モデルが既に言語の基本的な理解力を持っている(トレーニングによって達成されたもの)と仮定しています。特定のタスクやドメインにモデルを適応させるため、目的に合わせた調整が行われます。特定の仕事(例えば質問に答えることやテキストの生成など)において、教養のあるモデルを洗練させると考えてください。 プロンプトエンジニアリング:プロンプトエンジニアリングでは、LLMが望ましい出力を提供するための入力プロンプトや質問を作成します。求める結果を得るためにモデルとのインタラクション方法をカスタマイズすることです。 PEFTは、微調整フェーズで重要な役割を果たし、モデルの係数を選択的に変更して特定のタスクでの性能を向上させます。 係数の選択のためのLoRAとQLoRAの探索…

ウェイモのMotionLMを紹介します:最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル(LLM)が自動車の運転をサポートできるようにする可能性のあるものです

オートリグレッション言語モデルは、あらかじめ定義された文法や構文解析の概念を必要とせずに、文章内の次のサブワードを予測するのに優れています。この方法は、音声や画像の生成などの連続データドメインにも適用され、データが言語モデルの語彙と同様に離散的なトークンで表現されます。シーケンスモデルは、振る舞いなどの複雑で動的な文脈での使用に興味を引くため、その使いやすさから注目されています。 道路利用者は、行動と応答を交換するため、運転中に連続的な会話の参加者と比較されます。疑問は、同様のシーケンスモデルを使用して、言語モデルが複雑な言語分布を捉えるのと同様に、道路エージェントの振る舞いを予測するために使用できるかどうかです。エージェントの振る舞いの結合分布を独立したエージェントごとの周辺分布に分解することは、道路エージェントの振る舞いを予測するための人気のある戦略でした。この方向への進展があるにもかかわらず、これらの周辺予測には制約があります。なぜなら、複数のエージェントの将来の行動がお互いにどのように影響を受けるかを考慮に入れていないため、予測できない場面レベルの予測が生じる可能性があるからです。 これらの問題に対処するため、Waymoの研究者チームはMotionLMを導入しました。これは、自律走行車の安全な計画において重要な要素である道路エージェントの将来の振る舞いを予測するためのユニークなアプローチです。MotionLMの主なアイデアは、複数の道路エージェントの動きの予測の問題を言語モデリングの作業としてアプローチすることです。これは、道路エージェントの行動が言語であるかのように予測課題を構築し、フレーズを作成しているかのようにフレーム化します。 MotionLMは、他の既存の方法とは異なり、アンカーや複雑な潜在変数の最適化手法を使用しないでこれを実現しています。このモデルは、運動トークンのシーケンスを正確に予測する平均ログ確率を最大化する目標を持つ単純な言語モデリング手法を採用しています。モデルはシンプルであり、トレーニングも容易です。 多くの既存の手法では、個別のエージェントの軌跡を別々に生成し、その後エージェント間の相互作用を評価する二段階の手順を使用しています。一方、MotionLMは、複数のアクターの将来の行動について直接的に結合分布を構築するための単一のオートリグレッシブデコーディング手法を使用します。この相互作用モデリングの統合は、より効果的でシームレスです。MotionLMの時系列的な因果関係の分割作用により、時間的に因果関連性のある条件付きロールアウトも可能です。イベント間の因果関係を考慮して、将来のエージェントの振る舞いに関する予測が行われるため、その現実性と正確性が高まります。 評価では、MotionLMはWaymo Open Motion Datasetに対してテストされた際に大きな成果を上げました。インタラクティブなチャレンジにおいて他のアプローチよりも優れたパフォーマンスを示し、困難な状況下で道路エージェントの行動を予測するための他の手法よりも優れていることが示されました。結論として、MotionLMは自動車のマルチエージェントの動きの予測において画期的なアプローチであり、この分野で非常に有益な進歩です。

GoogleのDeepMindがロボット技術の革新を遂げています

GoogleのDeepmindと33の学術研究所との協力により、ロボット技術の世界に風穴が開くかもしれませんこの共同事業の目標は、特定のタスクに特化したデータセットの固定的なパラダイムからロボット技術を解放することです彼らのブログによると、成功すれば、「Open X-Embodiment...」

UC BerkeleyとUCSFの研究者が神経ビデオ生成を革新します: 高度な空時的ダイナミクスのためのLLM-Groundedビデオ拡散(LVD)の紹介

テキストのプロンプトからビデオを生成する際に直面する課題に対応するため、研究者のチームがLLM-Grounded Video Diffusion(LVD)と呼ばれる新しいアプローチを導入しました。問題の核心は、既存のモデルがテキストのプロンプトで説明される複雑な時空間ダイナミクスを正確に表現するビデオを作成するのに苦労しているということです。 背景を提供するために、テキストからビデオを生成することは、テキストの説明に基づいてビデオを生成するという複雑な課題です。この問題に対して以前の試みがあったものの、空間的な配置や時間的なダイナミクスの観点で与えられたプロンプトとよく一致するビデオを生成することができないという問題がありました。 一方で、LVDは異なるアプローチを取ります。直接テキストの入力からビデオを生成するのではなく、Large Language Models(LLMs)を利用して最初にテキストの説明に基づいて動的なシーンレイアウト(DSLs)を作成します。これらのDSLsは、後続のビデオ生成プロセスにおいて実質的に設計図やガイドとなります。 特に興味深いのは、LLMsがこれらのDSLsを生成する驚くべき能力を持っていることが研究者によって発見されたことです。これらのDSLsは、空間的な関係だけでなく複雑な時間的なダイナミクスも正確に捉えることができます。これは、テキストのプロンプトに基づいて現実のシナリオを正確に反映するビデオを生成するために重要な要素です。 このプロセスを具体的にするために、LVDはDSLsを利用してオブジェクトレベルの空間関係と時間的なダイナミクスがビデオ拡散モデルでどのように生成されるかを制御するアルゴリズムを導入します。重要な点は、この手法は広範なトレーニングを必要とせず、訓練フリーのアプローチであり、分類器のガイダンスが可能なさまざまなビデオ拡散モデルに統合できるということです。 LVDの結果は非常に注目すべきものです。それはベースのビデオ拡散モデルや他の強力なベースライン手法を遥かに上回り、テキストのプロンプトで要求される属性やモーションパターンに忠実に従ったビデオを生成する能力において抜きん出ています。LVDによるテキストと生成されたビデオの類似度は0.52です。テキストとビデオの類似度だけでなく、ビデオの品質も他のモデルを超えています。 まとめると、LVDはテキストからビデオを生成する画期的な手法であり、複雑なテキストのプロンプトから生成されるビデオの品質と忠実度を向上させるためにLLMsの力を活用して動的なシーンレイアウトを生成します。この手法は、コンテンツ作成やビデオ生成など、さまざまなアプリケーションにおいて新たな可能性を開拓する可能性があります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us