Learn more about Search Results モード

2024年に探すべき6つのリモートAIジョブ

「人工知能の分野は急速に成長しており、それに伴ってAIやAIを活用したツールの実務経験を持つ専門家の需要も高まっていますGartnerの最近の調査によると、2021年の世界のAI市場規模は157億ドルから2026年までに3312億ドルに成長すると予測されていますこの成長は...」

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変されることが成功のパラダイムとなっています。シーケンスモデルは、言語、画像、音声、オーディオ、時系列、ゲノムなど、様々なドメインからの任意のシーケンス入力に対応するもので、これらのファウンデーションモデルの基礎となっています。このアイデアは特定のモデル設計には依存していませんが、トランスフォーマーとその中心となるアテンション層は、ほとんどの現代のファウンデーションモデルの基盤となっています。セルフアテンションは、情報をコンテキストウィンドウ内で緊密にルーティングすることで、複雑な事実を表現することができるため、効果的です。 しかし、この性質には2つの基本的な欠点があります。1つはウィンドウの長さに関する二次的なスケーリング、もう1つは制限されたウィンドウの外部の情報を記述することができないことです。これらの欠点を解決するために、より効果的なアテンションに関連する戦略についての研究が大量に行われていますが、それらはアテンションの成功をもたらす要素と同じ品質を犠牲にすることがしばしばあります。これらのバリエーションが異なるドメイン全体でスケールで実験的に成功したという証拠はまだありません。構造化された状態空間シーケンスモデルは、新しく興味深いシーケンスモデリングアーキテクチャの一族です。これらのモデルは、従来の状態空間モデルから影響を受けており、畳み込みおよび再帰型ニューラルネットワークのハイブリッドと見なすことができます。 これらのモデルは、シーケンスの長さに対して線形またはほぼ線形なスケーリングを持ち、再帰または畳み込みによって非常に高速に計算することができます。また、ロングレンジアリーナなどのベンチマークを支配しており、特定のデータモダリティにおける長距離の相互依存関係のモデリングのためのツールとなっています。多くのSSM(構造化状態空間モデル)のバリエーションが、連続的な信号データを必要とする音声やビジョンなどの領域で効果を示していますが、テキストのような離散で情報密度の高い素材のモデリングにはまだ成功していません。 カーネギーメロン大学とプリンストン大学の研究チームは、従来の研究をさまざまな側面で拡張し、シーケンスの長さとの線形関係を保ちながらトランスフォーマーのようなモデリング能力を向上させる選択された状態空間モデルの新しいカテゴリを提案しています。 選択メカニズム。まず、以前のモデルの重要な欠点を指摘します。それは、入力に応じてデータを効果的に選択することができないことです。研究チームは、重要な合成タスク(セレクティブコピーと誘導ヘッドなど)から得られた理解に基づいてSSMパラメータを入力によってパラメータ化することにより、簡単な選択プロセスを提供しています。これにより、モデルは不要なデータを排除しながら関連する情報を永続的に保持することができます。 ハードウェア対応コード。この簡単な修正は、モデルの計算を技術的に挑戦します。以前のSSMモデルは、計算が効率的に行われるために入力や時間の不変である必要がありました。異なるレイヤー間でのGPUメモリ階層のIOアクセスを防ぐために、ハードウェア対応アプローチを使用してモデルをスキャンに基づいて再帰的に計算します。ただし、拡張された状態は具現化されません。結果として得られる実装は、現在のハードウェア上の以前の技術よりも高速であり、理論的な設計の構築です。 アーキテクチャ:特定の状態空間を組み込んだ簡単で均一なアーキテクチャ設計を提供するために、以前のSSMアーキテクチャの設計とトランスフォーマーのMLPブロックを1つのブロックに組み合わせ、以前の深いシーケンスモデルの設計を簡素化します。 選択的SSMとMambaアーキテクチャの主要な特徴により、これらは完全な再帰モデルとして動作するより広範な基盤モデルの基盤となることができます: (i)高品質:遺伝学や言語などの密なモダリティにおいてセレクティビティは優れたパフォーマンスを発揮します。 (ii)高速な推論とトレーニング:推論中、モデルを自己回帰的に展開するためのステップごとの時間は定数であり、過去のコンポーネントのキャッシュを必要としないため、計算とメモリのスケーリングはシーケンスの長さに比例します。 (iii)長いコンテキスト:品質と効率の組み合わせにより、シーケンスの長さが100万に達するまで実際のデータでのパフォーマンス向上が得られます。 研究チームは、実験的な証拠をもとに、Mambaの潜在能力を汎用性のあるシーケンスFMのバックボーンとして、さまざまなモダリティや状況における事前学習品質やドメイン特化のタスクパフォーマンスに関してサポートしています: ・人工材料。Mambaは、巨大な言語モデルにとって重要とされるコピーや誘導ヘッドタスクなどの重要な合成タスクを容易に解決するだけでなく、無限に長い解を予測することもできます。 ・ゲノミクスとオーディオ。音声波形やDNA配列のモデリングにおいて、事前学習品質や下流のメトリクスに関して、MambaはSaShiMi、Hyena、Transformersなどの従来の最先端モデルを凌ぎます。そのパフォーマンスは、両方のコンテキストで100万文字長のシーケンスまでより多くの文脈を持つことで改善されます。 • モデリング言語。マンバは、下流で実施される評価と事前学習の複雑さの両方で本当にTransformerのようなパフォーマンスを実現する最初の線形時間シーケンスモデルを表しています。 研究チームは、Mambaが、LLaMaに基づく高度なTransformerトレーニングレシピを含む多くのベースラインを上回り、1Bのパラメータまでのスケーリング則に従っています。同じサイズのTransformerと比較して、彼らのMamba言語モデルは5倍の世代スループットを持ち、Mamba-3Bの品質はその2倍のサイズのTransformerと同等です。

「データサイエンスにおけるリモートワーク:メリットとデメリット」

この記事では、データサイエンスにおけるリモートワークの潜在的な課題と落とし穴について探究しました

Google AIは、オーディオ、ビデオ、テキストの異なるモードにわたる学習のためのマルチモダルオートリグレッシブモデルであるMirasol3Bを発表しました

機械学習の広範な領域では、さまざまなモダリティ(音声、ビデオ、テキスト)に埋め込まれた複雑さを解読することが難しいとされています。時間を合わせたモダリティと非合わせたモダリティの複雑な同期、およびビデオや音声信号の圧倒的なデータ量は、研究者たちに革新的な解決策を模索させました。そこで、Googleの専門チームが作り出した巧妙な多モーダル自己回帰モデルであるMirasol3Bが登場します。このモデルは、異なるモダリティの課題に対処し、より長いビデオ入力の処理に優れています。 Mirasol3Bのイノベーションに入る前に、多モーダル機械学習の複雑さを理解することが重要です。既存の手法では、音声やビデオなどの時間を合わせたモダリティとテキストなどの非合わせたモダリティの同期に苦慮しています。この同期の課題は、ビデオや音声信号に存在する膨大なデータ量によってさらに複雑になり、圧縮が必要なことがしばしばあります。より長いビデオ入力をシームレスに処理することができる効果的なモデルへの緊急の必要性がますます明らかになっています。 Mirasol3Bは、これらの課題に対処するパラダイムシフトを象徴しています。従来のモデルとは異なり、Mirasol3Bは時間を合わせたモダリティ(音声とビデオ)のモデリングと、テキスト情報などの非合わせたモダリティの明確なコンポーネントを含んでいます。これにより、Mirasol3Bは新しい視点をもたらします。 Mirasol3Bの成功は、時間を合わせたモダリティと文脈モダリティの巧妙な調整にかかっています。ビデオ、音声、テキストはそれぞれ異なる特性を持っています。たとえば、ビデオは高いフレームレートを持つ空間時間的な視覚信号であり、音声は高い周波数を持つ一次元の時間信号です。これらのモダリティを結び付けるために、Mirasol3Bはクロスアテンションメカニズムを使用し、時間を合わせたコンポーネント間で情報の交換を容易にしています。これにより、モデルは正確な同期の必要性なしで、異なるモダリティ間の関係を包括的に理解することができます。 Mirasol3Bの革新的な魅力は、時間を合わせたモダリティへの自己回帰モデリングの応用にあります。ビデオ入力は、管理可能なフレーム数で構成される複数のチャンクに賢明に分割されます。コンバイナーという学習モジュールがこれらのチャンクを処理し、共有の音声とビデオの特徴表現を生成します。この自己回帰戦略により、モデルは個々のチャンクとそれらの時間的な関係を把握することができます。これは意味のある理解にとって重要な要素です。 コンバイナーは、Mirasol3Bの成功の中心であり、ビデオと音声の信号を効果的に調和させるために設計された学習モジュールです。このモジュールは、小さな数の出力特徴を選択することで、大量のデータの処理の課題に取り組んでいます。コンバイナーは、シンプルなトランスフォーマベースのアプローチから、差分可能なメモリユニットをサポートするトークン・チューリング・マシン(TTM)などのメモリコンバイナーまで、さまざまなスタイルで現れます。両方のスタイルが、モデルが広範なビデオと音声の入力を効率的に処理する能力に貢献しています。 Mirasol3Bのパフォーマンスは、印象的です。このモデルは、MSRVTT-QA、ActivityNet-QA、NeXT-QAなどのさまざまなベンチマークで、最先端の評価手法に常に勝る結果を示しています。80億のパラメータを持つFlamingoなどのはるかに大きなモデルと比較しても、約30億のパラメータを持つMirasol3Bは、優れた能力を示しています。特に、モデルはオープンエンドのテキスト生成設定で優れた性能を発揮し、汎化および正確な応答の生成能力を示しています。 結論として、Mirasol3Bはマルチモーダルな機械学習の課題に取り組むための大きな進歩を表しています。自己回帰モデリング、時間に整列したモダリティの戦略的な分割、そして効率的なコンバイナーを組み合わせた革新的なアプローチにより、この分野で新たな基準が確立されました。比較的小型のモデルでパフォーマンスを最適化する能力は、正確さを犠牲にすることなく、Robustなマルチモーダル理解を必要とする実世界のアプリケーションにおいてMirasol3Bを有望な解決策と位置づけています。私たちが世界の複雑さを理解できるAIモデルを求める探求が続く中、Mirasol3Bはマルチモーダルの領域において進歩の光として輝きます。

「2024年に注目すべきトップ10のリモートスタッフィングエージェンシー」

2024年に仕事を革新しているトップ10の遠隔スタッフィングエージェンシーを探索し、グローバルな人材と企業をつなげる

リモートワーク時代における新しいデータサイエンティストの育成

今日のコラムはデータサイエンスの一部ですが、労働の社会学についても触れます私はこの分野のシニアプラクティショナーとして、Covid-19や社会的な変革が起きる前からデータサイエンスのキャリアをスタートさせました...

複数モードモデルとは何ですか?

基礎となる大規模言語モデル(LLM)は、巨大なデータセットで事前トレーニングされており、ゼロショット、フューショット、または転移学習を通じて、一般的なマルチタスク処理をかなり効率的に行うことができます実際には...

「リモートワーク技術の探究:トレンドとイノベーション」

「バーチャルオフィスやコラボレーションツールからワークスペースの未来、サイバーセキュリティ、AI自動化、働き方と生活のバランスの維持まで、リモートワーク技術の進化する風景を探求してみましょうリモートワークの未来を形作るトレンドを発見しましょう」

「GCPを使用してリモートでVS Codeを操作する」

この記事では、Virtual Studio Code(VS Code)を使用してGoogle Cloud Platform(GCP)上でリモート開発環境を構築する方法について、包括的なガイドを提供しますリモート開発は、

Amazon SageMakerドメインをVPCのみモードでサポートし、SageMaker Studioでの自動シャットダウンライフサイクル設定とTerraformでのSageMaker Canvasをサポートします

Amazon SageMakerのドメインは、SageMakerの機械学習(ML)環境をサポートしており、SageMaker StudioやSageMaker Canvasを含んでいますSageMaker Studioは、完全に統合された開発環境(IDE)であり、すべてのML開発ステップを実行するための特別なツールにアクセスできる単一のWebベースの視覚インターフェースを提供しますデータの準備からMLモデルの構築、トレーニング、展開まで、すべてのステップを行うことができます

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us