Learn more about Search Results MarkTechPost - Page 147

CarperAIは、コードと自然言語の両方で進化的な検索を可能にするために設計されたオープンソースライブラリ、OpenELMを紹介します

自然言語処理は、人工知能の主要な分野の一つであり、非常に速いペースで進化しています。言語を話す方法や書く方法と同じようにコンピュータが人間の言語を理解する能力を持つことで、NLPにはさまざまなユースケースがあります。そのような進展の一つが、自然言語処理、自然言語理解、自然言語生成に基づくトレーニングされたディープラーニングモデルである大規模言語モデルの導入です。これらのモデルは、質問に答える、正確なテキストコンテンツを生成する、コードを補完する、長いテキストのパラグラフを要約する、言語を翻訳するなど、人間を模倣します。 最近、AI研究のリーディングカンパニーであるCarperAIは、進化的な探索の領域を変革することを約束するオープンソースのライブラリOpenELMを発表しました。ELMは大規模モデルによる進化という意味で、OpenELMは大規模言語モデルの力を進化的アルゴリズムと組み合わせて、多様かつ高品質なテキストとコードの生成を可能にします。OpenELMバージョン0.9は、開発者や研究者にとって複雑な問題を解決するための優れたツールを提供することを目的として提案されました。また、チームはGPTP 2023での論文も発表しました。 大規模言語モデル(LLM)による進化的な改善、批判、および出力の向上の方法を示すELMは、言語モデルの問題解決能力を向上させるために使用することができ、言語とコードの両方に対して知的な探索演算子としての潜在能力を示します。ELMの中心的なアイデアは、LLMが進化的アルゴリズムの変異の知的な演算子として機能することです。OpenELMは、この潜在能力を活用して言語モデルの問題解決能力を向上させ、トレーニング中にモデルが見たことのない領域で多様な高品質なコンテンツの作成を可能にします。チームはOpenELMに以下の4つの主要な目標を設定しました。 オープンソース – OpenELMはELMとそれに関連する差分モデルのオープンソースリリースを提供し、開発者がライブラリを自由に使用し、貢献することができるようにします。 モデルの統合:OpenELMは、商用API(OpenAI APIなど)でのみ使用できるクローズドモデルと、ローカルまたはColabなどのプラットフォームで使用できるオープンソースの言語モデルの両方とスムーズに連携するように構築されています。 使いやすいインターフェースとサンプル環境:OpenELMは、簡単なユーザーインターフェースとさまざまな進化的探索のサンプル環境を提供することを目指しています。 進化の可能性 – OpenELMは、巨大な言語モデルの可能性を活用した進化との組み合わせを示し、知的な変異演算子が特に平文のコード作成や創造的な文章作成などの分野で進化的アルゴリズムを支援する方法を示します。 MAP-Elites、CVT-MAP-Elites、Deep Grid MAP-Elitesなどの品質多様性(QD)メソッドに焦点を当てたOpenELMは、機能が豊富なライブラリとして、よく知られた進化的技術とスムーズに連携します。これにより、特化領域ごとに最も優れた個体を保持しつつ多様性を促進し、高品質で多様な解決策を作成することが可能となります。結論として、OpenELMは大規模言語モデルの潜在能力を活用して多様な高品質なテキストとコードを生成することで、進化的探索の分野で重要なマイルストーンを示しています。

LAION AIは、Video2Datasetを紹介しますこれは、効率的かつスケールでビデオとオーディオのデータセットをキュレーションするために設計されたオープンソースツールです

CLIP、Stable Diffusion、Flamingoなどの大規模な基盤モデルは、過去数年間にわたり、マルチモーダルな深層学習を劇的に向上させました。テキストと画像の共同モデリングは、ニッチなアプリケーションから、今日の人工知能の領域で最も関連性の高い問題の1つ(もしくは最も関連性の高い問題)にまで進化しました。これらのモデルは、壮観で高解像度のイメージを生成したり、難しい下流の問題を解決するといった、卓越した能力を持っています。驚くべきことに、これらのモデルは、非常に異なるタスクに取り組み、非常に異なる設計を持っているにもかかわらず、強力なパフォーマンスに貢献する共通の3つの基本的な特性を持っています。それは、(事前)トレーニング中のシンプルで安定した目的関数、よく調査されたスケーラブルなモデルアーキテクチャ、そしておそらく最も重要なこととして、大規模で多様なデータセットです。 2023年現在、マルチモーダルな深層学習は、テキストと画像のモデリングに主に関心があり、ビデオ(および音声)などの追加のモダリティにはほとんど注意が払われていません。モデルをトレーニングするために使用される技術は通常モダリティに依存しないため、なぜ他のモダリティ用の堅牢な基盤モデルが存在しないのか疑問に思うかもしれません。その簡単な説明は、高品質で大規模なアノテーション付きデータセットの希少性です。クリーンなデータの不足は、特にビデオの領域において、大規模なマルチモーダルモデルの研究開発を妨げています。これに対し、画像モデリングでは、LAION-5B、DataComp、COYO-700Mなどのスケーリング用の確立されたデータセットやimg2datasetなどのスケーラブルなツールが存在します。 革新的なイニシアチブ、例えば高品質なビデオや音声の作成、改良された事前学習済みモデルのロボット工学への応用、盲人コミュニティ向けの映画ADなどを可能にするため、研究者はこのデータの問題解決を(オープンソースの)マルチモーダル研究の中心的目標として提案しています。 研究者は、高速で包括的なビデオおよび音声データセットのキュレーションを行うためのオープンソースプログラムであるvideo2datasetを提案しています。video2datasetは、いくつかの大規模なビデオデータセットで正常にテストされており、適応性があり、拡張性があり、多数の変換を提供しています。このメソッドを複製するための詳細な手順と、これらのケーススタディをリポジトリで見つけることができます。 研究者は、個々のビデオデータセットをダウンロードし、それらを結合し、新しい特徴と大量のサンプルを持つより管理しやすい形状に整形することで、既存のビデオデータセットをベースにvideo2datasetを活用してきました。より詳細な説明については、例セクションを参照してください。video2datasetが提供するデータセットで異なるモデルをトレーニングした結果は、このツールの効果を示しています。今後の研究では、新しいデータセットと関連する調査結果について詳しく議論します。 まずは、video2datasetを定義しましょう。 Webdatasetが受け入れ可能なinput_formatであるため、video2datasetは以前にダウンロードしたデータを再処理するためのチェーンで使用することができます。前の例でダウンロードしたWebVidデータを使用して、このスクリプトを実行すると、各ムービーの光流を計算し、それをメタデータシャードに保存します(光流メタデータのみを含むシャード)。 アーキテクチャ img2datasetをベースにしているvideo2datasetは、URLのリストと関連するメタデータを受け取り、単一のコマンドでロード可能なWebDatasetに変換します。さらに、同じシャードの内容を保持したまま、WebDatasetを追加の変更のために再処理することもできます。video2datasetはどのように機能するのでしょうか。説明します。 アイデアの交換 最初のステップは、入力データを均等にワーカー間で分割することです。これらの入力シャードは一時的にキャッシュされ、それらとそれらに対応する出力シャードとの一対一のマッピングにより、障害のない回復が保証されます。データセットの処理が予期せず終了した場合、既に対応する出力シャードを持つ入力シャードをスキップすることで時間を節約することができます。 コミュニケーションと研究 ワーカーは、シャードに含まれるサンプルを読み取り、処理するために交互に行動します。研究者は、マルチプロセス、pyspark、slurmの3つの異なる分散モードを提供しています。前者は単一マシンのアプリケーションに最適であり、後者は複数のマシンにスケーリングするために有用です。着信データセットの形式は、読み取り戦略を決定します。データがURLのテーブルである場合、video2datasetはインターネットからビデオを取得し、データセットに追加します。video2datasetは、見つからないビデオを要求するためにyt-dlpを使用するため、さまざまなビデオプラットフォームで動作します。ただし、ビデオサンプルが既存のWebデータセットから来る場合、そのデータセットのデータローダーはバイトまたはフレームのテンソル形式を読み取ることができます。 サブサンプリング ビデオが読み込まれ、ワーカーがビデオのバイトを取得した後、バイトはジョブの設定に従ってサブサンプラーのパイプラインを通過します。この段階では、ビデオはフレームレートと解像度の両方でオプションでダウンサンプリングされる場合があります。また、クリップされたり、シーンが識別されたりする場合もあります。一方、入力モダリティから解像度/圧縮情報、合成キャプション、オプティカルフローなどのメタデータを抽出および追加することを目的としたサブサンプラーもあります。video2datasetに新しい変換を追加するには、新しいサブサンプラーを定義するか、既存のサブサンプラーを変更するだけで十分です。これは大いに助けになり、リポジトリの他の場所で数か所の変更を行うだけで実装できます。 ログ記録 Video2datasetは、プロセスの複数のポイントで詳細なログを保持しています。各シャードの完了は、関連する「ID」_stats.jsonファイルに結果を記録します。ここには、処理されたサンプルの総数、正常に処理されたサンプルの割合、および発生したエラーの内容と性質などの情報が記録されます。Weights & Biases(wand)は、video2datasetと組み合わせて使用できる追加のツールです。この統合をオンにするだけで、成功と失敗の詳細なパフォーマンスレポートやメトリクスにアクセスできます。これらの機能は、ジョブ全体に関連するベンチマーキングやコスト見積りのタスクに役立ちます。 書き込み 最後に、video2datasetは変更された情報を出力シャードにユーザー指定の場所に保存し、次のトレーニングまたは再処理操作で使用します。データセットは、各サンプルが含まれるシャードで構成されたいくつかの形式でダウンロードできます。これらの形式には、フォルダ、tarファイル、レコード、およびparquetファイルが含まれます。デバッグ用の小規模データセットにはディレクトリ形式、ローディングにはWebDataset形式でtarファイルが使用されます。 再処理 video2datasetは、出力シャードを読み込んでサンプルを新しい変換に通過させることで、以前の出力データセットを再処理することができます。この機能は、しばしば重いサイズと扱いにくい性質が特徴のビデオデータセットに対して特に有利です。これにより、大量の大きなデータセットのダウンロードを回避するためにデータを慎重にダウンサンプリングすることができます。次のセクションでは、研究者がこれに関する実践的な例を探求します。…

マイクロソフトAI研究は、分子システムの平衡分布を予測するためにDistributional Graphormer(DiG)という新しいディープラーニングフレームワークを紹介しました

分子の構造はその性質と機能を決定します。そのため、構造予測は分子科学における重要な問題です。アミノ酸配列からタンパク質の最も確率的な構造を特定するために、AlphaFoldやRoseTTAFoldのような深層学習アプローチのブレークスルー的な精度が分子科学者たちによって絶賛されています。しかし、構造予測はタンパク質の機能の一部のみを提供することができ、この方法は単一のスナップショットのみを提供します。 最近のMicrosoftの研究では、平衡分布に基づくタンパク質の構造予測のための新しい深層学習フレームワークであるDistributional Graphormer(DiG)を提供しています。これにより、この基本的な問題を解決し、分子科学に活力を与えることを目指しています。DiGは、統計力学と熱力学が分子システムを微視的なレベルで制御するため、平衡分布に従って構造のアンサンブルをモデル化する点で大きな進歩です。 DiGは、分子構造を正確に説明できる汎用グラフ変換器であるGraphormerの改良版であり、分布予測への新しいアプローチを提供します。改良版のGraphormerであるDiGは、深層ニューラルネットワークを利用して、基本的な分子記述子から目標分布を直接予測することができるようになりました。 これは、熱力学と最適化の確立された技術である模擬焼きなましの概念に基づいており、近年の人工生成コンテンツ(AIGC)の分野で重要な進展をもたらした拡散モデルの創造をインスピレーションとしています。模擬焼きなましのプロセスをモデリングすることにより、単純な分布が最も確率的な状態に探索し、落ち着くことで、複雑な分布が徐々に洗練されて構築されます。DiGは、この手順をシミュレートする分子システムのための深層学習フレームワークです。AIGCモデルの基礎として、統計力学と熱力学に起源を持つ拡散モデルが頻繁に使用されます。 簡単な分布を複雑な分布に変換するためのGraphormerを使用して、DiGは拡散に基づいています。DiGを訓練するために使用するデータや情報は柔軟です。分子システムのエネルギーベースの確率とDiGによって予測される確率との差を最小化することにより、DiGは分子システムのエネルギー関数を使用して変換を制御することができます。この方法では、DiGに既存の知識を活かすことができます。 チームは、タンパク質、タンパク質-リガンド複合体、触媒-吸着物系など、さまざまな分子系を対象とした分子サンプリングタスクの一連の実験を通じて、DiGの効果と有望さを示しています。その結果、DiGは現実的で多様な分子構造を効率的かつ低コストで生成するだけでなく、統計力学を用いて巨視的な属性を計算するために必要な状態密度の推定値も提供します。 チームは、DiGが微視的な分子を量的に分析し、その巨視的な特徴を予測するための重要な進歩であり、分子科学において多くの魅力的な新しい研究領域への道を開いていると考えています。

アンソロピックは、以前のモデルと比べて、コーディング、数学、論理思考において大幅な改善を果たしたClaude 2モデルをリリースしました

Anthropicは、Claude 2という新しいモデルを発表しました。このモデルは、改善されたパフォーマンス、より長い応答時間、APIと公開ベータウェブサイトを通じたアクセシビリティを誇っています。ユーザーはClaudeの会話能力、明確な説明、有害な出力の生成確率の低減、前のモデルと比較してのメモリの改善に対して称賛しています。特に、Claude 2は、コーディング、数学、推論タスクにおいて優れたパフォーマンスを発揮しました。例えば、バー試験の多肢選択問題のセクションで76.5%のスコアを獲得し、前任者の73.0%を上回りました。大学院入学試験を受験する大学生と比較して、Claude 2はGREのリーディングとライティングの試験で90パーセンタイル以上の成績を収め、量的推論の試験では中央値の応募者と同等の成績を収めました。 開発者は、Claudeを友好的で熱心なバーチャルな同僚やパーソナルアシスタントと位置付け、さまざまなタスクをサポートするための自然言語の指示を理解する能力を持つ存在としています。ビジネス向けのClaude 2 APIは、先代モデルであるClaude 1.3と同じ価格で利用できます。また、アメリカとイギリスの個人は既にベータ版のチャット体験を利用することができます。 Claudeモデルのパフォーマンスと安全性の向上に努めています。入力と出力の長さが増え、ユーザーは最大100,000トークンまでのプロンプトを入力することができます。これにより、Claudeは広範な技術文書や書籍を処理し、メモ、手紙、物語など、数千のトークンから成る長い文書を生成することができます。 最新のモデルであるClaude 2は、コーディングスキルが大幅に向上しました。Codex HumanEval Pythonコーディングテストで71.2%のスコアを獲得し、前任者のClaude 1.3の56.0%を上回りました。GSM8kの数学問題セットでは、Claude 2は88.0%のスコアを獲得し、前任者の85.2%を上回りました。将来の計画には、Claude 2の能力向上を徐々に展開することが含まれています。 有害で攻撃的な出力を減少させるために、安全対策に注力しています。内部のレッドチーミング評価では、Claudeモデルを有害なプロンプトの代表的なセットに対して評価し、自動テストと手動のチェックを組み合わせています。Claude 2は、Claude 1.3と比較して無害な応答を提供する効果が2倍でした。望ましくない出力に完全に免疫を持つモデルは存在しませんが、安全技術と包括的なレッドチーミングは、出力の総合的な品質の向上に役立っています。 多くの企業がClaude APIを採用しており、JasperやSourcegraphなどのパートナーはClaude 2の機能を活用しています。ジャスパーは、多様なユースケース向けの最先端モデルとの互換性を強調し、長文、低遅延のアプリケーションにおける強みを強調しています。ソースグラフは、コーディングアシスタントのCodyにClaude 2の改善された推論能力を組み込み、ユーザーのクエリに対してより正確な回答を提供し、最大100,000のコンテキストウィンドウを通じてコードベースのコンテキストを伝えることができます。Claude 2の最新データでのトレーニングにより、Codyはより新しいフレームワークとライブラリに関する知識を備えており、開発者がソフトウェアをより効率的に構築することができます。…

ウィスコンシン大学の新しい研究では、ランダム初期化から訓練された小さなトランスフォーマーが、次のトークン予測の目標を使用して効率的に算術演算を学ぶことができるかどうかを調査しています

言語やコードの翻訳、構成思考、基本的な算術演算など、さまざまな下流タスクにおいて、GPT-3/4、PaLM、LaMDAなどの大規模言語モデルは、一般的な特徴を示し、時には新たなスキルを獲得します。驚くべきことに、モデルの訓練目標は、次のトークンの予測に基づく自己回帰損失であることが多いですが、これらの目標を直接的にエンコードしていません。これらのスキルは、以前の研究で詳しく探求されており、トレーニングの計算規模、データタイプ、モデルのサイズによってどのように変化するかも調査されています。しかし、データの複雑さと評価されるジョブの範囲を考慮すると、要素を分離することはまだ困難です。彼らはこれらの能力の出現を促す要因に興味を持っていたため、これらの才能の出現を早める主な貢献を特定しました。 これらの要因には、データの形式とサイズ、モデルのサイズ、事前トレーニングの存在、促し方などが含まれます。彼らの研究は制御された環境で行われ、これらのパラメータのより詳細な分析を可能にしています。彼らは、NanoGPTやGPT-2などの小型トランスフォーマーモデルに数学を教えることに重点を置いています。彼らは、10.6百万パラメータのモデルから124百万パラメータのモデルまでスケールを変えながら、一般的な自己回帰の次のトークン予測損失を使用してトレーニングしています。UW Madisonの研究者たちは、これらのモデルが加算、減算、乗算、平方根、正弦などの基本的な数学演算を効果的に学習する方法を理解することを目指しており、新たな才能がどのように引き出されるのかについてより深い洞察を提供します。彼らは以下にその結論を示しています。 サンプルのサイズとデータ形式の両方が重要です。 まず、彼らは「A3A2A1 + B3B1B1 = C3C2C1」といった典型的な加算サンプルを使用してモデルに教えることは理想的ではないと指摘しています。なぜなら、これによりモデルは結果の最も重要な桁C3を最初に評価する必要があり、それは2つの被加数のすべての桁に依存しているからです。彼らは、「A3A2A1 + B3B1B1 = C1C2C3」といった逆の結果を持つサンプルでモデルを訓練することで、モデルがより単純な関数を学習できるようにしています。さらに、桁とキャリーに依存する「変種」の多くのサンプルをバランスよく取り入れることで学習をさらに向上させています。彼らは、この簡単なシナリオでもトレーニングデータの量に応じて0%から100%の精度の急激な位相変化が見られることに驚いています。予期せぬことに、低ランク行列の補完は、ランダムなサンプルからn桁の加算マップを学習することと類似しています。この関連性により、この位相変化の論理的な正当化を提供することができます。 トレーニング中の認知フローのデータ。 これらの結果に基づいて、彼らはトレーニング中にチェーンオブ思考データの利点を調査しました。この形式では、ステップバイステップの操作と中間出力が含まれているため、モデルは困難なタスクの異なる要素を学習することができます。彼らはこれを関連する文献から直接取り入れています。CoTのファインチューニングの文献によると、CoTタイプのトレーニングデータは、言語の事前トレーニングがなくても、サンプルの複雑性と精度の面で学習を大幅に向上させることがわかりました。彼らは、モデルが必要な構成関数を個々のコンポーネントに分解することで、より高次元で単純な関数マップを学習できるため、これが理由であると仮説を立てています。彼らは、彼らの研究で調査した4つのデータフォーマット技術のサンプルを図1に示しています。 テキストと数学の組み合わせでのトレーニング。 LLMはインターネットからダウンロードされた膨大なデータでトレーニングされるため、さまざまな形式のデータをきれいに分離するのは難しいです。そのため、彼らはトレーニング中にテキストと数値データがどのように相互作用するかを調査しています。テキストと算術入力の比率がモデルの困惑度と精度にどのように影響するかを追跡しています。彼らは、以前にカバーされた算術演算を知ることが各タスクのパフォーマンスを個別に向上させること、そしてゼロショットからワンショットのプロンプティングに切り替えることで精度が大幅に向上することを発見しました。ただし、さらに多くの例が提供されると、精度はそれほど顕著ではありません。モデルのサイズと事前トレーニングの重要性。 事前トレーニングとモデルのスケールの役割。 さらに、彼らはGPT-2やGPT-3などのモデルを事前トレーニングしてファインチューニングすることで事前トレーニングの機能を調査し、算術演算におけるゼロショットのパフォーマンスは劣るものの、事前トレーニング中に開発された「スキル」により、限られた数のファインチューニングサンプルでもいくつかの基本的な算術タスクで受け入れ可能なパフォーマンスが実現できることを発見しました。しかし、モデルが標準形式の操作で事前トレーニングされている場合、逆の形式などの非標準の書式でのファインチューニングはモデルのパフォーマンスに干渉し、精度を低下させることができます。最後に、彼らはスケールが算術パフォーマンスにどのように影響するかを研究し、スケールが算術演算の学習に助けになるが、必須ではないことを発見しました。 長さと構成の一般化。 自分たちの訓練済みモデルが数学をしっかり理解しているのか疑問に思うかもしれません。彼らの研究は複雑な回答を提供します。彼らは、訓練データの数字の桁数以外の長さを一般化することが難しいことを見つけました。例えば、ある特定の長さを除外して全てのn桁の長さで訓練されたモデルは、この欠けている桁数を適切に調整して正しく計算するのが困難です。その結果、モデルは訓練された数字の桁数範囲内では良いパフォーマンスを発揮しますが、それ以外ではずっと悪くなります。これは、モデルが算術を教えられた桁数に制限されたマッピング関数として学習していることを示しています。これは単なる暗記ではなく、数学の徹底的な「理解」には及ばないものです。 新規性と以前の取り組みとの比較。 彼らは、彼らの手法が利用する訓練データの種類に関してはオリジナルではないと主張していますが、むしろモデルのパフォーマンスを向上させるために指導的なデータを利用した先行研究に強く依存していると述べています。ランダムに初期化されたモデルと、さまざまなサンプリング/データ形式およびモデルのスケール設定についての詳細な削除研究に重点を置き、算術能力の急速な形成につながる要因を分離することが彼らの研究を他の研究と区別しています。さらに、彼らが検出したいくつかの現象は、研究の中でいくつかの直接的で可能性のある啓示的な理論的説明を持っています。 図1:この研究で検討された4つのデータ整形技術が示されています。…

このAI論文では、LLMsの既存のタスクの新しいバリアントに適応する能力が評価されています

言語モデル(LM)の注目すべきパフォーマンスは、大規模な次の単語予測がテキストコーパスから知識を効果的に蒸留できることを示唆しています。LMは、さまざまな自然言語処理ベンチマークで印象的な結果を達成し、最先端の手法を上回り、複雑な推論を必要とするタスクでも人間を上回る成績を収めています。ただし、これらの成功は、タスクに一般的な推論スキルからくるものなのか、事前学習時に遭遇した特定のタスクを認識・回想することからくるものなのかを判断することが重要です。 これまでの研究は、主にインスタンスレベルの一般化に焦点を当てており、データの汚染問題が複雑さを増しています。本研究では、研究者たちは、パフォーミングタスクが実行される条件やルールを変更することで、LMの一般化能力を新たなタスクバリアントに対して調査しました。これらのタスクの一般的な推論手順は変更せず、具体的な入出力マッピングのみが変更されます。これらの新しいタスクは、カウンターファクトタスクと呼ばれ、デフォルト条件から逸脱し、モデルのタスクレベルの一般化能力を測定します。 研究者たちは、複数のカテゴリとドメインを網羅する11のカウンターファクト評価タスクのスイートを提案しています。これらのタスクには、演繹的な推論、コード生成、ドローイング、空間的な推論などが含まれます。元のタスクとそのカウンターファクトバリアント間の推論手順は一貫していますが、入出力マッピングは異なります。この評価は、LMの新しいタスクバリアントへの適応性を評価することを目的としています。 GPT-4、GPT-3.5、Claude、およびPaLM-2のパフォーマンスは、タスクのデフォルト条件とカウンターファクト条件の両方で評価されます。結果は、LMがランダム以上のカウンターファクトパフォーマンスを示す一方で、デフォルト設定と比較して一貫して性能が低下することを示しています。これは、これらのタスクにおけるモデルの成功が、抽象的で一般化可能な推論スキルではなく、デフォルト条件固有の振る舞いに一部帰属できることを示唆しています。 研究結果は、デフォルトとカウンターファクトタスクのモデルの振る舞いにおける興味深い関係も明らかにしています。デフォルトとカウンターファクトのパフォーマンスの相関関係、ゼロショットの連鎖思考プロンプトの効果、およびタスクおよびインスタンスレベルの頻度効果の相互作用が観察されています。全体として、タスクのデフォルトの具体化にわずかな変動があることは、LMにとって課題を提供し、既存のモデルの成功は単に目標タスクへの一般的な能力にのみ帰せられるべきではないことを示しています。

「ディープランゲージモデルは、コンテキストから次の単語を予測することを学ぶことで、ますます優れてきていますこれが本当に人間の脳が行っていることなのでしょうか?」

ディープラーニングは、テキスト生成、翻訳、および補完の分野で最近大きな進歩を遂げています。周囲の文脈から単語を予測するために訓練されたアルゴリズムは、これらの進歩を実現する上で重要な役割を果たしてきました。しかし、膨大な訓練データにアクセスできるにもかかわらず、ディープ言語モデルはまだ長いストーリーの生成、要約、一貫した対話、情報検索などのタスクを実行するための支援が必要です。これらのモデルは、文法や意味的な特性を捉えるのに支援が必要であり、言語的な理解がより表面的である必要があります。予測コーディング理論は、人間の脳が多様な時間スケールと表現のレベルで予測を行うことを示唆しています。以前の研究では、脳内での音声予測の証拠が示されていましたが、予測された表現の性質とその時間的範囲はほとんど知られていませんでした。最近、研究者は304人の被験者が短編小説を聞いている際の脳の信号を分析し、長距離および多レベルの予測を深層言語モデルに組み込むことで脳のマッピングを改善することがわかりました。 この研究の結果、言語の予測は大脳皮質で階層的に組織されていることが明らかになりました。これらの結果は、脳が表現の多レベルと時間スケールにわたって予測を行うことを示唆する予測コーディング理論と一致しています。これらの考えを深層言語モデルに取り入れることで、人間の言語処理とディープラーニングアルゴリズムのギャップを埋めることができます。 この研究では、予測コーディング理論の具体的な仮説を評価するために、深層言語モデルと304人の被験者が話された物語を聞いている際の脳活動を比較しました。その結果、長距離および高レベルの予測を補完した深層言語アルゴリズムの活性化が脳活動を最もよく説明することがわかりました。 この研究は3つの主な貢献をしました。まず、上角回と側頭、側頭葉、および前頭葉の活性化が最も長い予測距離を持ち、将来の言語表現を積極的に予測していることがわかりました。優越的な側頭溝と上角回は低レベルの予測で最もよくモデル化され、中間頭頂、頭頂葉、および前頭領域は高レベルの予測で最もよくモデル化されます。次に、予測表現の深さは同様の解剖学的なアーキテクチャに沿って変化します。最後に、長期予測に影響を与えるのは構文ではなく意味的な特性です。 データによれば、側頭、側頭葉、前頭葉、上角回は最も長い予測距離を持つことが示されました。これらの脳の領域は、抽象的な思考、長期計画、注意の調整、高レベルの意味といった高レベルの実行活動に関連しています。研究によれば、これらの領域は言語の階層のトップに位置し、過去の刺激を受動的に処理するだけでなく、将来の言語表現を積極的に予測する可能性があります。 この研究はまた、同じ解剖学的な組織に沿って予測表現の深さに変動があることを示しました。優越的な側頭溝と上角回は低レベルの予測で最もよくモデル化され、中間頭頂、頭頂葉、および前頭領域は高レベルの予測で最もよくモデル化されます。その結果は仮説と一致しています。現代の言語アルゴリズムとは異なり、脳は単語レベルだけでなく、さまざまなレベルで表現を予測します。 最後に、研究者は脳の活性化を構文的な表現と意味的な表現に分け、長期予測には構文的な要素ではなく意味的な要素が影響を与えることを発見しました。この結果は、長い文章の言語処理の核心が高レベルの意味的な予測に関わる可能性があることを支持しています。 この研究の総括として、自然言語処理のベンチマークを改善し、モデルを脳とより似たものにするために、アルゴリズムを一貫して多くの時間スケールと表現レベルを予測するように訓練することができる可能性が示唆されています。

「DeepOntoに会ってください 深層学習を用いたオントロジーエンジニアリングのためのPythonパッケージ」

ディープラーニングの方法論の進歩は、人工知能コミュニティに大きな影響を与えています。優れたイノベーションと開発により、多くのタスクが容易になっています。ディープラーニングの技術は、医療、ソーシャルメディア、エンジニアリング、金融、教育など、ほとんどの業界で広く使用されています。最も優れたディープラーニングの発明の一つは、最近人気が出ている大規模言語モデル(LLM)であり、その信じられないほどのユースケースが主な話題となっています。これらのモデルは人間を模倣し、自然言語処理やコンピュータビジョンの力を利用して、驚くべき解決策を示します。 大規模言語モデルのオントロジーエンジニアリングへの応用は、以来話題となっています。オントロジーエンジニアリングは、オントロジーの作成、構築、キュレーション、評価、保守に関わる知識工学の分野です。オントロジーとは、特定の領域内の知識の形式的で正確な仕様であり、概念と属性の体系的な語彙とそれらの間の関係を提供し、人間と機械の間で意味論的な共有理解を可能にします。 OWL APIやJenaなどのよく知られたオントロジーAPIは主にJavaベースですが、PyTorchやTensorflowなどのディープラーニングフレームワークは一般的にPythonプログラミング向けに開発されています。これに対処するため、研究者のチームはDeepOntoというPythonパッケージを開発しました。このパッケージは、フレームワークとAPIのシームレスな統合を可能にする、オントロジーエンジニアリングに特化したものです。 DeepOntoパッケージは、ディープラーニングをベースとしたオントロジーエンジニアリングに包括的で一般的なPythonフレンドリーなサポートを提供し、基本的な操作(読み込み、保存、エンティティのクエリ、エンティティと公理の変更など)をサポートするオントロジー処理モジュールを基盤としています。また、オントロジーの推論や言語モデルの検証などの高度な機能も備えています。また、オントロジーアライメント、補完、オントロジーベースの言語モデルプロービングのためのツールやリソースも含まれています。 チームはDeepOntoのバックエンド依存関係としてOWL APIを選択しました。これは、ROBOTやHermiTなどの傑出したプロジェクトやツールでの安定性、信頼性、広範な採用など、APIの特性によるものです。ディープラーニングの依存関係には、PyTorchが基盤として使用されています。これは、モデルのアーキテクチャをランタイムで調整できる動的な計算グラフを持つため、柔軟性と使いやすさを提供します。言語モデルのアプリケーションには、HuggingfaceのTransformersライブラリが使用され、ChatGPTなどの大規模言語モデルにおける重要な基盤であるプロンプト学習パラダイムをサポートするためにOpenPromptライブラリが使用されています。 DeepOntoの基本的なオントロジー処理モジュールは、特定のタスクを実行するためのいくつかの部分で構成されています。最初はOntologyで、DeepOntoのベースクラスであり、オントロジーの表示と変更のための基本的なメソッドを提供します。次に、オントロジーの推論があります。これは推論活動を実施するために使用されます。それに続いて、オントロジーのプルーニングがあります。これは、オントロジーを取り、意味的な種類などの特定の基準に応じてスケーラブルなサブセットを抽出します。最後に、オントロジーの言語化があります。これにより、オントロジーのアクセシビリティが向上し、オントロジーエンジニアリングのさまざまな活動をサポートするために、オントロジー要素を自然言語テキストに変換します。 チームは、DeepOntoの実用的な有用性を2つのユースケースを通じて示しました。最初のユースケースでは、DeepOntoがSamsung Research UKのデジタルヘルスコーチングのフレームワーク内でのオントロジーエンジニアリングタスクをサポートするために使用されています。2番目のユースケースでは、DeepOntoがディープラーニングの技術を使用してバイオメディカルオントロジーを整列させ、完成させるために使用されています。 まとめると、DeepOntoはオントロジーエンジニアリングのための強力なパッケージであり、人工知能の分野の発展において重要な存在です。DeepOntoは、論理埋め込みや新しい概念の発見と導入などの将来の実装やプロジェクトに対して、柔軟かつ拡張可能なインタフェースを提供します。

「3Dで動作する魔法の筆:Blended-NeRFはニューラル放射場におけるゼロショットオブジェクト生成を行うAIモデルです」

ここ数年は、さまざまな分野でユーレカの瞬間が続いています。私たちは、革新的な手法が登場し、巨大な進歩がもたらされるのを目にしてきました。言語モデルにおけるChatGPT、生成モデルにおける安定拡散、コンピュータグラフィックスとビジョンにおけるニューラル放射場(NeRF)など、その中でも特に注目されたものです。 NeRFは、私たちが3Dシーンを表現し、描画する方法を革新しました。NeRFは、連続的な3Dボリュームとしてシーンを表現し、ジオメトリと外観情報をエンコードします。従来の明示的な表現とは異なり、NeRFはニューラルネットワークを通じてシーンの特性を捉え、新しい視点の合成や複雑なシーンの正確な再構築を可能にします。シーン内の各点のボリューメトリック密度と色をモデリングすることにより、NeRFは印象的な写真のようなリアリズムと詳細な再現性を実現しています。 NeRFの多様性とポテンシャルは、その能力を向上させ、制約を解消するために広範な研究が行われています。NeRFの推論の高速化や動的シーンの処理、シーンの編集を可能にするための技術が提案され、この新しい表現の適用範囲と影響力がさらに拡大しています。 しかし、これらの努力にもかかわらず、NeRFには実用的なシナリオでの適応性を妨げる制約がまだ存在します。シーンの編集はその中でも特に重要な例です。これは、NeRFの暗黙的な性質と異なるシーンコンポーネントの明示的な区別の欠如により、困難です。 他のメッシュなどの明示的な表現を提供する方法とは異なり、NeRFは形状、色、材料の明確な区別を提供しません。さらに、NeRFシーンに新しいオブジェクトをブレンドするには、複数のビュー間での一貫性が必要であり、編集プロセスがさらに複雑になります。 3Dシーンをキャプチャする能力は、方程式の一部にすぎません。出力を編集できる能力も同様に重要です。デジタル画像やビデオは編集が比較的容易であるため、最近のテキストからXへのAIモデルによって特に簡単に編集できます。では、それと同じ力をNeRFシーンにもたらす方法は何でしょうか?それがBlended-NeRFです。 Blended-NeRFの概要。出典:https://arxiv.org/pdf/2306.12760.pdf Blended-NeRFは、テキストプロンプトや画像パッチによって誘導されるNeRFシーンのROIベースの編集手法です。既存の特徴空間や2次元マスクのセットを必要とせずに、実世界のシーンの任意の領域を編集することができます。 この手法の目標は、既存のシーンとシームレスにブレンドする自然な見た目とビューの一貫性を生成することです。さらに重要なことに、Blended-NeRFは特定のクラスやドメインに制約されず、物体の挿入/置換、オブジェクトのブレンド、テクスチャの変換など、複雑なテキストによる操作を可能にします。 これらの機能をすべて実現することは簡単ではありません。そのため、Blended-NeRFは、CLIPなどの事前学習された言語-画像モデルと、既存のNeRFシーン上に初期化されたNeRFモデルを利用して、シーンの関心領域(ROI)に新しいオブジェクトを合成およびブレンドするためのジェネレータとして機能します。 CLIPモデルは、ユーザーが提供したテキストプロンプトや画像パッチに基づいて生成プロセスを誘導し、シーンと自然にブレンドするさまざまな3Dオブジェクトの生成を可能にします。残りのシーンを保持しながら一般的な局所的な編集を可能にするために、ユーザーにはシンプルなGUIが提示され、直感的なフィードバックのために深度情報を利用してNeRFシーン内の3Dボックスをローカライズすることができます。シームレスなブレンドのために、新しい距離スムージング操作が提案されており、各カメラ光線に沿ってサンプリングされた3Dポイントをブレンドすることで、元の放射場と合成された放射場をマージします。 距離スムージング演算子の例。出典:https://arxiv.org/pdf/2306.12760.pdf しかし、もう1つ問題がありました。このパイプラインを使用してNeRFシーンを編集すると、品質が低く、矛盾した結果が得られます。この問題に対処するために、Blended-NeRFの研究者たちは、深度正則化、ポーズサンプリング、方向依存のプロンプトなど、前の研究で提案された拡張と事前知識を取り入れ、より現実的で統一感のある結果を得ることを目指しています。

北京大学の研究者は、FastServeを紹介しました:大規模な言語モデルLLMsのための分散推論サービスシステム

大規模言語モデル(LLM)の改善により、さまざまな分野での機会が生まれ、新しい波の対話型AIアプリケーションがインスピレーションを与えています。最も注目すべきものの1つはChatGPTで、ソフトウェアエンジニアリングから言語翻訳までの問題を解決するために、人々がAIエージェントと非公式にコミュニケーションを取ることを可能にします。 ChatGPTは、その驚異的な能力のために、史上最も急成長しているプログラムの1つです。MicrosoftのNew Bing、GoogleのBard、MetaのLLaMa、StanfordのAlpaca、DatabricksのDolly、UC BerkeleyのVicunaなど、多くの企業がLLMやChatGPTのような製品をリリースするトレンドに追従しています。 LLMの推論は、ResNetなどの他の深層ニューラルネットワーク(DNN)モデルの推論とは異なる特徴を持っています。LLM上に構築された対話型AIアプリケーションは、機能するために推論を提供する必要があります。これらのアプリの対話的なデザインは、LLM推論のジョブ完了時間(JCT)を迅速に行う必要があり、ユーザーエクスペリエンスを魅力的にするためです。たとえば、データをChatGPTに送信した場合、消費者は即座の応答を期待しています。ただし、LLMの数と複雑さのため、推論サービングインフラは大きな負荷を受けています。企業は、LLM推論操作を処理するために、GPUやTPUなどのアクセラレータを備えた高価なクラスタを設置しています。 DNNの推論ジョブは通常、確定的で非常に予測可能です。つまり、モデルとハードウェアが推論ジョブの実行時間を大部分に決定します。たとえば、同じResNetモデルを特定のGPU上で使用しても、さまざまな入力写真の実行時間はわずかに異なります。一方、LLMの推論位置はユニークな自己回帰パターンを持っています。LLMの推論作業は複数のラウンドを経ます。各イテレーションは1つの出力トークンを生成し、それが次のイテレーションでの次のトークンに追加されます。初めには不明な出力の長さは、実行時間と入力の長さの両方に影響を与えます。ResNetなどの決定論的モデル推論タスクの大部分は、ClockworkやShepherdのような既存の推論サービングシステムによって対応されています。 これらのシステムは、正確な実行時間のプロファイリングに基づいてスケジューリングの決定を行いますが、実行時間が可変のLLM推論には効果的ではありません。LLM推論の最も先進的な方法はOrcaです。Orcaはイテレーションレベルのスケジューリングを提案し、各イテレーション後に現在の処理バッチに新しいジョブを追加するか、完了したジョブを削除することができます。ただし、Orcaは先入れ先出し(FCFS)を使用して推論ジョブを処理します。スケジュールされたタスクは完了するまで連続して実行されます。推論ジョブの制約されたGPUメモリ容量と低いJCT要件のため、処理バッチを任意の数の入力関数で拡張することはできません。完了まで実行されるまでのブロックの問題はよく知られています。 LLMはサイズが大きく、絶対的な意味で実行に時間がかかるため、LLM推論操作ではこの問題が特に深刻です。特に出力の長さが長い場合、大規模なLLM推論ジョブは完了に時間がかかり、後続の短いジョブを妨げます。北京大学の研究者たちは、FastServeと呼ばれるLLM向けの分散推論サービングソリューションを開発しました。FastServeは、LLM推論のイテレーションレベルのスケジューリングと自己回帰パターンを利用して、各出力トークンのレベルで事前処理を可能にします。FastServeは、キュー内の別のジョブによって予定されたタスクを続行するか、中断するかを選択できます。これにより、FastServeはJCTと先行ブロッキングを削減し、先制的なスケジューリングを介しています。 FastServeの基盤となるのは、ユニークなスキップジョインのマルチレベルフィードバックキュー(MLFQ)スケジューラです。MLFQは、情報がない環境で平均JCTを最小化するためのよく知られた手法です。各作業は最も高い優先度キューで開始され、一定の時間内に完了しない場合は次の優先度キューに降格されます。LLM推論は、セミ情報が無関係であり、出力の長さが事前にはわからないということを意味します。これがLLM推論と従来の状況の主な違いです。入力の長さは、初期の出力トークンを作成するための実行時間を決定し、LLM推論の自己回帰パターンのため、その実行時間は後続のトークンよりもはるかに長くかかる場合があります。 入力が長く、出力が短い場合、初期の出力トークンの実行時間が大部分を占めます。彼らは、この特性を伝統的なMLFQにスキップジョインを追加するために使用します。到着タスクは、最初の出力トークンの実行時間をラインの降格閾値と比較して、適切なキューに参加します。常に最も高い優先度キューに入るのではなく、参加したキューよりも優先度の高いキューはバイパスされ、降格が最小限に抑えられます。MLFQによる先制的なスケジューリングは、中断されたが完了していないジョブを一時的な状態で保持するため、追加のメモリオーバーヘッドを加えます。LLMは、各Transformerレイヤーごとにキー値キャッシュを保持し、中間状態を保存します。バッチサイズが超過しない限り、FCFSキャッシュにはスケジュールされたジョブの中間状態を保持する必要があります。ただし、MLFQで開始された追加のジョブは、優先度の低いキューに降格されます。MLFQの中断されたが完了していないすべてのジョブは、キャッシュによって保持される中間状態を持つ必要があります。LLMのサイズとGPUの制限されたメモリスペースを考慮すると、キャッシュがオーバーフローする可能性があります。キャッシュがいっぱいの場合、スケジューラは新しいジョブの開始を単純に遅延させることができますが、これにより再び先行ブロッキングが発生します。 代わりに、彼らは生産的なGPUメモリ管理システムを開発し、スケジュールされたときに低優先度のキュー内のプロセスの状態を前もってアップロードし、キャッシュがほぼいっぱいになったときに状態をオフロードします。効率を高めるために、パイプライン処理と非同期メモリ操作を使用しています。FastServeは、テンソルとパイプライン並列処理などの並列化技術を使用して、1つのGPUに収まらない巨大なモデルのために多数のGPUを使用した分散推論サービスを提供します。パイプラインのブロックを減らすために、スケジューラは同時に複数のジョブのバッチを実行します。キーと値のキャッシュは、キーと値のキャッシュマネージャによって組織化され、GPUとホストメモリの間のメモリスワッピングの管理も行います。彼らは、NVIDIA FasterTransformerをベースにしたFastServeシステムのプロトタイプを実際に実装しました。結果は、FastServeが最先端のOrcaソリューションと比較して、平均およびテールのジョブ完了時間をそれぞれ最大5.1と6.4向上させることを示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us