Search Results arXiv

「Amazon SageMaker Hyperband 自動モデルチューニングを使用して、分散トレーニングの収束問題を効果的に解決する」

最近の数年間は、ディープラーニングニューラルネットワーク（DNN）の驚異的な成長が見られていますこの成長は、より正確なモデルや生成型AIによる新たな可能性の開拓（自然言語を合成する大規模な言語モデル、テキストから画像を生成するものなど）に現れていますDNNのこれらの増加した機能は、巨大なモデルを持つことと引き換えに実現されています

「LLMsの実践的な導入」

「これは、実践で Large Language Models (LLMs) を使用するシリーズの最初の記事ですここでは、LLMs の紹介とそれらとの作業の3つのレベルを紹介します将来の記事では...」

イネイテンスとは何か？人工知能にとって重要なのか？（パート2）

「生物学と人工知能における先天性の問題は、人間のようなAIの将来にとって重要ですこの2部構成の深い探求は、この概念とその応用についての議論を解消するかもしれません...」

「3Dで動作する魔法の筆：Blended-NeRFはニューラル放射場におけるゼロショットオブジェクト生成を行うAIモデルです」

ここ数年は、さまざまな分野でユーレカの瞬間が続いています。私たちは、革新的な手法が登場し、巨大な進歩がもたらされるのを目にしてきました。言語モデルにおけるChatGPT、生成モデルにおける安定拡散、コンピュータグラフィックスとビジョンにおけるニューラル放射場（NeRF）など、その中でも特に注目されたものです。 NeRFは、私たちが3Dシーンを表現し、描画する方法を革新しました。NeRFは、連続的な3Dボリュームとしてシーンを表現し、ジオメトリと外観情報をエンコードします。従来の明示的な表現とは異なり、NeRFはニューラルネットワークを通じてシーンの特性を捉え、新しい視点の合成や複雑なシーンの正確な再構築を可能にします。シーン内の各点のボリューメトリック密度と色をモデリングすることにより、NeRFは印象的な写真のようなリアリズムと詳細な再現性を実現しています。 NeRFの多様性とポテンシャルは、その能力を向上させ、制約を解消するために広範な研究が行われています。NeRFの推論の高速化や動的シーンの処理、シーンの編集を可能にするための技術が提案され、この新しい表現の適用範囲と影響力がさらに拡大しています。しかし、これらの努力にもかかわらず、NeRFには実用的なシナリオでの適応性を妨げる制約がまだ存在します。シーンの編集はその中でも特に重要な例です。これは、NeRFの暗黙的な性質と異なるシーンコンポーネントの明示的な区別の欠如により、困難です。他のメッシュなどの明示的な表現を提供する方法とは異なり、NeRFは形状、色、材料の明確な区別を提供しません。さらに、NeRFシーンに新しいオブジェクトをブレンドするには、複数のビュー間での一貫性が必要であり、編集プロセスがさらに複雑になります。 3Dシーンをキャプチャする能力は、方程式の一部にすぎません。出力を編集できる能力も同様に重要です。デジタル画像やビデオは編集が比較的容易であるため、最近のテキストからXへのAIモデルによって特に簡単に編集できます。では、それと同じ力をNeRFシーンにもたらす方法は何でしょうか？それがBlended-NeRFです。 Blended-NeRFの概要。出典：https://arxiv.org/pdf/2306.12760.pdf Blended-NeRFは、テキストプロンプトや画像パッチによって誘導されるNeRFシーンのROIベースの編集手法です。既存の特徴空間や2次元マスクのセットを必要とせずに、実世界のシーンの任意の領域を編集することができます。この手法の目標は、既存のシーンとシームレスにブレンドする自然な見た目とビューの一貫性を生成することです。さらに重要なことに、Blended-NeRFは特定のクラスやドメインに制約されず、物体の挿入/置換、オブジェクトのブレンド、テクスチャの変換など、複雑なテキストによる操作を可能にします。これらの機能をすべて実現することは簡単ではありません。そのため、Blended-NeRFは、CLIPなどの事前学習された言語-画像モデルと、既存のNeRFシーン上に初期化されたNeRFモデルを利用して、シーンの関心領域（ROI）に新しいオブジェクトを合成およびブレンドするためのジェネレータとして機能します。 CLIPモデルは、ユーザーが提供したテキストプロンプトや画像パッチに基づいて生成プロセスを誘導し、シーンと自然にブレンドするさまざまな3Dオブジェクトの生成を可能にします。残りのシーンを保持しながら一般的な局所的な編集を可能にするために、ユーザーにはシンプルなGUIが提示され、直感的なフィードバックのために深度情報を利用してNeRFシーン内の3Dボックスをローカライズすることができます。シームレスなブレンドのために、新しい距離スムージング操作が提案されており、各カメラ光線に沿ってサンプリングされた3Dポイントをブレンドすることで、元の放射場と合成された放射場をマージします。距離スムージング演算子の例。出典：https://arxiv.org/pdf/2306.12760.pdf しかし、もう1つ問題がありました。このパイプラインを使用してNeRFシーンを編集すると、品質が低く、矛盾した結果が得られます。この問題に対処するために、Blended-NeRFの研究者たちは、深度正則化、ポーズサンプリング、方向依存のプロンプトなど、前の研究で提案された拡張と事前知識を取り入れ、より現実的で統一感のある結果を得ることを目指しています。

AIパルス＃2：メタの人間のようなAI＆小さな言語モデル

📢 メタはImageBindをリリースしましたこのモデルは同時に6つのモダリティから学習することができます 📝 論文 https//arxiv.org/abs/2305.05665 💻 コード https//github.com/facebookresearch/ImageBind 👀 デモ...

LLaMA 皆のためのLLM！

何年もの間、深層学習コミュニティは公開性と透明性を受け入れ、HuggingFaceのような大規模なオープンソースプロジェクトを生み出してきました深層学習における最も重要なアイデアの多くは、このようなプロジェクトで生まれました（例えば...

「グローバルAIガバナンスの制度探求」

新しいホワイトペーパーでは、先進的なAIの機会を管理し、リスクを緩和するために国際機関のモデルと機能を調査しています先進的な人工知能（AI）の世界的な影響に関する認識が高まるにつれ、国際的なガバナンス構造の必要性についての公的な議論が行われています多くの議論は、民間航空のICAO（国際民間航空機関）、粒子物理学のCERN（欧州原子核研究機構）、核技術のIAEA（国際原子力機関）、および他の多くの分野の政府間および多利害関係者組織との類似性に基づいていますしかし、AIから生まれる技術は航空、粒子物理学、または核技術とは異なるものになるでしょうAIのガバナンスに成功するためには、国際的に管理する必要のある具体的な利益とリスク、それらの利益とリスクに必要なガバナンス機能、それらの機能を最も提供できる組織についてよりよく理解する必要があります

Technical blog

インターネット上でのディープラーニング：言語モデルの共同トレーニング

Quentin LhoestさんとSylvain Lesageさんの追加の助けを得ています。現代の言語モデルは、事前学習に多くの計算リソースを必要とするため、数十から数百のGPUやTPUへのアクセスなしでは入手することが不可能です。理論的には、複数の個人のリソースを組み合わせることが可能かもしれませんが、実際には、インターネット上の接続速度は高性能GPUスーパーコンピュータよりも遅いため、このような分散トレーニング手法は以前は限定的な成功しか収めていませんでした。このブログ記事では、参加者のネットワークとハードウェアの制約に適応することができる新しい協力的な分散トレーニング方法であるDeDLOCについて説明します。私たちは、40人のボランティアを使ってベンガル語の言語モデルであるsahajBERTの事前学習を行うことで、実世界のシナリオでの成功を示します。ベンガル語の下流タスクでは、このモデルは数百の高級アクセラレータを使用したより大きなモデルとほぼ同等のクオリティを実現しています。オープンコラボレーションにおける分散深層学習なぜやるべきなのか？現在、多くの高品質なNLPシステムは大規模な事前学習済みトランスフォーマーに基づいています。一般的に、その品質はサイズとともに向上します。パラメータ数をスケールアップし、未ラベルのテキストデータの豊富さを活用することで、自然言語理解や生成において類を見ない結果を実現することができます。残念ながら、これらの事前学習済みモデルを使用するのは、便利なだけではありません。大規模なデータセットでのトランスフォーマーのトレーニングに必要なハードウェアリソースは、一般の個人やほとんどの商業または研究機関には手の届かないものです。例えば、BERTのトレーニングには約7000ドルかかると推定され、GPT-3のような最大のモデルでは、この数は1200万ドルにもなります！このリソースの制約は明らかで避けられないもののように思えますが、広範な機械学習コミュニティにおいて事前学習済みモデル以外の代替手段は本当に存在しないのでしょうか？ただし、この状況を打破する方法があるかもしれません。解決策を見つけるために、周りを見渡すだけで十分かもしれません。求めている計算リソースは既に存在している可能性があるかもしれません。たとえば、多くの人々は自宅にゲームやワークステーションのGPUを搭載したパワフルなコンピュータを持っています。おそらく、私たちがFolding@home、Rosetta@home、Leela Chess Zero、または異なるBOINCプロジェクトのように、ボランティアコンピューティングを活用することで、彼らのパワーを結集しようとしていることはお分かりいただけるかもしれませんが、このアプローチはさらに一般的です。たとえば、いくつかの研究所は、自身の小規模なクラスタを結集して利用することができますし、低コストのクラウドインスタンスを使用して実験に参加したい研究者もいるかもしれません。疑い深い考え方をすると、ここで重要な要素が欠けているのではないかと思うかもしれません。分散深層学習においてデータ転送はしばしばボトルネックとなります。複数のワーカーから勾配を集約する必要があるためです。実際、インターネット上での分散トレーニングへの単純なアプローチは必ず失敗します。ほとんどの参加者はギガビットの接続を持っておらず、いつでもネットワークから切断される可能性があるためです。では、家庭用のデータプランで何かをトレーニングする方法はどうすればいいのでしょうか？ 🙂 この問題の解決策として、私たちは新しいトレーニングアルゴリズム、Distributed Deep Learning in Open Collaborations（またはDeDLOC）を提案しています。このアルゴリズムの詳細については、最近公開されたプレプリントで詳しく説明しています。では、このアルゴリズムの中核となるアイデアについて見てみましょう！ボランティアと一緒にトレーニングする最も頻繁に使用される形態の分散トレーニングにおいては、複数のGPUを使用したトレーニングは非常に簡単です。ディープラーニングを行う場合、通常はトレーニングデータのバッチ内の多くの例について損失関数の勾配を平均化します。データ並列の分散DLの場合、データを複数のワーカーに分割し、個別に勾配を計算し、ローカルのバッチが処理された後にそれらを平均化します。すべてのワーカーで平均勾配が計算されたら、モデルの重みをオプティマイザで調整し、モデルのトレーニングを続けます。以下に、実行されるさまざまなタスクのイラストを示します。多くの場合、同期の量を減らし、学習プロセスを安定化させるために、ローカルのバッチを平均化する前にNバッチの勾配を蓄積することができます。これは実際のバッチサイズをN倍にすることと同等です。このアプローチは、最先端の言語モデルのほとんどが大規模なバッチを使用しているという観察と組み合わせることで、次のようなシンプルなアイデアに至りました。各オプティマイザステップの前に、すべてのボランティアのデバイスをまたいで非常に大規模なバッチを蓄積しましょう！この方法は、通常の分散トレーニングと完全に等価であり、簡単にスケーラビリティを実現するだけでなく、組み込みの耐障害性も持っています。以下に、それを説明する例を示します。共同の実験中に遭遇する可能性のあるいくつかの故障ケースを考えてみましょう。今のところ、最も頻繁なシナリオは、1人または複数の参加者がトレーニング手続きから切断されることです。彼らは不安定な接続を持っているか、単に自分のGPUを他の用途に使用したいだけかもしれません。この場合、トレーニングにはわずかな遅れが生じますが、これらの参加者の貢献は現在蓄積されているバッチサイズから差し引かれます。しかし、他の参加者が彼らの勾配でそれを補ってくれるでしょう。また、さらに多くの参加者が加わる場合、目標のバッチサイズは単純により速く達成され、トレーニング手続きは自然にスピードアップします。これを以下のビデオでデモンストレーションしています。…

🤗 Hubでのスーパーチャージド検索

huggingface_hubライブラリは、ホスティングエンドポイント（モデル、データセット、スペース）を探索するためのプログラム的なアプローチを提供する軽量なインタフェースです。これまでは、このインタフェースを介してハブでの検索は難しく、ユーザーは「知っているだけ」で慣れなければならない多くの側面がありました。この記事では、huggingface_hubに追加されたいくつかの新機能を紹介し、ユーザーにJupyterやPythonインタフェースを離れずに使用したいモデルやデータセットを検索するためのフレンドリーなAPIを提供します。始める前に、システムに最新バージョンのhuggingface_hubライブラリがない場合は、次のセルを実行してください： !pip install huggingface_hub -U 問題の位置づけ：まず、自分がどのようなシナリオにいるか想像してみましょう。テキスト分類のためにハブでホストされているすべてのモデルを見つけたいとします。これらのモデルはGLUEデータセットでトレーニングされ、PyTorchと互換性があります。 https://huggingface.co/models を単に開いてそこにあるウィジェットを使用することもできます。しかし、これによりIDEを離れて結果をスキャンする必要がありますし、必要な情報を得るためにはいくつかのボタンクリックが必要です。もしもIDEを離れずにこれを解決する方法があったらどうでしょうか？プログラム的なインタフェースであれば、ハブを探索するためのワークフローにも簡単に組み込めるかもしれません。ここでhuggingface_hubが登場します。このライブラリに慣れている方は、すでにこの種のモデルを検索できることを知っているかもしれません。しかし、クエリを正しく取得することは試行錯誤の痛ましいプロセスです。それを簡略化することはできるでしょうか？さあ、見てみましょう！必要なものを見つけるまず、HfApiをインポートします。これはHugging Faceのバックエンドホスティングと対話するのに役立つクラスです。モデル、データセットなどを通じて対話することができます。さらに、いくつかのヘルパークラスもインポートします：ModelFilterとModelSearchArguments from huggingface_hub import HfApi, ModelFilter,…

注釈付き拡散モデル

このブログ記事では、Denoising Diffusion Probabilistic Models（DDPM、拡散モデル、スコアベースの生成モデル、または単にオートエンコーダーとも呼ばれる）について詳しく見ていきます。これらのモデルは、(非)条件付きの画像/音声/ビデオの生成において、驚くべき結果が得られています。具体的な例としては、OpenAIのGLIDEやDALL-E 2、University of HeidelbergのLatent Diffusion、Google BrainのImageGenなどがあります。この記事では、（Hoら、2020）による元のDDPMの論文を取り上げ、Phil Wangの実装をベースにPyTorchでステップバイステップで実装します。なお、このアイデアは実際には（Sohl-Dicksteinら、2015）で既に導入されていました。ただし、改善が行われるまでには（Stanford大学のSongら、2019）を経て、Google BrainのHoら、2020）が独自にアプローチを改良しました。拡散モデルにはいくつかの視点がありますので、ここでは離散時間（潜在変数モデル）の視点を採用していますが、他の視点もチェックしてください。さあ、始めましょう！ from IPython.display import Image Image(filename='assets/78_annotated-diffusion/ddpm_paper.png') まず必要なライブラリをインストールしてインポートします（PyTorchがインストールされていることを前提としています）。 !pip install -q -U…

Learn more about Search Results arXiv - Page 22