Search Results A

コーディングなしで自分自身のChatGPTを作成する─ステップバイステップガイド

ChatGPTがリリースされてからほぼ1年が経ちましたが、OpenAIはそのプラットフォームの新機能や能力で私たちを驚かせ続けていますOpenAIの最新リリースノートでは、確かに新しい素敵な機能が提供されています

「MITとNVIDIAの研究者が、要求の厳しい機械学習タスクの速度とパフォーマンスを劇的に向上させることができる、2つの補完的な技術を開発しました」

MITとNVIDIAの研究者は、スパーステンソルの処理を加速する2つの技術を開発しました（テンソルは、機械学習モデルにおいて基本的なデータ構造として機能し、データを整理・格納する多次元配列の役割を果たす）。両方の新技術の目標は、テンソルのゼロ値を効果的に活用することです。ゼロを処理せずにこれらのテンソルを扱うことができるため、メモリと計算を節約できます。例えば、何かをゼロと掛け合わせると結果はゼロになるため、その演算はスキップできます。さらに、テンソルを圧縮することもできるため、ゼロを保持する必要がないため、オンチップメモリにより多くを格納することができます。テンソルのスパース性は、不要な要素がゼロで置き換えられることによって発生します。この過程はプルーニングと呼ばれます。スパース性の度合いやゼロの位置はモデルによって異なる場合があります。研究者は、非ゼロ値の位置を制約することで、大型モデル内でそれらを特定しやすくすることがよくあります。ハードウェアアクセラレータの適応性は、通常特定のスパースパターンに対して設計されているため限られています。研究チームは、さまざまなスパースパターンを効率的に処理することができるハードウェアアクセラレータ「HighLight」を開発しました。研究者は、単純なものから構成される異なるタイプのスパースパターンを効率的に表現するために、階層的な構造を使用しました。この方法では、1つのセット内の数字をより小さなグループに分割し、各グループが単純なパターンに従います。これらの小さなグループは、階層を形成するより大きなグループに組み合わされます。グループの集合ごとに単純なパターン（4つのグループからなるレベルでは、ゼロのグループが1つあり、ゼロのないグループが3つあるなど）に従います。このプロセスはより大きなレベルでも続きますが、各ステップでパターンは単純なままです。この単純さにより、HighLightはゼロをより効率的に見つけてスキップし、余分な計算を削減する機会を最大限に活用することができます。彼らのアクセラレータデザインでは、他の手法と比較してエネルギー遅延積（エネルギー効率に関連する指標）が約6倍良くなりました。研究者はまた、スパース性を活用してコンピュータチップ上でデータの移動と処理をより効率的に行うこともできます。テンソルは通常、チップ上のメモリバッファに格納できる容量を超える場合があるため、チップは一度に1つのチャンク（タイルと呼ばれる）を取得して処理します。バッファの容量を最大限に活用し、チップが外部メモリにアクセスする頻度を最小限に抑えるため、できるだけ大きなタイルを使用することを目指します。多くのデータ値がゼロであるため、ゼロの値を格納する必要はなく、バッファにはその生の容量よりも大きなタイルが収まることができます。ただし、ゼロの値の数はデータの異なる部分で異なるため、各タイルにも異なる場合があります。これに対処するため、研究グループはタイルサイズを拡大するためのオーバーブッキング技術を提案しました。スパースデータセットでは、ほとんどのタイルにゼロが十分に収まるようにタイルサイズを選択することができます。場合によっては、タイルに非ゼロ値がバッファに収まりきらないほど多く含まれることがあります。この場合、これらの余剰データはバッファから押し出されます。研究グループは、最適化されたタイルサイズを特定するためにテンソルを複数回検査する頻度を減らす方法として、「Tailors」という手法を提案しました。これにより、オーバーブッキングの利点を活用することが可能です。重要な推定誤差があっても、特定の非ゼロ値の分布により、著しいスピードアップが実現できます。

このAI論文は、柔軟なタスクシステムと手順的生成による強化学習を革新するNeural MMO 2.0を紹介しています

MIT、CarperAI、Parametrix.AIの研究者らは、Neural MMO 2.0を導入しました。これは、多様な目的と報酬信号を定義できる柔軟なタスクシステムを強調した、強化学習研究用の大規模マルチエージェント環境です。主な改善点は、未知のタスク、マップ、対戦相手に対応できるエージェントのトレーニングを研究者に課すことです。バージョン2.0は完全なリライトを行い、CleanRLとの互換性を確保し、適応性のあるエージェントのトレーニングに向けた強化機能を提供しています。 2017年から2021年の間に、Neural MMOの開発により、Griddly、NetHack、MineRLなどの影響力のある環境が生まれました。これらは以前の出版物で詳細に比較されました。2021年以降、Melting PotやXLandなどの新しい環境が存在し、マルチエージェント学習と知能評価シナリオの範囲が拡大しました。Neural MMO 2.0は、性能が向上し、多様な目的の定義が可能な柔軟なタスクシステムを搭載しています。 Neural MMO 2.0は、柔軟なタスクシステムを通じて、幅広い目標と報酬信号をユーザーが定義できる高度なマルチエージェント環境です。このプラットフォームは完全なリライトが行われ、複雑なマルチエージェントの相互作用と強化学習のダイナミクスの研究のための動的な空間を提供します。タスクシステムには、GameState、Predicates、Tasksの3つのコアモジュールがあり、構造化されたゲーム状態のアクセスを提供します。Neural MMO 2.0は、マルチエージェントの相互作用と強化学習のダイナミクスを探求するための強力なツールです。 Neural MMO 2.0はPettingZoo ParallelEnv APIを実装し、CleanRLのProximal Policy Optimizationを活用しています。このプラットフォームには、GameState、Predicates、Tasksの3つの相互接続されたタスクシステムモジュールがあります。GameStateモジュールは、ゲーム状態全体をフラットテンソル形式でホストすることでシミュレーション速度を高速化します。25個の組み込み述語を備えることで、研究者は複雑で高レベルな目標を明確に説明でき、イベントデータがタスクシステムの機能を効率的に拡張するための補助データストアも提供します。前バージョンと比べて3倍のパフォーマンス向上を達成したこのプラットフォームは、複雑なマルチエージェントの相互作用、リソース管理、強化学習における競争力の動的な研究空間です。 Neural MMO 2.0は、性能が向上し、CleanRLを含む人気のある強化学習フレームワークとの互換性があることで、重要な進歩を示しています。柔軟なタスクシステムにより、複雑なマルチエージェントの相互作用、リソース管理、競争力のダイナミクスを研究する貴重なツールとなります。Neural MMO…

Google DeepMindの研究者たちは、人工汎用知能（AGI）モデルとそれらの前身の能力と行動を分類するためのフレームワークを提案しています

人工知能（AI）と機械学習（ML）モデルの最近の進歩により、人工汎用知能（AGI）の議論は直ちに実際的な重要性を持つ問題になりました。コンピュータ科学において、人工汎用知能またはAGIは、人間と同等以上に幅広いタスクを実行できる人工知能システムを指す重要な概念です。機械学習モデルの能力が進化するにつれて、AGIモデルとその前身の行動を分類し理解するための形式的なフレームワークがますます必要とされています。最近の研究では、Google DeepMindの研究チームが、自動運転のレベルと同様のシステム的なアプローチを作成するために、「AGIのレベル」というフレームワークを提案しました。このフレームワークは、自律性、一般性、パフォーマンスという3つの重要な次元を導入しています。このアプローチは、モデルを比較し、リスクを評価し、人工知能への進展を追跡するための共通の用語を提供しています。研究チームは、実用的なAGIオントロジーに必要と思われる6つのアイデアを抽出するために、以前のAGIの定義を分析しました。提案されたフレームワークの開発は、メカニズムではなく能力に焦点を当てる重要性を示すこれらの原則によって案出されました。これには、一般性とパフォーマンスの独立した評価、およびAGIへの移行時の終了目標だけでなく、ステップの特定も含まれます。研究者たちは、AGIフレームワークのレベルは、パフォーマンスである「深さ」と能力の一般性である「幅広さ」という2つの基本的な側面を中心に構築されたと述べています。このフレームワークは、これらの特徴に基づいてAGIを分類することで、人工知能システムのダイナミックな環境を理解するのを容易にします。パフォーマンスと一般性の両方の能力の異なる程度に対応するステップを示しています。研究チームは、既存のAIシステムが提案されたアプローチにどのように適合するかを評価する際に関わる困難さと複雑さについても認識しました。また、AGIモデルの能力と行動を既定の閾値と比較するために正確に測定するために必要な将来のベンチマークについても議論しました。開発の評価、開発の必要な領域の特定、およびAIテクノロジーの明確かつ測定可能な進展を保証するために、ベンチマーキングへの焦点を当てることは重要です。フレームワークは、技術的な考慮事項に加えて、リスクと自律性という特定の導入上の懸念も考慮に入れています。展開要因とAGIレベルの複雑な関係を強調することで、研究チームは人間-AIの相互作用のパラダイムを注意深く選択することがいかに重要かを強調しました。高い能力を持つAIシステムの実装における倫理的側面も、方法論的で慎重なアプローチを求めるこの責任ある安全な展開への強調によって強調されています。結論として、AGIの行動と能力の分類に関する提案された分類スキームは綿密でよく考慮されたものです。フレームワークは人間中心のコンテキストへの責任ある安全な統合の必要性を強調し、AGIシステムの開発および展開を評価し、比較し、誘導するための構造化された方法を提供しています。

動くAI

「2023年はLLM（Large Language Models）の年だったとすれば、2024年はLMM（Large Multimodal Models）の年となるでしょう主な違いは、テキストと画像の認識による生成が行われることです...」

わずか3つのステップでOpenAIのGPT-Storeを使用して独自の「Comic GPT」を作成する

OpenAIのGPTストアの立ち上げは、AppleのApp Storeの瞬間と同様で、技術とその応用における重要な節目を表していますAppleが2008年7月10日にApp Storeを導入したとき、それは...

UCバークレーとスタンフォードの研究者チームがS-LoRAを発表：多数のLoRAアダプターのスケーラブルな提供のために設計された人工知能システム

UC BerkeleyおよびStanfordの研究者チームは、LLMの展開において新たなパラメータ効率の良いファインチューニング手法であるLow-Rank Adaptation (LoRA)を開発しました。S-LoRAは、多数のLoRAアダプターの効率的な展開を可能にするために設計されました。S-LoRAは、単一のGPU上または複数のGPU上で数千のアダプターを最小限のオーバヘッドで実行できるようにします。この手法は統合ページングを導入し、GPUメモリの使用を最適化し、新しいテンソル並列処理と異種バッチ処理のためのカスタムCUDAカーネルを利用します。これらの技術により、実世界のアプリケーションでのLLMの展開における計算要件が大幅に削減されます。 LoRAは、事前学習されたLLMを新しいタスクにカスタマイズするための非常に効率的なファインチューニング手法であり、高い精度を保ちながら学習可能なパラメータの数を劇的に減らします。LLMに対するLoRAの採用は広範であり、無数のLoRAアダプターがLLMや拡散モデルのために作成されています。現代のアプリケーションでは、LLMが様々なドメインとタスクに対応して普及しています。現代のアプリケーションでは、LLMが広範に活用されており、事前学習後のファインチューニング手法により、特定のタスクやドメインにカスタマイズされた1つの基本LLMの複数のファインチューニングバージョンが作成されています。LoRAは、高い精度を維持しながら学習可能なパラメータの数を大幅に減らすことで、事前学習されたLLMを新しいタスクに合わせたファインチューニング手法です。 S-LoRAは、広範なタスクに対して基本モデルを効率的にファインチューニングし、1つのモデルから多数のLoRAアダプターを生成するためにLoRAを活用します。Unified Pagingを導入し、統一メモリプール内で動的なアダプターウェイトとKVキャッシュテンソルを管理することで、GPUメモリの使用を最適化します。S-LoRAは、最小限のオーバヘッドで数千のLoRAアダプターを提供することができます。この手法はスループットを4倍向上させ、HuggingFace PEFTやvLLMなどの主要なライブラリと比較してサポートされるアダプターの数を大幅に拡大することができます。 S-LoRAは最小限のオーバヘッドで2,000のアダプターを同時に処理し、低い計算コストを維持します。1つのアダプターに対してvLLM-packedと比較して最大4倍、PEFTと比較して最大30倍のパフォーマンスを発揮し、大幅なアダプター数をサポートします。S-LoRAは、スループットとレイテンシーにおいて、S-LoRA-bmmとS-LoRA-no-unifymemを上回り、メモリプールとカスタムカーネルの効果を強調しています。このシステムのスケーラビリティは、利用可能なメインメモリによって主に制限されており、実世界のワークロードに対して堅牢なパフォーマンスを実現しています。S-LoRAの素晴らしい能力により、さまざまなタスクに大規模な言語モデルを適応するための強力なソリューションとなります。この研究は、量子化、疎化、およびモデルアーキテクチャの改善などの最適化手法を調査することでパフォーマンスを向上させることを目的としています。基本モデルとアダプターの両方に分解計算技術を実装し、強化されたサポートのためのカスタムCUDAカーネルの開発も検討しています。また、LLMの提供における自己回帰的な特徴とパラメータ効率の良いアダプターへの取り組みも含まれており、現在のモデル提供システムにおける最適化のギャップを特定し、埋めることを目指しています。まとめとして、S-LoRAはメモリの断片化に対抗するために統合ページングを導入し、バッチサイズの増加とスケーラビリティの向上を実現しました。この研究では、従来未踏のスケールでのファインチューニングバリアントの提供という課題に対処したスケーラブルなLoRAの提供ソリューションを紹介しています。量子化、疎化、モデルアーキテクチャのようなアルゴリズム技術によるLoRAの提供の最適化も行われ、システムレベルの改善を補完しています。

メタリサーチャーズがVR-NeRFを紹介：高精細なキャプチャーと仮想現実の歩行可能な空間のレンダリングのための先進的なエンドツーエンドAIシステム

手頃な価格の仮想現実（VR）技術の登場により、現実的なVR写真やビデオなどの高度に没入型の映像メディアが大幅に成長しています。既存の手法は一般的に次の2つのカテゴリに分類されます：直径が1メートル未満の小さなヘッドボックスでの高品質のビュー合成は、ユーザーの動きを制限してしまいます。低品質またはフレームレートのシーンスケールの自由視点ビューシンセシスでは、ユーザーは自由に移動できますが、レンダリングされた画像の品質が低下します。既存の手法の制限に対処するため、本論文の著者たちはVR-NeRFを導入しました。これは、ユーザーが実世界の空間を歩き回り、探索できる現実的なVR体験を作成することができるシステムです。研究者たちが使用したデータセットは、数千の5000万画素のHDR画像から成り、データセットのいくつかは100ギガピクセルを超えているため、彼らのシステムは高品質なビュー合成を実現できます。最近、新鮮味のある視点合成を生成する能力から、神経輻射場（NeRF）の人気が大幅に増しています。ただし、既存のNeRF手法は大きくて複雑なシーンには適用できません。研究者によって提案されたNeRF手法は、彼らが設計した高品質なデータセットに特化しており、高品質なリアルタイムVRレンダリングをサポートすることができます。研究者が使用したマルチカメラリグは、シーンの多数の均一に分布したHDR写真をキャプチャする特別なデバイスです。 VR-NeRFはまた、カスタムGPUレンダラも持っており、高品質なVRへのレンダリングを可能にします。また、レンダラは一定のフレームレートで36 Hzで実行されるため、魅力的なVR体験を提供します。研究者たちは、いくつかの改善を加えた瞬時ニューラルグラフィックスプリミティブ（NGP）を拡張し、正確な色で画像を生成し、品質と速度のトレードオフを最適化できるようにしています。研究者たちはまた、彼らが挑戦的な高品質データセットでの結果の品質をデモンストレーションし、彼らの手法とデータセットを既存のベースラインと比較しました。彼らは、彼らの手法が歩行可能な空間の広いダイナミックレンジで高品質なVRレンダリングを生成できることを示しました。結論として、VR-NeRFはVRでの歩行可能な空間のキャプチャ、再構築、およびレンダリングに対する包括的なアプローチです。この手法は、より高い解像度、フレームレート、および視覚的忠実度を実現し、包括的なVR体験を可能にします。研究者たちが提案した手法は、既存のVRアプリケーションの問題を解決し、ユーザーにより大きくて複雑なシーンを詳細に体験させる可能性があります。

「GiskardはHuggingFaceにGiskard Botをリリースします：HuggingFace Hubにプッシュした機械学習モデルの問題を自動的に検出するボットです」

2023年11月8日に発表された画期的な開発では、Giskard Botが機械学習（ML）モデルのゲームチェンジャーとして登場し、大規模言語モデル（LLM）や表形式のモデルに対応しています。このオープンソースのテストフレームワークは、モデルの整合性を確保するために専用されており、HuggingFace（HF）プラットフォームとシームレスに統合された多くの機能を提供しています。 Giskardの主な目標は明確です。脆弱性の特定。ドメイン固有のテストの生成。 CI/CDパイプライン内でのテストスイートの自動化実行。 Giskardは、Hugging Faceのコミュニティベースの哲学に沿ったAI品質保証（QA）のオープンプラットフォームとして機能します。導入された最も重要な統合の1つは、HFハブ上のGiskardボットです。このボットにより、Hugging Faceのユーザーは、新しいモデルがHFハブにプッシュされるたびに自動的に脆弱性レポートを公開することができます。これらのレポートは、HFディスカッションおよびモデルカードでプルリクエストを介して表示され、バイアス、倫理的な懸念、堅牢性などの潜在的な問題の即座の概要を提供します。記事の中で示されている魅力的な例は、Giskardボットの能力を示しています。Twitter分類にRobertaを使用した感情分析モデルがHF Hubにアップロードされたとします。Giskardボットは、テキスト特徴で特定の変換を行うことで予測を大幅に変更する5つの潜在的な脆弱性を迅速に特定します。これらの調査結果は、トレーニングセットの構築時にデータ拡張戦略を実装する重要性を強調し、モデルの性能に深く入り込むものです。 Giskardの特徴は、量だけでなく品質にもコミットしていることです。このボットは脆弱性を定量化するだけでなく、定性的な洞察も提供します。モデルカードに変更を提案し、バイアス、リスク、または制約事項を強調します。これらの提案は、HFハブ内のプルリクエストとしてシームレスに表示され、モデル開発者のレビュープロセスを効率化します。 Giskardスキャンは、標準的なNLPモデルに限定されるものではありません。これはLLMにも対応し、IPCCレポートを参照するLLM RAGモデルの脆弱性スキャンを展示します。スキャンは、幻想、誤情報、有害性、機密情報の開示、および堅牢性に関連する懸念を明らかにします。たとえば、IPCCレポートの作成に使用される方法論に関して機密情報を明らかにしない問題が自動的に特定されます。しかし、Giskardは識別にとどまることはありません。ユーザーには、Hugging Face Spacesの専門ハブにアクセスすることができ、モデルの障害についての具体的な洞察を得ることができます。これにより、ドメインの専門家との協力や、独自のAIユースケースに合わせたカスタムテストの設計が容易になります。 Giskardによってデバッグテストが効率的に行われます。このボットは、問題の根本原因を理解し、デバッグ中に自動化された洞察を提供します。テストを提案し、予測への単語の寄与を説明し、洞察に基づいた自動アクションを提供します。 Giskardは一方通行ではありません。ドメインの専門家からのフィードバックを「招待」機能を通じて奨励しています。この集約されたフィードバックは、モデルの精度と信頼性を高めるために開発者をガイドする、潜在的なモデルの改善の包括的なビューを提供します。

このAI論文は、大規模言語モデルに対する敵対的攻撃に対する規則遵守の評価のための新しい機械学習フレームワークであるRuLESを紹介しています

現実世界での責任を持つLLMの導入の増加に対応して、UCバークレー、AIセーフティセンター、スタンフォード、キングアブドゥラジズシティ科学技術の研究者グループによって提案されたプログラムフレームワーク「Rule-following Language Evaluation Scenarios (RULES)」があります。RULESは、モデルの振る舞いのための特定のルールを持つ15のテキストシナリオで構成されており、LLMのルール準拠能力の自動評価を可能にします。RULESは、LLMへの制御可能な攻撃に対する研究設定として提示されています。この研究は、言語学とAIの伝統的なルール学習とは異なり、LLM内の外部ユーザー提供のルールへの遵守に焦点を当てています。 LLアシスタントを安全性と使用性の基準に合わせる最近の取り組みや、信頼性を確保するための赤チームの研究にも言及しています。また、LLMの防御についても探求し、インプットのスムージング、検出、およびプラットフォームのセキュリティへの潜在的な脅威を強調しています。また、推論やデータ抽出の攻撃に対する脆弱性を含む、LLM対応アプリケーションのプライバシーに関する考慮事項が強調されています。LLMアプリケーションの信頼性とセキュリティをテストする最近の赤チーム競技会の存在も指摘されています。この研究は、特にインタラクティブAIアシスタントの場合、実世界のアプリケーションにおけるLLMの振る舞いを明確にし、制御することが重要であることを強調しています。LLMアシスタントのルール遵守能力を評価する15のシナリオを含むベンチマークであるRULESを紹介しています。攻撃戦略の特定やテストスイートの作成についても議論しています。LLMのルール違反検出を800以上の手作りのテストケースを使用して評価するゼロショットのバイナリ分類タスクにより、勾配ベースの攻撃下でのモデルの振る舞いの脆弱性を調査しています。 LLM-4やLlama 2などの人気のある専有およびオープンモデルを含むさまざまなLLMにおけるRULESフレームワークのルール遵守能力が評価されていますが、GPT-4を含むすべてのモデルは、ルールに適合する脆弱性があり、多様な手作りの攻撃的なユーザーインプットに対して脆弱性を示しています。勾配ベースの攻撃下でのオープンモデルの重大な脆弱性が特定されていますが、ルールの破棄を検出することは依然として難しいです。モデルの振る舞いに対する攻撃的な接尾辞の影響が強調されており、LLMのルール遵守能力を向上させ、潜在的な攻撃に対抗するためのさらなる研究の必要性を示しています。この研究は、LLMの振る舞いを確実に指定し制約することの重要性を強調しています。RULESフレームワークはLLMのルール遵守能力を評価するためのプログラム的なアプローチを提供しています。GPT-4やLlama 2などの人気のあるモデルを含む評価は、多様な攻撃的なユーザーインプットに対する脆弱性と勾配ベースの攻撃下での重大な脆弱性を明らかにしています。この研究は、LLMの遵守を向上させ、攻撃に対抗するための研究を求めています。研究者たちは、LLMのルール遵守能力を向上させ、その振る舞いに対する手動および自動攻撃に対する効果的な防御策を開発するための継続的な研究を提唱しています。RULESフレームワークは、この目的のための研究設定として提案されています。将来の研究では、更新されたより困難なテストスイートの開発や、手動レビューの制約を克服するための自動評価方法への移行が重要とされます。さまざまな攻撃戦略の影響を探求し、ルール違反の検出能力を調査することが重要です。LLMの責任ある展開のために多様なテストケースを収集することは、継続的な取り組みとして優先されるべきです。

Learn more about Search Results A - Page 92