Learn more about Search Results A - Page 327

「AWS上のPySparkを使用したビッグデータでの機械学習の活用」

編集者注:Suman Debnathさんは、8月22日から23日にかけて開催されるODSC APACのスピーカーです彼のトーク、「AWS上でSparkを使用して分類と回帰モデルを構築する」をぜひチェックしてください!データサイエンスの絶え間なく変化する競技場では、適切なツールを見極めて適用することが結果の大きく形成される要素となります...

「AI革命:主要産業における応用とユースケースの探索」

編集者の注記:ルドレンドゥ・ポールさんは、2023年8月22日から23日に開催されるODSC APAC 2023のスピーカーですぜひ、彼のトーク「ビルトインの責任あるAIプラクティスを備えた大規模言語モデル(LLM)におけるプロンプトエンジニアリングの進化するトレンド」をチェックしてください!この記事では、人工知能(AI)の変革力について掘り下げています...

このAIニュースレターは、あなたが必要なもの全てです#58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシミュレーターアプリケーションの発表が含まれています

ChatGPTと高度なプロンプトエンジニアリング:AIの進化を推進する

「高度なプロンプト工学について学び、テクノロジーとのコミュニケーションにおける役割、ChatGPTなどのツールの応用について学ぶ」

データセットの凝縮の潜在能力を解き放つ:SRe^2LがImageNet-1Kで記録的な精度を達成

近年、データの圧縮と蒸留手法に注目が集まり、人工知能の研究に革新をもたらしています。これらの手法は、大規模なデータセットを効率的に表現し、より速いモデルのトレーニング、費用対効果の高いデータの保存、重要な情報の保持を可能にすることを約束しています。しかし、既存の解決策は、ImageNet-1Kのような高解像度のデータセットを圧縮することに困難を抱えてきました。これは、計算上のオーバーヘッドが非常に大きいためです。 モハメド・ビン・ザイードAI大学とカーネギーメロン大学の研究チームが、画期的なデータセット圧縮フレームワーク「Squeeze, Recover, and Relabel」(SRe^2L)を発表しました。彼らの画期的な手法は、高解像度のデータセットを圧縮し、重要な情報を保持しながら驚異的な精度を達成するものです。 データセットの蒸留における主な課題は、効果的に圧縮されたサンプルを生成することができる生成アルゴリズムを作成し、生成されたサンプルが元のデータセットからの核心情報を保持することです。既存の手法は、計算上やメモリ上の制約のために大規模なデータセットに拡張することが困難であり、必要な情報を保存する能力に制約を加えています。 これらの課題に対処するために、SRe^2Lフレームワークは、圧縮、復元、ラベル付けの3つのステージの学習プロセスを採用しています。研究者はまず、元のデータセットから重要な情報を抽出するためのモデルをトレーニングします。次に、目標データを合成するための復元プロセスを行い、その後、合成データに真のラベルを割り当てるためにラベル付けを行います。 SRe^2Lの主なイノベーションは、モデルと合成データのバイレベル最適化をトレーニング中に分離することにあります。このユニークなアプローチにより、元のデータからの情報抽出がデータ生成プロセスから独立して行われることが保証されます。元のデータから生成されたデータに影響を与える追加のメモリの必要性を回避し、バイアスを防ぐことで、SRe^2Lは以前の手法が直面する重要な制約を克服します。 彼らの手法を検証するために、研究チームはTiny-ImageNetとImageNet-1Kの2つのデータセットで広範なデータ圧縮実験を行いました。その結果、SRe^2Lは、完全なTiny-ImageNetおよびImageNet-1Kでそれぞれ42.5%および60.8%の驚異的な精度を達成しました。これらの結果は、合理的なトレーニング時間とメモリコストを維持しながら、これまでの最先端の手法を大幅に上回っています。 この研究の特徴の一つは、研究者たちがアクセシビリティに対する取り組みです。3090、4090、またはA100シリーズなど、広く利用可能なNVIDIAのGPUを活用することで、SRe^2Lはより多くの研究者や実践者にアクセス可能となり、協力とフィールドの進歩を加速させることができます。 大規模な高解像度データセットの需要がますます高まる時代において、SRe^2Lフレームワークはデータ圧縮と蒸留の課題に対する変革的な解決策として浮かび上がります。ImageNet-1Kを効率的に圧縮しながら重要な情報を保持する能力により、さまざまなAIアプリケーションにおける迅速で効率的なモデルトレーニングの新たな可能性が開かれます。その実績とアクセス可能な実装により、SRe^2Lはデータセットの蒸留のフロンティアを再定義し、AIの研究と開発に新たな道を開くことを約束します。

シンガポール国立大学の研究者が提案するMind-Video:脳のfMRIデータを使用してビデオイメージを再現する新しいAIツール

人間の認知を理解することは、特に非侵襲的な技術である機能的磁気共鳴画像法(fMRI)を用いた場合、脳プロセスから人間の視覚を再構築することが興味深いものとなっています。非侵襲的な技術を用いた脳の記録から、静止画像の復元には多くの進展がありましたが、映画のような連続的な視覚体験にはあまり進展がありません。 非侵襲的な技術は、外部のノイズなどの外部の影響に対してより堅牢ではなく、データをあまり収集することができません。さらに、神経画像データを収集することは、時間のかかる高コストのプロセスです。 これらの課題にもかかわらず、非侵襲的なfMRI注釈ペアを用いた有用なfMRI特徴の学習においては、進展がありました。静止画像とは異なり、人間の視覚体験は連続的で絶えず変化する風景、動き、物体の流れです。fMRIは血液酸素化レベル依存性(BOLD)信号を測定し、数秒ごとに脳活動の画像を撮影するため、動的な視覚体験を復元することは困難です。各fMRIの読み出しは、スキャン中の脳の活動の「平均」と考えることができます。対照的に、標準的なビデオのフレームレートは1秒あたり30フレーム(FPS)です。1つのfMRIフレームを取得するのにかかる時間には、60のビデオフレームが視覚的な刺激として表示されるため、被験者は多様な物体、アクション、設定にさらされる可能性があります。したがって、fMRIの時間分解能よりも大幅に高いFPSで映画をfMRIデコーディングによって取得することは、困難です。 シンガポール国立大学と香港中文大学の研究者は、MinD-Videoというモジュラーな脳デコーディングパイプラインを紹介しました。このパイプラインは、独立してトレーニングされたfMRIエンコーダと拡張された安定拡散モデルから構成されています。提案されたモデルは、脳のデータを段階的に取り込みながら、意味領域の知識を拡大します。 まず、研究チームは大規模な無監督学習とマスクされた脳モデリングを使用して一般的な視覚fMRI特徴をトレーニングします。次に、注釈付きデータセットの多様性を使用して意味関連の特徴を抽出し、コントラスティブ学習を使用してfMRIエンコーダをContrastive Language-Image Pre-Training(CLIP)空間でトレーニングします。その後、fMRI入力を使用したビデオ制作用に設計された拡張された安定拡散モデルを、学習された特徴と共に共同トレーニングして洗練させます。 研究者たちはシーンダイナミックビデオの生成に安定拡散モデルにフレーム近接焦点を追加しました。また、特定の目的のためにfMRIスキャンを条件づけるための敵対的なガイダンスシステムを開発しました。高品質のビデオが取得され、それらの意味、動き、シーンのダイナミクスなどが正確でした。 研究チームは、ビデオとフレームレベルの意味的およびピクセルメトリクスを使用して結果を評価しました。意味的なメトリクスでは85%の精度を達成し、SSIMでは0.19であり、この方法は従来の最先端の方法よりも49%効果的です。また、注意研究の結果に基づいて、このモデルは視覚皮質と高次の認知ネットワークにマッピングされることを示しており、生物学的な妥当性と解釈性を持っている可能性があります。 被験者間での一貫性に関しては、提案手法の一般化能力はまだ研究中です。この手法では脳の全データの潜在能力を活用するために、全体の脳データのわずか10%未満のコルティカルボクセルが使用されています。研究者は、より複雑なモデルが構築されるにつれて、この領域が神経科学やBCIなどで利用される可能性が高いと考えています。

UTオースティンとUCバークレーの研究者が、アンビエントディフュージョンを紹介します:入力としての破損したデータのみを使用してディフュージョンモデルをトレーニング/微調整するためのAIフレームワーク

高次元の分布を学習し、逆問題を解決するために、生成拡散モデルが柔軟かつ強力なフレームワークとして現れています。Dalle-2、Latent Diffusion、Imagenなどのテキスト条件付き基礎モデルは、最近のいくつかの進歩により、一般的な画像領域で卓越したパフォーマンスを達成しています。拡散モデルは最近、トレーニングセットからのサンプルを記憶する能力を示しました。さらに、モデルへの単純なクエリアクセスを持つ攻撃者は、データセットのサンプルを取得することができ、プライバシー、セキュリティ、著作権の問題を引き起こす可能性があります。 研究者は、大幅に汚染されたサンプルから未知の分布を学習できる最初の拡散ベースのフレームワークを提案しています。これは、クリーンなサンプルを入手することが困難または高価な科学的文脈で発生する問題です。生成モデルはクリーンなトレーニングデータには接触しないため、特定のトレーニングサンプルを記憶する可能性が低くなります。中心的な概念は、拡散中に元の歪んだ画像をさらに破損させることで、追加の測定歪みを導入し、モデルに他の破損した画像から元の破損した画像を予測するようにすることです。科学的な調査は、この追加の測定歪みを考慮して、完全な非歪んだ画像の条件付き期待値を獲得する能力を持つモデルを生成するアプローチを検証しています。インペインティングと圧縮センシングは、この一般化に該当する2つの破損方法です。研究者は、これらのモデルがすべてのトレーニングサンプルの90%以上が欠落した場合でも、分布を学習できることを業界標準のベンチマークで証明しています。また、基礎モデルをトレーニングセットの記憶なしで微調整し、クリーンな分布を学習できることも示しています。 注目すべき特徴 この研究の中心的な概念は、画像をさらに歪ませ、モデルに歪んだ画像を予測させることです。 彼らのアプローチは、一般的なベンチマーク(CelebA、CIFAR-10、AFHQ)の破損したトレーニングデータを使用して拡散モデルをトレーニングします。 研究者は、学習された条件付き期待値に基づいて所望の分布p0(x0)のラフなサンプラを提供します。 研究によれば、画像の90%が欠落している場合でも、元の写真の分布についてかなりの情報を学習することができます。これは、以前の最も優れたAmbientGANおよび自然なベースラインよりも優れた結果を示しています。 トレーニング中にクリーンな画像を見たことがないため、モデルは特定の逆問題を処理するための最先端の拡散モデルと同等またはそれ以上のパフォーマンスを発揮することが示されています。ベースラインは多くの拡散ステージを必要とする一方、モデルはタスクを達成するために単一の予測ステップのみを必要とします。 このアプローチは、研究コミュニティで標準的な事前学習済み拡散モデルをさらに改良するために使用されます。汚染されたサンプルの少ないデータから分布を学習することが可能であり、微調整プロセスは単一のGPU上で数時間しかかかりません。 異なるドメインの一部の破損したサンプルは、Deepfloyd’s IFなどの基礎モデルを微調整するためにも使用できます。 学習効果を定量化するために、研究者は破損ありと破損なしでトレーニングされたモデルを比較し、トレーニングサンプルとのトップ1の類似性の分布を示しています。 十分に歪んだデータでトレーニングされたモデルは、元のトレーニングデータの知識を保持しないことが示されています。破損度合い(記憶のレベルを決定する)とトレーニングデータ、学習されたジェネレータの品質との妥協を評価しています。 制約事項 破損のレベルは、ジェネレータの品質と反比例します。破損のレベルを増すことで、ジェネレータは記憶から学習する可能性が低くなりますが、品質が低下します。この妥協の正確な定義は未解決の研究課題です。また、トレーニングされたモデルでE[x0|xt]を推定するために、研究者はこの論文で基本的な近似アルゴリズムを試しました。 さらに、トレーニングサンプルの保護に関する厳格なプライバシー保証を行うためには、データ分布に関する仮定を立てる必要があります。補足資料には、復元オラクルがE[x0|xt]を正確に復元できることが示されていますが、具体的な手法は提供されていません。 この方法は、測定値にノイズも含まれる場合には機能しません。SURE正則化を使用することで、将来の研究がこの制限を克服することができます。

「QLORAとは:効率的なファインチューニング手法で、メモリ使用量を削減し、単一の48GB GPUで65Bパラメーターモデルをファインチューニングできるだけでなく、完全な16ビットのファインチューニングタスクのパフォーマンスも保持します」

大規模言語モデル(LLM)は、追加または削除したい振る舞いを設定することも可能にするファインチューニングによって改善することができます。しかし、大きなモデルのファインチューニングは非常に高コストです。例えば、LLaMA 65Bパラメータモデルを標準の16ビットモードでファインチューニングすると、780GB以上のGPU RAMを消費します。最新の量子化手法はLLMのメモリフットプリントを軽減することができますが、これらの手法は推論時にのみ機能し、トレーニング時には失敗します。ワシントン大学の研究者たちは、QLORAを開発しました。QLORAは、高精度なアルゴリズムを使用して事前学習モデルを4ビットの解像度に量子化し、量子化結果に対する勾配を逆伝播させることで変更した一連の学習可能な低ランクアダプターの重みを追加します。彼らは、量子化された4ビットモデルがパフォーマンスに影響を与えずに調整できることを初めて示しています。 QLORAによって、65Bパラメータモデルのファインチューニングの平均メモリ要件を、ランタイムや予測パフォーマンスを犠牲にすることなく、16ビットの完全にファインチューニングされたベースラインから780GB以上のGPU RAMから48GBに削減することができます。これにより、これまでに公開されている最大のモデルでも単一のGPUでファインチューニングすることが可能となり、LLMのファインチューニングのアクセシビリティに大きな変化がもたらされます。彼らはQLORAを使用してGuanacoモデルファミリーを訓練し、最大のモデルは単一のプロフェッショナルGPUで24時間以上かけて99.3%の成績を達成し、VicunaベンチマークでのChatGPTに迫る成果を上げました。2番目に優れたモデルは、単一のコンシューマGPUで12時間未満の時間で、VicunaベンチマークでChatGPTのパフォーマンスレベルの97.8%に達します。 QLORAの以下の技術は、パフォーマンスを損なうことなくメモリ使用量を低減することを目的としています:(1) 4ビットNormalFloat、正規分布データのための量子化データ型であり、情報理論的に最適であり、4ビットの整数と4ビットの浮動小数点よりも優れた経験的な結果を生み出します。(2) ダブル量子化は、平均してパラメータごとに0.37ビット(または65Bモデルの約3GB)を節約し、量子化定数を量子化します。(3) ページドオプティマイザは、長いシーケンスを処理する際に勾配チェックポイントによるメモリスパイクを防ぐために、NVIDIA統一メモリを使用します。使用すると、最小のGuanacoモデル(7Bパラメータ)は、Vicunaテストで26GBのAlpacaモデルを20パーセント以上上回る性能を発揮しながら、5GB未満のメモリを使用します。 彼らはこれらの貢献をより洗練されたLoRA戦略に組み込み、以前の研究で特定された精度のトレードオフをほぼなくすようにしました。QLORAの効率性により、メモリコストのために従来のファインチューニングではできなかったモデルサイズに関する指示ファインチューニングとチャットボットのパフォーマンスをより詳細に分析することができます。その結果、彼らは80Mから65Bまでの様々な指示チューニングデータセット、モデルトポロジ、パラメータ値を使用して、1000以上のモデルをトレーニングしました。QLORAは16ビットのパフォーマンスを回復し、Guanacoという高度なチャットボットをトレーニングし、学習されたモデルのパターンを調査しました。 まず、両方が汎化後の指示を提供することを目的としているにもかかわらず、チャットボットのパフォーマンスでは、データの品質がデータセットのサイズよりもはるかに重要であることを発見しました。9kサンプルのデータセット(OASST1)は、チャットボットのパフォーマンスで450kサンプルのデータセット(FLAN v2、サブサンプリング)を上回ります。第二に、優れたMassive Multitask Language Understanding(MMLU)ベンチマークのパフォーマンスが必ずしも優れたVicunaチャットボットベンチマークのパフォーマンスにつながるわけではないこと、そしてその逆もまた同様であることを示しています。言い換えれば、特定のタスクにおいては、データセットの適切さがスケールよりも重要です。彼らはまた、人間の評価者とGPT-4を使用してチャットボットのパフォーマンスを詳細に評価しています。 モデルは、与えられた刺激に対する最適な応答を決定するために、トーナメント形式のベンチマークマッチで互いに競い合います。GPT-4または人間の注釈者がゲームの勝者を決定します。トーナメントの中でのモデルのパフォーマンスのランク付けには、GPT-4と人間の判断がほぼ一致することがわかりましたが、明確な相違点もあります。そのため、彼らはモデルベースの評価が不確実性を持つ一方で、人間の注釈よりも費用が抑えられるという事実に注意を喚起しています。 彼らはチャットボットのベンチマーク調査結果にグアナコモデルの質的分析を追加します。彼らの研究では、定量的な基準では考慮されなかった成功と失敗のインスタンスを特定します。彼らはGPT-4および人間のコメントを含むすべてのモデル世代を公開し、将来の研究を支援します。彼らは自分たちの技術をHugging Face transformersスタックに組み込み、ソフトウェアおよびCUDAカーネルをオープンソース化し、広く利用可能にします。32の異なるオープンソース化された改良モデルについて、サイズ7/13/33/65Bのモデルに8つの異なる命令従属データセットでトレーニングを行ったアダプターのコレクションを提供します。コードリポジトリは公開され、Colabでホストできるデモも提供されます。

「DeepMind AIが数百万の動画のために自動生成された説明を作成することで、YouTube Shortsの露出を大幅に向上させる」

DeepMindは、YouTubeとの共同作業で、YouTube Shortsビデオの検索性を向上させるために設計された最先端のAIモデル「Flamingo」を発表しました。これらの短い動画クリップは、人気のあるプラットフォームTikTokに似ており、より具体的な内容を見つけやすくするために、より説明的なテキストと意味のあるタイトルが必要です。しかし、Flamingoの導入により、ユーザーはこれらの動画をより簡単に発見する方法を持つようになりました。 Flamingoは、YouTube Shortsビデオの初期フレームを分析して説明的なテキストを生成するために、高度なビジュアル言語モデルを使用しています。たとえば、「猫が羊毛のボールで遊んでいる」というように、シーンを説明することができます。この生成されたテキストはメタデータとして保存され、効率的なビデオ分類と検索エンジンのアクセシビリティの向上を可能にします。 Flamingoの影響はすでに見られており、数十万件の新しくアップロードされたShortsビデオがAIによる説明を受けています。YouTubeは徐々にこの技術をすべてのShortsビデオに導入する予定であり、世界中の視聴者にとって見つけやすくすることを目指しています。 Flamingoは、DeepMindとYouTubeの最新の共同作業であり、Googleが4月に発表したDeepMindとGoogle Brainの統合AIビジネスグループへの融合をさらに固めています。彼らの以前の共同事業には、DeepMindのAIモデルMuZeroを利用して、YouTubeのVP9コーデックの圧縮伝送を向上させるものがあります。さらに、DeepMindとYouTubeは2018年に、広告とYouTubeのポリシーを一致させることによって収益を最大化する方法をビデオクリエーターに教育するために協力しました。このパートナーシップにより、ラベル品質モデル(LQM)の開発が行われ、精度の向上した広告の正確なコンテンツラベリングが保証され、プラットフォーム上の視聴者、クリエーター、広告主の信頼を築きました。 フルーツフルな共同作業を続けるDeepMindとYouTubeは、ビデオチャプターの導入によりユーザーエクスペリエンスを向上させるために取り組んできました。この開発により、ビデオとオーディオのコンテンツの転写を自律的に処理し、チャプターのセグメンテーションとタイトルの提案を行うAIシステムが作成されました。この革新的な機能であるAutoChaptersは、Google I/O 2022でCEOのSundar Pichaiによって発表されました。AutoChaptersにより、ユーザーは手間のかかる長いビデオを検索する必要がなくなり、AIシステムが迅速に重要なセクションを特定します。この機能はすでに800万件のビデオで使用されており、DeepMindは今後1年間で8000万件のビデオにその実装を拡大する予定です。 Flamingoに関して、YouTube Shorts制作チームは、AIモデルによって生成されるメタデータはクリエーターには表示されないことを明確にしています。主な焦点は、検索の正確性を大幅に向上させることです。また、Googleは、Flamingoによって生成されるテキストが厳格な責任基準に準拠しており、ビデオコンテンツのネガティブな表現を避けていることを保証しています。 YouTube Shortsビデオの検索性を革新するFlamingoが始動するにあたり、そのAIラベリングの精度は厳密に監視されるでしょう。AI技術の進化する時代において、FlamingoはDeepMindとYouTubeの共同作業の証です。彼らの共同の努力により、彼らはAIイノベーションの境界を再定義し、クリエーターと視聴者の両方にとってより魅力的でアクセスしやすい環境を育んでいます。

「このAI研究は、合成的なタスクにおけるTransformer Large Language Models(LLMs)の制限と能力を、経験的および理論的に探求します」

ChatGPTはトレンドであり、毎日数百万人が利用しています。質問応答、ユニークで創造的なコンテンツの生成、大量のテキストデータの要約、コードの補完、非常に有用な仮想アシスタントの開発など、人間の模倣能力が素晴らしいため、ChatGPTは私たちの生活を楽にしてくれます。ChatGPTはOpenAIによって開発され、GPT 3.5(Generative Pre-Trained Transformer)およびGPT 4のトランスフォーマーアーキテクチャに基づいています。OpenAIがリリースした最新バージョンの言語モデルであるGPT 4は、従来のバージョンとは異なり、テキストと画像の形式で入力を受け取るマルチモーダルな性質を持っています。PaLM、LLaMA、BERTなどの他の大規模言語モデル(LLMs)も、医療、電子商取引、金融、教育などのさまざまなドメインのアプリケーションで使用されています。 研究者チームは、複雑なタスクにおけるGPTの印象的なパフォーマンスと簡単なタスクへの苦労の違いを最近公開された研究論文で強調しています。Transformer LLMの制限と能力について詳しく調査するために、チームは3つの代表的な構成タスク、つまり複数桁の乗算、論理グリッドパズル、クラシックな動的プログラミングの問題について実験を行いました。これらのタスクは、問題をより小さなステップに分解し、それらのステップを組み合わせて正確な解を生成することを必要とします。 複数ステップの推論を必要とする構成的なタスクを解決するTransformersの限界を研究することを目的として、著者らは2つの仮説を提案しています。まず、Transformersは複数ステップの推論をパスマッチングに線形化してタスクを達成し、実際に理解し実装する必要のある基本的な計算ルールを理解することなく、パターンマッチングとショートカット学習に依存しています。このアプローチにより、トレーニング中に類似したパターンでの高速かつ正確な予測が可能ですが、一般的で複雑な例には適用できません。2番目の仮説は、Transformersはユニークなパターンを持つ高度な構成的なタスクを解決しようとする際に固有の制限を持っているかもしれないというものです。初期の計算エラーが広がり、後のステップで深刻な複合エラーを引き起こし、モデルが正しい解にたどり着けなくなる可能性があります。 著者らは、構成的なタスクを計算グラフとして定式化し、2つの仮説を調査するために行っています。これらのグラフは、問題の解決プロセスをより小さな、より管理しやすいサブモジュラーな機能ステップに分解し、言語モデルへの入力シーケンスとしての計算ステップの言語化を可能にします。彼らはさらに、グラフ内で完全な計算を実行せずに、モデルがおそらく学習するであろうパターンについての情報利得を使用して予測を行います。 経験的な調査結果に基づいて、著者らはTransformersが構成的な課題を、線形化されたサブグラフマッチングによって処理していることを提案しています。著者らは、抽象的な複数ステップの推論問題に基づいた理論的な議論を提供し、タスクの複雑さが増すにつれてTransformersのパフォーマンスが急速に低下することを強調しています。これは、モデルが既に非常に複雑な問題を扱う能力に制約がある可能性を示しています。 結論として、経験的および理論的な結果は、Transformersのパフォーマンスが、基本的な思考プロセスの徹底的な理解よりも主にパターンマッチングとサブグラフマッチングによって推進されていることを意味しており、これはまた、Transformersがますます困難なタスクに取り組むのが困難である可能性を裏付けています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us