Search Results この

「マイクロソフトと清華大学によるこのAI研究は、EvoPromptという新しいAIフレームワークを紹介しますこのフレームワークは、LLMと進化アルゴリズムを接続するための自動的な離散プロンプト最適化を実現します」

大規模言語モデル（LLM）はほとんどすべての自然言語処理（NLP）のタスクで優れた成績を収めています。しかし、従来のファインチューニング手法はLLMにとって高コストであり、LLMパラメータを変更せずに学習可能なプロンプト埋め込みを使用する連続プロンプトチューニング技術の開発が行われています。ただし、これらの手法はまだLLMパラメータへのアクセスを必要とし、GPT-3やGPT-4などのブラックボックスAPIでアクセスされるLLMには適していません。この論文では以下の貢献があります： EVOPROMPTの導入：著者は、離散プロンプトの最適化を自動化するための新しいフレームワークであるEVOPROMPTを紹介しています。このフレームワークは、大規模言語モデル（LLM）と進化的アルゴリズム（EA）を結びつけ、以下の利点を提供します： LLMパラメータや勾配へのアクセスは必要ありません。探索と利用のバランスを効果的に取ることで、結果の改善が図られます。人間により理解しやすいプロンプトを生成します。実証的な証拠：本論文では、9つの異なるデータセットで行われた実験により、EVOPROMPTの既存の手法との比較における効果を示す実証的な証拠を提供しています。感情分類、トピック分類、主観性分類、簡素化、要約などのタスクにおいて、最大14％の性能向上が示されました。最適なプロンプトの公開：著者は、EVOPROMPTを用いて得られた最適なプロンプトを共有することで貴重な貢献をしています。これらのプロンプトは、感情分析、トピック分類、主観性分類、簡素化、要約などのタスクにおいて、研究コミュニティや実践者に利用されることができます。 LLMの革新的な利用：この論文は、適切な指示が与えられた場合にLLMを用いて進化的アルゴリズムを実装する概念を先駆けています。この新しいアプローチにより、LLMと従来のアルゴリズムを組み合わせた潜在的な応用の可能性が広がります。 EVOPROMPTを実用化するためには、特定の進化的アルゴリズム（EA）と組み合わせることが重要です。さまざまな種類のEAが存在し、この論文では2つの広く認識されているアルゴリズム、遺伝的アルゴリズム（GA）と差分進化（DE）に焦点を当てています。上記の画像は、LLMによる離散プロンプト最適化のために実装されたGAプロセスを示しています。研究者は、LLMが従来のアルゴリズムを実装するための効果的で解釈可能なインターフェースを提供し、人間の理解とコミュニケーションとの良好な一致を確保すると考えています。この研究結果は、LLMが誤って予測されたサンプルを収集することで、離散空間で「勾配降下法」を実行する最近の傾向を裏付けています。大規模言語モデル（LLM）の能力を最大限に活用し、自然言語の指示を用いて人間との対話を通じて多様なアルゴリズムの実行を調査するためには、追加の研究の機会が存在します。LLMがシミュレーテッドアニーリングなどの微分フリーアルゴリズムにおいて潜在的な解を生成できるかどうかなど、探索のアイデアが含まれます。

AIはクリエイティブな思考のタスクで人間を上回ることができるのか？この研究は人間と機械学習の創造性の関係についての洞察を提供します

AIは多くの領域で著しい進歩を遂げ、貴重なツールとなっていますが、それは人間の独自の特性や能力の代替ではありません。多くの場合、最も効果的なアプローチは、AIと共に働く人間がお互いの強みを生かして最良の結果を得ることです。人間と人工知能には根本的な違いがあり、人間の知能が優れているタスクや領域も存在します。人間は創造的に考え、新しい概念を想像し、革新することができます。AIシステムは、訓練されたデータとパターンに制約されており、真に新しい創造的なタスクには苦労することがよくあります。ただし、問題は、平均的な人間がAIモデルを凌駕できるかどうかですか？研究者は、256人の人間と現在の3つのAIチャットボット、ChatGPT3.5、ChatGPT4、Copy.AIの創造性を比較するために、代替的な使い道タスク（AUT）を使用しました。これは発散的思考タスクであり、心理学や創造性の研究で使用される認知的な手法で、特定の刺激に対して創造的で新しいアイデアを生成する能力を評価するものです。これらのタスクは、発散的思考能力、つまり1つの問題から広く考え、複数の解決策やアイデアを生成する能力を測定します。参加者には、日常の物品に対して一般的で創造的な使い道を考えるように求められました。AUTは、ロープ、箱、鉛筆、キャンドルの4つの課題で構成されていました。人間の参加者には、定量的なアイデアに依存せずに、質的なアイデアを提供するよう指示されました。チャットボットは、異なるセッションで4つのオブジェクトのプロンプトを11回テストしました。4つのオブジェクトは、そのセッション内で1回のみテストされました。研究者は、結果を評価するために、6人の専門的に訓練された人間から主観的な創造性や独創性の評価を収集しました。オブジェクトカテゴリ内の応答の順序は、各評価者ごとに個別にランダムに配置されました。各評価者のスコアは、参加者またはチャットボットがオブジェクトに対してセッションで提供したすべての応答について平均化され、各オブジェクトの最終的な主観的スコアは、6人の評価者のスコアの平均化によって形成されました。平均して、AIチャットボットは人間の参加者を上回りました。人間の応答には品質の低いアイデアが含まれていましたが、チャットボットは一般的により創造的な応答を生成しました。ただし、最も優れた人間のアイデアは、チャットボットのそれと同等またはそれを上回っていました。この研究は、創造性を高めるためのツールとしてのAIの潜在能力を示している一方で、AI技術だけでは再現または超越が難しい人間の創造性の特性や複雑さも強調しています。ただし、AI技術は急速に発展しており、半年後には結果が異なる可能性があります。現在の研究に基づいて、人間のパフォーマンスの最も明確な弱点は、品質の低いアイデアの比率が比較的高いことですが、チャットボットの応答には存在しませんでした。この弱点は、人間のパフォーマンスにおける通常のバリエーション、関連付けや実行プロセスの失敗、動機付けの要因などによるものかもしれません。

このAI研究は、ITオペレーション向けの新しい大規模言語モデルであるOwlを紹介します

自然言語処理（NLP）と人工知能（AI）の絶え間なく進化する風景の中で、大規模言語モデル（LLM）は、さまざまなNLPのタスクで驚くべき能力を示す強力なツールとして登場しました。しかし、現在のモデルには、ITオペレーションに特化した大規模言語モデル（LLM）が不足しているという重要なギャップがあります。このギャップは、この分野を特徴付ける独自の用語、手続き、文脈の複雑さによって課題が生じます。その結果、ITオペレーション内の複雑さを効果的にナビゲートし、対処するための専門のLLMを作成するという緊急の必要性が浮かび上がります。 ITの分野において、NLPとLLMの技術の重要性はますます高まっています。情報セキュリティ、システムアーキテクチャ、および他のITオペレーションの側面に関連するタスクには、ドメイン固有の知識と用語が必要です。従来のNLPモデルは、ITオペレーションの微妙なニュアンスを解読するのに苦労することがよくあり、専門の言語モデルへの需要が高まっています。この課題に対処するために、研究チームはITオペレーションに特化した大規模言語モデル「Owl」を導入しました。この専門のLLMは、「Owl-Instruct」という注意深くキュレーションされたデータセットでトレーニングされており、情報セキュリティ、システムアーキテクチャなど、さまざまなIT関連のドメインをカバーしています。目標は、OwlにIT関連のタスクで優れた成績を収めるために必要なドメイン固有の知識を装備することです。研究者たちは、OwlをOwl-Instructデータセットで自己指導戦略を実装してトレーニングしました。このアプローチにより、モデルはシングルターンとマルチターンのシナリオの両方をカバーする多様な指示を生成することができます。モデルのパフォーマンスを評価するために、チームは「Owl-Bench」というベンチマークデータセットを導入しました。これには、9つの異なるITオペレーションドメインが含まれています。彼らは、タスク固有およびドメイン固有の表現を許可する「アダプタの混合」戦略を提案し、教師ありの微調整を容易にすることでモデルのパフォーマンスをさらに向上させました。TopK（·）は、すべてのLoRAアダプタの選択確率を計算し、確率分布に従って上位kのLoRAエキスパートを選択する選択関数です。アダプタの混合戦略は、トップkのエキスパートを活性化することによって、異なる入力文に対して言語感度のある表現を学習することです。トレーニングデータの不足にもかかわらず、OwlはRandIndexで0.886、最高のF1スコアで0.894の比較可能なパフォーマンスを達成しています。RandIndexの比較の文脈では、Owlはドメイン内のログに広範にトレーニングされたLogStampと対比して、わずかなパフォーマンスの低下を示します。細かいレベルのF1比較の領域では、Owlは他のベースラインを大幅に上回り、以前に見たことのないログ内の変数を正確に識別する能力を示します。特筆すべきは、logPromptの基礎モデルはChatGPTであるということです。同一の基本設定の下でChatGPTと比較した場合、Owlはこのタスクで優れたパフォーマンスを発揮し、オペレーションとメンテナンスの領域で大規模モデルの堅牢な汎化能力を強調しています。結論として、OwlはITオペレーションの領域における画期的な進歩を表しています。多様なデータセットで綿密にトレーニングされ、IT関連のベンチマークで厳密に評価された専門の大規模言語モデルです。この専門のLLMは、ITオペレーションの管理と理解の方法を革新します。研究者の業績は、ドメイン固有のLLMの需要に対応するだけでなく、効率的なITデータ管理と分析のための新たな可能性を開拓し、最終的にはITオペレーション管理の分野を前進させます。

「画像の補完の進展：この新しいAI補完による2Dと3Dの操作のギャップを埋めるニューラル放射場」

コンテンツ作成において、画像の操作には持続的な関心があります。最も広く研究されている操作の1つは、オブジェクトの削除と挿入であり、画像補完のタスクとしてよく言及されています。現在の補完モデルは、周囲の画像とシームレスになじむ視覚的に説得力のあるコンテンツを生成することに長けていますが、これまでは単一の2D画像入力に限られていました。しかし、一部の研究者は、このようなモデルの応用を完全な3Dシーンの操作に進めようとしています。ニューラル・ラディアンス・フィールド（NeRFs）の登場により、実際の2D写真を生き生きとした3D表現に変換することがより容易になりました。アルゴリズムの改良が進み、計算要件が減少するにつれ、これらの3D表現は一般的になるかもしれません。したがって、この研究は、2D画像に対して利用可能なような3D NeRFsの操作を可能にすることを目指しています。 3Dオブジェクトの補完には、3Dデータの希少性や3Dジオメトリと外観の両方を考慮する必要性など、独自の課題があります。シーン表現としてのNeRFsの使用は、さらなる複雑さを導入します。ニューラル表現の暗黙性のため、ジオメトリの理解に基づいて基礎データ構造を直接変更することは実用的ではありません。また、NeRFsは画像からトレーニングされるため、複数のビュー間での一貫性の維持は難しいです。個々の構成画像の独立した補完は、視点の不整合や視覚的に現実的でない出力を引き起こす可能性があります。これらの課題に対処するために、さまざまなアプローチが試みられています。たとえば、NeRF-Inは、ピクセル単位の損失を介してビューを組み合わせる方法や、知覚的な損失を使用するSPIn-NeRFなど、不整合を事後に解決しようとするいくつかの手法があります。しかし、これらのアプローチは、補完されたビューが著しい知覚的な違いを示す場合や、複雑な外観が関与する場合には苦労するかもしれません。また、単一参照補完方法も検討されており、参照ビューのみを使用することでビューの不整合を回避しています。ただし、このアプローチには、非参照ビューの視覚的品質の低下、ビュー依存の効果の欠如、および非表示領域の問題など、いくつかの課題があります。上記の制限を考慮すると、3Dオブジェクトの補完を可能にするための新しいアプローチが開発されました。システムへの入力は、異なる視点からのN枚の画像と、それらに対応するカメラ変換行列とマスク（不要な領域を示す）です。さらに、入力画像に関連する補完参照ビューが必要であり、これはユーザーがシーンの3D補完から期待する情報を提供します。この参照は、マスクを置き換えるオブジェクトのテキストの説明など、単純なものでもかまいません。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 上記の例では、「ラバーダック」や「花瓶」といった参照は、単一画像によるテキスト条件付け補完を使用することで取得できます。これにより、ユーザーは望ましい編集を持つ3Dシーンの生成を制御および駆動することができます。ビュー依存の効果（VDE）に重点を置いたモジュールにより、著者はシーンの視点依存の変化（たとえば、スペキュラリティや非ランバート効果）を考慮しようとします。そのため、他のビューの周囲コンテキストに一致するように参照色を修正することで、参照ビューポイント以外のマスク領域にVDEを追加します。さらに、参照画像の深度に応じて、補完領域のジオメトリをガイドするために単眼の深度推定器を導入しています。参照ではすべてのマスク対象ピクセルが見えないため、追加の補完を介してこれらの非遮蔽ピクセルを監視するアプローチが考案されています。提案手法の最新のSPIn-NeRF-Lamaとの新しいビューの描画の視覚的比較を以下に示します。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf これは、ニューラル輝度場の参照に基づいた制御可能なインペインティングのための新しいAIフレームワークの概要です。興味がある場合は、以下に引用されているリンクを参照して詳細を学ぶことができます。

このAIニュースレターは、あなたが必要とするすべてです＃65

今週のAIでは、AI規制に関する進展がありましたエロン・マスクやマーク・ザッカーバーグなどのテックリーダーが60人以上の上院議員とAIについて話し合いましたが、彼らは皆同意しました-

メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「ビデオマッティング」として知られる課題です。レイヤーを交換したり、合成する前に個別に処理したりすることができるため、ビデオ編集業界では多くの用途があり、数十年にわたって研究されてきました。主題のマスクのみが必要なアプリケーションには、ビデオ制作におけるロトスコーピングやオンラインミーティングでの背景のぼかしなどが含まれます。ただし、興味のあるアイテムだけでなく、影や反射などの関連するエフェクトも含むビデオマットを作成できる能力は一般的に望まれています。これにより、最終的なカットムービーのリアリズムが向上し、手作業での二次効果のセグメンテーションの手間が減少する可能性があります。オブジェクトの除去など、クリーンな背景の再構築が望まれるアプリケーションでは、前景オブジェクトの関連する影響を除外することが役立ちます。その利点にもかかわらず、この問題の不適切性により、標準のマッティング問題よりも研究が少なくなっています。オムニマットは、この問題に対処するための迄今最も有望な取り組みです。オムニマットは、前景の移動するアイテムとそれらが生み出す効果を記録するRGBAレイヤーです。オムニマットは背景をホモグラフィでモデル化するため、背景が平面的であるか、単一のモーションのタイプが回転であるビデオにのみ効果的です。 D2NeRFは、2つの輝度場を利用してシーンのダイナミックな部分と静的な部分を別々にモデル化することで、この問題を解決しようとする試みです。すべての処理は3次元で行われ、システムは多くのカメラ移動がある複雑なシナリオを処理することができます。また、マスク入力は必要なく、完全に自己監督型です。ラフなマスクなどのビデオ上で定義された2Dガイダンスをどのように組み合わせるかは明確ではありませんが、静止した背景からすべての移動アイテムを効果的にセグメンテーションします。メリーランド大学とメタによる最近の研究では、3Dの背景モデルと2Dの前景レイヤーを組み合わせることで両者の利点を結びつけるアプローチを提案しています。 3Dでは作成が難しいオブジェクト、アクション、効果は、軽量の2Dの前景レイヤーで表現することができます。同時に、3Dの背景モデリングは、複雑なジオメトリや回転ではないカメラの動きを処理することができるため、2Dのアプローチよりもさまざまな種類のムービーを処理することが可能になります。研究者たちはこの技術を「オムニマットRF」と呼んでいます。実験結果は、個別のパラメータ修正を必要とせずに、幅広い範囲のビデオで強力なパフォーマンスを発揮することを示しています。D2NeRFは、背景の3D環境での背景分離を客観的に分析するためにKubricsを使用してレンダリングされた5つのビデオのデータセットを作成しました。これらのセットは、一部の移動アイテムがしっかりとした影を作り出す比較的整理された内部設定です。さらに、チームは複雑なアニメーションと照明条件を持つオープンソースのBlenderムービーを基にした5つのビデオを生成し、より困難で現実的なシナリオに対応しています。どちらのデータセットも、過去の調査と比較して優れたパフォーマンスを示しています。背景モデルは、常に影の中にある部分の色を正確に復元することはできません。アニメーションレイヤーにはアルファチャネルがあるため、背景の元の色を保持しながら加算のみの影を記録することが可能であるはずです。ただし、現在の文脈では、この問題を解決するのは困難です。

「見えないものを拡大する：この人工知能AIの手法は、3Dで微妙な動きを可視化するためにNeRFを使用します」

私たちは、身体の微妙な動きから地球の大規模な動きまで、動きに満ちた世界に生きています。しかし、これらの動きの多くは肉眼では見えないほど小さいものです。コンピュータビジョンの技術を使用して、これらの微妙な動きを抽出し、拡大することで、より見やすく理解しやすくすることができます。最近、ニューラル放射フィールド（NeRF）が3Dシーンの再構築とレンダリングにおける強力なツールとして登場しました。 NeRFは、画像のコレクションから3Dシーンの外観を表現するために訓練することができ、その後、任意の視点からシーンをレンダリングするために使用することができます。 NeRFは、画像のコレクションから3Dシーンの外観を表現します。 NeRFは、3Dポイントから対応する色と輝度へのマッピング関数を学習することによって動作します。この関数は、任意の視点からシーンをレンダリングするために使用することができます。これらのモデルは、複雑な3Dシーンの外観を非常に効果的に表現することが示されています。これらは、物体、シーン、さらには人物のリアルな3Dモデルをレンダリングするために使用されています。 NeRFは、仮想現実、拡張現実、コンピュータグラフィックスの新しいアプリケーションの開発にも使用されています。 3Dシーンの微妙な動きを拡大するためにNeRFの力を利用したらどうでしょうか？これは簡単な課題ではありません。いくつかの課題が存在します。最初の課題は、微妙な動きを持つシーンの画像のセットを収集することです。これは困難な課題であり、動きは肉眼では感じられないほど小さくなければなりませんが、カメラでキャプチャするには十分に大きくなければなりません。 2番目の課題は、収集した画像からシーンの外観を表現するためにNeRFを訓練することです。これは難しい課題であり、NeRFはシーンの微妙な時間的変動を学習できる必要があります。 3番目の課題は、NeRFのポイント埋め込みにオイラー運動解析を行うことです。これは計算量の多いタスクであり、高次元空間での時間的変動を分析する必要があります。それでは、これらの課題に賢明に対処する3Dモーションマグニフィケーションについて見てみましょう。 3Dモーションマグニフィケーション。出典：https://arxiv.org/pdf/2308.03757.pdf 3Dモーションマグニフィケーションは、NeRFの力を利用するAIの手法です。 NeRFを使用して、微妙な時間的変動を持つシーンを表現します。 NeRFのレンダリングの上に、オイラー運動解析が適用され、NeRFのポイント埋め込みの時間的変動が増幅されます。これにより、以前は見えなかった微妙な動きが拡大された3Dシーンが表示されます。この手法にはいくつかの重要なステップがあります。最初のステップはデータ収集とNeRFの訓練です。微妙な動きを持つシーンの画像のセットを収集することから始まります。画像は異なる視点から、さまざまな時間ステップでキャプチャする必要があります。そして、これらの収集した画像を使用して、収集した画像からシーンの外観を表現するために使用するNeRFモデルを訓練します。これは、レンダリングされた画像と正解の画像との間の差を測定する損失関数を最小化するために訓練されます。提案手法の概要。出典：https://arxiv.org/pdf/2308.03757.pdf NeRFモデルが準備できたら、次のステップはオイラー運動解析を行うことです。NeRFのポイント埋め込みの時間変動は、オイラー運動解析を使用して増幅されます。これは流体や固体の運動を解析するための数学的なフレームワークです。NeRFのポイント埋め込みなど、任意の時間変動するフィールドの時間変動を抽出するために使用することができます。これらの増幅された時間変動は、シーン内の動きを拡大するために使用されます。これは、増幅されたポイント埋め込みを使用してNeRFからシーンをレンダリングすることによって行われます。

ウェイブは、LINGO-1という新しいAIモデルを開発しましたこのモデルは、運転シーンにコメントをすることができ、質問に対しても回答することができます

検出と診断は、車両の運用効率、安全性、安定性を改善するために不可欠です。近年、利用可能な車両データを使用して車両診断プロセスを改善するためのデータ駆動型の手法について、さまざまな研究が行われており、さまざまなデータ駆動型の手法が顧客サービスエージェントのインタラクションを向上させるために使用されています。自然言語は、自律走行システムにおいて人間との車両間相互作用や歩行者や他の道路利用者との車両間コミュニケーションにおいて重要な役割を果たします。安全性、ユーザーエクスペリエンス、人間と自律システムの効果的な相互作用を確保するために必要です。設計は明確で、文脈を理解しやすく、ユーザーフレンドリーである必要があります。自動運転技術企業「Wayve」は機械学習を使用して自動運転の課題を解決し、高度な詳細な地図やプログラムされたルールを必要とする高価かつ複雑なロボットスタックの必要性を排除しています。彼らはオープンループドライブコメンテータ「LINGO – 1」を立ち上げました。この技術は、明示的なプログラミングなしでどんな環境や新しい場所でも経験から学習して運転することができます。 LINGO-1は、使用者が選択肢を問いただし、シーンの理解と意思決定に対する洞察を得ることで、有意義な対話に参加することができます。さまざまな運転シーンに関する質問に答えたり、運転の意思決定に影響を与えた要因を明確にしたりすることができます。乗客と自動車の間のこのユニークな対話は透明性を高め、人々がこれらのシステムを理解し信頼するのを容易にすることができます。 LINGO-1は、カメラやレーダーからのデータ入力をハンドル操作や減速などの運転出力に変換することができます。ニューラルネットワークの意思決定は、パフォーマンスに対して徹底的にテストされ、堅牢に統合されて使用者の安全性を確保します。LINGO-1は、イギリス中を走行しながらエキスパートドライバーのコメントを収集した画像、言語、アクションデータを組み込んだスケーラブルで多様なデータセットで訓練されています。 LINGO-1は、信号待ちでの減速、車線変更、交差点での他の車両の接近による停止、他の道路利用者の選択した行動の分析など、さまざまな活動を行うことができます。人間レベルのパフォーマンスと比較して、LINGO-1は60％の正確さです。その結果は、認識や質問応答の能力、運転スキルなどを測定したベンチマークに基づいています。 LINGO-1には、モデルの能力を向上させるフィードバックメカニズムもあります。運転教官が学生ドライバーを指導するように、修正指示やユーザーフィードバックは、モデルの理解力や意思決定プロセスを時間とともに磨くことができます。最後に、自然言語を使用して基礎となる運転モデルの学習と説明可能性を向上させるための重要な第一歩となります。

「今日、何を見たと思う？このAIモデルは、あなたの脳の信号を解読して、あなたが見たものを再構築するんだよ」

脳。人体の最も魅力的な器官です。それがどのように機能するかを理解することが、生命の秘密を解き明かす鍵です。私たちはどのように考え、感じ、嗅ぐ、感じ、行動するのでしょうか？これらのすべての質問の答えは、脳の働きを理解することにあります。私たちが見るものに対する脳の反応を理解することは、高度な計算認知システムの開発につながる可能性があるため、研究の注目を集めています。機能的磁気共鳴画像法（fMRI）や脳波測定（EEG）などの高度なツールがあるため、科学者は視覚刺激によって引き起こされる脳活動を記録することができます。これにより、人間の脳がこれらの刺激に対してどのような反応を示すのかを解読し、再構築することへの関心が高まっています。人間の視覚知覚を研究する一般的なアプローチの1つは、被験者が実験中に見た画像やビデオを再構築することです。これは主にfMRIデータに基づいた計算手法、特に深層ニューラルネットワークを使用して行われます。しかし、fMRIデータの収集は費用がかかり、実用的な使用には不便です。つまり、もしMRI装置に入ったことがあるなら、おそらくそこにいることがどれほど不快かを知っているでしょう。誰もが喜んでそうした実験に参加することはありません。ここでEEGが登場します。EEGは、被験者がさまざまな刺激を見る間に脳信号を記録し、分析するより効率的な方法ですが、独自の課題もあります。EEG信号は時系列データであり、静止画像とは非常に異なります。これにより、刺激と対応する脳信号の一部をマッチングすることが困難になります。また、電極の誤配置や身体の動きなどの問題により、データに重大なノイズが生じる可能性があります。単純にEEGの入力を画素にマッピングして画像を再構築すると、品質の低い結果が得られます。一方、拡散モデルは生成モデリングの最先端アプローチとして登場しています。これらは画像合成やビデオ生成を含むさまざまなタスクに成功裏に応用されています。強力な事前学練習オートエンコーダの潜在空間で操作することにより、研究者はピクセル空間評価の制約を克服し、高速な推論を可能にし、トレーニングコストを削減しています。では、NeuroImageGenと出会いましょう。これは拡散モデルの力を使ってこの問題に取り組むパイプラインです。 NeuroImageGenは、EEG信号を使用した神経画像生成のためのパイプラインです。これは、EEGベースの画像再構築に関連する課題に取り組むために、マルチレベルの意味抽出モジュールを組み込んでいます。このモジュールは、EEG信号からサンプルレベルの意味から画素レベルの詳細（例：顕著性マップ）まで、さまざまなレベルの意味情報をデコードします。これらのマルチレベルの出力は、事前学習済みの拡散モデルに供給され、さまざまな意味レベルでの生成プロセスを効果的に制御します。 EEG信号はノイズの影響を受けやすい複雑な時系列データであり、取り扱いが難しいです。 NeuroImageGenは、ピクセルレベルの意味情報とサンプルレベルの情報の両方を含むマルチレベルの意味情報を抽出することによって、これを克服します。ピクセルレベルの意味情報は、EEG特徴から生成される顕著性マップとして表されます。一方、サンプルレベルの意味情報は、画像のカテゴリやテキストキャプションを認識するなど、より粗い粒度の理解を提供します。このマルチレベルのアプローチにより、NeuroImageGenはノイズの多いEEGデータを効果的に処理し、高品質の視覚刺激再構築を可能にします。 NeuroImageGenの概要。出典：https://arxiv.org/abs/2308.02510 NeuroImageGenは、これらのマルチレベルの意味情報を潜在的な拡散モデルに統合して画像を再構築します。EEG特徴から生成される顕著性マップとして表されるピクセルレベルの意味情報は、初期画像として使用されます。画像キャプションのCLIPモデルの埋め込みから導かれるサンプルレベルの意味情報は、拡散モデルにおけるノイズ除去プロセスをガイドします。この統合により、再構築された視覚刺激は、細かい粒度と粗い粒度の情報を効果的に組み合わせて高品質の画像を生成します。この手法の結果は有望であり、EEGデータにおいて従来の画像再構成手法を凌駕しています。NEUROIMAGENは再構成された画像の構造的な類似性と意味的な正確性を大幅に向上させ、視覚刺激が人間の脳に与える影響を理解するための改善をもたらしています。

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル（LLM）の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、膨大なデータの利用可能性、コンピュータの性能向上、ニューラルネットワークの設計の突破が含まれます。GPT-4、PaLM、LLaMAなどの有名なモデルは、多くの異なるタスクを非常に優れた能力でこなすことが示されています。これらのタスクでは、プロンプトの提供、能力の微調整、人間からのフィードバックを活用して学習と改善を支援する手法がよく使用されます。天文学の分野は、LLMの応用にとってユニークな課題と肥沃な土壌を提供しています。上記の画像では、各モデルが同じ短いテキストスニペットで提示され、それぞれのボックスでハイライトされていることがわかります。GPT-4は一般的な文言をより多く生成する傾向があり、ドメイン固有のニュアンスを欠いています。AstroLLaMAは最も堅牢な補完を示し、天文学の分野に特化したより関連性の高い概念や深い洞察を提供するため、LLaMA-2およびGPT-4を大幅に上回っています。ただし、AstroLLaMAには認識されるべきいくつかの制約もあります。その中でも重要な制約の1つは、モデルが天文学の特定の領域における知識の不足です。AstroLLaMAはGaia-ESOデータから潜在的な星の候補を推定する能力が著しく不正確です。これらの問題に対処するため、研究者は現在、AstroLLaMAの訓練データセットの強化に取り組んでいます。抽象のみを使用するのではなく、既存の天文学の論文の完全なLaTeXソースを組み込む予定です。これにより、モデルが学習できるトークンの数が大幅に増加します。 AstroLLaMAは、天文学に特化した専門の大規模言語モデル（LLM）の印象的なプロトタイプとなっています。このモデルは、GPT-4よりもはるかに少ないパラメータを持ちながら、注目すべき文脈に関する能力を示し、優れたパフォーマンスを発揮しています。この進展は、質問に答える、科学的な内容を要約する、仮説を生成するなどのさまざまなタスクのパフォーマンス向上に向けた扉を開くだけでなく、マルチモーダルモデルにも影響を与えます。

Learn more about Search Results この - Page 19