Learn more about Search Results MarkTechPost - Page 16

「Google DeepMind ResearchはSODAを紹介しました：表現学習のために設計された自己教師付き拡散モデル」

Google DeepMindの研究者は、画像を効率的な潜在表現にエンコードする問題に取り組むAIモデル「SODA」を開発しました。SODAにより、画像と意味的属性のシームレスな遷移が可能となり、さまざまな画像カテゴリをまたがった補間や変形ができます。拡散モデルは、画像、ビデオ、音声、テキストの合成、計画、および薬剤探索など、さまざまなタスクで革新をもたらしました。従来の研究は、生成能力に焦点を当てていましたが、この研究では拡散モデルの表現能力の未開発な領域を探求しています。この研究はさまざまなデータセットやタスクにわたる拡散ベースの表現学習を包括的に評価し、単に画像から得られる潜在的な可能性を明らかにします。提案されたモデルは、学習における合成の重要性を強調し、拡散モデルの大きな表現能力を示しています。SODAは、情報ボトルネックを組み込んだ自己教師モデルであり、離散した情報を含む有益な表現を実現しています。SODAは、高性能のほんの数ショットの新しいビュー生成や意味的な特性制御を含む、分類、再構築、合成タスクでその強みを示します。 SODAモデルは、自己教師拡散を通じて離散した表現を作成するために情報ボトルネックを利用しています。この手法では、分布に基づく事前学習を使用して表現学習を改善し、分類や新しい視点合成のタスクで強力なパフォーマンスを実現しています。SODAの能力は、ImageNetを含むさまざまなデータセットを徹底的に評価することで検証されています。 SODAは、分類、離散化、再構築、新しい視点合成などの表現学習で優れた成果を上げることが証明されています。変分法と比較して、分離メトリクスの改善が顕著です。ImageNetの線形プローブ分類では、SODAは他の識別モデルを上回り、データ拡張に対する堅牢性を示しています。その多目的性は、新たな視点の生成や意味的属性のシームレスな遷移に明らかです。実証的な研究を通じて、SODAは、詳細な分析、評価メトリクス、他のモデルとの比較による、効果的で堅牢で多目的な表現学習手法として確立されています。結論として、SODAは、分類、再構築、編集、合成など、さまざまなタスクに対して堅牢な意味的表現を生み出す表現学習で優れた能力を示しています。情報ボトルネックを利用して、重要な画像の特性に焦点を当て、変分法を分離メトリクスで上回っています。SODAの多目的性は、新しい視点の生成、意味的属性の遷移、カメラの視点など、より豊かな条件情報の処理能力に明らかです。将来の展望としては、SODAの領域をより深く掘り下げるために、3Dデータセットの動的構成シーンや新しい視点合成と自己教師学習とのギャップを埋めることが価値あるでしょう。モデルの構造、実装、評価の詳細など、拡散モデルの予備知識、ハイパーパラメータ、トレーニング技術、サンプリング方法についてさらなる検討が必要です。消去と変異の研究を行うことで、より良い設計選択や代替メカニズム、クロスアテンション、レイヤーごとの変調を探求することが推奨されます。これにより、3D新しい視点合成、画像編集、再構築、表現学習などのさまざまなタスクでのパフォーマンスが向上する可能性があります。

「UCバークレーの研究者たちは、スターリング-7Bを発表しました：AIフィードバックからの強化学習でトレーニングされたオープンな大規模言語モデル（LLM）です（RLAIF）」

大規模言語モデル（LLM）は、自然言語処理タスクのための人工知能モデルです。これらのモデルは膨大なデータセットでトレーニングされ、人間のようなテキストを理解し、生成することができます。彼らは人間のようなテキストを理解し、生成する能力によって自然言語処理を変革しました。その役割は、生活のあらゆる分野に及んでいます。 UCバークレーの研究者たちは、Reinforcement Learning from AI Feedback（RLAIF）によってトレーニングされたオープンな大規模言語モデル（LLM）であるStarling-7Bを開発しました。このモデルは、最近開発された報酬訓練およびポリシーチューニングパイプライン、新しいGPT-4ラベル付きランキングデータセットNectar、最先端の報酬訓練およびポリシーチューニングパイプラインの機能を活用しています。 https://starling.cs.berkeley.edu/ Starling-7Bの基盤は、GPT-4のラベル付きランキングデータセットNectarにあります。このデータセットには183,000のチャットプロンプトが含まれており、各プロンプトにはGPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct、およびLlama2-7Bなどのさまざまなモデルからの7つの応答があります。これにより、380万組の比較が可能となります。研究者たちは、GPT-4の順位付けを求める際に位置バイアスを軽減するためにかなりの努力を注いでおり、データセットのセクションで詳細に説明しています。 https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha 彼らは学習報酬モデルを使用してOpenchat 3.5言語モデルを洗練させ、結果は印象的であると結論づけました。アルパカ評価スコアは88.51％から91.99％に向上し、MT-Benchスコアは7.81から8.09に向上しました。これらのメトリックは、チャットボットの有用性を評価する基準として機能します。研究者たちは、Direct Preference Optimization（DPO）を使用してZephyra-7B、Neural-Chat-7B、およびTulu-2-DPO-70Bなどの既存のオープンソースモデルとモデルを比較しました。これらのモデルはChatbot Arenaで良いパフォーマンスを発揮しましたが、MT BenchではOpenHermes 2.5やOpenchat 3.5などのトップSFTモデルと比較してRLHFの完全なポテンシャルには及びませんでした。研究者たちは、このモデルには特定の課題があると強調しました。それは欺瞞的または操作的な手法に対して脆弱です。また、モデルは数学的または推論タスクに苦労し、出力の事実的な正確性は時々しか保証されません。彼らはまた、モデルが時折冗長になり、ジェイルブレイキングプロンプトに対しても脆弱であることを指摘しました。これらの欠点に対しては、Starling-7Bの改善に引き続き取り組んでいます。この問題に対処するために、彼らはGPT-4をガイドとして使用するルールベースの報酬モデルを利用して、モデルをさらに洗練することを提案しました。GPT-4の技術レポートで概説されている技術を使用します。まとめると、Starling-7Bは、LLMにおける重要な進歩を示し、AIフィードバックからの強化学習の可能性を示しています。自然言語処理の分野は、これらのモデルとコミュニティの共有知識の協力によって向上しています。研究者たちは、モデルのパフォーマンスを向上させ、制限を解決するために取り組んでいます。この投稿は、UCバークレーの研究者によるStarling-7Bの紹介：AIフィードバックからの強化学習によってトレーニングされたオープンな大規模言語モデル（LLM）が最初に掲載されたMarkTechPostです。

北京大学とマイクロソフトの研究者がCOLEを紹介：シンプルな意図プロンプトを高品質なグラフィックデザインに変換する効果的な階層生成フレームワーク

最近の品質の顕著な向上により、自然な写真制作はプロの写真と同等になりました。この進歩は、DALL·E3、SDXL、およびImagenなどのテクノロジーの創造に起因します。これらの開発を推進する主要な要素は、強力な大規模言語モデル（LLM）をテキストエンコーダとして使用し、トレーニングデータセットを拡大し、モデルの複雑さを増すこと、より良いサンプリング戦略の設計、およびデータの品質向上です。研究チームは、特にブランディング、マーケティング、広告において重要な機能を持つグラフィックデザインにおいて、よりプロフェッショナルなイメージの開発に焦点を当てる時期だと感じています。グラフィックデザインは、明確なメッセージを特定の社会グループに伝えるために視覚コミュニケーションの力を利用する専門分野です。それは想像力、独創性、迅速な思考を要求する領域です。グラフィックデザインでは、テキストとビジュアルをデジタルまたはマニュアルの方法で組み合わせて、視覚的に魅力的なストーリーを作成します。その主な目的は、データを整理し、概念に意味を与え、人間の経験を文書化するオブジェクトに表現と感情を提供することです。グラフィックデザインでは、書体の創造的な使用、テキストの配列、装飾、および画像によって、言葉だけでは表現できないアイデア、感情、態度を許容します。一流のデザインを生み出すには、高い想像力、独創性、斬新な思考が必要です。現在の研究によると、画期的なDALL·E3は、図1で見られるように、魅力的なレイアウトとグラフィックを特徴とする高品質のデザイン画像を生み出す非凡なスキルを持っています。ただし、これらの画像には欠点もあります。彼らの持続的な課題には、しばしばビジュアルテキストが不適切に表示されたり、追加の文字が入ったりするミスレンダリングが含まれます。また、これらの作成された画像は編集できないため、セグメンテーション、消去、およびインペインティングのような複雑な手順が必要です。ユーザーが包括的なテキストプロンプトを提供する要件も重要な制約です。視覚デザインの制作において良いプロンプトを作成するには、高いプロフェッショナルスキルが必要です。図1: DALL·E3によって作成されたデザイン画像を示すためにDESIGNERINTENTIONを使用しています（GPT-4で増強）。図2に示すように、DALL·E3とは異なり、彼らのCOLEシステムは基本的な要求だけで優れた品質のグラフィックデザイン画像を生み出すことができます。研究チームによると、これらの3つの制約は、グラフィックデザイン画像の品質を深刻に損なっています。高品質でスケーラブルな視覚デザイン生成システムは、柔軟な編集領域を提供し、さまざまな用途に適した正確で高品質なタイポグラフィック情報を生成し、ユーザーに低い努力を要求する必要があります。ユーザーはさらに結果を向上させるために必要に応じて人間のスキルを使用することができます。この取り組みは、ユーザーの意図プロンプトから優れたグラフィックデザイン画像を生成できる安定かつ効果的な自律型のテキスト-デザインシステムを確立することを目指しています。図2: COLEシステムによって生成された画像の視覚的な表現が上記に示されています。興味深いことに、システムが受け取る唯一の入力はテキストの意図的な説明です。残りの要素であるテキスト、デザイングラフィック、およびフォントタイプ、サイズ、位置などの関連するタイポグラフィックのプロパティは、すべてインテリジェントシステムによって独立して生成されます。マイクロソフトリサーチアジアと北京大学の研究チームは、グラフィックデザイン画像の作成プロセスを簡素化するための階層的生成アプローチであるCOLEを提案しています。このプロセスでは、異なるサブタスクに取り組むいくつかの専門的な生成モデルが関与しています。まず第一に、想像力に重点を置いたデザインと解釈、特に意図の理解に焦点を当てています。これは、最新のLLM、具体的にはLlama2-13Bを使用し、100,000点近くの選り抜かれた意図-JSONペアリングの大規模なデータセットを用いて最適化することによって達成されます。テキストの説明、アイテムのキャプション、背景のキャプションなど、デザインに関連する重要な情報は、JSONファイルに含まれています。研究チームは、オブジェクトの位置などの追加の目的のためにオプションのパラメーターも提供しています。次に、ビジュアルの配置と改善に焦点を当てており、ビジュアルのコンポーネントの作成とタイポグラフィの特徴の2つのサブタスクが含まれています。さまざまなビジュアルの特徴を作成するには、DeepFloyd/IFなどの特化したカスケード拡散モデルの微調整が必要です。これらのモデルは、レイヤー化されたオブジェクトの画像と装飾された背景などのコンポーネント間のスムーズな移行が保証されるように構築されています。その後、研究チームは、LLaVA-1.5-13Bを使用して構築されたタイポグラフィJSONファイルを予測します。これには、Design LLMからの予測されたJSONファイル、拡散モデルからの予測された背景画像、およびカスケード拡散モデルからの予測されたオブジェクト画像が使用されます。そして、ビジュアルレンダラーが予測されたJSONファイル内で見つかったレイアウトを使用してこれらのコンポーネントを組み立てます。第三に、プロセスの最後に品質保証とコメントが提供され、デザイン全体の品質を向上させます。反射LLMは丹念に調整する必要があり、包括的かつ多面的な品質評価のためにGPT-4V(ision)を使用する必要があります。この最後の段階では、テキストボックスのサイズや位置など、必要に応じてJSONファイルを微調整することが容易になります。最後に、研究チームは、さまざまなカテゴリにまたがる約200のプロのグラフィックデザイン意図プロンプトと約20のクリエイティブなプロンプトからなるDESIGNERINTENTIONを構築し、システムの能力を評価しました。そして、現在使用されている最先端の画像生成システムとのアプローチの比較、各生成モデルについての抜本的な消去実験、システムによって生成されたグラフィックデザインの徹底的な分析、そしてグラフィックデザイン画像生成の欠点と潜在的な将来の方向についての議論を行いました。

このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています

マイクロソフトの研究者が、ドメイン特化のトレーニングなしでGPT-4が医療の質問に答える能力を向上させる課題に取り組みました。彼らはGPT-4の性能を向上させるために異なるプロンプティング戦略を用いる「Medprompt」を紹介しています。目標は、MultiMedQAスイートの全ての9つのベンチマークで最先端の結果を達成することです。この研究では、GPT-4の医療能力に関する事前の研究（特にBioGPTとMed-PaLM）を拡張し、性能を向上させるためにプロンプトエンジニアリングを体系的に探求しています。Medpromptの柔軟性は、電気工学、機械学習、哲学、会計、法律、看護、臨床心理学を含むさまざまな領域で実証されています。この研究は、汎用的な問題解決のための計算機インテリジェンス原則の創造を目指すAIの目標を探求しています。GPT-3やGPT-4などの基礎モデルの成功を強調し、専門的なトレーニングを必要とせずにさまざまなタスクで優れた能力を発揮しています。これらのモデルは、大規模なウェブデータから幅広く学習するテキスト対テキストのパラダイムを採用しています。次の単語の予測精度などのパフォーマンスメトリクスは、トレーニングデータ、モデルのパラメータ、計算リソースのスケールアップによって改善されます。基礎モデルはスケーラブルな問題解決能力を示し、領域を横断した一般化されたタスクに向けた潜在能力を示しています。この研究では、プロンプトエンジニアリングを体系的に探求し、GPT-4の医療課題におけるパフォーマンスを向上させています。注意深い実験設計により、過学習を軽減するために伝統的な機械学習に似たテストメソドロジーを採用しています。Medpromptは、目を付けたと目をつけないといった分割を使ったMultiMedQAデータセットの評価を通じて、見えない質問に対する堅牢な一般化能力を示しています。この研究では、GPT-4のCoT根拠とMed-PaLM 2の根拠を比較して、生成された出力のより長く詳細な論理を明らかにしています。 Medpromptは、医療の質問応答データセットでGPT-4のパフォーマンスを向上させ、MultiMedQAなどの既存の結果を達成し、Med-PaLM 2などの専門モデルをより少ない呼び出しで上回ります。Medpromptを使用することで、GPT-4はMedQAデータセットのエラーレートを27%削減し、初めて90%のスコアを獲得します。ダイナミックな少数サンプルの選択、自己生成された思考の連鎖、選択肢のシャッフルアンサンブルなど、Medpromptの技術は医学に限定されず、さまざまな領域でGPT-4のパフォーマンスを向上させるために適用することができます。厳密な実験設計により過学習の問題は軽減されます。まとめると、Medpromptは医療の質問応答データセットで優れたパフォーマンスを発揮し、MultiMedQAを上回り、さまざまな領域での適応性を示しています。過学習を防ぐために目をつけたと目をつけないといった評価の重要性を強調し、プロンプトエンジニアリングや微調整のさらなる探求が医療などの重要な分野での基礎モデルの活用に必要であることを推奨しています。今後の研究では、プロンプトの改良と基礎モデルの能力向上について、少数の例をプロンプトに組み込む方法を洗練させることが重要です。また、健康などの高リスク領域でのプロンプトエンジニアリングと微調整の連携には潜在的な可能性があり、迅速なエンジニアリングと微調整は重要な研究領域として探求されるべきです。ゲーム理論的なシャプレー値は、除去研究における信用割り当てに使用でき、シャプレー値の計算とその応用に関するさらなる研究が必要です。

テキサス大学の研究者たちは、機械学習を用いてインプラントベースの再建合併症を予測する方法を紹介します

人工知能（AI）は現在ほとんどすべての分野を変革し、自動化、予測、意思決定の最適化を通じて既存のシステムを改善する潜在能力を持っています。乳房再建は非常に一般的な手術であり、ほとんどの場合、インプラントベースの再建（IBR）が使用されています。しかし、この手続きにはしばしば周辺プロステーシス感染が伴い、患者に大きな苦痛をもたらし、医療費を増加させる原因となります。テキサス大学のこの研究は、人工知能、特に機械学習（ML）とその機能、がIBRの合併症を予測するためにどのように活用され、最終的には生活の質を向上させるかを調査しています。乳房再建に関連するリスクと合併症は、多くの非線形の要因に依存しており、従来の手法では捉えることができません。したがって、この論文の著者は、IBRの合併症をより正確に予測するために9つの異なるMLアルゴリズムを開発・評価し、これらのパフォーマンスを従来のモデルと比較しました。データセットは、テキサス大学MDアンダーソンが収集した、約2年間の患者データで構成されています。研究者が使用した異なるモデルには、人工ニューラルネットワーク、サポートベクターマシン、ランダムフォレストなどがあります。さらに、研究者は最終的な予測を行うために、多数決を使用した投票アンサンブルも使用し、より良い結果を得るために性能指標として曲線下面積（AUC）を使用し、3回の10倍交差検証後に最適なモデルを選択しました。 9つのアルゴリズムの中で、周辺プロステーシス感染の予測の正確さは67％から83％まで幅広く変動し、ランダムフォレストアルゴリズムが最も正確で、投票アンサンブルが最も全体的なパフォーマンス（AUC 0.73）を示しました。説明を予測する場合、正確さは64％から84％の範囲で変動し、エクストリーム勾配ブースティングアルゴリズムが最も全体的なパフォーマンス（AUC 0.78）を示しました。さらなる分析により、周辺プロステーシス感染と説明の重要な予測要因も特定され、IBRの合併症の要因に対するより堅牢な理解を提供します。高いBMI、高齢などの要因は感染のリスクを高めます。 BMIと感染リスクの間には線形の関係があると研究者は観察しました。また、他の研究では年齢がIBR感染に影響を与えないと報告されていましたが、著者たちはその2つの間に線形の関係を特定しました。著者はまた、彼らのモデルの制限も強調しています。データが1つの研究所からのみ収集されているため、その結果は他の研究所への一般化ができません。さらなる検証によって、これらのモデルの臨床実装を可能にし、壊滅的な合併症のリスクを減少させるのに役立ちます。また、臨床上関連性のある変数や人口統計的要因を統合することで、パフォーマンスと正確性をさらに向上させることができます。研究論文の著者は、IBR合併症の発生を正確に予測するために、9つの異なるMLアルゴリズムをトレーニングしました。彼らはまた、過去のモデルでは無視されていたいくつかのIBR感染に影響を与える要因を分析しました。ただし、データが1つの研究所からしか得られていない、追加検証が不足しているなど、これらのアルゴリズムにはいくつかの制限があります。さらなるデータの追加や異なる研究所からのデータの統合、他の要因（臨床的および人口統計的）の追加により、モデルのパフォーマンスが向上し、医療専門家がIBR感染の問題に取り組むのに役立ちます。この記事の投稿元はテキサス大学の研究者たちは機械学習を使用してインプラントベースの再建合併症を予測です。

ディープシークは、ディープシーク-67Bモデルをオープンソース化しました：中国からの最新のChatGPTのライバル

中国のAIスタートアップ、DeepSeek AIは、DeepSeek LLMファミリーのデビューによって、大規模な言語モデル（LLM）の新時代を切り拓いています。 DeepSeek LLM 7B/67B BaseとDeepSeek LLM 7B/67B Chat からなるこれらのオープンソースモデルは、言語理解と多目的応用において大きな進歩を表しています。 DeepSeekのLLMの特色の一つは、67B BaseバージョンがLlama2 70B Baseに比べて優れた性能を発揮していることです。理論推論、コーディング、数学、中国語の理解などの分野で優れた能力を示します。 DeepSeek LLMのこの質的な飛躍は、幅広いアプリケーションでのその能力を示しています。特に注目すべきは、DeepSeek Chatが、類似のサイズのモデルをしのぐ、人間の評価基準の73.78%の合格率を達成したことです。また、調整なしでGSM8K数学データセットで84.1%をスコアリングするという卓越した力を示しました。 DeepSeek AIは、モデルの7億パラメータバージョンと67億パラメータバージョンを含む、ベースおよび専門用途のChatバリアントをオープンソース化することで、広範なAI研究と商業アプリケーションの促進を目指しています。バイアスのない綿密なパフォーマンス評価を保証するために、DeepSeek AIは、ハンガリー国立高校試験やGoogleの指示に従った評価データセットなどの新しい問題集を設計しました。これらの評価は、モデルが以前に見たことのない試験やタスクを効果的に処理する能力を効果的に示しました。スタートアップは、知的財産権を尊重しながら、多様性と独自性を高めることに焦点を当てた緻密なデータ収集とトレーニングプロセスについての洞察を提供しました。マルチステップのパイプラインでは、品質の高いテキスト、数学の式、コード、文学作品、さまざまなデータ型を選別し、有害な内容や重複したコンテンツを除外するためのフィルタを実装しました。 DeepSeekの言語モデルは、LLaMAに類似したアーキテクチャで設計され、厳格な事前トレーニングを受けました。7BモデルではMulti-Head…

メタAIがSeamlessを導入：リアルタイムで表現豊かな言語間コミュニケーションを可能にするパブリックで利用可能なAIシステム

自動音声翻訳の新機能と改善により、より多くのことが可能になり、より多くの言語をカバーし、さまざまな入力形式と連携して作業することができるようになりました。しかし、人間同士の会話と比較して、機械を介したコミュニケーションが自然に感じられる重要な機能は、現在の大規模な自動音声翻訳システムに欠けています。新しいMeta AIの研究では、表現豊かで多言語対応の翻訳を始めから終わりまでストリーミングできる一連のモデルを提案しています。研究者は、SeamlessM4T v2を発表しました。これはSeamlessM4Tモデルのアップグレード版であり、マルチモーダルでほぼすべての言語に対応しています。この改良されたモデルは、より新しいバージョンのUnitY2フレームワークを使用しており、リソースが少ない言語データで訓練されています。SeamlessAlignの拡張により、76言語分のデータ（114,800時間分）が自動的に整列されました。SeamlessExpressiveとSeamlessStreamingという最新の2つのモデルは、SeamlessM4T v2に基づいています。SeamlessExpressiveでは、ユーザーは声の抑揚やスタイルを維持しながら翻訳できます。 Metaの研究は、スピーチの速度や休止などのプロソディのあまり探求されていない特徴に対応しながら、声のスタイルを保持することを目指しています。SeamlessStreamingに関しては、提案されたモデルはソースの発話が終了するのを待たずに低遅延のターゲット翻訳を生成します。このモデルでは、効率的な単調多重注意（EMMA）技術が使用されています。SeamlessStreamingでは、多くのソース言語とターゲット言語が同時に音声からテキストへの翻訳が行われます。チームは、これらのモデルのプロソディ、遅延、頑健性を、新しいバージョンと更新済みの既存の自動評価尺度の組み合わせに基づいて評価しました。さらに、意味の保持、真正性、表現力にとって最も重要な品質を測定するために、既存のプロトコルを修正して人間による評価を実施しました。彼らはジェンダーバイアスの包括的な評価、マルチモーダル機械翻訳に対する既知の最初のレッドチーミング試行、深刻な有害性の検出と軽減に対する既知の最初のシステム、およびディープフェイクの影響を緩和するための聞き取りにくいローカライズされた透かし技術を実施し、彼らのモデルが責任を持って安全に使用されることを保証しました。 Seamlessは、表現豊かな言語間リアルタイムコミュニケーションを可能にする最初の公開システムです。SeamlessExpressiveとSeamlessStreamingを統合したSeamlessは、主要なコンポーネントを組み合わせています。全体的に、Seamlessはユニバーサルスピーチトランスレーターを科学小説のアイデアから現実に変えるために必要な基盤技術を提供しています。研究者は、モデルの正確性は性別、人種、アクセントによって異なる場合があると指摘していますが、公平性の軸に沿ってアーティファクトを徹底的にテストし、可能な場合には保護策を含めています。さらなる研究は、言語カバレッジの向上とリソースの少ない言語とリソースの豊富な言語間の性能格差の縮小を目指すべきです。これにより、ユニバーサルスピーチトランスレーターを実現することができます。

「CMU研究者がニューラルネットワークの挙動における重尾データとネットワークの深層との相互作用が最適化ダイナミクスの形成に与える重要な洞察を発見」

ニューラルネットワーク（NN）の最適化の興味深い性質が次第に増えてきており、これらは最適化の古典的な手法では説明が難しいものです。同様に、研究チームは各性質の力学的な原因についての理解度が異なります。AdamやBatch Normalizationなどの効果的なトレーニングツールについては、多くの努力が行われており、それらの効果を説明するための可能性のある説明が提案されていますが、その証拠は一部にしか説得力がなく、理論的な理解はほとんどありません。グロッキングや安定性の限界などの他の発見は、即座の実用的な示唆を持っていないかもしれませんが、NNの最適化の特徴を研究する新しい方法を提供しています。これらの現象は通常単独で考慮されますが、完全に異なるものとは言えず、それらが共有する具体的な原因はわかっていません。特定の文脈でのNNのトレーニングダイナミクスに関するより良い理解は、アルゴリズムの改善につながる可能性があります。そのため、共通点はさらなる調査のための貴重なツールとなるでしょう。この研究では、カーネギーメロン大学の研究チームがNN最適化における現象を特定し、これまでの観察に新たな視点を提供することを目指しています。研究チームは完全な説明を提供することを主張していませんが、高いレベルのアイデアに対して強力な定性的および定量的な証拠を提示し、既存の複数の説明に自然に適合し、起源のより一貫した絵を示唆しています。具体的には、研究チームは自然データにおけるペアグループの外れ値の存在を示し、これがネットワークの最適化ダイナミクスに大きな影響を与えることを示しています。これらのグループには、初期化時およびトレーニングのほとんどの段階でネットワークの出力を支配する相対的に大きな特徴が含まれています。これらの特徴のもう一つの特徴は、大きく一貫した逆勾配を提供することです。つまり、一方のグループの損失を減少させるためにそのグループの勾配に従うと、他のグループの損失が同様の量だけ増加します。この構造のため、研究チームはこれらを「対立信号」と呼んでいます。これらの特徴は、目標タスクと非自明な相関関係を共有していますが、通常は「正しい」（例：人間の揃った）信号ではありません。多くの場合、これらの特徴は「相関と因果関係のジレンマ」を完璧に具体化しています。たとえば、明るい青い空の背景はCIFARの画像のラベルを決定するものではありませんが、ほとんどの場合は飛行機の画像に現れます。その他の特徴としては、トラックや車の画像におけるホイールやヘッドライトの存在、または書かれたテキストにおけるコロンの後には「the」または改行トークンが続くという点などがあります。図1はCIFAR-10でGDを使用してトレーニングしたResNet-18のトレーニング損失と、一部の主要な外れ値グループとそれらの損失を示しています。図1：対立する信号を持つ外れ値は、ニューラルネットワークのトレーニングダイナミクスに重要な影響を与えます。さらに、GDを使用してCIFAR-10でトレーニングしたResNet-18のトータルロスを持つ一部の代表的な外れ値グループのロスが表示されています。これらのグループは一貫して矛盾した信号を示し（例えば、ホイールとヘッドライトはトラックや車を示唆することがあります）、これらのグループのロスはトレーニングの間に振動し、全体的なロスの突発的なスパイクに対応しており、安定性現象の根本的な原因のようです。トレーニングの初期段階では、ネットワークは重み空間の狭い谷に入り、対立するグループの勾配を慎重にバランスさせますが、損失のランドスケープのシャープ化により、ネットワークは特定の軸に沿って成長する振幅の大きな振動をするようになり、このバランスが崩れます。空の背景の例に戻ると、あるステップでは、全てのスカイ画像においてクラス「飛行機」により高い確率が与えられ、次のステップでその効果が反転します。要するに、「空＝飛行機」のサブネットワークが成長して収縮します。この振動の直接の結果は、スカイが背景にある飛行機の画像におけるネットワークの損失が急激に増加して減少することと、スカイを持たない非飛行機の画像における反対の効果が起こることです。その結果、これらのグループの勾配は方向を交互に変えながら、大きさも増加します。これらのペアはデータの一部を表しているため、この動作は全体のトレーニング損失からはすぐにはわかりませんが、最終的にはトレーニングの進行に伴い、広範な損失のスパイクにつながります。これらの2つのイベント間には明らかな直接的な対応関係がありますので、研究チームは対立するシグナルが安定性の境界現象を直接引き起こすと推測しています。研究チームはまた、最も影響を与えるシグナルは時間とともに複雑さを増していくようです。研究チームは、視覚アーキテクチャとトレーニングのハイパーパラメータの範囲にわたってこの実験を繰り返しました。正確なグループとその出現順序は変化しますが、パターンは一貫して現れます。研究チームはまた、自然なテキストの次のトークン予測におけるトランスフォーマーと、単純な1D関数に対する小規模なReLU MLPについてもこの動作を検証しました。ただし、研究チームは最も明確な直感を提供するためにイメージを使用しています。彼らの実験のほとんどはこの効果を分離するためにGDを使用しますが、研究チームはSGDでも類似のパターンを観察しました。本論文の主な貢献は、NN最適化中における対立するシグナルの存在、普及性、および大きな影響を示すことです。さらに、研究チームは、これらのシグナルが観察されるトレーニングダイナミクスの原因についての彼らの現在の最良理解を、支持する実験と共に提示しています。特に、研究チームは深さと最急降下法の方法に起因するものであるという証拠を提供しています。研究チームは、おもちゃの例と簡単なモデル上の2層線形ネットの分析を交えながら、この議論を補完しています。特筆すべきことに、初歩的ではありますが、彼らの説明によってトレーニング中のNNの振る舞いに関する具体的な定性的予測が可能になります。これは、研究チームが実験的に確認しています。また、これはSGDとAdamの比較を通じて研究チームがハイライトした、現代の確率的最適化手法を研究する新しいレンズを提供します。研究チームは、対立するシグナルとさまざまなNN最適化および一般化現象との可能性の接続を見ています。これには、理解、投射/弾き出し、単純さのバイアス、二重降下、およびシャープネス認識最適化などが含まれます。

「ADHDを持つ思春期の若者において、この深層学習研究はMRIスキャンの分析において独特な脳の変化を明らかにする：MRIスキャン分析の飛躍的な進歩」

画期的な開発により、研究者は人工知能（AI）の力を活用して、思春期の注意欠陥多動性障害（ADHD）の診断に内在する課題に取り組んでいます。主観的な自己報告調査に依存する従来の診断環境は、客観性の欠如により長い間批判を浴びてきました。今や、研究チームは革新的なディープラーニングモデルを導入し、Adolescent Brain Cognitive Development（ABCD）研究からの脳イメージングデータを活用してADHDの診断を革新しようとしています。現在のADHDの診断方法は、主観的な性質と行動調査への依存から欠陥があります。これに対して、研究チームは1万1千人以上の思春期の脳イメージングデータを探るAIベースのディープラーニングモデルを考案しました。この手法は、拡散強調画像から導かれる重要な指標である分率異方性（FA）の測定を使用してモデルを訓練することを包括しています。このアプローチは、ADHDに関連する特異的な脳パターンを明らかにし、より客観的かつ定量的な診断フレームワークを提供します。提案されたディープラーニングモデルは、FA値の統計的に有意な差を認識するよう設計されており、ADHDの思春期におけるエグゼクティブ機能、注意、および音声理解に関連する9つの白質索において測定値が上昇していることを明らかにしました。これらの研究結果は、Radiological Society of North Americaの年次会議で発表され、重要な進歩を示しています： ADHD患者のFA値は、非ADHDの個人と比較して、30つの白質索のうち9つで有意に上昇していました。予測されたFA値と実際のFA値の間の平均絶対誤差（MAE）は0.041であり、ADHDの有無で有意に異なりました（0.042 vs 0.038、p=0.041）。これらの定量的な結果は、ディープラーニングモデルの効果を裏付けると同時に、FA測定がADHDの診断の客観的なマーカーとしての潜在能力を強調しています。研究チームの手法は、現在の主観的な診断の制約に取り組み、より客観的かつ信頼性の高い診断手法の開発に向けた途上にあります。白質索の特異的な差異は、ADHD診断におけるパラダイムシフトへの有望な一歩を示しています。研究者がより広範な研究からの追加データで調査結果をさらに充実させるなか、数年以内にAIがADHD診断に革命をもたらす可能性はますます高まっています。結論として、この先駆的な研究はADHDの診断における常識に挑戦するだけでなく、客観的な評価にAIを活用する新たな可能性を開拓しています。神経科学と技術の交差点は、思春期のこの普及している障害に関する包括的な理解を提供する脳イメージングの微細な部分に根ざした、より正確なADHD診断の未来に希望をもたらします。投稿：This Deep Learning Research Unveils Distinct Brain…

コーネル大学の研究者たちは、言語モデルのプロンプトについての洞察を明らかにしました：次のトークンの確率が隠れたテキストを明らかにする方法についての深い探求

コーネル大学の研究者による調査では、言語モデルの逆転問題に取り組んでいます。彼らは、次のトークンの確率にはそれに先行するテキストに関する重要な情報が含まれていることを発見しました。この問題を解決するために、彼らはモデルの現在の分布出力のみを使用して不明なプロンプトを再構築する方法を導入しました。この方法は非常に正確であることがわかりました。言語モデルの逆転方法は、コンピュータビジョンの深い埋め込みを逆転させる過去の研究を基にした新しい技術です。これは、エンコーダモデルからのテキスト埋め込みにおけるプライバシー上の懸念を解消するために、言語モデルの出力から隠されたプロンプトを回復することを目指しています。このアプローチは、NLPモデルの逆転、メンバーシップ推論、およびモデルのスティーリングに関する事前の研究と関連があります。この研究では、プライバシー上の懸念に対処する手段としてのプロンプトの回復を重要視しています。この研究は、モデルの次のトークンの確率から入力プロンプトを回復することを目指して、言語モデルの逆転問題に取り組んでいます。この問題解決は、ユーザーが元のプロンプトにアクセスできないシナリオにおいて重要です。この研究では、類似または完全に一致するプロンプトの回復を実証することで、言語モデルの予測の逆転可能性を強調しています。さらに、テキストのみのアクセスを含むさまざまなアクセスパターンを探索し、制限された情報でのプロンプトの回復の実現可能性を示しています。この研究では、言語モデルの分布出力から不明なプロンプトを回復する方法を紹介しています。Transformerベースのモデル上でトレーニングされた条件付き言語モデルが使用され、次のトークンの確率をトークンにマッピングします。エンコーダデコーダTransformer内のクロスアテンションを利用して、ベクトルを疑似埋め込みに展開します。Llama-2 7bデータセットでの実験では、逆プロンプトの質的な例が示されています。メソッドのパフォーマンス比較のために、jailbreak文字列などをベースラインとして確立しています。この研究で提案された逆転方法は、Instructions-2Mテストセットからプロンプトを回復することが優れ、フューショットプロンプティングを超えてさらにGPT-4を上回っています。さまざまなモデルアクセスシナリオで成功を収め、Llama-2 7bデータセットでのBLEUスコアやトークンレベルのF1などの注目に値する成果を達成しています。異なるサイズのモデルへの転送性を探索し、コード生成タスクでの優れたパフォーマンスを示しています。質的分析では、トピックに関連する構文的に類似した再構築されたプロンプトが示されており、言語モデルの出力からプロンプトを正確に回復するための逆転方法の効果を示しています。まとめると、この研究では、言語モデルの逆転はモデルの出力分布からプロンプトを回復するための信頼性のある方法であることが示されています。逆転攻撃に対抗するためには、ノイズの追加や制限されたアクセスなどの防御メカニズムを実装することが重要です。実験では、サンプリングが有効に再構築されたモデルの確率分布を復元することが示されました。ただし、プロンプトの保護のためには、上位のロジットアクセスを制限し、温度を0に設定することが推奨されます。結果は、言語モデルの逆転は、言語モデルから隠されたプロンプトを正確に回復するための効果的な方法であることを確認しています。言語モデルの逆転における将来の研究では、単一の接尾辞を入力して複数の次のトークン予測を生成するという方針に取り組むことができます。さらに、異なるサイズやドメインのモデルへの逆転の転移性の評価に重点を置いた研究が行われる可能性があります。ノイズの追加や上位のロジットアクセス制限など、さまざまな防御メカニズムの影響を調査することは、貴重な研究のテーマとなります。トークン埋め込みと確率値を統合するパラメータ化は、逆転モデルの性能を向上させる可能性があります。コード生成などのさまざまなタスクへの方法の適用を探索することで、より広範なユーティリティについての洞察が得られるでしょう。プロンプトの回復における制約や課題を理解するために、固有名詞の扱いや構文的な類似性の向上についてさらなる分析が必要です。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us