Learn more about Search Results MarkTechPost - Page 8

このAI論文は、コントロール可能なマルチビュー画像生成および3Dコンテンツ作成を革新するニューラルネットワークアーキテクチャー、MVControlを紹介しています

最近、2D画像制作の驚くべき進展がありました。テキストの入力プロンプトにより、高精細なグラフィックスを簡単に生成することができます。テキストから画像の生成に成功することは稀であり、3Dトレーニングデータが必要なため、テキストから3Dへの移行は難しいです。拡散モデルと微分可能な3D表現の良い性質により、最近のスコア蒸留最適化（SDS）ベースの手法では、事前学習済みの大規模テキストから画像を生成するモデルから3D知識を抽出し、大量の3Dデータで完全に学習する代わりに、印象的な結果を達成しています。DreamFusionは、3Dアセットの作成に新たなアプローチを導入した模範的な研究です。過去1年間で、2Dから3Dへの蒸留パラダイムに基づいて方法論が急速に進化してきました。複数の最適化段階を適用することで、生成品質を改善するための多くの研究が行われており、3D表現の前に拡散を最適化したり、スコア蒸留アルゴリズムをさらに精密化したり、パイプライン全体の詳細を向上させたりしています。これらの手法は細かいテクスチャを生成できますが、2Dの拡散先行は依存していないため、生成された3Dコンテンツの視点の一貫性を確保することは困難です。そのため、複数のビュー情報を事前学習済みの拡散モデルに強制的に組み込むための試みがいくつか行われています。ベースモデルは制御ネットワークと統合され、制御されたテキストからマルチビュー画像の生成が可能になります。同様に、研究チームは制御ネットワークのみを訓練し、MVDreamの重みはすべて凍結されています。研究チームは実験的に、相対姿勢条件が条件画像に関してテキストからマルチビューの生成を制御するためにより良い結果をもたらすことを発見しました。これに対して、MVDreamが絶対座標系で記述されたカメラの姿勢で訓練されている場合でも、事前学習済みのMVDreamネットワークの記述とは異なります。さらに、視点の一貫性は、シングルイメージの作成に対応する条件付けメカニズムを持つ2D ControlNetの制御ネットワークをベースモデルとの相互作用に直接採用することで容易に達成できます。これらの問題に対処するために、浙江大学、西湖大学、同济大学の研究チームは、制御ネットワークを基にした独自の条件付けテクニックを作成し、制御されたテキストからマルチビューの生成を提供するために十分に成功したControlNetアーキテクチャを提案しました。幅広い2DデータセットLAIONと3DデータセットObjaverseの一部を共同で使用してMVControlを訓練しました。この研究では、エッジマップを条件として使用することを調査しましたが、彼らのネットワークは深度マップ、スケッチ画像など、さまざまな種類の入力状況を活用する能力に制約はありません。訓練が終了すると、研究チームはMVControlを使用して制御されたテキストから3Dアセットの生成に3D先行を提供することができます。具体的には、MVControlネットワークと事前学習済みのStable-Diffusionモデルに基づくハイブリッド拡散先行が使用されます。細かいステップでは、ベースモデルから十分なジオメトリを得た段階でのテクスチャの最適化のみが行われます。包括的なテストにより、提案された手法が入力条件画像と書かれた説明を使用して、高精度で細かい制御が可能なマルチビュー画像と3Dコンテンツを生成できることが示されています。まとめると、以下が彼らの主な貢献です。・ネットワークが訓練された後、SDS最適化を介した制御されたテキストから3Dコンテンツ合成にハイブリッド拡散の一部として使用できます。・独自のネットワーク設計を提案し、細かい制御が可能なテキストからマルチビュー画像の生成を実現します。 • 彼らのアプローチは、入力条件画像とテキストのプロンプトによって細かく制御されることができる高精度なマルチビュー画像と3Dアセットを生成することができます。これは、広範な実験結果によって示されています。 • SDS最適化による3Dアセットの生成に加えて、彼らのMVControlネットワークは、3Dビジョンとグラフィックのコミュニティでさまざまなアプリケーションに役立つ可能性があります。

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール（FGS）を使用した痛み予測に使用できます」

人工知能（AI）の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施すために、痛みの特定は重要な第一歩です。特に痛みを伝えることができない人々では、代替の診断技術の使用が求められます。従来の方法には、痛み評価システムの使用や行動反応の追跡などがありますが、主観性、妥当性の欠如、観察者のスキルとトレーニングへの依存、そして痛みの複雑な感情と動機的な側面を十分に表現できないなど、いくつかの欠点があります。特にAIを活用することで、これらの問題に取り組むことができます。いくつかの動物種には、苦痛の重要な指標となる表情があります。苦痛のある人とそうでない人を区別するために表情の尺度が確立されています。これらは特定の顔のアクションユニット（AU）にスコアを割り当てることで機能します。しかし、現在のグリマスケールを使用して静止画やリアルタイムの痛みをスコアリングするための技術は、労働集約的で手動のスコアリングに重く依存しているという制約がいくつかあります。また、毛色、品種、年齢、性別に加えて、さまざまな自然発生的な痛みの症候群をカバーし、幅広い動物データセットを考慮した完全に自動化されたモデルの不足が指摘されています。これらの課題を克服するため、研究チームは最近の研究で「猫の表情指標スケール（FGS）」を提案し、猫の急性疼痛を評価するための信頼性のある手法として提示しました。このスケールを構成するために5つのアクションユニットが使用され、それぞれが存在するか否かに基づいて評価されています。累積FGSスコアは、猫が不快感を経験しており、援助を必要としている可能性を示します。FGSは、使用の容易さと実用性により、急性疼痛評価においてさまざまな文脈で使用できる柔軟な手法です。 FGSスコアと顔の特徴点は、ディープニューラルネットワークと機械学習モデルを利用して予測されました。畳み込みニューラルネットワーク（CNN）が使用され、サイズ、予測時間、スマートフォン技術との統合の可能性、および正規化された二乗平均平方根誤差（NRMSE）に基づく予測パフォーマンスなどの要素に基づいて必要な予測を行うためにトレーニングされました。データ解析を改善するために、35の幾何学的記述子が並列して生成されました。 FGSスコアと顔の特徴点はXGBoostモデルにトレーニングされました。平均二乗誤差（MSE）と精度メトリックを使用して、これらのXGBoostモデルの予測パフォーマンスを評価するために使用されました。この調査で使用されたデータセットには、37の特徴点で煩雑な注釈がされた3447枚の猫の顔写真が含まれています。研究チームは、評価の結果、ShuffleNetV2が顔の特徴点の予測において最良の選択肢として浮上し、最も成功したCNNモデルは、正規化された二乗平均平方根誤差（NRMSE）が16.76％でした。最も優れたXGBoostモデルは、FGSスコアを95.5％の驚異的な精度と0.0096の最小平均二乗誤差（MSE）で予測しました。これらの測定結果は、猫の痛みの有無を区別するための高い正確性を示しています。猫の疼痛の評価プロセスを簡素化し、改善するためにこの技術的な進展が利用できることを結論として述べられています。

メタAIは、オープンで創造的なAIモデルを使って倫理的に建設するために、パープルラマをコミュニティの支援として発表しました

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-1024×710.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-150×150.png”/>データの増加、モデルサイズ、自己回帰言語モデリングのための計算能力の向上により、対話型AIエージェントは過去数年で驚くべき進化を遂げました。チャットボットは、自然言語処理、推論、ツールの習熟度など、多くの有用なスキルで知られる大規模な言語モデル（LLM）を使用することがよくあります。これらの新しいアプリケーションは、潜在的な危険を軽減するために徹底的なテストと慎重な展開が必要です。したがって、生成AIによって動作する製品には、ポリシーに違反する高リスクなコンテンツの生成を防ぐための保護策を実装することが推奨されます。さらに、アドバーサリアルな入力やモデルのジェイルブレイクの試みを防ぐためにも、これらはLlama 2 Responsible Use Guideなどのリソースで確認できます。オンラインのコンテンツを管理するためのツールを探している場合、Perspective API1、OpenAI Content Moderation API2、およびAzure Content Safety API3はすべて良い出発点です。ただし、これらのオンラインモデレーション技術は、入出力のガードレールとして使用した場合にはいくつかの理由で失敗します。最初の問題は、ユーザーとAIエージェントの危険性を区別する方法が現在存在しないことです。結局のところ、ユーザーは情報や援助を求めますが、AIエージェントはそれを提供する可能性が高いです。さらに、すべてのツールは設定されたポリシーを強制するため、ユーザーはツールを新しいポリシーに合わせて変更できません。第三に、個々のユースケースに合わせて微調整することは不可能です。最後に、すべての既存のツールは控えめな伝統的なトランスフォーマーモデルに基づいています。より強力なLLMと比較すると、これは彼らのポテンシャルを大幅に制限します。新しいメタ研究は、会話型AIエージェントのプロンプトとレスポンスの潜在的な危険を分類するための入出力保護ツールを明らかにします。これにより、LLMを基にしたモデレーションが可能となり、この分野でのニーズを満たします。彼らの分類ベースのデータは、ロジスティック回帰に基づく入出力保護モデルであるLlama Guardをファインチューニングするために使用されます。 Llama Guardは関連する分類ベースをモデルの入力として受け取り、指示義務を適用します。ユーザーは、ゼロショットまたはフューショットのプロンプティングを使用してモデルの入力を個別のユーズケースに適した分類ベースでカスタマイズすることができます。推論時間では、複数のファインチューニングされた分類ベースの中から選択し、適切にLlama Guardを適用することができます。彼らは、LLMの出力（AIモデルからの応答）とヒューマンリクエスト（LLMへの入力）のラベリングに異なるガイドラインを提案しています。したがって、ユーザーとエージェントの責任の意味差をLlama Guardが捉えることができます。 LLMモデルがコマンドに従うという能力を利用することで、彼らはたった1つのモデルでこれを実現することができます。彼らはまた、Purple Llamaを発表しました。将来的には、これはリソースと評価をまとめたプロジェクトとなり、オープンで創造的なAIモデルを倫理的に構築するためのコミュニティを支援します。サイバーセキュリティと入出力保護ツールおよび評価は、最初のリリースの一部となり、さらに多くのツールが追加されます。彼らは業界で初めてのLLMのための包括的なサイバーセキュリティ安全評価を提供しています。これらのガイドラインは、セキュリティの専門家と共同で開発され、業界の推奨事項や基準（CWEやMITRE ATT&CKなど）に基づいています。この最初のリリースでは、ホワイトハウスが責任あるAIの創造を約束した中で、以下のような危険を緩和するのに役立つリソースを提供することを目指しています。<ul><li>LLMサイバーセキュリティの脅威を数量化するためのメトリック。</li><li>安全でないコード提案の普及を評価するためのツール。</li><li>LLMをより安全に書き換えることやサイバー攻撃の実行を助けるための手段。</li></ul>これらのツールにより、LLMが安全でないAI生成コードを提案する頻度を減らすことによって、サイバー攻撃者へのLLMの有用性が低下すると予想されます。彼らの研究では、LLMが安全でないコードを提案したり、悪意のあるリクエストを受け入れたりする場合に、深刻なサイバーセキュリティの懸念があることがわかっています。 LLMへのすべての入力と出力は、Llama…

NexusRaven-V2をご紹介します：13B LLMは、ゼロショット機能呼び出しでGPT-4を凌駕し、ナチュラルランゲージの指示を実行可能なコードに変換する能力を持っています

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.42.47-AM-1024×623.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.42.47-AM-150×150.png”/>LLMsは、コード関連のデータセットで微調整することができ、関数呼び出しを含むコードスニペットを生成することができます。これらのモデルは、コンテキストやプロンプトによって提供された入力に基づいて、関数呼び出しを含むコードを提案または生成することができます。言語モデルは、コードに関連するクエリや指示の自然言語理解に使用することができます。開発者は質問や説明を入力し、モデルはそれらを解釈して関連する関数呼び出しやコードセグメントを提供することができます。LLMsは、提供されたコンテキストや部分的なコードに基づいて、関数呼び出しを提案したり関連する関数を提案したりすることによって、コード補完を支援することができます。これにより、開発者はより迅速かつ正確にコードを記述することができます。LLMsは、特定のタスクや問題の説明に基づいて、適切なAPIや手順をガイドすることで、開発者がコード内で呼び出すべき適切な関数を見つけるのを支援することができます。LLMsを開発環境に統合することで、開発者に対して関数呼び出し、パラメータのタイプ、または潜在的なエラーに対してリアルタイムのサポートを提供することができます。Nexusflowの研究者は、オープンソースのLLMモデル、<a href=”https://www.voagi.com/nexusravenv2-outperforms-gpt4-in-nexusflows-latest-battle.html”>NexusRaven-V2</a>を提案しています。これは自然言語の指示を実行可能なコードに変換してツールを使用することができます。OpenAIアシスタントAPIは、コパイロットとエージェントがソフトウェアツールを使用するための鍵として機能します。NexusRaven-V2は、コパイロットとエージェントのオープンソースモデルを進化させることを目指しています。NexusRaven-V2は、ネストや複合関数を使用する人間が生成したユースケースで、関数呼び出しの成功率でGPT-4を最大7％上回っています。NexusRavenはMetaのCodeLlama-13 Bインストラクションにチューニングされた指示です。Nexusflowのパイプラインを使用して、プロプライエタリなLLMを使用せずにオープンコードのコーポラから情報源を提供しています。コミュニティ開発者と企業の両方に対して商業許容です。当社の人間によるベンチマークで、NexusRaven-V2は、関数呼び出しの成功率において、最新のGPT-4モデルよりも平均で4％高い成功率を示すことが観察されました。なお、ネストや複合関数呼び出しを必要とする4つの厳しいタスクでは、NexusRaven-V2の方がGPT-4よりも堅牢性が高いと言えます。また、開発者の関数の説明におけるバリエーションを処理する際にも、NexusRaven-V2はGPT-4よりも優れた性能を発揮します。チームは、ユーザーがメインストリームのプロプライエタリな関数呼び出しAPIをシームレスにNexusRaven-V2で置き換えることができるオープンソースのユーティリティアーティファクトをリリースしました。また、オンラインデモやコラボノートブックを提供してオンボーディングと統合デモを行っています。彼らは評価ベンチマーク<a href=”https://www.voagi.com/call-all-functions.html”>Nexus-Function-Calling</a>をオープンソース化し、Huggingfaceの<a href=”https://www.voagi.com/create-and-analyze-advanced-machine-learning-models-using-the-sagemaker-canvas-model-leaderboard.html”>リーダーボード</a>を確立しています。このリーダーボードには、さまざまな関数呼び出しのユースケースと難易度をカバーした、実生活で人間が選定した関数呼び出しの例が多数収録されています。将来的には、関数呼び出しのLLMは教育現場において、学習者がリアルタイムのサポートを受けながら関数の呼び出し方を正しく学び、プログラミングの概念の理解を促進することができるでしょう。

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復するために人々が計画するのに重要な役割を果たしており、気候変動への懸念が高まる中で環境をよりよく理解するために研究者を支援しています。数値天気予報（NWP）モデルは、大気科学者の業務の中核です。これらのモデルは、熱力学と流体力学を説明する微分方程式のシステムを使用し、時間を経て結合されることで将来の予測を作成します。NWPモデルは、放射や雲物理学などの重要な小スケールの物理現象のパラメータ化の誤りなど、いくつかの欠点がありますが、広く使用されています。大規模な微分方程式の統合の困難さから、数値的なアプローチは特に空間および時間の解像度を高くする場合には計算コストが非常に高くなります。さらに、これらのモデルは気候科学者の知識に依存して方程式、パラメータ化、アルゴリズムを改善するため、NWPの予測精度は追加データによっては改善されません。NWPモデルの問題に対処するため、ますます多くの人々がデータ駆動型、深層学習ベースの天気予測手法に関心を示しています。歴史的データ（ERA5再解析データセットなど）を使用して、深層ニューラルネットワークは将来の天気予測を訓練するために使用されます。これがこの手法の主たる前提です。従来のNWPモデルが数時間かかるのに対し、訓練後は数秒で予測することができます。この分野の初期の取り組みでは、気象データと自然の画像は似たような空間構造を持つため、ResNetやUNetなどの従来のビジョンアーキテクチャを天気予測に使用しようとしました。しかし、それらのパフォーマンスは数値モデルに劣っていました。しかし、改善されたモデル設計、トレーニングレシピ、データとパワーの増加により、最近では注目すべき進展がありました。最初に実用IFCを上回ったモデルは、0.25°データ（721×1440グリッド）でトレーニングされた3D地球特有のトランスフォーマーモデルであるPangu-Weatherでした。すぐに、Keislerのグラフニューラルネットワーク設計がGraphCastによって0.25°データにスケールアップされ、Pangu-Weatherを上回る結果を示しました。予測精度は優れているものの、現在の手法では複雑で高度にカスタマイズされたニューラルネットワークのトポロジーがしばしば使用され、抜け穴実験がほとんど行われないため、その効果の正確な要素を特定するのは困難です。たとえば、GraphCastにおける多重メッシュメッセージパッシングが効率にどの程度貢献しているのか、3D地球特有のトランスフォーマーが通常のトランスフォーマーと比べてどのような利点を持っているのかは分かりません。この分野では、これらの現行手法をより良く理解し、できれば簡素化するために統合フレームワークが必要です。また、気候や天候の予測を超える気象基礎モデルを作成することも容易になります。この研究では、適切なトレーニングの公式と組み合わせることで、簡単な設計が先端技術を上回る性能を発揮することを示しています。 UCLA、CMU、Argonne National Laboratory、およびPenn State Universityの研究者は、Stormerと呼ばれる、従来のトランスフォーマーのバックボーンにほとんどの変更を加える必要のないシンプルなトランスフォーマーモデルを提案しています。研究チームは、従来のビジョントランスフォーマー（ViT）アーキテクチャをベースにして、モデルのパフォーマンスに影響を与える3つの要素を詳細に調査しました：モデルは次の3つの要素から構成されます：（1）大気変数間の相互作用をモデル化し、入力データをトークンのシーケンスに変換する天気固有の埋め込み層、（2）モデルをランダムな間隔で天気の動態を予測するようにトレーニングするランダムなダイナミクス予測目標、（3）ロス関数において異なる圧力レベルの変数を重み付けして各圧力レベルの密度を近似する圧力加重ロス。提案されたランダムなダイナミクス予測目標は、モデルがトレーニングされた間隔のさまざまな組み合わせを使用することによって、推論中に特定のリードタイムに対して多くの予測を生成するため、1つのモデルが複数の予測を可能にします。たとえば、6時間の予測を12回配布するか、12時間の予測を6回配布することで、3日間の予測を得ることができます。これらの予測を組み合わせることにより、特に長期のリードタイムにおいて、大きな性能向上が得られます。研究チームは、データ駆動型の天気予測のための人気のあるベンチマークであるWeatherBench 2を使用して、Stormerという提案手法を評価しました。テスト結果は、Stormerが7日後に先端の予測システムを上回り、1日から7日間の重要な大気変数の予測精度で競争力のある結果を達成していることを示しています。特に、Stormerはほぼ5倍低解像度データおよび数桁少ないGPU時間で訓練されることにより、ベースラインよりも性能が向上しています。さらに、スケーリングの研究により、モデルの容量とデータサイズを増やすとStormerの性能が継続的に向上する可能性があることが証明されました。

Google DeepMindの研究者は、言語モデル（LM）のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code（CoC）」を提案しました

Google DeepMind、スタンフォード大学、およびカリフォルニア大学バークレー校の研究者たちは、言語モデルのコード駆動型の推論能力を向上させる問題に対処するために、Code of Chain（CoC）を開発しました。CoCは、LM（“LMulator”としての言語モデルを示す）でシミュレーションするために、undefinedな動作を明示的にキャッチし、シンタックス上のセマンティックなサブタスクを柔軟な擬似コードとしてフォーマットすることを促すことで、問題に対処します。CoCは、大規模なモデルや小規模なモデルでスケーリングが可能であり、コードで考えることで、LMが正しく答えることができる推論の範囲を広げることができます。 Chain of Thought、最小から最大まで、およびScratchPadのようなワークは、タスクを中間ステップに分解するか、中間結果のトレースを保持することにより、プロンプトを活用して推論能力を向上させています。GithubでトレーニングされたLMは、コードの記述と実行を促すようにプロンプトされ、数値または記号的な推論を含む複雑な問題を解決するのに役立ちます。 CoCは、与えられた問題を解決するために、コード構造内の推論のサブステップを生成します。このコードは、痛みを通して推論するためのフレームワークを提供し、明示的なコード、擬似コード、または自然言語の形式で表される場合があります。CoCは、コードによる表現の利点とLMの優れたセマンティックおよび常識的な知識を組み合わせることで、新たな領域でコードの使用を可能にします。コードで表現が難しいルールを簡単に表現できます（たとえば、果物はどのような食べ物ですか？）。 CoCの主要な貢献は、推論コードの生成だけでなく、その実行方法です。コードが書かれた後、コードはコードインタプリタ（この研究ではPythonが考慮されていますが、アプローチ自体は任意のインタプリタに適用可能です）で実行されようとします。コードが正常に実行される場合、プログラムの状態が更新され、実行が続行されます。コードが実行不可能であるか例外を発生させる場合、言語モデルは代わりに実行のシミュレーションに使用されます。言語モデルの出力がプログラムの状態を更新し、実行が続行されます。 CoCアプローチの全体的なパフォーマンスは、他の方法を上回り、タスク数と全体的な量の両方で人間の基準を超えています。CoCは、いくつかの研究において最先端のパフォーマンスを実現しています。Chain of Thoughtプロンプティングと同様に、モデルのサイズが増えるほど性能が向上します。クロスタスクプロンプティングは、すべての方法においてパフォーマンスが低下しますが、CoCはスケール時にはChain of Thoughtと直接プロンプティングを上回るパフォーマンスを示し、人間の平均パフォーマンスに近づきます。 CoCは、言語モデルを用いた推論をコードの記述とコードの実行により行うアプローチです。コードが実行不可能な場合、インタプリタまたはコードの実行をシミュレーションする言語モデルを使用することができます。CoCは、規制の表現の表現力豊かな構造とその強力なツールの両方を活用できます。さらに、実行不可能なコードのシミュレーションにより、CoCはコードの範囲外の問題（例えば、意味的な推論問題）に適用することができます。

Google Researchがジェネレーティブな無限語彙トランスフォーマー（GIVT）を発表 – AIにおける先駆的な実数値ベクトルシークエンス

トランスフォーマーは最初に導入され、自然言語処理の主要なアーキテクチャとして急速に台頭しました。最近では、コンピュータビジョンでも非常に人気があります。Dosovitskiyらは、画像をパッチのシーケンスに分割し、それらのパッチを線形に埋め込み、その結果得られる特徴のシーケンスをトランスフォーマーエンコーダに供給することで、CNNベースのアーキテクチャに勝る効果的な画像分類器を作成する方法を示しました。セグメンテーション、検出、および分類などの多くの区別的なビジョンタスクにおいて、このアプローチは現在の標準です。ただし、生成トランスフォーマーデコーダはある事前定義された有限のボキャブラリーから離散的なトークンを消費して予測するため、画像を（非量子化された）特徴ベクトルのシーケンスにマッピングすることは、トランスフォーマーベースの画像生成には適切ではありません。このような構造は自然言語に自然に適合し、デコーダーモデル単体では、効果的なトレーニングがインストラクターフォースと強力な連続生成モデリングを介して可能です。最近の取り組みでは、ベクトル量子化変分オートエンコーダ（VQ-VAE）を使用して画像を離散トークンのシーケンスにマッピングし、その後、トランスフォーマーデコーダを使用して潜在的な離散トークンの分布をモデル化するための手法を採用しています。このアプローチは、画像を利用した多走的生成モデルも容易にします。しかし、2段階のメソッドは画像とマルチモーダルコンテンツの作成には適していますが、いくつかの問題があります。 VQ-VAE内のボキャブラリーサイズによって、潜在的なモデリングや画像の細部調整の調整が困難になるため、潜在的なコードの情報量が減少します。また、トークンを使用して密度予測や低レベルの区別的なタスクにトークンを使用するアプリケーションの品質にも影響を与えます。ボキャブラリーサイズの拡大はこの問題の解決に役立ちますが、それによってボキャブラリーの使用が不十分になる場合があります。したがって、高品質なVQ-VAEセットアップでは、エントロピー損失やコードブックの分割などの洗練された方法に頼る必要があります。さらに、巨大なボキャブラリーは記憶容量を多く消費する埋め込み行列をもたらし、異なるモダリティのボキャブラリーが混在するマルチモーダルシナリオでは、問題が発生する可能性があります。研究チームは、これらの問題を回避するために、デコーダーモデルを変更して、離散的なトークンと、したがって、固定された有限のボキャブラリーを必要としない連続した実数値のベクトルシーケンスで動作する生成トランスフォーマーデコーダを提案しています。特に、Google DeepMindとGoogle Researchの研究チームは、実数値のベクトルシーケンスを用いて機能する生成型無限ボキャブラリートランスフォーマー（GIVT）を提案しています。実数値のベクトルは無限ボキャブラリーと見なすことができるため、研究チームはこれをGIVTと呼んでいます。図1に示されているように、研究チームはトランスフォーマーデコーダの設計をわずかに変更しました（合計2つの変更）。1）入力では、研究チームは離散的なトークンの代わりに連続した実数値のベクトルシーケンスを線形に埋め込む。2）出力では、研究チームは有限のボキャブラリー上のカテゴリカル分布のパラメータを予測するのではなく、連続した実数値のベクトル上の連続した分布のパラメータを予測します。研究チームは、教師強制と因果関係注意マスクを使用してこのモデルをトレーニングしました。また、研究チームはMaskGITに類似した高速進行マスクバイダイレクショナルモデリングも調査しました。図1は、連続した無限ボキャブラリーのバリエーション（右側のGIVT）を典型的な離散トークン生成トランスフォーマー（左側）と比較するための同じデコーダーモデルを使用しています。 GIVTは、入力時に斜めに並んだ連続した実数値ベクトルのシーケンスで離散トークンを置き換えます。有限のボキャブラリー上のカテゴリカル分布を予測する代わりに、GIVTは出力時に連続した実数値ベクトル上の連続した分布のパラメータを予測します。高解像度の画像を平坦化して生成されるRGBピクセルの系列は、理論的には任意の特徴ベクトルの系列にGIVTを適用することができるものの、直接的にモデル化するのは難しい例です。それは長くて複雑な分布を持っていることもあります。したがって、研究チームはまず、ガウス事前VAEを使用して低次元の潜在空間をトレーニングし、次にGIVTでモデル化します。これは、VQ-VAEと類似した2段階のテクニックに似ています。研究チームはまた、シーケンスモデリングの文献からいくつかの推論戦略（温度サンプリングや分類器フリーガイディングなど）を転用しました。注目すべきは、実数値トークンだけを使って、これによってVQベースの技術と同等か優れたモデルが生成されることです。以下に彼らの主な貢献を簡潔に述べます： 1. UViMを使用して、研究チームはGIVTが密な予測タスク（セマンティックセグメンテーション、深度推定、ピクチャーシンセシスなど）において、通常の離散トークン変換デコーダーよりも同等または優れたパフォーマンスを達成することを示しています。 2. 研究チームは、連続ケースにおける従来のサンプリング方法の効果（温度サンプリング、ビームサーチ、分類器フリーガイディング）の派生と有効性を導き出し、証明しました。 3. KL項の重み付けを使用して、研究チームはVAE潜在空間の正規化レベルと現れるGIVTの特性との関連性を検討しました。研究チームは、VQ-VAE文献の洗練されたトレーニング方法（潜在表現への補助損失、コードブックの再初期化、専用の最適化アルゴリズムなど）はVAEおよびGIVTのトレーニングでは使用されていないことを強調しており、単純に通常の深層学習ツールボックスのアプローチに依存していると述べています。

機械学習によるマルチビューオプティカルイリュージョンの作成：ダイナミックな画像変換のためのゼロショット手法の探索

アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生成するためには、通常、視覚知覚を理解してだます必要があります。しかし、新しいアプローチが登場し、これらの魅力的な多視点光学錯視を簡単かつ効果的に生成する方法を提供しています。視覚錯覚を作成するためのさまざまなアプローチが存在しますが、ほとんどは人間がイメージをどのように理解するかについての特定の仮定に依存しています。これらの仮定はしばしば、われわれの視覚体験の本質をときどき捉えるだけの複雑なモデルにつながります。ミシガン大学の研究者たちは、新しい解決策を提案しています。人間が物事を見る方法に基づいたモデルを構築するのではなく、テキストからイメージへの拡散モデルを使用します。このモデルは人間の知覚について何も仮定しません。データのみから学習します。この手法は、フリップや回転時に変形するイメージなど、古典的な錯視を生成するための新しい方法を提案しています。さらに、ピクセルを並び替えると外観が変化する「視覚アナグラム」と呼ばれる新しい錯視の領域にも進出しています。これには、フリップ、回転、ジグソーパズルのような複数の解を持つより複雑な変換も含まれます。この手法は、３つや４つの視点にまで拡張され、魅力的な視覚変換の範囲が広がっています。この手法が機能するための鍵は、ビューを注意深く選択することです。画像に適用される変換は、ノイズの統計的特性を維持する必要があります。なぜなら、このモデルはランダム、独立、同一分布のガウスノイズを仮定してトレーニングされるからです。この手法では、画像をさまざまな視点からデノイズするために、拡散モデルを利用して複数のノイズの推定値を生成します。これらの推定値は、逆拡散プロセスの１つのステップを容易にするために組み合わされます。この論文では、これらの視点の効果を支持する経験的根拠が示され、生成される錯視の品質と柔軟性が紹介されています。結論として、このシンプルでありながら強力な手法は、魅力的な多視点光学錯覚を作成するための新しい可能性を開拓しています。人間の知覚に対する仮定を避け、拡散モデルの機能を活用することで、視覚変換の魅力的な世界への新たなアプローチを提供しています。フリップ、回転、ポリモーフィックジグソーパズルなど、この方法は、視覚理解を魅了し挑戦する錯視を作り出すための多目的なツールを提供します。

人間に戻る：AIの道：コードからぬいぐるみまでの旅

人工知能（AI）の急速に進化する風景の中で、私たちはアプローチの転換を求める分岐点に立っています。特にシリコンバレーを中心に、テック業界では既存の製品にAIを統合し、増分のイノベーションを生み出す傾向があります。この戦略は、AIに対する一般の人々の理解を深め、抵抗を減らすという点で重要な役割を果たしてきました。しかし、このアプローチは頭打ちになりつつあります。AIの革命的な可能性を実現するためには、人間の根本的なニーズと行動に戻り、AIアプリケーションのための新しい革新的な「チャネル」を築かなければなりません。AIは感性的にならなければなりません！その重要性を強調するため、著名な作家でありデザイン思考家であるドン・ノーマンは、彼の画期的な著書「日常のデザイン」で、製品デザインを人間の本能と反応に整合させることの重要性を強調しています。この原則は、AIアプリケーションにおいても重要です。既存の製品にAIを埋め込むだけではなく、基本的な人間の経験とニーズを理解し、活用することが重要です。これらの人間中心のデザインを発見するための効果的な手法の一つは、「デザインフィクション」です。この手法は、未来に自分自身を投影して、SF要素や弱いシグナルを活用して新たな使い方を概念化することを意味します。将来のシナリオを想像し、逆算して現在の製品に至るロードマップを作成することで、革新的な使い方を見つけることができます。 AIの変革的な性質を持つためには、持続可能な統合のための新たなパラダイムが必要です。そのためには、ある程度の科学的な洞察力が必要です。DeepMind、Google Research、FAIR、OpenAI、およびNvidiaなどの組織は、科学的な進歩によってこれに足場を築いています。ChatGPTなどの初期のプロトタイプは驚きと可能性を提供しました。次のステップでは、AIを現行の製品に埋め込んで利用性を向上させることが求められます。しかし、真に革新的な使い方を見つけるためには、技術の可能性に合ったものを特定することが重要です。 iPhoneのタッチスクリーンやApp Storeによってもたらされた革命を考えてみてください。スティーブ・ジョブズは、ブラックベリーのキーボードではなくタッチスクリーンを提唱したのは単なる姿勢ではなく、ユーザーの好みとニーズを深く理解していたからです。このアプローチは、最近OpenAIとの議論で示唆されたJony Iveの考え方に似ています。AIにおける同様の画期的な開発を暗示しています。これらの革新的な使い方を特定するために、私たちは現行の製品にとどまるのではなく、SFや映画の世界に飛び込んでみるべきです。作家たちはそこで未来を予見しています。その一つの良い例は映画やテレビシリーズ「リミットレス」です。NZTという薬を通して人間の能力を高めるという中心テーマは、AIの増強パラダイムと共鳴します。主人公のエディ・モラやブライアン・フィンチは、注意を分散させず、後で細部を思い出すことを示しています。このコンセプトは、深い人類学的なニーズと増強パラダイムに合致します。WhatsAppの会話に集中していたとき、チームメイトが今朝コーヒーマシンであなたに話したことを思い出せたら、それはどんなに素晴らしいことでしょうか。 Rewind AIなどの企業も同様のコンセプトを探求しています。Rewind AIは、基本的なフォトエディティングやチャットボットを超える革命的な技術です。ユーザーは、生活の瞬間を卓越した明瞭さと詳細さで再訪・思い出すことができます。それを物語的な「リミットレス」の薬のようなデジタル版と考えてください。Rewind AIを使用すると、ユーザーは写真アルバムをめくるように、過去の経験を手軽にアクセスして再生することができます。さらに、Rewind AIは、スクリーンから離れているときでも、日常生活を記憶する力を与えるウェアラブル技術の開発も模索しています。最近リリースされたGemini Nanoのような軽量AIモデルのポテンシャルも強調されています。このAI技術の最新進歩は、コンパクトで効率的かつ驚くべきパワフルさを備えた、機械学習の未来を具現化しています。このような軽量でありながら強力なAIモデルを受け入れることで、AIが単なる臨時のアシスタントでなく、私たちの日常生活の一部として完全かつなめらかに統合された世界に一歩近づくのです。結論として、AIの未来は既存の製品を単に強化するだけでなく、私たちの最も深い人間の本能とニーズと共感する新しい製品を作り出すことにあります。デザインフィクションからインスピレーションを得て、人間の行動の本質を理解することにより、革新的でありながら自然な傾向と欲望と深い共鳴を持つAIアプリケーションを開発することができます。私たちがこの旅に乗り出すにあたり、先見の明のあるデザイナーとAIの専門家との協力は、この変革的なテクノロジーの真の可能性を引き出し、AIが単なるツールではなく、私たちの人間の体験の拡張となる未来への道を開きます。この記事は「人間に戻る：AIの旅、コードから愛撫へ」がMarkTechPostで最初に掲載されました。

機械学習信頼性の向上：異常性がモデルのパフォーマンスと不確実性の定量化を向上させる方法

オブジェクトがそのカテゴリーの他のアイテムに似ている場合、それは典型的と見なされます。例えば、ペンギンは普通でない鳥ですが、ハトやスズメは普通の鳥です。いくつかの認知科学の研究は、典型性がカテゴリーの知識において重要であることを示唆しています。例えば、人間は普通のオブジェクトに対してより速く学習し、思い出し、関連付けるとされています。同様に、類似性ヒューリスティックは、人々が出来事がどれくらい一般的かに基づいて判断する傾向を指します。これは迅速な意思決定に役立つかもしれませんが、不正確な不確実性の評価につながる可能性もあります。例えば、普通の出来事の確率を過大評価したり、珍しい出来事についての判断の不確実性を過小評価したりするかもしれません。人間の判断の不確実性の度合いを測定することは難しいですが、機械学習の手法は予測において保証を提供します。ただし、信頼性を判断するためには信頼度だけでは十分ではない場合もあります。たとえば、低信頼度の予測は、明示的な不確実性やトレーニング分布においてサンプルの不足から生じる場合があります。同様に、高信頼度の予測は正確であるかもしれないが、誤ったキャリブレーションをしている場合もあります。彼らの主な提案は、トレーニング分布の範囲または予測の予測性を理解するために、モデルが両方の非典型性と信頼度を測定すべきであるということです。ただし、多くの機械学習アプリケーションでは、非典型性の測定ではなく、信頼度のみを提供する事前学習済みモデルが使用されます。スタンフォード大学とラトガーズ大学の研究チームは、サンプルやクラスの非典型性（稀な存在）とモデルの予測の正確性との関連を調査しています。以下は彼らの貢献です： 1. 予測品質の認識：この研究により、非典型性を考慮した推定子を使用することで、モデルの予測確率が実際の発生確率と一致するかどうかを評価できます。例えば、ロジスティック回帰やニューラルネットワークでも、調整が不正確な場合があります。ここでは、非典型性はモデルの信頼性が信頼できるかどうかに関する情報を提供できます。厳密なテストと理論的な研究によって、非典型性は予測の品質が低下することが示されています。特に、非典型な入力や非典型クラスからのサンプルでは、過度の自信と予測の精度が低下することが研究チームによって実証されました。 2. 精度とキャリブレーションの向上：確率モデルを修正することで、キャリブレーション技術によって誤キャリブレーションを軽減できます。研究チームは、モデルは異常な入力やクラスに基づいてさまざまな補正を必要とし、非典型性が再校正に重要な役割を果たすことを示しました。この調査結果に基づいて、彼らは非典型性を考慮した簡単な手法「非典型性に対する再校正」を提案しています。彼らの再校正技術は簡単に実装でき、入力やクラスの非典型性を考慮に入れます。研究チームは、非典型性を再校正技術に加えることで、予測の精度と不確実性の量子化を向上させることを実証しました。また、スキンレセプトリズムのカテゴリ分類を行う事例研究において、非典型性を意識したことが、複数のスキンタイプの性能向上に寄与することも示しました。 3. 予測セットの向上：ラベルの含まれる可能性が高い予測セットは、不確実性を評価する別の方法です。ここでは、研究チームは既存のアプローチの非典型性を検討し、低信頼度または非典型のサンプルが予測セットの性能を低下させる可能性があることを実証しています。研究チームは非典型性を使用することで予測セットの向上の可能性を示しています。総じて、研究チームはモデルに非典型性を考慮することを提案し、使用が容易である非典型性推定子が非常に価値があることを実証しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us