Learn more about Search Results この - Page 11

このAI論文では、コンピュータビジョンの基盤について包括的な分析を紹介し、事前学習モデルの強みと弱点を明らかにします

コンピュータビジョンにおいて、バックボーンは多くのディープラーニングモデルの基本的なコンポーネントです。分類、検出、セグメンテーションなどの下流の処理は、バックボーンによって抽出された特徴に依存しています。ここ数年で、新しい事前トレーニング戦略とバックボーンのアーキテクチャが急激に増えています。その結果、実践者は自分の特定の活動およびデータセットに最適なバックボーンを選ぶことに課題を抱えています。バックボーンの戦い（BoB）は、多くの人気のある公開された事前トレーニングチェックポイントとランダムに初期化されたベースラインをさまざまな下流タスクで比較する大規模なベンチマークです。ニューヨーク大学、ジョンズホプキンス大学、メリーランド大学、ジョージア工科大学、Inria、Meta AI Researchの研究者が開発しました。BoBの調査結果は、さまざまなバックボーンのトポロジーと事前トレーニング戦略の相対的な利点を明らかにします。この調査では、以下のような興味深い結果が得られました：事前トレーニングされた教師あり畳み込みネットワークは、通常、トランスフォーマーよりも優れたパフォーマンスを示します。これは、教師あり畳み込みネットワークは容易にアクセス可能で、大規模なデータセットでトレーニングされるためです。一方、同じサイズのデータセット間で結果を比較すると、自己教師ありモデルのほうが教師ありの類似物よりも優れたパフォーマンスを示します。 CNNに比べて、ViTはパラメータ数や事前トレーニングデータの量に対してより敏感です。これは、ViTのトレーニングにはCNNのトレーニングよりも多くのデータと処理能力が必要になる可能性があることを示しています。バックボーンのアーキテクチャを決定する前に、精度、計算コスト、データの利用可能性に対するトレードオフを検討する必要があります。タスクパフォーマンス間の相関度は高いです。最良のBoBバックボーンはさまざまなシナリオで優れた機能を発揮します。エンドツーエンドの調整は、密な予測ジョブにおいてはCNNよりもトランスフォーマーに効果があります。これは、トランスフォーマーがCNNよりもタスクおよびデータセットに依存する可能性があることを示しています。 CLIPモデルと他の有望な先進的なアーキテクチャを使用したビジョン言語モデリング。CLIPの事前トレーニングは、ImageNet-21kでトレーニングされたバックボーンと比較しても優れています。このデータは、ビジョン言語の事前トレーニングがコンピュータビジョンのタスクの結果を改善することができることを示しています。著者は、CLIPを介して利用可能な事前トレーニング済みバックボーンを調査することを専門家に勧めています。 BoBにはコンピュータビジョンフレームワークの最先端がマッピングされています。ただし、この分野は新しいアーキテクチャと事前トレーニング技術の進歩が継続しているため、パフォーマンスを向上させるために新しいインフラストラクチャを常に評価・比較し、見つける方法を見つけることが重要だとチームは考えています。

このAI論文は、オープンエンドのシナリオでの大規模言語モデルのスケーラブルな評価のための新しいアプローチ、JudgeLMを紹介しています

最近、大規模な言語モデル（LLM）は、優れた命令の従順さと幅広いオープンエンドシナリオの処理能力により、注目を浴びています。研究者は命令の微調整を通じて、FlanT5、OPT、LLaMA、およびPythiaなどのオープンソースのLLMに基づいてこれらのモデルを人間の好みと調整するための多くの技術を提供しています。調整されたLLMは、人間の命令の理解力が向上し、より論理的な応答を生成します。しかし、オープンエンドのシナリオでのLLMの能力は、現在のベンチマークと従来の測定によって十分に評価される必要があります。したがって、オープンエンドの活動でのLLMの評価を徹底的に評価する新しいベンチマーク手法が必要です。同時の研究では、LLMのパフォーマンスを決定するための異なる手法を調査しています。アリーナ形式の手法は、クラウドソーシングプラットフォームを利用して匿名化されたLLMの競争結果を取得します。人間の評価は信頼性がありますが、コストがかかり、多くの努力が必要です。一部の手法ではGPT-4を仲裁者として使用しますが、これらの手法には可変APIモデルのシフトと可能なデータの開示への支援が必要であり、裁判官の繰り返し可能性が危険にさらされる可能性があります。PandaLMは、回答評価に使用されるオープンソースのLLMを改善することを目指しています。図1（a）：JudgeLMのデータ生成パイプライン。105Kのシードタスクが最初に質問として収集されます。その後、11つのLLMから回答を取得し、回答セットから2つをランダムに選択します。最後に、タスク、サンプル回答ペア、および必要に応じてGPT-4への応答を入力します。これにより、裁判官インストラクターのスコアと綿密な理由が生成されます。ただし、精緻なモデルの有用性は、モデルのサイズ、トレーニングデータの品質、および固有のLLMバイアスから生じる制約により弱体化します。北京人工知能研究院と華中科技大学の研究者は、本研究で最適化されたオープンソースのLLMを使用してLLMを評価することを提案しており、スケーラブルな裁判官（JudgeLM）として十分な合意に達する裁判官としての機能を持つLLMを組み合わせます。彼らの手法では、裁判官モデルのトレーニングと評価に役立つ高品質のデータセットを組み合わせ、スケーラブルな裁判官を使用してオープンエンドの割り当てで評価します。彼らは、オープンソースのLLMを彼らのフレームワーク内で裁判官として使用するために改変し、モデルのサイズ（7Bから33B）とトレーニングデータのボリューム（3.5Kから100K）の観点でどれだけスケールするかを調査します。図1（b）：JudgeLMの異なる特徴と微調整の例。スケーラブルな裁判官としてのLLMのパフォーマンスを向上させるために、裁判官のサンプルを使用します。また、形式バイアス、知識バイアス、および位置バイアスを克服するために、LLMをウェイトジャッジとして微調整するために参照ドロップ、参照サポート、およびスワップ増強も提案されます。図1aに示すように、彼らのデータセットは105Kのシード質問、LLM回答ペア、および教師裁判官で構成されています。各シードチャレンジについて、生徒は参考回答で1つと参考回答なしで1つの意思決定を行いました。このデータセットの分割では、トレーニング用に100Kのシード質問を確保し（PandaLMよりも大きい×2倍）、残りの質問を検証用に確保し（PandaLMよりも29倍大きい）、LLMを裁判官として使用する際には、位置バイアス（特定の状況での応答を好む）、知識バイアス（事前トレーニングされた情報に対する過度の依存）、および形式バイアス（特定のプロンプト形式の下でのみ最適なパフォーマンス）などのバイアスが必ず導入されます。彼らはそれらに対処する方法を提供しています。さらに、図1bに示されるように、彼らのJudgeLMシステムには、マルチターンの会話、単一の応答の評価、およびマルチモーダルモデルに加えて複数の回答の判断など、拡張された機能があります。アリーナ形式のアプローチと比較して、彼らのものは迅速かつコストパフォーマンスの高い解決策です。例えば、JudgeLM-7Bは3分で5000の応答ペアを評価することができ、たった8つのA100 GPUだけが必要です。JudgeLMは、クローズドソースのLLMジャッジよりもプライバシー保護と繰り返し可能性を提供します。彼らの方法では、同時にオープンソースのLLMジャッジと比較して、LLMの微調整のスケーリング能力とバイアスを調査しています。さらに、彼らが提示するデータセットは最も包括的で優れており、将来のモデル分析の研究に大いに役立ちます。以下に彼らの主要な貢献を簡単に説明します： • 彼らはJudgeLMを提案しており、オープンエンドのシナリオでLLMを評価するために設計されたスケーラブルな言語モデルジャッジです。 • 彼らは、多様なシードタスク、LLMが生成した回答、およびGPT-4からの詳細な判断を組み込んだ高品質で大規模なデータセットを導入し、LLMの評価に関する将来の研究のための基盤を築きました。これには人間との合意を超える90％以上の合意があります。さらに、JudgeLMは長時間のジョブを処理するための幅広い機能を備えています。 • 彼らはLLMの中に存在するバイアス、ジャッジの微調整を調査し、いくつかの解決策を提示しています。彼らの技術は、様々なシナリオでのモデルの一貫性を大幅に向上させ、JudgeLMの信頼性と適応性を高めます。

このAI論文では、GraphGPTフレームワークを紹介しています大規模な言語モデルのテクニックを使って、優れたゼロショット学習のパフォーマンスを実現するために、グラフニューラルネットワークを強化しています

最近の研究「GraphGPT：大規模言語モデルのためのグラフ指示チューニング」では、自然言語処理の分野で特にグラフモデルの文脈で、重要な課題に取り組んでいます。彼らが解決しようとした問題は、グラフモデルの拡張一般化能力の必要性であり、それは広範な適用性の重要な要素です。彼らの革新的なフレームワークであるGraphGPTが導入される前、グラフを扱うためのさまざまな方法とフレームワークが利用可能でしたが、それらはしばしばドメイン固有の構造的知識を言語モデル（LLM）に効果的に組み込むことに苦労していました。これらのモデルは、グラフの構造的な要素を理解し解釈する能力に制約があり、全体的なパフォーマンスに影響を及ぼしていました。研究者たちは、これらの制約に対処するためにGraphGPTという革新的なフレームワークを提案しました。このフレームワークは、双層のグラフ指示チューニングパラダイムとグラフテキストアラインメントプロジェクタを使用して、ドメイン固有の構造的な知識をLLMに注入します。これらの技術の組み合わせにより、LLMがグラフの構造要素を理解する能力が向上し、グラフモデリングにおける重要な進歩が達成されました。提案されたGraphGPTフレームワークは、さまざまな設定での包括的な評価を通じて有望な結果を提供しています。これらの評価は、教師ありおよびゼロショットのグラフ学習シナリオの両方をカバーしています。いずれの場合でも、このフレームワークは、グラフ関連のタスクと学習の向上においてその効果を示しています。この適応性は重要であり、他のモデルにおける致命的な忘却現象から免れずに多様なダウンストリームのデータセットとタスクを処理することができるからです。これらの評価から得られた結果は、GraphGPTがLLMのグラフ関連のタスクの一般化能力を向上させる潜在能力を示しています。さまざまな設定で既存の手法を上回り、そのため、これはこの分野への価値ある追加となります。結論として、GraphGPTの導入はグラフモデリングの領域における重要な進展を表しています。グラフモデルの一般化能力を向上させるという長年の問題に取り組み、ドメイン固有の構造的知識をLLMに組み込む強力な解決策を提供しています。包括的な評価は、教師ありおよびゼロショットのグラフ学習シナリオの両方でこのフレームワークの効果を明確に示しており、グラフデータに依存するさまざまなアプリケーションにおいてその潜在能力を強調しています。今後の展望については、研究者らはモデル全体のサイズを削減し、そのパフォーマンスを保持するための剪定技術の探求を提案しています。これにより、GraphGPTフレームワークの実用性と効率性がさらに向上する可能性があります。全体的に見て、この研究はグラフモデリングの領域での大きな進歩を示し、グラフデータに依存するさまざまなアプリケーションに大きな影響を与えることが期待されます。

このAI論文は、ChatGPTを基にしたテキストデータの拡張アプローチであるAugGPTを提案しています

“`html NLP、または自然言語処理は、言語を使用した人間とコンピュータの対話に焦点を当てたAIの分野です。テキスト分析、翻訳、チャットボット、感情分析などがその多くの応用の一部です。NLPは、コンピュータが人間の言語を理解し、解釈し、生成することを目指しています。最近のNLPの研究では、データの不十分さに対応するための少ないデータ学習（FSL）方法の改善に焦点が当てられています。これらの方法は、アーキテクチャの設計や事前学習言語モデルを通じてモデルの能力を向上させますが、データの品質や数量の制限は依然として存在します。さらに、テキストデータの拡張方法は、サンプルの数の制限に対処するための貴重なツールとして注目されています。シノニムの置換やバックトランスレーションなどのより高度な手法を含む、モデルに依存しないこれらの技術は、NLPのFSL方法を補完し、これらの課題に対する解決策を提供します。同じ文脈において、研究チームは「AugGPT」と呼ばれる新しいデータ拡張手法を紹介する新しい論文を発表しました。この方法は大きな言語モデルであるChatGPTを活用して、少数のフューショットテキスト分類タスクのための補助的なサンプルを生成します。この方法は、限られたデータで訓練されたモデルがわずか数例しかないターゲットドメインで一般化することが期待される少数学習における課題に対応します。提案されているAugGPT方法は、ChatGPTを活用してより多くのサンプルを生成し、テキスト分類のためのトレーニングデータを向上させることを目的としています。具体的には、モデルは比較的大規模なラベル付きサンプルセットを含むベースデータセット（Db）と、わずかなラベル付きデータのみを含む新しいデータセット（Dn）で訓練されます。目標は、新しいデータセットにおいて満足のいく一般化能力を達成することです。AugGPTのフレームワークは、ベースデータセットでBERTを微調整し、ChatGPTを使用して拡張データ（Daugn）を生成し、拡張データでBERTを再度微調整するというものです。データ拡張にはChatGPTが使用され、入力文を追加の文に再表現してフューショットサンプルを増やすことが行われます。フューショットテキスト分類モデルはBERTに基づいており、クロスエントロピーとコントラスティブ損失関数を使用して効果的にサンプルを分類します。AugGPTは、シノニムの置換や文字、単語レベルの置換、キーボードシミュレーションなどの他のデータ拡張手法と比較されます。本方法のプロンプトは、シングルターンとマルチターンの対話に適しており、さまざまなデータセットとシナリオに対して効果的なデータ拡張を可能にします。要約すると、提案されたAugGPTの手法を実行するためには、以下の手順が取られます： 1- データセットのセットアップ：ラベル付きサンプルの大規模なベースデータセット（Db）を作成します。ラベル付きサンプルがわずかしか含まれていない新しいデータセット（Dn）を準備します。 2- BERTの微調整：ベースデータセット（Db）でBERTモデルを微調整し、事前学習言語理解能力を活用します。 3- ChatGPTによるデータ拡張：少数学習のテキスト分類タスクに向けて、大規模な言語モデルであるChatGPTを利用して拡張データ（Daugn）を生成します。 ChatGPTを使用して入力文を言い換え、少数学習サンプルを増やすための追加の文を作成します。このプロセスにより、データの多様性が向上します。 4- 拡張データを使ったBERTの微調整：拡張データ（Daugn）を使ってBERTモデルを微調整し、少数学習分類タスクに適応させます。 5- 分類モデルのセットアップ：…

このAI論文では、新しい個別化留留過程を紹介していますクローズドソース相手からの適応的な学習により、オープンソースLLMsの強化を行います

シンガポールの南洋理工大学とセールスフォース・リサーチの研究者らは、学生モデルの初期の課題解決の試みと教師モデルによる適応的な改善に続くコード生成タスクのための個別の蒸留プロセスを紹介しています。この手法は、データのたった三分の一であっても、標準の蒸留方法を上回る優れた結果を提供します。パーソナライズされた蒸留は、CodeGen-mono-16BとStarCoderの2つのコード生成モデルでテストされ、HumanEvalの評価において大幅なパフォーマンスの向上をもたらしました。本研究は、現代の教育原則に触発された、コード生成タスクのためのパーソナライズド蒸留を紹介しています。このプロセスでは、学生モデルが初めに課題に取り組み、教師モデルから適応的な改善を受けます。パーソナライズド蒸留は、常に標準的な手法を上回り、データの三分の一でより良い結果を達成します。経験的研究は、学生の学習にカスタマイズされたラベルの効果を確認しています。この手法は、CodeGen-mono-16BおよびStarCoderを含むオープンソースの事前学習モデルのパフォーマンスを大幅に向上させ、コード生成タスクの能力を蒸留します。この手法は、ChatGPTやGPT-4などの閉じられたソースの大規模言語モデル（LLM）の利用可能性、コスト、倫理、データプライバシーの懸念点に対処します。個別化された学習原則に触発され、コード生成タスクのためのパーソナライズド蒸留を提案しています。この手法では、学生モデルがタスクに取り組み、実行フィードバックを受け取り、教師モデルのガイダンスをもとに改良します。パーソナライズド蒸留は、標準的な手法を上回り、少ないデータ例で優れた結果を達成し、閉じられたソースのLLMの機能をより小さいオープンソースのLLMに蒸留する解決策を提供します。本研究では、標準的な蒸留（STAND）とパーソナライズド蒸留（PERsD）および入力パーソナライズド蒸留（INPD）の2つのアプローチを比較しました。パープーズDでは、学生が最初にタスクに取り組み、教師からカスタマイズされたフィードバックを受け取る方法を採用しています。データは、事前学習のために、code-alpacaとMBPPのシードタスクから収集されました。パフォーマンスは、pass@1やHumanEvalなどの指標を使用して、メソッドの効果を評価しました。パーソナライズド蒸留は、コード生成タスクにおいてINPDやSTANDなどの標準的な蒸留手法を一貫して上回り、データの三分の一で大幅な改善を実現しました。データが3倍少なかったとしても、パーソナライズド蒸留は16のうち15回でSTANDを上回り、カスタマイズされたラベルの効果的な品質を示しています。PERsD-refineやPERsD-combineモデルにおいて、多段階の推論が回答品質を向上させ、実行エラーフィードバックに基づいて解決策を改善する能力を示しています。パーソナライズされていないラベルとパーソナライズされたラベルを混ぜることは一般的に悪影響を与え、カスタマイズされたタグの高い品質を強調しています。 PERsDは、学生モデルの能力にラベル付けされたデータをカスタマイズする方法を紹介し、より効果的な学習を実現します。PERsDは、HumanEvalとMBPPのデータセットにおいて、コード生成で標準的な蒸留を上回ります。これは、より高いデータ品質、マルチラウンドの蒸留、実行フィードバックによるセルフリファクションの利点によるものです。カスタマイズされたラベルの効果を強調するため、PERsDのバリアントは一貫して非パーソナライズバージョンを上回ります。この手法は、閉じられたソースのLLMの能力をオープンソースモデルに蒸留するという、モデルの蒸留のさらなる進展を示すものです。ファインチューニング中にデータを動的に収集するためのオンラインパーソナライズド蒸留を調査し、学生モデルをより向上させる可能性を探求してください。パーソナライズされた蒸留のスケーラブルな方法を開発し、人間の注釈に頼らない方法を提案し、パーソナライズ化されたラベルと非パーソナライズ化されたラベルを混ぜることの影響という制限に対処してください。パーソナライズド蒸留を他の領域に拡張し、その効果を評価してください。また、閉じられたソースのLLMの能力をオープンソースモデルに蒸留するために使用することも検討し、モデルの蒸留をさらに進めてください。

スカイワーク-13B：3.2Tトークン以上のコーパスから学習された大規模言語モデル（LLM）のファミリーを紹介しますこのコーパスは、英語と中国語のテキストから引用されています

バイリンガルLLMは、言語の多様性が共通の課題となっている相互につながった世界で、ますます重要になっています。彼らは言語の壁を取り払い、異文化理解を促進し、異なる言語を話す人々にとって情報やサービスへのアクセスを向上させる潜在能力を持っています。バイリンガルLLMは、高品質の機械翻訳サービスを提供するために使用することができます。彼らはテキストを一つの言語から別の言語に翻訳し、異なる文化や地域間でのコミュニケーションを円滑にし、言語の壁を取り払うのに役立ちます。これらのモデルの需要の増加に伴い、商業化のトレンドと透明性の必要性が増しています。多くの組織はモデルのチェックポイントを公に利用可能にし、モデルの重要な情報を公開しないという傾向があります。AIの透明性を回復するために、昆仑科技の研究者たちは英語と中国語のテキストから抽出された32兆トークン以上を使用してトレーニングされた大規模な言語モデルのファミリーを構築しました。それは「Skywork-13B」と呼ばれています。 Skywork-13Bファミリーには、Skywork-13B-BaseとSkywork-13BChatが含まれています。ベースは最新の中国語言語モデリング能力を持つ強力な基礎モデルであり、チャットは会話に最適化された調整済みバージョンです。他の組織とは異なり、彼らはトレーニングプロセスとデータ構成に関する詳細な情報を公開しています。彼らはまた、トレーニング中にモデルの能力がどのように発展するかを理解するための貴重なリソースである中間チェックポイントも公開しました。彼らはこの開示によって、他の研究者が彼らのユースケースにチェックポイントを活用できると信じています。彼らはまた、トレーニング段階でのドメイン内データの使用レベルを検出する新しい方法も開発しました。チームはSkywork-13B基盤モデルをSkyPileでトレーニングしました。それらはSkyPile全体ではなく、2つのステージのトレーニングアプローチを追いました。最初のステージでは、SkyPile-Mainでモデルをゼロからトレーニングする主要な事前トレーニングフェーズを構成します。 2番目のステージでは、SkyPile-STEMでSTEM関連のドメイン知識と問題解決能力を最適化するために継続的な事前トレーニングを行います。モデルのトレーニング中に、チームは多数のバリデーションセットでの言語モデリング損失を調べました。それぞれが中国語と英語のコード、学術論文、ソーシャルメディアの投稿、およびウェブテキストによる異なるデータ分布を反映する独自のバリデーションセットを作成しました。彼らは、このアプローチに従うことが、構成の容易さ、計算の簡素さ、トレーニングの進行に対する高い感度、およびモデルに対する無関心さをもたらすと述べています。 Skywork-13Bモデルは、全体的に最も優れたパフォーマンスを示しています。平均的なPerplexityスコアが最も低い9.42を獲得しました。また、テック、映画、政府、および金融のドメインで最も優れたパフォーマンスを発揮しています。それは同じサイズのモデルのパフォーマンスを超えるだけでなく、InternLM-20BやAquila2-34Bなどのはるかに大きなモデルを大きく上回る優れた成績を収めています。

このAI論文は、医療の視覚的な質問応答におけるGPT-4Vの性能について包括的な分析を紹介します：洞察と限界

リハイ大学、マサチューセッツ総合病院、ハーバード医学大学の研究者チームが最近、最先端のマルチモーダル言語モデルであるGPT-4Vをビジュアルクエスチョンアンサリングタスクにおいて詳細な評価を行いました。この評価は、テキストとビジュアルの入力を必要とする複雑なクエリを処理するモデルの総合的な効率とパフォーマンスを評価することを目的としています。研究の結果は、GPT-4Vが自然言語処理とコンピュータビジョンの応用において持つ潜在能力を明らかにしています。最新の研究に基づくと、現時点のGPT-4Vのバージョンは、信頼性のない、最適化されていない応答のため、実践的な医療診断には適していません。GPT-4Vはテキストの入力に大きく依存しており、これがしばしば不正確な結果をもたらします。この研究は、GPT-4Vが教育的なサポートを提供できることや、異なるクエスチョンタイプや複雑さのレベルに対して正確な結果を生み出すことを強調しています。しかし、GPT-4Vがより効果的になるためには、より正確で簡潔な応答が必要とされます。このアプローチは、医学のマルチモーダル性を強調し、臨床医が医学画像、臨床ノート、検査結果、電子健康記録、ゲノムなど、さまざまなデータタイプを統合しています。さまざまなAIモデルがバイオメディカル応用において有望な成果を示していますが、多くは特定のデータタイプやタスクに合わせて調整されています。また、ChatGPTの潜在能力も示しており、患者や医師に有益な情報を提供する可能性があります。それは、複数の医療専門家が診断に失敗した後に正確な診断結果を出したケースの一例です。 GPT-4Vの評価では、関連する画像と共に質問が提示される病理学および放射線学のデータセットを使用し、11のモダリティと15の対象をカバーしています。テキストのプロンプトは、GPT-4Vがビジュアルとテキスト情報を効果的に統合するために慎重に設計されています。評価では、各QAケースに対して別々のチャットセッションを開始し、公平な結果を確保するためにGPT-4Vの専用チャットインターフェースを使用します。パフォーマンスは閉じられた質問と開かれた質問を含む正確さの指標を用いて量化されます。医療ドメインのビジュアルクエスチョンアンサリングタスクを含むGPT-4Vの実験結果は、現時点のバージョンが実世界の診断応用により適している可能性があり、診断医学的なクエリに対しては信頼性が低く、精度も低い特徴を持っていると示しています。GPT-4Vは常に曖昧な場合には医療専門家との直接相談を求めるようアドバイスしており、専門的な医療ガイドと慎重な医療分析の重要性を強調しています。この研究は、GPT-4Vの医療ビジュアルクエスチョンアンサリングタスクにおける制約を包括的に検討する必要があります。それは、CT画像内のサイズの関係や文脈上の輪郭の解釈にGPT-4Vが苦労するという具体的な課題を挙げています。GPT-4Vは画像のマーキングを過度に強調し、これらのマーキングのみに基づくクエリの差別化にも支援が必要です。現在の研究には、複雑な医療問い合わせの扱いや詳細な回答の提供に関連する制約に明確に取り組む必要があります。結論として、GPT-4V言語モデルは医療診断においては信頼性がなく、また十分に正確ではありません。限界点が強調され、精度の高い結果を保証するために医療専門家との協力が必要です。明確かつ包括的な回答を得るためには、専門家の助言と医療専門家との相談が必要です。GPT-4Vは不確実性のある場合には専門家のガイダンスの重要性を常に強調します。

オープンAIによるこの動きは、AGIへの道を開くだろう

人工知能（AI）の能力向上を目指した画期的な取り組みの一環として、OpenAIはデータパートナーシップイニシアチブを発表しました。このプログラムは、世界の組織との協力を招き、包括的な公共およびプライベートデータセットの共同構築を目指してAIモデルのトレーニングを強化し、AGIへの道を切り拓くことを目的としています。多様なトレーニングデータセットの必要性現代のAIの基盤は、人間社会の複雑さを理解する能力にあります。OpenAIは、さまざまな主題、産業、文化、言語を深く理解するAIモデルの作成の重要性を強調しつつ、トレーニングデータセットの幅広さと深さがこれを実現する鍵であることを認識しています。既存のパートナーとの協力 OpenAIは、国や産業に特化したデータの貢献に熱心な複数のパートナーと緊密に協力しています。アイスランド政府やMiðeind ehfとの最近の連携では、AIに適したキュレートされたデータセットを統合することで、GPT-4のアイスランド語能力を向上させる取り組みが行われています。さらに、OpenAIはFree Law Projectと提携し、法的理解へのアクセスを民主化するために広範な法的文書のコレクションをAIのトレーニングに組み込んでいます。 OpenAIが求めるデータの種類 OpenAIは、人間社会を反映し、オンラインでは簡単に入手できない大規模なデータセットを積極的に求めています。テキスト、画像、音声、ビデオなど、さまざまなモダリティのデータを対象とし、言語、トピック、形式にわたる人間の意図を伝えるデータセットに特に関心を持っています。パートナーシップの機会と方法 OpenAIは、組織がこの革新的な取り組みに貢献するための2つの方法を提供しています: オープンソースアーカイブ：OpenAIは、言語モデルのトレーニング用のオープンソースデータセットの共同作成パートナーを募集しています。このデータセットは一般に公開され、より広範なAIエコシステムに貢献します。プライベートデータセット：データを機密に保ちながらAIモデルの理解を向上させたい組織に対して、OpenAIはプライベートデータセットの作成オプションを提供しています。OpenAIは、最高水準の機密性とアクセス制御を確保し、データの機密性を保ちながらAIの進歩の恩恵を受けることができるよう支援します。私たちの意見 OpenAIのデータパートナーシップイニシアティブは、AIの進歩を民主化するための重要な一歩です。組織が独自のデータセットを共有することを奨励することで、OpenAIはより安全で人類にとって有益なモデルを作り出すことを目指しています。この協力的な取り組みは、真にグローバルなコミュニティに奉仕する人工汎用知能（AGI）を実現する旅路における転換点を示しています。OpenAIは、潜在的なパートナーがAI研究の未来を形作るために手を結ぶことと、私たちの世界を包括的に理解するモデルの開発に貢献することを歓迎しています。

中国のこのAI論文は、ダイナミックなSLAM環境における革新的な時間変動NeRFアプローチを紹介しています：トラッキングとマッピングの精度を向上させる

コンピュータビジョンとロボット工学において、同時の位置推定と地図作成（SLAM）システムは、機械が周囲の環境をナビゲートし理解することを可能にします。ただし、動的環境の正確なマッピング、特に移動オブジェクトの再構築は、従来のSLAM手法にとって大きな課題でした。最近のブレイクスルーでは、研究チームがニューラルインプリシット表現を動的領域で活用する画期的なソリューション、TiV-NeRFフレームワークを導入し、密なSLAM技術を革新しています。事前学習モデルへの依存を軽減し、重複率に基づく革新的なキーフレーム選択戦略を取り入れることで、この手法は3D環境理解と再構築の重要な進歩となります。従来の手法の限界に取り組むため、中国の研究者チームは、3D空間位置を4Dの時空間位置に拡張する革新的な戦略を採用しました。この時間変動表現をSLAMシステムに統合することで、環境内の動的オブジェクトのより正確な再構築が可能になります。このイノベーションは、動的シーンの正確で包括的なマッピングのための新たな可能性を開拓する、この分野における大きな進歩です。提案手法の主なハイライトの一つは、重複率に基づくキーフレーム選択戦略の導入です。従来の手法とは異なり、この戦略により、より頑健で安定した再構築プロセスが可能となり、従来のSLAMシステムによく見られるゴーストトレイル効果やギャップの問題が軽減されます。現在のフレームとキーフレームデータベースとの重複率を正確に計算することで、システムはより包括的で正確な動的オブジェクトの再構築を実現し、SLAM分野における新たな基準を設定します。提案手法は合成データセットで有望なパフォーマンスを示していますが、研究チームはさらなる実世界のシーケンス評価の必要性を認識しています。高速な動的オブジェクトが存在する環境は、カメラ姿勢推定の正確さに影響を与える可能性があります。そのため、チームはシステムのパフォーマンスを改善し、これらの課題に効果的に対応するための継続的な研究の重要性を強調しています。この革新的な手法は、既存の手法がもたらす制限に対する有望な解決策を提供することにより、密なSLAMにおける注目すべき進展を示しています。ニューラルインプリシット表現を活用し、重複率に基づくキーフレーム選択戦略を実装することで、研究チームは動的シーンのより正確で包括的な再構築の道を切り拓きました。ただし、現在の限界を認識しつつも、より広範な実世界の評価と、高速移動するオブジェクトを持つ動的環境におけるカメラ姿勢推定の改善が求められるため、今後の発展と実際のシナリオへの適用の可能性には大いなる期待が寄せられます。まとめると、この研究は動的環境と包括的なオブジェクト再構築に重点を置いたSLAMシステムの進化において、大きな前進です。提案手法のニューラルインプリシット表現と効率的な重複率に基づくキーフレーム選択戦略は、動的シーンの取り扱いにおいてより頑健で安定したアプローチを提供し、SLAMシステムのパラダイムの転換を象徴しています。現在の制限はあるものの、実世界のシナリオにおける評価の拡充と、動的環境におけるカメラ姿勢推定の向上の可能性は、密なSLAM技術の将来において大きな期待を持っています。

このAI研究は、単一の画像を探索可能な3Dシーンに変換する、パノラマニックNeRF（PERF）を紹介します

NeRFは、2D画像から3Dシーンの再構築と視点合成を行うためのディープラーニング技術です。正確な3D表現を構築するには、通常、複数の画像やシーンのビューが必要です。NeRFは、異なる視点から撮影されたシーンの一連の画像を使用します。NeRFには、NeRF-Wなどの拡張や改良があり、より効率的で正確、さまざまなシナリオ、ダイナミックなシーン、リアルタイムのアプリケーションにも適用可能にすることを目指しています。その派生物は、コンピュータビジョン、コンピュータグラフィックス、3Dシーンの再構築の分野に大きな影響を与えました。ただし、単一の画像があり、3Dの先行知識を組み込みたい場合、3D再構築の品質を向上させる必要があります。現在の技術は視野を制限するため、実世界の360度パノラマシナリオで大きなサイズを持つスケーラビリティを大幅に制限しています。研究者たちは、PERFと呼ばれる360度新規ビュー合成フレームワークを提案しています。Panoramic Neural Radiance field（パノラミックニューラルラディエンスフィールド）の略称です。彼らのフレームワークは、単一のパノラマからパノラミックニューラルラディエンスフィールドをトレーニングします。パノラマイメージは、複数の画像を取り込んで、しばしば順番に撮影し、それらを縫い合わせて風景、都市景観、または他のシーンの無接続で広角の表現を形成することによって作成されます。研究チームは、訓練済みのStable Diffusion for RGB inpaintingを使用して、可視領域のRGBイメージと深度マップを補完するための共同RGBD inpainting手法を提案しています。また、入力パノラマからは見えない新しい外観と3D形状を生成するためのモノキュラーデプスエスティメータも訓練しました。単一のパノラマからパノラミックニューラルラディエンスフィールド（NeRF）をトレーニングすることは、3D情報の欠如、大型オブジェクトの遮蔽、再構築と生成の関連問題、そしてインペイント中の可視領域と不可視領域の間のジオメトリの競合という課題に直面しています。これらの問題に対処するために、PERFは次の三つのステップから成り立っています：1）デプススーパビジョンによる単一ビューNeRFトレーニングの取得；2）ROIのRGBD inpaintingの共同作業；3）プログレッシブなインペイントとイレースのジェネレーションの使用。 ROIの予測されたデプスマップを最適化し、全体的なパノラマシーンと一貫性を持たせるために、彼らはインペイントとイレースの手法を提案しています。この手法では、不可視領域をランダムな視点からインペイントし、他の参照ビューから観測されるジオメトリの競合領域を消去することで、より良い3Dシーン補完を実現します。研究者たちはReplicaデータセットとPERF-in-the-wildデータセットで実験を行いました。PERFは、新たなシングルビューパノラミックニューラルラディエンスフィールドの最新の状態であることを示しています。彼らはPERFがパノラマから3D、テキストから3D、3Dシーンのスタイル化のタスクに応用でき、いくつかの有望なアプリケーションで驚くべき結果が得られると述べています。 PERFはシングルショットNeRFの性能を大幅に向上させますが、デプスエスティメータとStable Diffusionの正確性に大きく依存します。したがって、チームは将来的な取り組みとして、デプスエスティメータと安定したディフュージョンモデルの正確性を向上させると述べています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us