Learn more about Search Results MarkTechPost - Page 17

このAIペーパーは、さまざまなタスクでChatGPTに追いついたり超えたりすると主張するオープンソースの大規模言語モデルの詳細なレビューを公開しています

昨年のChatGPTのリリースは、人工知能コミュニティを驚かせました。最新の大規模言語モデルであるGPTのトランスフォーマーアーキテクチャに基づいて開発されたChatGPTは、学術および商業アプリケーションの両方に大きな影響を与えています。このチャットボットは、リインフォースメントラーニングフロムヒューマンフィードバック（RLHF）の能力を利用し、監視付きのファインチューニングを通じて指示を調整することで、簡単に人間に応答し、コンテンツを生成し、クエリに答え、さまざまなタスクを実行することができます。最近の研究では、シンガポール国立大学（NTU）、SalesForce AI、I2Rの研究者チームが、オープンソースの大規模言語モデル（LLM）の最新研究をまとめ、さまざまなコンテキストでChatGPTと同等またはそれ以上のパフォーマンスを発揮するモデルの完全な概要を提供するために広範な調査を行いました。ChatGPTのリリースと成功により、学界と産業界の両方で、この分野に専念したスタートアップから生まれた新しいLLMが豊富に見られるなど、LLM関連の追求が盛んになりました。 AnthropicのClaudeのようなクローズドソースのLLMは一般的にオープンソースの対抗モデルよりも優れているものの、OpenAIのGPTなどのモデルはより速く進化してきました。特定のタスクで同等またはそれ以上のパフォーマンスを達成するという主張が増えており、これによりクローズドソースモデルの歴史的な優位性が危うくなっています。研究の観点から、新しいオープンソースのLLMの連続的なリリースとそれらの成功が、これらのモデルの強みと弱点を再評価することを余儀なくさせています。オープンソースの言語モデリングソフトウェアの進展は、言語モデルを組織の運営に取り入れたい企業にとって、ビジネスに関連する課題を提供しています。独自の代替品と同等またはそれ以上のパフォーマンスを得る可能性のおかげで、企業は独自の要件に最適なモデルを選択するためにより多くの選択肢を持つようになりました。チームは、調査の貢献を特徴づけるために使用できる3つの主要なカテゴリを共有しました。評価のまとめ：調査では、オープンソースのLLMがChatGPTとどのように異なるかについて客観的かつ包括的な視点を提供するために、さまざまな評価をまとめました。この総合は、オープンソースのLLMの利点と欠点を読者に包括的に理解させます。モデルのシステマティックなレビュー：ChatGPTと同等またはそれ以上のパフォーマンスを発揮するオープンソースのLLMが、さまざまなタスクで調査されました。さらに、チームはリアルタイムで更新されるウェブページを共有しました。これにより、読者は最新の変更を確認できます。これは、オープンソースのLLMの開発のダイナミックな性質を反映しています。助言と洞察：レビューや評価に加えて、調査はオープンソースのLLMの進化に影響を与えるパターンについての洞察力のある情報を提供しています。また、これらのモデルの潜在的な問題を探求し、オープンソースのLLMを教育するためのベストプラクティスについても議論しています。これらの結果は、企業セクターと学術コミュニティの両方に対して、既存のコンテキストと将来の可能性について詳細な視点を提供しました。

「SceneTexをご紹介：屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」

高品質の3Dコンテンツ合成は、自動運転、ロボットシミュレーション、ゲーム、映画製作、将来のVR / ARシチュエーションなど、多くのアプリケーションにとって重要かつ困難な問題です。 3Dジオメトリ生成のトピックは、3Dコンテンツデータセットの利用可能性により、コンピュータビジョンとグラフィックスコミュニティからの研究の関心の高まりを見てきました。 3Dジオメトリモデリングは長い道のりを歩んできましたが、アイテムのルックスやテクスチャを作成するには、依然として多くの人的労働が必要です。開発と編集にはかなりの時間がかかり、Blenderなどのプログラムを使用した3Dモデリングの経験が求められます。そのため、人間の技能への高い需要と関連するコストは、自律的なテクスチャデザインと拡張が完全な産業化に達することを妨げてきました。テキストから3D作成の分野では、特に事前定義された形態のテクスチャ合成において、最新の2D拡散モデルの発展を利用して大きな進展がありました。 Text2TexとLatent-Paintの2つの画期的な作品は、高品質のオブジェクトの外観を生み出し、入力プロンプトから高品質なテクスチャ合成を可能にしました。これらのアプローチは、単一のアイテムに対して興味深い結果を生み出しますが、シーンのテクスチャを生成するためにスケールアップすることはまだいくつかの困難をもたらします。一方、2Dビューを3Dオブジェクト表面に逐次的に変形する自己回帰アルゴリズムでは、テクスチャの継ぎ目、蓄積されたアーティファクト、ループクロージャの問題などが一般的な問題です。画像全体でスタイルの一貫性を保つことは、各オブジェクトごとにテクスチャが存在する場合には難しいです。逆に、スコア蒸留ベースの方法を使用して低解像度の潜在空間でテクスチャ最適化が行われるため、誤ったジオメトリの詳細とかすんだRGBテクスチャが生じる場合があります。したがって、従来のテキスト駆動型アプローチでは、高品質の3Dシーンテクスチャを生成することはできません。ミュンヘン工科大学とSnap Researchの研究チームは、シーンテクスという独自の設計を提案し、深度から画像への拡散事前知識を使用して、内部シーンメッシュの高品質かつスタイルの一貫性のあるテクスチャを生成することで、上記の問題を克服します。研究チームは、テクスチャの作成を既存の技術とは異なり、RGB空間でテクスチャの最適化課題としてフレーム化するという独自の戦略を採用しています。基本的に、研究グループは、メッシュの外観を微妙に描写するための多解像度テクスチャフィールドを導入します。研究チームは、多解像度テクスチャを使用して、テクスチャの詳細を正確に描写するために複数のサイズでテクスチャ要素を保持します。その結果、彼らの設計では、低周波数と高周波数で適応的に外観情報を学習することができます。研究チームは、自己遮蔽によるスタイルの不整合を軽減するためにクロスアテンションデコーダを使用し、作成されたテクスチャのスタイルの一貫性を確保します。具体的には、各デコードされたRGB値は、各オブジェクトに分散されたプリサンプルされた参照面の位置と相互参照することで生成されます。各可視場所が全体のインスタンスルックに対してグローバルな参照を受けるため、研究チームは各モデル内でグローバルなスタイルの一貫性をさらに保証することができます。研究チームは、SceneTexが言語信号に基づいて内部シーンの正確な柔軟なテクスチャ作成を可能にすることを示しています。…

「Perplexity（パープレキシティ）が2つの新たなオンラインLLMモデルを発表：『pplx-7b-online』と『pplx-70b-online』」

パープレキシティ（Perplexity）は、革新的なAIスタートアップとして、情報検索システムを変革する解決策を発表しました。このローンチでは、革新的なLLM（Large Language Models）の2つ、pplx-7b-onlineとpplx-70b-onlineが公にアクセス可能なAPIを介して導入されました。これらのモデルは、Claude 2などの従来のオフラインLLMとは異なり、ライブインターネットデータを活用してリアルタイムで正確なクエリの応答を実現するため、最新のスポーツスコアなどの最新情報といった即座の情報に対する課題を克服しています。パープレキシティのpplxオンラインモデルがAIの領域で差別化される要因は、APIを介して提供されるユニークなオファーにあります。Google Bard、ChatGPT、BingChatなどの既存のLLMは、オンラインブラウジングで進歩を遂げていますが、APIを介してこの機能を拡張しているものはありません。パープレキシティは、社内の検索インフラストラクチャにこの機能を帰属し、信頼性のある情報源を優先し、高度なランキングメカニズムを活用してリアルタイムに関連性の高い信頼性のある情報を提示するための幅広い優れたウェブサイトのリポジトリをカバーしています。これらのリアルタイムの「スニペット」はLLMに統合され、最新の情報を容易に反映しています。両モデルは、mistral-7bベースモデルとllama2-70bベースモデルに基づいて構築されています。特筆すべきことに、Perplexity AIは、最先端のテクノロジーと統合するだけでなく、最適なパフォーマンスを引き出すためにこれらのモデルを細かく調整しています。この注意深いプロセスでは、社内データ請負業者によってキュレートされた多様なトップクラスのトレーニングセットを活用しています。この継続的な改善作業により、モデルは助けになり、事実性と新鮮さの面で優れた性能を発揮します。これらのモデルの効果を検証するために、Perplexity AIは、助けになり、事実性、最新の情報性などの要素を評価する多様なプロンプトを使用して包括的な評価を実施しました。これらの評価では、オープンAIのgpt-3.5やメタAIのllama2-70bなどの主要なモデルとの比較を行い、全体的なパフォーマンスと特定の基準に焦点を当てました。これらの評価の結果は印象的です。pplx-7b-onlineおよびpplx-70b-onlineは、鮮度、事実性、総合的な好みの面で、対応する他のモデルを常に上回っています。例えば、鮮度の基準では、pplx-7bとpplx-70bは、gpt-3.5とllama2-70bを上回る1100.6と1099.6の推定Eloスコアを獲得しました。即座に、開発者はPerplexityのAPIにアクセスして、これらのモデルのユニークな機能を活用したアプリケーションを作成することができます。価格体系は利用料に基づいており、早期テスター向けの特別プランも用意されています。このパイオニア的なリリースにより、PerplexityはAIによる情報検索システムに革新的な変革をもたらしています。pplx-7b-onlineとpplx-70b-onlineモデルがアクセス可能なAPIを介して導入され、既存のオフラインLLMの制約を解消し、正確かつ最新の事実性のある情報の提供で優れたパフォーマンスを発揮しています。 pplx-apiでの開始はこちら。 Perplexity Labsでオンラインモデルを無料で試す。この記事は、PerplexityがオンラインLLMモデル2つを発表：「pplx-7b-online」と「pplx-70b-online」記事から取得されました。MarkTechPostから転載されました。

ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した

NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に取り組みました。DobbEはユーザーのデモンストレーションから学習し、適応することができるシステムです。実験では、システムの効率性が示されましたが、現実の環境でのユニークな課題も浮き彫りにされました。この研究は、ロボットのデータセットの大量収集に関する最近の進歩を認識し、家庭や第一者のロボットとの相互作用に焦点を当てたデータセットのユニークさを強調しています。iPhoneの機能を活用して、このデータセットは高品質のアクションとレアな深度情報を提供します。既存の自動操作に焦点を当てた表現モデルに比べ、汎用的な表現のためのドメイン内での事前学習が重視されています。さらなる改善のために、ロボット以外の家庭のビデオからのドメイン外情報をデータセットに追加することを提案し、その研究の可能性を認めています。序文では、包括的な家庭用アシスタントの構築における課題に取り組み、制御された環境から実際の家庭への転換を主張しています。効率性、安全性、ユーザーの快適さが強調され、これらの原則を体現するフレームワークとしてDobbEが紹介されています。大規模なデータと最新の機械学習を利用した効率性、安全性のための人間のデモンストレーション、ユーザーの快適さのためのエルゴノミックなツールを組み合わせて、ハードウェア、モデル、アルゴリズムをHello Robot Stretchの周りに統合しています。ニューヨークの家庭データセット、22の家庭からの多様なデモンストレーション、ビジョンモデルのための自己教師あり学習手法も議論されています。この研究では、行動複製フレームワークを用いてDobbEを訓練し、人間やエキスパートエージェントの振る舞いを模倣します。設計されたハードウェアセットアップにより、異なる家庭のデータ、iPhoneのオドメトリなどを活用してデモンストレーションの収集とロボットに転送がスムーズに行われます。基礎モデルはこのデータで事前学習されます。訓練されたモデルは実際の家庭でテストされ、視覚表現、必要なデモンストレーション、深度知覚、デモンストレータの専門知識、パラメトリックポリシーの必要性など、システムの異なるコンポーネントを評価するアブレーション実験が行われます。 DobbEは、5分のデモンストレーションと15分のHome Pretrained Representationsモデルの適応のみで、未知の家庭環境で81％の成功率を示しました。10の異なる家庭で30日間にわたって、DobbEは109のタスクのうち102を成功裏に学習し、ビジュアル表現にはResNetモデル、アクション予測には2層ニューラルネットワークなど、シンプルながらパワフルな方法の効果を証明しました。タスクの達成時間と難易度は回帰分析によって分析され、アブレーション実験ではグラフィカル表現やデモンストレータの専門知識など、異なるシステムコンポーネントが評価されました。結論として、DobbEはさまざまな家庭環境でテストされた費用対効果の高い多目的なロボット操作システムで、驚異的な81％の成功率を示しました。DobbEチームは、システムのソフトウェアスタック、モデル、データ、ハードウェア設計を自由にオープンソース化し、家庭用ロボットの研究の推進とロボット執事の広範な普及を促進しています。DobbEの成功は、行動複製やアクション予測のための2層ニューラルネットワークなど、パワフルでシンプルな手法によるものです。実験はまた、照明条件や影がタスクの実行に影響を与える課題についての示唆も提供しました。

「PepCNNという名のディープラーニングツールを紹介します：シーケンス、構造、言語モデルの特徴を使用してタンパク質中のペプチド結合残基を予測するためのものです」

Griffith University、RIKEN Center for Integrative Medical Sciences、Rutgers University、および東京大学の研究者によって開発された深層学習モデルPepCNNは、タンパク質-ペプチド結合残基の予測問題に取り組んでいます。構造と配列ベースの情報を組み合わせることで、PepCNNは特異性、精度、およびAUCの指標で他の手法を上回り、タンパク質-ペプチド相互作用の理解と薬剤発見の努力を進めるための貴重なツールとなっています。タンパク質-ペプチド相互作用の理解は、細胞プロセスやがんなどの疾患メカニズムにおいて重要であり、実験手法が資源密度の高いため、計算手法が必要とされます。構造ベースと配列ベースに分類される計算モデルは代替手段を提供します。 PretCNNは、事前に学習されたタンパク質の言語モデルと露出データからの特徴量を利用し、以前の手法を上回る性能を発揮し、タンパク質-ペプチド相互作用の予測精度の向上におけるその特徴セットの重要性を強調しています。タンパク質-ペプチド相互作用とその細胞プロセスおよび疾患メカニズムにおける役割のより深い理解を得るためには、計算手法が必要です。構造ベースおよび配列ベースのモデルが開発されていますが、相互作用の複雑さにより正確性は課題となっています。PepCNNは、構造と配列ベースの情報を統合してペプチド結合残基を予測することで、既存の手法と比較して優れたパフォーマンスを発揮します。PepCNNは既存の手法と比較して優れたパフォーマンスを発揮し、薬剤発見の努力を支援し、タンパク質-ペプチド相互作用の理解を進めるための有望なツールです。 PepCNNは、半球露光、位置特異的スコア行列、および事前学習されたタンパク質言語モデルからの埋め込みなどの革新的な手法を利用して、PepBCLを含む9つの既存の手法と比較して優れた結果を達成します。その優れた特異性と精度が際立ち、そのパフォーマンスは他の先端的な手法を上回ります。これらの進歩は提案手法の効果を強調しています。深層学習に基づく予測モデルPepCNNは、PepBCLを含むさまざまな手法を上回り、特異性、精度、およびAUCが高くなりました。2つのテストセットで評価された後、PepCNNは特にAUCで著しい改善が見られました。結果は、感度が0.254、特異性が0.988、精度が0.55、MCCが0.350、およびAUCが0.843であることを示しています。今後の研究では、2D CNNアーキテクチャと転移学習技術の適用を促進するためにDeepInsightテクノロジーを統合することが目標とされています。結論として、PepCNNという高度な深層学習予測モデルは、主要なタンパク質配列からの構造および配列ベースの情報を取り入れ、特異性、精度、およびAUCにおいて既存の手法を上回り、TE125およびTE639のデータセットでのテストによって示されています。今後の研究では、DeepInsightテクノロジーの統合によるパフォーマンスの向上を目指し、2D CNNアーキテクチャと転移学習技術の適用を可能にすることが進められます。

「3Dシーン表現の境界を破る：新しいAIテクニックによる高速かつ効率的なレンダリングとストレージ要件の削減によるゲームの変革」

NeRFは、連続的な3Dボリュームとしてシーンを表します。離散的な3Dメッシュやポイントクラウドの代わりに、シーン内の任意の3Dポイントの色と密度の値を計算する関数を定義します。異なる視点からキャプチャされた複数のシーン画像でニューラルネットワークをトレーニングすることにより、NeRFは観測された画像と整合性のある正確な表現を生成する方法を学習します。 NeRFモデルがトレーニングされると、任意のカメラの視点からシーンの写真のような新しいビューを合成し、高品質のレンダリング画像を作成できます。NeRFは、従来の3D再構築方法では難しい複雑な照明効果、反射、透明性を含む高忠実度のシーンの詳細を捉えることを目指しています。 NeRFは、高品質な3D再構築とシーンの新しいビューのレンダリングにおいて有望な結果を示し、コンピュータグラフィックス、仮想現実、拡張現実などの分野で精度の高い3Dシーン表現が重要なアプリケーションに役立つものとなっています。ただし、大規模かつ詳細なシーンをキャプチャするために、NeRFは記憶容量や処理能力の要件による計算上の課題も抱えています。 3Dガウス描画では、高品質のレンダリング画像を維持するために多数の3Dガウスが必要とされ、これには多大なメモリとストレージが必要とされます。ガウス点の数を削減しながら性能を犠牲にせずにガウス属性を圧縮することは効率を高めます。成均館大学の研究者は、高いパフォーマンスを保持しながらガウスの数を大幅に削減する学習可能なマスク戦略を提案しています。また、彼らは球面調和関数に頼らず、グリッドベースのニューラルフィールドを使用することで、ビュー依存の色のコンパクトで効果的な表現を提案しています。彼らの研究は、高いパフォーマンス、高速トレーニング、コンパクトさ、リアルタイムの描画を実現する3Dシーン表現の包括的なフレームワークを提供します。彼らは実際のシーンや合成シーンを含むさまざまなデータセットでコンパクトな3Dガウス表現を幅広くテストしています。データセットに関係なく、実験全体で、3Dガウス描画と比較してストレージが10倍以上削減され、シーン表現の品質を維持しながら描画速度が向上することが一貫して確認されました。ポイントベースの手法は3Dシーンの描画に広く使用されています。最も単純な形式はポイントクラウドです。しかし、ポイントクラウドは穴やエイリアシングなどの視覚的なアーティファクトを引き起こす可能性があります。研究者たちは、ポイントをラスタ化ベースのポイントスプラッティングと微分可能なラスタ化を介して処理することによってこれを軽減する点ベースのニューラルレンダリング手法を提案しました。 NeRFの未来は、3Dシーンの理解とレンダリングを革新する可能性を秘めており、現在の研究の取り組みがさらなる範囲を拡大し、効率的でリアルなさまざまなドメインでの応用を可能にすることが期待されています。

「マイクロソフトの研究者が提案するMAIRA-1：胸部X線写真（CXR）から放射線報告書を生成するための放射線学専用マルチモーダルモデル」

Microsoftの研究チームは、MAIRA-1と呼ばれる放射線学に特化したマルチモーダルモデルを開発することで、胸部X線画像（CXR）のための高品質なレポートの生成問題に取り組みました。このモデルは、CXRに特化した画像エンコーダと、Vicuna-7Bに基づく微調整されたLLMを利用し、Findingsセクションに焦点を当てたテキストベースのデータ増強を行います。この研究は、課題を認識し、将来のバージョンでは現在と過去の研究情報を取り入れて情報の錯覚を減らすことを提案しています。研究で探求されている既存の手法は、PaLMやVicuna-7Bなどのマルチモーダル機能を持つLLMを使用して、胸部X線写真から叙述的な放射線学のレポートを作成することです。評価プロセスには、ROUGE-LやBLEU-4といった従来のNLPメトリックや、臨床的に関連のある側面に焦点を当てた放射線学固有のメトリックが含まれます。この研究は、所見の詳細な説明を提供することの重要性を強調しています。現在の評価手法の制約にも対処しながら、機械学習が放射線学のレポート生成において持つ可能性を示しています。 MAIRA-1の方法は、ビジョンと言語モデルを組み合わせて、胸部X線写真から詳細な放射線学レポートを生成します。このアプローチは、臨床的なレポート生成の特定の課題に対応し、品質と臨床的な関連性を測定するメトリックを使用して評価されます。研究結果は、MAIRA-1の方法が放射線学レポートの正確さと臨床的な有用性を向上させることができることを示しており、医学画像の機械学習における進歩を表しています。提案されたMAIRA-1は、胸部X線写真のための放射線学に特化したマルチモーダルモデルです。このモデルは、CXR画像エンコーダ、学習可能なアダプタ、および微調整されたLLM（Vicuna-7B）を利用して、画像と言語を融合させ、レポートの品質と臨床的な有用性を向上させます。さらに、追加のレポートのためにGPT-3.5を使用したテキストベースのデータ増強を行います。評価メトリックには、従来のNLP指標（ROUGE-L、BLEU-4、METEOR）と放射線学固有の指標（RadGraph-F1、RGER、ChexBertベクトル）が含まれ、臨床的な関連性を評価します。 MAIRA-1は、胸部X線レポートの生成において、RadCliQメトリックや放射線科医に合致した語彙メトリックの向上を示しました。モデルの性能は所見のクラスによって異なり、成功と課題が観察されました。MAIRA-1は、通常の評価手法では捉えられない微妙な不具合モードを効果的に解明し、言語上と放射線学固有の側面をカバーする評価メトリックによって示されました。MAIRA-1は胸部X線レポートの包括的な評価を提供します。まとめると、MAIRA-1は、ドメイン固有の画像エンコーダと的確かつ正確に微妙な所見を特定する能力を備えた既存のモデルを上回る、胸部X線レポートの生成において非常に効果的なモデルです。ただし、既存の手法の制約と臨床的な文脈の重要性を評価することも重要です。モデルの改善のためには、多様なデータセットと複数の画像を考慮する必要があります。 MAIRA-1の将来の発展では、GPT-3.5と前回の作業で示されているように、現在のおよび以前の研究からの情報を取り入れてレポートの錯誤を軽減することができるようになるかもしれません。クリニカルエンティティの抽出における外部モデルへの依存に対処するために、将来の取り組みでは強化学習アプローチを検討することができます。より大規模かつ多様なデータセットでの強化トレーニングや複数の画像と視点の考慮を進め、MAIRA-1の性能をさらに高めることが推奨されます。

「Meditronを紹介：LLaMA-2に基づいたオープンソースの医学用大規模言語モデル（LLM）のスイート」

大規模言語モデル（LLMs）の最もエキサイティングな応用の1つは、医学分野であり、その使用例には医学研究、カスタマイズされたヘルスプラン、臨床診断などが含まれます。ただし、この分野が安全上の問題であるため、これらのモデルをさまざまな用途でストレステストして安全に使用できることを確認する必要があります。さらに、これらのモデルは、公開されて検証を可能にする必要があります。そのため、研究者グループは、LLMa-2に基づき、ドメイン適応されたMediTronというLLMのセットを公開しました。モデルには7Bパラメータのバリアントと70Bのバリアントがあります。MediTronは、RLHFまたはインストラクションチューニングを使用して特定の下流タスクに使用できる基礎モデルであり、その使用例には医学試験の質疑応答、一般的な健康に関する問い合わせ、疾患情報の問い合わせ、および差異診断のサポートが含まれます。 MediTronのトレーニングデータセットは非常に包括的で、臨床プラクティスガイドライン、医学論文とその要約、一般的なドメインのプリトレーニングデータで構成されています。メガトロン-LLM分散トレーニングライブラリを使用してトレーニング効率を最適化し、並列化スキームではデータ、パイプライン、テンソル並列化を使用してプロセスを高速化しています。研究者は、モデルの真実性をベースラインモデルに対して初期評価しました。彼らはTruthfulQAデータセットをベンチマークとして使用し、7Bモデルに対してワンショット評価を行い、70Bモデルに対してゼロショット評価を行いました。両モデルは他のモデルよりも優れており、MediTron-70Bの平均スコアが54.8のLLaMA-2-70Bに比べて71.2、MediTron-7Bの平均スコアが12.6のLLaMA-2-7Bに比べて28.3でした。続いて、研究者はMedQA、PubMedQAなどのさまざまなテストベンチマークを使用し、多肢選択問題回答タスクの正確性を計算しました。結果を比較するために、LLMa-7B、LLMa-70B、Mistral-7B-instructなどの異なるLLMも使用しました。結果は、MediTron-7BとMediTron-70Bがほぼすべてのデータセットで他の競合モデルを上回り、その優れた機能を示しています。このモデルは多数の医学データでトレーニングされ、複数のベンチマークで良いパフォーマンスを発揮しますが、追加のテストなしで医療アプリケーションに展開することは避けるべきです。研究者はまだこのモデルの能力と制約を理解し始めたばかりであり、現時点では医療システムでの使用に関して慎重を要します。まとめると、MediTronは、幅広い医学データセットでトレーニングされた、ドメイン固有のLLMのセットです。7Bパラメータと70Bの2つのバリアントがあり、両方のバリアントは評価対象の他のモデルよりも優れていました。研究者はまた、このモデルは現時点では追加のトレーニングなしで展開されるべきではないと述べています。医学において、このモデルは興味深い進展であり、さまざまな医療タスクを解決し、医療専門家を支援する可能性を秘めています。

ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています

芸術的なテキストから画像までの拡散モデルの利用者は、通常、生成された画像に表現される視覚的特徴と概念において細かい制御が必要ですが、現在は実現不可能です。単純なテキストのプロンプトを使用して、個人の年齢や天候の強度などの連続的な品質を正確に修正するのは難しい場合があります。この制約により、プロデューサーはイメージをより良く反映させるために画像を修正することが難しくなります。マサチューセッツ工科大学と独立研究者からなるノースイースタン大学の研究チームは、この研究で解釈可能なアイデアスライダーを提案し、拡散モデル内で詳細なアイデアの操作を可能にします。彼らのアプローチは、アーティストに高品質な制御と生成画像の提供を可能にします。研究チームは、トレーニングされたスライダーとコードをオープンソースで提供します。コンセプトスライダーは、他のアプローチが十分に対応する必要があるいくつかの問題に対して複数の解決策を提供します。多くの画像プロパティは、プロンプトを変更することで直接制御することができますが、出力はプロンプトとシードの組み合わせに対して感度があり、プロンプトを変更すると画像の全体的な構造が大きく変化する場合があります。PromptToPromptやPix2Videoなどの事後処理手法では、異なるビジュアル概念を変えるためにクロスアテンションを変更し、拡散プロセスを反転させることができます。ただし、これらの手法は同時に変更できる数が制限されており、新しいアイデアごとに独立した推論ステップが必要です。研究チームは、単純で汎用的な制御を学習する代わりに、特定の画像に適したプロンプトを設計する必要があります。適切にプロンプトされなければ、年齢が変わると同時に人種も変わるなどの概念的な絡み合いが生じる可能性があります。一方、コンセプトスライダーは、軽量で事前トレーニングされたモデルに適用できる簡単なプラグアンドプレイのアダプターを提供します。これにより、一度の推論実行で目的の概念を正確かつ連続的に制御し、エンタングルメントが少なく効率的な組み合わせを実現できます。各コンセプトスライダーは、ランクの低い拡散モデルの変更です。研究チームは、低ランク制約が概念の精度制御において重要な要素であることを発見しています。低ランクトレーニングにより、最小の概念部分空間が特定され、高品質で制御されたディスエンタングル編集が生成されます。一方、低ランク正則化なしでのファインチューニングは、精度と生成画像の品質を低下させます。この低ランクフレームワークは、モデルのパラメータではなく個々の写真に対応する事後処理の画像変更技術には適用されません。コンセプトスライダーは、これまでのテキストに頼る既存の概念編集技術とは異なり、書かれた説明によって表現されない視覚的概念の変更を可能にします。画像ベースのモデルカスタマイズ技術は画像編集において課題がありますが、研究チームは新しいトークンを導入することで新しい画像ベースの概念を表現できるようにしています。一方、概念スライダーでは、アーティストがいくつかのペアの写真で望ましい概念を指定できます。その後、コンセプトスライダーは視覚的概念を一般化し、他の画像に適用します。そのような画像では、変化を言葉で表現することが不可能な場合でも、変化を適用できます（図1を参照）。以前の研究では、GANのような他の生成画像モデルには、生成された出力に対して高度なディスエンタングル制御を提供する潜在的な領域が含まれていることが示されています。図1は、さまざまなテキストプロンプトまたはマッチした画像データの範囲内で、他の品質への干渉を最小限に抑えたフォーカスされたアイデア制御のための拡散パラメータ空間での低ランク方向を見つける手法を示しています。これらの方向は、複雑なマルチ属性制御のために組み合わせることができ、アーティストによって作成された相反するテキスト概念またはビジュアルのペアから形成することができます。ディスエンタングルスタイルGANの潜在領域を拡散モデルに転送し、スタブルディフュージョンの出力で歪んだ手を修正することで、研究者は自身のアプローチの効果を示しています。具体的には、StyleGANのスタイルスペースニューロンは、言葉でうまく説明することの難しい画像のいくつかの重要な特徴に対して、細かい制御が可能であることが示されています。研究チームは、FFHQの顔写真でトレーニングされたStyleGANのスタイル空間の潜在的な方向を拡散モデルに転送することが可能であり、彼らの手法の可能性をさらに示しています。興味深いことに、彼らのアプローチは、顔データセットからのものであっても、異なる画像生成にわたって微妙なスタイル制御を提供するようにこれらの潜在的な空間を適応させることに成功しています。これは、拡散モデルがGANの潜在的な視覚的概念を表現できることを示しています。書かれた説明はなくても表現できます。研究者らは、コンセプトスライダーの表現力が、リアリズムの向上と手の変形の修正という2つの有用なアプリケーションを処理するのに十分であることを示しています。生成モデルは、リアルな画像合成を実現するために大きな進歩を遂げてきましたが、最新の拡散モデルであるStable Diffusion XLも、歪んだ顔、浮いたオブジェクト、歪んだパースペクティブ、さらには解剖学的に不合理な余分な指や欠損した指を生み出す傾向がまだあります。研究チームは知覚的なユーザースタディにより、2つのコンセプトスライダー、「固定された手」と「リアルな画像」によって、画像の実際的なリアリズムが統計的に有意に向上することを確認していますが、画像の本質を変えることはありません。コンセプトスライダーは組み立てられ、分解することができます。研究チームは、50以上の異なるスライダーを作成することが可能であり、出力品質を犠牲にすることなく行うことがわかりました。この適応性により、アーティストたちは多くのテキスト、ビジュアル、GANで定義されたコンセプトスライダーを組み合わせることができるため、微妙な画像制御の新たな世界が開けます。彼らの技術は、通常のプロンプトトークンの制約を超えることができるため、テキストだけでは提供できないより複雑な編集を可能にします。

Google DeepMind（グーグルディープマインド）が「GNoME（グノーム）」を発表：新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の注意を払った試験の結果として数ヶ月かけて生まれるものであり、溶解しないため、新たな技術の実現には不可欠です。研究者たちは、限られた成果しか挙げられなかった高価な試行錯誤の実験を行ってきました。彼らは既存の結晶を修正したり、他の元素の組み合わせを試したりして、新しい結晶構造を探しました。材料プロジェクトなどによって牽引される計算手法のおかげで、過去10年間には28,000以上の新しい材料が見つかりました。これまで、実験的に有効な材料を信頼性の高い予測できるAI技術の能力は大きな制約でした。ローレンスバークレー国立研究所とGoogle DeepMindの研究者は、Natureに2つの論文を発表し、自律的な材料合成のためのAI予測の可能性を示しました。この研究では、800年分に相当する約2.2百万の結晶が発見されました。彼らの新しいディープラーニングツールである材料探索のためのグラフネットワーク（GNoME）は、新しい材料の安定性を予測し、発見のスピードと効率を大幅に改善しました。GNoMEは、大量の新しい材料の発見と開発におけるAIの約束を具現化しています。世界中のさまざまな研究室で行われた独立した取り組みによって、これらの新しい構造の中から736個が生み出されました。 GNoMEの導入により、技術的に可能な材料の数は2倍に増加しました。その2.2百万の予測のうち、38万個が安定性の高さから実験的な合成の可能性が最も高いとされています。次世代の電気自動車の効率向上に貢献する新しいバッテリーの材料や、スーパーコンピューターを駆動する超伝導体などが、これらの候補材料に含まれます。 GNoMEは最先端のGNNモデルの一つです。GNNの入力データは原子のつながりに類似したグラフで表されるため、新しい結晶材料の発見に適しています。 GNoMEを訓練するために最初に使用された結晶構造と安定性のデータは、Materials Projectを通じて公開されています。トレーニング手法としての「アクティブラーニング」の使用は、GNoMEの効率を大幅に改善しました。研究者たちはGNoMEを使用して新しい結晶候補を生成し、その安定性を予測しました。彼らは進行中のトレーニングサイクル全体でモデルの性能を評価するため、物理学、化学、材料科学の分野で確立された計算手法である密度汎関数理論（DFT）を使用して原子構造を理解し、結晶の安定性を評価するための反復的なチェックを行いました。モデルトレーニングは高品質なトレーニングデータを使用してプロセスに戻されました。研究結果は、先行の最新モデルによる外部ベンチマークによって指標が設定されている状態から、材料の安定性予測の発見スピードを約50％から80％に向上させたことを示しています。このモデルの効率の向上により、各発見に必要な計算能力が10％未満から80％以上に向上しました。これらの効率の向上は、AI駆動の材料合成のさらなる進展の道を開くものです。自律型のラボは、Materials Projectの材料を使用し、GNoMEの安定性情報を活用して、41以上の新しい材料を生み出しました。これはAI駆動の材料合成の更なる進展を可能にする道を開いたものです。 GNoMEの予測は科学コミュニティに公開されています。研究者たちはその化合物を解析し、380,000の材料をオンラインデータベースに追加するMaterials Projectに提供します。これらのリソースの助けを借りて、科学コミュニティが無機結晶の研究をさらに追求し、機械学習技術の潜在能力を実験のガイドラインとして実現することを願っています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us