Learn more about Search Results L - Page 2

AIの物体認識をどのように進化させることができるのか? このAIの論文は、強化された画像と動画の分析のための普遍的な物体レベルの基礎モデルGLEEを紹介します

画像やビデオの物体認識は、機械に視覚世界を解読する力を与えます。仮想の探偵のように、コンピュータビジョンシステムはピクセルをスキャンし、デジタル体験のキャンバスに描かれた多くの物体を認識、追跡、理解します。このディープラーニングの力による技術的な能力は、自動運転車が都市の風景をナビゲートすることから、視覚的なエンカウンターにより多くの知能を追加する仮想アシスタントまで、変革的な応用の扉を開きます。 中国科学技術大学、字節跳動、ジョンズ・ホプキンズ大学の研究者たちは、画像とビデオの物体認識のための多目的モデルGLEEを紹介しています。GLEEは、物体の位置特定と識別に優れており、タスクに固有の適応なしでさまざまなタスクに対して優れた汎化性能を示します。大規模言語モデルの統合も可能であり、多モーダル研究のための普遍的な物体レベルの情報を提供します。さまざまなデータソースからの知識の取得能力により、効率が向上し、異なる物体認識タスクの処理能力が向上します。 GLEEは、画像エンコーダ、テキストエンコーダ、ビジュアルプロンプタを統合し、多モーダル入力処理と一般化物体表現予測を行います。Objects365、COCO、Visual Genomeなどのさまざまなデータセットで訓練されたGLEEは、オープンワールドのシナリオで物体の検出、セグメンテーション、トラッキング、グラウンディング、識別を行うための統一されたフレームワークを使用します。動的なクラスヘッドを持つMaskDINOに基づいたオブジェクトデコーダは、予測のために類似性計算を使用します。物体検出とインスタンスセグメンテーションでプリトレーニングされた後、結合トレーニングにより、さまざまな下流の画像とビデオのタスクにおいて最先端のパフォーマンスを実現します。 GLEEは、特定のタスクに特化した適応なしで多様な下流のタスクに対応する傑出した汎化性能と拡張性を示しました。物体検出、インスタンスセグメンテーション、グラウンディング、マルチターゲットトラッキング、ビデオインスタンスセグメンテーション、ビデオオブジェクトセグメンテーション、インタラクティブセグメンテーションとトラッキングなど、さまざまな画像とビデオのタスクで優れたパフォーマンスを発揮します。GLEEは他のモデルに統合された場合でも最先端のパフォーマンスを維持し、その表現の多様性と効果的な性能を示します。ゼロショットの汎化性能は、自動的にラベル付けされた大量のデータを組み込むことでさらに向上します。また、GLEEは基盤モデルとしての役割も果たします。 https://arxiv.org/abs/2312.09158 GLEEは、現在のビジュアル基盤モデルの限界を克服し、正確かつ普遍的な物体レベルの情報を提供する画期的な一般物体基盤モデルです。GLEEは多様な物体中心のタスクに堪能であり、ゼロショットの転送シナリオでも特に優れた汎化性能を示します。さまざまなデータソースを使用して一般的な物体表現を組み込むことで、スケーラブルなデータセットの拡張とゼロショットの能力を向上させます。モデルは複数のデータソースをサポートしており、追加の注釈を容易に組み込むことで、さまざまな下流のタスクにおいて最先端のパフォーマンスを実現し、既存のモデルを凌駕します。 これまで行われた研究の範囲と将来の研究の方向は、以下に焦点を当てることができます: 複雑なシナリオや長尾分布を持つチャレンジングなデータセットを扱うGLEEの能力を拡大するための継続的な研究です。 特化したモデルを統合することで、GLEEの普遍的な物体レベル表現を活用し、マルチモーダルなタスクの性能を向上させることを目指しています。 DALL-Eなどのモデルと同様に、広範な画像キャプションのペアをトレーニングすることで、GLEEのテキスト指示に基づいた詳細な画像コンテンツの生成の可能性を探っています。 オブジェクトレベルのタスクへの応用範囲を広げるために、GLEEの物理的な文脈を組み込んだオブジェクトレベルの情報を強化しています。 インタラクティブなセグメンテーションとトラッキングの機能のさらなる開発は、さまざまなビジュアルプロンプトの探索やオブジェクトセグメンテーションのスキルの改善を含みます。

「EPFLとAppleの研究者が4Mをオープンソース化:数十のモダリティとタスクにわたるマルチモーダルな基盤モデルの訓練のための人工知能フレームワーク」

大量の自然言語処理(NLP)タスクを広範に扱える大型言語モデル(LLM)をトレーニングすることは、より人気があります。NLPでこれらのモデルが優れた成功を示しているにもかかわらず、ビジョンのために同様に柔軟でスケーラブルなモデルを作成する必要があります。ビジョンのスケーラビリティと多機能性には、多くの入力モダリティと出力タスクを管理する能力が不可欠です。 ビジョンモデルは、写真、3D、テキストを含むさまざまな感覚入力を処理し、さまざまなタスクを実行する必要があります。ビジョンに関しては、単一の目的でRGB画像でのトレーニングは、生のテキストに対する言語モデリングと同じ結果を生みませんでした。その結果、トレーニングではさまざまなモダリティとタスクを活用する必要があります。 データ、アーキテクチャ、トレーニングの目的は、望ましいビジョン基盤モデルの属性を持つモデルを構築する際に考慮すべき3つの重要なスケーラビリティ要素です。データのスケーラビリティは、性能を向上させるためにより多くのトレーニングサンプルを活用できる能力を指します。アーキテクチャの観点では、性能が増加するにつれてモデルサイズを大きくし、トレーニング時に安定性を保つことを意味します。最後に、スケーラブルなトレーニング目標は、計算コストが急増することなく、増加するモダリティの数に効率的に対応できる必要があります。 スイス連邦工科大学ローザンヌ校(EPFL)とAppleの新しい研究は、これらの3つの領域すべてでスケーラビリティを目指し、さまざまな入力タイプと互換性のある方法を提案しています。 これらの障壁を乗り越えるため、チームは、マルチモーダルなマスクされたモデリングのゴールを持つ単一の統合トランスフォーマーエンコーダーデコーダーをトレーニングする戦略を提案しています。4Mは「Massively Multimodal Masked Modeling」の略で、このアプローチの様々なモダリティに拡張可能な能力を強調しています。このアプローチは、マスクされたモデリングとマルチモーダル学習の最良の特徴を組み合わせています。 強力なクロスモーダル予測コーディング能力と共有シーン表現 反復サンプリングにより、モデルを生成タスクに使用できる 事前トレーニングの目的は、効果的に豊かな表現を学ぶことです 重要なのは、4Mがこれらの利点を保ちながら、多くのプロセスを通じて効率を保つことです。モダリティ固有のトークナイザーを使用することで、モダリティをさまざまな形式でセットや連続の離散トークンに変換し、テキスト、境界ボックス、画像、ニューラルネットワークの特徴など、さまざまなモダリティで単一のトランスフォーマーをトレーニングできます。これにより、表現領域が統一されます。タスク固有のエンコーダーやヘッドはもはや必要ないため、このトークナイゼーションアプローチにより、パラメータ共有が可能になり、互換性、スケーラビリティ、共有性が向上します。 また、4Mは、多くのモダリティで作業するにもかかわらず、入力と目標のマスキングを活用して効率的にトレーニングすることができます。これには、トークンの小さなサブセットをランダムに選択してモデルの入力として使用し、別の小さなサブセットを目標として使用する必要があります。スケーラブルなトレーニング目標を達成するためには、入力トークンと目標トークンの数をモダリティの数から切り離す必要があります。これにより、モダリティの数が増えても計算コストが急速に増加することを防げます。CC12Mや他の利用可能な単一モーダルまたはテキスト-画像ペアデータセットを使用して、強力な擬似ラベリングネットワークを使用してモーダルに整合したバインディングデータを作成します。 この擬似ラベリング手法により、異なる大規模データセットでのトレーニングが可能になります。4Mモデルは、出発点でさまざまな重要な視覚タスクで優れた結果を出すだけでなく、未知のダウンストリームタスクや入力モダリティでも注目すべき結果を達成するために微調整することができます。 さらに、どのモダリティでも条件付きで操作可能な操作可能な生成モデルをトレーニングするために、マルチモーダルなマスクされたモデリングゴールを利用する必要があります。これにより、ユーザーの意図やさまざまなマルチモーダルな編集タスクの多様な表現が可能になります。その後、4Mのパフォーマンスに影響を与えるパラメータを徹底的に分析します。この包括的な分析と、この手法の容易さと汎用性により、4Mは多くのビジョンタスクと今後の開発に大いに期待されます。

「LLMアプリケーション開発のための実践的なLangChain ドキュメントの読み込み」

「データとチャットできるアプリケーションを作成するためには、まずデータを作業可能な形式に読み込む必要がありますそれがLangChainのドキュメントローダーの役割です...」

「MLを学ぶ勇気:F1、再現率、適合率、ROC曲線により深く掘り下げる」

「「勇気を持って機械学習を学ぶ」シリーズへようこそこのセッションでは、メトリクスの微妙な世界を探究しています多くの資料はこれらのメトリクスを紹介したり、詳しく取り上げたりしますが…」

スタンフォード研究者がGLOWとIVESを使用して、分子ドッキングとリガンド結合位姿の予測を変革しています

ディープラーニングは、スコアリング関数の改善により、分子ドッキングの向上の可能性を持っています。現在のサンプリングプロトコルは、正確なリガンド結合ポーズを生成するために事前情報が必要であり、スコアリング関数の正確さが制限されています。GLOWとIVESという2つの新しいプロトコルは、スタンフォード大学の研究者によって開発され、この課題に対応し、ポーズのサンプリング効果を向上させることを示しています。AlphaFoldで生成されたタンパク質構造を含むさまざまなタンパク質構造でのベンチマークテストにより、これらの手法の妥当性が確認されています。 分子ドッキングにおけるディープラーニングは、しばしば剛体タンパク質ドッキングデータセットに依存しており、タンパク質の柔軟性を無視しています。一方、柔軟ドッキングはタンパク質の柔軟性を考慮していますが、精度が低い傾向があります。GLOWとIVESは、これらの制限に対応する高度なサンプリングプロトコルであり、特に動的結合ポケットでベースラインメソッドを常に上回っています。これは、タンパク質リガンドドッキングにおけるリガンドポーズのサンプリングを改善するために重要であり、ディープラーニングベースのスコアリング関数の向上に重要です。 分子ドッキングは、薬物探索においてタンパク質結合サイトへのリガンド配置を予測します。従来の方法は正確なリガンドポーズの生成に課題を抱えています。ディープラーニングは正確性を向上させることができますが、効果的なポーズのサンプリングに依存しています。GLOWとIVESは、チャレンジングなシナリオに対してサンプルを改善し、正確性を向上させるための進んだサンプリングプロトコルです。AlphaFoldで生成された未リガンド化または予測されたタンパク質構造に適用可能であり、キュレーションされたデータセットとオープンソースのPythonコードも提供しています。 GLOWとIVESは、分子ドッキングのための2つのポーズサンプリングプロトコルです。GLOWはソフト化された分散力ポテンシャルを利用してリガンドポーズを生成し、IVESは複数のタンパク質構造を組み込むことで正確性を向上させます。ベースラインメソッドとのパフォーマンス比較により、GLOWとIVESの優位性が示されています。クロスドッキングケースにおける正しいポーズの割合を測定するテストセットの評価は、IVESの効率において重要なシードポーズの品質を示しています。 GLOWとIVESは、リガンドポーズのサンプリングにおいてベースラインメソッドを上回る正確性を持ち、チャレンジングなシナリオやAlphaFoldベンチマークにおいて顕著なタンパク質の構造変化にも優れています。テストセットの評価により、正しいポーズのサンプリング確率の優越性が確認されています。IVESは複数のタンパク質構造を生成することで、タンパク質構造の幾何学的なディープラーニングにおいて、より少ない構造でSchrodinger IFD-MDと同様のパフォーマンスを達成します。GLOWとIVESによって生成された5,000のタンパク質リガンドペアのリガンドポーズデータセットは、ディープラーニングベースのスコアリング関数の開発と評価において貴重なリソースとなります。 https://arxiv.org/abs/2312.00191 結論として、GLOWとIVESは、基本的な技術よりも効果的な2つのポーズサンプリング方法であり、特に困難なシナリオとAlphaFoldベンチマークにおいて優れた性能を発揮しています。IVESでは複数のタンパク質構造が生成されるため、幾何学的ディープラーニングに非常に有利です。また、GLOWとIVESが提供する5,000のタンパク質リガンドペアのリガンドポーズを含むデータセットは、分子ドッキングのディープラーニングベースのスコアリング関数に取り組んでいる研究者にとって貴重な資源です。

「このAI論文調査は、医学における大規模言語モデル(LLMs)の役割、課題、原則、応用について取り上げています」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Medical_LLM_outline-857×1024.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Medical_LLM_outline-150×150.png”/><p>自然言語処理(NLP)は、特に大規模言語モデル(LLM)の導入により、ここ数か月で大きく進歩しました。GPT、PaLM、LLaMAなどのモデルは、テキスト生成、要約、質問応答といったさまざまなNLPタスクを実行する能力により、非常に人気を集めています。研究者たちは医療分野でLLMの力を活用しようと常に取り組んでいます。</p><p>ChatDoctor、MedAlpaca、PMC-LLaMA、BenTsao、MedPaLM、Clinical Camelなどの医療用LLMは、患者のケアの向上と医療従事者のサポートに使用されています。現在の医療用LLMは良好な結果を示していますが、まだいくつかの課題があります。多くのモデルは、臨床設定における対話や質問応答といったバイオメディカルNLPタスクの実用的な価値を見落としています。医療用LLMの電子健康記録(EHR)、高齢者退院要約の作成、健康教育、ケアプランニングといった臨床コンテキストでの潜在能力は、最近の研究の主題となっています。しかし、これらのモデルには一般的な評価データセットが欠けていることがよくあります。</p><p>もう一つの欠点は、現在使用されている医療用LLMの大多数が、医学的な質問に対する応答能力だけを評価し、情報検索、テキスト生成、関係抽出、テキスト要約などの他の重要なバイオメディカルタスクを無視していることです。これらの問題を克服するため、研究チームは医療用LLMのさまざまな側面を探求しながら、以下の5つの主要な問いに答えることで研究を実施しました。</p><ol><li>医療用LLMの作成:最初の問いは、医療用LLMの作成に関わるアプローチや要素を調査することを目的としています。これには、これらのモデルの作成の基本的なアイデアや構造、トレーニングセット、その他の関連要素を理解する必要があります。</li></ol><ol><li>医療用LLMの実施結果の評価:2番目の問いは、医療用LLMの実際の結果やパフォーマンスを評価することに焦点を当てています。特に、臨床医学関連のタスクにおいて、これらのモデルのパフォーマンスを評価することが含まれます。</li></ol><ol><li>実際の臨床現場での医療用LLMの使用:3番目の問いは、医療用LLMが実際に臨床現場でどのように使用されるかを探究します。これには、これらのモデルが医療従事者の定期的なワークフローにどのように組み込まれ、コミュニケーション、意思決定、一般的な患者ケアの改善に役立つかを調査することが含まれます。</li></ol><ol><li>医療用LLMの適用による問題:4番目の問いは、医療用LLMの使用には、他の技術と同様に様々な障害があることを認識しています。医療設定でこれらのモデルを責任を持ってかつ成功裏に導入するためには、倫理的な問題、モデルにおける潜在的なバイアス、可解釈性の問題など、いくつかのハードルに取り組む必要があります。</li></ol><ol><li>医療用LLMの構築と適用の成功:最後の問いは、医療用LLMの設計と適用の改善について、将来について明らかにするためのものです。これにより、医療用LLMが医療業界で有用なツールとして発展し続けることが保証されます。</li></ol><p>総括すると、この調査は医療分野におけるLLMを詳細に分析しています。それは10種類の異なるバイオメディカルアクティビティから得られた評価を要約し、それらのアプリケーションに関する詳細な概要を提供しています。主要な課題に取り組むことで、この研究は医療用LLMの包括的な知識を提供し、より詳細な分析、チームワーク、そして医療AI領域の迅速な進歩を促進することを目指しています。</p>

アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組んでいます。モデルのサイズがパフォーマンスと関連している大規模言語モデル(LLM)において、Upstageは10.7兆の重み付けを持つ画期的なモデル、「Solar-10.7B」を導入しました。この革新は、3000億以上のパラメータを持つモデルにおけるモデルのサイズとパフォーマンスの間に生じる相反関係に対処しています。 既存のツールと異なり、UpstageのSolar-10.7Bは、Llama 2アーキテクチャを採用し、Upstage Depth Up-Scalingという新しい技術を使用しています。この方法は、Mistral 7BからアップスケーリングされたレイヤーにMistral 7Bの重み付けを統合し、包括的な事前学習を行います。Solar-10.7Bのコンパクトな設計と優れたパフォーマンスは、Mixtral 8X7Bなどのより大きなモデルすらも上回ります。さまざまな言語のタスクにおいて適応性と堅牢性を実証するための微調整と展示に理想的なモデルです。 さらに、Upstageはシングルターンの対話に特化したファインチューニング版「SOLAR-10.7B-Instruct-v1.0」も提供しています。監視付きファインチューニング(SFT)や直接的な意志最適化(DPO)など、最新のインストラクションのファインチューニング手法を活用し、多様なデータセットをトレーニングに使用しました。このファインチューニングモデルは、驚異的なModel H6スコア74.20を達成し、シングルターンの対話シナリオにおける効果を誇示しています。 Solar-10.7Bのパフォーマンスは、その洗練されたアーキテクチャとトレーニング戦略に根ざしています。Llama 2アーキテクチャを基にしたDepth Up-Scaling技術により、30兆パラメータまでのモデルを凌駕することができます。Mistral 7Bの重み付けをアップスケーリングされたレイヤーに統合することは、その素晴らしいパフォーマンスに貢献し、Mixtral 8X7Bモデルさえも上回ります。評価結果は、Solar-10.7Bの能力を示し、Model H6スコア74.20を記録しており、自然言語処理においてさらなるパフォーマンス最適化の追求を証明しています。 ファインチューニングされたSOLAR-10.7B-Instruct-v1.0は、他のモデルに比べて優れたModel H6スコア74.20でシングルターンの対話シナリオで優れたパフォーマンスを発揮しています。教授ベースのトレーニングのために慎重に選別されたデータセットを活用するこのファインチューニングアプローチは、その適応性とパフォーマンスの向上を一層強調しています。 まとめると、Solar-10.7Bおよびそのファインチューニング版は、大規模言語モデルの領域における重要な進歩を表しています。モデルのサイズとパフォーマンスのバランスを取るという課題に取り組むために、Upstageの研究者たちは戦略的にこれらのモデルを設計し、ファインチューニングして最先端の結果を提供しています。革新的なDepth Up-Scaling技術とMistral 7Bの統合は、適応性と効率性を示しています。研究者たちが言語モデルの開発の限界を押し広げ続ける中で、Solar-10.7Bとそのファインチューニング版は、自然言語処理におけるパフォーマンス最適化の追求の証となっています。 UpstageがSolar-10.7Bを発表:Depth Up-Scalingとファインチューニングされた精度によるシングルターン対話における大規模言語モデルの先駆的な取り組み は、MarkTechPostで最初に公開されました。

Google AIがMedLMを導入:医療業界の利用事例に特化したファミリー型基盤モデル

Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Googleの医療と医学における以前の研究であるMed-PaLM 2という医用に調整された大規模言語モデルに基づいて構築されています。MedLMには、別々のエンドポイントを持つ2つのモデルがあり、顧客にさまざまなユースケースに対する柔軟性を提供します。MedLMは、医療の質問応答や要約に優れた性能を発揮します。 最初のモデルは大きなバリアントで、複雑なタスクを処理するために設計されています。一方、二番目のVoAGIサイズのモデルは、微調整やさまざまなアプリケーションへのスケーラビリティに対して柔軟性を提供します。特定の医療と生命科学の要件に基づいて設計されたこれらのモデルは、基本的な機能から洗練されたワークフローまで、医療におけるAIの採用を強化することが期待されています。 Googleは、HCA Healthcare、BenchSci、Accenture、およびDeloitteと協力し、既存のプロジェクトでのパフォーマンスと効率を向上させるためにMedLMを活用しています。HCA Healthcareとの協力により、MedLMはAugmedixのプラットフォームに統合されています。MedLMの技術を活用したこのアプリは、自然言語処理を使用してクリニシャンと患者の会話をドラフト医療ノートに変換し、医療規制に準拠します。この自動化は、パフォーマンスを向上させるだけでなく、時間の節約、バーンアウトの軽減、そして患者ケアの向上にも貢献します。 BenchSciは、前臨床の研究開発の領域で、ASCENDプラットフォーム内でMedLMを活用しています。目標は、前臨床研究のスピードと品質を向上させることにより、薬の発見を加速することです。ASCENDは、AIパワーのエビデンスエンジンであり、MedLMと協力してバイオマーカーの識別と分類を強化し、科学的な発見プロセスを効率化しています。 Accentureとの協力により、Googleは生成型AIを活用して患者のアクセス、体験、および結果を向上させることを目指しています。Google CloudのClaims Acceleration SuiteとMedLMを統合することで、医療機関は新しい洞察を発見し、最終的にはより良い患者結果につながることができます。MedLMの機能をパイロット導入することにより、DeloitteとGoogle Cloudは、プロバイダディレクトリや福利厚生文書からの情報の簡素化を図り、さまざまな基準に基づいて適切なプロバイダを特定する際にコンタクトセンターエージェントをサポートしています。 これらのプロジェクトすべてが示しているように、MedLMの利用は医療および医学産業におけるAIの成長を支援することができます。Google Researchは、今後数ヶ月間にさらなる機能を提供するために、Geminiベースのモデルを組み込んでMedLMスイートを拡大する予定です。業界のリーダー企業との協力努力は、医療における生成型AIの変革的な可能性を示しています。技術が進化するにつれて、Googleは医療現場の開業医、研究者、および医療組織と緊密に連携し、健康・生命科学における画期的な研究を推進するためにAIの安全かつ責任ある使用を確保することに取り組んでいます。 この投稿は、Google AI Introduces MedLM: A Family of Foundation Models Fine-Tuned…

大型言語モデル(LLM)のためのSW/HW共同最適化戦略

主導的な大規模言語モデル(LLM)であるChatGPT、Llamaなどは、テック業界を革命化し、すべての人々の生活に影響を与えていますしかし、それらのコストは大きな障壁となっていますアプリケーション...

「Langchainの使い方:ステップバイステップガイド」

LangChain(ラングチェーン)は、プログラマーが大きな言語モデルを使用してアプリケーションを開発するための人工知能フレームワークです。LangChainの使用方法について詳しく見ていきましょう。 ステップ1: セットアップ LangChainを始める前に、適切に構成された開発環境があることを確認してください。PythonまたはJavaScriptなどの必要な依存関係をインストールしてください。LangChainは両方の言語に対応しており、開発者に柔軟性を提供します。 pip install langchain conda install langchain -c conda-forge ステップ2: LLM(Language Models) LangChainを効果的に使用するためには、モデルプロバイダーやデータストア、APIなどのさまざまなコンポーネントと統合することがしばしば必要です。ここでは、LangChainをOpenAIのモデルAPIと統合します。また、Hugging Faceを使用しても同様に行うことができます。 !pip install openaiimport osos.environ["OPENAI_API_KEY"] ="YOUR_OPENAI_TOKEN" from langchain.llms…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us