Learn more about Search Results 15 - Page 5
- You may be interested
- クラウドを通じたデジタルトランスフォー...
- このAI論文では、「PolyID:高性能バイオ...
- 人材分析のための R ツールキット:ヘッド...
- 「メタに立ち向かい、開発者を強力にサポ...
- 「LLMガイド、パート1:BERT」 LLMガイド...
- 「複数パネルの複雑な図を作成するためのM...
- ガローデットの最新技術革新はヘルメットです
- 研究者たちは、ビデオ記録を使用して、鳥...
- 「2023年、オープンLLMの年」
- 「アメリカではデータサイエンティストの...
- 一目でデータを見る :データ分析のための...
- エロン・マスクのxAIがOpenAIのChatGPTに...
- このAI論文は、イギリスのインペリアルカ...
- バイトダンスAI研究がStemGenを紹介:音楽...
- 倉庫業務の変革:AIと自動化の力を活用する
「医療の分野における人工知能モデルのリスト(2023年)」
<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/18-1024×618.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/18-150×150.gif”/><p>今年だけでも、人工知能(AI)が進化を遂げた数を考えると、2023年を通じて重要な議論の中心となっていることは驚くべきことではありません。AIは今やほぼあらゆる領域で活用されており、その中でも興味深く有用な応用の1つが医療と医学の分野です。薬物の発見から医療文書の転写、手術の支援まで、医療従事者の生活を変え、誤りを減らし、効率を向上させています。この記事では、2023年に医療現場を変革する可能性のあるいくつかのAIモデルについて説明します。</p><h2><a href=”https://www.voagi.com/google-deepminds-recent-advancements-analogical-stepback-prompting.html”><strong>Med-PaLM 2</strong></a></h2><p>Google Researchが医療分野向けに設計したMed-PaLMは、医療の質問に高品質な回答ができるモデルです。このモデルはGoogleのLLMの力を活用しており、米国医師国家試験のような質問に回答する際には人間の専門家レベルに達する最初のモデルの1つです。評価された結果、このモデルは症状を理解し、複雑な推論を行い、適切な治療法を選択する能力を示しました。さらに、研究の中でMedQA医学試験のベンチマークで86.5%の正確さを達成しました。有望な能力を示しているものの、研究者はより厳密な評価を行い、安全性の重要な領域での展開が可能かどうかを確認するためにさらなる評価を行いたいと考えています。</p><h2><a href=”/?s=Bioformer”><strong>Bioformer</strong></a></h2><p>Bioformerは、バイオメディカルテキストマイニングに使用できるBERTのコンパクト版です。BERTは自然言語処理のアプリケーションで最先端の性能を達成していますが、計算効率を向上させるためにパラメータを減らすことができます。Bioformerの研究者たちは、このアプローチを取り、BERTよりもモデルサイズが大幅に小さいモデル(60%削減)を開発しました。このモデルはPubMedの要約とPubMed Centralの全文記事で訓練され、バイオメディカル用語を使用しています。研究者は2つのバージョンのモデル、Bioformer8LとBioformer16Lをリリースしましたが、名前の識別、関係抽出、質問応答、文書分類などのパラメータで少ないパラメータでもうまく機能しました。</p><h2><a href=”https://www.voagi.com/google-ai-has-launched-medlm-a-series-of-foundation-models-specifically-tailored-for-the-healthcare.html”><strong>MedLM</strong></a></h2><p>MedLMは、Googleが開発した基礎モデルのスイートで、医療ケースに特化してファインチューニングされています。MedLMの下には複雑なタスクに対応し、タスク間でのスケーリングを可能にする2つのモデルが設計されています。これらのモデルの主な目的は、タスクを自動化して時間を節約し、効率を向上し、全体的な患者の健康を改善することです。Googleの研究者はDeloitteと協力して、MedLMの能力を実証するためのパイロットを行っています。MedLMはまた、BenchSciのASCENDなど他のAIシステムと統合されており、臨床研究の品質と速度を向上させるために活用されています。</p><h2><a href=”/?s=RoseTTAFold”><strong>RoseTTAFold</strong></a></h2><p>RoseTTAFoldは、限られた情報から蛋白質の構造を予測するためのディープラーニングを活用したソフトウェアです。このモデルは蛋白質配列のパターン、アミノ酸の相互作用、および3D構造を研究することができます。このモデルにより、研究者は蛋白質と小分子薬剤の相互作用のモデル化が可能になり、これにより薬剤探索の研究が促進されます。モデルの研究者はまた、コードを公開して、全コミュニティの利益に資するようにしています。</p><h2><a href=”https://www.voagi.com/revolutionizing-biological-molecule-predictions-with-deepminds-alphafold.html”><strong>AlphaFold</strong></a></h2><p>AlphaFoldは、DeepMindが開発した強力なAIモデルで、アミノ酸配列から蛋白質の3D構造を予測することができます。DeepMindはEMBL(EMBL-EBI)のEuropean Bioinformatics Instituteとパートナーシップを組んで、20億以上のAI生成蛋白質構造予測を含むデータベースを公開し、科学研究を促進しています。CASP14では、AlphaFoldは他のモデルよりも高い精度で結果を出し、高い正確性を持ちます。さらに、このモデルは研究者が蛋白質構造を理解し、生物学的研究を進めるのに役立つ潜在能力を持っています。</p><h2><a href=”/?s=ChatGLM-6B”><strong>ChatGLM-6B</strong></a></h2> ChatGLMは中国語と英語のバイリンガルモデルであり、中国語の医療対話データベースを元に微調整されています。モデルは比較的短い時間(13時間)で微調整されたため、非常に手頃な医療目的のLLMです。モデルはより長いシーケンス長を持つため、より長い対話や応用に対応しています。モデルは教師あり微調整、RLHFなどの技術を使用してトレーニングされました。これにより、モデルは人間の指示をより理解することができます。その結果、モデルは優れた対話と質問応答の能力を持っています。 記事:List of Artificial Intelligence Models for Medical…
MIT研究者が高度なニューラルネットワークモデルを用いて、脳の聴覚接続に関する新たな知見を明らかにする
MAT研究者たちは、革新的な研究で、深層ニューラルネットワークの領域に進出し、人間の聴覚システムの謎を解き明かすことを目指しています。この探究は、学術的な追求だけでなく、補聴器、人工内耳、脳-機械インターフェースなどの技術の発展にも約束を持っています。研究者たちは、聴覚の課題に対して訓練された最大の深層ニューラルネットワークの研究を行い、これらのモデルが生成する内部表現と、似たような聴覚体験の際に人間の脳で観察される神経パターンの興味深い類似点を明らかにしました。 この研究の重要性を理解するためには、まず解決しようとする問題を把握する必要があります。大きなチャレンジは、人間の聴覚皮質の複雑な構造と機能、特に様々な聴覚タスクの際に対して理解することです。この理解は、聴覚障害や他の聴覚課題を持つ個人の生活に重要な影響を与える技術の開発に不可欠です。 この研究の基礎は、以前の研究に基づきます。ニューラルネットワークが特定の聴覚タスク(例:音声信号からの単語の認識)を実行するために訓練されたことがあります。2018年に行われた研究では、MITの研究者たちは、これらのモデルが生成する内部表現が、同じ音を聴取する個人の機能的磁気共鳴画像(fMRI)スキャンで観察される神経パターンと類似していることを示しました。その後、このようなモデルは広範に使用されるようになり、MITの研究チームはより包括的に評価しました。 この研究では、9つの公開されている深層ニューラルネットワークモデルの分析が含まれており、さらに2つの異なるアーキテクチャを基にMITの研究者が作成した追加の14のモデルも導入されました。これらのモデルは、単語認識から話者の識別、環境音、音楽ジャンルの識別など、様々な聴覚タスクのために訓練されました。これらのモデルのうち2つは、複数のタスクを同時に処理できるように設計されています。 この研究の特徴は、これらのモデルが人間の脳で観察される神経表現とどれだけ近いかを詳細に調査していることです。その結果は、これらのモデルが、背景ノイズを含む聴覚入力にさらされた場合に、人間の聴覚皮質で観察されるパターンと密接に一致することを示しています。この発見は重要な意義を持ち、背景ノイズが普遍的に存在する実世界の聴覚状態をより正確に反映するため、ノイズを加えてモデルを訓練することが望ましいことを示唆しています。 提案された手法の複雑さに深く入り込むと、魅力的な旅になります。研究者たちは、モデルをノイズの中で訓練することの重要性を強調し、多様なタスクと背景ノイズを含む聴覚入力にさらされたモデルが、人間の聴覚皮質で観察される活性パターンに似た内部表現を生成することを主張しています。これは、個人がしばしばさまざまなレベルの背景ノイズの中で聴覚刺激に直面する実世界の聴覚シナリオで直感的にも合致します。 この研究はさらに、人間の聴覚皮質内の階層的な組織の考え方を支持しています。要するに、モデルの処理段階は異なる計算機能を反映しており、初期段階では主要聴覚皮質で観察されるパターンに類似しています。処理が進むにつれて、表現は主要皮質を超えて脳の他の領域で見られるパターンにより近くなります。 さらに、異なるタスクに訓練されたモデルは、脳の特定の調整特性を説明する能力があります。例えば、音声関連のタスクに訓練されたモデルは、脳の音声選択領域とより一致しています。このタスク固有の調整特性は、さまざまな聴覚処理の側面を再現するためにモデルを調整する上で貴重な洞察を提供し、脳が異なる聴覚刺激にどのように応答するかを微妙に理解する手助けとなります。 まとめると、MITが行った聴覚タスクのために訓練された深層ニューラルネットワークの包括的な探求は、人間の聴覚処理の秘密を解き明かすための重要な進展となります。ノイズでモデルを訓練する利点と、タスク固有のチューニングを観察することによって、より効果的なモデルの開発の可能性が広がります。これらのモデルは、脳の反応と行動を正確に予測する能力を持ち、補聴器のデザイン、人工内耳、脳-機械インターフェースの革新的な進歩をもたらす可能性を秘めています。MITの先駆的な研究は、聴覚処理の理解を豊かにし、聴覚研究と技術の革新的な応用に向けた道筋を描いています。
スタンフォード大学の研究者が、大規模言語モデル(LLM)における相互補完的および貢献的帰属に対する統一的なAIフレームワークを紹介します
大規模言語モデル(LLMs)は、人工知能(AI)の指数関数的に進化する分野での最新の進歩です。これらのモデルは、テキスト生成、質問応答、テキスト要約などのタスクにおいて驚異的なパフォーマンスを発揮しますが、生成されるデータの正確性とセキュリティには課題があります。これらのモデルは、時には虚偽の情報を製造または生成し、信頼性のない出力を作り出すことがあります。 モデルの出力が害を引き起こす場合、その源泉を追跡することは道徳的および法的な責任を割り当てるために必要ですが、帰属は創造的な技術的研究が必要な困難なタスクです。LLMの出力の帰属に関する研究は、主に2つの領域に焦点を当てています:トレーニングデータの帰属(TDA)および引用生成。 最近の研究では、スタンフォード大学の研究チームが大規模言語モデルの帰属について統一フレームワークを導入しました。この研究は引用生成とTDAを組み合わせ、確証的および寄与的な帰属の下に統一的なフレームワークを提供します。寄与的帰属は作成されたコンテンツの源泉の検証に重点を置きますが、確証的帰属は外部の知識に基づいて出力が正確であることを検証しようとします。 チームはさまざまな状況で望ましい属性を詳細に検討し、各形式の帰属について正確な定義を提供しました。この方法は、両方の種類の徹底的な帰属を提供できる帰属システムの創造と評価を促進するものであり、言語の帰属の明確で柔軟な概念に向けた第一歩です。 このフレームワークは、その有用性を示すために実際のユースケースで利用されています。例は、一方または両方の種類の帰属が必要となる状況を示しています。法的文書の作成のプロセスでは、内部的な妥当性、つまりトレーニングデータの帰属によって情報の源泉と信頼性を確認し、外部的な妥当性、つまり引用の作成によって素材が法的要件に準拠していることを確認します。同様に、医療の質問応答の文脈では、応答の正確性の検証とモデルの知識に影響を与える源泉の理解のために両方の帰属が重要です。 チームは次のように主な貢献をまとめました。 共有要素を強調した帰属の共有フレームワークを示すインタラクションモデルが提示されました。 両方の種類の帰属に関連する属性を見つけることによって、組み合わせたフレームワークが改善されました。 現在の寄与的および確証的な帰属の実装の包括的な分析が行われ、現実世界での使用に関する洞察が提供されました。 法的文書の作成などの帰属に重要なシナリオについて、効果的に必要な特性を記述しました。 結論として、このフレームワークは素晴らしい導入であり、帰属システムの評価の標準化に役立ち、さまざまな分野でその効果の体系的かつ比較可能な評価を推進します。これにより、大規模言語モデルの使用を改善し促進し、出力の信頼性の重要な問題を解決することができます。
アマゾンの研究者は、深層学習を活用して複雑な表形式のデータ分析におけるニューラルネットワークを強化します
ニューラルネットワークは、異質なカラムを持つ表形式のデータに直面するときに、現代計算の驚異として、重要なハードルに直面します。この課題の本質は、ネットワークがこれらのテーブル内の多様なデータ構造を効果的に処理できないことにあります。この問題に対処するため、この論文では、複雑なデータ構造を扱う際にニューラルネットワークの性能を向上させる革新的な手法を探求します。 行と列を持つ表形式のデータは、しばしば直感的に理解されます。しかし、これらのカラムがその性質や統計的特性で著しく異なる場合、複雑さが生じます。従来のニューラルネットワークは、一部の情報タイプに対する固有のバイアスがあり、これらの異質なデータセットを理解し処理するのに苦労します。このバイアスにより、ニューラルネットワークは表形式のデータの多様なカラム内に存在する微妙なニュアンスを識別し解読する能力が制約されます。さらに、ネットワークのスペクトルバイアスにより、高周波成分よりも低周波成分が優先されるため、この課題は複雑なネットワークのエンコードと処理にとって難しい課題となります。 この論文では、Amazonの研究者が表形式の特徴を低周波の表現に変換することで、この課題を克服する革新的なアプローチを提案しています。この変換技術により、ニューラルネットワークのスペクトルバイアスを緩和し、異質な表形式のデータセットに埋め込まれた複雑な情報を理解するために重要な高周波成分をキャプチャすることが可能となります。実験では、表形式データセットと画像データセットのフーリエ成分の徹底した分析により、周波数スペクトルとネットワークの解読能力に関する洞察が提供されます。提案された解決策の重要な点は、周波数を低下させてネットワークの理解力を向上させると同時に、データ表現を変更することによる重要な情報の損失や最適化への逆効果に対する繊細なバランスです。 論文では、周波数を低下させる変換がニューラルネットワークの表形式データ解釈能力に与える影響を包括的に分析しています。図と経験的な証拠は、これらの変換がネットワークの性能を著しく向上させることを示し、特に合成データ内の目標関数の解読において有効です。探求は一般的に使用されるデータ処理方法とその周波数スペクトルへの影響、および後続のネットワーク学習への影響の評価にまで広がります。この入念な検証は、異なるデータセット間でこれらの手法の異なる影響を明らかにし、提案された周波数低下の優れたパフォーマンスと計算効率性を強調しています。 論文からの主なポイント: バイアスとスペクトルの制限による、ニューラルネットワークの異質な表形式データの理解の困難さ。 周波数低下による変換を用いた提案手法により、ニューラルネットワークがこれらのデータセット内の微妙な情報を解読する能力が向上する。 包括的な分析と実験により、提案された手法がネットワークのパフォーマンスと計算効率性を向上させる効果が検証される。
マーク外:AI進捗競争におけるメトリクスゲーミングの落とし穴
「共産主義のネイル工場から資本主義のボット戦まで、この記事では、虚偽の基準や狭視的なハイプサイクルが意味のある進歩を阻害する永遠のリスクに焦点を当てています」
AIの物体認識をどのように進化させることができるのか? このAIの論文は、強化された画像と動画の分析のための普遍的な物体レベルの基礎モデルGLEEを紹介します
画像やビデオの物体認識は、機械に視覚世界を解読する力を与えます。仮想の探偵のように、コンピュータビジョンシステムはピクセルをスキャンし、デジタル体験のキャンバスに描かれた多くの物体を認識、追跡、理解します。このディープラーニングの力による技術的な能力は、自動運転車が都市の風景をナビゲートすることから、視覚的なエンカウンターにより多くの知能を追加する仮想アシスタントまで、変革的な応用の扉を開きます。 中国科学技術大学、字節跳動、ジョンズ・ホプキンズ大学の研究者たちは、画像とビデオの物体認識のための多目的モデルGLEEを紹介しています。GLEEは、物体の位置特定と識別に優れており、タスクに固有の適応なしでさまざまなタスクに対して優れた汎化性能を示します。大規模言語モデルの統合も可能であり、多モーダル研究のための普遍的な物体レベルの情報を提供します。さまざまなデータソースからの知識の取得能力により、効率が向上し、異なる物体認識タスクの処理能力が向上します。 GLEEは、画像エンコーダ、テキストエンコーダ、ビジュアルプロンプタを統合し、多モーダル入力処理と一般化物体表現予測を行います。Objects365、COCO、Visual Genomeなどのさまざまなデータセットで訓練されたGLEEは、オープンワールドのシナリオで物体の検出、セグメンテーション、トラッキング、グラウンディング、識別を行うための統一されたフレームワークを使用します。動的なクラスヘッドを持つMaskDINOに基づいたオブジェクトデコーダは、予測のために類似性計算を使用します。物体検出とインスタンスセグメンテーションでプリトレーニングされた後、結合トレーニングにより、さまざまな下流の画像とビデオのタスクにおいて最先端のパフォーマンスを実現します。 GLEEは、特定のタスクに特化した適応なしで多様な下流のタスクに対応する傑出した汎化性能と拡張性を示しました。物体検出、インスタンスセグメンテーション、グラウンディング、マルチターゲットトラッキング、ビデオインスタンスセグメンテーション、ビデオオブジェクトセグメンテーション、インタラクティブセグメンテーションとトラッキングなど、さまざまな画像とビデオのタスクで優れたパフォーマンスを発揮します。GLEEは他のモデルに統合された場合でも最先端のパフォーマンスを維持し、その表現の多様性と効果的な性能を示します。ゼロショットの汎化性能は、自動的にラベル付けされた大量のデータを組み込むことでさらに向上します。また、GLEEは基盤モデルとしての役割も果たします。 https://arxiv.org/abs/2312.09158 GLEEは、現在のビジュアル基盤モデルの限界を克服し、正確かつ普遍的な物体レベルの情報を提供する画期的な一般物体基盤モデルです。GLEEは多様な物体中心のタスクに堪能であり、ゼロショットの転送シナリオでも特に優れた汎化性能を示します。さまざまなデータソースを使用して一般的な物体表現を組み込むことで、スケーラブルなデータセットの拡張とゼロショットの能力を向上させます。モデルは複数のデータソースをサポートしており、追加の注釈を容易に組み込むことで、さまざまな下流のタスクにおいて最先端のパフォーマンスを実現し、既存のモデルを凌駕します。 これまで行われた研究の範囲と将来の研究の方向は、以下に焦点を当てることができます: 複雑なシナリオや長尾分布を持つチャレンジングなデータセットを扱うGLEEの能力を拡大するための継続的な研究です。 特化したモデルを統合することで、GLEEの普遍的な物体レベル表現を活用し、マルチモーダルなタスクの性能を向上させることを目指しています。 DALL-Eなどのモデルと同様に、広範な画像キャプションのペアをトレーニングすることで、GLEEのテキスト指示に基づいた詳細な画像コンテンツの生成の可能性を探っています。 オブジェクトレベルのタスクへの応用範囲を広げるために、GLEEの物理的な文脈を組み込んだオブジェクトレベルの情報を強化しています。 インタラクティブなセグメンテーションとトラッキングの機能のさらなる開発は、さまざまなビジュアルプロンプトの探索やオブジェクトセグメンテーションのスキルの改善を含みます。
「EPFLとAppleの研究者が4Mをオープンソース化:数十のモダリティとタスクにわたるマルチモーダルな基盤モデルの訓練のための人工知能フレームワーク」
大量の自然言語処理(NLP)タスクを広範に扱える大型言語モデル(LLM)をトレーニングすることは、より人気があります。NLPでこれらのモデルが優れた成功を示しているにもかかわらず、ビジョンのために同様に柔軟でスケーラブルなモデルを作成する必要があります。ビジョンのスケーラビリティと多機能性には、多くの入力モダリティと出力タスクを管理する能力が不可欠です。 ビジョンモデルは、写真、3D、テキストを含むさまざまな感覚入力を処理し、さまざまなタスクを実行する必要があります。ビジョンに関しては、単一の目的でRGB画像でのトレーニングは、生のテキストに対する言語モデリングと同じ結果を生みませんでした。その結果、トレーニングではさまざまなモダリティとタスクを活用する必要があります。 データ、アーキテクチャ、トレーニングの目的は、望ましいビジョン基盤モデルの属性を持つモデルを構築する際に考慮すべき3つの重要なスケーラビリティ要素です。データのスケーラビリティは、性能を向上させるためにより多くのトレーニングサンプルを活用できる能力を指します。アーキテクチャの観点では、性能が増加するにつれてモデルサイズを大きくし、トレーニング時に安定性を保つことを意味します。最後に、スケーラブルなトレーニング目標は、計算コストが急増することなく、増加するモダリティの数に効率的に対応できる必要があります。 スイス連邦工科大学ローザンヌ校(EPFL)とAppleの新しい研究は、これらの3つの領域すべてでスケーラビリティを目指し、さまざまな入力タイプと互換性のある方法を提案しています。 これらの障壁を乗り越えるため、チームは、マルチモーダルなマスクされたモデリングのゴールを持つ単一の統合トランスフォーマーエンコーダーデコーダーをトレーニングする戦略を提案しています。4Mは「Massively Multimodal Masked Modeling」の略で、このアプローチの様々なモダリティに拡張可能な能力を強調しています。このアプローチは、マスクされたモデリングとマルチモーダル学習の最良の特徴を組み合わせています。 強力なクロスモーダル予測コーディング能力と共有シーン表現 反復サンプリングにより、モデルを生成タスクに使用できる 事前トレーニングの目的は、効果的に豊かな表現を学ぶことです 重要なのは、4Mがこれらの利点を保ちながら、多くのプロセスを通じて効率を保つことです。モダリティ固有のトークナイザーを使用することで、モダリティをさまざまな形式でセットや連続の離散トークンに変換し、テキスト、境界ボックス、画像、ニューラルネットワークの特徴など、さまざまなモダリティで単一のトランスフォーマーをトレーニングできます。これにより、表現領域が統一されます。タスク固有のエンコーダーやヘッドはもはや必要ないため、このトークナイゼーションアプローチにより、パラメータ共有が可能になり、互換性、スケーラビリティ、共有性が向上します。 また、4Mは、多くのモダリティで作業するにもかかわらず、入力と目標のマスキングを活用して効率的にトレーニングすることができます。これには、トークンの小さなサブセットをランダムに選択してモデルの入力として使用し、別の小さなサブセットを目標として使用する必要があります。スケーラブルなトレーニング目標を達成するためには、入力トークンと目標トークンの数をモダリティの数から切り離す必要があります。これにより、モダリティの数が増えても計算コストが急速に増加することを防げます。CC12Mや他の利用可能な単一モーダルまたはテキスト-画像ペアデータセットを使用して、強力な擬似ラベリングネットワークを使用してモーダルに整合したバインディングデータを作成します。 この擬似ラベリング手法により、異なる大規模データセットでのトレーニングが可能になります。4Mモデルは、出発点でさまざまな重要な視覚タスクで優れた結果を出すだけでなく、未知のダウンストリームタスクや入力モダリティでも注目すべき結果を達成するために微調整することができます。 さらに、どのモダリティでも条件付きで操作可能な操作可能な生成モデルをトレーニングするために、マルチモーダルなマスクされたモデリングゴールを利用する必要があります。これにより、ユーザーの意図やさまざまなマルチモーダルな編集タスクの多様な表現が可能になります。その後、4Mのパフォーマンスに影響を与えるパラメータを徹底的に分析します。この包括的な分析と、この手法の容易さと汎用性により、4Mは多くのビジョンタスクと今後の開発に大いに期待されます。
システムデザインシリーズ:ゼロから高性能データストリーミングシステムを構築するための究極のガイド!
「データストリーミング」は非常に複雑な印象を受けますし、「データストリーミングパイプライン」なんてなおさらです専門用語に囚われる前に、まずはその意味について話す前に、理由から始めましょう...
「ヴォン・グームと出会う 大規模な言語モデルにおけるデータ毒化に対する革新的なAIアプローチ」
データの毒化攻撃は、訓練データセットに誤ったデータを注入することで機械学習モデルを操作します。モデルが実世界のデータに触れると、不正確な予測や意思決定につながる可能性があります。データの毒化攻撃はLLMに対して脆弱になり得るため、対象のプロンプトや関連概念に対する応答を歪めることがあります。この問題に対処するために、Del Complexが行った研究は、VonGoomという新しい手法を提案しています。この手法は、目的を達成するために数百から数千の戦略的な毒入力のみを必要とします。 VonGoomは、数百から数千の戦略的に配置された入力のみで実現可能であることを示し、数百万の毒サンプルが必要であるという考えに挑戦します。VonGoomは、訓練中にLLMを誤導するために微妙な操作を施した見かけ上無害なテキスト入力を作り出し、さまざまな歪みを導入します。それは、LLMトレーニングで使用される数億のデータソースを毒化しています。 この研究では、LLMがデータの毒化攻撃に対してどのように脆弱であるかを探求し、LLMに対するプロンプト固有の毒化攻撃の新しい手法であるVonGoomを紹介しています。一般的な全範囲のエピソードとは異なり、VonGoomは特定のプロンプトやトピックに焦点を当てています。訓練中にLLMを誤導するために微妙な操作を施した見かけ上無害なテキスト入力を作り出し、微妙なバイアスから明白なバイアス、誤情報、概念の破壊まで、さまざまな歪みを導入します。 VonGoomはLLMに対するプロンプト固有のデータの毒化の手法です。訓練中にモデルを誤導し、学習した重みを乱すために微妙な操作を施した見かけ上無害なテキスト入力を作り出します。VonGoomは微妙なバイアス、明白なバイアス、誤情報、概念の破壊など、さまざまな歪みを導入します。この手法は、クリーンネイバーの毒データとガイド付きの摂動といった最適化技術を使用し、さまざまなシナリオで有効性を示しています。 約500〜1000の少数の毒入力を注入すると、ゼロから訓練されたモデルの出力が大幅に変わることが示されました。事前学習済みモデルの更新を含むシナリオでは、750〜1000の毒入力を導入することでモデルの対象概念への応答が効果的に妨害されました。 VonGoom攻撃は、意味的に変化させられたテキストサンプルがLLMの出力に影響を与えることを示しました。その影響は関連するアイデアにまで及び、毒性サンプルの影響が意味的に関連する概念に伝わる「ブリードスルー効果」が生まれました。比較的少数の毒入力での戦略的な実装により、LLMが洗練されたデータの毒化攻撃に対して脆弱であることが明らかにされました。 まとめると、行われた研究は以下の点で要約されます: VonGoomは、LLMを訓練中に誤導するためのデータ操作手法です。 この手法は、モデルを誤導する微妙な変更をテキスト入力に加えることで実現されます。 小規模な入力でのターゲット攻撃は、目標を達成するために実現可能で効果的です。 VonGoomは、バイアス、誤情報、概念の破壊など、さまざまな歪みを導入します。 この研究では、一般的なLLMデータセット内の特定の概念の訓練データの密度を分析し、操作の機会を特定しています。 この研究は、LLMがデータの毒化攻撃に対して脆弱であることを強調しています。 VonGoomは、様々なモデルに大きな影響を与え、この分野に広範な影響を与える可能性があります。
スタンフォード研究者がGLOWとIVESを使用して、分子ドッキングとリガンド結合位姿の予測を変革しています
ディープラーニングは、スコアリング関数の改善により、分子ドッキングの向上の可能性を持っています。現在のサンプリングプロトコルは、正確なリガンド結合ポーズを生成するために事前情報が必要であり、スコアリング関数の正確さが制限されています。GLOWとIVESという2つの新しいプロトコルは、スタンフォード大学の研究者によって開発され、この課題に対応し、ポーズのサンプリング効果を向上させることを示しています。AlphaFoldで生成されたタンパク質構造を含むさまざまなタンパク質構造でのベンチマークテストにより、これらの手法の妥当性が確認されています。 分子ドッキングにおけるディープラーニングは、しばしば剛体タンパク質ドッキングデータセットに依存しており、タンパク質の柔軟性を無視しています。一方、柔軟ドッキングはタンパク質の柔軟性を考慮していますが、精度が低い傾向があります。GLOWとIVESは、これらの制限に対応する高度なサンプリングプロトコルであり、特に動的結合ポケットでベースラインメソッドを常に上回っています。これは、タンパク質リガンドドッキングにおけるリガンドポーズのサンプリングを改善するために重要であり、ディープラーニングベースのスコアリング関数の向上に重要です。 分子ドッキングは、薬物探索においてタンパク質結合サイトへのリガンド配置を予測します。従来の方法は正確なリガンドポーズの生成に課題を抱えています。ディープラーニングは正確性を向上させることができますが、効果的なポーズのサンプリングに依存しています。GLOWとIVESは、チャレンジングなシナリオに対してサンプルを改善し、正確性を向上させるための進んだサンプリングプロトコルです。AlphaFoldで生成された未リガンド化または予測されたタンパク質構造に適用可能であり、キュレーションされたデータセットとオープンソースのPythonコードも提供しています。 GLOWとIVESは、分子ドッキングのための2つのポーズサンプリングプロトコルです。GLOWはソフト化された分散力ポテンシャルを利用してリガンドポーズを生成し、IVESは複数のタンパク質構造を組み込むことで正確性を向上させます。ベースラインメソッドとのパフォーマンス比較により、GLOWとIVESの優位性が示されています。クロスドッキングケースにおける正しいポーズの割合を測定するテストセットの評価は、IVESの効率において重要なシードポーズの品質を示しています。 GLOWとIVESは、リガンドポーズのサンプリングにおいてベースラインメソッドを上回る正確性を持ち、チャレンジングなシナリオやAlphaFoldベンチマークにおいて顕著なタンパク質の構造変化にも優れています。テストセットの評価により、正しいポーズのサンプリング確率の優越性が確認されています。IVESは複数のタンパク質構造を生成することで、タンパク質構造の幾何学的なディープラーニングにおいて、より少ない構造でSchrodinger IFD-MDと同様のパフォーマンスを達成します。GLOWとIVESによって生成された5,000のタンパク質リガンドペアのリガンドポーズデータセットは、ディープラーニングベースのスコアリング関数の開発と評価において貴重なリソースとなります。 https://arxiv.org/abs/2312.00191 結論として、GLOWとIVESは、基本的な技術よりも効果的な2つのポーズサンプリング方法であり、特に困難なシナリオとAlphaFoldベンチマークにおいて優れた性能を発揮しています。IVESでは複数のタンパク質構造が生成されるため、幾何学的ディープラーニングに非常に有利です。また、GLOWとIVESが提供する5,000のタンパク質リガンドペアのリガンドポーズを含むデータセットは、分子ドッキングのディープラーニングベースのスコアリング関数に取り組んでいる研究者にとって貴重な資源です。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.