Learn more about Search Results MarkTechPost - Page 149
- You may be interested
- 地図の課題に挑む:「#30DayMapChallenge...
- 「効率的な変数選択のための新しいアルゴ...
- 感情AIの科学:アルゴリズムとデータ分析...
- データウェアハウス:情報ストレージの不...
- 巨大なデータベース内のデータ検索を加速...
- シンガポール国立大学の研究者が提案するM...
- バイデン大統領がAI実行命令を発布し、安...
- 「AIチャットボットが言語理解に取り組む」
- 分散システム設計におけるコンセンサスア...
- このAI論文は『プライバシー保護MAE-Align...
- 「2024年を定義する7つのデータサイエンス...
- ジュネーブ大学の研究者は、多剤耐性(MDR...
- MSSQL vs MySQL データベースのパワーハウ...
- 「AI時代における組織の価値を引き出す」
- ペンシルベニア大学の研究者たちは、腎臓...
最高のウイルス対策ソフトウェア2023年
現代のデジタルセキュリティにおいて、アンチウイルスソフトウェアの使用はコンピュータのセキュリティに不可欠です。アンチウイルスソフトウェアは、コンピュータやモバイルデバイスからウイルスや他の悪意のあるデジタル物を避け、スキャン、検出、削除するのに役立ちます。それが2023年に利用可能な最高のアンチウイルスソフトウェアのリストをまとめるために時間と労力を費やした理由です。 Bitdefender BitdefenderのWindows用アンチウイルスパッケージのいくつかは、サードパーティのテストで高評価を受け、手頃な価格で購入できます。Antivirus Plusの基本バージョンは、3つのWindowsコンピューターに対して1年間の連続保護を提供します。さらに、含まれているVPNを使用してオンラインアクティビティを隠すことができ、Bitdefenderの頻繁なウイルス署名の更新を利用することができます。フィッシング、ランサムウェア、ネットワークの脅威は、Standard Protection Suiteによって中和されます。また、マルウェアに感染したマシンを修復しやすくするために、「救助環境」に再起動することもできます。ファイアウォール、パスワードマネージャ、マイクロフォンやウェブカメラ用のプライバシーシールドなどの追加機能を備えたアンチウイルスソフトウェアもアップグレードとして利用可能です。Windows用のアンチウイルスソフトウェアの価格は、年間$59.99から$159.99です。 Norton 360 Deluxe Nortonの対マルウェア製品は、最高のものの一つであり、システムパフォーマンスに過度の負荷をかけることはありません。Norton 360 Deluxeは、価格と機能のバランスが優れています。クロスプラットフォームに対応したパスワードマネージャ、無制限のVPNサービス、ダークウェブでのユーザーの活動の追跡、親権制限、最大50GBのストレージスペースを提供しています。Norton 360 PremiumとNorton 360 Platinumでは、それぞれ10台と20台のデバイスをクラウドストレージとアンチウイルス/VPN保護で保護することができます。一部の主要なアンチウイルスソフトウェアメーカーとは異なり、Nortonのパッケージにはファイルシュレッダーやファイル暗号化、暗号化されたウェブブラウザは含まれていません。ただし、その他のデジタルセキュリティ機能はいくつかのパッケージに含まれています。 Kaspersky KasperskyのWindows向け製品は、検出率の面で優れており、システムパフォーマンスには軽度から中程度の影響を受けます。Kaspersky Antivirusは、仮想キーボード、オンラインアカウント管理、ランサムウェア保護を提供します。これらの機能は、最も基本的な形態(£12.49 UK/$29.99 US)でも利用できます。ただし、より多くのツールを提供するBitdefender Antivirus Plusの方が優れています。ミッドレンジのスイートでは、Kaspersky Internet…
SAM-PTとは SAM(Segment Anything Model)の機能を拡張し、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです
ロボティクス、自動運転、ビデオ編集など、多くのアプリケーションはビデオセグメンテーションの恩恵を受けています。深層ニューラルネットワークは過去数年間で大きな進歩を遂げています。しかし、既存の手法は未試験データに対してサポートが必要であり、特にゼロショットのシナリオでは困難です。これらのモデルは、一貫したパフォーマンスを維持するために、特定のビデオセグメンテーションデータをファインチューニングする必要があります。ゼロショットの設定やこれらのモデルが訓練されていないビデオドメインに移され、訓練分布外のオブジェクトカテゴリを含む場合、半教師ありビデオオブジェクトセグメンテーション(VOS)およびビデオインスタンスセグメンテーション(VIS)の現在の手法は、未知のデータを扱う際に性能のギャップが生じます。 ビデオセグメンテーションタスクにおいて、画像セグメンテーションドメインから成功したモデルを使用することは、これらの問題に対する潜在的な解決策を提供します。Segment Anything(SAM)はそのような有望なコンセプトの一つです。SA-1Bデータセットは、1億枚以上のマスクを持つ1,100万枚以上の画像で構成され、SAMのトレーニンググラウンドとして機能しました。SAMの優れたゼロショットの汎化能力は、巨大なトレーニングセットによって可能になりました。このモデルは、ゼロショットの転送プロトコルを使用してさまざまな下流タスクで信頼性の高い動作をすることが証明されており、非常にカスタマイズ可能で、単一の前景点から高品質なマスクを作成することができます。 SAMは優れたゼロショットの画像セグメンテーション能力を示します。しかし、ビデオセグメンテーションの問題には自然に適していません。最近、SAMはビデオセグメンテーションを含めるように改良されました。例えば、TAMはSAMを最先端のメモリベースのマスクトラッカーXMemと組み合わせます。SAM-TrackはDeAOTとSAMを組み合わせる方法と同様です。これらの手法は、主にSAMのインディストリビューションデータでのパフォーマンスを回復させますが、より困難なゼロショットの条件に適用すると不十分です。SegGPTなどのSAMを必要としない他のビジュアルプロンプティングによって、多くのセグメンテーションの問題が解決されるかもしれませんが、初期のビデオフレームにマスク注釈が必要です。 この問題は、特に研究者が新しい状況に一般化し、さまざまなビデオドメインで高品質なセグメンテーションを信頼性良く生成するための簡単な手法を作成しようとする中で、ゼロショットのビデオセグメンテーションにおいて大きな障害となります。ETH Zurich、HKUST、EPFLの研究者は、Segment Anything Meets Point Tracking(SAM-PT)を紹介しています。このアプローチは、スパースポイントトラッキングとSAMを使用して、ビデオをセグメンテーションする最初のアプローチであり、問題に新たな解決策を提供します。マスクの伝播やオブジェクト中心の密な特徴マッチングではなく、映画にエンコードされた詳細なローカル構造データを使用してポイントをトラッキングする、ポイント駆動の方法を提案しています。 そのため、ターゲットアイテムを示すために最初のフレームでスパースポイントの注釈のみが必要であり、未知のオブジェクトに対する優れた汎化能力を提供します。この戦略は、オープンワールドのUVOベンチマークで証明された強みを持っています。この方法により、SAMの柔軟性を維持しながら、ビデオセグメンテーションの能力を効果的に拡張できます。PIPSなどの現代のポイントトラッカーの適応性を活用し、これらのツールを使用して予測されたスパースポイント軌跡でSAM-PTを促進します。彼らは、SAMを促進するための最も適したアプローチは、マスクラベルからのK-Medoidsクラスターセンターを使用してトラッキングする場所を初期化することであると結論づけました。 背景とターゲットアイテムを明確に区別するために、ポジティブポイントとネガティブポイントの両方をトラッキングします。彼らは、両方のポイントを使用して出力マスクをさらに改善する異なるマスクデコーディングプロセスを提案しています。また、トラッキングの精度を時間とともに向上させるためのポイント再初期化技術も開発しました。この方法では、信頼性が低いまたは遮蔽されたポイントは破棄され、オブジェクトのセクションやセグメントが後続フレームで可視化される場合(例:オブジェクトの回転時)、それらのポイントが追加されます。 特筆すべきは、彼らのテスト結果が、SAM-PTがいくつかのビデオセグメンテーションベンチマークで既存のゼロショットアプローチと同等またはそれ以上の性能を発揮することを示していることです。これは、トレーニング中にビデオセグメンテーションデータが必要なかったため、彼らの手法がどれだけ適応性があり信頼性があるかを示しています。ゼロショットの設定では、SAM-PTはビデオセグメンテーションタスクの進捗を加速することができます。彼らのウェブサイトには、複数のインタラクティブなビデオデモがあります。
HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化
テキストガイド拡散モデルを利用した写真生成の現実感と多様性の向上により、関心が大幅に高まっています。大規模モデルの導入により、写真の作成時には前例のないほどのクリエイティブな柔軟性がユーザーに与えられるようになりました。その結果、画像操作にこれらの強力なモデルを使用する方法を調査するための継続的な研究プロジェクトが開発されました。テキストベースの画像操作に関する最近の進歩が示されました。他の研究者は最近、拡散モデルに対する意味的なガイダンス(SEGA)のアイデアを発表しました。 SEGAは、高度な画像の構成と編集のスキルを持ち、現在の生成プロセス全体で外部の監視や計算を必要としませんでした。SEGAに関連するアイデアベクトルは、信頼性があり、独立しており、組み合わせが柔軟であり、単調にスケーリングすることが示されました。さらなる研究では、Prompt-to-Promptなどのセマンティック理解に基づく画像の生成方法について検討しました。この方法では、モデルのクロスアテンション層のセマンティックデータを使用してピクセルとテキストプロンプトトークンをリンクさせます。SEGAはトークンベースの条件付けを必要とせず、多くの意味的な変更の組み合わせを可能にする一方、クロスアテンションマップ上の操作により、生成される画像への多様な変更が可能になります。 実際の写真のテキストガイド編集には、提供された画像を反転させるために現代の技術が必要です。これには、拡散プロセスに入力された場合に入力画像となる一連のノイズベクトルを見つける必要があります。ほとんどの拡散ベースの編集研究では、単一のノイズマップから生成された画像への確定的マッピングであるDenoising Diffusion Implicit Model(DDIM)技術が使用されています。他の研究者によって、Denoising Diffusion Probabilistic Model(DDPM)スキームの反転アプローチも提案されました。 DDPMスキームの拡散生成プロセスで使用されるノイズマップが、従来のDDPMサンプリングで使用されるものとは異なる動作をするため、より大きな分散を持ち、タイムステップ間でより相関があります。ノイズマップの計算には、新しい方法が提案されています。DDIMベースの反転技術とは対照的に、Edit Friendly DDPM Inversionは、テキストベースの編集ジョブで最先端の結果を提供し、各入力画像とテキストに対してさまざまな出力を生成することが実証されています。このレビューでは、HuggingFaceの研究者がSEGAとDDPM反転手法またはLEDITSの組み合わせと統合を気軽に調査することを目的としています。 セマンティックに指示された拡散生成メカニズムは、LEDITSで変更されます。このアップデートにより、SEGAの手法が実際の写真に拡張されます。両手法の同時編集機能を利用する統合編集戦略が提案され、最先端の技術を使用して競争力のある質的な結果が示されています。HuggingFaceデモとコードも提供されています。
JourneyDBとは:多様かつ高品質な生成画像が400万枚収録された大規模データセットであり、マルチモーダルな視覚理解のためにキュレーションされています
ChatGPTやDALL-Eなどの大規模な言語モデルの進化と、生成型人工知能の人気の上昇により、人間のようにコンテンツを生成することはもはや夢ではありません。質問応答、コードの補完、テキストの説明からのコンテンツの生成、テキストと画像の両方からの画像の作成など、すべてが実現可能になりました。最近、AIは人間の創造力に匹敵するまでになりました。OpenAIが開発した有名なチャットボットであるChatGPTは、GPT 3.5のトランスフォーマーアーキテクチャを基にしており、ほとんどの人に使用されています。最新バージョンのGPT、つまりGPT 4は、以前のバージョンであるGPT 3.5とは異なり、マルチモーダルな性質を持っています。ChatGPTは、テキストの入力のみを受け付けることができます。 拡散モデルの開発により、生成コンテンツの品質は大幅に向上しました。これらの進歩により、DALLE、Stability AI、Runway、MidjourneyなどのAI生成コンテンツ(AIGC)プラットフォームがますます人気を集めています。これらのシステムは、自然言語で提供されるテキストプロンプトに基づいて高品質の画像を作成することができます。マルチモーダルな理解の進歩にもかかわらず、ビジョン言語モデルはまだ生成された視覚的なものを理解するのに苦労しています。実際のデータに比べて、合成画像はより大きな内容とスタイルの変動性を示し、モデルが適切にそれらを理解することははるかに困難です。 これらの問題に対処するため、研究者のチームはジャーニーDBという大規模なデータセットを導入しました。このデータセットは、生成画像のマルチモーダルな視覚理解のために特別に作成された400万以上のユニークな高品質な生成写真を含んでいます。このデータセットは、コンテンツとスタイルの解釈の両方に焦点を当て、生成された画像の理解能力を訓練および評価するための完全なリソースを提供することを目指しています。 提案されたベンチマークに含まれる4つのタスクは以下の通りです。 プロンプトの反転 – プロンプトの反転は、ユーザーが画像を生成するために使用したテキストプロンプトを見つけるために使用されます。これにより、モデルの生成画像の内容とスタイルの理解がテストされます。 スタイルの検索 – チームはスタイルの検索に焦点を当て、モデルがスタイル属性に基づいて似たような生成画像を識別して取得することを目指しています。これにより、モデルが生成画像内のスタイルの微妙なニュアンスを識別する能力が評価されます。 画像キャプション – 画像キャプションでは、モデルに対して生成画像の内容を正確に表現する記述的なキャプションを生成するように指示されます。これにより、モデルのビジュアルコンテンツを効果的に自然言語で理解および表現する能力が評価されます。 ビジュアル質問応答 – ビジュアル質問応答(VQA)を通じて、モデルは生成画像に関連する質問に正確に答えることができます。モデルはビジュアルおよびスタイルのコンテンツを理解し、与えられた質問に基づいて関連する回答を提供することができます。 チームは4,692,751の画像とテキストのプロンプトのペアを収集し、トレーニングセット、バリデーションセット、テストセットに分割しました。チームはベンチマークデータセットを使用して、幅広い実験を行いました。その結果、現在の最先端のマルチモーダルモデルは、実際のデータセットと同じくらいうまく機能しないことがわかりましたが、提案されたデータセットに対するいくつかの調整により、性能が大幅に向上しました。
Amazon SageMaker Ground Truthのはじめ方
イントロダクション ジェネレーティブAIの時代において、データ生成はピークに達しています。正確な機械学習およびAIモデルの構築には、高品質なデータセットが必要です。データセットの品質保証は最も重要なタスクであり、不正確な分析や特定できない予測は、どのビジネスの全体的なレポに影響を与え、数十億または数兆の損失をもたらす可能性があります。 出典:Forbes データラベリングは、AIモデルが理解できるようにするためのデータ品質保証の第一歩です。人間にデータラベルを付けることはできないため、日々生成される無制限のデータに人間がラベルを付けることはできません。そのため、ここでは正確にラベル付けされたデータセットを作成するための素晴らしいテクニックであるAmazon SageMaker Ground Truthについて学びます。 この記事は、データサイエンスブログマラソンの一部として公開されました。 Amazon SageMaker Ground Truthとは何ですか? Amazon SageMaker Ground Truthは、データラベリングタスクを実行して効率的で高精度なデータセットを作成するためのセルフサービスオファリングです。Ground Truthでは、サードパーティのベンダーやAmazon Mechanical Turk、または私たち自身のワークフォースを介して人間の注釈者を使用することもできます。また、エンドツーエンドのラベリングジョブを設定するための管理された体験も提供しています。 出典:Edlitera.com SageMaker Ground Truthは、データ収集やラベリングの手間をかけずに数百万の自動ラベル付け合成データを生成することができます。Ground Truthは、画像、テキスト、ビデオなどさまざまなデータタイプのデータラベリング機能を提供します。これにより、テキスト分類、セグメンテーションセグメンテーション、オブジェクト検出、画像分類のタスクを機械学習モデルが容易に行えるようになります。…
このAI論文は、DreamDiffusionという「脳のEEG信号から直接高品質の画像を生成するための思考イメージモデル」を紹介しています
脳活動から画像を生成する能力は、特にテキストから画像生成のブレイクスルーにより、近年著しい進歩を遂げています。しかし、脳の脳波(EEG)信号を使用して思考を直接画像に翻訳することは、興味深い課題です。DreamDiffusionは、事前にトレーニングされたテキストから画像の拡散モデルを利用して、EEG信号だけから現実的で高品質な画像を生成するためにこのギャップを埋めることを目指しています。この手法は、EEG信号の時間的側面を探求し、ノイズやデータの限定に対処し、EEG、テキスト、画像の空間を整列させることを目指しています。DreamDiffusionは、効率的な芸術的創造、夢の視覚化、自閉症や言語障害を持つ人々に対する潜在的な治療的応用の可能性を開拓します。 過去の研究では、機能的磁気共鳴画像法(fMRI)やEEG信号などの脳活動から画像を生成する手法が探求されてきました。fMRIベースの手法は高価で非携帯性のある装置が必要ですが、EEG信号はよりアクセスしやすく低コストな代替手段を提供します。DreamDiffusionは、MinD-Visなどの既存のfMRIベースの手法を活用し、事前にトレーニングされたテキストから画像の拡散モデルの力を利用しています。DreamDiffusionは、EEG信号固有の課題に対処するため、マスクされた信号モデリングを使用してEEGエンコーダを事前にトレーニングし、EEG、テキスト、画像の空間を整列させるためにCLIP画像エンコーダを利用します。 DreamDiffusionの方法は、マスクされた信号の事前トレーニング、事前トレーニングされたスタブル拡散を使用した制約付きEEG-画像ペアの微調整、CLIPエンコーダを使用したEEG、テキスト、画像の空間の整列の3つの主要なコンポーネントで構成されています。マスクされた信号モデリングは、コンテキストの手がかりに基づいてマスクされたトークンを再構築することにより、効果的かつ堅牢なEEG表現を可能にするために使用されます。CLIP画像エンコーダは、EEG埋め込みをさらに洗練し、それらをCLIPテキストと画像の埋め込みと整列させるために組み込まれます。結果として得られるEEG埋め込みは、品質が向上した画像生成に使用されます。 DreamDiffusionの制約事項 DreamDiffusionは、その驚異的な成果にもかかわらず、認識すべき制約事項があります。主な制約事項の1つは、EEGデータがカテゴリレベルでしか粗い情報を提供しないことです。いくつかの失敗例では、形状や色が似た他のカテゴリに特定のカテゴリがマッピングされたことが示されました。この不一致は、人間の脳が物体認識において形状と色を重要な要素として考慮していることに起因する可能性があります。 これらの制約にもかかわらず、DreamDiffusionは神経科学、心理学、人間とコンピュータの相互作用の様々な応用において重要な潜在能力を持っています。EEG信号から直接高品質の画像を生成する能力は、これらの分野での研究と実用化の新たな可能性を開拓します。さらなる進展により、DreamDiffusionは制約を克服し、幅広い学際的な領域に貢献することができます。研究者や愛好家は、GitHub上でDreamDiffusionのソースコードにアクセスできるため、この興味深い分野でのさらなる探求と開発を支援します。
3Dで「ウォーリーを探せ」をプレイする:OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです
画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオブジェクトをミリ秒の間にセグメント化することが可能になり、結果は非常に正確です。一方、3Dの場合、インスタンスセグメンテーションという別の課題があり、2D画像セグメンテーションの性能に追いつくまでにはまだ時間がかかります。 3Dインスタンスセグメンテーションは、ロボット工学や拡張現実などの分野で重要な課題として浮上しています。3Dインスタンスセグメンテーションの目的は、3Dシーン内のオブジェクトインスタンスのマスクとそれに対応するカテゴリを予測することです。この分野で注目すべき進展がある一方、既存の手法は主にクローズドセットのパラダイムの下で操作され、トレーニングに使用されたデータセットに制約されたオブジェクトカテゴリの集合に密接に関連しています。 この制約には2つの根本的な問題があります。まず、クローズドボキャブラリーのアプローチでは、トレーニング中に遭遇したオブジェクトカテゴリを超えたシーンを理解するのが困難であり、新しいオブジェクトの認識や誤分類の可能性があります。また、これらの手法は自由形式のクエリを処理する能力に限界があり、特定のオブジェクトの特性や説明を理解して行動する必要があるシナリオでの効果的な処理が妨げられます。 これらの課題に対処するために、オープンボキャブラリーのアプローチが提案されています。これらのアプローチは自由形式のクエリを処理でき、トレーニングデータに存在しないオブジェクトカテゴリのゼロショット学習を可能にします。より柔軟で広範なアプローチを採用することで、オープンボキャブラリーの手法はシーン理解、ロボット工学、拡張現実、3Dビジュアルサーチなどのタスクでいくつかの利点を提供します。 オープンボキャブラリーの3Dインスタンスセグメンテーションを可能にすることで、複雑な3Dシーンの理解と操作に依存するアプリケーションの柔軟性と実用性を大幅に向上させることができます。それでは、有望な3DインスタンスセグメンテーションモデルであるOpenMask3Dについて見てみましょう。 OpenMask3Dはオブジェクトのインスタンスをセグメント化することができます。出典:https://arxiv.org/pdf/2306.13631.pdf OpenMask3Dは、クローズドボキャブラリーのアプローチの制約を克服することを目指しています。事前に定義された概念を超えた推論を行いながら、3Dオブジェクトのインスタンスマスクを予測し、マスクフィーチャーレプリゼンテーションを計算するタスクに取り組みます。OpenMask3DはRGB-Dシーケンス上で動作し、対応する3D再構築ジオメトリを活用して目標を達成します。 それは、クラスに関係ないマスク提案ヘッドとマスクフィーチャーアグリゲーションモジュールからなる2段階のパイプラインを使用しています。OpenMask3Dは、インスタンスが明らかなフレームを識別し、各マスクの最良の画像からCLIPフィーチャーを抽出します。得られたフィーチャーレプリゼンテーションは複数のビューで集約され、各3Dインスタンスマスクに関連付けられます。このインスタンスベースのフィーチャー計算アプローチにより、OpenMask3Dは与えられたテキストクエリとの類似性に基づいてオブジェクトのインスタンスマスクを取得する能力を備え、クローズドボキャブラリーパラダイムの制約を超えたオープンボキャブラリーの3Dインスタンスセグメンテーションを実現します。 OpenMask3Dの概要。出典:https://arxiv.org/pdf/2306.13631.pdf OpenMask3Dは、オブジェクトインスタンスごとにマスクフィーチャーを計算することで、任意のクエリとの類似性に基づいてオブジェクトインスタンスマスクを取得することができます。また、OpenMask3Dは、トレーニングまたはファインチューニングされたモデルよりも、新しいオブジェクトやロングテールのオブジェクトに関する情報を保持します。さらに、セマンティクス、ジオメトリ、アフォーダンス、材料特性などのオブジェクトの特性に関連する自由形式のクエリに基づいてオブジェクトインスタンスのセグメンテーションを可能にすることで、クローズドボキャブラリーパラダイムの制約を超えます。
Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解
最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これらの分野は、著者や詩人が執筆スタイルを洗練させるのを手助けするだけでなく、タンパク質構造の予測などのように複雑なものもあります。さらに、MLモデルが医療診断、クレジットカード詐欺検出などの重要な産業で人気を集めるにつれて、エラーに対する許容範囲は非常に低くなります。そのため、人間がこれらのアルゴリズムをより深く理解する必要があります。なぜなら、学術界がより堅牢なモデルを設計し、バイアスやその他の懸念事項に関する現行モデルの欠陥を修復するためには、MLモデルが予測を行う方法のより大きな知識を得ることが重要です。 ここで、解釈可能な(IAI)および説明可能な(XAI)人工知能技術が重要になり、その違いを理解する必要性がより明確になります。これらの2つの違いは、学者にさえ常に明確ではなく、解釈性と説明性という用語は、MLアプローチを指す際に時々同義的に使用されます。MLフィールドでの人気が高まるにつれて、IAIとXAIモデルの区別をすることは重要です。これにより、組織が使用ケースに最適な戦略を選択するための支援が可能になります。 要するに、解釈可能なAIモデルは、モデルの要約とパラメータを見るだけで人間が簡単に理解できるものです。つまり、IAIモデルは独自の説明を提供します。一方、説明可能なAIモデルは、人間が追加の方法なしでは理解することができない非常に複雑な深層学習モデルです。これが、説明可能なAIモデルがなぜ特定の決定が下されたかを明確に示すことができるが、その決定に至るまでの手順はわからない理由です。この記事の残りでは、解釈性と説明性の概念についてより詳しく説明し、例を使って理解します。 1. 解釈可能な機械学習 私たちは、何かの意味を理解することが可能であれば、それは解釈可能であると主張します。つまり、その原因と結果を明確に特定することができます。例えば、誰かが夕食後にチョコレートをたくさん食べると、いつも眠れなくなります。このような状況は解釈することができます。MLの領域では、モデルのパラメータに基づいて人々が自分自身で理解できる場合、モデルは解釈可能と言われます。解釈可能なAIモデルでは、人間はモデルが特定の解を導き出す方法を簡単に理解することができますが、その結果に至るための基準が合理的であるかどうかはわかりません。意思決定木や線形回帰は、解釈可能なモデルの例です。以下の例を使って解釈性をより良く説明しましょう。 貸付申請の承認を決定するために訓練された決定木モデルを使用する銀行を考えてみましょう。申請者の年齢、月収、未払いの他のローンなどが決定に考慮されます。特定の決定がなされた理由を理解するために、木のノードを簡単にたどることができ、決定基準に基づいて最終結果がどうなったかを理解することができます。例えば、決定基準が、学生ではない人の月収が$3000未満の場合、ローン申請は承認されないと指定することができます。しかし、これらのモデルを使用して決定基準を選択する背後の理論は理解できません。例えば、このシナリオでは、非学生の申請者に対して$3000以上の最低収入要件が適用される理由は、モデルが説明できません。 モデルが予測を生成する方法を理解するためには、重み、特徴などを含むさまざまな要素を解釈することが必要です。ただし、これはモデルがかなりシンプルな場合にのみ可能です。線形回帰モデルや決定木は、パラメータの数が少ないです。モデルが複雑になるにつれて、この方法では理解することができなくなります。 2. 説明可能な機械学習 説明可能なAIモデルは、内部の仕組みが人間にとって理解することができないほど複雑なものです。モデルの特徴を入力とし、最終的に生成される予測を出力とするブラックボックスモデルも、MLアルゴリズムの別名です。人間は、これらの「ブラックボックス」システムを理解するために追加の手法が必要です。そのようなモデルの例としては、多数の決定木からなるランダムフォレスト分類器があります。このモデルでは、最終予測を決定する際に各ツリーの予測が考慮されます。LogoNetなどのニューラルネットワークベースのモデルを考慮すると、この複雑さはさらに増します。このようなモデルの複雑さが増すにつれて、モデルの重みを見るだけではモデルを理解することは不可能です。 先述のように、人間は洗練されたアルゴリズムがどのように予測を生成するかを理解するために追加の手法が必要です。研究者は、入力データとモデルが生成する予測との間の関連性を見つけるためにさまざまな手法を利用しており、これによってMLモデルの振る舞いを理解するのに役立ちます。このようなモデルに依存しない手法(モデルの種類に依存しない手法)には、部分依存プロット、SHapley加法的説明(SHAP)依存プロット、代替モデルなどが含まれます。さらに、異なる特徴の重要性を強調するいくつかのアプローチも採用されています。これらの戦略は、各属性がターゲット変数を予測するためにどのように利用されるかを評価します。スコアが高いほど、その特徴はモデルにとってより重要であり、予測に大きな影響を与えます。 しかし、まだ残る疑問は、なぜMLモデルの解釈性と説明可能性を区別する必要があるのかということです。上記の議論から明らかなように、いくつかのモデルは他のモデルよりも解釈しやすいです。単純に言えば、あるモデルが他のモデルよりも予測の仕組みが人間に理解しやすい場合、そのモデルはより解釈しやすいと言えます。また、一般的には、ニューラルネットワークを含むより複雑なモデルは、より解釈しやすいですが、精度が低くなる傾向があります。したがって、高い解釈性は通常、低い精度の代償となります。例えば、画像認識にロジスティック回帰を使用すると、劣った結果になります。一方、モデルの説明可能性は、高いパフォーマンスを達成したいがモデルの振る舞いを理解する必要がある場合により重要な役割を果たします。 したがって、企業は新しいMLプロジェクトを開始する前に、解釈性が必要かどうかを考慮する必要があります。データセットが大きく、データが画像やテキストの形式である場合、ニューラルネットワークは高いパフォーマンスで顧客の目標を達成することができます。このような場合、パフォーマンスを最大化するために複雑な手法が必要な場合、データサイエンティストは解釈性よりもモデルの説明可能性に重点を置きます。このため、モデルの説明可能性と解釈性の違いを理解し、どちらを優先するかを知ることが重要です。
Covid-19への闘いを加速する:研究者がAIによって生成された抗ウイルス薬を検証し、将来の危機における迅速な薬剤開発の道を開拓
IBMとオックスフォード大学の研究者による最近の研究により、抗ウイルス薬の開発における画期的な成果が明らかになりました。研究者は生成型人工知能(AI)を利用して、Covid-19を引き起こすSARS-CoV-2ウイルスを阻止する可能性のある新しい分子を設計しました。この手法は成功し、従来の方法を使用する場合よりもずっと短い時間で、チームは4つの潜在的なCovid-19抗ウイルス薬を特定しました。この研究は、Science Advancesに掲載され、危機時に新しい治療法を探すために生成型AIの力を示しています。 従来の薬剤開発プロセスは通常遅く、時間がかかり、10年以上かかることもあります。しかし、Covid-19パンデミックは新しい治療法の迅速な開発を必要とし、学界と産業界の間で前例のない協力が行われました。成功した多くの薬剤は既存の治療法を再利用したものです。しかし、ウイルスが変異するため、これらの薬剤の効果は時間とともに減少し、新しい抗ウイルスソリューションの必要性が浮き彫りになっています。 生成型AIは、ウイルスタンパク質の異なる部位をターゲットにすることができる完全に新しい分子の作成を可能にすることで、潜在的な解決策を提供します。CogMolと呼ばれるAIモデルは、大量の分子とその結合特性のデータセットでトレーニングされました。重要なことは、SARS-CoV-2ウイルスの3D構造や既知の結合分子に関する情報は提供されていませんでした。これにより、モデルはターゲットタンパク質のアミノ酸配列に基づいて新しい分子を生成することができました。 CogMolは、875,000の候補分子のプールを成功裡に生成し、予測モデルと逆合成予測を使用して絞り込みました。最終的な選択により、8つの新しい化合物が合成され、ターゲットタンパク質の阻害効果とウイルスの中和能を評価するためにテストおよび分析されました。これらの化合物のうち2つは主プロテアーゼをターゲットにし、他の2つはスパイクタンパク質をターゲットにしながらも、すべての主要なCovid変異体を中和する能力を持っていました。 これらの分子を薬剤に開発する前に、さらなる研究と臨床試験が必要ですが、この研究は生成型AIが薬剤開発の分野を革新する可能性を示しています。これは、将来のウイルスの変異とパンデミックに対応するために、潜在的な抗ウイルス薬を特定するためのより速くて柔軟なアプローチを提供します。 結論として、この研究は生成型AIが抗ウイルス薬の発見と設計において持つ可能性を示しています。CogMolのようなAIモデルを活用することで、従来の方法と比較して、Covid-19治療のための有望な分子を特定するためにかかる時間を大幅に短縮することができました。この画期的な成果は、進化するウイルスと将来のパンデミックに直面して、新しい薬剤開発の可能性を広げるものです。
新しいGoogle AI研究では、ペアワイズランキングプロンプティング(PRP)という新しい技術を使用して、LLMの負担を大幅に軽減することを提案しています
教師ありの対応モデルが数百万のラベル付き例で訓練されるのに対して、GPT-3やPaLMなどの大規模言語モデル(Large Language Models、LLMs)は、ゼロショット設定でもさまざまな自然言語のタスクで印象的な性能を示してきました。しかし、LLMsを使用して基本的なテキストランキング問題を解決することは、まちまちな結果となっています。既存の研究では、訓練済みのベースラインランカーと比較して明らかに性能が低いことが多いです。ただし、大規模でブラックボックスで商業的なGPT-4システムに依存する新しい戦略は、例外として扱われています。 彼らは、このようなブラックボックスのシステムに頼ることは、学術研究者にとっては重要な費用制約やアクセス制限のために理想的ではないと主張しています。ただし、ランキングメトリックスは入力ドキュメントの順序が変わると50%以上低下することも認識しています。この研究では、彼らはまず、現在のアプローチのポイントワイズとリストワイズの形式を使用した場合に、LLMsがランキング問題に苦労する理由を説明します。生成のみのLLM API(GPT-4など)ではこれができないため、ポイントワイズのランキングでは、ソートする前にLLMsがキャリブレーションされた予測確率を生成する必要があり、これは非常に困難とされています。 リストワイズのアプローチにおいては、人間には非常に明らかな指示でも、LLMsは一貫性のないまたは無意味な出力を提供することがよくあります。実証的には、以前の研究で用いられたリストワイズのランキングプロンプトは、VoAGIサイズのLLMsでは完全に無意味な結果を提供することがわかります。これらの結果から、現在広く使用されているLLMsは、ランキングタスクを理解する必要があることが示されており、これは事前トレーニングと微調整の技術がランキングの認識を欠いているためかもしれません。LLMsのタスクの複雑さを大幅に低減し、キャリブレーションの問題に対処するため、Google Researchの研究者はペアワイズランキングプロンプティング(PRP)パラダイムを提案しています。PRPは、クエリと一対のドキュメントをランキングタスクのプロンプトとして使用するシンプルなプロンプトアーキテクチャに基づいており、デフォルトで生成とスコアリングのLLM APIを提供します。 彼らは効率性に関する懸念に対応するためにいくつかのPRPのバリエーションについても議論しています。PRPの結果は、伝統的なベンチマークデータセット上で中程度の規模のオープンソースのLLMsを使用して、最先端のランキングパフォーマンスを達成するための初めての文献です。TREC-DL2020では、20BパラメータのFLAN-UL2モデルに基づくPRPは、黒箱の商業的なGPT-4に比べて、NDCG@1で5%以上優れたメソッドを提供しています(推定)50倍のモデルサイズ。TREC-DL2019では、PRPは、175Bのパラメータを持つInstructGPTなどの現在の解決策を、ほぼすべてのランキング指標で10%以上上回すことができますが、NDCG@5とNDCG@10のメトリックではGPT-4の解決策に劣る結果となります。また、3Bおよび13Bのパラメータを持つFLAN-T5モデルを使用した競争力のある結果も示して、PRPの有効性と適用範囲を示しています。 彼らはまた、PRPの追加の利点、LLM APIのスコアリングと生成のサポート、および入力順序への感度の低さについてもレビューしています。結論として、この研究は以下の3つの貢献を行っています: • 彼らは、LLMsを使用したゼロショットランキングにおいてペアワイズランキングプロンプティングがうまく機能することを初めて示しています。彼らの結果は、既存のシステムがブラックボックスで商業的でかなり大きなモデルを使用するのに対し、中程度の規模のオープンソースのLLMsに基づいています。 • シンプルなプロンプティングとスコアリングメカニズムを使用して、最先端のランキングパフォーマンスを実現することができます。この発見により、この領域での将来の研究がよりアクセス可能になります。 • 線形の複雑さを実現しながら、いくつかの効率化の改善を検証し、良好な実証的なパフォーマンスを示しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.