Learn more about Search Results による - Page 12

生物学的に関連するあらゆる種類の分子を扱うための新しいAIによるタンパク質構造予測手法

複雑な三次元構造を高い精度で予測することは、AlphaFold2やそれに続く他のディープラーニングネットワークのおかげで、もはや夢ではありませんしかし、タンパク質に関しては...

「切り分けて学ぶ」による機械学習におけるオブジェクトの状態合成の認識と生成

現実世界には、さまざまなサイズ、色合い、質感を持つ物体が存在します。視覚的な特性、一般的には状態や属性と呼ばれるものは、アイテム自体に備わったもの(色など)または処理によって獲得されるもの(切られた状態など)です。現在のデータ駆動型の認識モデル(例:ディープニューラルネットワーク)は包括的なオブジェクト属性のためのロバストなトレーニングデータが利用可能と前提としていますが、未知のオブジェクトの特性に対しても一般化するための支援が必要です。しかし、人間や他の動物は、少数の既知のアイテムとその状態を組み合わせることで、さまざまな特性を持つ多様なものを認識し、イメージできる組み込み能力を持っています。近代のディープラーニングモデルは、より構成性のある一般化と、有限の概念からの新しい組み合わせの合成と検出能力を頻繁に必要としています。 構成的な一般化の研究を支援するために、メリーランド大学の研究者らは新たなデータセット「Chop & Learn (ChopNLearn)」を提案しています。彼らは構成要素に焦点を当てるため、果物や野菜の切り方に制限を設けています。これらのアイテムは、切り方の方法によってさまざまな方法で形状が変わります。目的は、直接の観察なしでオブジェクトの状態を認識するさまざまなアプローチがどのように異なるオブジェクトに適用できるかを調べることです。彼らが選んだ20のアイテムと7つの典型的な切り方(完全なオブジェクトを含む)により、状態対象の組み合わせの粒度とサイズが異なります。 第1のタスクでは、トレーニング中に遭遇していない(オブジェクト、状態)の組み合わせから画像を生成するシステムが必要です。この目的のため、研究者は既存の大規模テキストから画像を生成するモデルを修正することを提案しています。彼らは、テキストプロンプトを使用してオブジェクトの状態生成を表現するために、Textual InversionやDreamBoothなどのさまざまな既存のアプローチを比較しています。さらに、言語と拡散モデルの同時調整に加えて、オブジェクトと状態の追加トークンの追加を含む異なるプロセスを提案しています。最後に、提案された生成モデルと既存の文献の強みと弱点を評価しています。 第2のチャレンジでは、既存の構成的アクション認識のタスクが拡張されています。これは、活動の認識のための重要な初期ステップであるオブジェクトの状態の微小な変化を認識することを目的としていますが、過去の研究では映画の長期間の活動追跡に重点が置かれてきました。このタスクでは、モデルがタスクの開始時と終了時の状態の組み合わせを認識することによって、肉眼では見えないオブジェクトの状態の変化を学習することができます。ChopNLearnデータセットを使用して、彼らは動画タスクのためのいくつかの最新のベースラインを比較しています。研究は、データセットの利用によって利益をもたらす可能性のある多くの画像およびビデオ関連の機能について議論を終えます。 以下にいくつかの貢献を紹介します: 提案されたChopNLearnデータセットには、さまざまなカメラアングルからの写真や映画が含まれます。これはさまざまなオブジェクト状態の組み合わせを表します。 現在ユーザーには見えていないオブジェクトと状態の組み合わせの画像を生成するための新しいアクティビティ「構成的な画像生成」を提供します。 構成的なアクション全体としての新たな基準を設定します。これはオブジェクトが時間と多様な視点でどのように変化するかを学習し認識することを目指しています。 制限事項 ファウショット一般化は、基盤モデルが利用可能になるにつれてますます重要になっています。この研究では、ChopNLearnのポテンシャルを構成的な生成と非常に複雑で関連性のある概念の識別に使用するための調査が行われました。ChopNLearnは、それにトレーニングされたモデルの一般性を制限するグリーンスクリーンの背景で行われた小規模なデータセットです。しかしながら、これは異なるオブジェクトが共通の微細な状態(切り方)を共有する方法を学習するための最初の試みです。彼らは、ChopNLearnを使用してより複雑なモデルをトレーニングおよびテストし、同じツールを使用してグリーンスクリーンの背景のある場合とない場合のモデルを微調整することによって、これを調査しています。さらに、彼らは、3D再構築、ビデオフレーム補間、状態変化の作成などのより困難なタスクにChopNLearnを利用することでコミュニティが利益を受けることを期待しています。 詳細については、https://chopnlearn.github.io/をご覧ください。 まとめると 研究者は、オブジェクトの構成的な一般化またはモデルが異なる状態で見たことのないオブジェクトの組み合わせを検出して構築する能力を測定するための新しいデータセットChopNLearnを提供しています。さらに、既存の生成モデルやビデオ認識技術の効果を評価するための2つの新しいタスク「構成的な画像生成」と「構成的なアクション認識」を提示しています。彼らは現在の方法の問題と新しい組み合わせに対する限定的な一般化能力を説明しています。しかし、これらの2つの活動は、比喩的な氷山の一部にすぎません。オブジェクトの状態を理解するためには、3D再構築、将来のフレーム予測、ビデオ製作、要約、長期ビデオの解析など、複数の画像およびビデオのアクティビティが必要です。このデータセットにより、研究者はコンピュータビジョンコミュニティが提案することで学習するための新しい構成的な課題が生まれることを期待しています。

テキストをベクトルに変換する:TSDAEによる強化埋め込みの非教示アプローチ

TSDAEの事前学習を対象ドメインで行い、汎用コーパスでの教師付き微調整と組み合わせることで、特化ドメインの埋め込みの品質を向上させる埋め込みはテキストをエンコードする...

Deep Learningのマスタリング:Piecewise推定による非線形近似の技術 パート2

皆さん、こんにちは!「マスタリング深層学習シリーズ」の第2回目へようこそこの記事は、第1回目の続編であり、タイトルは『非線形の近似の技術』と題しています...

「Pythonによるデータクリーニングの技術をマスターする」

Pythonでデータをクリーニングして、データサイエンスプロジェクトで使用する準備をする方法

「Pythonによる多クラスラベルのための完全に説明されたソフトマックス回帰」

「ロジスティック回帰では、バイナリクラス、つまり出力列に2つのクラスを扱いますしかし、現実世界では様々なタイプのデータが得られることがあり、時には2つ以上のクラスが存在することもあります...」

この人工知能による調査研究は、医療領域への大規模言語モデルの包括的な概要を提供します

このコンテンツは購読者のみ対象です 利用規約プライバシーポリシー 自然言語処理(NLP)システムは、音声認識、メタファー処理、感情分析、情報抽出、機械翻訳など、さまざまなタスクにおいて、事前学習済み言語モデル(PLM)に大いに依存してきました。最近の進展により、PLMは急速に変化しており、新たな進展が自立型システムとしての機能を示しています。このアプローチでの重要な進歩は、OpenAIによるLarge Language Models(LLM)(例:GPT-4)の開発によって達成されました。これらのモデルは、NLPタスクだけでなく、生物学、化学、医学検査といった科目でも性能が向上しています。GoogleのMed-PaLM 2も、医療セクターに特化しており、医学的な質問データセットで「エキスパート」と同等の性能を獲得しています。 LLMは、数多くのアプリケーションの効果と効率を向上させることで、医療業界を革命する力を持っています。これらのモデルは、医学のアイデアと用語について深い理解を持っているため、医療の質問に対して洞察に富んだ分析や回答を提供することができます。患者との対話、臨床の意思決定支援、さらには医療画像の解釈にも役立つことがあります。LLMには、大量のトレーニングデータの必要性やそのデータ中の偏りの伝播といった制約もあります。 最近の研究では、研究チームがLLMの医療分野における能力について調査しました。PLMからLLMへの重要な進歩を理解するために、これら2つの言語モデルを対比することが必要です。PLMは基本的な構築ブロックですが、LLMはより広範な能力を持ち、医療の文脈で一貫したコンテキストに即した回答を生成することができます。PLMからLLMへの移行によって、モデルがイベントを分類または予測する差別的なAIアプローチから、言語ベースの回答を生成する生成的なAIアプローチにシフトしていることがわかります。この移行によって、モデル中心からデータ中心のアプローチへのシフトがより際立っています。 LLMの世界にはさまざまなモデルが存在し、それぞれ特定の専門性に適しています。医療業界向けに特別に設計された注目すべきモデルには、HuatuoGPT、Med-PaLM 2、Visual Med-Alpacaなどがあります。たとえば、HuatuoGPTでは積極的に患者を巻き込むために質問を行い、Visual Med-Alpacaでは画像専門家と協力して放射線画像の解釈などの職務をこなします。LLMの多様性により、さまざまな医療関連の問題に取り組むことができます。 ヘルスケアアプリケーションにおいてLLMのパフォーマンスは、トレーニングセット、技術、最適化戦略などの要素に大きく影響を受けます。本調査は、医療環境でLLMを作成および最適化するための技術的要素を探究しています。LLMの医療環境での使用には実習的な問題や倫理的な問題があります。LLMの使用にあたっては、公正さ、責任、透明性、倫理が確保されることが重要です。特に患者のケアが関わる場合、バイアスのない医療アプリケーションを提供し、倫理的なガイドラインに従い、回答について明確な正当化を行うことが求められます。 チームによる主な貢献は次のとおりです。 PLMからLLMへの移行の途中経過を共有し、新たな進展についての最新情報を提供しました。 LLMの医療業界でのトレーニング資料、評価ツール、データリソースの編成に焦点を当て、医学研究者が個別の要件に応じて最適なLLMを選択するのに役立ちました。 公平性、公正さ、透明性など、倫理的な問題に関して検討しました。

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります。このようなタスクは、自動車に取り付けられた特殊なレーザーが3Dデータをキャプチャすることで容易に行われます。このようなプロセスは、エゴセントリックシーン理解と呼ばれ、自身の視点から環境を理解することを意味します。問題は、エゴセントリックな人間のシーン理解に適用できる公開データセットが自動運転領域を超えて存在しないことです。 Googleの研究者たちは、人間のエゴセントリックなシーン理解のためのマルチ属性ビデオデータセットであるSANPO(Scene understanding, Accessibility, Navigation, Pathfinding, Obstacle avoidance)データセットを導入しました。SANPOには、SANPO-RealとSANPO-Syntheticの2つの実世界データと合成データが含まれています。SANPO-Realは多様な環境をカバーしており、マルチビュー手法をサポートするために2つのステレオカメラからのビデオが含まれています。実データセットには、15フレーム/秒(FPS)でキャプチャされた11.4時間のビデオと密な注釈が含まれています。 SANPOは、エゴセントリックな人間のシーン理解のための大規模なビデオデータセットであり、密な予測注釈を持つ60万以上の実世界および10万以上の合成フレームから成り立っています。 Googleの研究者たちは、プライバシー保護を優先しています。彼らは現地、市、および州の法律に従ってデータを収集しています。また、注釈のためにデータを送信する前に、顔や車両ナンバープレートなどの個人情報を削除するようにしています。 ビデオのキャプチャ中のモーションブラー、人間の評価ミスなどの欠点を克服するために、SANPO-Syntheticが導入されました。研究者は、実世界の環境に合わせて最適化された高品質な合成データセットを作成するために、Parallel Domainと提携しました。SANPO-Syntheticには、バーチャル化されたZedカメラを使用して記録された1961のセッションが含まれており、ヘッドマウントとチェストマウントの位置の均等な分布があります。 合成データセットと一部の実データセットは、パノプティックインスタンスマスクを使用して注釈が付けられました。SANPO-Realでは、フレームごとに20を超えるインスタンスがあるのはわずかです。それに対して、SANPO-Syntheticには実データセットよりもずっと多くのインスタンスが含まれています。 この分野での他の重要なビデオデータセットには、SCAND、MuSoHu、Ego4D、VIPSeg、Waymo Openなどがあります。SANPOはこれらのデータセットと比較され、パノプティックマスク、深度、カメラ姿勢、マルチビューステレオ、実データと合成データを兼ね備える最初のデータセットです。SANPOの他に、パノプティックセグメンテーションと深度マップを兼ね備えたデータセットはWaymo Openだけです。 研究者は、SANPOデータセット上で2つの最先端モデル、BinsFormer(深度推定)とkMaX-DeepLab(パノプティックセグメンテーション)を訓練しました。彼らは、このデータセットは両方の密な予測タスクにとって非常に挑戦的であることを観察しました。また、合成データセットの方が実データセットよりも精度が高いことも確認されました。これは、現実世界の環境が合成データよりも複雑であるためです。さらに、セグメンテーション注釈においては、合成データの方がより正確です。 人間のエゴセントリックなシーン理解のデータセットの不足に対処するために導入されたSANPOは、実世界と合成データセットの両方を網羅しており、密な注釈、マルチ属性の特徴、パノプティックセグメンテーションと深度情報のユニークな組み合わせによって他のデータセットとは異なる存在です。さらに、研究者たちのプライバシーへの取り組みは、視覚障害者のための視覚ナビゲーションシステムの開発をサポートし、高度な視覚シーン理解の可能性を広げるために、このデータセットを他の研究者に提供することができます。

「不確定性pyと混沌pyを用いた多項式混沌展開による混沌の秩序化」

3年前、イタリアのローマから引っ越して、アメリカのオハイオ州シンシナティに住み始めましたシンシナティ大学からの博士課程のオファーを受けたからです私が懐かしむことがたくさんありました(そして今もあります)...

「機械学習エンジニアのためのPythonによるデザインパターン:ビルダー」

AI開発に関わる人にとって重要なスキルの一つは、綺麗で再利用可能なコードを書くことですですから、今日はDeepnoteを使ったPythonにおける別のデザインパターンを紹介しますどれだけ優れたアイデアやアルゴリズムを持っていても…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us