Learn more about Search Results ML - Page 326

AIによるテキストメッセージングの変革:自然言語処理技術の詳細な探求

「自然言語処理(NLP)の技術によるテキストメッセージングにおける人工知能(AI)の影響を深く探求し、洞察を得る」

「データサイエンスのプログラムでは教えてくれないが知っておくべき8つのこと−パート1」

データサイエンティストが持つべき基本知識Pythonの仮想環境、データサイエンティストのためのLinux、リモートシステムでの計算、デバッグ

コーネル大学の人工知能(AI)研究者たちは、ビデオマッティングの問題に対処するための新しいニューラルネットワークフレームワークを提案しています

画像と動画の編集は、コンピュータユーザーにとって最も人気のあるアプリケーションの2つです。機械学習(ML)とディープラーニング(DL)の登場により、画像と動画の編集は、いくつかのニューラルネットワークアーキテクチャを通じて徐々に研究されてきました。最近まで、画像と動画の編集のためのほとんどのDLモデルは、教師あり学習であり、具体的には、望ましい変換の詳細を学習するために入力と出力データのペアを含むトレーニングデータが必要でした。最近では、単一の画像のみを入力として望ましい編集済み出力へのマッピングを学習するエンドツーエンドの学習フレームワークが提案されています。 ビデオマッティングは、ビデオ編集に属する特定のタスクです。マッティングという用語は、19世紀にさかのぼり、撮影中にカメラの前にマットペイントのガラス板を設置して、撮影場所に存在しない環境の錯覚を作り出すために使用されました。現在では、複数のデジタル画像の合成は類似の手順に従います。合成式は、各画像の前景と背景の強度を、それぞれの成分の線形結合として表します。 このプロセスは非常に強力ですが、いくつかの制約があります。画像を前景と背景のレイヤーに明確に分解する必要があり、それらは独立して処理可能であると仮定されます。ビデオマッティングなどの一連の時間的および空間的に依存するフレームのような状況では、レイヤーの分解は複雑なタスクとなります。 本論文では、このプロセスの解明と分解の精度向上を目指しています。著者らは、下流の編集タスクのためにビデオをより独立した構成要素に分解するマッティング問題の変種であるファクターマッティングを提案しています。この問題に対処するために、彼らはシーン内の予想される変形に基づいた条件付き事前知識を古典的なマッティング事前知識に組み合わせた使いやすいフレームワークであるFactorMatteを提案しています。たとえば、最大事後確率の推定を指す古典的なベイズの式には、前景と背景の独立性に関する制限を取り除くための拡張が行われています。さらに、ほとんどのアプローチでは、背景レイヤーが時間の経過に伴って静的なままであるという仮定がされていますが、これはほとんどのビデオシーケンスにとって制限があります。 これらの制約を克服するために、FactorMatteは2つのモジュールに依存しています。デコンポジションネットワークは、各成分ごとに入力ビデオを1つ以上のレイヤーに分解し、各成分に対する条件付き事前知識を表すパッチベースの識別器のセットです。アーキテクチャのパイプラインは以下のように示されます。 デコンポジションネットワークへの入力は、フレームごとに対象オブジェクトの粗いセグメンテーションマスクを含むビデオです(左、黄色のボックス)。この情報を元に、ネットワークは再構成損失に基づいてカラーとアルファのレイヤー(中央、緑と青のボックス)を生成します。前景レイヤーは前景成分をモデル化します(右、緑のボックス)、一方、環境レイヤーと残差レイヤーは背景成分をモデル化します(右、青のボックス)。環境レイヤーは背景の静的な要素を表し、残差レイヤーは前景オブジェクトとの相互作用による背景成分のより不規則な変化を捉えます(図の枕の変形)。これらのレイヤーごとに、各成分の事前確率を学習するための1つの識別器がトレーニングされています。 選択されたサンプルに対するマッティングの結果は、以下の図に示されています。 FactorMatteは完璧ではありませんが、生成された結果はベースライン手法(OmniMatte)よりも明らかに正確です。すべてのサンプルにおいて、背景と前景のレイヤーはきれいに分離されており、比較解決策では断定することができません。さらに、削除実験を行い、提案された解決策の有効性を証明しました。 これがビデオマッティング問題に対処するための新しいフレームワークであるFactorMatteの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

2023年の機械学習研究におけるトップのデータバージョン管理ツール

生産に使用されるすべてのシステムはバージョン管理する必要があります。ユーザーが最新のデータにアクセスできる単一の場所です。特に多くのユーザーが同時に変更を加えるリソースには監査トレイルを作成する必要があります。 チーム全員が同じページにいることを確保するために、バージョン管理システムが担当しています。それにより、チーム全員が同時に同じプロジェクトで協力し、ファイルの最新バージョンで作業していることが保証されます。適切なツールがあれば、このタスクを迅速に完了することができます! 信頼性のあるデータバージョン管理方法を採用すると、一貫性のあるデータセットとすべての研究の完全なアーカイブを持つことができます。データバージョニングソリューションは、再現性、トレーサビリティ、およびMLモデルの履歴に関心がある場合、ワークフローに必須です。 データセットやモデルのハッシュなどのオブジェクトのコピーを取得し、区別して比較するために使用できるデータバージョンが頻繁にメタデータ管理ソリューションに記録されるようにすると、モデルのトレーニングがバージョン管理され、繰り返し可能になります。 さあ、コードの各コンポーネントを追跡できる最高のデータバージョン管理ツールを調べてみましょう。 Git LFS Git LFSプロジェクトの使用は制限されていません。Gitは、GitHub.comやGitHub Enterpriseなどのリモートサーバーに大きなファイルの内容を保存し、大きなファイルをテキストポインターで置き換えます。音声サンプル、映画、データベース、写真など、置き換えられるファイルの種類には大きなファイルが含まれます。 Gitを使用して大規模なファイルリポジトリを迅速にクローンして取得したり、外部ストレージを使用してGitリポジトリでより多くのファイルをホストしたり、数GBの大きさの大きなファイルをバージョン管理することができます。データの取り扱いにおいては比較的シンプルな解決策です。他のツールキット、ストレージシステム、スクリプトは必要ありません。ダウンロードするデータ量を制限します。これにより、大きなファイルのコピーがリポジトリから取得するよりも速くなります。ポイントはLFSを指し、より軽い素材で作られています。 LakeFS LakeFSは、S3またはGCSにデータを格納するオープンソースのデータバージョニングソリューションであり、Gitに似たブランチングおよびコミット方法をスケーラブルに実装しています。このブランチング方法により、別々のブランチで変更を可能にし、アトミックかつ即座に作成、マージ、およびロールバックできるようにすることで、データレイクをACID準拠にします。 LakeFSを使用すると、繰り返し可能でアトミックなデータレイクの活動を開発することができます。これは新しいものですが、真剣に取り組む必要があります。Gitのようなブランチングとバージョン管理の方法を使用してデータレイクとやり取りし、ペタバイト単位のデータをスケーラブルにチェックできます。 DVC Data Version Controlは、データサイエンスや機械学習のアプリケーションに適したアクセス可能なデータバージョニングソリューションです。このアプリケーションを使用してパイプラインを任意の言語で定義することができます。 DVCは、その名前が示すように、データバージョニングに特化しているわけではありません。このツールは、大きなファイル、データセット、機械学習モデル、コードなどを管理することで、機械学習モデルを共有可能かつ再現可能にします。さらに、チームがパイプラインと機械学習モデルを管理しやすくします。このアプリケーションは、迅速に設定できる簡単なコマンドラインを提供することで、Gitの例にならっています。 最後に、DVCはチームのモデルの再現性と一貫性を向上させるのに役立ちます。コードの複雑なファイルの接尾辞やコメントではなく、Gitのブランチを使用して新しいアイデアをテストします。旅行中にペーパーや鉛筆ではなく、自動的なメトリックトラッキングを使用します。 プッシュ/プルコマンドを使用して機械学習モデル、データ、およびコードの一貫したバンドルを製品環境、リモートマシン、または同僚のデスクトップに転送するためのアドホックなスクリプトではなく使用します。 DeltaLake DeltaLakeというオープンソースのストレージレイヤーにより、データレイクの信頼性が向上します。Delta Lakeは、バッチおよびストリーミングデータ処理をサポートするだけでなく、スケーラブルなメタデータ管理も提供します。現在のデータレイクに基づいており、Apache…

メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました

近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射線学」を使用して現在のPubMedの検索では、2021年には5,369件の論文が見つかりました。これは2011年の結果の5倍以上です。MLモデルは、分類から意味的セグメンテーション、物体検出、画像生成まで、医療の効率と結果を改善するために常に開発されています。例えば、診断放射線学の数多くの公開報告によれば、MLモデルは特定のタスク(例:異常検出や病理スクリーニング)で医療専門家と同等またはそれ以上のパフォーマンスを発揮することができると示されています。 したがって、AIを正しく使用すると、放射線科医の助けとなり、彼らの労働を大幅に削減できることは否定できません。医療画像のMLモデルの開発に対する関心の高まりにもかかわらず、実用上の課題がこれらのモデルの適用を制限したり、実質的なバイアスを生じさせる可能性があります。データの不足とデータの不均衡がそのうちの2つです。一方で、医療画像のデータセットは、ImageNetなどの自然な写真データセットよりもはるかに小さいことがよくあり、患者のプライバシーの問題から機関のデータセットを結集するか公開することが不可能な場合もあります。他方で、データサイエンティストがアクセスできる医療画像のデータセットでさえも、よりバランスが取れている可能性があります。 つまり、特定の病理を持つ患者の医療画像データの量は、一般的な病理または健康な人々のデータに比べて著しく低いです。不十分に大きなまたは不均衡なデータセットを使用して機械学習モデルをトレーニングまたは評価すると、モデルのパフォーマンスに系統的なバイアスが生じる可能性があります。データの不足とデータの不均衡に対抗するための主要な戦略の1つは、合成画像生成です。これには、匿名化された医療画像データセットの公開や、データ共有なしで複数の機関のデータセット上で機械学習(ML)モデルの開発を可能にするフェデレーテッドラーニングなどの戦略の推奨も含まれます。 生成モデルは、実際の患者に属さないリアルな医療画像データを学習し生成することができ、患者のプライバシーを危険にさらすことなく公開することができます。生成的対抗ネットワーク(GAN)が登場して以来、高品質な合成データを生成できるさまざまな生成モデルが紹介されてきました。これらのモデルの多くはラベル付けされていない画像データを生成するため、セルフスーパーバイズドやセミスーパーバイズドのダウンストリームモデルなど特定のアプリケーションに役立つ場合があります。さらに、他の一部のモデルは条件付き生成が可能であり、事前に定義された臨床的、テキスト的、または画像的変数に基づいて画像を生成することができます。 デノイジング拡散確率モデル(DDPM)は、合成画像の品質と出力の多様性においてGANを上回る新しいクラスの画像生成モデルです。この後者の生成モデルのクラスは、ラベル付きの合成データを生成することができ、機械学習の研究、医療画像の品質、患者のケアを進めることができます。合成医療画像データの生成において非常に成功しているにもかかわらず、GANは出力の多様性の欠如と不安定なトレーニングのためにしばしば批判されています。オートエンコーダの深層学習モデルは、GANよりもトレーニングが容易でより多様な出力を生成するような、より伝統的な代替手法です。ただし、彼らの合成結果はGANの画質には及びません。 マルコフ連鎖理論に基づく拡散モデルは、最初の画像にランダムなガウスノイズをパックして徐々にノイズを除去することで、合成出力を生成する方法を学習します。この反復的なノイズ除去プロセスにより、拡散モデルの推論実行は他の生成モデルと比較してかなり遅くなります。しかし、これにより、入力データからより表現的な特徴を抽出することができ、他のモデルを上回るパフォーマンスを発揮することができます。この方法論の論文では、マルチシーケンシャル脳磁気共鳴画像(MRI)研究におけるマルチタスク脳腫瘍インペインティングに使用できる拡散モデルを紹介しています。 彼らは、脳MRIのT1重み付け(T1)、造影T1重み付け(T1CE)、T2重み付け(T2)、またはFLAIRシーケンスの2次元(2D)軸スライスを受け取り、そのスライスのユーザー定義の切り取り領域に高品質な合成画像を生成することができる拡散モデルを作成しました。生成される画像は高度なグリオーマとその関連コンポーネント(周囲の浮腫など)または腫瘍のない(正常と思われる)脳組織のいずれかです。 高度なグリオーマの発生率は、アメリカでは100,000人あたり3.56であり、脳腫瘍に関する公開されているMRIデータセットはほんのわずかしかありません。彼らのモデルは、限られたデータの中で脳MRIスライス上の合成腫瘍または腫瘍のない組織を構成する機能を持つML研究者に編集(誘発または除去)を許可します。このツールはオンラインで公開されており、利用することができます。モデルはGitHubでドキュメントと共にオープンソース化されています。 この記事は、研究論文「DIFFUSION MODELSを用いたマルチタスク脳腫瘍インペイント法:方法論レポート」に基づいてMarktechpostスタッフがまとめた研究概要記事です。この研究に関する全てのクレジットは、このプロジェクトの研究者に帰属します。論文、コード、ツールをご覧ください。 当社のMLサブレディットに参加していただくことをお忘れなく Mayo ClinicのAI研究者たちは、拡散モデルを活用してマルチタスク脳腫瘍インペイントアルゴリズムを構築するための機械学習ベースの手法を紹介しました。詳細はMarkTechPostをご覧ください。

「機械学習モデルを展開する」とはどういう意味ですか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています。ほとんどの場合、機械学習(ML)モデルは、科学的な研究の文脈でオフラインで実装されます。作成されたモデルのほぼ90%は、実際のプロダクション条件で展開されることはありません。展開は、MLモデルが既存のプロダクション環境に統合され、効果的なデータ駆動型のビジネスの意思決定を実現するプロセスと定義できます。これは、機械学習ライフサイクルの最後の段階の1つです。ただし、近年、MLは純粋な学術研究分野から実際のビジネスの課題に対応できるものに進化してきました。ただし、運用システムで機械学習モデルを使用する際には、さまざまな問題や懸念があるかもしれません。 プロダクション環境でMLモデルを定義するためのいくつかのアプローチがありますが、その範囲によって異なる利点があります。ほとんどのデータサイエンティストは、モデルの展開はソフトウェアエンジニアリングのミッションであり、日常の業務により密接に関連しているため、ソフトウェアエンジニアによって処理されるべきだと考えています。 KubeflowやTFXなどのツールは、モデルの展開プロセス全体を説明することができ、データサイエンティストはこれらを使用するべきです。Dataflowなどのツールを使用することで、エンジニアリングチームとの密接な連携が可能になります。展開前にデータパイプラインの一部をテストすることができるステージング環境を設定することもできます。 展開プロセスは、主に以下の4つのステップに分けることができます: 1) データパイプラインの準備と構成 最初のタスクは、データパイプラインが効率的に構造化され、関連性の高い高品質なデータを提供できるようにすることです。展開後にデータパイプラインとモデルをどのようにスケーリングするかを決定することが重要です。 2) 関連する外部データへのアクセス プロダクション用の予測モデルを展開する際には、可能な限り最適なデータを最適なソースから使用することに注意する必要があります。注意深く設計されたモデルでも、台無しのモデルは役に立ちません。また、この課題の別の要素は、頑健で一般化可能なモデルを得るために適切な歴史データを収集することです。一部の企業は必要なデータをすべて内部で収集していますが、完全な文脈と視点を持つためには、外部データソースも含めることを検討してください。 3) 効果的なテストとトレーニングの自動化ツールの構築 予測モデルを展開する前に、厳格で妥協のないテストとトレーニングが必要ですが、時間がかかる場合があります。したがって、遅延を避けるために可能な限り自動化する必要があります。時間を節約するトリックやツールに取り組むだけでなく、エンジニアの努力や手動操作なしで機能するモデルを作成する必要があります。 4) 頑健な監視、監査、および再利用プロトコルの計画と設計 MLモデルを展開および実行する前に、実際に期待されるタイプの結果を生成するかどうかを確認する必要があります。これらの結果が正確であり、モデルに提供されるデータがこれらのモデルを一貫して有用で関連性のあるものに維持することが確認されなければなりません。また、古い弱いデータは正確な結果につながる可能性があります。 機械学習の実験を詳細に見ると、これらは時間の経過に伴って変化することのない、つまり、モデルのトレーニングに関連するデータはしばしば固定されていることに気付きます。言い換えれば、このデータは変化せず、または実験中にほとんど変化しません。この場合、クローズドモデルと言います。実世界の条件では、モデルは作成時に使用したものとはかなり異なる新しいデータに常に遭遇します。したがって、モデルが引き続き学習し、パラメータを更新し続けることが重要です。新しいデータを使用してモデルを迅速かつ簡単に再トレーニングすることが興味深いです。モデルの再トレーニングとは、元のモデルとは異なる特性を持つ新しいモデルを開発することを指します。このモデルを再展開して新しい機能を活用することが重要です。 結論として、MLモデルの展開は、MLモデルの使用と活用に関連するすべての懸念を徹底的に理解することが成功するためには必要です。1人の個人が以下の必要な才能をすべて備えていることは非常に珍しいです: 企業のニーズを理解すること MLモデルを作成すること モデルを産業化すること バッチまたはリアルタイムでデータを収集すること データに展開されたモデルを使用すること したがって、データエンジニア、ソフトウェアエンジニア、データサイエンティストの協力は不可欠です。…

「FathomNetをご紹介します:人工知能と機械学習アルゴリズムを使用して、私たちの海洋とその生物の理解のために視覚データの遅れを処理するためのオープンソースの画像データベース」

海洋は前例のない速さで変化しており、膨大な海洋データを視覚的に監視しながら責任ある管理を維持することは困難です。必要なデータ収集の量と速さは、基準を求める研究コミュニティの能力を超えています。データの一貫性の欠如、不適切なフォーマット、大規模かつラベル付けされたデータセットへの要望は、機械学習の最近の進歩の限定的な成功に寄与しています。これらの進歩により、迅速かつより複雑な視覚データ分析が可能となりました。 この要件を満たすため、いくつかの研究機関がMBARIと協力して、人工知能と機械学習の能力を活用して海洋研究を加速させる取り組みを行いました。このパートナーシップの一つの成果がFathomNetです。FathomNetはオープンソースの画像データベースであり、先進的なデータ処理アルゴリズムを使用して、注意深くキュレーションされたラベル付きデータを標準化および集約します。チームは、人工知能と機械学習の利用こそが海洋の健康に関する重要な研究を加速し、水中映像の処理のボトルネックを解消する唯一の方法だと考えています。この新しい画像データベースの開発プロセスに関する詳細は、Scientific Reports誌の最新の研究論文に記載されています。 機械学習は、過去において視覚解析の分野を変革してきました。その一部には、膨大な数の注釈付きデータがあることが挙げられます。陸地の応用において、機械学習とコンピュータビジョンの研究者が注目するベンチマークデータセットはImageNetとMicrosoft COCOです。研究者に対して豊かで魅力的な基準を提供するために、チームはFathomNetを作成しました。フリーでアクセス可能な、高品質な水中画像トレーニングリソースを確立するために、FathomNetはさまざまなソースからの画像と記録を組み合わせています。 MBARIのビデオラボの研究員は、35年間にわたってMBARIが収集した約28,000時間の深海ビデオと100万枚以上の深海写真を代表するデータを注意深く注釈付けしました。MBARIのビデオライブラリには、動物、生態系、および物体の観察を記録した8,200万以上の注釈があります。国立地理学協会の探検技術ラボは、さまざまな海洋生息地や全ての海洋盆地にまたがる場所から、1,000時間以上のビデオデータを収集しました。これらの記録は、CVision AIが開発したクラウドベースの共同分析プラットフォームで使用され、ハワイ大学とOceansTurnの専門家によって注釈が付けられました。 さらに、2010年に、アメリカ国立海洋大気庁(NOAA)の海洋探査チームは、NOAA船オケアノスエクスプローラー号を使用してデュアルリモート操作機器システムを使ってビデオデータを収集しました。ビデオデータの注釈付けをより詳細に行うために、2015年から専門の分類学者に資金提供しています。最初は、ボランティアの科学者たちを通じて注釈付けをクラウドソーシングしていました。MBARIのデータセットの一部、および国立地理学協会とNOAAの資料がすべてFathomNetに含まれています。 FathomNetはオープンソースであるため、他の機関も容易に貢献し、視覚データの処理と分析において従来の方法よりも時間とリソースを節約することができます。さらに、MBARIはFathomNetのデータを学習した機械学習モデルを使用して、遠隔操作型の水中無人機(ROV)によって撮影されたビデオを分析するためのパイロットイニシアチブを開始しました。AIアルゴリズムの使用により、ラベリングの速度が10倍に向上し、人間の作業量が81%削減されました。FathomNetデータに基づく機械学習アルゴリズムは、海洋の探査と監視を革新する可能性があります。例えば、カメラと高度な機械学習アルゴリズムを搭載したロボット搭載車両を使用して、海洋生物やその他の水中のものを自動的に検索して監視することが挙げられます。 FathomNetには現在84,454枚の画像があり、81の異なるコレクションから175,875箇所のローカリゼーションを反映しています。このデータセットは、さまざまな位置やイメージング設定で200,000以上の動物種に対して1,000以上の独立した観察を取得した後、2億以上の観測を持つ予定です。4年前までは、注釈付きの写真の不足が何千時間もの海洋映像を機械学習で調査することを阻んでいました。FathomNetは、発見を解き放ち、探検家、科学者、一般の人々が海洋研究のペースを加速させるために利用できるツールを可能にすることで、このビジョンを現実化します。 FathomNetは、協力と共同科学が海洋の理解の向上にどのように貢献するかを示す素晴らしい例です。研究者たちは、MBARIと他の共同研究者からのデータを基盤として、データセットが海洋研究の加速に貢献することを期待しています。研究者たちはまた、FathomNetが海洋愛好家や様々なバックグラウンドを持つ探検家が知識と技術を共有するコミュニティとして機能することを強調しています。これは、広範な参加なしに達成できなかった海洋視覚データの問題に取り組むための飛躍台となります。視覚データの処理を高速化し、持続可能で健全な海洋を作り上げるために、FathomNetはコミュニティからのラベル付きデータをさらに含めるために常に改善されています。 この記事はMarktechpostスタッフによる研究概要記事として書かれたものであり、研究論文『FathomNet: 海洋での人工知能を可能にするためのグローバル画像データベース』に基づいています。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。論文、ツール、参考記事もチェックしてください。また、最新のAI研究ニュース、素敵なAIプロジェクトなどを共有している26k+ ML SubReddit、Discordチャンネル、メールニュースレターにぜひ参加してください。 この投稿は、FathomNetというオープンソースの画像データベースについてです。このデータベースは、人工知能と機械学習アルゴリズムを使用して、私たちの海洋とその生物を理解するために視覚データのバックログを処理するのに役立ちます。 この投稿はMarkTechPostで最初に公開されました。

ミシガン州立大学の研究者たちは、規模の大きな一細胞遺伝子発現の分析をサポートするためのPythonライブラリ「DANCE」を開発しました

単一モダリティのプロファイリング(RNA、タンパク質、オープンクロマチン)から多モダリティのプロファイリングや空間的トランスクリプトミクスまで、単一細胞の解析技術は近年急速に進化しています。特に機械学習に基づくコンピュータアプローチの急速な拡大により、多くの計算アプローチが生まれました。 現在のアプローチの多様性と複雑さのため、元の論文の結果を再現することは困難です。ハイパーパラメータの調整、プログラミング言語の非互換性、公開されたコードベースの欠如など、多くの障害が存在します。既存の研究のほとんどは限られたデータセットと不十分な方法論との比較でパフォーマンスを報告しているため、方法を完全に評価するためには体系的なベンチマーク手法が必要です。 最近の研究の一環として、ミシガン州立大学、ワシントン大学、浙江工業大学、スタンフォード大学、ジョンソン・エンド・ジョンソンの研究者らは、単一細胞解析の進歩を加速させるために設計されたDANCEというディープラーニングライブラリとベンチマークを紹介しています。 DANCEは、スケールで単一細胞データを分析するための包括的なツールセットを提供し、開発者がより簡単かつ効率的に独自のディープラーニングモデルを作成できるようにします。また、単一細胞解析のさまざまな計算モデルのパフォーマンスを比較するためのベンチマークとして使用することもできます。現在のDANCEには、3つのモジュール、8つのタスク、32のモデル、21のデータセットのサポートが含まれています。 現在、DANCEは以下の機能を提供しています: 単一モダリティの解析 多モダリティの解析 空間的トランスクリプトミクスの解析 オートエンコーダとGNN(グラフニューラルネットワーク)は、幅広く使用されているディープラーニングフレームワークであり、あらゆる場面で活用できます。研究論文によると、DANCEは単一細胞解析のための包括的なベンチマークプラットフォームとして初めて開発されました。 この研究では、研究者らは新しいコンポーネントを使用しました。彼らは、タスク固有の標準ベンチマークデータセットをまとめ、単一のパラメータ調整で簡単に利用できるようにしました。すべてのタスクに対して、基本的なクラシカルなディープラーニングアルゴリズムが実装されています。収集されたすべてのベンチマークデータセットは、元の研究と同様またはそれ以上の結果を得るまで、ベースラインを微調整するために使用されます。エンドユーザーは、事前にすべてのスーパーパラメータをまとめてラップしたコマンドラインを実行するだけで、微調整されたモデルのパフォーマンスを取得することができます。 チームはバックボーンとしてPyTorch Geometric(PSG)フレームワークを使用しました。さらに、ベースラインをフィット-予測-スコアのフレームワークに変換することで、ベースラインを標準化しました。各タスクについて、すべての実装されたアルゴリズムは、グリッドサーチを介して収集されたすべての標準ベンチマークで微調整され、最適なモデルを得るために使用されます。関連するスーパーパラメータは、ユーザーの再現性のために単一のコマンドラインに保存されます。 チームは、自分のデバイスの処理能力とストレージ容量に完全に依存する必要がないようにするため、DANCEをSaaSサービスとして提供する予定です。また、ディープラーニングベースのモデルの高速なトレーニングのために、グラフィックスプロセッシングユニット(GPU)のサポートも提供しています。 現在のDANCEは、前処理とグラフ作成のための統一されたツールセットが不足しています。チームは将来的にこれに取り組む予定です。また、DANCEはSaaSサービスとして提供されるため、ユーザーは自身のデバイスの処理能力とストレージ容量に完全に頼る必要はありません。 この記事は、「DANCE: A Deep Learning Library and Benchmark for Single-Cell Analysis」という研究論文をもとにMarkTechPostスタッフがまとめた研究概要記事です。この研究に関するすべてのクレジットはこのプロジェクトの研究者に帰属します。論文、コード、ツールをチェックしてください。…

機械学習の簡素化と標準化のためのトップツール

人工知能と機械学習は、技術の進歩によって世界中のさまざまな分野に恩恵をもたらす革新的なリーダーです。競争力を保つために、どのツールを選ぶかは難しい決断です。 機械学習ツールを選ぶことは、あなたの未来を選ぶことです。人工知能の分野では、すべてが非常に速く進化しているため、「昔の犬、昔の技」を守ることと、「昨日作ったばかり」のバランスを保つことが重要です。 機械学習ツールの数は増え続けており、それに伴い、それらを評価し、最適なものを選ぶ方法を理解する必要があります。 この記事では、いくつかのよく知られた機械学習ツールを紹介します。このレビューでは、MLライブラリ、フレームワーク、プラットフォームについて説明します。 Hermione 最新のオープンソースライブラリであるHermioneは、データサイエンティストがより整理されたスクリプトを簡単かつ迅速に設定できるようにします。また、Hermioneはデータビュー、テキストベクトル化、列の正規化と非正規化など、日常の活動を支援するためのトピックに関するクラスを提供しています。Hermioneを使用する場合、手順に従う必要があります。あとは彼女が魔法のように処理してくれます。 Hydra HydraというオープンソースのPythonフレームワークは、研究やその他の目的のために複雑なアプリを作成することを容易にします。Hydraは、多くの頭を持つヒドラのように多くの関連タスクを管理する能力を指します。主な機能は、階層的な構成を動的に作成し、構成ファイルとコマンドラインを介してそれをオーバーライドする能力です。 もう一つの機能は、動的なコマンドラインのタブ補完です。さまざまなソースから階層的に構成でき、構成はコマンドラインから指定または変更できます。また、単一のコマンドでリモートまたはローカルでプログラムを起動し、さまざまな引数で複数のタスクを実行することもできます。 Koalas Koalasプロジェクトは、巨大なデータ量で作業するデータサイエンティストの生産性を向上させるために、Apache Sparkの上にpandas DataFrame APIを統合しています。 pandasは(シングルノードの)Python DataFrameの事実上の標準実装であり、Sparkは大規模なデータ処理の事実上の標準です。pandasに慣れている場合、このパッケージを使用してすぐにSparkを使用し始め、学習曲線を回避することができます。単一のコードベースはSparkとPandasに互換性があります(テスト、より小さいデータセット)(分散データセット)。 Ludwig Ludwigは、機械学習パイプラインを定義するための明確で柔軟なデータ駆動型の設定アプローチを提供する宣言的な機械学習フレームワークです。Linux Foundation AI & DataがホストするLudwigは、さまざまなAI活動に使用することができます。 入力と出力の特徴と適切なデータ型は設定で宣言されます。ユーザーは、前処理、エンコード、デコードの追加のパラメータを指定したり、事前学習モデルからデータをロードしたり、内部モデルアーキテクチャを構築したり、トレーニングパラメータを調整したり、ハイパーパラメータ最適化を実行したりするための追加のパラメータを指定できます。 Ludwigは、設定の明示的なパラメータを使用してエンドツーエンドの機械学習パイプラインを自動的に作成し、設定されていない設定にはスマートなデフォルト値を使用します。…

中国からの新しいAI研究、「Meta-Transformer マルチモーダル学習のための統一されたAIフレームワーク」を提案する

人間の脳は、視覚、聴覚、触覚の信号など、さまざまな感覚入力からの情報を同時に処理する神経ネットワーク理論の典型とされています。さらに、ある情報源からの理解が別の情報源の知識に役立つこともあります。しかし、深層学習におけるモダリティの隔たりの大きさのため、さまざまな入力形式を処理できる統合ネットワークを構築するには多くの作業が必要です。あるデータモダリティでトレーニングされたモデルは、各データモダリティの異なるデータパターンと連携するために調整する必要があります。口述言語とは対照的に、写真は画像中のピクセルが密集しているため、かなりの情報冗長性を持っています。 一方、点群は3D空間でのまばらな分布とノイズへの感受性の増加のため、記述が困難です。オーディオスペクトログラムは、異なる周波数領域の波の組み合わせから成る時間変動する非定常データパターンです。ビデオデータは、一連の画像フレームから成るため、空間情報と時間的ダイナミクスを記録する特有の能力を持っています。グラフデータは、アイテムをノード、関係をエッジとしてグラフ内で複雑な多対多の相互作用をモデル化します。異なるデータモダリティ間の大きな不均衡のため、各データモダリティを独立にエンコードするために他のネットワークトポロジーを使用することが一般的な手法です。 たとえば、Point Transformerは、3D座標から構造情報を抽出するためにベクトルレベルの位置注意を使用しますが、写真や自然言語の文章、オーディオスペクトログラムのスライスをエンコードすることはできません。したがって、さまざまなデータタイプをエンコードするために複数のモダリティで共有されるパラメータ空間を使用できる単一のフレームワークを作成するには、時間と努力がかかります。最近開発されたVLMO、OFA、BEiT-3などの統合フレームワークは、対になったデータで広範なマルチモーダルプリトレーニングを通じて、ネットワークのマルチモーダル理解能力を向上させました。ただし、ビジョンと言語に重点を置いているため、完全なエンコーダをモダリティ間で共有することはできません。ディープラーニングは、自然言語処理(NLP)のために他の研究者が提案したトランスフォーマーアーキテクチャと注意メカニズムから大いに恩恵を受けています。 これらの進展により、2Dビジョン(ViTやSwin Transformerを含む)、3Dビジョン(Point TransformerやPoint-ViTを含む)、音響信号処理(AST)など、さまざまなモダリティでの知覚が大幅に向上しました。これらの研究は、トランスフォーマーベースの設計の適応性を示し、いくつかのモダリティを組み合わせるための基礎モデルが作成できるかどうかを研究するための学術界の動機を提供し、最終的にはすべてのモダリティでの人間レベルの知覚を実現する可能性を追求しています。図1は、トランスフォーマーデザインの潜在能力を調査するために、画像、自然言語、点群、オーディオスペクトログラム、ビデオ、赤外線、高分光、X線、IMU、表形式、グラフ、時系列データなど、12のモダリティを扱うMeta-Transformerを使用している様子を示しています。 図1: Meta-Transformerを使用して、自然言語、画像、点群、オーディオ、ビデオ、赤外線、高分光、X線、時系列、表形式、慣性計測ユニット(IMU)、グラフデータをすべて同じバックボーンを使用してエンコードする方法を示しています。トランスフォーマーシステムが統合されたマルチモーダルインテリジェンスを提供する可能性を示しています。 彼らは、トランスフォーマーを使用した各モダリティの学習プロセスについて説明し、それらを統合フレームワークに組み合わせる際の困難について取り組んでいます。その結果、香港中文大学と上海AIラボの研究者は、Meta-Transformerという新しい統合型マルチモーダル学習フレームワークを提案しています。最初のフレームワークであるMeta-Transformerは、12の異なるモダリティからの入力を同時にエンコードするために同じセットのパラメータを使用し、より統合されたアプローチのマルチモーダル学習を実現します。データからシーケンスへのトークン化のためのモダリティ専門家、モダリティ共有エンコーダ、ダウンストリームタスクのためのタスク固有のヘッドという、3つのシンプルで貴重な構成要素がMeta-Transformerにあります。より具体的には、Meta-Transformerはまず、マルチモーダルデータから共有の多様体空間を持つトークンシーケンスを作成します。 その後、凍結されたパラメータを持つモダリティ共有エンコーダを使用して表現が抽出されます。個々のタスクは、軽量なトークナイザと更新されたダウンストリームタスクヘッドのパラメータを使用してさらにカスタマイズされます。最終的に、この簡単なアプローチによってタスク固有およびモダリティ一般の表現を効率的に学習することができます。彼らは12のモダリティからいくつかの標準を使用して重要な研究を行います。Meta-Transformerは、LAION-2Bデータセットの画像のみを使用して事前学習を行い、さまざまな多モーダル学習タスクで最先端の技術を常に上回る優れた処理能力を発揮します。 まとめると、彼らの貢献は以下の通りです: • 彼らはMeta-Transformerと呼ばれるユニークなフレームワークを提供し、単一のエンコーダを使用して同じパラメータセットを使用して複数のモダリティから表現を同時に抽出することが可能になります。 • 彼らはTransformerの構成要素である埋め込み、トークナイゼーション、およびエンコーダが多モーダルネットワークアーキテクチャの処理に果たす役割について徹底的に調査しました。 • 実験的に、Meta-Transformerは12のモダリティに関するさまざまなデータセットで優れたパフォーマンスを達成し、統一された多モーダル学習のさらなる可能性を検証します。 • Meta-Transformerは、すべてのモダリティを統合するモダリティ非依存のフレームワークの開発における有望な新しい方向性を示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us