Learn more about Search Results A - Page 306

「UCLA研究者がGedankenNetを紹介:物理法則や思考実験から学ぶ自己教示AIモデルが計算機画像処理を進化させる」

深層学習の最近の進展は、計算画像処理、顕微鏡、ホログラフィ関連の分野に大きな影響を与えています。これらの技術は、バイオメディカルイメージング、センシング、診断、3Dディスプレイなど、多様な領域での応用があります。画像の変換、強化、超解像、ノイズ除去、仮想染色などのタスクにおいて、深層学習モデルは優れた柔軟性と効果を示しています。これらは、明視野顕微鏡や蛍光顕微鏡などのさまざまなイメージングモダリティに成功裏に適用されており、深層学習の統合が、微小スケールで複雑な世界を可視化するための理解力と能力を再構築しています。 計算画像処理では、従来の技術は主に教師あり学習モデルを使用し、注釈付きの大規模なデータセットや実験的な画像が必要とされます。これらのモデルは、古典的なアルゴリズムによるトレーニング画像の取得や異なるイメージングモダリティ間の画像ペアの登録など、さまざまな方法で取得されたラベル付きのトレーニングデータに頼っています。しかし、これらのアプローチには、トレーニング画像の獲得、整列、前処理の手間や推論バイアスの導入などの制約があります。非教師あり学習や自己教師あり学習によってこれらの課題を解決しようとする試みがあるものの、実験的な測定値やサンプルラベルへの依存性は依然として存在します。一部の試みでは、トレーニングにラベル付きのシミュレーションデータを使用していますが、実験的なサンプル分布を正確に表現することは複雑であり、サンプルの特徴やイメージングセットアップに関する事前知識が必要です。 これらの固有の問題に対処するために、UCLA Samueli School of Engineeringの研究者らは、GedankenNetという革新的なアプローチを提案しました。このアプローチは、逆に革命的な自己教師あり学習フレームワークを提供します。このアプローチは、ラベル付きや実験的なトレーニングデータや現実世界のサンプルとの類似点を排除します。物理学的な一貫性と人工的なランダムイメージに基づいてトレーニングすることにより、GedankenNetは既存の手法が抱える課題を克服します。これにより、GedankenNetはホログラム再構成における新たなパラダイムを確立し、さまざまな顕微鏡、ホログラフィ、計算画像処理のタスクで一般的に使用される教師あり学習アプローチの制約に対する有望な解決策を提供します。 GedankenNetのアーキテクチャは、空間フーリエ変換(SPAF)ブロックの連結によって構成されており、効果的に空間および周波数領域の情報を捉えます。物理学的一貫性の損失関数を組み込むことで、モデルはホログラム再構成時に波動方程式に従うことを強制し、物理的に正確な複素場出力を得ます。このユニークなトレーニング戦略により、GedankenNetは合成および実験的なホログラムに対して非常に優れた汎化性能を発揮し、未知のサンプル、軸方向の焦点合わせ、照明波長の変動に直面しても正確な再構成を行うことができます。 a) 伝統的な反復型ホログラム再構成技術、自己教師あり深層ニューラルネットワークGedankenNet、既存の教師あり深層ニューラルネットワークを示すイラスト。 | b) ホログラム再構成のためのGedankenNetの自己教師ありトレーニングプロセス。 性能評価により、GedankenNetのホログラム再構成能力の優れた性能が示されました。構造的類似性指数(SSIM)、平均二乗誤差(RMSE)、誤り訂正係数(ECC)などの定量的な指標によると、GedankenNetはさまざまなホログラムのセットにおいて従来の教師あり技術を一貫して上回っています。特に、GedankenNetの物理学的一貫性の損失は非物理的なアーティファクトを効果的に軽減し、より鮮明で正確な再構成を実現します。モデルの波動方程式との互換性は、適切な波動伝播を通じて焦点のずれたホログラムから高品質なオブジェクト場を回復することを可能にし、GedankenNetの外部一般化能力の優れた性能を裏付けます。 全体として、UCLAの研究チームによるGedankenNetは、計算画像処理と顕微鏡の分野における先駆的な進歩を表しています。自己教師あり学習と物理学に基づいた思考実験の力を取り入れることで、GedankenNetはニューラルネットワークモデルのトレーニングに新しいアプローチを提供します。この革新的な方法は、現在の教師あり学習技術の制約を克服するだけでなく、さまざまな計算画像処理タスクに対してより柔軟で物理学に適合しやすく、容易にトレーニング可能な深層学習モデルへの道筋を提供します。このブレイクスルーにより、顕微鏡の進歩が大幅に加速され、より広範な応用と微小世界への深い洞察が可能となります。

GoogleがAI搭載の文法チェッカー機能を追加:有効にする方法を学びましょう

オンラインの世界に波紋を広げる動きとして、Googleが静かに新しいツールを発表しました。このツールは、あなたの言語力を洗練させることを目指しています。Grammarlyなどによって支配されている領域に進出したGoogle検索は、AIをバックアップした文法チェッカーを提供しています。このツールは、文法のエラーをリアルタイムで検出して修正し、文ができるだけ磨かれたものになるようにします。ここでは、この隠れた機能とその使い方について解説します。 また読む:Gmailの新機能「Help Me Write」の発表 – 使い方は? Grammar Guru:GoogleのAIによる文法チェッカー 指先でデジタル校正者を持っていると想像してみてください。それがGoogleの新しい文法チェッカーが提供するものです。このツールは、フレーズや文の構造を分析し、シワを伸ばすための便利な提案を提供します。 魔法の発動:文法チェッカーの公開 この洗練された文法チェック機能を活性化するのは簡単です。検索クエリの一部として「文法チェック」、「チェック文法」、「文法チェッカー」といった簡単なフレーズを入力するだけです。しかし、それだけではありません – これらの特定のフレーズを使用しなくても、Google検索はクエリに基づいて文法の支援の手を差し伸べるかもしれません。 また読む:テキストメッセージが魔法になりました:Googleがマジックコンポーズを発表 優れた文法に緑信号:その仕組み AIによる文法チェッカーがエラーを検出すると、スペルのミスや文章の構造のヒックアップなど、問題を修正するだけでなく、画面上で変更点を親切にハイライト表示します。そして、結果に満足した場合、満足のいく緑のチェックマークがあなたに承認の合図を与えます。 フードの下のAI:その裏側の魔法 この文法チェックの魔法のバックボーンは人工知能です。しかし、AIは完璧ではありません。多くの面で文法の天才である一方で、文の代わりにフレーズや断片を評価する際にはより困難を伴うかもしれません。しかし、それは学習過程であり、あなたの協力によってさらに良くすることができます。 また読む:AIコンテンツ作成がコンテンツマーケティングの未来を革新しています! フィードバックループ:文法チェッカーの改善 眉をひそめるような提案に出くわした場合や、AIの修正を微調整するチャンスを見つけた場合、あなたが主導権を握っています。フィードバックを提供することで、システムはアプローチを洗練させ、今後より鋭い提案を提供することができます。 制限と英語のフロンティア 現在、この文法チェッカーの言語能力は英語に限定されています。しかし、覚えておいてください、それには倫理的な制約もあります。Googleの検索ポリシーに違反するコンテンツ –…

ベントMLを使用したHugging Faceモデルのデプロイ:DeepFloyd IFのアクション

Hugging Faceは、モデルを簡単にアップロード、共有、展開することができるHubプラットフォームを提供しています。これにより、モデルをゼロからトレーニングするために必要な時間と計算リソースを開発者が節約することができます。ただし、実世界のプロダクション環境やクラウドネイティブの方法でモデルを展開することはまだ課題があります。 ここでBentoMLが登場します。BentoMLは、機械学習モデルのサービングと展開のためのオープンソースプラットフォームです。これは、従来の、事前トレーニング済みの、生成モデルおよび大規模言語モデルを組み込んだ本番向けのAIアプリケーションを構築、出荷、スケーリングするための統一されたフレームワークです。以下は、BentoMLフレームワークを高レベルで使用する方法です: モデルの定義:BentoMLを使用するには、機械学習モデル(または複数のモデル)が必要です。このモデルは、TensorFlowやPyTorchなどの機械学習ライブラリを使用してトレーニングできます。 モデルの保存:トレーニング済みのモデルをBentoMLのローカルモデルストアに保存します。これは、すべてのトレーニング済みモデルをローカルで管理し、サービングにアクセスするために使用されます。 BentoMLサービスの作成:モデルをラップし、サービスのロジックを定義するためにservice.pyファイルを作成します。これは、モデルの推論をスケールで実行するためのランナーを指定し、入力と出力の処理方法を定義するAPIを公開します。 Bentoのビルド:構成YAMLファイルを作成することで、すべてのモデルとサービスをパッケージ化し、コードと依存関係を含む展開可能なアーティファクトであるBentoを作成します。 Bentoの展開:Bentoが準備できたら、Bentoをコンテナ化してDockerイメージを作成し、Kubernetes上で実行することができます。または、Bentoを直接Yataiに展開することもできます。Yataiは、Kubernetes上での機械学習デプロイメントを自動化および実行するためのオープンソースのエンドツーエンドソリューションです。 このブログ投稿では、上記のワークフローに従ってDeepFloyd IFをBentoMLと統合する方法をデモンストレーションします。 目次 DeepFloyd IFの簡単な紹介 環境の準備 BentoMLモデルストアへのモデルのダウンロード BentoMLサービスの開始 Bentoのビルドとサービスの提供 サーバーのテスト 次のステップ DeepFloyd IFの簡単な紹介 DeepFloyd IFは、最先端のオープンソースのテキストから画像へのモデルです。Stable Diffusionのような潜在的な拡散モデルとは異なる運用戦略とアーキテクチャを持っています。…

Google AI Researchは、正確な時空間の位置情報と密に関連付けられた意味的に正しい豊富なビデオの説明を取得する注釈手法であるVidLNsを提案しています

ビジョンと言語の研究は、最近、特に静止画とそれに対応するキャプションの関連を確立するデータセットにおいて、著しい進展を遂げている動的に進化する分野です。これらのデータセットでは、キャプション内の特定の単語を画像内の特定の領域に関連付けるため、さまざまな方法が使用されています。最新のローカライズド・ナラティブ(ImLN)によって提案される興味深いアプローチは、魅力的な解決策を提供します。アノテーターは画像を口頭で説明しながら、同時にマウスカーソルを話題の領域の上に移動させます。この音声とカーソルの移動の二重プロセスは、自然なコミュニケーションを模倣し、各単語に対して包括的な視覚的基盤を提供します。ただし、静止画は時間の一瞬しか捉えていません。動画への注釈付けの可能性は、複数のエンティティやオブジェクトが動的に相互作用するイベントを示す完全なナラティブを描くため、さらに魅力的です。 この時間のかかる複雑なタスクに対処するために、ImLNを動画に拡張するための強化された注釈付けアプローチが提案されています。 提案された技術のパイプラインは以下に示されています。 この新しいプロトコルにより、アノテーターは制御された環境でビデオのナラティブを作成することができます。アノテーターはまずビデオを注意深く観察し、主要なキャラクター(「男性」や「ダチョウ」など)を特定し、各キャラクターの重要な瞬間を表す鍵フレームを選択します。 その後、各キャラクターごとにナラティブが構築されます。アノテーターは口頭でキャラクターの関与するさまざまなイベントを述べながら、キーフレームの上にカーソルを移動させて関連するオブジェクトとアクションを強調します。これらの口頭の説明には、キャラクターの名前、属性、特にアクションが含まれます。これには、他のキャラクターとの相互作用(例:”ダチョウと遊ぶ”)や無生物のオブジェクトとの相互作用(例:”食べ物のカップを掴む”)も含まれます。包括的なコンテキストを提供するために、アノテーターは別のフェーズで背景の簡潔な説明も行います。 キーフレームを効果的に利用することで、時間制約がなくなり、各キャラクターに対して異なるナラティブを作成することが可能になり、複雑な状況を解明することができます。この解明は、複数のキャラクターが相互におよび多数の受動的なオブジェクトと相互作用する多面的なイベントの包括的な描写を容易にします。ImLNと同様に、このプロトコルは各単語を局所化するためにマウスの軌跡セグメントを活用しています。また、この研究では、前の研究の成果を超える正確な局所化を確保するために、いくつかの追加措置も実装されています。 研究者は、Video Localized Narratives (VidLNs) を使用して異なるデータセット上で注釈付けを行いました。考慮されたビデオは、さまざまなキャラクターや無生物のオブジェクトとの相互作用を特徴とする複雑なシナリオを描いており、詳細な注釈によって説明される魅力的なナラティブが生まれています。以下に例を示します。 VidLNsデータセットの深さは、Video Narrative Grounding (VNG) やVideo Question Answering (VideoQA) などのさまざまなタスクにとって堅牢な基盤を形成しています。新たに導入されたVNGの課題は、入力ナラティブから名詞を局所化し、ビデオフレーム上にセグメンテーションマスクを生成することができるテクニックの開発を必要とします。このタスクは、テキストが頻繁に多重の同一名詞を含むため、周囲の単語からの文脈的手がかりを活用した曖昧さの解消が必要であり、重要な課題です。これらの新しいベンチマークは、完全に解決されるには遠い複雑な課題ですが、提案されたアプローチは正しい方向に向けた意味のある進歩を示しています(詳細は公開された論文を参照してください)。 これは、ビジョンと言語をつなぐ新しい形式のマルチモーダルなビデオ注釈であるVideo Localized Narrativesの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

「2つのPandas DataFrameを比較するための簡単な方法3つ」

パンダのセルごとに2つのデータフレームを比較し、列に基づいてforループを使用しますパンダのcompareメソッドは、2つのデータフレームの間の差異を表示します

マルチモーダル医療AI

Google ResearchのHealth AI部門の責任者であるGreg Corradoと、Engineering and ResearchのVPであるYossi Matiasによって投稿されました。 医学は本質的に多様なモダリティを持つ分野です。医療を提供する際、臨床医は医学画像、臨床ノート、検査結果、電子保健記録、ゲノミクスなど、さまざまなモダリティのデータを解釈することが日常的に行われます。過去10年ほどで、AIシステムは特定のタスクや特定のモダリティにおいて専門家レベルのパフォーマンスを達成してきました。CTスキャンを処理するAIシステム、高倍率の病理スライドを分析するAIシステム、希少な遺伝子の変異を探すAIシステムなどがあります。これらのシステムの入力は画像などの複雑なデータであり、通常は離散的なグレードや密な画像セグメンテーションマスクの形で構造化された出力を提供します。同時に、大規模言語モデル(LLM)の能力と機能は非常に高度になり、医学の知識を理解し、明瞭な言語で解釈および応答することを示しています。しかし、これらの能力を組み合わせてこれらの情報源から情報を利用する医療AIシステムを構築するにはどうすれば良いのでしょうか? 本日のブログ投稿では、LLMに多様なモダリティの能力をもたらすアプローチの範囲を概説し、最近の研究論文で示されている多様なモダリティの医療LLMの構築の実現可能性についての興味深い結果を共有します。これらの論文は、LLMに新たなモダリティを導入する方法、最先端の医学画像基盤モデルを会話型LLMに組み込む方法、そして真の汎用的な多様なモダリティの医療AIシステムの構築への初歩的な取り組みについて説明しています。成功すれば、多様なモダリティの医療LLMは、専門医療、医学研究、消費者向けアプリケーションを横断する新しい支援技術の基盤となる可能性があります。私たちの以前の研究と同様に、これらの技術を医療コミュニティや医療エコシステムとの協力による慎重な評価の必要性を強調します。 アプローチの範囲 最近の数ヶ月間には、多様なモダリティのLLMの構築に関するいくつかの手法が提案されています[1, 2, 3]。さらに新しい手法がしばらくの間続々と登場することでしょう。医療AIシステムに新しいモダリティをもたらす機会を理解するために、3つの広義に定義されたアプローチを考えてみましょう:ツールの利用、モデルの組み込み、汎用システム。 多様なモダリティのLLMを構築するアプローチの範囲は、LLMが既存のツールやモデルを使用することから、ドメイン固有のコンポーネントをアダプタとして利用すること、多様なモダリティのモデルを共同モデリングすることまで広がっています。 ツールの利用 ツールの利用のアプローチでは、中央の医療LLMは各タスクに最適化されたソフトウェアサブシステム(ツール)によるさまざまなモダリティのデータの解析を外部に委託します。ツールの利用の一般的な例は、LLMに計算を自身で行うのではなく、電卓を使用することを教えることです。医療の場合、胸部X線を処理する医療LLMは、その画像を放射線学AIシステムに転送し、その応答を統合することができます。これは、サブシステムが提供するアプリケーションプログラミングインターフェース(API)を介して行うこともできますし、より幻想的には、異なる専門分野を持つ2つの医療AIシステムが会話をすることもできます。 このアプローチにはいくつかの重要な利点があります。サブシステム間の最大の柔軟性と独立性が実現され、ヘルスシステムはサブシステムの検証されたパフォーマンス特性に基づいてテックプロバイダ間で製品を組み合わせることができます。さらに、サブシステム間の人間が読めるコミュニケーションチャネルは、監査可能性とデバッグ可能性を最大化します。ただし、独立したサブシステム間のコミュニケーションをうまく行うことは難しい場合があり、情報の伝達が狭まったり、誤ったコミュニケーションや情報の損失のリスクが発生する可能性があります。 モデルの組み込み より統合されたアプローチとして、各関連する領域に特化したニューラルネットワークを取り、それをLLMに直接組み込むことが考えられます。つまり、ビジュアルモデルを核となる推論エージェントに組み込むことです。ツールの利用とは異なり、モデルの組み込みでは、研究者は開発中に特定のモデルを使用、改良、または開発することができます。Google Researchの最近の2つの論文では、これが実現可能であることを示しています。ニューラルLLMは通常、テキストを最初に単語のベクトル埋め込み空間にマッピングすることでテキストを処理します。両論文は、新しいモダリティのデータを既にLLMに馴染みのある入力単語埋め込み空間にマッピングするというアイデアに基づいています。最初の論文「個別データに基づく健康な多様なモダリティのLLM」では、イギリスバイオバンクでの喘息リスク予測が改善されることを示しています。このために、まず、スパイログラム(呼吸能力を評価するために使用されるモダリティ)を解釈するためのニューラルネットワーク分類器を訓練し、そのネットワークの出力をLLMへの入力として適応させることで実現します。 2つ目の論文、「ELIXR: Towards a general…

「AnyLocによる最新のビジュアル位置認識(VPR)の汎用方法について紹介します」

人工知能の分野は常に進化しており、ロボット工学などのさまざまな用途に取り入れられています。ビジュアルプレースリコグニション(VPR)は、ロボットの状態を推定するための重要なスキルであり、ウェアラブルテクノロジーやドローン、自動運転車両、地上ロボットなど、さまざまなロボットシステムで広く使用されています。VPRは、ビジュアルデータの利用により、ロボットが現在の位置や周囲の場所を認識し理解することを可能にします。 VPRの普遍的な応用を実現することは困難でした。現代のVPR手法は、都市の運転シナリオなど、学習に使用された環境と類似したコンテキストに適用された場合には良好な性能を発揮しますが、水中や空中などのさまざまな環境では効果が著しく低下します。普遍的なVPRソリューションを設計するための取り組みが行われており、これは航空、水中、地下などの環境を含め、いかなる環境でもエラーなく稼働し、昼夜や季節の変動などの変化に弾力的に対応し、直径に反対の視点を含む視点の変動にも影響を受けないようにすることを目指しています。 上記の制約に対処するために、研究者のグループはAnyLocという新しいベースラインのVPR手法を導入しました。チームは、VPR固有のトレーニングに単に依存するのではなく、大規模な事前学習モデルから取得したビジュアル特徴表現を調査しました。これらのモデルはもともとVPRのためにトレーニングされていませんが、包括的なVPRソリューションの基盤となる可能性がある豊富なビジュアル特徴を保持しています。 AnyLocの手法では、必要な不変性属性を持つ最適な基盤モデルとビジュアル特徴を慎重に選択します。不変性属性には、モデルが周囲の変化や視点の変化に対して特定のビジュアル品質を維持する能力が含まれます。一般的にVPRの文献で頻繁に使用されるローカル集約手法は、これらの属性と統合されます。位置認識に関するより教養のある結論を得るには、ローカル集約手法を使用して視覚入力の異なる領域からのデータを統合する必要があります。 AnyLocは、基盤モデルの豊富なビジュアル要素をローカル集約手法と融合させることで、さまざまな環境で非常に適応性があり有用なAnyLoc対応ロボットを実現します。AnyLocは、さまざまな環境、昼夜の時間、視点の変動を含む12つの異なるデータセットでシームレスに動作するVPRの新しいベースラインとして提案されています。 普遍的なVPRソリューション:AnyLocは、場所、時間、視点の変動を含む12つの異なるデータセットでシームレスに動作する新しいVPRのベースラインとして提案されています。 特徴-手法のシナジー:DINOv2などの自己教師付き特徴とVLADやGeMなどの非教師付き集約を組み合わせることで、オフシェルモデルからの単一画像特徴の直接使用よりも性能が向上します。 意味的特徴の特徴化:集約されたローカル特徴の意味的特性を分析することで、潜在空間で異なるドメインを明らかにし、VLADの語彙構築を向上させ、性能を向上させます。 堅牢な評価:チームは、昼夜の変動や反対の視点など、困難なVPR条件でさまざまなデータセット上でAnyLocを評価し、将来の普遍的なVPR研究のための強力なベースラインを設定しました。

「HaystackにおけるRAGパイプラインの拡張 DiversityRankerとLostInTheMiddleRankerの紹介」

最近の自然言語処理(NLP)と長文質問応答(LFQA)の進歩は、わずか数年前にはまるでSFの世界から来たようなものだと思われていたでしょう誰...

「このAIニュースレターが必要なすべて #59」

今週、Zoomの利用規約の変更(3月から)が、顧客のビデオデータの使用に関する懸念が拡散したことで注目されましたZoomの利用規約は、主に会社に自由な利用を許可するように見えました...

「AIが航空会社のコントレイルによる気候への影響を軽減するのに役立っている方法」

「私たちはAIを使用して、航空会社がコントレイルの発生が少ないルートを選択するのを支援し、飛行の環境への影響を最小限に抑えました」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us