Learn more about Search Results MarkTechPost - Page 5
- You may be interested
- 「ピアソン、スピアマン、ケンドール相関...
- 「ChatGPTの高度な設定ガイド – Top...
- 「Quip Python APIs を使用して Quip スプ...
- 中途の旅行 vs 安定した拡散:AI画像生成...
- 「ギザギザしたCOVIDチャートの謎を解決す...
- 近接度とコミュニティ:PythonとNetworkX...
- NLPの探求 – NLPのキックスタート(...
- 72歳で亡くなったダグラス・レナット氏、...
- 「CVPR 2023のメモ」
- 『AIが世界中のニュースルームで変化を生...
- 画像埋め込みのためのトップ10の事前訓練...
- AIのオリンピック:機械学習システムのベ...
- 2023年のトップ7人工知能絵画ジェネレーター
- なぜあなたのビジネスは生成型AIを活用す...
- 「機械学習の解明:人気のあるMLライブラ...
スタンフォード大学とセールスフォースAIの研究者が「UniControl」という統合的な拡散モデルを発表:AI画像生成における高度な制御のための統一されたモデル
生成型の基礎モデルは、特定のタイプの入力データに似た新しいデータを生成するために設計された人工知能モデルのクラスです。これらのモデルは、自然言語処理、コンピュータビジョン、音楽生成など、さまざまな分野で使用されることがあります。彼らは、トレーニングデータから基礎となるパターンや構造を学び、その知識を使用して新しい似たようなデータを生成します。 生成型の基礎モデルは、画像合成、テキスト生成、推薦システム、薬物探索など、さまざまな応用があります。彼らは常に進化し、生成能力の向上、より多様で高品質な出力の生成、可制御性の向上、および使用に関連する倫理的な問題の理解など、その応用能力を向上させるために研究者が取り組んでいます。 Stanford大学、Northeastern大学、Salesforce AI研究所の研究者たちは、UniControlを開発しました。これは、野生での制御可能なビジュアル生成のための統一拡散モデルであり、言語とさまざまな視覚条件を同時に扱うことができます。UniControlは、複数のタスクを同時に処理し、さまざまな視覚条件をユニバーサルな表現空間にエンコードし、タスク間で共通の構造を探求する必要があります。UniControlは、他のタスクや言語プロンプトから幅広い視覚条件を受け取る必要があります。 UniControlは、視覚要素が主な役割を果たし、言語のプロンプトがスタイルと文脈を指示することにより、ピクセルパーフェクトな精度で画像の生成を提供します。研究チームは、UniControlがさまざまな視覚シナリオを管理する能力を向上させるために、事前学習されたテキストから画像への拡散モデルを拡大しました。さらに、彼らはタスクに関する認識能力を持つHyperNetを組み込み、異なる視覚条件に基づいて複数の画像生成タスクに適応することができるようにしました。 彼らのモデルは、ControlNetよりも3Dジオメトリガイドの深さマップや表面法線の微妙な理解を示しています。深さマップ条件により、より正確な出力が生じます。セグメンテーション、openpose、および物体のバウンディングボックスのタスク中、彼らのモデルによって生成された画像は、ControlNetによって生成された画像よりも与えられた条件によりよく整列し、入力プロンプトに対して高い忠実度を確保します。実験結果は、UniControlが同等のモデルサイズを持つ単一タスク制御法の性能をしばしば上回ることを示しています。 UniControlは、ControlNetのさまざまな視覚条件を統合し、新たに見たことのないタスクでゼロショット学習を実行することができます。現在のところ、UniControlは単一の視覚条件のみを受け入れるが、複数のタスクを同時に実行し、ゼロショット学習も可能です。これは、その汎用性と広範な採用の可能性を示しています。 ただし、彼らのモデルはまだ拡散ベースの画像生成モデルの制限を継承しています。具体的には、研究者のトレーニングデータはLaion-Aestheticsデータセットの一部から取得されたものであり、データバイアスがかかっています。UniControlは、バイアスのある、有毒な、性的な、または他の有害なコンテンツの作成をブロックするために、より良いオープンソースのデータセットが利用可能であれば改善することができます。
SalesForce AI 研究 BannerGen マルチモダリティ バナー生成のためのオープンソース ライブラリ
効果的なグラフィックデザインは成功したマーケティングキャンペーンの基盤です。それはデザイナーと視聴者の間のコミュニケーション橋渡しを行い、ユーザーを魅了し、重要な詳細を強調し、キャンペーンの視覚的な外観を向上させます。しかし、現在の方法は時間のかかるものであり、層ごとの組み立て作業が必要です。これには専門知識が必要であり、スケーラブルにはなりません。 上記の問題を解決するために、Salesforceの研究者は、生成型AIの力を活用してデザインプロセスを効率化するオープンソースのライブラリBannerGenを導入しました。このライブラリには、3つの並列マルチモーダルバナージェネレーションメソッド、LayoutDETR、LayoutInstructPix2Pix、およびFramed Template RetrieveAdapterが含まれます。それぞれが大量のデザイングラフィックデータでトレーニングを受けており、デザインプロセスを迅速化できます。さらに、これらすべてがBannerGenのGitHubリポジトリでオープンソース化されており、Pythonモジュールとしてインポートできるため、開発者は各メソッドで実験することが容易です。BannerGenには、ライセンスされたフォントと注意深く作成されたテンプレートもあり、開発者は高品質のデザインを構築することができます。 ユーザーはバナーを作成したい画像をアップロードすることができます。その画像は、主要な要素に焦点を当てて複数のサブイメージにクロッピングされます。ユーザーはまた、希望するバナーのタイプと含めたいテキストを指定することもできます。サブイメージは選択したテンプレートに統合され、見事なビジュアルが作成されます。最終的なデザインはHTMLファイルとPNGファイルとして生成されます。 研究者はVAEGANフレームワークを取り入れて、生成されたデザインを現実のパターンに合わせるようにしました。DETRアーキテクチャもBannerGenに組み込まれ、LayoutDETRとして言及されています。研究者はDETRデコーダを変更して、マルチモーダルの前景入力を処理できるようにしました。このアーキテクチャにより、BannerGenは背景と前景要素をより良く理解することができ、より良い結果を生み出します。 BannerGenは、拡散モデルによって強化された画像から画像への編集技術であるInstructPix2Pixも組み込んでいます。それは背景画像をテキストが重ねられた画像に変換するように微調整されています。 3番目のメソッドであるFramed Template RetrieveAdapterは、生成されたデザインの多様性を向上させるために使用され、3つのコンポーネントで構成されています。メトリクスに基づいて最適なフレームを見つけるリトリーバー、フレームに適合するように入力画像とテキストをカスタマイズするアダプター、背景レイヤーとユーザーの入力を統合してHTML/CSSでデザインを生成するレンダラーです。 まとめると、BannerGenは生成型AIを活用してユーザーがシームレスにカスタマイズされたバナーを作成できる強力で多機能なフレームワークです。BannerGenのアーキテクチャは実際のレイアウトから学ぶように設計されており、背景と前景要素を理解することができます。最終的なデザインはHTMLファイルとPNGファイルとして生成され、手動で簡単に調整することができ、すぐに使用できるように任意のメディアに埋め込むことができます。BannerGenはグラフィックデザインのプロセスを時間のかかるものから解放し、ユーザーが高品質でプロフェッショナルなデザインを生成するのを支援します。 この記事はSalesForce AI Research BannerGen: An Open-Source Library for Multi-Modality Banner GenerationがMarkTechPostに最初に掲載されました。
このAI論文は、TreeOfLife-10Mデータセットを活用して生物学と保護のコンピュータビジョンを変革するBioCLIPを紹介しています
生態学、進化生物学、生物多様性など、多くの生物学の分野が、研究ツールとしてデジタルイメージおよびコンピュータビジョンを活用しています。現代の技術は、博物館、カメラトラップ、市民科学プラットフォームから大量の画像を分析する能力を大幅に向上させました。このデータは、種の定義、適応機構の理解、個体群の構造と豊富さの推定、生物多様性の監視と保全に活用することができます。 とはいえ、生物学的な問いにコンピュータビジョンを利用しようとする際には、特定のタスクに適したモデルを見つけて訓練し、十分なデータを手動でラベリングすることは、依然として大きな課題です。これには、機械学習の知識と時間が大量に必要とされます。 オハイオ州立大学、マイクロソフト、カリフォルニア大学アーヴァイン校、レンセラーポリテクニック研究所の研究者たちは、この取り組みで生命の木の基礎的なビジョンを構築することを調査しています。このモデルは、実際の生物学的なタスクに一般的に適用できるように、以下の要件を満たす必要があります。まず、一つのクラドだけでなく、様々なクラドを調査する研究者に適用できる必要があります。そして理想的には、生命の木全体に一般化できることが求められます。さらに、生物学の分野では、同じ属内の関連種や、適応度の向上のために他の種の外観を模倣するなど、視覚的に類似した生物と遭遇することが一般的です。生命の木は生物を広義のグループ(動物、菌類、植物など)および非常に細かいグループに分類しているため、このような細かな分類の精度が重要です。最後に、生物学におけるデータ収集とラベリングの高いコストを考慮して、低データの状況(例:ゼロショットまたはフューショット)で優れた結果が得られることが重要です。 数億枚の画像で訓練された現行の汎用ビジョンモデルは、進化生物学や生態学に適用する際に十分な性能を発揮しません。しかし、これらの目標はコンピュータビジョンにとって新しいものではありません。研究者たちは、生物学のビジョン基盤モデルの作成には2つの主な障害があることを特定しています。まず、既に利用可能なデータセットは、サイズ、多様性、またはラベルの精度の点で不十分ですので、より良い事前トレーニングデータセットが必要です。さらに、現在の事前トレーニングアルゴリズムは3つの主要な目標に適切に対応していないため、生物学の独特な特性を活用したよりよい事前トレーニング方法を見つける必要があります。 これらの目標とそれらを実現するための障害を念頭に置いて、チームは以下を提示しています: TREEOFLIFE-10Mという大規模なML対応の生物学画像データセット BIOCLIPはTREEOFLIFE-10M内の適切な分類群を用いてトレーニングされた生命の木を基盤としたビジョンベースのモデルです。 TREEOFLIFE-10Mは、ML対応の広範な生物学画像データセットです。生命の木において454,000の分類群をカバーする10,000,000以上の写真が含まれており、研究者たちによって編成され、最大のML対応生物学画像データセットが公開されました。2.7百万枚の写真は、最大のML対応生物学画像コレクションであるiNat21を構成しています。iNat21やBIOSCAN-1Mなどの既存の高品質データセットもTREEOFLIFE-10Mに組み込まれています。TREEOFLIFE-10Mのデータの多様性の大部分は、新たに選択された写真が含まれているEncyclopedia of Life(eol.org)から得られています。TREEOFLIFE-10Mのすべての画像の分類階層および上位の分類順位は、可能な限り注釈が付けられています。TREEOFLIFE-10Mを活用することで、BIOCLIPや将来の生物学モデルをトレーニングすることができます。 BIOCLIPは、視覚に基づく生命の木の表現です。TREEOFLIFE10Mのような大規模なラベル付きデータセットを用いてビジョンモデルをトレーニングする一般的で簡単なアプローチは、監視付き分類ターゲットを使用して画像から分類指数を予測することを学ぶことです。ResNet50やSwin Transformerもこの戦略を使用しています。しかし、このアプローチは、分類群が体系的に関連している複雑なタクソノミーのシステムを無視し、活用していません。したがって、基本的な監視付き分類を使用してトレーニングされたモデルは、未知の分類群をゼロショット分類することができない可能性があり、トレーニング時に存在しなかった分類群に対してもうまく一般化することができないかもしれません。その代わりに、チームは、BIOCLIPの包括的な生物学的タクソノミーとCLIPスタイルの多モーダルコントラスティブ学習を組み合わせる新しいアプローチに従っています。CLIPコントラスティブ学習目的を使用することで、彼らは分類群の階層をキングダムから最も遠い分類群ランクまでフラット化して、分類名として知られる文字列に関連付けることができます。BIOCLIPは、可視化できない分類群の分類名を使用する際にも、ゼロショット分類を行うことができます。 チームは、混合テキスト型のトレーニング技術が有益であることを提案し、示しています。これは、分類名からの一般化を保ちつつ、複数のテキストタイプ(例:科学名と一般名)を組み合わせたトレーニング中に柔軟性を持つことを意味します。たとえば、ダウンストリームの使用者は一般的な種名を使用し続けることができ、BIOCLIPは非常に優れたパフォーマンスを発揮します。BIOCLIPの徹底的な評価は、植物、動物、昆虫を対象とした10の細かい画像分類データセットと、トレーニング中には使用されなかった特別に編集されたRARE SPECIESデータセットに基づいて行われています。BIOCLIPは、CLIPとOpenCLIPを大きく凌ぎ、few-shot環境では平均絶対改善率17%、zero-shot環境では18%の成績を収めました。さらに、その内在的な分析はBIOCLIPのより優れた一般化能力を説明することができます。これは、生物分類学的階層を遵守した階層的表現を学んでいることを示しています。 BIOCLIPのトレーニングは、数十万の分類群に対して視覚表現を学ぶためにCLIPの目的を利用しているということにもかかわらず、チームは分類に焦点を当てたままです。今後の研究では、BIOCLIPが細かい特徴レベルの表現を抽出できるよう、inaturalist.orgから100百万枚以上の研究用写真を取り込み、種の外見のより詳細なテキスト記述を収集する予定です。
このAI論文は、高度な時空間予測のためのニューラルオペレータの自己回帰エラーに対するディープラーニングソリューションを探求しています
この研究は、自己回帰ニューラルオペレーターのドメイン内の重要な課題である予測の範囲拡張の能力の制約について探求しています。自己回帰モデルは有望であるものの、空間時間予測における安定性の問題に直面し、その効果を著しく妨げています。この包括的な問題は、比較的滑らかなフィールドからERA5のようなデータセットに特徴付けられる複雑で大規模なシステムまで、さまざまなシナリオにわたって普遍的です。 自己回帰ニューラルオペレーターの予測範囲を拡張しようとすると、現在の方法は非常に困難な障壁に直面します。この制約を認識して、研究チームは予測性を向上させる画期的な解決策を提案しています。提案された方法は、スペクトルニューラルオペレーターの基本的なアーキテクチャのシフトを引き起こし、不安定性の問題を軽減する戦略的な手法です。既存の手法とは対照的に、この革新的なアプローチはこれらのオペレーターに無限の予測範囲を与え、大きな進歩を示します。 現在のところ、自己回帰ニューラルオペレーターは予測範囲を限定して予測する能力において重要な障壁を示します。従来の手法の不安定性の課題は、特に複雑な空間時間予測シナリオにおいてその効果を制約しています。この問題に対処するため、研究チームはスペクトルニューラルオペレーターのアーキテクチャを根本的に再構築し、予測範囲の拡張の可能性を開放する新しい解決策を提案しています。 提案された方法の核心には、ニューラルオペレーターブロックの再構築があります。エイリアシングや不連続性などの課題に対処するために、研究者は非線形性の後に学習可能なフィルターを連続的に適用し、新たに生成された高周波を効果的に処理する能力を持ちます。革新的な要素は、静的畳み込みフィルターを動的フィルターに置き換え、特定のデータに適応することです。この適応性は、周波数ドメインで操作されるモードごとのマルチレイヤーパーセプトロン(MLP)によって実現されます。 提案された方法の本質は、ニューラルオペレーターブロックを再想像することにあります。エイリアシングや不連続性などの課題に対処するため、研究者は非線形性の後に学習可能なフィルターを一貫して適用し、新たに生成された高周波を処理する能力を持つ革新的なフレームワークを導入します。画期的な要素は、固定された静的畳み込みフィルターを動的フィルターに置き換え、特定のデータセットの複雑さに適応することです。この適応性は、周波数ドメインで動作するモードごとのマルチレイヤーパーセプトロン(MLP)によって実現されます。 https://openreview.net/forum?id=RFfUUtKYOG 実験の結果は、この方法の有効性を裏付けており、安定性の大幅な改善が明らかになっています。これは、回転浅水方程式やERA5データセットなどのシナリオにこの手法を適用した場合に特に明らかです。周波数適応型MLPによって生成される動的フィルターは、さまざまなデータセットに対してモデルの適応性を確保することが重要です。静的フィルターを動的なフィルターに置き換えることにより、この方法はデータに依存するエイリアシングパターンの複雑さを巧みに処理します。これは固定されたストラテジーでは達成できない成果です。 https://openreview.net/forum?id=RFfUUtKYOG まとめると、この研究は自己回帰ニューラルオペレーターにおける予測の範囲拡張の持続的な課題を克服する画期的な進歩を表しています。周波数適応型MLPによって生成される動的フィルターを取り入れたニューラルオペレーターブロックの再構築は、不安定性の問題を軽減し、無限の予測の範囲を実現するための非常に効果的な戦略です。予測の複雑さに直面する研究コミュニティにとって、この研究はより堅牢で信頼性の高い空間時間予測モデルに向けた将来の取り組みを指し示すビーコンとしての役割を果たします。
デシAIはDeciLM-7Bを紹介します:超高速かつ超高精度の70億パラメータの大規模言語モデル(LLM)
技術の進化が絶えず進む中で、言語モデルは欠かせない存在となりました。これらのシステムは高度な人工知能によって動力を得ており、デジタルプラットフォームとのインタラクションを向上させます。LLM(Language Models)は人間の言語の理解と生成を促進し、人間のコミュニケーションと機械の理解とのギャップを埋めるために設計されています。技術の進歩により、言語モデルは情報処理、コミュニケーション、問題解決においてますます重要な役割を果たすデジタル時代を迎えました。 最近、Deciは7兆パラメータクラスで利用可能な高精度高速な革新的なモデルであるDeciLM-7Bを導入しました。Apache 2.0でライセンスされたこのモデルは、7兆パラメータクラスで類を見ない精度と速度を誇る新世代の言語モデルの最前線に立っています。このモデルは、言語処理の進歩と変革の力を備えています。 DeciLM-7BはThe Open Language Model Leaderboardにおいて61.55の印象的な平均スコアを記録しています。これは、DeciLM-7Bが7兆パラメータクラスで最も先進的なベース言語モデルであり、さまざまなアプリケーションにおいて改善された精度と信頼性を提供していることを示しています。Mistral 7Bは、Arc、HellaSwag、MMLU、Winogrande、GSM8Kを含むいくつかのベンチマークで従来のモデルよりも優れたパフォーマンスを発揮します。 DeciLM-7Bは単に精度が高いだけでなく、驚異的な速度能力を持っています。Mistral 7Bに比べてスループットが83%向上し、Llama 2 7Bに比べて139%も向上しています。DeciLM-7Bは言語モデルの効率性の基準を引き上げています。PyTorchのベンチマークでは、Mistral 7BおよびLlama 2 7Bよりも1.83倍および2.39倍のスループットを示しており、その優位性がハイライトされています。 DeciLM-7BとInfery、Decが開発した推論SDKの相乗効果により、vLLMを使用したMistral 7Bに比べて4.4倍の速度向上が実現され、コスト効果の高い大量ユーザーインタラクションの可能性が提供されます。 DeciLM-7BはNASパワードエンジン、AutoNACを活用しています。このモデルは複雑な好み最適化手法なしで、上位の7兆パラメータの説明モデルの中で優れた性能を発揮します。研究者たちは、DeciLM-7BとInfery-LLMが革新的な変化をいくつかの産業にもたらす可能性を持つアプリケーションを持っていることを強調しています。これら2つは、リアルタイムのチャットボットによるハイボリューム顧客サービスの向上と、医療、法律、マーケティング、ファイナンスなどのテキスト重視の専門分野におけるワークフロー自動化を革新します。 まとめると、DeciLM-7Bは大規模な言語モデルにおける重要なモデルです。精度と効率性だけでなく、アクセシビリティと多様性においても言語モデルが優れていることを示しています。技術の進化につれて、DeciLM-7Bのようなモデルはデジタル世界を形作る上でますます重要になっています。これらのモデルは未来に向けた無数の可能性を示してくれます。技術の進歩とともに、これらのモデルはますます重要になり、デジタルフロンティアの多岐にわたる選択肢を展望する魅力的かつ広大な予感を私たちにもたらしてくれます。
このAI論文は、イメージとテキストのアラインメントモデルにおける詳細なテキストとビジュアルの説明のための高度な技術を紹介しています
“`html 画像テキストの整列モデルは、視覚的コンテンツとテキスト情報の意味のある関連を確立し、イメージキャプショニング、リトリーバル、理解などのアプリケーションを可能にすることを目指しています。情報を伝える際にテキストと画像を組み合わせることは強力なツールになることがありますが、それらを正しく整列させることは難しい場合があります。整列の誤りは混乱や誤解を招く可能性があり、それらを検出することが重要です。テルアビブ大学、グーグルリサーチ、ヘブライ大学の研究者は、テキストの説明とそれに対応する画像の不一致を見るための新しいアプローチを開発しました。 T2I(テキストから画像へ)ジェネレーティブモデルは、GANベースからビジュアルトランスフォーマーや拡散モデルに移行することで、複雑なT2I対応を正確に捉えるという課題に直面しています。GPTのようなビジョン言語モデルはさまざまなドメインを変革しましたが、主にテキストに重点を置いており、ビジョン言語タスクにおいては効果が制限されています。ビジュアルコンポーネントと言語モデルを組み合わせた進歩は、テキストの説明を通じてビジュアルコンテンツの理解を向上させることを目指しています。従来のT2I自動評価は、FIDやインセプションスコアなどの指標に依存しており、より詳細な不一致のフィードバックが必要です。最近の研究では、画像テキストの説明可能な評価を導入し、質問応答ペアを生成し、ビジュアル質問応答(VQA)を使用して特定の不一致を分析しています。 この研究では、既存のテキスト画像ジェネレーティブモデルの不一致を予測・説明する方法を紹介しています。連動評価モデルを訓練するためにトレーニングセット、テキストとビジュアルフィードバックを構築しています。提案された手法は、質問-応答パイプラインに依存せずに画像テキストの不一致の説明を直接生成することを目指しています。 研究者は、言語とビジュアルモデルを使用して、不一致したキャプション、対応する説明、および視覚的な指標のトレーニングセットを作成しました。彼らはこのセットでビジョン言語モデルを微調整し、画像テキストの整列を改善しました。彼らはまた、略奪研究を行い、テキストから質問応答ペアを生成するためにVQAを使用する最近の研究を参照して、特定の不一致に関する洞察を提供しました。 提案手法のトレーニングセットでトレーニングされた微調整されたビジョン言語モデルは、2つの不一致の分類と説明生成タスクにおいて優れたパフォーマンスを発揮します。これらのモデルは画像テキストのペアで不一致を明確に示し、詳細なテキストと視覚的な説明を提供します。PaLIモデルは、バイナリアラインメント分類で非PaLIモデルを凌駕しますが、小さいPaLIモデルは分布内テストセットで優れた性能を発揮しますが、分布外の例では遅れます。この手法は、テキストフィードバックタスクで大幅な改善を示しており、今後の作業でマルチタスキングの効率を向上させる予定です。 まとめると、この研究の主なポイントは次の通りです: ConGen-Feedbackは、相反するキャプションと不一致のテキストおよび視覚的な説明を生成できるフィードバック中心のデータ生成方法です。 この手法は、大規模な言語モデルとグラフィカルグラウンディングモデルを利用して包括的なトレーニングセットTVフィードバックを構築し、バイナリアラインメントの分類と説明生成タスクでベースラインを上回るパフォーマンスを引き出すモデルをトレーニングするために使用されます。 提案された手法は、質問-回答パイプラインや評価タスクの分解に頼らずに、画像テキストの不一致の説明を直接生成することができます。 SeeTRUE-Feedbackによって開発された人間の注釈付き評価は、ConGen-Feedbackを使用して訓練されたモデルの正確性とパフォーマンスをさらに向上させます。 全体的に、ConGen-Feedbackは、フィードバック中心のデータと説明を生成するための効果的で効率的なメカニズムを提供することにより、NLPおよびコンピュータビジョンの分野を革新するポテンシャルを持っています。 “`
インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています
生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の研究者らが開発したBrainowareは、実験室で育てられた脳細胞のクラスターを利用して初等的な音声認識や数学問題の解決を実現する革新的なシステムです。 この技術の飛躍点は、脳の基本単位であるニューロンに成熟する特殊な幹細胞を培養することにあります。通常、人間の脳は860億個のニューロンが広範につながり合っていますが、研究チームはわずかナノメートルの小さな器官を設計することに成功しました。この小さながらも強力な構造物は、電極の配列を介して回路基板に接続され、機械学習アルゴリズムが脳組織からの応答を解読できるようにしました。 Brainowareと呼ばれるこの生物学的なニューロンと計算回路の融合体は、短期間の訓練の後、驚くべき能力を発揮しました。さまざまな母音の発音の違いに基づいて8つのサブジェクトを78%の精度で識別することができました。さらに驚くべきことに、Brainowareは、複雑なカオスダイナミックス内のHenonマップを予測する人工ネットワークを上回りました。 研究チームはBrainowareの役割を強調し、脳に触発されたニューラルネットワークを通じてAIの能力を向上させる上での重要な役割を示しました。その際立つ利点の1つはエネルギー効率です。従来の人工ニューラルネットワークが毎日何百万ワットもの電力を消費するのに対し、Brainowareは人間の脳の機能を模倣し、わずか20ワットの電力で動作します。 これらの進歩はAIの拡張を超えて意義があります。研究者たちは、Brainowareを利用して睡眠中の脳波活動を解読し、夢を記録するなど、アルツハイマーなどの神経学的な疾患の理解に潜在的な応用を想定しています。ただし、このような器官の持続的な維持と保守のためには、恒常的な栄養とケアが求められるなどの難題も存在します。 倫理的な考慮事項もこれらの進展に伴って存在します。バイオコンピューティングシステムと人間の神経組織を統合することに関連する神経倫理学的な問題の解決が必要とされます。器官の進化に伴い、これらの倫理的な問題は入念に検討される必要があります。 この研究は包括的なバイオコンピューティングシステムの開発には長い期間がかかるかもしれませんが、学習メカニズム、神経の発達、神経変性疾患に関連する認知的な側面を理解するための重要な基盤を築いています。 バイオエンジニアリングとAIの融合によるBrainowareは、神経ネットワークが生体組織と融合して技術革新を起こす未来の一端を示しています。課題が存在するものの、人間の心の謎を解明し、コンピューティングのパラダイムを変革する可能性は、この先駆的な研究を未来の希望の兆しとしています。 投稿:Researchers from Indiana University Unveil ‘Brainoware’: A Cutting-Edge Artificial Intelligence Technology Inspired by Brain Organoids and…
このAI論文は、「Vary」という新しいアプローチを明らかにしています:高度な多言語認識タスクのための大規模なビジョン言語モデルの視覚語彙を拡張するためのアプローチ
大視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理を組み合わせて、視覚的なコンテンツのテキストの説明を生成することができます。これらのモデルは、画像のキャプション付け、可視化された質問応答、および画像の検索など、さまざまなアプリケーションで驚異的な進展を遂げています。しかし、その優れたパフォーマンスにもかかわらず、LVLMはまだいくつかの課題に直面しています。特に、密で詳細な知覚を必要とする特殊なタスクにおいて、ビジョンの語彙が制約されているという問題です。 中国科学技術大学、MEGVIIテクノロジー、および中国科学院の研究者たちは、固有の認識力を必要とする特殊なタスクのためにLVLMを強化するVaryという方法を導入しました。Varyは、効率的に新しい特徴を獲得し、詳細な知覚を改善するためのLVLMを活性化します。実験結果は、Varyの効果を示しています。研究者たちは、さらなる探求のためのプラットフォームとしてVaryを提案しています。研究では、GPT-4をトレーニングデータ生成に使用し、Varyの応用範囲をさまざまな視覚タスクに適用することを強調しています。これにより、LVLMの能力が拡張される一方で、元の能力も維持されます。 この研究は、CLIP-VITなどの一般的なビジョン語彙の制約に取り組んでおり、LVLMにおいてビジョン語彙をスケールアップする必要性を提起しています。これにより、外国語のLVLMのテキスト語彙を拡張することに着想を得たVaryという方法を導入しました。Varyは、語彙ネットワークを使用して新しいビジョン語彙を生成し、元の語彙と統合します。これにより、非英語のOCRやチャート理解などの様々なタスクにおけるエンコーディング効率とモデルパフォーマンスが向上します。この研究は、Varyの設計が今後の研究を刺激すると予想しています。 この研究では、Varyの2つの構成「Vary-tiny」と「Vary-base」を紹介しています。細かい知覚に焦点を当てたVary-tinyは、テキスト入力ブランチを持たず、小さなOPT-125Mモデルを使用します。ドキュメントとチャートのデータを正例、自然画像を負例としてトレーニングされます。Vary-tinyの語彙ネットワークは新しいビジョン語彙を生成し、Vary-baseでは元の語彙と統合されます。Vary-baseのトレーニングでは、両方の語彙ネットワークが使用され、重みが固定されますが、LVLMのパラメータと入力埋め込み層が最適化されます。具体的な実装の詳細には、AdamW最適化、余弦退火スケジューラ、特定の学習率が含まれます。ドキュメントとチャートの理解のための合成データが作成されます。 Varyは、複数のタスクで有望なパフォーマンスを発揮し、ドキュメントレベルのOCR、チャート理解、およびMMVetタスクで優れた結果を達成しています。具体的には、DocVQAでは78.2%、MMVetでは36.2%のANLSを達成し、新しいドキュメントの解析機能における能力を示しています。また、Vary-tinyとVary-baseは、ドキュメントOCRタスクで強力な結果を示しており、Vary-baseは他のLVLMを凌駕しています。この研究はVaryの成功を認めつつ、視覚語彙をスケールアップする効果的な改善の必要性を強調しています。 まとめると、この研究の主なポイントは次のように要約されます: 提案: LVLMにおける視覚語彙のスケールアップのための効率的な方法。 手法: 提案された方法は、オリジナルの言語と統合されたネットワークを介して生成された新しいビジョン語彙を導入します。 能力: この方法は、特にドキュメントレベルのOCRやチャート理解のタスクにおいて、詳細な知覚を向上させます。LVLMの元々の機能は維持しながら、素早く新しい特徴を獲得します。 パフォーマンス: さまざまなタスクで有望なスコアが示されており、この方法はドキュメント解析機能で他のLVLMを凌駕しています。
Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました
Google AR&VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバーチャルアバターライブラリ「VALID」を検証するため、University of Central Floridaと協力して総合的な研究を実施しました。データ駆動型の顔の平均値を利用し、各民族のボランティア代表者と共同して42のベースアバター(7つの人種×2つの性別×3つの個人)を作成するために、7つの人種の選択は米国国勢調査局のガイダンスに従って行われました。研究には、世界中の参加者からバリデーションされたラベルとメタデータを得るため、132人の参加者(33か国)が選ばれました。 結果は、参加者がアバターの人種をどのように認識したかを理解するために、主成分分析(PCA)とK-平均クラスタリングを使用したバリデーションプロセスを採用しました。参加者の人種と性別をバランスさせることで多様な視点のバランスをとるために、世界中の33か国から合計132人の参加者が研究のために選ばれました。 結果は、アジア人、黒人、白人のアバターが、さまざまな人種の参加者によって一貫して認識されていることを示しました。しかし、米国先住民・アラスカ先住民(AIAN)、ヒスパニック、中東、北アフリカ(MENA)、ハワイと太平洋の先住民族(NHPI)を表すアバターは、参加者の人種によって認識に差異があり、曖昧さがより顕著でした。同じ人種の参加者が対応する人種として認識した場合、アバターはその人種に基づいて名前が付けられます。 研究者たちは、アジア人、黒人、白人のアバターが、すべての参加者を対象に95%以上の合意率で正しく認識されたという結果について議論し、自身と異なる人種の顔を識別する際の低い65〜80%の正確性の概念を挑戦していると述べました。これは、多様な人種グループに対する知覚の専門知識またはなじみによるものであり、おそらくグローバルなメディアの影響を受けたものと考えられます。 同じ人種の参加者によって主に正しく認識されたアバターもありました。たとえば、ヒスパニックのアバターは参加者全体で評価が分かれましたが、ヒスパニックのみの参加者によってより正確に認識されました。研究では、正確な表現を確保するためにバーチャルアバターの研究において参加者の人種を考慮することの重要性が強調されています。 髪型などの要因により、アバターが曖昧にラベルされる場合がありました。ハワイ先住民と太平洋の島々を表すアバターの検証は限界があり、表現の課題と広範な選考努力の必要性が強調されました。 研究チームは、内グループと外グループのカテゴリ化によるステレオタイプ化と社会的判断への影響を強調し、仮想現実における異人種間の相互作用を改善するための規制の導入を提案しました。 研究コミュニティへの貢献として、チームはVALIDアバターライブラリへのオープンアクセスを提供し、さまざまなシナリオに適した多様なアバターが利用可能です。このライブラリには、65の顔のブレンドシェイプを持つアバターが含まれており、UnityやUnrealなどの人気のあるゲームエンジンと互換性があります。研究者および開発者が自身の研究やアプリケーションに適した多様で包括的なアバターを求めるための貴重なリソースとして、オープンアクセスのVALIDライブラリが位置付けられています。 まとめると、研究チームは多様なバーチャルアバターライブラリを作成し、ステレオタイプに挑戦し、包括性を促進しました。研究はアバターの認識における同じ人種バイアスの影響を強調し、さまざまな分野での仮想アバターの開発と応用について貴重な洞察を提供しました。オープンアクセスのVALIDライブラリは、研究者や開発者が研究やアプリケーションに多様で包括的なアバターを求める際の貴重なリソースとされています。
「長い尾が犬に振り回される:AIの個別化されたアートに伴う予測不可能な影響」
メタの最近の生成型映画の世界でのエミューの発表は、技術と文化が前例のない形で交差する転換点を示しています。エミューは、AIの創造的な能力を進歩させるだけでなく、情報やエンターテイメントへのアクセスに革命をもたらす可能性を示す、生成型AIの新たな時代の灯台です。 私たちは、出版とエンターテイメントの本質を変える可能性を秘めた、生成型AIの革命の絶頂に立っています。言語モデルは、情報を総合的にまとめ上げ、表現するという驚異的な能力を持ち、さまざまな言語で多様な主題をカバーする、比類なき広さと深さのグローバルなライブラリーを確約しています。しかし、生成される情報の信憑性は重要であり、事実確認とレビューに対して慎重なアプローチが必要です。 エンターテイメントに注目すると、その示唆は深刻です。エミューに続く生成型AIの進展により、NetflixやAmazon Primeのようなプラットフォームが根本的に変わり、これまで想像もできなかったほどの個人化が可能となります。映画の物語をいくつかのポイントを経て作り上げ、アルゴリズムがストーリーを調整する未来を思い描いてください。主人公の運命、勝利か敗北か、全てはあなたの裁量に委ねられます。これは好みの問題だけでなく、頂点に達した個人化です。私たちはまもなく、主人公が最後に死ぬかどうかを決める映画を観ることになるでしょう。ハッピーエンドは…私が望むならのみです!しかし、この個人化には重大な警戒が必要です。芸術体験を個人の好みに合わせる能力は、多様な視点に露骨に露光することなく、世界を過度に単純化し、反響のみを反映する世界につながりかねません。 この単純化への傾向は、しばしば「5歳の子に説明する」という信条によって象徴化されます。初めの理解を促進するかもしれませんが、豊かさと理解の深さを侵食する危険もあります。ここで特に重要なことは、エジソンの「できる限りシンプルにするが、それ以下にしない」という指針です。複雑な主題の微妙なニュアンスを保持しながら、明快さを維持することの重要性を強調しています。 潜在的な落とし穴にもかかわらず、この技術の魅力は否応なく存在します。これは、NikeIdのようなカスタマイズ可能な製品の魅力を思い起こさせる、ユニークさと承認欲求に訴えるものです。しかしここでの危険は、AIが私たちの偏見を補強し、難解で多様なアイデアから遮断することです。これは創造性の本質に反するものであり、幅広い知識との関わり合いから生まれる創造活動のリスクをはらんでいます。 AIの世界で、特に強化学習の場合、探索と利用のバランスを取るようにエージェントを訓練します。これは私たち自身の知的な旅の戦略を反映しています。しかし、情報との相互作用では、私たちはしばしば既存の信念と合致するものに制限をかけます。この逆説は、AIの適用における重要な見落としを強調しています。 AIが世界を再形成する可能性の前に立つ我々としては、この強力なツールの利用方法を考慮することが重要です。真の危険は、AI自体ではなく、私たちがそれとの相互作用をどのように行うかにあります。私たちはAIを探求と理解のための触媒として利用する必要があり、複雑さを受け入れ、知的好奇心を養う環境を育むべきです。そうすることで、AIは本当に善の力となり、私たちの視野を広げ、共同の人間の経験を豊かにすることができます。 この記事はAIの個人化された芸術の予期しない結果:(長い) エンドレスに最初に表示され、MarkTechPostから転載されました。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.