Search Results src

このAI論文は、TreeOfLife-10Mデータセットを活用して生物学と保護のコンピュータビジョンを変革するBioCLIPを紹介しています

生態学、進化生物学、生物多様性など、多くの生物学の分野が、研究ツールとしてデジタルイメージおよびコンピュータビジョンを活用しています。現代の技術は、博物館、カメラトラップ、市民科学プラットフォームから大量の画像を分析する能力を大幅に向上させました。このデータは、種の定義、適応機構の理解、個体群の構造と豊富さの推定、生物多様性の監視と保全に活用することができます。とはいえ、生物学的な問いにコンピュータビジョンを利用しようとする際には、特定のタスクに適したモデルを見つけて訓練し、十分なデータを手動でラベリングすることは、依然として大きな課題です。これには、機械学習の知識と時間が大量に必要とされます。オハイオ州立大学、マイクロソフト、カリフォルニア大学アーヴァイン校、レンセラーポリテクニック研究所の研究者たちは、この取り組みで生命の木の基礎的なビジョンを構築することを調査しています。このモデルは、実際の生物学的なタスクに一般的に適用できるように、以下の要件を満たす必要があります。まず、一つのクラドだけでなく、様々なクラドを調査する研究者に適用できる必要があります。そして理想的には、生命の木全体に一般化できることが求められます。さらに、生物学の分野では、同じ属内の関連種や、適応度の向上のために他の種の外観を模倣するなど、視覚的に類似した生物と遭遇することが一般的です。生命の木は生物を広義のグループ（動物、菌類、植物など）および非常に細かいグループに分類しているため、このような細かな分類の精度が重要です。最後に、生物学におけるデータ収集とラベリングの高いコストを考慮して、低データの状況（例：ゼロショットまたはフューショット）で優れた結果が得られることが重要です。数億枚の画像で訓練された現行の汎用ビジョンモデルは、進化生物学や生態学に適用する際に十分な性能を発揮しません。しかし、これらの目標はコンピュータビジョンにとって新しいものではありません。研究者たちは、生物学のビジョン基盤モデルの作成には2つの主な障害があることを特定しています。まず、既に利用可能なデータセットは、サイズ、多様性、またはラベルの精度の点で不十分ですので、より良い事前トレーニングデータセットが必要です。さらに、現在の事前トレーニングアルゴリズムは3つの主要な目標に適切に対応していないため、生物学の独特な特性を活用したよりよい事前トレーニング方法を見つける必要があります。これらの目標とそれらを実現するための障害を念頭に置いて、チームは以下を提示しています： TREEOFLIFE-10Mという大規模なML対応の生物学画像データセット BIOCLIPはTREEOFLIFE-10M内の適切な分類群を用いてトレーニングされた生命の木を基盤としたビジョンベースのモデルです。 TREEOFLIFE-10Mは、ML対応の広範な生物学画像データセットです。生命の木において454,000の分類群をカバーする10,000,000以上の写真が含まれており、研究者たちによって編成され、最大のML対応生物学画像データセットが公開されました。2.7百万枚の写真は、最大のML対応生物学画像コレクションであるiNat21を構成しています。iNat21やBIOSCAN-1Mなどの既存の高品質データセットもTREEOFLIFE-10Mに組み込まれています。TREEOFLIFE-10Mのデータの多様性の大部分は、新たに選択された写真が含まれているEncyclopedia of Life（eol.org）から得られています。TREEOFLIFE-10Mのすべての画像の分類階層および上位の分類順位は、可能な限り注釈が付けられています。TREEOFLIFE-10Mを活用することで、BIOCLIPや将来の生物学モデルをトレーニングすることができます。 BIOCLIPは、視覚に基づく生命の木の表現です。TREEOFLIFE10Mのような大規模なラベル付きデータセットを用いてビジョンモデルをトレーニングする一般的で簡単なアプローチは、監視付き分類ターゲットを使用して画像から分類指数を予測することを学ぶことです。ResNet50やSwin Transformerもこの戦略を使用しています。しかし、このアプローチは、分類群が体系的に関連している複雑なタクソノミーのシステムを無視し、活用していません。したがって、基本的な監視付き分類を使用してトレーニングされたモデルは、未知の分類群をゼロショット分類することができない可能性があり、トレーニング時に存在しなかった分類群に対してもうまく一般化することができないかもしれません。その代わりに、チームは、BIOCLIPの包括的な生物学的タクソノミーとCLIPスタイルの多モーダルコントラスティブ学習を組み合わせる新しいアプローチに従っています。CLIPコントラスティブ学習目的を使用することで、彼らは分類群の階層をキングダムから最も遠い分類群ランクまでフラット化して、分類名として知られる文字列に関連付けることができます。BIOCLIPは、可視化できない分類群の分類名を使用する際にも、ゼロショット分類を行うことができます。チームは、混合テキスト型のトレーニング技術が有益であることを提案し、示しています。これは、分類名からの一般化を保ちつつ、複数のテキストタイプ（例：科学名と一般名）を組み合わせたトレーニング中に柔軟性を持つことを意味します。たとえば、ダウンストリームの使用者は一般的な種名を使用し続けることができ、BIOCLIPは非常に優れたパフォーマンスを発揮します。BIOCLIPの徹底的な評価は、植物、動物、昆虫を対象とした10の細かい画像分類データセットと、トレーニング中には使用されなかった特別に編集されたRARE SPECIESデータセットに基づいて行われています。BIOCLIPは、CLIPとOpenCLIPを大きく凌ぎ、few-shot環境では平均絶対改善率17％、zero-shot環境では18％の成績を収めました。さらに、その内在的な分析はBIOCLIPのより優れた一般化能力を説明することができます。これは、生物分類学的階層を遵守した階層的表現を学んでいることを示しています。 BIOCLIPのトレーニングは、数十万の分類群に対して視覚表現を学ぶためにCLIPの目的を利用しているということにもかかわらず、チームは分類に焦点を当てたままです。今後の研究では、BIOCLIPが細かい特徴レベルの表現を抽出できるよう、inaturalist.orgから100百万枚以上の研究用写真を取り込み、種の外見のより詳細なテキスト記述を収集する予定です。

GoogleのAIスタジオ：ジェミニの創造的な宇宙への入り口！

Googleは、AI Studioの発売を通じて、開発者向けの画期的な革新を実現しました。このWebベースのプラットフォームは、Gemini AIモデルへのシームレスなアクセスを提供することを目指しています。この革新により、Gemini Proの先進的な自然言語生成能力を活用して、チャットボット、アプリケーション、さまざまなソフトウェアの開発と展開が革新されることになります。 AIスタジオのお披露目- Geminiエコシステムへの入り口 AI Studio（以前はMakerSuiteとして知られる）は、Googleの広範なGeminiエコシステムへの重要な入り口として立ち上がっています。開発者は、Gemini Proと今後のGemini Ultraモデルの力を利用するチャンスがあります。無料の使用クォータ、コードライブラリ、必要なツールを提供するAIスタジオは、クリエイティブな創造とアプリケーションの公開に適した環境を提供します。改良と価格設定の構造この改良されたプラットフォームは、以前のものと比べて重要な改善が加えられており、セーフティ、プロンプト、出力スタイルの調整コントロールを備えています。価格設定は、OpenAIのGPT-3.5 Turbo LLMと競合するよう戦略的に位置付けられており、透明性とアクセシビリティが確保されています。開発者は、Gemini Proモデルの入力1,000文字あたり0.00025ドル、出力1,000文字あたり0.0005ドルの公正な価格設定を期待することができます。開発者の体験 Google AI Studioは、使いやすいインターフェースで開発プロセスを簡素化します。開発者は、モデルを選択し、クリエイティブなパラメータを微調整し、トーンやスタイルの指示をシームレスに統合することができます。一分間あたり60リクエストの無料クォータが提供されるため、開発者は制約なくアイデアを繰り返すことができます。AI Studioからコードへの移行も容易に行えるため、さまざまな開発環境でスムーズなワークフローが実現できます。 Vertex AIとの統合と将来のロードマップ AI Studioの注目すべき特長の一つは、GoogleのVertex…

TDSベストオブ2023：ChatGPTとLLMについて

「2023年は、データサイエンティストや機械学習の専門家にとって、波瀾万丈な1年だったと言っても過言ではないでしょうが、過去12ヶ月のフィールドで見られた激動の活動量を完全に表現することはできません」

一緒にAIを学びましょう−Towards AIコミュニティニュースレター＃5

おはようございます、AI愛好家の皆さん！今週のポッドキャストのエピソードは必聴で、これまでの24エピソードの中でも一番優れていますグレッグは驚くべき洞察を共有し、起業家だけでなく関係者にも関連する情報です...

「Pythonを学ぶための5つの無料大学講座」

Pythonプログラミングを学ぶ最高のリソースをお探しですか？これらの無料の大学のコースをチェックしてみてください

Python

「04/12から10/12までの週のトップ重要なLLM論文」

大型言語モデル（LLM）は最近急速に進化しています新しいモデルの世代が開発されるにつれて、研究者やエンジニアは最新の進歩について情報を得る必要がありますこの記事は…

「AIにおける親密な役割：ガールフレンドとセラピスト」

この記事は、感情AIの分野についての簡単な概要と、その技術の親密な役割での潜在的な応用についてです

Artificial Intelligence

このAI論文は、高度な時空間予測のためのニューラルオペレータの自己回帰エラーに対するディープラーニングソリューションを探求しています

この研究は、自己回帰ニューラルオペレーターのドメイン内の重要な課題である予測の範囲拡張の能力の制約について探求しています。自己回帰モデルは有望であるものの、空間時間予測における安定性の問題に直面し、その効果を著しく妨げています。この包括的な問題は、比較的滑らかなフィールドからERA5のようなデータセットに特徴付けられる複雑で大規模なシステムまで、さまざまなシナリオにわたって普遍的です。自己回帰ニューラルオペレーターの予測範囲を拡張しようとすると、現在の方法は非常に困難な障壁に直面します。この制約を認識して、研究チームは予測性を向上させる画期的な解決策を提案しています。提案された方法は、スペクトルニューラルオペレーターの基本的なアーキテクチャのシフトを引き起こし、不安定性の問題を軽減する戦略的な手法です。既存の手法とは対照的に、この革新的なアプローチはこれらのオペレーターに無限の予測範囲を与え、大きな進歩を示します。現在のところ、自己回帰ニューラルオペレーターは予測範囲を限定して予測する能力において重要な障壁を示します。従来の手法の不安定性の課題は、特に複雑な空間時間予測シナリオにおいてその効果を制約しています。この問題に対処するため、研究チームはスペクトルニューラルオペレーターのアーキテクチャを根本的に再構築し、予測範囲の拡張の可能性を開放する新しい解決策を提案しています。提案された方法の核心には、ニューラルオペレーターブロックの再構築があります。エイリアシングや不連続性などの課題に対処するために、研究者は非線形性の後に学習可能なフィルターを連続的に適用し、新たに生成された高周波を効果的に処理する能力を持ちます。革新的な要素は、静的畳み込みフィルターを動的フィルターに置き換え、特定のデータに適応することです。この適応性は、周波数ドメインで操作されるモードごとのマルチレイヤーパーセプトロン（MLP）によって実現されます。提案された方法の本質は、ニューラルオペレーターブロックを再想像することにあります。エイリアシングや不連続性などの課題に対処するため、研究者は非線形性の後に学習可能なフィルターを一貫して適用し、新たに生成された高周波を処理する能力を持つ革新的なフレームワークを導入します。画期的な要素は、固定された静的畳み込みフィルターを動的フィルターに置き換え、特定のデータセットの複雑さに適応することです。この適応性は、周波数ドメインで動作するモードごとのマルチレイヤーパーセプトロン（MLP）によって実現されます。 https://openreview.net/forum?id=RFfUUtKYOG 実験の結果は、この方法の有効性を裏付けており、安定性の大幅な改善が明らかになっています。これは、回転浅水方程式やERA5データセットなどのシナリオにこの手法を適用した場合に特に明らかです。周波数適応型MLPによって生成される動的フィルターは、さまざまなデータセットに対してモデルの適応性を確保することが重要です。静的フィルターを動的なフィルターに置き換えることにより、この方法はデータに依存するエイリアシングパターンの複雑さを巧みに処理します。これは固定されたストラテジーでは達成できない成果です。 https://openreview.net/forum?id=RFfUUtKYOG まとめると、この研究は自己回帰ニューラルオペレーターにおける予測の範囲拡張の持続的な課題を克服する画期的な進歩を表しています。周波数適応型MLPによって生成される動的フィルターを取り入れたニューラルオペレーターブロックの再構築は、不安定性の問題を軽減し、無限の予測の範囲を実現するための非常に効果的な戦略です。予測の複雑さに直面する研究コミュニティにとって、この研究はより堅牢で信頼性の高い空間時間予測モデルに向けた将来の取り組みを指し示すビーコンとしての役割を果たします。

デシAIはDeciLM-7Bを紹介します：超高速かつ超高精度の70億パラメータの大規模言語モデル（LLM）

技術の進化が絶えず進む中で、言語モデルは欠かせない存在となりました。これらのシステムは高度な人工知能によって動力を得ており、デジタルプラットフォームとのインタラクションを向上させます。LLM（Language Models）は人間の言語の理解と生成を促進し、人間のコミュニケーションと機械の理解とのギャップを埋めるために設計されています。技術の進歩により、言語モデルは情報処理、コミュニケーション、問題解決においてますます重要な役割を果たすデジタル時代を迎えました。最近、Deciは7兆パラメータクラスで利用可能な高精度高速な革新的なモデルであるDeciLM-7Bを導入しました。Apache 2.0でライセンスされたこのモデルは、7兆パラメータクラスで類を見ない精度と速度を誇る新世代の言語モデルの最前線に立っています。このモデルは、言語処理の進歩と変革の力を備えています。 DeciLM-7BはThe Open Language Model Leaderboardにおいて61.55の印象的な平均スコアを記録しています。これは、DeciLM-7Bが7兆パラメータクラスで最も先進的なベース言語モデルであり、さまざまなアプリケーションにおいて改善された精度と信頼性を提供していることを示しています。Mistral 7Bは、Arc、HellaSwag、MMLU、Winogrande、GSM8Kを含むいくつかのベンチマークで従来のモデルよりも優れたパフォーマンスを発揮します。 DeciLM-7Bは単に精度が高いだけでなく、驚異的な速度能力を持っています。Mistral 7Bに比べてスループットが83%向上し、Llama 2 7Bに比べて139%も向上しています。DeciLM-7Bは言語モデルの効率性の基準を引き上げています。PyTorchのベンチマークでは、Mistral 7BおよびLlama 2 7Bよりも1.83倍および2.39倍のスループットを示しており、その優位性がハイライトされています。 DeciLM-7BとInfery、Decが開発した推論SDKの相乗効果により、vLLMを使用したMistral 7Bに比べて4.4倍の速度向上が実現され、コスト効果の高い大量ユーザーインタラクションの可能性が提供されます。 DeciLM-7BはNASパワードエンジン、AutoNACを活用しています。このモデルは複雑な好み最適化手法なしで、上位の7兆パラメータの説明モデルの中で優れた性能を発揮します。研究者たちは、DeciLM-7BとInfery-LLMが革新的な変化をいくつかの産業にもたらす可能性を持つアプリケーションを持っていることを強調しています。これら2つは、リアルタイムのチャットボットによるハイボリューム顧客サービスの向上と、医療、法律、マーケティング、ファイナンスなどのテキスト重視の専門分野におけるワークフロー自動化を革新します。まとめると、DeciLM-7Bは大規模な言語モデルにおける重要なモデルです。精度と効率性だけでなく、アクセシビリティと多様性においても言語モデルが優れていることを示しています。技術の進化につれて、DeciLM-7Bのようなモデルはデジタル世界を形作る上でますます重要になっています。これらのモデルは未来に向けた無数の可能性を示してくれます。技術の進歩とともに、これらのモデルはますます重要になり、デジタルフロンティアの多岐にわたる選択肢を展望する魅力的かつ広大な予感を私たちにもたらしてくれます。

「AIアクトの解読」

AI法 [1]は、長く苦痛な過程を経て形成されましたこれは、ヨーロッパの立法プロセスにおける政治の影響と重要性を完璧に示すものですしかし、同時に欠陥があることも問題として浮かび上がります...

Learn more about Search Results src - Page 16