Learn more about Search Results 写真 - Page 7
- You may be interested
- AIを用いて量子スケールで物質をシミュレ...
- Google AIは、ドキュメント理解タスクの進...
- 「注目メカニズムの解読:トランスフォー...
- ピーター・マッキー、Sonarの開発者担当責...
- 「クロスファンクションの機械学習プロジ...
- 聴覚処理の解読:深層学習モデルが脳内の...
- 車両ルーティング問題 正確な解法とヒュー...
- Google AIは、Symbol Tuningを導入しまし...
- 基本に戻るボーナスウィーク:クラウドへ...
- 「作者の正体を暴く:AIか人間か?IBMの革...
- 埋め込みの類似検索:データ分析の画期的...
- 「Googleバードを効果的に使用する5つの方...
- 統計的有意性の解読:マーケターのガイド
- 「Google マップは AI 機能で強化されまし...
- 「エンタープライズAIの堀はRAG +ファイン...
このAI論文は、TreeOfLife-10Mデータセットを活用して生物学と保護のコンピュータビジョンを変革するBioCLIPを紹介しています
生態学、進化生物学、生物多様性など、多くの生物学の分野が、研究ツールとしてデジタルイメージおよびコンピュータビジョンを活用しています。現代の技術は、博物館、カメラトラップ、市民科学プラットフォームから大量の画像を分析する能力を大幅に向上させました。このデータは、種の定義、適応機構の理解、個体群の構造と豊富さの推定、生物多様性の監視と保全に活用することができます。 とはいえ、生物学的な問いにコンピュータビジョンを利用しようとする際には、特定のタスクに適したモデルを見つけて訓練し、十分なデータを手動でラベリングすることは、依然として大きな課題です。これには、機械学習の知識と時間が大量に必要とされます。 オハイオ州立大学、マイクロソフト、カリフォルニア大学アーヴァイン校、レンセラーポリテクニック研究所の研究者たちは、この取り組みで生命の木の基礎的なビジョンを構築することを調査しています。このモデルは、実際の生物学的なタスクに一般的に適用できるように、以下の要件を満たす必要があります。まず、一つのクラドだけでなく、様々なクラドを調査する研究者に適用できる必要があります。そして理想的には、生命の木全体に一般化できることが求められます。さらに、生物学の分野では、同じ属内の関連種や、適応度の向上のために他の種の外観を模倣するなど、視覚的に類似した生物と遭遇することが一般的です。生命の木は生物を広義のグループ(動物、菌類、植物など)および非常に細かいグループに分類しているため、このような細かな分類の精度が重要です。最後に、生物学におけるデータ収集とラベリングの高いコストを考慮して、低データの状況(例:ゼロショットまたはフューショット)で優れた結果が得られることが重要です。 数億枚の画像で訓練された現行の汎用ビジョンモデルは、進化生物学や生態学に適用する際に十分な性能を発揮しません。しかし、これらの目標はコンピュータビジョンにとって新しいものではありません。研究者たちは、生物学のビジョン基盤モデルの作成には2つの主な障害があることを特定しています。まず、既に利用可能なデータセットは、サイズ、多様性、またはラベルの精度の点で不十分ですので、より良い事前トレーニングデータセットが必要です。さらに、現在の事前トレーニングアルゴリズムは3つの主要な目標に適切に対応していないため、生物学の独特な特性を活用したよりよい事前トレーニング方法を見つける必要があります。 これらの目標とそれらを実現するための障害を念頭に置いて、チームは以下を提示しています: TREEOFLIFE-10Mという大規模なML対応の生物学画像データセット BIOCLIPはTREEOFLIFE-10M内の適切な分類群を用いてトレーニングされた生命の木を基盤としたビジョンベースのモデルです。 TREEOFLIFE-10Mは、ML対応の広範な生物学画像データセットです。生命の木において454,000の分類群をカバーする10,000,000以上の写真が含まれており、研究者たちによって編成され、最大のML対応生物学画像データセットが公開されました。2.7百万枚の写真は、最大のML対応生物学画像コレクションであるiNat21を構成しています。iNat21やBIOSCAN-1Mなどの既存の高品質データセットもTREEOFLIFE-10Mに組み込まれています。TREEOFLIFE-10Mのデータの多様性の大部分は、新たに選択された写真が含まれているEncyclopedia of Life(eol.org)から得られています。TREEOFLIFE-10Mのすべての画像の分類階層および上位の分類順位は、可能な限り注釈が付けられています。TREEOFLIFE-10Mを活用することで、BIOCLIPや将来の生物学モデルをトレーニングすることができます。 BIOCLIPは、視覚に基づく生命の木の表現です。TREEOFLIFE10Mのような大規模なラベル付きデータセットを用いてビジョンモデルをトレーニングする一般的で簡単なアプローチは、監視付き分類ターゲットを使用して画像から分類指数を予測することを学ぶことです。ResNet50やSwin Transformerもこの戦略を使用しています。しかし、このアプローチは、分類群が体系的に関連している複雑なタクソノミーのシステムを無視し、活用していません。したがって、基本的な監視付き分類を使用してトレーニングされたモデルは、未知の分類群をゼロショット分類することができない可能性があり、トレーニング時に存在しなかった分類群に対してもうまく一般化することができないかもしれません。その代わりに、チームは、BIOCLIPの包括的な生物学的タクソノミーとCLIPスタイルの多モーダルコントラスティブ学習を組み合わせる新しいアプローチに従っています。CLIPコントラスティブ学習目的を使用することで、彼らは分類群の階層をキングダムから最も遠い分類群ランクまでフラット化して、分類名として知られる文字列に関連付けることができます。BIOCLIPは、可視化できない分類群の分類名を使用する際にも、ゼロショット分類を行うことができます。 チームは、混合テキスト型のトレーニング技術が有益であることを提案し、示しています。これは、分類名からの一般化を保ちつつ、複数のテキストタイプ(例:科学名と一般名)を組み合わせたトレーニング中に柔軟性を持つことを意味します。たとえば、ダウンストリームの使用者は一般的な種名を使用し続けることができ、BIOCLIPは非常に優れたパフォーマンスを発揮します。BIOCLIPの徹底的な評価は、植物、動物、昆虫を対象とした10の細かい画像分類データセットと、トレーニング中には使用されなかった特別に編集されたRARE SPECIESデータセットに基づいて行われています。BIOCLIPは、CLIPとOpenCLIPを大きく凌ぎ、few-shot環境では平均絶対改善率17%、zero-shot環境では18%の成績を収めました。さらに、その内在的な分析はBIOCLIPのより優れた一般化能力を説明することができます。これは、生物分類学的階層を遵守した階層的表現を学んでいることを示しています。 BIOCLIPのトレーニングは、数十万の分類群に対して視覚表現を学ぶためにCLIPの目的を利用しているということにもかかわらず、チームは分類に焦点を当てたままです。今後の研究では、BIOCLIPが細かい特徴レベルの表現を抽出できるよう、inaturalist.orgから100百万枚以上の研究用写真を取り込み、種の外見のより詳細なテキスト記述を収集する予定です。
TDSベストオブ2023:ChatGPTとLLMについて
「2023年は、データサイエンティストや機械学習の専門家にとって、波瀾万丈な1年だったと言っても過言ではないでしょうが、過去12ヶ月のフィールドで見られた激動の活動量を完全に表現することはできません」
「2023年のAI タイムライン」
はじめに 人工知能(AI)は、技術的な進歩が人間のつながりの本質と共鳴する形で私たちの日常生活と交差する魅力的な領域です。今年は、単なるアルゴリズムを超えてAIを身近に感じる革新の物語が展開されました。2023年のAIの素晴らしいハイライトを探索しながら、この旅に参加しましょう。 AI 2023年のハイライト 2023年のAIの世界で行われた最大の発見、進歩、および世界的な変革の一部を紹介します。これらの進歩がどのように、技術が私たちの人間の体験にシームレスに統合される未来を形作っているのか、探求してみましょう。 2023年1月のAIハイライト この年は、AIが医療と健康の分野で重要な進展を示しました。MITの研究者はマサチューセッツ総合病院と連携し、CTスキャンに基づいて患者の肺がんのリスクを評価できるディープラーニングモデルを開発しました。また、革命的な進歩として、研究者たちはAIを使ってゼロから人工的な酵素やタンパク質を作り出すことが可能なAIを開発しました。 他にも多くのイノベーションの中で、人工知能は視覚障害のある人々が食料品を見つけるのを手助けするために手杖に統合されました。一方、ビジネスのフロントでは、OpenAIがMicrosoftとの数年間にわたる数十億ドルの取引を通じてAIの開発に大きく投資しました。 2023年2月のAIハイライト 2023年2月には、OpenAIのChatGPTに関する話題が最も盛り上がりました。このAI搭載のチャットボットは、アメリカ合衆国医師資格試験(USMLE)に合格し、その人気は1億人以上のユーザーにまで急上昇しました。 ChatGPTの現象に応えて、GoogleはAI会話の領域に新しい要素となるBard A.I.を導入しました。また、MicrosoftもChatGPTと統合された新しいBing検索エンジンの導入に重要な一歩を踏み出しました。 Metaは、Metaエコシステム内でAIの能力を向上させるというLLaMAを発表しました。一方、Amazon Web Services(AWS)は、一流のAIプラットフォームであるHugging Faceと提携し、AI開発者を支援しました。 画期的な成果として、オックスフォードの研究者たちはRealFusionを示し、単一の画像から完全な360°写真モデルを再構築することができる最新のモデルを実証しました。 2023年2月には、AIの世界は音楽生成の領域にも足を踏み入れました。Google ResearchはMusicLMを紹介し、さまざまなジャンル、楽器、概念で曲を作成できるトランスフォーマーベースのテキストからオーディオへのモデルを提供しました。一方、Baiduの研究者はERNIE-Musicを発表し、拡散モデルを使用して、波形領域での最初のテキストから音楽を生成するモデルを開発しました。これらのモデルは、AIと創造的表現の融合における重要な進歩を示しています。 2023年3月のAIハイライト 2023年3月には、創造的なAIはいくつかの興味深い進展を見せました。AdobeはFireflyというAIをバックアップする画像生成および編集ツールの範囲でGenAIの領域に参入しました。一方、Canvaはユーザー向けにAIパワードの仮想デザインアシスタントとブランドマネージャーを導入しました。 テックジャイアンツのAIプロジェクトは、第1四半期終盤に向けて全力で進展していました。OpenAIはChatGPTとWhisperというテキストから音声へのモデルのためのAPIを発売しました。OpenAIはまた、ChatGPTのためのいくつかのプラグインをリリースし、最も高度なAIモデルであるGPT-4を正式に発表しました。 HubSpotはユーザー向けにChatSpot.aiとContent Assistantという2つの新しいAIパワードツールを導入しました。ZoomはスマートコンパニオンのZoom…
「AIルネサンス:デジタル時代における就業成長のエンジン」
スティーブン・ホーキングの上記の引用は、人工知能の可能性と想定される危険性をとてもうまく表していますターミネーターのような予想される危険性の一部は、...
「AIは詐欺検出にどのように使われていますか?」
西部劇にはガンスリンガー、銀行強盗、賞金が存在しましたが、今日のデジタルフロンティアではアイデンティティ盗難、クレジットカード詐欺、チャージバックが広まっています。 金融詐欺による収益は、数十億ドル規模の犯罪企業となっています。詐欺師の手に渡る「生成AI」は、これをさらに収益化することを約束します。 世界的には、2026年までにクレジットカードによる損失は430億ドルに達する見込みです。これはニルソン・レポートによるものです。 金融詐欺は、ハッキングされたデータをダークウェブから収集してクレジットカードの盗難に利用するなど、さまざまな手法で行われます。「生成AI」を用いて個人情報をフィッシングする場合もあり、仮想通貨、デジタルウォレット、法定通貨間での資金洗浄も行われています。デジタルの裏世界にはさまざまな金融詐欺が潜んでいます。 対応するために、金融サービス企業は詐欺検出にAIを活用しています。なぜなら、これらのデジタル犯罪の多くはリアルタイムで停止し、消費者や金融企業がすぐに損失を止める必要があるからです。 では、詐欺検出にはAIはどのように活用されているのでしょうか? 詐欺検出のためのAIは、顧客の行動と関連、アカウントのパターンや詐欺特性に合致する行動の異常を検出するために、複数の機械学習モデルを使用しています。 生成AIは詐欺の共同パイロットとして活用できる 金融サービスの多くはテキストと数字を扱うものです。生成AIや大規模言語モデル(LLMs)は、意味と文脈を学習する能力を持ち、新しいレベルの出力と生産性を約束するため、産業全体に破壊的な能力をもたらします。金融サービス企業は、生成AIを活用してより賢明かつ能力の高いチャットボットを開発し、詐欺検出を改善することができます。 一方で、悪意のある者は巧妙な生成AIのプロンプトを使用してAIのガードレールを回避し、詐欺に利用することができます。また、LLMsは人間のような文章を生成することができ、詐欺師はタイプミスや文法の誤りのない文脈に沿ったメールを作成することができます。さまざまなバリエーションのフィッシングメールを素早く作成することができるため、生成AIは詐欺行為を実行するための優れた共同パイロットとなります。詐欺GPTなど、生成AIをサイバー犯罪に悪用するためのダークウェブツールもあります。 生成AIは声認証セキュリティにおける金融被害にも悪用されることがあります。一部の銀行は声認証を使用してユーザーを認証しています。攻撃者がボイスサンプルを入手することができれば、ディープフェイク技術を使用して銀行の顧客の声をクローンすることができ、このシステムを破ろうとします。声データは、スパムの電話で集めることができます。 チャットボットの詐欺は、LLMsやその他の技術を使用して人間の行動をシミュレートすることに対する懸念があります。これらはインポスター詐欺や金融詐欺に応用されるディープフェイクビデオと音声クローンのためのものです。米国連邦取引委員会はこの問題に対して懸念を表明しています。 生成AIは不正使用と詐欺検出にどのように取り組んでいるのか? 詐欺審査には強力な新しいツールがあります。マニュアル詐欺審査を担当する従業員は、ポリシードキュメントからの情報を活用するために、バックエンドでRAGを実行するLLMベースのアシスタントのサポートを受けることができます。これにより、詐欺事件がどのようなものかを迅速に判断し、プロセスを大幅に加速することができます。 LLMsは、顧客の次の取引を予測するために採用されており、支払い企業は事前にリスクを評価し、詐欺取引をブロックすることができます。 生成AIはまた、トランザクション詐欺を撲滅するために精度を向上させ、レポートを生成し、調査を減らし、コンプライアンスリスクを軽減するのに役立ちます。 不正防止のための生成AIの重要な応用例の1つとして、「合成データ」の生成があります。合成データは、詐欺検出モデルのトレーニングに使用するデータレコードの数を増やし、詐欺師が最新の手法を認識するための例のバラエティと洗練度を高めることができます。 NVIDIAは、生成AIを活用してワークフローを構築し、情報検索のために自然言語プロンプトを使用するチャットボットと仮想エージェントを作成するためのツールを提供しています。 NVIDIAのAIワークフローを活用することで、様々なユースケースに対して正確な応答を生成するためのエンタープライズグレードの機能を迅速に構築し、展開することができます。これには、ファウンデーションモデル、NVIDIA NeMoフレームワーク、NVIDIA Triton Inference Server、GPUアクセラレートベクトルデータベースが使用され、RAGによって強化されたチャットボットが展開されます。 安全性に焦点を当てた産業では、悪用されにくいように生成AIを保護するための取り組みが行われています。NVIDIAはNeMoガードレールをリリースし、OpenAIのChatGPTなどのLLMsによって動作するインテリジェントアプリケーションが正確で適切、トピックに即して安全であることを確保するために役立てています。…
「現実の応用における一般線形モデルの自己相関問題の解決方法」
線形回帰分析における最大の問題の1つは自己相関のある残差ですこの文脈で、この記事では線形回帰分析を再考し、Cochrane-Orcutt手続きを解決策として詳しく取り上げます
「設定パラメータを使用して、ChatGPTの出力を改善する方法」
最近、私はManning Publicationsから出版されたDavid Clintonの「The Complete Obsolete Guide to Generative AI」という非常に興味深い本を読んでいます第2章では、著者は...
「Satya Mallickと一緒にコンピュータビジョンの問題を解決する」
Leading with Dataのこのエピソードでは、OpenCV.orgのCEOであり、Big Vision LLCの創設者でもあるSatya Mallickさんとお話しします。Satyaは、コンピュータビジョンの興味深い旅を共有し、画像処理とコンピュータビジョンの重要な違いについて強調しています。AIコンサルティングにおける透明性から戦略的成長戦略、ジェネレーティブAIの変革的な影響まで、Satyaは専門家や愛好家にとって貴重な視点を提供しています。 ダイナミックなAIとデータサイエンスの分野で成功の秘密を解き明かす準備をしてください。 Spotify、Google Podcasts、およびAppleなどの人気プラットフォームでLeading with Dataのエピソードを聴くことができます。お気に入りを選んで、洞察に富んだ内容をお楽しみください! Satya Mallickさんとの会話からの主要なインサイト 画像処理とコンピュータビジョンの違いは重要です – 画像の強化だけでなく、情報を抽出することに関わっています。 透明性と返金保証は、AIコンサルティングにおいて信頼性と信用性を構築することができます。 戦略的パートナーシップと機会の把握は、コンサルティングビジネスの成長に不可欠です。 ジェネレーティブAIは生産性を大幅に向上させ、複雑なタスクの自動化を可能にします。 態度と学習意欲を求める採用は、経験豊富なプロフェッショナルと競争するよりも、より有益になる場合があります。 AI業界は大きなブレイクスルーの目前にあり、今参加する人々にとって非常に大きな機会を提供しています。 AIおよびデータサイエンスのリーダーとの洞察に満ちたディスカッションのため、今後のLeading with Dataのセッションに参加しましょう!…
「EUの新しいAI法案の主なポイント、初の重要なAI規制」
「欧州連合による人工知能の規制イニシアチブは、テクノロジーの法的・倫理的なガバナンスにおいて重要な時点を迎えています最近のAI法案により、EUはAIシステムによって生じる複雑さや課題に対処するため、主要な世界的な組織の中で最初の一歩を踏み出しましたこの法案は、単なる立法上のマイルストーンではありません[...]」
アリゾナ州立大学のこのAI研究は、テキストから画像への非拡散先行法を改善するための画期的な対照的学習戦略「ECLIPSE」を明らかにした
拡散モデルは、テキストの提案を受け取ると、高品質な写真を生成するのに非常に成功しています。このテキストから画像へのパラダイム(T2I)の生成は、深度駆動の画像生成や主題/セグメンテーション識別など、さまざまな下流アプリケーションで成功裏に使用されています。2つの人気のあるテキスト条件付き拡散モデル、CLIPモデルと潜在的な拡散モデル(LDM)のような、しばしば安定拡散と呼ばれるモデルは、これらの進展に不可欠です。LDMは、オープンソースソフトウェアとして自由に利用可能なことで研究界で知られています。一方、unCLIPモデルにはあまり注目が集まっていません。両モデルの基本的な目標は、テキストの手がかりに応じて拡散モデルをトレーニングすることです。 テキストから画像への優位性と拡散画像デコーダを持つunCLIPモデルとは異なり、LDMには単一のテキストから画像への拡散モデルがあります。両モデルファミリーは、画像のベクトル量子化潜在空間内で動作します。unCLIPモデルは、T2I-CompBenchやHRS-Benchmarkなどのいくつかの構成ベンチマークで他のSOTAモデルを上回ることが多いため、この記事ではそれに集中します。これらのT2Iモデルは通常多くのパラメータを持つため、トレーニングには優れた画像とテキストのペアリングが必要です。LDMと比較すると、DALL-E-2、Karlo、KandinskyなどのunCLIPモデルは、約10億のパラメータを持つ前のモジュールがあるため、合計モデルサイズが大幅に大きくなります(≥ 2B)。 そのため、これらのunCLIPモデルのトレーニングデータは250M、115M、177Mの画像テキストのペアリングです。したがって、2つの重要な質問が残ります:1)テキスト構成のSOTAパフォーマンスは、テキストから画像への先行モデルを使用することで改善されるのでしょうか?2)それともモデルのサイズを増やすことが重要な要素なのでしょうか?パラメータとデータの効率性を向上させることで、研究チームはT2I先行モデルについての知識を向上させ、現在の形式に比べて重要な改善を提供することを目指しています。T2I先行モデルは、拡散プロセスの各タイムステップでノイズのない画像埋め込みを直接推定するための拡散モデルでもあり、これは以前の研究が示唆しているようです。研究チームは、この前期の普及プロセスを調査しました。 図1は、SOTAテキストから画像へのモデル間の3つの構成タスク(色、形、テクスチャ)の平均パフォーマンスとパラメータの総数を比較しています。ECLIPSEは少量のトレーニングデータしか必要とせず、少ないパラメータでより優れた結果を出します。提示されたECLIPSEは、Kandinskyデコーダを使用して、わずか5百万の画像テキストペアリングのみを利用して約3300万のパラメータでT2I先行モデルをトレーニングします。 研究チームは、拡散プロセスがわずかにパフォーマンスを低下させ、正しい画像の生成には影響を与えないことを発見しました。さらに、拡散モデルは収束が遅いため、トレーニングには大量のGPU時間または日数が必要です。そのため、非拡散モデルはこの研究では代替手段として機能します。分類子のガイダンスがないため、この手法は構成の可能性を制限するかもしれませんが、パラメータの効率性を大幅に向上させ、データの依存性を軽減します。 本研究では、Arizona State Universityの研究チームは、上記の制約を克服し、T2Iの非拡散先行モデルを強化するためのユニークな対照的学習技術であるECLIPSEを紹介しています。研究チームは、提供されたテキスト埋め込みから画像埋め込みを生成する従来のアプローチを最適化することにより、Evidence Lower Bound(ELBO)を最大化しました。研究チームは、事前学習されたビジョン言語モデルの意味的整合性(テキストと画像の間)機能を使用して、以前のトレーニングを監視しました。研究チームは、ECLIPSEを使用して、画像テキストのペアリングのわずかな断片(0.34%〜8.69%)を使用して、コンパクトな(97%小さい)非拡散先行モデル(3300万のパラメータを持つ)をトレーニングしました。研究チームは、ECLIPSEトレーニングされた先行モデルをunCLIP拡散画像デコーダバリエーション(KarloとKandinsky)に導入しました。ECLIPSEトレーニングされた先行モデルは、10億のパラメータを持つバージョンを上回り、ベースラインの先行学習アルゴリズムを上回ります。研究結果は、パラメータやデータを必要とせずに構成を改善するT2I生成モデルへの可能な道を示唆しています。 図1に示すように、彼らの総合パラメータとデータの必要性は大幅に減少し、T2Iの増加により類似のパラメータモデルに対してSOTAのパフォーマンスを達成します。貢献。1)unCLIPフレームワークでは、研究チームがテキストから画像への事前の対照的な学習に初めてECLIPSEを提供しています。 2)研究チームは包括的な実験を通じて、資源制約のある文脈でのECLIPSEの基準事前に対する優位性を証明しました。 3)注目すべきは、ECLIPSE事前のパフォーマンスを大きなモデルと同等にするために、トレーニングデータのわずか2.8%とモデルパラメータのわずか3.3%しか必要としないことです。 4)また、研究チームは現在のT2I拡散事前の欠点を検討し、経験的な観察結果を提供しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.