「岩石とAIの衝突:鉱物学とゼロショットコンピュータビジョンの交差点」

Impact of Rocks and AI Intersection of Mineralogy and Zero-shot Computer Vision

鉱物は、定義された化学組成と結晶構造を持つ天然の無機物です。彼らは岩の構成要素であり、さまざまな地質学的および産業プロセスで重要な役割を果たしています。鉱物の同定と分類は非常に複雑なプロセスであり、高いスキルを要する専門知識が必要です。このタスクを行うために、地質学者はサンプルの準備とさまざまな種類の分析に対してアイテムごとに数時間、場合によっては数日を費やさなければなりません。

複雑さを増す要因として、鉱物の相当部分がまだより詳細な研究を必要としているという現実があります。現在確認されている6,000種類の鉱物のうち、わずか数百の鉱物が包括的に研究されています。

その結果、徹底的な研究と研究を通じてこのギャップを埋めるために、広範な世界的な取り組みが進行中です。このプロセスに機械知能を導入することは、専門家が従来処理していた時間のかかるルーティンタスクのエラーを見つけ、効率化する上で重要な役割を果たす可能性があります。視覚診断のために機械知能を活用することは、専門の鉱物学者がルーティンタスクから解放され、より複雑な課題に時間を費やすことを可能にする可能性を秘めています。

その結果、Sber AIとLomonosov Moscow State Universityとの協力により、人工知能研究所はコンピュータビジョンモデルのためのベンチマーク鉱物認識データセットを作成しました。このデータセットはMineralImage5kと呼ばれています。彼らはFersman Mineralogical Museumのデータセットを使用しました。その博物館の資金には17万以上のサンプル(約5,000種類の鉱物)が含まれています。このコレクションは、世界最大の鉱物コレクションの一部です。

データセットには、山や川の中で見つかるような生のサンプルが含まれており、鉱物の分類、セグメンテーション、およびサイズ推定において研究者に挑戦する3つのサブセットに分割されています。データセットの収集後、研究者は画像分析を行い、このデータセットをクリーンアップしました。まず、破損した画像を削除し、次にアスペクト比が高い画像を削除しました。ほとんどのコンピュータビジョンモデルは正方形の入力で動作するため、画像の側面の差が大きい場合はパディングを追加しました。重複した画像も削除しました。重複した画像はメモリの消費量を増やすためです。さらに、残りの画像を1024ピクセルにリサイズしました。

しかし、AIは鉱物の写真を見る際に問題が生じる場合があります。なぜなら、AIには鉱物がどの部分の岩であるかを知る必要があるかもしれないからです。このため、研究者は鉱物がどこにあるかを正確に示すラベル付きの追加画像を約100枚提供しました。彼らは写真と単語から学ぶモデルを使用して、彼らのテストの優れた結果を示しました。彼らはMineralImage5kの写真を教えた後、それがどれくらいうまく機能するかを確認しました。

研究者は将来的にもっと多くの写真をテストに使用したいと強調しています。彼らはまた、さまざまな鉱物と岩を持つ異なるセットの写真を作成する他の研究にも注力しています。さらに、AIの性能向上のために他の種類の情報も利用するかもしれません。最後に、鉱物の専門家、コンピュータビジョンの専門家、AIの専門家が協力して鉱物認識を向上させる必要があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

簡単なアプリの統合に最適な安定した拡散APIのトップ5

イントロダクション APIは人工知能の時代における解決策であり、AIモデルをソフトウェアやアプリケーションに統合する際の高...

人工知能

「アジャイルな製品開発のためのAI主導のデジタル戦略」

この記事は、AIを主導するデジタル戦略とアジャイルソフトウェア開発手法の交差点を探求し、製品開発ライフサイクルの改善を...

データサイエンス

「AIとともに音楽生成の世界を探索する」

はじめに AIを利用した音楽生成は、音楽の制作と楽しみ方を変革する貴重な分野として重要性を増しています。このプロジェクト...

機械学習

AudioPaLMの紹介:Googleの言語モデルにおける突破口

テック巨人Googleが、ジェネラティブAIの分野で重要な進展を遂げ、最先端のマルチモーダル言語モデルであるAudioPaLMを発表し...

人工知能

AIの創造的かつ変革的な可能性

ジェームズ・マニカ氏は、AIと創造性についてカンヌライオンズフェスティバルで講演しました彼の発言の抜粋を読んでください

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...