Search Results A

「岩石とAIの衝突：鉱物学とゼロショットコンピュータビジョンの交差点」

鉱物は、定義された化学組成と結晶構造を持つ天然の無機物です。彼らは岩の構成要素であり、さまざまな地質学的および産業プロセスで重要な役割を果たしています。鉱物の同定と分類は非常に複雑なプロセスであり、高いスキルを要する専門知識が必要です。このタスクを行うために、地質学者はサンプルの準備とさまざまな種類の分析に対してアイテムごとに数時間、場合によっては数日を費やさなければなりません。複雑さを増す要因として、鉱物の相当部分がまだより詳細な研究を必要としているという現実があります。現在確認されている6,000種類の鉱物のうち、わずか数百の鉱物が包括的に研究されています。その結果、徹底的な研究と研究を通じてこのギャップを埋めるために、広範な世界的な取り組みが進行中です。このプロセスに機械知能を導入することは、専門家が従来処理していた時間のかかるルーティンタスクのエラーを見つけ、効率化する上で重要な役割を果たす可能性があります。視覚診断のために機械知能を活用することは、専門の鉱物学者がルーティンタスクから解放され、より複雑な課題に時間を費やすことを可能にする可能性を秘めています。その結果、Sber AIとLomonosov Moscow State Universityとの協力により、人工知能研究所はコンピュータビジョンモデルのためのベンチマーク鉱物認識データセットを作成しました。このデータセットはMineralImage5kと呼ばれています。彼らはFersman Mineralogical Museumのデータセットを使用しました。その博物館の資金には17万以上のサンプル（約5,000種類の鉱物）が含まれています。このコレクションは、世界最大の鉱物コレクションの一部です。データセットには、山や川の中で見つかるような生のサンプルが含まれており、鉱物の分類、セグメンテーション、およびサイズ推定において研究者に挑戦する3つのサブセットに分割されています。データセットの収集後、研究者は画像分析を行い、このデータセットをクリーンアップしました。まず、破損した画像を削除し、次にアスペクト比が高い画像を削除しました。ほとんどのコンピュータビジョンモデルは正方形の入力で動作するため、画像の側面の差が大きい場合はパディングを追加しました。重複した画像も削除しました。重複した画像はメモリの消費量を増やすためです。さらに、残りの画像を1024ピクセルにリサイズしました。しかし、AIは鉱物の写真を見る際に問題が生じる場合があります。なぜなら、AIには鉱物がどの部分の岩であるかを知る必要があるかもしれないからです。このため、研究者は鉱物がどこにあるかを正確に示すラベル付きの追加画像を約100枚提供しました。彼らは写真と単語から学ぶモデルを使用して、彼らのテストの優れた結果を示しました。彼らはMineralImage5kの写真を教えた後、それがどれくらいうまく機能するかを確認しました。研究者は将来的にもっと多くの写真をテストに使用したいと強調しています。彼らはまた、さまざまな鉱物と岩を持つ異なるセットの写真を作成する他の研究にも注力しています。さらに、AIの性能向上のために他の種類の情報も利用するかもしれません。最後に、鉱物の専門家、コンピュータビジョンの専門家、AIの専門家が協力して鉱物認識を向上させる必要があります。

「企業の持続可能性目標を達成するために企業がAI、IoT、AR/VRを活用する方法」

「サステナビリティの目標達成や排出削減に貢献する数々の技術が、Industry 4.0の企業や製造業によって求められていますこれらには自動化、センサー技術、IoT、無線接続などが含まれますその結果、産業全体や製造業者は、AIの基盤となる大量のデータを生成し、収集し、追跡し、分析することができるようになりました」

ChatGPTを超えて；AIエージェント：労働者の新たな世界

産業と私たちの日常的なやり取りを再定義しているAIエージェントの世界を探検してくださいAIワーカーの進化、Auto-GPTやBabyAGIの機能、そして興味深いWestworldシミュレーションまで、AIによる未来の可能性と課題に深く没頭してください

「これらの3つのあまり知られていないPandasの関数を試してみてください」

もし経験豊富なデータサイエンティストや機械学習エンジニアに尋ねると、彼らの仕事で最も時間がかかるものは何でしょうか？私は多くの人が「データの前処理」と答えるでしょうこれはデータを整理するためのステップです...

「AIとML開発言語としてのPythonの利点」

「AIやMLなどのツールを使用して、ウェブ開発会社が業界を征服するためにPythonがますます使用されている理由を発見してください」

ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します

テキストから画像を生成するモデルは、人工知能の進歩の最も良い例の一つです。研究者たちの持続的な進歩と努力により、これらのモデルは長い道のりを歩んできました。テキストから画像を生成するモデルの大幅な進歩があるにもかかわらず、これらのシステムは通常、提供された書かれた説明と正確に一致する画像を生成することができません。既存のモデルでは、画像内の複数のアイテムを正しく組み合わせるための支援、適切なオブジェクトに特性を割り当てるための支援、および視覚的なテキストの生成が必要です。研究者たちは、生成モデルがこれらの困難を処理する能力を向上させるために、言語構造を導入して画像の作成を指示することを試みてきました。CLIPScoreなどの手法では、作成された画像がテキスト入力とどれだけ似ているかを評価するためにCLIP埋め込みを使用しますが、事物を正確にカウントしたり合成的に推論する能力に制約があるため、信頼性のあるメトリックではありません。画像のキャプションを使用する方法もありますが、画像がテキストで説明され、元の入力と比較されます。しかし、このアプローチでは、ラベリングモデルが画像の重要な側面を見落としたり、無関係な領域に集中したりする可能性があるため、不十分です。これらの問題を解決するために、ワシントン大学とAI2の研究者チームは、TIFA（Text-to-Image Faithfulness evaluation with Question Answering）を導入しました。TIFAは、視覚的な質問応答（VQA）を利用して、画像が関連するテキスト入力とどれだけ一致するかを判断するための自動評価メトリックです。チームは、言語モデルを使用して与えられたテキスト入力からさまざまな質問と回答のペアを生成しました。作成された画像を使用してよく知られたVQAモデルがこれらのクエリに正しく応答できるかどうかを調べることにより、画像の信憑性を評価することができます。 TIFAは、出力画像の品質の徹底的かつ簡単な評価を可能にする無参照メトリックとして際立っています。他の評価メトリックと比較して、TIFAは人間の判断とより強い関連性を示しました。この手法を基礎として、チームはTIFA v1.0も発表しており、これには4Kのテキスト入力と12の異なるカテゴリ（オブジェクトやカウントなど）に分割された合計25Kの質問が含まれています。TIFA v1.0を使用して、既存のテキストから画像へのモデルを包括的に評価し、現在の問題と困難を明らかにしました。色や材料の表現などの面で優れているにもかかわらず、TIFA v1.0を使用したテストでは、現代のテキストから画像へのモデルは、空間関係や複数のオブジェクトを正確に描写することにまだ問題があります。研究チームは、彼らのベンチマークを導入することで、テキストから画像への合成の分野での進歩を評価するための正確な基準の構築を目指しています。彼らは貴重な洞察を提供することにより、指摘された制約を克服し、この技術のさらなる発展を促進するためのすべての将来の研究を導くことを望んでいます。結論として、TIFAは画像とテキストの整合性を測定するための優れた手法であり、まずLLMによって質問のリストを生成し、次に画像に対して視覚的な質問応答を行い、正確性を計算します。

Google Researchにおける責任あるAI：パーセプションの公平性

Google ResearchのPerception Fairnessチームの共同リーダーであるSusanna RiccoとUtsav Prabhuが投稿しました。 Googleの責任あるAI研究は、異なるバックグラウンドと専門知識を持つチーム間、研究者と製品開発者間、そして最終的には広範なコミュニティとの協力の基盤の上に築かれています。パーセプションフェアネスチームは、コンピュータビジョンと機械学習（ML）のフェアネスに関する深い専門知識と、Googleをはじめとする製品にパワーを与える知覚システムを構築する研究者との直接的なつながりを組み合わせることで進歩を推進しています。私たちはGoogleのAI原則に基づいて、システムを包括的に設計するために協力して取り組んでいます。パーセプションフェアネス研究は、Googleの製品をパワーにする最新の基盤と生成モデルを含む高度なマルチモーダルモデルの設計、開発、展開にわたります。私たちのチームのミッションは、特に基盤モデルと生成AIに関連するマルチモーダルMLシステムにおける公平性と包括性のフロンティアを推進することです。これには、分類、ローカリゼーション、キャプション付け、検索、ビジュアルな質問応答、テキストから画像またはビデオの生成、生成画像とビデオの編集などの中核技術コンポーネントが含まれます。私たちは、これらのアプリケーションにおいて公平性と包括性を最優先のパフォーマンス目標とすることができると信じています。私たちの研究は、開発サイクル全体でこれらの目標を積極的に設計するための新しい分析と緩和策を開放することに焦点を当てています。私たちは、次のような核心の問いに答えます：MLをどのように使用して、人種、文化、社会的アイデンティティの人々の知覚を責任を持ってモデル化し、公平性と包括性を促進することができるのか？どのようなシステムのバイアス（例：特定の肌の色の人物の画像でのパフォーマンスの低下）を計測することができ、これらの指標を使用してより良いアルゴリズムを設計することができるのか？より包括的なアルゴリズムとシステムを構築し、障害が発生した場合に迅速に対応するにはどうすればよいのか？メディアにおける人々の表現の測定画像やビデオを編集、キュレーション、または作成することができるMLシステムは、世界中の視聴者の信念を形成または強化することができます。これには、ステレオタイプの強化、人々のグループの傷つけや消去などの表現上の害を減らすための研究は、コンテンツと社会的な文脈の両方を深く理解することにかかっています。これは、異なる観察者が自分自身や自分のコミュニティをどのように捉え、他者がどのように表現されているかにかかっています。責任を持って行われるべき社会的カテゴリの研究とその方法については、この分野で大いに議論があります。私たちの研究は、社会学と社会心理学に基づき、人間の知覚に合致し、問題の主観性を受け入れ、微妙な測定と緩和を可能にするスケーラブルなソリューションに向けて取り組んでいます。例として、私たちはMonk Skin Toneスケールを使用した画像の肌のトーンの人間の知覚と注釈の違いに関する研究を行っています。私たちのツールは、大規模なコンテンツコレクションにおける表現を研究するためにも使用されています。Media Understanding for Social Exploration（MUSE）プロジェクトを通じて、私たちは学術研究者、非営利団体、主要な消費者ブランドと提携して、主流メディアや広告コンテンツのパターンを理解しています。この研究は、2017年に最初に発表され、ハリウッド映画のジェンダー平等を分析した共著研究で始まりました。それ以来、私たちは分析のスケールと深さを増してきました。2019年には、270万本以上のYouTube広告に基づく調査結果を公開しました。最新の研究では、12年以上にわたる人気のある米国のテレビ番組における知覚される性別プレゼンテーション、知覚される年齢、肌のトーンの交差点での表現を調査しています。これらの研究は、コンテンツクリエーターや広告主に洞察を提供し、私たち自身の研究をさらに進めています。メディアコレクションにおける表現パターンを明らかにするためにスケールで分析できるコンピュータシグナルのイラスト（実際のデータではありません）。[ビデオコレクション/ゲッティイメージズ] 進んでいくにつれて、私たちはMLの公平性に焦点を当てる概念と、それが責任を持って適用される領域を拡大しています。人々の写真の写実的なイメージを超えて、私たちはイラストや抽象的な人型のキャラクターの表現をモデル化するツールの開発に取り組んでいます。さらに、人間の姿が全くない画像さえも含めて、コミュニティや文化の表現をモデル化するツールを開発しています。最後に、描かれているのは誰だけでなく、それらがどのように描かれているかについても考える必要があります。周囲の画像コンテンツ、関連するテキスト、そして広範な文化的文脈を通じて伝えられる物語は何かを推論する必要があります。知覚システムのバイアス特性の分析高度なMLシステムの構築は複雑であり、製品の動作を決定するさまざまな利害関係者が情報を提供しています。全体的な品質は、ユーザーエクスペリエンスのプロキシとしてテストデータセット上の要約統計（全体的な正確度など）を使用してこれまでに定義され、測定されてきました。しかし、すべてのユーザーが同じ方法で製品を経験するわけではありません。知覚の公平性は、要約統計を超えた微妙なシステムの振る舞いの実測を可能にし、これらの指標をシステムの品質に直接関連付けて製品の動作とローンチの意思決定に重要な役割を果たします。これは思っているよりもはるかに難しいことです。複雑なバイアスの問題（例：交差するサブグループ間のパフォーマンスの不均衡やステレオタイプの強化のインスタンス）を重要なニュアンスを失うことなく、わずかな数の指標に凝縮することは非常に困難です。また、公平性の指標と他の製品の指標（ユーザー満足度、正確性、レイテンシなど）の相互作用のバランスを取ることも課題です。これらはしばしば相反するとされながらも互換性があるとされるものです。広範なユーザーの満足度は、公平性と包含の目標を達成することに一致しているにもかかわらず、研究者が自分の仕事を「正確性と公平性のトレードオフの最適化」と表現するのは一般的です。私たちは、Open Imagesの一部としてMIAPデータセットを構築し、複雑なシステムの社会的に関連する概念の知覚とバイアスの検出の研究を活用して、コンピュータビジョンにおけるMLの公平性研究を推進するリソースを作成しました。オリジナルの写真クレジット…

PythonとDashを使用してダッシュボードを作成する

この記事では、PythonとDashを使用してNetflixのダッシュボードを構築し、地図、グラフ、チャートを使用してコンテンツの配信と分類を視覚化する方法について説明しています

Python

「AIを活用した言語学習のためのパーソナルボイスボット」

新しい言語をマスターする最も効果的な方法は何ですか？話すことです！しかし、他の人の前で新しい単語やフレーズを試すことはどれだけ圧迫感があるか、私たちは皆知っていますもしもあなたが辛抱強く…

「DenseDiffusionとの出会い：テキストから画像生成における密なキャプションとレイアウト操作に対処するためのトレーニング不要のAI技術」

テキストから画像を生成するモデルの最近の進歩により、短いシーンの説明に基づいて高品質の画像を生成することができる洗練されたシステムが生まれました。しかし、これらのモデルは複雑なキャプションに直面すると困難に直面し、しばしば異なるオブジェクトに関連する視覚的属性の省略や混合が生じます。この文脈での「dense」の用語は、個々のフレーズが画像内の特定の領域を説明するために使用されるdense captioningの概念に根ざしています。さらに、テキストのプロンプトのみを使用して生成された画像内の要素の配置を正確に指示することにユーザーは課題に直面しています。最近のいくつかの研究では、ユーザーにレイアウトに基づいた空間制御を提供する解決策を提案しています。特定のアプローチ（「Make-aScene」や「Latent Diffusion Models」など）では、テキストとレイアウトの条件の両方でモデルを構築しますが、他の同時的な方法（「SpaText」や「ControlNet」など）では、既存のテキストから画像へのモデルに補足的な空間制御を導入するために微調整を行います。残念ながら、モデルのトレーニングや微調整は計算量が多くかかることがあります。さらに、モデルは新しいユーザー条件、ドメイン、またはベースのテキストから画像へのモデルごとに再トレーニングを必要とします。上記の問題に基づいて、dense captionsを収容しレイアウト操作を提供するための新しいトレーニングフリーのテクニックであるDenseDiffusionが提案されています。メインのアイデアを提示する前に、拡散モデルがどのように機能するかについて簡単に説明します。拡散モデルは、ランダムノイズから始まり、連続的なノイズ除去ステップを通じて画像を生成します。ノイズ予測ネットワークは追加されたノイズを推定し、各ステップでより鮮明な画像をレンダリングしようとします。最近のモデルでは、生成された画像を大幅に犠牲にすることなく、より速い結果を得るために、ノイズ除去ステップの数を減らしています。最先端の拡散モデルには、自己注意と交差注意の2つの重要なブロックがあります。自己注意層では、中間特徴がコンテキスト特徴として機能します。これにより、さまざまな領域にわたる画像トークンの間の接続を確立することで、グローバルに一貫した構造を作成することができます。同時に、交差注意層は、入力テキストキャプションから得られたテキスト特徴に基づいて適応し、エンコードにCLIPテキストエンコーダーを使用します。前述のように、DenseDiffusionのメインのアイデアは、生成された画像のレイアウトと自己注意と交差注意マップの間の大きな相関関係を明らかにするために、事前にトレーニングされたテキストから画像への拡散モデルの中間特徴を検証することです。この洞察から、中間の注意マップはレイアウト条件に基づいて動的に調整されます。さらに、このアプローチでは、各セグメントの領域に基づいて元の注意スコア範囲を考慮し、調整の範囲を微調整する必要があります。この研究では、DenseDiffusionの性能を「Stable Diffusion」モデルの性能向上に活用し、dense captions、テキストとレイアウトの条件、および画像の品質において複数の構成拡散モデルを凌駕する能力を示しています。研究から選択されたサンプルの結果は、以下の画像で示されています。これらの視覚的な比較は、DenseDiffusionと最先端の手法の間の概要を提供します。これは、DenseDiffusionという新しいAIのトレーニングフリーテクニックについての要約であり、dense captionsを収容し、テキストから画像への合成においてレイアウト操作を提供します。

Learn more about Search Results A - Page 254