Learn more about Search Results Discord - Page 9
- You may be interested
- 「おそらく知らなかった4つのPython Itert...
- このAI研究は、ポイントクラウドを2D画像...
- 事前学習された拡散モデルを用いた画像合成
- 「スノーケルAIのCEO兼共同創設者、アレッ...
- Rows AI:エクセルスプレッドシートの終焉...
- 「LangchainなしでPDFチャットボットを構...
- 「GPTからMistral-7Bへ:AI会話のエキサイ...
- デジタル図書館とインターネットアーカイ...
- ピンクのローバーが赤い惑星に取り組む、...
- 「プロンプトエンジニアリングに入るため...
- VoAGIニュース、9月20日:ExcelでのPython...
- ハイプに乗ろう! ベイエリアでのAIイベント
- 再帰型ニューラルネットワークの基礎から...
- ChatGPT の機能 観察、ヒント、およびトリ...
- システムデザインのチートシート:Elastic...
この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します
人間の視覚システムと似たように、世界を見て認識する人工システムを構築することは、コンピュータビジョンの重要な目標です。 人工ネットワークのアーキテクチャの特徴を生物学的脳の潜在的表現と比較することで、最近の人口脳活動測定の進歩と深層ニューラルネットワークモデルの実装と設計の改善により、脳活動から視覚画像を再構築することが可能になりました。 たとえば、機能的磁気共鳴イメージング(fMRI)によって検出される脳活動のようなものです。 これは魅力的ですが、脳の基礎となる表現はほとんどわかっておらず、脳データのサンプルサイズが通常小さいため、困難な問題です。 近年の学術研究では、教師なし学習や生成的対抗ネットワーク(GAN)、自己教師あり学習などの深層学習モデルや技術が、これらの課題に取り組むために使用されています。 ただし、これらの試みは、fMRI実験で使用される特定の刺激に対して微調整するか、fMRIデータを使用して新しい生成モデルをトレーニングする必要があります。 これらの試みは、脳科学データの量が少ないことと、複雑な生成モデルの構築に関連する複数の困難により、ピクセルごとの信頼性や意味の信頼性において非常に制約されたパフォーマンスを示しました。 拡散モデル、特に計算資源をあまり必要としない潜在的拡散モデルは、最近のGANの代替手段です。 しかし、LDMはまだ比較的新しいため、内部でどのように機能するかを完全に理解することは困難です。 大阪大学とCiNetの研究チームは、fMRI信号から視覚画像を再構築するためのLDMであるStable Diffusionを使用して、上記で述べた問題に取り組む試みを行いました。 彼らは、複雑な深層学習モデルのトレーニングや調整の必要性を排除し、高解像度で高い意味の信頼性を持つ画像を再構築することができる直感的なフレームワークを提案しました。 この調査で著者が使用したデータセットは、ナチュラルシーンデータセット(NSD)であり、各被験者が10,000枚の画像の3回のリピートを見た間に収集されたfMRIスキャナからのデータを提供しています。 出典:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full まず、著者たちはLatent Diffusion Modelを使用してテキストから画像を作成しました。上の図(上部)では、zは生成された潜在表現であり、cは画像を説明するテキストの潜在表現であり、zcはオートエンコーダによって圧縮された元の画像の潜在表現と定義されています。 デコーディングモデルを分析するために、著者たちは3つのステップに従いました(上の図、中央)。まず、彼らは初期の視覚皮質(青)内のfMRI信号から提示された画像Xの潜在表現zを予測しました。 zはその後、デコーダによって粗い復号化画像Xzを生成するために処理され、次に拡散プロセスを経てエンコードされました。最後に、ノイズのある画像には、高次視覚皮質(黄色)内のfMRI信号からの復号化された潜在テキスト表現cが追加され、zcが作成されました。 zcから、デコーディングモジュールが最終的な再構築画像Xzcを生成しました。このプロセスに必要なトレーニングは、fMRI信号をLDMコンポーネントzc、z、およびcに線形にマッピングすることだけであることを強調しておくことが重要です。 zc、z、およびcから始めると、著者たちはエンコーディング分析を実施し、それらを脳活動にマッピングすることでLDMの内部動作を解釈しました(上の図、下部)。表現から画像を再構築した結果は以下の通りです。 出典:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 単にzを使用して再作成された画像は、元の画像と視覚的な一貫性を持っていましたが、その意味的な価値は失われました。一方、cを使用して部分的に再構築された画像は、意味的な忠実度が高いが視覚的に不一致な画像を生成しました。zcを使用して回復された画像が高解像度の画像を作成し、意味的な忠実度も高いことで、この方法の妥当性が示されました。 脳の最終解析では、DMモデルに関する新しい情報が明らかになりました。脳の後ろにある視覚皮質では、全ての3つの要素が優れた予測性能を達成しました。特に、zは視覚皮質の後ろにある初期視覚皮質で強力な予測性能を提供しました。また、上部視覚皮質(視覚皮質の前部)でも強力な予測値を示しましたが、他の領域ではより小さな値でした。一方、上部視覚皮質では、cが最も優れた予測性能を示しました。…
「2023年に試してみるべき20の中間旅行の代替案」
Shutterstock.AI Shutterstock.AIは、使いやすいAI生成の画像作成および編集プラットフォームです。OpenAIとLGがサポートし、Shutterstockから収集された包括的かつ倫理的な画像を使用しています。シンプルな単語や動詞からより詳細な説明まで、画像検索機能で使用できます。感情的な言語やカメラスタイル、視点などの視覚的なシグナルも取り上げられています。ユーザーはShutterstock.AIのCreative Flowプラットフォームの助けを借りて、簡単にAIの写真を作成し、編集することができます。これにより、個人が自分の想像力からオリジナルで個性的なグラフィックを生成する道が開かれます。 Artbreeder Artbreederは、革命的なAI駆動のアート作成ツールです。コラージュや合成写真の作成を共有する繁盛するAIアートコミュニティがあります。ユーザーはCollagerツールを使用して、形や画像から素早くコラージュを作成し、質問に対する回答としてそれを説明することができます。その後、Artbreederはそれを生き返らせ、視覚的な探求の世界と自分自身の絵画、肖像画、風景の創造の機会を提供します。Splicerは既存の画像を組み合わせて新しい写真を作成するツールです。ユーザーは自分の作品を共有し、お気に入りのアーティストをフォローすることができます。Artbreederではコンセプトアート、歴史的な再現、ミュージックビデオなどが作られています。無料から「Champion」まで様々な有料のティアがあり、それぞれ高解像度の画像やアニメーションフレームのアップロードやダウンロードなどの特典があります。 Stablecog Stablecogは、プロフェッショナルな芸術作品を作成するためにStable Diffusionを使用する無料かつオープンソースの人工知能画像生成ツールです。複数の言語で利用でき、ユーザーフレンドリーに作られています。アニメ、3Dレンダリング、アニメーション映画、3Dコミックなどのデジタルアート作品の作成に適している多くの機能とカスタマイズオプションを備えています。プログラムにはプレミアムな機能と強化されたグラフィックのカスタマイズオプションへのアクセスを提供する「Pro」エディションも含まれています。瞬時に目を引くイメージを手軽に作成するための素晴らしいプログラムです。 Mage 最先端のAIと無料で迅速かつフィルタリングされていないMage Stable Diffusionツールを使用して、ユーザーは自分の夢に思い描いたものを作成することができます。Stable Diffusion v1.5およびv2.1、Openjourney、Analog、DucHaitenAIArt、Deliberate、DreamShaper、Double Exposure、Redshift、Arcane、Archer、Disney Pixar、SynthwavePunk、Vector Art、Pixel Scenery、Pixel Characters、Anything v3.0、Eimis、Waifu、Grapefruit、PFG、Realistic Vision、F222、PPPなど、多くのAIモデルが含まれています。写実主義、3Dアート、NSFW、ファンタジーなどは、各モデルの多くの用途の一部です。アスペクト比、ステップ、命令スケール、シード、ネガティブプロンプト、プライバシーなど、顧客が調整できるパラメーターもあります。 Catbird マルチモデル画像生成ツールを使用して、ユーザーは単一のクエリでさまざまなAIモデルから画像を生成することができます。このプログラムは、15以上のモデルからの出力を提供することで、さまざまな画像生成の可能性を提供します。画像生成のためのさらなる可能性が約束されていますが、現時点では、このツールはOpenjourney、Dreamlike Diffusion、Stable…
「拡散を支配するための1つの拡散:マルチモーダル画像合成のための事前学習済み拡散モデルの調節」
画像生成AIモデルは、ここ数ヶ月でこの領域を席巻しています。おそらく、midjourney、DALL-E、ControlNet、またはStable dDiffusionなどについて聞いたことがあるかもしれません。これらのモデルは、与えられたプロンプトに基づいて写真のようなリアルな画像を生成することができます。与えられたプロンプトがどれほど奇妙であっても、ピカチュウが火星を走り回るのを見たいですか?これらのモデルのいずれかに依頼してみてください。きっと手に入るでしょう。 既存の拡散モデルは、大規模なトレーニングデータに依存しています。大規模と言っても本当に大きいです。たとえば、Stable Diffusion自体は、25億以上の画像キャプションのペアでトレーニングされました。ですので、自宅で独自の拡散モデルをトレーニングする予定がある場合は、計算リソースに関して非常に高額な費用がかかるため、再考することをお勧めします。 一方、既存のモデルは通常、非条件付きまたはテキストプロンプトのような抽象的な形式に基づいています。これは、画像を生成する際に1つの要素のみを考慮に入れることを意味し、セグメンテーションマップなどの外部情報を渡すことはできません。これは、大規模なデータセットに依存していることと組み合わさると、大規模な生成モデルがトレーニングされていないドメインでは、その適用範囲が制限されることを意味します。 この制限を克服するためのアプローチの1つは、特定のドメインに対して事前にトレーニングされたモデルを微調整することです。しかし、これにはモデルのパラメータへのアクセスと、フルモデルの勾配を計算するための膨大な計算リソースが必要です。さらに、フルモデルを微調整すると、その適用範囲と拡張性が制限されるため、新しいフルサイズのモデルが新しいドメインやモダリティの組み合わせごとに必要となります。また、これらのモデルのサイズが大きいため、微調整されたデータの小さなサブセットにすぐにオーバーフィットする傾向があります。 また、選択したモダリティに基づいてモデルをゼロからトレーニングすることも可能です。しかし、これはトレーニングデータの入手可能性によって制限され、モデルをゼロからトレーニングするのは非常に高価です。一方、推論時に事前にトレーニングされたモデルを目的の出力に向かってガイドする試みもあります。これには事前にトレーニングされた分類器やCLIPネットワークからの勾配を使用しますが、このアプローチは推論中に多くの計算を追加するため、モデルのサンプリングを遅くします。 では、非常に高価なプロセスを必要とせずに、既存のモデルを利用して条件を適用することはできないでしょうか?拡散モードを変更する手間のかかる時間のかかるプロセスに入る必要はありませんか?それでも条件を付けることは可能でしょうか?その答えは「はい」であり、それを紹介します。 多モーダルコンディショニングモジュールのユースケース。出典: https://arxiv.org/pdf/2302.12764.pdf 提案されたアプローチ、多モーダルコンディショニングモジュール(MCM)は、既存の拡散ネットワークに統合できるモジュールです。これは、元の拡散ネットワークの予測を各サンプリングタイムステップで調整するためにトレーニングされた小規模の拡散のようなネットワークを使用します。これにより、生成された画像が提供された条件に従うようになります。 MCMは、元の拡散モデルを何らかの方法でトレーニングする必要はありません。トレーニングは、モジュレーションネットワークに対してのみ行われ、小規模でトレーニングコストがかからないです。このアプローチは計算的に効率的であり、大規模な拡散ネットワークの勾配を計算する必要がないため、拡散ネットワークをゼロからトレーニングするか既存の拡散ネットワークを微調整するよりも少ない計算リソースを必要とします。 さらに、MCMは、トレーニングデータセットが大規模でない場合でも、一般化能力があります。勾配の計算が必要ないため、推論プロセスを遅くすることはありません。唯一の計算オーバーヘッドは、小規模な拡散ネットワークの実行によるものです。 提案されたモジュレーションパイプラインの概要。出典: https://arxiv.org/pdf/2302.12764.pdf マルチモーダル調整モジュールの組み込みにより、セグメンテーションマップやスケッチなどの追加のモダリティによる条件付き画像生成に対して、より多くの制御が加わります。このアプローチの主な貢献は、マルチモーダル調整モジュールの導入です。これは、元のモデルのパラメータを変更せずに事前学習済みの拡散モデルを条件付き画像合成に適応させるための手法であり、ゼロからのトレーニングや大規模なモデルの微調整よりも安価でメモリ使用量も少なく、高品質かつ多様な結果を実現します。 論文とプロジェクトをチェックしてください。この研究に関しては、このプロジェクトの研究者に全てのクレジットがあります。また、最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している26k+のML SubReddit、Discordチャンネル、メールニュースレターにもぜひ参加してください。 Tensorleapの説明可能性プラットフォームでディープラーニングの秘密を解き放つ この投稿は「One Diffusion to Rule Diffusion:…
このAIニュースレターは、あなたが必要とするすべてです #57
「AIの世界では、LLMモデルのパフォーマンス評価が注目の話題となりました特に、スタンフォードとバークレーの学生による最近の研究についての活発な議論がありました...」
新しいAIの研究は、事前学習済みおよび指示微調整モデルのゼロショットタスクの一般化性能を改善するために、コンテキスト内の指導学習(ICIL)がどのように機能するかを説明しています
Large Language Models (LLMs)は、few-shot demonstrations、またはin-context learningとしても知られるプロセスによって、推論中にターゲットタスクに適応できることが示されています。この能力は、モデルのサイズが拡大するにつれて、LLMsが新たな特徴を表示することでますます明らかになっています。その中でも、指示に従って未知のタスクに一般化する能力は注目されています。そのためには、Instruction tuning、またはRLHFと呼ばれる教示学習アプローチが、この能力を高めるために提案されています。しかしながら、これまでの研究は主にfine-tuningに基づく教示学習技術に焦点を当ててきました。モデルは、多くのタスクと指示に基づいてマルチタスクでfine-tuningされており、多くのバックプロパゲーション手順が必要です。 KAISTとLG Researchの研究者グループは、in-context learningを通じて推論中に指示に従う学習(ICIL)が、既存の事前学習モデルや特定の指示に従うように特別に調整されたモデルの両方にとって有利であることを示しています(図1参照)。ICILで使用されるプロンプトには、タスクの教育、入力、出力の各インスタンスである多くのクロスタスクの例が含まれています。デモンストレーションに使用される機能を評価セットから完全に除外し、すべての評価タスクに対して同じ一連のプロンプトを使用するため、ICILはゼロショット学習アプローチです(図2参照)。 図1: SUPERNIベンチマークを使用して評価された119の評価ジョブの平均パフォーマンス。事前学習済みおよび指示に基づいたfine-tuningされたLLMsの両方がICILから利益を得ることができます。ICILのためのいくつかの例セットの標準偏差エラーバーと平均スコアを示しています。 彼らは、さまざまなダウンストリームタスクやモデルサイズに適したシンプルなヒューリスティックベースのサンプリング方法を使用して、固定された例セットを作成します。すべてのジョブに対して同じ固定されたデモンストレーションセットを先頭に追加することで、新しいターゲットタスクやモデルのベースラインのゼロショットパフォーマンスを評価および複製することができます。図1は、指示に従うようにfine-tuningされていないさまざまな事前学習済みLLMsのゼロショットチャレンジでの一般化性能を大幅に向上させることを示しています。 図2: コンテキスト学習教示(ICIL)の概要。すべてのタスクに対して事前学習済みおよび指示に基づいたfine-tuningされたLLMsを評価するために、指示、入力、出力の各インスタンスで構成される事前定義済みのデモンストレーションセットを構築します。デモンストレーションに含まれるタスクと評価されるタスクが厳密に留保されることにより、ゼロショットの一般化シナリオが保証されます。 彼らのデータは、指示に明確な応答オプションを備えた分類タスクの選択が、ICILの成功の鍵であることを示しています。重要なことは、ICILを使用した小さいLLMsでも、ICILを使用しない大きな言語モデルよりも優れたパフォーマンスを発揮することです。たとえば、6BサイズのICIL GPT-Jは、175Bサイズの標準的なゼロショットGPT-3 Davinciよりも30以上優れています。さらに、ICILを教示に基づいたfine-tuningされたLLMsに追加することで、特に100B以上の要素を持つモデルに対するゼロショットの指示に従う能力が向上することを示しています。これは、ICILの影響が指示の修正の影響と加算的であることを示唆しています。 これは、以前の研究がfew-shot in-context learningにはターゲットタスクと類似した例を取得する必要があると示唆していたのとは対照的に、生成ターゲットタスクにも当てはまります。さらに驚くべきことに、各例の入力インスタンス分布にランダムなフレーズを代わりに使用しても、パフォーマンスに顕著な影響はありません。このアプローチに基づいて、LLMsは指示中で提供される応答オプションと各デモンストレーションの生成との対応関係を推論中に学ぶため、指示、入力、出力の複雑な関係に依存するのではなく、ICILがLLMsを目標指示に集中させ、目標タスクの応答分布の信号を見つけるのを支援することが目的です。 以下のPaperとGithubをご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している15k+ ML SubReddit、Discordチャンネル、およびEmailニュースレターにもぜひご参加ください。…
「CohereによるLLM大学に関する必要なすべて」
「LLM大学 by Cohere で新しいキャリアを始めたいですか?それとも次のビッグテックに移りたいですか?それができるようになりました」
ジョージア工科大学のこのAI論文は、より速く信頼性の高い方法で潜在的な超伝導体の新しい候補を特定するための人工知能手法を提案しています
超電導体は、臨界温度以下に冷却されると、電気抵抗を無視することができ、ゼロ抵抗を示します。この素晴らしい超電導体の特性により、エネルギー、交通、最先端のエレクトロニクスなど、さまざまな現実世界の応用が可能になります。過去10年間、高臨界温度超電導体の探索には大きな進展がありました。この論文では、ジョージア工科大学とハノイ科学技術大学(ベトナム)の研究者が、機械学習経路に原子レベルの情報を組み込むための最初のステップとして、新しい従来型(またはBCS)超電導体、特に周囲圧での発見に取り組んでいます。 ゼロ温度での高温超電導の予測は研究者にとって困難な課題でした。研究者は、異なる圧力で計算されたλおよびωlogの1100以上の値を持つ584の原子構造のデータセットを慎重にキュレーションしました。λおよびωlogのためのMLモデルが開発され、マテリアルプロジェクトデータベースの80,000以上のエントリをスクリーニングし、Tcが約10−15KおよびP = 0に等しい可能性のある2つの熱力学的かつ力学的に安定した材料が発見されました(第一原理計算による)。研究者は、原子構造を数値ベクトルに変換するためにmatminerパッケージを使用し、MLアルゴリズムとしてガウスプロセス回帰を使用してこれを達成しました。 研究者は、35の候補に対して超電導特性を予測するためにMLモデルを使用しました。その中で、最も高い予測されたTc値を持つものは6つでした。いくつかは不安定であり、さらなる安定化計算が必要でした。残りの2つの候補、すなわちCrHとCrH2の立方構造の安定性を検証した後、第一原理計算を使用してそれらの超電導特性を計算しました。研究者は、予測結果の正確性を報告された値の2-3%以内と確認するために、ローカル密度近似(LDA)XC機能を使用して追加の計算を実施しました。また、研究者は、これらの超電導体の合成可能性を調査するために、無機結晶構造データベース(ICSD)での起源を追跡しました。これらは過去に実験的に合成されたことがわかり、将来のテストで予測された超電導性が確認されることを期待しています。 将来の研究では、研究者はデータセットを拡大し多様化させ、ディープラーニング技術を使用し、逆設計戦略を統合して実質的に無限の材料を効率的に探索するためのMLアプローチを向上させる予定です。研究者は、高Tc超電導体の発見を容易にするためにアプローチをさらに改善し、実世界のテストと合成のために実験の専門家と協力することを想定しています。 論文をチェックしてください。この研究に関しては、研究者に全てのクレジットがあります。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している26k+ ML SubReddit、Discordチャンネル、およびメールニュースレターに参加するのをお忘れなく。 このAI論文は、ジョージア工科大学の研究者が、高速かつ信頼性のある方法で潜在的な超電導体の新たな候補を特定するための人工知能手法を提案しています。この記事はMarkTechPostで最初に掲載されました。
「FathomNetをご紹介します:人工知能と機械学習アルゴリズムを使用して、私たちの海洋とその生物の理解のために視覚データの遅れを処理するためのオープンソースの画像データベース」
海洋は前例のない速さで変化しており、膨大な海洋データを視覚的に監視しながら責任ある管理を維持することは困難です。必要なデータ収集の量と速さは、基準を求める研究コミュニティの能力を超えています。データの一貫性の欠如、不適切なフォーマット、大規模かつラベル付けされたデータセットへの要望は、機械学習の最近の進歩の限定的な成功に寄与しています。これらの進歩により、迅速かつより複雑な視覚データ分析が可能となりました。 この要件を満たすため、いくつかの研究機関がMBARIと協力して、人工知能と機械学習の能力を活用して海洋研究を加速させる取り組みを行いました。このパートナーシップの一つの成果がFathomNetです。FathomNetはオープンソースの画像データベースであり、先進的なデータ処理アルゴリズムを使用して、注意深くキュレーションされたラベル付きデータを標準化および集約します。チームは、人工知能と機械学習の利用こそが海洋の健康に関する重要な研究を加速し、水中映像の処理のボトルネックを解消する唯一の方法だと考えています。この新しい画像データベースの開発プロセスに関する詳細は、Scientific Reports誌の最新の研究論文に記載されています。 機械学習は、過去において視覚解析の分野を変革してきました。その一部には、膨大な数の注釈付きデータがあることが挙げられます。陸地の応用において、機械学習とコンピュータビジョンの研究者が注目するベンチマークデータセットはImageNetとMicrosoft COCOです。研究者に対して豊かで魅力的な基準を提供するために、チームはFathomNetを作成しました。フリーでアクセス可能な、高品質な水中画像トレーニングリソースを確立するために、FathomNetはさまざまなソースからの画像と記録を組み合わせています。 MBARIのビデオラボの研究員は、35年間にわたってMBARIが収集した約28,000時間の深海ビデオと100万枚以上の深海写真を代表するデータを注意深く注釈付けしました。MBARIのビデオライブラリには、動物、生態系、および物体の観察を記録した8,200万以上の注釈があります。国立地理学協会の探検技術ラボは、さまざまな海洋生息地や全ての海洋盆地にまたがる場所から、1,000時間以上のビデオデータを収集しました。これらの記録は、CVision AIが開発したクラウドベースの共同分析プラットフォームで使用され、ハワイ大学とOceansTurnの専門家によって注釈が付けられました。 さらに、2010年に、アメリカ国立海洋大気庁(NOAA)の海洋探査チームは、NOAA船オケアノスエクスプローラー号を使用してデュアルリモート操作機器システムを使ってビデオデータを収集しました。ビデオデータの注釈付けをより詳細に行うために、2015年から専門の分類学者に資金提供しています。最初は、ボランティアの科学者たちを通じて注釈付けをクラウドソーシングしていました。MBARIのデータセットの一部、および国立地理学協会とNOAAの資料がすべてFathomNetに含まれています。 FathomNetはオープンソースであるため、他の機関も容易に貢献し、視覚データの処理と分析において従来の方法よりも時間とリソースを節約することができます。さらに、MBARIはFathomNetのデータを学習した機械学習モデルを使用して、遠隔操作型の水中無人機(ROV)によって撮影されたビデオを分析するためのパイロットイニシアチブを開始しました。AIアルゴリズムの使用により、ラベリングの速度が10倍に向上し、人間の作業量が81%削減されました。FathomNetデータに基づく機械学習アルゴリズムは、海洋の探査と監視を革新する可能性があります。例えば、カメラと高度な機械学習アルゴリズムを搭載したロボット搭載車両を使用して、海洋生物やその他の水中のものを自動的に検索して監視することが挙げられます。 FathomNetには現在84,454枚の画像があり、81の異なるコレクションから175,875箇所のローカリゼーションを反映しています。このデータセットは、さまざまな位置やイメージング設定で200,000以上の動物種に対して1,000以上の独立した観察を取得した後、2億以上の観測を持つ予定です。4年前までは、注釈付きの写真の不足が何千時間もの海洋映像を機械学習で調査することを阻んでいました。FathomNetは、発見を解き放ち、探検家、科学者、一般の人々が海洋研究のペースを加速させるために利用できるツールを可能にすることで、このビジョンを現実化します。 FathomNetは、協力と共同科学が海洋の理解の向上にどのように貢献するかを示す素晴らしい例です。研究者たちは、MBARIと他の共同研究者からのデータを基盤として、データセットが海洋研究の加速に貢献することを期待しています。研究者たちはまた、FathomNetが海洋愛好家や様々なバックグラウンドを持つ探検家が知識と技術を共有するコミュニティとして機能することを強調しています。これは、広範な参加なしに達成できなかった海洋視覚データの問題に取り組むための飛躍台となります。視覚データの処理を高速化し、持続可能で健全な海洋を作り上げるために、FathomNetはコミュニティからのラベル付きデータをさらに含めるために常に改善されています。 この記事はMarktechpostスタッフによる研究概要記事として書かれたものであり、研究論文『FathomNet: 海洋での人工知能を可能にするためのグローバル画像データベース』に基づいています。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。論文、ツール、参考記事もチェックしてください。また、最新のAI研究ニュース、素敵なAIプロジェクトなどを共有している26k+ ML SubReddit、Discordチャンネル、メールニュースレターにぜひ参加してください。 この投稿は、FathomNetというオープンソースの画像データベースについてです。このデータベースは、人工知能と機械学習アルゴリズムを使用して、私たちの海洋とその生物を理解するために視覚データのバックログを処理するのに役立ちます。 この投稿はMarkTechPostで最初に公開されました。
清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました
深層学習の教師ありタスクにおける最近の成果は、大量のラベル付きトレーニングデータの利用可能性によるものです。しかし、正確なラベルを収集するには多大な労力と費用がかかります。実際のコンテキストでは、トレーニングデータの一部しかラベルが付いていないことがよくあります。半教師あり学習(SSL)は、ラベル付きおよびラベルなしの入力を使用してモデルの性能を向上させることを目指しています。ディープラーニングに適用される多くの効果的なSSL手法は、ラベルなしデータを使用するために教師なしの一貫性正則化を行います。 最新の一貫性ベースのアルゴリズムは通常、優れたパフォーマンスを達成していても、いくつかの設定可能なハイパーパラメータを導入します。最適なアルゴリズムのパフォーマンスを得るために、これらのハイパーパラメータを最適な値に調整するのが一般的な方法です。残念ながら、多くの現実世界のSSLシナリオでは、医用画像処理、ハイパースペクトル画像分類、ネットワークトラフィック認識、文書認識などのように、注釈付きデータが少ないため、ハイパーパラメータの検索は頼りないことがよくあります。ハイパーパラメータの値によってアルゴリズムのパフォーマンスが影響を受けることは、この問題をさらに深刻にします。また、ハイパーパラメータの数に関連して探索空間が指数関数的に増加するため、最新のディープラーニングアルゴリズムでは計算コストが制御不能になる可能性があります。 清華大学の研究者は、Meta-Semiというメタ学習ベースのSSLアルゴリズムを導入し、ラベル付きデータをより活用します。Meta-Semiは、さらに1つのハイパーパラメータを調整することで、多くのシナリオで優れたパフォーマンスを発揮します。 研究チームは、適切に「疑似ラベル」の付いた未注釈の例を使用してネットワークを成功裏にトレーニングできる可能性に気付きました。具体的には、オンライントレーニングフェーズでは、ネットワークの予測に基づいて未注釈データに対して疑似ソフトラベルを生成します。次に、信頼性の低いまたは不正確な疑似ラベルを持つサンプルを削除し、残りのデータを使用してモデルをトレーニングします。この研究では、正確な「疑似ラベル」データの分布はラベル付きデータの分布と比較可能であるべきだと示されています。ネットワークが前者でトレーニングされる場合、後者の最終的な損失も最小限に抑えられるべきです。 研究者たちは、最終的な損失を最小化するために最適な重み(本論文では常にニューラルネットワークのパラメータを指すのではなく、各ラベルなしサンプルを再重み付けするために使用される係数を指す)を選択することで、メタリウェーティング目標を定義しました。この問題を最適化アルゴリズムを使用して解決する際に、研究者たちは計算上の困難に直面しました。 そのため、彼らは閉形式の解が導かれる近似式を提案しています。理論的には、各トレーニングイテレーションは近似解を達成するために単一のメタ勾配ステップのみを必要とすることを示しています。 結論として、彼らは以前に疑似ラベル付けされたサンプルに0-1の重みを再重み付けする動的な重み付けアプローチを提案しています。その結果、このアプローチは最終的な教師あり損失関数の安定点に到達することが示されています。人気のある画像分類ベンチマーク(CIFAR-10、CIFAR-100、SVHN、およびSTL-10)では、提案手法が最新のディープネットワークよりも優れたパフォーマンスを発揮することが示されています。難しいCIFAR-100とSTL-10のSSLタスクでは、Meta-SemiはICTやMixMatchなどの最新のSSLアルゴリズムよりもはるかに高いパフォーマンスを発揮し、CIFAR-10ではそれらよりもわずかに優れたパフォーマンスを発揮します。さらに、Meta-Semiは一貫性ベースの手法に有用な追加要素です。一貫性正則化をアルゴリズムに組み込むことで、パフォーマンスがさらに向上します。 研究者によると、Meta-Semiはトレーニングに少し時間がかかるという欠点があります。彼らは将来的にこの問題を調査する予定です。 この研究に関する論文と参考記事をご覧ください。この研究のすべてのクレジットはこのプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している26k+ ML SubReddit、Discord Channel、Email Newsletterにぜひご参加ください。 Tensorleapの説明可能性プラットフォームでディープラーニングの秘密を解き放つ この記事はMarkTechPostに掲載されたものです。
このAI論文は、拡散モデル内のコンセプトニューロンを分析および識別するための、コーンと呼ばれる新しい勾配ベースの手法を提案しています
複雑な脳の構造により、驚くべき認知的および創造的なタスクを実行することができます。研究によると、人間の内側の側頭葉にある概念ニューロンは、与えられた刺激の意味的な特性に異なる反応を示すとされています。これらのニューロンは、高度な知性の基盤であり、経験項目間の時空間的なギャップを超えた一時的および抽象的な関連を記憶します。したがって、現代の深層ニューラルネットワークが最も成功した人工知能システムの1つとして同様の概念ニューロンの構造を受け入れるかどうかを学ぶことは、興味深いものです。 生成拡散モデルは、人間の脳の創造的能力を模倣するために、いくつかの主題を独立してニューロンにエンコードするのでしょうか?中国の研究者は、このクエリを主題駆動型の生成からの視点で取り組んでいます。入力テキストプロンプトの意味に基づいて、彼らは、事前学習されたテキストからイメージへの拡散モデルの注意層のパラメータである小さなクラスタを見つけることを提案しています。これにより、それらのニューロンの値を変更することで、さまざまなコンテンツで一致するトピックを作成することができます。これらのニューロンは、拡散モデルの関連する主題にリンクされたアイデアニューロンとして識別されます。これらを特定することで、ディープ拡散ネットワークの基本的な仕組みについてさらに学び、主題駆動型の生成への新しいアプローチを提供することができます。この研究で提案されたユニークな勾配ベースのアプローチを使用して分析され、Cone1として知られるアイデアニューロンが特定されます。彼らは既存の知識を保持しながら、供給されたトピックをより効果的に作成するために、これらをスケーリングダウンパラメータとして使用します。この動機は、パラメータが概念ニューロンであるかどうかを決定するための勾配ベースの基準を生じる可能性があります。いくつかの勾配計算の後、この基準を使用してすべての概念ニューロンを特定することができます。それから、それらのアイデアニューロンの解釈可能性がさまざまな角度から検証されます。 彼らは、アイデアニューロンがその値の変化にどれだけ抵抗するかを調べることから始めます。彼らは、概念を埋め込む損失を最適化するために、概念ニューロンに対してfloat32、float16、四進数、バイナリのデジタル精度を使用します。これにより、トレーニングなしで直接概念ニューロンを閉じることができます。バイナリデジタルの精度は、最も少ないストレージスペースを使用し、追加のトレーニングは必要ありませんので、主題駆動型の生成においてデフォルトの技術として使用されます。結果は、すべての状況で一貫したパフォーマンスを示し、ニューロンのターゲットトピックを管理する高い堅牢性を示しています。このアプローチを使用して、異なる主題からのアイデアニューロンを連結することで、これらをすべて結果に生み出すことができ、興味深い加算性も実現できます。拡散モデルパラメータ空間における単純で強力なアフィン意味構造の発見は、おそらく初めてのものです。連結に基づく追加の微調整により、マルチコンセプト生成能力を新たなマイルストーンに進めることができます。彼らは主題駆動型の生成において、単一の画像に4つの異なる主題を成功裏に生成した最初の人物です。 最終的に、ニューロンはスパース性と強靭性により、大規模なアプリケーションで効果的に利用することができます。人間の肖像、設定、装飾など、さまざまなカテゴリに関する多くの調査が、このアプローチが解釈可能性において優れており、複数の概念を生成できることを示しています。現在の主題駆動型アプローチと比較して、特定の主題を開発するために必要なデータを格納するために約10%のメモリしか使用しないため、モバイルデバイスでの使用において非常にコスト効果が高く、環境にやさしいと言えます。 この研究については、論文をご覧ください。この研究に関しては、このプロジェクトの研究者に全てのクレジットがあります。また、最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している26k+ ML SubReddit、Discordチャンネル、メールニュースレターにぜひご参加ください。 Tensorleapの説明可能性プラットフォームで深層学習の秘密を解き放つ このAI論文は、拡散モデルで概念ニューロンを分析および特定するための新しい勾配ベースの手法「Cones」を提案しています。これはMarkTechPostによるものです。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.