Learn more about Search Results A - Page 37

機械学習を革新する:たった7行のコードでAutoGluonを使ってKaggleのトップ4%を達成

Slalom _buildで新しいデータエンジニアリングの役割を始めてから、数年前のMLの経験を最新化する必要があることに気付きましたデータエンジニアリング/データの経験を積んでから数年が経ちましたが...

このAIニュースレターはあなたが必要とするものです#76

今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しいビデオ生成拡散ベースのモデルの勢いについて…

オリジナリティの試金石:AIが創造的所有権に挑む

「もしも誰かがあなたにとって本当に貴重なものを盗んで、さらにひどいことにそれを自分のものだと偽って売りさばいたら、あなたはどう感じるでしょうか?彼らの犯罪から利益を得ています一部のクリエイターやアーティストは、このような感情を抱いています...」

2024年に使用するためのトップ5の生成AIライブラリ

イントロダクション テクノロジーの進化する世界において、人工知能(AI)は変革的な力として登場しました。基本的なアルゴリズムから最新の機械学習モデルの洗練まで、AIの旅路は確かに革命的であった。そして、ジェネレーティブAIライブラリの出現により、魅惑的な章が展開されています。しかし、ジェネAIとは一体何でしょうか? ジェネレーティブAIと共に未来に踏み出しましょう!従来のモデルとは異なり、ジェネAIは産業を再構築するため新たなデータを生成します。ChatGPTのようなツールが道を切り開き、ビジネスの景観を変えています。最新のAIツールの「2024年のトップ5ジェネレーティブAIライブラリ」を探索し、革新を再定義し、ユーザーエクスペリエンスを革命化するパワーと潜在能力を解き放ちましょう。これらのライブラリは、AIの進化の最前線を示しています。ジェネレーティブAIの未来へ、一緒にこのエキサイティングな旅に参加しましょう! ジェネレーティブAIライブラリとは何ですか? ジェネAIライブラリは、ジェネレーティブ人工知能の基盤となる、事前学習済みのモデルとアルゴリズムのリポジトリです。これらのライブラリは、AIの創造的なポテンシャルに一から始めることなく、開発者や企業がアクセスできるようにするものです。学習されたパターンとデータの基盤を提供することで、ジェネAIライブラリはテキストや音楽、ビジュアルなど多様な出力の生成を可能にします。これらのライブラリを活用することで、開発プロセスが効率化され、革新と効率性が促進されます。ジェネAIライブラリは、幅広いアプリケーションと産業に対して、高度なAIの機能を民主化する役割を果たしています。 実践的な学習でジェネレーティブAIのゲームをアップグレードしましょう。当社のジェネAI Pinnacle Programで、ベクトルデータベースの驚異を発見しましょう! 2024年に使用するトップ5ジェネレーティブAIライブラリ 1. Open AI OpenAIのAPIは、ジェネAIの世界に没入した専門家にとって、革新的なツールとして位置づけられます。柔軟な「テキストイン、テキストアウト」のインターフェースを提供するこのAPIは、一般的な解決策として際立っており、ジェネAIの専門家が日常の業務やプロジェクトにシームレスに統合することが可能です。ほとんどの英語のタスクに適用可能な柔軟性があり、実験、開発、探索に使える広範なプレイグラウンドを提供します。 APIは、最小限の例での理解とタスクの実行に優れています。ジェネAIのプログラミングにおいて直感的な選択肢であり、プロフェッショナルは複雑なシステムの問題ではなく、創造的な出力に集中することができます。タスク固有のトレーニングによるパフォーマンスの向上も、ユーザーが提供したデータセットやフィードバックに基づくカスタマイズを可能にします。OpenAIはシンプルさに重点を置くことで、さまざまなユーザーベースにアクセス可能な状態を確保しており、その技術の継続的なアップグレードは、機械学習の急速な進化に適応することへの献身を示しています。 さらに、OpenAIは負の影響を及ぼすアプリケーションに対して慎重なモニタリングとアクセスの終了を行う責任あるAIの使用に重点を置いています。プライベートベータ版のリリースはユーザーの安全性への取り組みを反映し、言語技術の安全関連の研究を継続して行っています。OpenAIのAPIを使用するジェネAIの実践者は、ポジティブなAIシステムへの貢献となる強力なツールを作成しています。このAPIは、収益を超えて一般的なAIの進歩を推進し、障壁を取り除き、ジェネAIコミュニティをさまざまな可能性へと前進させるのです。 2. PandasAI PandasAIは、革新的なジェネAIパワーを備えたデータ分析ライブラリであり、ジェネAIの専門家にとって日常の業務の風景を再構築します。広く使われているPandasライブラリを基盤に構築されたPandasAIは、ジェネAIモデルをシームレスに統合することで生産性を向上させます。前処理やデータの可視化などの伝統的なPandasタスクは、ジェネAIの能力によって高められ、データフレームに会話の要素を導入します。 PandasAIの魅力は、複雑なコーディングプロセスを自然な言語インターフェースに変換することにあります。ジェネAIによって、データサイエンティストは自然な言語でデータセットと会話するだけで簡単にクエリを実行することができます。この革新により、前処理や分析フェーズが大幅に迅速化し、従来のコーディングプラクティスとは異なるアプローチが可能となります。このライブラリは、テック系とノンテック系の両方のプロフェッショナルがデータセットと簡単にやりとりできる新たな可能性を開きます。 パンダのAIの中心には、ジェネレーティブ人工知能(GenAI)があります。GenAIは既存のデータのパターンを特定することで、多様なデータタイプを生成することができる一部の人工知能です。GenAIを活用することで、パンダのAIはユーザーが複雑なコードを書く必要なく、自然言語で意図を表現し、その指示が正確に実行される新しい時代をもたらします。この変革的なアプローチは、日常のタスクを効率化するだけでなく、ジェネレーティブAIの領域で包括的かつ効率的なデータ分析プロセスの道を開きます。 3. HuggingFace Transformers HuggingFace…

「CMU研究者がDiffusion-TTAを発表:類まれなテスト時間適応のために生成的フィードバックで識別的AIモデルを高める」

拡散モデルは、複雑なデータ分布から高品質なサンプルを生成するために使用されます。識別的な拡散モデルは、教師あり分類や回帰のようなタスクにおいて、与えられた入力データに対してラベルまたは出力を予測することを目指して拡散モデルの原則を活用します。識別的な拡散モデルは、不確実性の扱い方の向上、ノイズに対する強さ、データ内の複雑な依存関係の捕捉などの利点を提供します。 生成モデルは、新しいデータ点の学習データ分布からの偏差を定量化することで、異常値や外れ値を識別することができます。通常、これらの生成モデルと識別モデルは競合する代替手段と考えられています。カーネギーメロン大学の研究者は、生成逆と識別モデルの繰り返し推論の利点と、識別モデルの適応能力を利用する方法で、推論段階でこれらの2つのモデルを結合させました。 チームは、Diffusion-TTA (Diffusion-based Test Time Adaptation) モデルを構築しました。このモデルは、画像の分類器、セグメンタ、および深度予測モデルの方法を使用して、個々の未ラベルの画像に適応させ、その出力を使用して画像拡散モデルの条件付けを変調させ、画像拡散を最大化します。彼らのモデルはエンコーダーデコーダーアーキテクチャに似ています。事前に訓練された識別モデルは、画像を仮説(オブジェクトのカテゴリラベル、セグメンテーションマップ、深度マップなど)にエンコードします。これを事前に訓練された生成モデルの条件付けとして使用して画像を生成します。 Diffusion-TTA は、ImageNet およびその派生データセットを含む既存のベンチマークで、インサイドおよびアウトサイドのインスタンスに対して画像分類器の適応を効果的に行います。彼らは画像再構成損失を使用してモデルを微調整します。適応は、拡散尤度の勾配を識別モデルの重みに逆伝播させることで、テストセットの各インスタンスに対して行われます。彼らは、彼らのモデルがこれまでの最先端のTTA手法を上回り、複数の識別的および生成的な拡散モデルのバリアントに対して効果的であることを示しています。 研究者はさまざまな設計の選択肢に対する除去分析を示し、拡散-TTA が拡散時間ステップ、各ステップごとのサンプル数、およびバッチサイズのようなハイパーパラメータとどのように変化するかを調査しました。また、異なるモデルパラメータの適応効果を学習しました。 研究者は、Diffusion-TTA が一貫して Diffusion Classifier を上回ることを示しています。彼らは、(事前に訓練された)識別モデルの重み初期化により、識別モデルが生成損失に対して過学習しないため、このトリビアルな解に収束しないと推測しています。 総括すると、過去には生成モデルは画像分類器やセグメントのテスト時の適応に使用されてきました。しかし、ジョイント識別タスク損失と自己教師付き画像再構成損失の下で Diffusion-TTA モデルを共同トレーニングさせることで、効率的な結果を得ることができます。

「DreamSyncに会ってください:画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」

カリフォルニア大学南部、ワシントン大学、バール・イラム大学、およびGoogle Researchの研究者は、人間の注釈、モデルアーキテクチャの変更、または強化学習の必要性を排除して、拡散ベースのテキストから画像への変換(T2I)モデルにおける整列と美的魅力の向上の問題に取り組むDreamSyncを紹介しました。これは、候補画像を生成し、Visual Question Answering(VQA)モデルを使用して評価し、テキストから画像へのモデルを微調整することにより、その目的を達成しています。 以前の研究では、TIFAなどのVQAモデルを使用してT2I生成を評価することが提案されていました。 TIFAでは、4Kのプロンプトと25Kの質問を使用して、12のカテゴリにわたる評価を実施できます。 SeeTrueやRLHFなどのトレーニング関連手法やトレーニングアダプタなどは、T2Iの整列に取り組んでいます。 SynGenやStructuralDiffusionなどのトレーニングフリーテクニックは、整列の推論を調整します。 DreamSyncは、特定のアーキテクチャやラベル付きデータに依存せずに、ユーザーの意図と美的な魅力に対する忠実度を向上させるT2Iモデルの課題に取り組むためのモデル非依存のフレームワークを採用しています。ビジュアル-言語モデル(VLM)を利用して生成された画像と入力テキストとの相違点を特定するモデル非依存のフレームワークを導入しています。この方法では、複数の候補画像を作成し、VLMを使用して評価し、T2Iモデルを微調整します。 DreamSyncはベースラインの手法を上回る画像の整列を提供し、さまざまな画像特性を向上させることができ、整列改善に限定されない応用範囲を持っています。 DreamSyncは、VLMからのフィードバックを使用してT2I生成の整列を行うためのモデル非依存のフレームワークを採用しています。このプロセスでは、プロンプトから複数の候補画像を生成し、それらをテキストの忠実度と画像の美的魅力のために専用のVLMで評価します。 VLMのフィードバックによって選択された最良の画像は、収束するまで反復してT2Iモデルを微調整するために使用されます。また、反復的なブートストラッピングを導入し、VLMを教師モデルとして使用して、T2Iモデルのトレーニングのためのラベルのないデータをラベル付けします。 DreamSyncは、SDXLとSD v1.4のT2Iモデルの両方を向上させ、SDXLの3つのイテレーションでは、TIFAで忠実度が1.7ポイントおよび3.7ポイント向上しました。ビジュアルの美的感覚も3.4ポイント向上しました。DreamSyncをSD v1.4に適用すると、TIFAで忠実度が1.0ポイント向上し、絶対スコアが1.7ポイント増加し、美的感覚が0.3ポイント向上します。比較研究では、DreamSyncは整列においてSDXLを上回り、より適切なコンポーネントを持つ画像と3.4個の正しい回答を生成します。それはTIFAとDSGのベンチマークで視覚的な忠実度を妥協することなく優れたものを達成し、反復による徐々の改善を示しています。 結論として、DreamSyncは難しいT2Iベンチマークで評価された多目的なフレームワークであり、配布内および配布外の設定の両方で整列と視覚的魅力の重要な改善を示しています。このフレームワークは、ビジョン-言語モデルからの二重フィードバックを組み込んでおり、人間の評価と好み予測モデルによって検証されています。 DreamSyncの将来の改善点には、ミスアライメントの特定のための詳細なアノテーション(バウンディングボックスなど)を使用したフィードバックの作成が含まれます。各イテレーションでプロンプトを調整することにより、テキストから画像への合成において特定の改善を目指します。言語構造と注意マップの探求により、属性-オブジェクトの結びつきを向上させることを目指しています。人間のフィードバックで報酬モデルをトレーニングすることで、生成された画像をユーザーの意図に合わせることができます。DreamSyncの応用範囲を他のモデルアーキテクチャに拡大し、パフォーマンスの評価および多様な設定での追加の研究を行うことは、現在の調査の領域です。

「人間の活動認識におけるディープラーニング:このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」

ヒューマンアクティビティ認識(HAR)は、さまざまなセンサから収集したデータに基づいて、自動的に人間の活動を識別および分類する方法と技術の開発に焦点を当てた研究領域です。HARは、スマートフォン、ウェアラブルデバイス、またはスマート環境などのマシンがリアルタイムで人間の活動を理解し解釈することを目指しています。 従来は、ウェアラブルセンサに基づく方法やカメラに基づく方法が使用されていました。ウェアラブルセンサはユーザにとって不快で不便です。カメラに基づく方法は侵入的な設置が必要で、プライバシーの懸念があります。既存のHAR技術は、位置依存性、ノイズへの感度、さまざまなアプリケーション(スマートホーム、ヘルスケア、モノのインターネットなど)で多様な活動をより柔軟に認識するための必要性などの課題に直面しています。UTeMが使用する方法は、正確で適応性があり、位置に依存しない解決策を提供します。 マラッカ工科大学(UTeM)の研究者は、従来の制約に対処するためのヒューマンアクティビティ認識(HAR)の手法を作り出しました。彼らはChannel State Information(CSI)と高度な深層学習技術を活用したシステムを導入しました。 このシステムは、Channel State Information(CSI)をLong Short-Term Memory(LSTM)ネットワークと組み合わせて使用します。システムは、無線通信チャネルの状態を抽出し、リアルタイムな分類と絶対的な位置に依存しないセンシングを可能にします。LSTMネットワークは、活動の特徴の連続的な学習を実現し、異なる人と環境における人間の活動の変動に対応することで、識別プロセスを容易にします。 研究者は、まずRaspberry Pi 4と専用ファームウェアを使用して原始的なチャネル状態情報(CSI)データを収集および前処理し、MATLABを使用して品質と応用を最適化するためにデータを改善したと強調しました。 Long Short-Term Memory(LSTM)ネットワークを使用して、CSIデータから重要な特徴を抽出し、複雑な人間の活動を正確に認識できるようにしました。彼らはLSTMモデルと分類プロセスに厳密なトレーニングを行いました。オンラインフェーズではパターン認識、オフラインフェーズではパフォーマンスの向上が含まれています。 このシステムは、LSTMアルゴリズムを使用して信号のセグメンテーション方法を導入し、人間の活動の開始点と終了点を正確に決定します。 研究者は、このシステムは人間の活動の認識において驚異的な97%の正確さを達成しました。新しい環境に適応する能力を示し、HAR技術の重要な進展を示しました。 研究者は、システムの顕著な適応性を強調しました。再学習や大幅な変更を必要とせずに異なる設定に簡単に統合することができます。この柔軟性により、さまざまな分野に実用的な解決策となり、スマートホーム、ヘルスケア、モノのインターネットなどの様々な実世界の要件に効果的に対応することができます。この手法は、HAR技術の重要な進展を表し、スマートホーム、ヘルスケア、モノのインターネットなどの多くの業界に大きな影響を与える可能性があります。

パフォーマンスの向上と最適化されたリソース使用のためのダイナミックなLoRAローディング

私たちは、拡散モデルに基づくLoRAのハブ内の推論速度を大幅に高速化することができました。これにより、計算リソースを節約し、より良いユーザーエクスペリエンスを提供することができました。 モデルへの推論を行うには、2つのステップがあります: ウォームアップフェーズ – モデルのダウンロードとサービスのセットアップ(25秒)。 推論ジョブ自体(10秒)。 これらの改善により、ウォームアップ時間を25秒から3秒に短縮することができました。数百の異なるLoRAに対する推論を、たった5つのA10G GPU以下で提供することができます。さらに、ユーザーリクエストへの応答時間は35秒から13秒に短縮されました。 一つのサービスで多くの異なるLoRAを動的に提供するために、Diffusersライブラリで開発された最近の機能を活用する方法についてもっと話しましょう。 LoRA LoRAは「パラメータ効率」(PEFT)メソッドの一環である、微調整技術です。このメソッドは、微調整プロセスによって影響を受けるトレーニング可能なパラメータの数を減らすことを試みます。微調整の速度を高めながら、微調整済みチェックポイントのサイズを減らすことができます。 モデルの全ての重みに微小な変更を行うことによってモデルを微調整する代わりに、ほとんどの層を固定し、注意ブロック内の特定の一部の層のみをトレーニングします。さらに、これらの層のパラメータに触れず、二つの小さな行列の積を元の重みに加えることで、これらの層のパラメータを更新します。これらの小さな行列は微調整プロセス中に更新され、ディスクに保存されます。これにより、元のモデルのパラメータはすべて保存され、適応方法を使用してLoRAの重みを上にロードすることができます。 LoRA(Low Rank Adaptation)という名前は、先ほど言及した小さな行列から来ています。このメソッドについての詳細は、この記事または元の論文をご覧ください。 上記の図は、LoRAアダプタの一部として保存される二つの小さなオレンジ色の行列を示しています。後でこれらのLoRAアダプタをロードし、青いベースモデルと結合して黄色の微調整モデルを取得することができます。重要なことは、アダプタをアンロードすることも可能なので、いつでも元のベースモデルに戻すことができるということです。 言い換えると、LoRAアダプタは、必要に応じて追加および削除が可能なベースモデルのアドオンのようなものです。AとBの小さなランクのため、モデルサイズと比較して非常に軽量です。したがって、ロード時間は全体のベースモデルをロードするよりもはるかに高速です。 例えば、多くのLoRAアダプタのベースモデルとして広く使用されているStable Diffusion XL Base 1.0モデルリポジトリを見ると、そのサイズは約7 GBです。しかし、このモデルのような典型的なLoRAアダプタは、わずか24 MBのスペースしか使用しません!…

IBMとMETAが責任あるイノベーションのためのAI連携を結成

責任あるAIイノベーションへの重要な一歩として、IBMとMetaは共同でAIアライアンスを立ち上げました。この連携により、世界中の50以上の有名な組織が結集しています。この協力の目的は、人工知能(AI)におけるオープンで透明性のあるイノベーションを促進することです。重点は安全性、多様性、経済機会に置かれています。このアライアンスには、AMD、CERN、Dell Technologies、NASA、Oracleなどの有名な組織、さらに多くの主要な大学や研究機関が含まれています。 協力的なイノベーションの必要性 AIの進化は前例のない機会を提供し、私たちの生活、仕事、交流方法を変革しています。個別の組織がオープンな科学と技術に取り組む一方で、AIアライアンスは協力の重要性を強調しています。開発者、研究者、採用者を結集することで、アライアンスはイノベーションの加速、リスクの特定、製品が市場に出る前の責任あるAIの開発を目指しています。 目標と焦点領域 アライアンスは、その使命をガイドするための明確な目標を定めています。アライアンスは、グローバルなAIシステム開発のためのベンチマーク、標準、ツール、リソースを開発する予定です。さらに、オープンな基盤モデルを進め、活気のあるAIハードウェアアクセラレータエコシステムを育成することを目指しています。また、グローバルなAIスキルの構築を支援し、教育コンテンツを開発します。これらの取り組みは、公共の議論と政策立案に貢献することを目指しています。 AIアライアンスは、自らの使命をガイドするために明確な目標を設定しています: 1. ベンチマークと評価基準: 安全性、セキュリティ、信頼性の確保を含む、責任あるAIシステム開発を支援するために、ツールとリソースをグローバルに開発します。 2. オープンな基盤モデル: 気候、教育などの社会的課題に対処するため、多様なオープンな基盤モデルの進化を促進します。 3. AIハードウェアアクセラレータエコシステム: 必須の有用なソフトウェア技術を向上させることにより、活気のあるAIハードウェアアクセラレータエコシステムを育成します。 4. グローバルなAIスキルの構築: 基盤となるAIモデルやツールの研究プロジェクトへの貢献を行うため、探索的な研究をサポートし、学術コミュニティと連携します。 5. 教育コンテンツとリソース: AIの利点、リスク、規制について、公衆や政策立案者に情報を提供するコンテンツを開発します。 6. オープンな開発イニシアチブ:…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us