Learn more about Search Results プロトタイプ - Page 7

「不可能」なミリ波センサーには広範な可能性があります

「ミリ波レーダーの概念実証センサーは、人間の髪の毛の1,000倍小さい振動や、位置の変化を人間の髪の毛の100倍小さい範囲で検知することができます」

「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介する包括的なフレームワークを確立するために、数多くの講演論文が議論されました。この時期には、問題に関連する大量のデータでモデルを事前トレーニングし、その後、同じ問題タイプに関連するさまざまな実世界のシナリオにそれらを転送するアプローチが一般的でした。これには、しばしばゼロショットまたはフューショットテクニックが使用されます。 最近のマイクロソフトの研究では、ビジョンとビジョン言語の能力を持つ多モーダルな基礎モデルの歴史と開発について、詳細な調査結果を提供しています。特に、専門的なヘルパーから汎用的なヘルパーへの移行を重点的に取り上げています。 彼らの論文によると、主に以下の3つの主要な教育戦略のカテゴリが議論されています。 ラベル付き教育: ラベル付き教育は、モデルをトレーニングするために以前にラベル付けされた例を使用します。ImageNetなどのデータセットを使用することで、この方法の効果を証明しています。インターネット、画像、人間が作成したラベルから大量のノイズのあるデータセットにアクセスできます。 「言語監督」とも呼ばれるこの戦略は、最も頻繁に画像 – テキストのペアで無監督のテキスト信号を使用します。CLIPとALIGNは、コントラスティブロスを使用して画像 – テキストのペアを比較するための事前トレーニングモデルの例です。 画像のみの自己教育学習: この技術は、視覚情報のみを監督信号のソースとしています。マスク画像モデリング、非コントラスティブ、およびコントラストベースの学習は、いずれも有効なオプションです。 研究者は、画像キャプショニング、ビジュアル質問応答、領域レベルの基礎トレーニング、セグメンテーションのためのピクセルレベルの基礎トレーニングなど、視覚理解に対するいくつかのアプローチがどのように統合されて最良の結果を得ることができるかを調査しました。 マルチモーダル基礎モデル テキストと画像などの複数のモダリティで提示されるデータを理解し解釈する能力が、マルチモーダルの基礎モデルの特徴です。これによって、大量のデータ収集と合成が必要なさまざまなタスクが可能になります。重要な多モーダルの概念的フレームワークには、以下が含まれます。 CLIP(コントラスティブ言語画像事前トレーニング)は、共通の画像とテキストの埋め込み空間を発見する革新的な技術です。画像テキストの検索やゼロショットの分類などが可能です。 BEiT(ビジョンのBERT)は、視覚ドメインでのBERTのマスク画像モデリング技術を適応させています。マスク画像のトークンを予測することで、画像変換モデルは他のタスクに進むことができます。 CoCa(コントラスティブおよびキャプショニング事前トレーニング)は、対照的な学習とキャプション損失を組み合わせて画像エンコーダを事前トレーニングするための手法です。パラフレーズ画像キャプショニングシステムのおかげで、多モーダルタスクの完了を観察することが現実的になりました。 UniCL(統一コントラスティブ学習)は、CLIPのコントラスティブ学習を画像ラベルデータに拡張することで、画像テキストと画像ラベルのペアに対する統一コントラスティブ事前トレーニングを可能にします。 MVP(マスク画像モデリングビジョン事前トレーニング)は、マスク画像と高レベルの特徴目標を使用してビジョントランスフォーマーを事前トレーニングする方法です。 MIMの精度を向上させるため、EVA(Vision-Text Alignmentの活用)は、CLIPなどのモデルからの画像特徴をターゲット特徴として使用します。 BEiTv2は、DINOのような自己蒸留損失を取り入れることで、学習中にグローバルな視覚表現の獲得を促進するようにBEiTを改良します。 これらのマルチモーダルの基礎モデルにより、コンピュータビジョンと自然言語処理のアプリケーションは、洞察力と処理の向上に大いに恩恵を受けています。…

「リトリーバル付き生成(RAG)の詳細」

アクセス可能な大規模な言語モデルが初めて登場したとき、興奮は見逃すことができなかった単なる目新しさ以上に、それらは多くの分野を完全に変えるという約束と共にやってきました...

取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします

開発者は、強力な大規模な言語モデル(LLMs)を自分たちの目的地に到達する際に、AIパワードステアリングホイールを利用して道路にしっかりと踏み入れることができます。 NVIDIA NeMo SteerLMは、会社がモデルの応答をプロダクション中にダイアルインするためにノブを定義することができるようにし、それを推論と呼ばれるプロセスとして実行できるようにします。LLMをカスタマイズするための現在の手法とは異なり、単一のトレーニングランは、何十も、または何百ものユースケースに対応できるモデルを作成し、時間とお金を節約することができます。 NVIDIAの研究者は、SteerLMを作成し、AIモデルにユーザーが関心を持つ内容、たとえば特定のユースケースや市場での従うべき道路標識やユーザー定義の属性を教えるために使用しました。これらの属性はほぼ何でも評価できます-例えば、モデルの応答の有用さやユーモアの程度などです。 1つのモデル、多岐にわたる用途 その結果、新たな柔軟性が生まれました。 SteerLMを使用すると、ユーザーは望む属性をすべて定義し、それらを1つのモデルに組み込むことができます。そして、モデルが実行されている間に、特定のユースケースに必要な組み合わせを選択することができます。 例えば、特定の会計、販売、またはエンジニアリング部門、または特定の市場の固有のニーズに合わせてカスタムモデルを調整することができます。 この方法は、継続的な改善サイクルも可能にします。カスタムモデルの応答は、将来のトレーニングランのデータとして使用でき、モデルをより有用なレベルに調整する際に役立ちます。 時間とお金の節約 これまで、特定のアプリケーションのニーズに合わせた生成型AIモデルの適合は、エンジンのトランスミッションを再構築するのと同等でした。開発者は、データセットに労力をかけてラベルを付け、たくさんの新しいコードを書き、ニューラルネットワークのパラメータを調整し、モデルを何度も再トレーニングする必要がありました。 SteerLMは、このような複雑で時間のかかるプロセスを次の3つの簡単なステップに置き換えます: 基本的なプロンプト、応答、および目的の属性を使用して、これらの属性のパフォーマンスを予測するAIモデルをカスタマイズする。 このモデルを使用してデータセットを自動生成する。 標準の監督付き微調整技術を使用してデータセットでモデルをトレーニングする。 多岐にわたる企業のユースケース 開発者は、SteerLMをテキスト生成を必要とするほとんどの企業のユースケースに適応させることができます。 SteerLMを使用することで、会社はリアルタイムに顧客の態度、人口統計情報、または状況に合わせて調整できる単一のチャットボットを作成することができます。さまざまな市場や地域で提供される顧客に合わせた独自の新しい体験を提供するためのツールとして、SteerLMはすぐれています。 SteerLMはまた、1つのLLMが企業全体の柔軟な執筆補助として機能することも可能にします。 例えば、法律関係者は、法的なコミュニケーションに対して公式なスタイルを採用するために、推論の間にモデルを変更することができます。また、マーケティングスタッフは、対象とする観客に対してより会話的なスタイルを選択することができます。 SteerLMでゲームをエンジョイ SteerLMの潜在能力を示すために、NVIDIAはそのクラシックアプリケーションの1つ、ゲームにおいてデモンストレーションを行いました(下記の映像をご覧ください)。 現在、いくつかのゲームには、プレーヤーが制御できないキャラクター、つまりユーザーや状況に関係なく機械的に事前録音されたテキストを繰り返す非プレイアブルキャラクターが数多く存在します。…

「中国の科学者が驚異的な新記録を樹立した量子コンピューティングの突破を主張」

新聞によると、JiuZhang 3は前作の100万倍速く、世界最速のスーパーコンピューターよりもはるかに進んでいると言われています

僧侶の病気探偵:AI技術を活用した植物健康ガイド

イントロダクション 農業は私たちの文明の生命線であり、地球上の数十億人に栄養と食物を提供しています。しかし、この重要な産業は絶え間ない敵、つまり植物の病気に直面しています。これらの微小な脅威は作物に甚大な被害をもたらし、経済損失や食料不足を引き起こします。私たちの農業の遺産を守るカギは、最新の技術が介入する早期の検出と適時の対応にあります。この包括的なガイドでは、強力な機械学習ライブラリであるMonkを使用した植物の病気分類の旅に出ます。この記事の最後までに、人工知能を活用して植物の病気を効果的に特定し、対処するための知識を身につけることができます。 では、Monkがどのように私たちに力を与え、植物の病気分類のためのディープラーニングモデルを作成、訓練、最適化するかを探求していきましょう。しかし、技術的な側面に入る前に、この取り組みの重要性とMonkが重要な役割を果たす理由を理解するために舞台を設定しましょう。 学習目標 Monkソフトウェア/ライブラリの基本を理解する。 ローカルマシンまたは好きな開発環境にMonkをインストールして設定する方法を学ぶ。 機械学習における高品質なデータの重要性を探求する。 Monkを使用して、植物の病気の画像データセットを取得、前処理、整理して分類タスクに使用する方法を学ぶ。 植物の病気分類に適したディープラーニングモデルアーキテクチャの選択に対する洞察を得る。 Monk内でモデルを設定し微調整する方法を理解する。転移学習における事前学習済みモデルも含む。 この記事はData Science Blogathonの一部として公開されました。 実践ガイド:Monkによる最初の病気分類モデルの作成 このセクションでは、植物の病気分類のためのMonkモデルのステップバイステップのプロセスをご紹介します。機械学習に初めて取り組む方から経験豊富なデータサイエンティストまで、以下の手順に従って植物の病気分類の旅を始めましょう。 ステップ1:データ収集 この最初のステップでは、植物の病気分類プロジェクトに必要なデータセットを収集します。以下の手順に従ってデータを収集してください: すばらしいPlant Villageのチームがデータセットを収集しました 1. Kaggle APIトークンのアップロード: 以下のコードを使用してKaggle APIトークンをアップロードしてください。このトークンは、Kaggleからデータセットをダウンロードするために必要です。…

「LLMOps対MLOps 違いを理解する」

大規模言語モデルは現在非常に人気があり、それに伴ってより良い管理、組織、計画が必要とされています機械学習がMLOpsにつながるように、LLM(大規模言語モデル)もLLMOps(大規模言語モデルオペレーションズ)につながっていますLLMOpsとMLOpsはデータのクリーンさを確保するという点など多くの類似点がありますが、...

『RAG パイプラインの落とし穴: 「テーブルの埋め込み」の語られざる挑戦』

「ゼロから何かになるRAGパイプラインの典型的な構築の旅と、改善したワークフローのためのLlamaIndexを使用したRAGテーブルの取り扱いガイド」

「大きな言語モデルの操作(LLMOps)とは具体的に何ですか?」

大型の言語モデル(LLM)は、多くの産業を革新する可能性を持つ強力な新技術ですしかし、LLMは複雑で管理が難しいという側面もありますLLMOps(大型言語モデルオペレーション)は、LLMの運用管理に焦点を当てた新興分野ですこの新しい分野では、どのような要素が関与しているのでしょうか...

「すべてのビジネスが生成的AIを受け入れるのを支援するための新しいツールを発表します」と発表します

スタートアップから大企業まで、あらゆる規模の組織がジェネレーティブAIに取り組み始めています彼らはジェネレーティブAIを活用し、ベータ版、プロトタイプ、デモから実際の生産性向上と革新に繋げたいと考えていますしかし、組織がジェネレーティブAIをエンタープライズに導入し、実践するためには何が必要なのでしょうか?話題になるのは[…]

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us