Learn more about Search Results ISO - Page 17

「Amazon SageMaker JumpStartで利用可能な自動音声認識のWhisperモデル」

「今日は、OpenAI Whisper ファウンデーションモデルが Amazon SageMaker JumpStart を利用するお客様に利用可能であることをお知らせいたしますWhisper は、自動音声認識 (ASR) と音声翻訳のための事前学習済みモデルですラベル付きデータ 68万時間で訓練された Whisper モデルは、多くのデータセットやドメインにおいて高い一般化能力を示し、必要な転移学習やドメイン適応を行わずに利用できます」

このAIニュースレターはあなたが必要なものです #68

今週は、マルチモーダルの能力を持つ GPT-4 に対抗する候補として、新しいオープンソースのマルチモーダルモデルである LLaVA v1.5 の登場を目撃しましたそれはシンプルな...

中途の旅行 vs 安定した拡散:AI画像生成器の戦い

「Midjourney vs Stable Diffusion、あなたにとって最適なのはどちら?両方のAI画像生成機の強みと弱みを探ってみましょう」

ソフトウェア開発のパラダイムシフト:GPTConsoleの人工知能AIエージェントが新たな地平を開く

変化が唯一の定数である業界で、GPTConsoleは革新的な能力を持つ3つのAIエージェントを導入しました。先頭に立つのはPixieで、スクラッチから完全なアプリケーションを構築することができるAIエージェントです。Pixieと並んで、2つの他のエージェントがいます。開発者がコードに関連するクエリを持つ際、まるでStack Overflowのスレッドで知識のある同僚に相談しているかのように開発者を支援するために設計されたChipと、精明なソーシャルメディアマネージャーであるBirdです。これらのエージェントは、フルスタック開発者の役割を補完するだけでなく、その機能の一部が完全に自動化される未来を予示しています。 Pixieはただのコードジェネレーターではありません。それはニーズを理解し、プロジェクトを構造化し、効率的にReactJSのコードを生成するAI駆動のフルスタック開発者です。高度なアルゴリズムと抽象構文木(AST)を活用して、新しいコードを既存のアーキテクチャにシームレスに統合します。それにより、時間とコストを大幅に削減します。これは中小企業、個人事業主、開発のオーバーヘッドに悩む人々にとって画期的な変革です。 Pixieを使用してReactJSアプリを生成またはアップデートするための5つの簡単な手順 Pixieの広範な機能についてより深く掘り下げる前に、始めるためのクイックガイドをご覧ください: ステップ1:自分のGPTConsoleアカウントを作成する   こちらのGPTConsoleのウェブサイトでアカウントを登録してください。Pixieにアクセスできるようになります。 ステップ2:GPTConsoleをインストールする  ターミナルで`yarn global add gpt-console`または`npm i gpt-console -g`を実行してください。また、nodeのバージョンが19.2.0より上であることを確認してください。 ステップ3:ログインして初期化する   ターミナルを開き、`gpt-console`を実行してログインしてください。利用可能なエージェントの中にPixieが表示されます。 ステップ4:Reactアプリを生成する   `pixie start “I need a landing…

「新しい取り組みによる輸送とエネルギーの排出削減法」

これらの新製品の特徴と展開は、人々、都市計画者、政策立案者が持続可能な未来を構築するための行動を取るのに役立ちます

マシンラーニング手法の鉄道欠陥検索への応用(パート2)

「超音波フローパターンによる鉄道レールの釘穴部の放射状クラックの検出に機械学習手法の応用を探求する」(Chōonpa furō patān ni yoru tetsudō rēru no kugiana no hōshajō kurakku no kensatsu ni kikai gakushū shuhō no ōyō o tankyū suru.)

「Googleバードを効果的に使用する5つの方法」

Google Bardで生産性を最大限に引き出すための5つの戦略をご紹介しますGoogle Bardはワークフローの再構築、意思決定の向上、そして成功を導く手段となっています

AIにおける幻覚の克服:事実に基づく強化学習ハイブリッドフレームワークが大規模な多モーダルモデルのビジョン・言語の整合性を最適化する方法

追加の事前訓練による画像とテキストのペアリング、または専門的なビジュアルインストラクションチューニングデータセットでの微調整を通じて、大規模言語モデルは多様なモーダルドメインに潜入し、パワフルな大規模マルチモーダルモデルを生み出すことができます。しかし、LMM(Large Multimodal Models)を構築する上で障害があります。特に、多様なデータとテキストのみのデータセットの質と量の間には食い違いがあります。例えば、LMMモデルLLaVAは、事前訓練されたビジュアルエンコーダとインストラクション用に調整された言語モデルを初期化したものです。このモデルは、1800のタスクに対して100M以上の例を使用するテキストのみのモデルと比較して、はるかに少ないインスタンスでトレーニングされます。具体的には、このモデルはわずか150Kの人工的な画像ベースの会話でトレーニングされます。このようなデータ制約のため、ビジュアルと言語のモダリティが正確に整列しない場合があります。 その結果、LMMは、画像が与える文脈と不正確に関連付けられた幻覚的な出力を生成する可能性があります。UC Berkeley、CMU、UIUC、UW-Madison、UMass Amherst Microsoft Research、MIT-IBM Watson AI Labの研究者たちは、LLMMトレーニングのための高品質なビジュアルインストラクションチューニングデータの不在によって引き起こされる問題に対処するために、改良されたマルチモーダル整列のために訓練されたビジョン言語モデルLLaVA-RLHFを提示しています。彼らの主な貢献の1つは、マルチモーダルの整列を強化するために、強化学習からの人間のフィードバックによって報酬信号をキャリブレーションすることです。この手法では、幻覚の認識に焦点を当てた人間の好みを収集し、それらの好みを強化学習に使用します。 この戦略により、比較的安価(例えば、10Kの人間の好みを収集するために$3000)でマルチモーダルの整列が改善される可能性があります。彼らの知識と既存の人間の好みデータに基づいて、報酬モデルが既存の言語モデルを適切に使用できるようにすることを試みる、よりデータ効率の良いオプションが提案されています。 図1:LLMMトレーニングの教示された微調整(SFT)フェーズ中の幻覚の可能性と、報酬モデルの容量が低い問題に対処するために、事実に基づくRLHFがSFTモデルから初期化される方法を示すダイアグラムです。 まず、より高解像度の優れたビジュアルエンコーダと大きな言語モデルを使用して、報酬モデルの全体的な機能を向上させます。第二に、図1に示すように、写真の説明や確定的なマルチチョイスオプションなどの追加情報で報酬信号を補完するファクチュアル・オーグメントドRLHFアルゴリズムを提案します。さらに、Supervised Fine-Tuningステージでは、既存の高品質な人間によるマルチモーダルデータを会話形式に変換して、合成ビジョンインストラクションチューニングデータを拡張することで、LMMの一般的な能力を向上させます。具体的には、Flickr30kをスポットキャプショニングの課題に変換し、VQA-v2とA-OKVQAをマルチラウンドQAタスクに変換し、新しいデータセットを使用してLLaVA-SFT+モデルをトレーニングします。 最後に、実世界の状況でのLMMのマルチモーダルの整列を評価する方法について考えます。特に、幻覚を罰することに注意を払います。彼らが開発したベンチマーク質問であるMMHAL-BENCHは、COCOの12の主要なオブジェクトカテゴリを網羅し、8つのジョブ種別から成ります。彼らの分析によると、このベンチマークデータセットは、特に反幻覚のためのスコアが考慮される場合、人間の評価に非常に近いものです。RLHFでトレーニングされた最初のLMMとして、LLaVA-RLHFは実験的評価で優れたパフォーマンスを発揮しました。LLaVA-Benchでは94%の改善、MMHAL-Benchでは60%の改善、MMBenchでは52.4%の新記録、POPEでは82.7% F1の新記録を達成しました。GitHubでは、コード、モデル、データを一般に提供しています。

ベルマン-フォードアルゴリズム:重み付きグラフのパス探索アルゴリズム

この記事では、ベルマン-フォードアルゴリズムの複雑な部分について詳しく探求し、その基本的な概念、実装の詳細、そして実際の応用について探っていきます

「マルチモーダルAIの最新の進歩:(ChatGPT + DALLE 3)+(Google BARD + 拡張)など、さまざまなものがあります….」

マルチモーダルAIは、テキスト、画像、ビデオ、オーディオなどのさまざまなデータタイプ(モーダリティ)を組み合わせて、より優れたパフォーマンスを実現する人工知能(AI)の領域です。ほとんどの伝統的なAIモデルは単一モーダルであり、1つのデータタイプのみを処理できます。それらは訓練され、そのモーダリティに特化したアルゴリズムであります。単一モーダルAIシステムの例として、ChatGPTがあります。それは自然言語処理を使用してテキストデータの理解と意味抽出を行います。さらに、テキストのみを出力することができます。 それに対して、マルチモーダルAIシステムは複数のモーダリティを同時に処理し、複数の出力タイプを生成することができます。GPT-4を使用した有料版のChatGPTは、マルチモーダルAIの例です。それはテキストだけでなく画像も処理でき、PDF、CSVなどの異なるファイルを処理することができます。 この記事では、マルチモーダルAIの最近の進歩について紹介します。 ChatGPT + DALLE 3 DALLE 3は、AIによる画像生成技術の最新の進歩を表しており、AIによって生成される芸術の大きな進歩となっています。システムはユーザープロンプトの文脈を理解する能力が向上し、ユーザーが提供した詳細をより理解することができます。 出典: https://openai.com/dall-e-3 上の画像からは、モデルがプロンプトの詳細を捉えて、入力されたテキストに厳密に従った包括的な画像を作成する能力があることがはっきりとわかります。 DALL·E 3はChatGPTに直接統合されており、シームレスに連携することができます。アイデアが与えられると、ChatGPTはDALL·E 3のために特定のプロンプトを簡単に生成し、ユーザーのコンセプトに命を吹き込むことができます。イメージの調整が必要な場合、ユーザーは簡単な言葉でChatGPTに尋ねることができます。 ユーザーはChatGPTの助けを借りて、DALL·E 3がアートワークを生成するために使用できるプロンプトを作成するには、ChatGPTの支援を求めることができます。DALL·E 3はまだユーザーの特定のリクエストを処理することができますが、ChatGPTの助けを借りることで、AIによるアートの創造がよりアクセスしやすくなります。 Google BARD + 拡張機能 Googleが開発した対話型AIツールであるBARDは、拡張機能を通じて重要な向上を遂げました。これらの改善により、BARDはさまざまなGoogleアプリやサービスと連携できるようになりました。拡張機能により、BARDはGmail、Docs、Drive、Google Maps、YouTube、Google…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us