Search Results ML

『SDXL 1.0の内部：Stability AI 新しいテキストから画像へのスーパーモデル』

「Stability AIは、安定したDiffusionモデルのリリースにより、テキストから画像への革新の中心にありました最近の数ヶ月間、研究における大きな進展が見られました...」

「2023年の最高の人工知能AIベースのアート生成器」

Dream by Wombo 夢Womboによると、他のAI画像生成器とは異なり、追加費用なしで連続的な画像合成が可能です。予算が限られているか、初めて始める場合には、このAI生成器が素晴らしい選択肢です。夢Womboは非常に使いやすいです。始める前にサインアップし、いくつかのコンテンツを作成し、画像スタイルを選択する必要があります。生成されたビジョンのタイプが気に入らない場合は、常に新たに始めることができます。 DALL-E 2 OpenAIは2021年にDALL-Eという名前の新しいバージョンの画像生成AIモデルDALL-E 2をリリースしました。DALL-E 2は、前作と同様に、テキスト入力に応じてプロの水準の画像を生成するように設計されています。DALL-E 2は、より高品質でより洗練された画像を生成する能力を含む、いくつかの点で前作を改善しています。DALL-E 2は、より洗練されたテキスト信号を処理し、さまざまな視覚的表現に応答することができます。また、特定の主題や場所の画像を撮る場合など、特定の用途や分野に適応することもできます。 Midjourney Midjourneyは、その広範な能力と非常に高速な合成速度のため、おそらく最高の人工知能（AI）画像生成器です。MidjourneyにSMSコマンドを送信すると、残りの作業を引き受けてくれます。多くのクリエイティブプロフェッショナルは、自分の作品のインスピレーションとなる画像を生成するためにMidjourneyを使用しています。Midjourneyで作られた人工知能の作品「Théâtre d’Opéra Spatial」は、コロラド州の州博覧会の美術部門で20人の他の画家を抑えて1位を獲得しました。ただし、現時点では、MidjourneyはDiscordサーバー上で見つけることができます。MidJourney Discordサーバーに参加し、ボットのコマンドを使用して画像を作成する必要があります。ただし、それは簡単で、すぐに作業を開始できます。 Dream Studio（Stable Diffusion） Dream Studio、またはStable Diffusionとしても知られる、人気のあるテキストから画像へのAI生成器です。無料で利用できるパブリックモデルであり、テキストの提案を即座に視覚化することができます。写真、イラスト、3Dモデル、さらにはロゴまで、Dream Studioは可能な創造物の範囲内で作成することができます。ユーザーがアップロードした画像と書かれた説明を組み合わせることで、写真のような写実的な作品が作成されます。 Craiyon…

GOAT-7B-Communityモデルをご紹介します：GoatChatアプリから収集されたデータセットでLLaMA-2 7Bモデルを微調整したAIモデルです

最近、AI研究所の科学者たちは、GoatChatアプリのデータを使用して、LLaMA-2 7Bモデルを洗練させたGOAT-7B-Communityモデルを発表しました。メタのLLaMA v2 7Bは、GoatChatアプリから得られた新しい詳細なデータセットを利用して、最先端のGOAT-7B-Communityモデルに細かく調整されました。「アライメント」は、大規模言語モデル（LLM）を作成する上で重要です。教育と経験に基づいて倫理的または違法と考える質問に対して、モデルが回答を拒否することができるという考え方です。アライメントは倫理的なAIの実装において不可欠ですが、モデルの最適化に新たな障害をもたらします。研究者たちは、アライメントによって生成される応答が顧客が必要とする正確な詳細を提供していないことに気付きました。これらの反応は通常、控えめで詳細を説明することに消極的な傾向があります。質問に対して洞察力のある完全な回答を提供する信頼性のあるモデルを構築するためには、これに注意を払うことが重要です。彼らは、アライメントフィルタが不適切な提案をすべて排除していないことを発見しました。そのため、アライメントは多くのデータセットを廃棄する結果となることがしばしばあります。これは、ケース全体の情報の約3分の1に相当します。この問題を踏まえ、研究者たちはデータセットのクリーニングのための新しい技術を開発しました。さらに、アライメントされた応答がモデルのパフォーマンスに与える影響を徹底的に理解するために規制された実験を実施しました。科学者の教育方法ディープラーニングの計算のバックボーンとして、8つのA100 NVIDIA GPUを装備した高性能ノードが使用されました。研究者たちは、トレーニング手順の基盤としてbfloat16浮動小数点形式とDeepSpeed ZeRO-3最適化を選びました。彼らは3つの反復を行い、進捗状況を2エポックごとに保存しました。しかし、経験的な証拠は、実行の1エポック後に品質が低下し始めたことを示しました。これにより、彼らは戦略を再考し、半ば点検のある1つのトレーニングエポックに落ち着くことにしました。MMLUやBigBench Hardなどの言語モデルを評価するための一般的な基準を使用して、GOAT-7B-Communityモデルを評価しています。チームは現在、すべてのモデルを分析して、まもなくその結果を公開する予定です。用途大規模言語モデルやチャットボットの研究は、GOAT-7B-Communityの主な焦点です。自然言語処理、機械学習、人工知能の研究者や愛好家にとって特に役立つでしょう。制約事項印象的な推論能力を持つモデルですが、その比較的小さいサイズ（7Bモデルは「小さい」LLMと見なされます）に関連する問題があります。特に顕著なのは「幻覚」です。これらの「幻覚」は、LLMが改善され、拡張されるにつれて解決が進むべき障害です。「幻覚」は、人工知能の研究で非常に強調される持続的な問題です。究極の目標は、論理的で文法的に正しい回答と事実に忠実な回答を生成できるモデルを開発することです。リスクと偏見 GOAT-7B-Communityモデルは信頼性が低いため、現実とは異なる結果を返す可能性があります。このモデルは公開データとプロプライエタリデータの両方を使用して教育されたため、GOAT-7B-Communityモデルは不正確で偏った、または非常に問題のある結果を生成することがあります。主な観察結果このモデルよりも優れた無料の7Bモデルはほとんどありません。良いMMLUの結果を得るための鍵は、多様で高品質なデータセットです。現在の13Bモデルと比較して、7Bモデルのパフォーマンスは素晴らしいです。…

「LLMsとHugging Faceを使用して独自の翻訳ツールを作成しましょう」

イントロダクション言語の壁はグローバルなコミュニケーションを妨げることがありますが、AIと自然言語処理は解決策を提供します。広範なテキストデータでトレーニングされた言語モデル（LLM）は、深い言語理解を持ち、異なる言語を話す人々の間でシームレスな翻訳を可能にします。LLMは従来のルールベースの方法を超え、精度と品質を向上させます。この記事では、LLMと著名な自然言語処理プラットフォームであるHugging Faceを使用して翻訳システムを構築する方法を説明します。ライブラリのインストールから使いやすいウェブアプリまで、翻訳システムの作成方法を学びます。LLMを取り入れることで、相互につながった世界で効果的なクロスリンガルコミュニケーションの無限の可能性が開かれます。学習目標この記事の終わりまでに、以下のことができるようになります： Hugging Face transformersとOpenAI Modelsをインポートしてタスクを実行する方法を理解する。ユーザーのニーズに合わせて、任意の言語で翻訳システムを構築し、調整することができる。この記事は、データサイエンスブロガソンの一環として公開されました。翻訳ツールとその重要性の理解翻訳ツールは、意味と文脈を保持しながら、テキストを一つの言語から別の言語に変換するツールやシステムです。これらは、異なる言語を話す人々の間のギャップを埋め、グローバルなスケールで効果的なコミュニケーションを可能にします。翻訳ツールの重要性は、ビジネス、旅行、教育、外交などの様々な領域で明らかです。文書、ウェブサイト、会話の翻訳など、翻訳ツールは文化的な交流を促進し、相互理解を育んでいます。私は最近、自分の言語が理解できず、相手の言語も理解されないツアーに参加した際に同じ問題に直面しましたが、最終的にはGoogle翻訳でなんとかなりました（笑） OpenAIとHugging Faceの概要 OpenAIについては説明は不要ですが、人工知能に焦点を当てた研究グループとしてよく知られています。彼らはGPTシリーズや言語モデルAPIなどの言語モデルを作成しました。これらのモデルは、翻訳やその他のNLPの仕事のやり方を変えました。 Hugging Faceという別のプラットフォームもあり、さまざまなNLPモデルやツールを提供しています。翻訳などの作業には、事前学習済みモデル、ファインチューニングオプション、シンプルなパイプラインなどを提供しています。Hugging Faceは、NLPの開発者や研究者にとって頼りになる情報源として台頭しています。翻訳にLLMを使用する利点 OpenAIのGPTやHugging…

「責任ある生成AIのための3つの新興プラクティス」

「中間報告として、私たちはこの指針に基づいて行った事前の設計、レビュー、および生成型AIの開発に基づいて、私たちのベストプラクティスの3つを共有したいと思います」

AI

「4つの方法で、生成AIがフィールドサービスオペレーションを革新する：潜在的な利用方法の探索」

「生成AI（GAI）は、今年の大半にわたり、テックおよびビジネスメディアの着目の的となってきましたこれは、Open AIがChatGPTとGPT-4をリリースしたことによって大いに促進されたものですどちらも、深層学習が可能な強力な多モーダル言語モデルですこの新しい技術の人気とそれに続く採用は、予想通りのものです他のウイルス性の技術とは異なり、...」

「REPLUG」をご紹介しますこれは、凍結された言語モデルと凍結/調整可能なリトリーバを組み合わせた、検索増強型言語モデリング（LM）フレームワークですこれにより、GPT-3（175B）の言語モデリングの性能が6.3%向上します

近年、言語モデルは人工知能の中でも最も急速に成長している分野の一つとなっています。これらのモデルは、自然言語テキストの処理や生成を行うために開発され、最も革新的で画期的なAIアプリケーションの一部を駆動しており、AIの拡大における新たな時代の最先端に位置しています。特にGPT-3という言語モデルは、その非凡な能力とパフォーマンスにより、世界中で話題を集めています。GPT-3はトランスフォーマーアーキテクチャを使用してテキストを処理し、人間のように質問に答えることができるモデルを生み出します。さらに、このモデルは長いパラグラフを要約したり、コードを完成させたり、非常に高速かつ正確にタスクを完了させることさえ可能です。 GPT-3のような言語モデルはまだ完璧とは言えず、新しいプロンプトに対して正確かつ適切な応答を生成する際に制約があります。そこで、REPLUGという新しい手法が登場します。REPLUGは、検索補完型言語モデルフレームワークであり、ブラックボックス言語モデルのパフォーマンスを向上させる手法です。検索システムは、与えられたプロンプトに一致する大規模なテキストコーパス内の最適なパッセージを見つけ、その後、言語モデルを取得したパッセージに合わせて調整します。これにより、言語モデルは特にトレーニングデータに存在しないプロンプトの場合でも、より正確な回答を生成することができます。 REPLUG手法は、2つの主要なステップで構成されています- 文書の検索と入力の再構築です。まず、リトリーバーを使用して外部コーパスから関連文書を特定します。次に、各取得された文書は元の入力コンテキストに別々に追加され、複数のパスからの出力確率が結合されます。この手法では、異なるモダリティ間のネットワークを学習するために、アテンションメカニズムを強化するディープニューラルネットワークが使用されます。 REPLUGは、大規模な画像キャプションデータセットを含むさまざまなベンチマークデータセットでテストされ、精度とスケーラビリティの面で既存のシステムに比べてより良い結果を示しました。REPLUGの最大の利点の一つは、基礎となる言語モデルのアーキテクチャを変更する必要がないということです。GPT-3などの現行モデルは、検索システムを追加することで強化することができます。これにより、REPLUGは簡単にアクセスでき、実装することができます。チューニングされたリトリーバーを使用したREPLUGは、言語モデリングにおけるGPT-3（175B）のパフォーマンスを6.3％向上させるだけでなく、Codexの5ショットMMLUにおけるパフォーマンスを5.1％向上させます。結果として、REPLUGの導入はNLPの分野においてゲームチェンジャーとなるようです。REPLUGは、ブラックボックス言語モデルと検索システムの両方の利点を組み合わせて、従来の言語モデルを凌駕するハイブリッドモデルを生成します。REPLUGによって使用されるディープニューラルネットワークアーキテクチャはスケーラブルであり、大量のマルチモーダルデータを処理する必要がある実世界のアプリケーションに適しています。REPLUGの潜在的な応用範囲は非常に広大であり、将来の展望も非常に有望です。

「洪水耐性のための地理空間分析」

はじめに洪水に対する地理空間分析は、都市計画、環境管理、公衆衛生の複雑な問題を解決するために位置情報ベースのデータを使用します。これにより、隠れたつながりやトレンドが明らかになり、リソースの割り当てに関するより良い意思決定や生活の向上が可能になります。このガイドでは、ArcGISを使用して洪水を分析する魅力的なプロジェクトを探求し、地理空間分析が現実の状況にどのように影響を与えるかを学びます。まるで新しい世界を見るための超能力のようです！学習目標位置情報ベースのデータを活用して貴重な洞察を得るための地理空間分析の概念と重要性を理解していただきたい。都市計画、環境管理、物流、農業、公衆衛生などの分野での地理空間分析の多様な応用について理解していただきたい。 ArcGISソフトウェアを利用して、インドのウッタラーカンド州で洪水管理のための地理空間分析をどのように適用するかを学んでいただきたい。洪水管理に関連する課題を特定し、地理空間分析がこれらの課題に効果的に対処する方法を理解していただきたい。地域の地形、水文、人口密度に関連する地理空間データのインポート、操作、分析の実践的なスキルを身につけていただきたい。 ArcGISの地理空間ツールを使用して、洪水の発生しやすい地域の特定、脆弱性評価、リスク分析の技術を探求していただきたい。この記事はデータサイエンスブログマラソンの一部として公開されました。洪水の地理空間分析の理解地理空間分析とは何ですか？洪水の地理空間分析は、先端技術を使用して洪水をより良く理解し管理するための魅力的な分野です。このトピックが初めての方のために、地理空間分析、洪水の地理空間分析の重要性、ArcGISの紹介の3つの主要な領域に分けて説明します。地理空間分析は、地理データを研究し解釈することで洞察を得ることを目的としています。場所、特徴、属性などの要素間の関係を理解することに関連しています。洪水分析では、地理空間分析は降雨、地形、土地被覆、インフラに関連するデータを分析し可視化することで、洪水リスクを評価し、脆弱な地域を特定し、効果的な洪水管理戦略を開発するのに役立ちます。地理空間分析の重要性では、なぜ洪水の地理空間分析が重要なのでしょうか？洪水の影響を軽減するために、洪水の地理空間分析は重要な役割を果たしています。高度モデルや河川ネットワークなどの空間データを調査することで、洪水の発生しやすい地域を特定し、洪水イベントの深刻さを評価することができます。この知識は、洪水制御構造物の建設、排水システムの改善、早期警戒システムの導入など、行動とリソースの優先順位付けに役立ちます。結果として、洪水イベント中に人命を救い、財産を保護することができます。 ArcGISの紹介洪水の地理空間分析に関して、利用可能な強力なツールの1つはArcGISです。ArcGISは、Esriによって開発された包括的なマッピング、空間データ管理、分析ソフトウェアです。洪水分析を含む高度な地理空間分析タスクを実行するためのさまざまなツールと機能を提供しています。 ArcGISを使用すると、衛星画像やデジタル標高モデルなどのさまざまな空間データタイプを統合して、詳細な地図を作成し、空間的な関係を理解することができます。洪水分析では、ArcGISを使用して降雨強度、標高、土地被覆などのデータを分析し、洪水のパターンと潜在的な影響についての洞察を得ることができます。使いやすいインターフェースにより、洪水モデリング、水文分析、洪水リスク評価のタスクを実行することができます。ArcGISは、対話的な地図、グラフ、レポートを作成することもでき、関係者や意思決定者に対して洪水関連情報を理解し伝えるのが容易になります。要するに、ArcGISなどのツールを使った洪水の地理空間分析は、洪水のパターン、脆弱性、潜在的な影響に関する貴重な洞察を得ることを可能にします。地理空間データと分析を活用して洪水管理戦略を強化し、復興力を高め、洪水リスクを軽減することが目的です。現代生活における地理空間分析の重要性地理空間分析は、現代のさまざまな分野で重要です。貴重な洞察を提供し、意思決定を支援します。以下は、その重要性を強調するいくつかの要点です：都市計画と開発地理空間分析は、効率的な都市計画、インフラストラクチャの最適な配置、住宅、商業、レクリエーションエリアの適切な場所の特定に役立ちます。…

メタAIとケンブリッジ大学の研究者は、大規模言語モデル（LLM）が音声認識能力でプロンプトされる方法を調査しました

大規模言語モデル（Large Language Models）は、有名なChatGPTの導入により新しいトレンドとなっています。OpenAIによって開発されたこのチャットボットは、質問に正確に答えたり、長いテキストデータの要約をしたり、コードの断片を補完したり、テキストを異なる言語に翻訳したりするなど、あらゆることができます。LLMsは人間の模倣能力を持ち、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどの人工知能のサブフィールドに基づいています。明示的な監督なしで、LLMsは膨大な量のテキストデータで次の単語を予測することによって訓練されます。その結果、彼らは自分たちのニューラルネットワークの制約の中で外界に関する大量の知識をエンコードする能力を発展させ、さまざまな下流のタスクに役立つようになります。LLMsはさまざまな分野で優れたパフォーマンスを示していますが、最近の研究ではモデルに小さな音声エンコーダを組み込むことで、音声認識を可能にするというLLMsの能力を一段と拡張しています。この手順では、既存のテキストトークンエンベッディングに音声データの表現などの一連の音声エンベッディングを直接組み込むことが含まれます。これにより、LLMは統合された表現のおかげで、テキストベースの相当するものと同様に自動音声認識（ASR）タスクを行うことができます。また、口頭でのコミュニケーションを印刷されたテキストに翻訳することもできます。研究チームは、デコーダのみの大規模言語モデルが多言語音声認識を行い、オーディオシーケンスで訓練された場合、教師ありの単一言語トレーニングのベースラインを上回ることを共有しています。オーディオエンコーダモデルのサイズやフレームレート、LLMパラメータの低ランク適応、テキストトークンのマスキング、使用される大規模言語モデルのタイプなど、研究は認識精度を向上させるために検討するいくつかの変数を検討しています。オーディオエンコーダの出力を分析することにより、音声エンベッディングが対応するテキストトークンと正確に一致することを示し、音声情報とテキスト情報の効果的な融合を実証しています。評価には、Multilingual LibriSpeech（MLS）データセットを使用して、この戦略の効果を評価しています。オープンソースのLLaMA-7Bは、コンフォーマーエンコーダ（音声処理に特化した一種のニューラルネットワーク）を組み込んだ大規模言語モデルです。結果は、この調整により、LLMが単一言語のベースラインよりも音声認識タスクで18％優れたパフォーマンスを発揮することが可能になりました。主に英語テキストで訓練されたLLaMA-7Bは、多言語音声認識に優れています。主な実験に加えて、研究では拡張されたLLMのパフォーマンスの他の側面も調査されています。LLMのパラメータを変更せずにトレーニング中にLLMを凍結できるかどうかを調べるために、抜粋試験が行われました。これにより、LLMが凍結されている間でも依然として優れた多言語ASRを実行できることが示されています。研究チームはまた、オーディオエンコーダのスケーリングアップ、オーディオエンコーダストライド（オーディオが分割されるパラメータ）、およびより少ない音声エンベッディングの生成の影響についても調査しています。これらのテストを通じて、ASRシステムの効果と効率を向上させることを目指しています。結論として、結果は、LLMsが大きな音声エンコーダや長いストライドでも多言語ASRの実行が可能であることを示しており、LLMsが長い形式の音声入力を処理する能力を持っていることを示唆しています。

「ウェブ開発の未来：予測と可能性」

「ウェブ開発の未来を発見しましょう！AI、PWA、VRなどを探求しましょう可能性やウェブ開発者の役割についての洞察を得ましょう」

Learn more about Search Results ML - Page 319