Learn more about Search Results Yi - Page 6

「エンティティ抽出、SQLクエリ、およびAmazon Bedrockを使用したRAGベースのインテリジェントドキュメントアシスタントの強化」

会話AIは、最近の生成AIの急速な発展により、特に指示微調整や人間のフィードバックからの強化学習といったトレーニング技術によって導入された大規模言語モデル(LLM)のパフォーマンス改善により、大きな進歩を遂げてきました正しくプロンプトされると、これらのモデルは特定のタスクのトレーニングデータなしで、一貫した会話を行うことができます[…]

「松ぼっくりベクトルデータベースとAmazon SageMaker JumpStartのLlama-2を使用したリトリーバル増強生成によって幻覚を軽減する」

産業全体でのLLMの採用は止まることのないように見えますが、それらは新しいAIの波を支えるより広範な技術エコシステムの一部です多くの対話AIのユースケースでは、Llama 2、Flan T5、BloomのようなLLMがユーザーのクエリに応答するために必要ですこれらのモデルは質問に答えるためにパラメトリックな知識に依存しています モデルは[…]

成功の鍵を開ける:IBM Watsonがあなたのビジネスを革命する方法

「IBM WatsonのAIが、さまざまな業界でビジネスを変革し、データに基づいた意思決定、効率化された業務、充実した顧客体験、カスタマイズされたソリューションを可能にする方法を探求してください Watsonの革新について学び、導入方法や将来の対策に必要な倫理的な考慮事項について貴重な見識を得てください」

「Googleのジェミニは私たちが期待していた生成AIモデルではありません」

DeepMindの製品VPであるEli Collins氏は、Gemini Ultraがテキスト、画像、音声、コードの「微妙な」情報を理解できると主張しています

ChatGPTの初めての記念日:AIインタラクションの未来を変える

私たちの包括的な記事で、ChatGPTの1年間の旅とオープンソースのLarge Language Models(LLMs)の進化を探求してください技術の進歩、産業への応用、医療への影響、そしてAIの未来についての洞察を深く掘り下げますまた、OpenAIの噂されるQ*モデルについても触れます

「あなたは専門家です」というAIのプロンプトはあなたが思っているほど魔法のようなものではありません

トップのChatGPTプロンプトは、あなたがエキスパートマーケターであることは含まれていませんあなたはエキスパートのCMOですトップのジェネレーティブAIプロンプトはマーケター向けです

Google AI研究のTranslatotron 3:革新的な教師なし音声対音声翻訳アーキテクチャの発表

音声から音声への翻訳(S2ST)は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。 音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。 研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。 https://blog.research.google/2023/12/unsupervised-speech-to-speech.html Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。 SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。 多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。 バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。 Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。 Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron…

テーブルの6つの高度な可視化

「Tableau(タブロー)は、データの可視化ツールであり、データの可視化、ダッシュボード、ストーリーの作成に使用されます私が最初にこのツールを使い始めた時、データの可視化を作成するために頻繁に「表示」機能を使用しました...」

「Amazon SageMakerデータパラレルライブラリを使用して、トレーニングを高速化します」

大規模言語モデル(LLM)のトレーニングは、Llama2、Falcon、StarCoderなど、公に利用可能ないくつかのモデルのリリースにより、昨年からますます人気が高まっています顧客は今や、10億から1750億以上のパラメータを持つ前例のない大きさのLLMをトレーニングしていますこれらのLLMのトレーニングには、膨大な計算リソースと時間が必要です数百台の […]

研究者たちは、アルゴリズムに「味覚」を教えることに成功しました

科学者たちは、アルゴリズムによって個々の人のワインの好みをより正確に予測する方法を教えました

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us