Learn more about Search Results スペイン語 - Page 2

Google Translateが同音異義語を認識する方法を教えた方法

Google Translateのニューラルモデルがベースとベースの違いを理解する方法

検索における生成AIが120以上の新しい国と地域に拡大します

「Generative AI in Search」または「Search Generative Experience(SGE)」は、世界中で拡大し、4つの新しい言語が追加されています

サムスンは、「Gauss」という新しいAI言語モデルを発表し、ChatGPTの支配に挑む

サムスンは、Gaussという新しい人工知能(AI)言語モデルを発表しました。これはOpenAIのChatGPTと競合するものとして注目されています。Gaussは、自然言語処理(NLP)、機械翻訳、テキスト生成などさまざまなタスクに使用できる生成型事前学習トランスフォーマーモデルです。 Gaussの主な特徴 Gaussは、サムスンが開発した新しいAIアーキテクチャに基づいています。このアーキテクチャは、以前のアーキテクチャよりも効率的でスケーラブルに設計されており、Gaussが情報をより迅速かつ正確に処理できるようにしています。 Gaussは、他のモデルが見つけることができないデータのパターンを認識し、利用することができるため、新しいデータからより迅速に学習することも可能です。 Gaussは何ができるのか? Gaussは、次のようなさまざまなタスクに使用できます: 自然言語処理(NLP):Gaussは、人間の言語を理解し生成するために使用できます。これには、機械翻訳、テキスト要約、質問応答などのタスクが含まれます。 機械翻訳:Gaussは、テキストを別の言語に翻訳するために使用できます。英語、フランス語、スペイン語、中国語、日本語などの言語が含まれます。 テキスト生成:Gaussは、新しいテキストを生成するために使用できます。クリエイティブなコンテンツの作成、コードの生成、音楽の作曲などのタスクが含まれます。 サムスンのGaussへの目標 サムスンは、Gaussが新しい革新的なAIパワード製品やサービスの開発に活用されることを期待しています。同社は、Gaussがコンピュータとのインタラクションの方法を革新する可能性を信じています。 主なポイント サムスンは、OpenAIのChatGPTと競合する新しいAI言語モデル「Gauss」を発表しました。 Gaussは、NLP、機械翻訳、テキスト生成などさまざまなタスクに使用できる生成型事前学習トランスフォーマーモデルです。 Gaussは、サムスンが開発した新しいAIアーキテクチャに基づいています。 Gaussは、以前のAIモデルよりも新しいデータからより迅速に学習することができます。 Gaussは、NLP、機械翻訳、テキスト生成などさまざまなタスクに使用できます。 サムスンは、Gaussを活用して新しい革新的なAIパワード製品やサービスの開発を目指しています。 参考文献: https://me.mashable.com/tech/34602/samsung-unveils-chatgpt-alternative-gauss-heres-what-all-it-can-do#google_vignette https://www.ithome.com/0/730/847.htm https://www.hayo.com/article/654aee5ccf78634039cd63d3 この記事の投稿元:Samsung Introduces…

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb(Falcon)、Dolma(AI2)、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。 チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ(84個の処理済みダンプ)が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ(プレーンテキスト)、40以上の高品質な注釈、および重複削除クラスタが含まれています。 このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。 研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。 ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60%減少しますが、ドキュメント数は71%減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40%削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ(パーティション)が示されます。 チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

「GPTからMistral-7Bへ:AI会話のエキサイティングな進化」

紹介 人工知能の分野では、特に大規模な言語モデルの領域で驚くべき進展が見られています。大規模言語モデルは、人間のようなテキストを生成したり、文書を要約したり、ソフトウェアコードを書いたりすることができます。Mistral-7Bは、英語のテキストとコード生成の能力をサポートする最近の大規模な言語モデルの一つであり、テキスト要約、分類、テキストの補完、コードの補完など、さまざまなタスクに使用することができます。 Mistral-7B-Instructの特徴は、パラメータが少ないにもかかわらず、優れたパフォーマンスを発揮する能力です。ベンチマークの結果によると、このモデルはすべての7Bモデルを凌駕し、さらに13Bチャットモデルとも競争力を持っています。本ブログでは、Mistral 7Bの機能や能力、使用事例、パフォーマンス、モデルの微調整に関する実践的なガイドなどについて探っていきます。 学習目標 大規模言語モデルとMistral 7Bの動作を理解する Mistral 7Bのアーキテクチャとベンチマーク Mistral 7Bの使用事例とパフォーマンス 推論とモデルの微調整のためのコードの詳細な解説 この記事はData Science Blogathonの一環として公開されました。 大規模言語モデルとは何ですか? 大規模言語モデルのアーキテクチャは、トランスフォーマーを使用して構築されており、アテンションメカニズムを使用してデータの長距離依存性を捉えます。複数のトランスフォーマーブロックの層には、マルチヘッドのセルフアテンションやフィードフォワードニューラルネットワークが含まれています。これらのモデルはテキストデータで事前学習され、シーケンス内の次の単語を予測することを学習し、言語のパターンを捉えます。事前学習された重みは特定のタスクで微調整することができます。Mistral 7B LLMのアーキテクチャと、その特徴について詳しく見ていきましょう。 Mistral 7Bのアーキテクチャ Mistral 7Bモデルのトランスフォーマーアーキテクチャは、アテンションメカニズムとキャッシュ戦略を使用して、高いパフォーマンスとメモリ使用量を効率的にバランスさせ、より大きなモデルよりも速度と品質で優れた結果を出します。4096ウィンドウのスライディングウィンドウアテンション(SWA)を使用して、各トークンが直前のトークンの一部に注意を払うことで、より長いシーケンスに対するアテンションを最大化します。 特定の隠れ層は、ウィンドウサイズと層の深さによって、入力層のトークンに対して決定された距離からアクセスできます。モデルは、Flash…

AIを通じて、AskEllyn Bridgesは乳がん患者のサポートギャップを埋める

テクノロジーにますます依存する世界において、医療の領域は革新と思いやりの前例のない融合を目の当たりにしていますAskEllynという画期的な対話型AIツールが登場しましたAskEllynは、乳がんに影響を受ける人々の多面的なニーズに特化して設計されたものです数多くのテクノロジーソリューションが存在していますが、AskEllynは情報提供にとどまらず、独自の特徴を持っています

FineShare Review 2023年の最高の人工知能仮想カメラは?

「FineShareのレビューを通じて、最高のAI仮想カメラをご紹介しますその特徴、メリット、デメリットを詳しく分析します」

T-Mobile US株式会社は、Amazon TranscribeとAmazon Translateを通じて人工知能を利用し、顧客の希望する言語でボイスメールを提供しています

この投稿は、T-Mobile US, IncのシニアシステムアーキテクトであるDhurjati Brahma、T-Mobile US, Incの主任エンジニア/アーキテクトであるJim Chao、およびT-Mobile US, IncのアソシエイトシステムアーキテクトであるNicholas Zellerhoffによって共著されましたT-Mobile US, Inc.は、お客様にボイスメールをテキストに変換するサービスを提供しており、お客様は素早くボイスメールを読むことができます

言語の愛好家であるなら、ChatGPTの多言語対応機能について知っておく必要があります

もし、言語がコミュニケーションの世界で真のスーパーヒーローだと信じる人なら、お楽しみにしてくださいこの記事では、多言語の魔法を解き明かしていきます...

ドクトランとLLM:消費者の苦情を分析するための強力なコンビ

紹介 現在の競争の激しい市場では、企業は消費者の苦情を効果的に理解し解決することを目指しています。消費者の苦情は、製品の欠陥やお客様サービスの問題、請求エラーや安全上の懸念など、さまざまな問題についての洞察を提供します。これらは、企業と顧客の間のフィードバック(製品、サービス、または経験に関するもの)ループで非常に重要な役割を果たします。これらの苦情を分析し理解することで、製品やサービスの改善、顧客満足度、全体的なビジネスの成長に対する貴重な示唆を得ることができます。この記事では、Doctran Pythonライブラリを活用して消費者の苦情を分析し洞察を抽出し、データに基づいた決定を行う方法について探っていきます。 学習目標 この記事では以下のことを学びます: doctran pythonライブラリとその主な機能について学ぶ ドキュメント変換と分析におけるdoctranとLLMの役割について学ぶ doctranがサポートする抽出、黒塗り、照会、精緻化、要約、翻訳の6つのドキュメント変換の詳細を調査する 消費者の苦情からの生のテキストデータのアクション可能な洞察への変換の全体的な理解を得る doctranの文書データ構造、ExtractPropertyクラス、プロパティを抽出するためのスキーマの定義について理解する この記事はData Science Blogathonの一環として公開されました。 Doctran Doctranは、ドキュメントの変換と分析に特化した最先端のPythonライブラリです。テキストデータの前処理、重要な情報の抽出、カテゴリ化/分類、照会、情報の要約、他の言語へのテキストの翻訳など、一連の機能を提供します。DoctranはOpenAI GPTベースのLLM(Large Language Models)やオープンソースのNLPライブラリを使用してテキストデータを分析します。 Doctranは以下の6種類のドキュメント変換をサポートしています: 抽出: ドキュメントから有益な機能/プロパティを抽出する 黒塗り: ドキュメントから個人を識別できる情報(氏名、メールアドレス、電話番号など)を削除する。内部的には、データをOpenAIに送る前に、敏感情報を削除するためにspaCyライブラリを使用します…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us