Learn more about Search Results A - Page 194

オレゴン大学とアドビの研究者がCulturaXを紹介します:大規模言語モデル(LLM)の開発に適した167の言語で6.3Tのトークンを持つ多言語データセット

大規模言語モデル(LLM)は、幅広いタスクで最先端のパフォーマンスを劇的に向上させ、新たな新興スキルを明らかにすることにより、NLPの研究と応用に大きな影響を与えています。入力テキストを表現ベクトルにエンコードするためには、エンコーダのみモデルが調査されてきました。テキストを生成するためには、デコーダのみモデルが研究されてきました。また、シーケンスからシーケンスへの生成を実現するためには、エンコーダ・デコーダモデルが研究されてきました。最大のパフォーマンスを実現するために必要なモデルサイズとトレーニングデータセットの指数関数的な成長は、LLMの驚異的な能力の主要な要因となっています。例えば、BERTモデルは数億パラメータしか含まれていませんでしたが、最新のGPTベースのモデルでは数千億パラメータを含むようになりました。 巨大なモデルサイズと膨大なトレーニングデータセットは、驚異的な学習能力を持つ大規模言語モデル(LLM)の進歩の主要な要素です。NLPの発展に伴い、一般の人々がさらなる研究と実用のためにLLMを利用できるようになってきました。ただし、これらのLLMのためのトレーニングデータセットは通常部分的にしか提供されておらず、特に最新の最先端モデルに対してはさらにその傾向が強いです。LLMのための高品質なトレーニングデータを作成するには、広範なデータのクリーニングと重複排除が必要です。このため、トレーニングデータに関するより多くのオープンさが求められることで、ホールシネーションやバイアスの研究の結果の再現や進展が妨げられています。これらの困難は、多言語学習のシナリオでは通常、十分な多言語テキストコレクションの収集とクリーニングが行われていないことによりさらに複雑化します。その結果、言語によるLLMのトレーニングに使用できる良質なオープンソースのデータセットは存在しません。この問題を解決するために、オレゴン大学とアドビリサーチの学術研究者の共同作業によって、6.3兆トークン、167ヶ国語で構成される巨大な多言語データセット「CulturaX」が開発されました。モデルトレーニングの最高品質を確保するために、データセットは厳格なパイプラインを通じてクリーニングと重複排除の数多くのステップを経ています。これらのプロセスには、データセット内の言語の特定、URLを使用したデータセットのフィルタリング、メトリクスを使用したデータセットのクリーニング、ドキュメントの改善、データの重複排除が含まれます。 CulturaXは、言語ごとに高品質なトレーニングLLM用に徹底的にクリーニングと重複排除が行われた、最大のオープンソースの多言語データセットです。 主な特徴 CulturaXは、LLMとNLPの応用に徹底的にクリーニングと重複排除が行われた、今までで最も大規模なオープンソースの多言語データセットです。 CulturaXは、多言語のオープンソースで大規模なデータセットを提供し、即座に使用可能な高品質なデータを提供することで、現在のデータセットに関連する多くの問題を解決します。 多言語のオープンソースのテキストデータが含まれるmC4などのデータセットは存在しますが、その品質とスケールは、特にGPTなどの生成モデルに効率的にLLMをトレーニングするための要件を満たしていません。例えば、前述のように、mC4やOSCARはドキュメントレベルの曖昧な重複排除を提供していません。mC4の言語認識にはcld3の結果が劣っており、これも欠点です。CC100には2018年以降のデータが含まれていますが、BigScience ROOTSは46ヶ国語のデータのサンプリングのみを提供しています。 HuggingFaceのCulturaXの完全な公開リリースは、多言語のLLMとその応用の研究をさらに進めるのに役立ちます。詳細はこちらをご覧ください:https://huggingface.co/datasets/uonlp/CulturaX 167言語のテキストデータを持つ新しい多言語データセットCulturaXをぜひご覧ください。このデータセットは徹底的なワークフローによってクリーニングされ、重複が削除された結果、6.3兆トークンが含まれています。巨大で高品質なデータセットであるCulturaXは、さまざまな言語で効果的なLLMを容易にトレーニングするために活用することができます。この情報は一般に無料で利用でき、研究者たちはさらなる言語習得の研究と実用的な応用の促進に役立つことを願っています。

「最も難しいPandas:ピボットテーブル、スタック、およびアンスタックを明確に説明する」

ほとんどのPandasの式は英語のように読めますが、時には本当に頭を悩ませることがありますはい、cutやpivotのような直感的な名前がありますが、それらは理解するのが不可能に思えるものです…

「Matplotlibのマスタリング:データ可視化の包括的なガイド」

こんにちは、データ愛好家👋 データはビジュアライゼーションを通じてより理解しやすくなることを知っていますそれは洞察を得るのに役立つだけでなく、ビジュアライゼーションはクライアントに洞察を説明するのも簡単にします...

「Amazon Web Servicesでの生成型AIアプリの構築 – 私の最初の経験」

オーストラリアの「ビッグフォー」銀行のエンジニア兼データサイエンティストとして、過去1か月間だけでこのようなエキサイティングなイベントに3回も引っ張り込まれましたこれらのイベントは、会社の...

データ分析の再構築:ダッシュボードからAIコパイロットへ

データ分析の絶えず進化する領域では、専門家は常に新しいツールや技術に適応するという課題に直面していますコマンドラインインターフェース(CLI)やグラフィカルユーザインターフェース(GUI)といった従来のデータとのやり取りの方法は、一定の技術知識とシステムへの熟練度が必要であり、多くの人にとってはハードルとなることがあります[…]

「BlindChat」に会いましょう:フルブラウザおよびプライベートな対話型AIを開発するためのオープンソースの人工知能プロジェクト

BlindChatは、MithrilSecurityによって立ち上げられたオープンソースでプライバシー重視のChatGPTの代替案です。BlindChatは、第三者のアクセスなしで完全にウェブブラウザ内で動作する世界初の対話型AIを作成することを目指すオープンソースのAIイニシアチブです。現在の一般的なAIソリューションでは、AIモデルの使用と引き換えにユーザーデータをAIサービスプロバイダーと共有することが一般的です。これを許可すると、ユーザーデータが盗まれるリスクがあります。データはLLMの強化に貴重なリソースですので、いくつかの手法はユーザーデータを暗黙的に調整してモデルの学習をより良くすることがあります。ユーザーは、このような方法でLLMが個人情報を記憶する危険にさらされます。 BlindChatは、ローカル推論を実行するか、セキュアな環境であるセキュアエンクレーブを使用することにより、ユーザーデータが常にプライベートに保たれ、ユーザーが完全なコントロールを保持することを保証します。 BlindChatには、主に2つの対象者がいます: 消費者:ユーザープライバシーを優先する新しい、より安全なオプションを提供します。現在、ほとんどの消費者はデータをAIサービスに提供していますが、プライバシー設定が明確でないか存在しないことがよくあります。 BlindChatチームは、開発者がより簡単にプライバシーに配慮した対話型AIを提供できるように、プラットフォームの構成と展開の簡素化に幅広い作業を行っています。 MithrilSecurityは、ブラウザが通常サーバーが行う機能を実行できるようにプログラムを変更しました。したがって、AIサービスプロバイダーは信頼モデルに含まれておらず、プライバシーが保護されます。 透明かつ安全なAIは、機能をサーバーからユーザー側のブラウザに移動することで実現されます。これにより、エンドユーザーの個人情報が保護され、データに対する主体性が与えられます。たとえば、トランスフォーマーを使用すると、推論をローカルで実行することができ、JavaScriptを使用することで、チャットはユーザーのブラウザ履歴に保存されます。その結果、AIサービスの管理者はユーザーの情報を見ることができません。このため、このサービスは「BlindChat」と呼ばれています。 リモートエンクレーブモードがアクティブになっている場合、データはサーバーにのみ送信されます。この設定では、サーバーはエンクレーブという検証済みで安全なコンテナ内に展開され、完全な周辺防御を提供し、外部からのアクセスをブロックします。エンクレーブのAIプロバイダーの管理者でさえ、ユーザー情報にアクセスすることはできません。 MithrilSecurityには、ユーザーに利用可能な2つの異なるプライバシーオプションがあります: オンデバイス設定では、モデルがユーザーのブラウザにローカルにダウンロードされ、推論がローカルで処理されます。 利用可能な帯域幅と処理能力の制約のため、このモードはより複雑なモデルには適しています。 ゼロトラストAI APIを使用する場合、情報はモデルが保存されている安全な場所であるエンクレーブに送信され、リモートで推論されます。これらの設定は、強力な分離と検証により包括的なセキュリティを提供します。AIサービスプロバイダーはユーザーデータに対して暗号化されていないアクセス権を持ちません。 このプロジェクトは、3つの主要な部分で構成されています: ユーザーインターフェース:チャットとのやり取り時にユーザーが見る画面です。チャットウィンドウがあり、将来的にはドキュメントの読み込みや音声制御などのためのウィジェットやプラグインが追加されます。 開発者は、ユーザー要求を処理するために使用するプライベートLLMを完全に制御します。現在のソリューションはローカルモデルまたはリモートエンクレーブであり、透明性と機密性のある推論を提供します。 チャットログなどのデータの保存に使用されるストレージのタイプは、開発者によって設定可能です。 MithrilSecurityは現在、LaMini-Flan-T5の推論のみを許可しています。370Mがリリースされた後、パフォーマンス向上のためにMicrosoft phi-1.5を統合する予定です。クライアント側でLlamaIndex-TSの統合も開発中であり、RAGを使用してブラウザ内で機密なドキュメントをクエリすることができます。

「コンテキストに基づくドキュメント検索の強化:GPT-2とLlamaIndexの活用」

はじめに 情報検索の世界では、探索を待ち受けるテキストデータの海において、関連するドキュメントを効率的に特定する能力は非常に貴重です。従来のキーワードベースの検索には限界がありますが、特に個人情報や機密データを扱う場合には、これらの課題を克服するために、2つの素晴らしいツール、GPT-2とLlamaIndexの統合に頼ることがあります。この記事では、これら2つのテクノロジーがどのように連携してドキュメントの検索を変革するかを示すコードについて詳しく説明します。 学習目標 GPT-2という多目的な言語モデルと、個人情報に焦点を当てたライブラリであるLLAMAINDEXのパワーを効果的に組み合わせて、ドキュメントの検索を変革する方法を学ぶ。 GPT-2の埋め込みを使用してドキュメントをインデックスし、ユーザーのクエリとの類似度に基づいてランキングするプロセスを示す、シンプルなコードの実装についての洞察を得る。 大きな言語モデルの統合、マルチモーダルコンテンツのサポート、倫理的な考慮を含む、ドキュメントの検索の将来のトレンドを探索し、これらのトレンドがこの分野をどのように形作るかを理解する。 この記事は、データサイエンスブログマラソンの一環として公開されました。 GPT-2:言語モデルの巨人の解明 GPT-2の解説 GPT-2は、「Generative Pre-trained Transformer 2」の略であり、オリジナルのGPTモデルの後継です。OpenAIによって開発されたGPT-2は、理解力と人間らしいテキストの生成能力において画期的な能力を持って登場しました。これは、現代のNLPの基盤となったTransformerモデルに基づく傑出したアーキテクチャを誇っています。 Transformerアーキテクチャ GPT-2の基盤となるのはTransformerアーキテクチャです。これは、Ashish Vaswaniらによって発表された「Let it be what you want it to be」という論文で紹介されたニューラルネットワークの設計です。このモデルは、一貫性、効率性、効果を向上させることで、NLPを革新しました。セルフモニタリング、空間変換、マルチヘッドリスニングなどのTransformerのコア機能により、GPT-2はテキストの内容や関係性を前例のない方法で理解することができます。…

「AIはどれくらい環境に優しいのか?人間の作業と人工知能の二酸化炭素排出量を比較する」

近年、人工知能(AI)は驚異的な進展を遂げ、その応用は医療、銀行業、交通、環境保護などさまざまな産業に広がっています。しかし、AIの利用が広がるにつれて、環境への影響に関する懸念が浮上しています。特に、AIモデルの稼働と訓練に必要なエネルギーとそれによる温室効果ガスの排出についての懸念です。例えば、現在使用されている最も強力なAIシステムの1つであるGPT-3は、トレーニング中において、その寿命の間に5台の車によって生成される排出物と同等の排出物を生成します。 最近の研究では、多数のAIシステムの環境への影響が調査されており、特に文章の作成や絵画制作などのタスクを実行する能力に焦点が当てられています。研究チームは、ChatGPT、BLOOM、DALL-E2、MidjourneyといったさまざまなAIシステムによって生成される排出物と、同じタスクを人間が実行した場合に生じる排出物とを比較しました。文章の作成と画像の制作という2つの一般的なタスクが特に注目されました。 この研究の目的は、人間がこれらのタスクを実行する場合とAIが実行する場合の環境への影響を対比することです。研究チームは、AIに関連する環境費用にもかかわらず、これらのコストが通常人間が同様の活動を行う場合よりも低いことを示すことで、人間とAIの交換可能性を強調しました。結果は、言葉を生成する場合に驚くほどの差があることを示しています。 テキストを作成する際、AIシステムは人間が生成する二酸化炭素換算量(CO2e)の130倍から1500倍少なくなります。この大きな違いは、この状況でのAIの環境上の利点を強調しています。同様に、画像を作成する際、AIシステムは人間が生成するCO2eの310倍から2900倍少なくなります。これらの数字は、AIを使用して画像を作成する際にどれだけ少ない排出物が生成されるかを明確に示しています。 研究チームは、排出物の研究だけでは完全な情報を提供することができないことを理解することが重要であり、以下の重要な社会的な影響や要素が考慮される必要があることを共有しました。 職業的な置き換え:一部の産業では、AIが従来人間が担当してきた仕事を引き受けることによって、雇用の置き換えが生じる可能性があります。この置き換えの潜在的な経済的および社会的影響を適切に対処することが重要です。 合法性:AIシステムが道徳的および法的な原則に従って開発・利用されることが重要です。AIによって生成されるコンテンツの合法性とその潜在的な悪用に対処する必要があります。 リバウンド効果:AIがさまざまな産業に導入されると、予期せぬ影響が生じる場合があります。これらの結果は、使用量や生産量の増加として現れる可能性があります。 AIによっては代替できない人間の機能もあることを理解することが重要です。AIは、人間の創造性、共感性、意思決定を必要とする一部のタスクやポジションを行うことはできません。ただし、現在の研究は、さまざまなタスクにおいて人間と比較してAIが排出物を劇的に削減する可能性があることを示しています。これらの結果は環境の観点からは励みとなりますが、AIの統合が共有された目標と価値観に一致するように、より広範な倫理的、経済的、社会的要素の文脈で考慮される必要があります。排出物を大幅に減らすためにAIを使用するというアプローチは、現在の環境問題を解決するための有効な手段です。

大規模言語モデル:RoBERTa — ロバストに最適化されたBERTアプローチ

BERTモデルの登場は、自然言語処理(NLP)の大きな進歩をもたらしましたBERTはTransformerからアーキテクチャを派生させ、言語モデリングなどのさまざまな下流タスクで最先端の結果を達成しています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us