Learn more about Search Results コーパス - Page 14

「YaRNに会ってください:トランスフォーマーベースの言語モデルのコンテキストウィンドウを拡張するための計算効率の高い方法で、以前の方法よりもトークンが10倍少なく、トレーニングステップが2.5倍少なくて済みます」

Chat GPTのような大規模言語モデルは、テキストのより広範な文脈を考慮することができ、より一貫性のある文脈に即した応答を理解し生成することができます。これは、テキスト補完などのタスクにおいて、ドキュメント全体の文脈を理解することが重要な場合に特に役立ちます。 これらのモデルは、トークンが多くなる場合であっても、ドキュメント内の複雑な関係や依存関係を捉えることができます。GPT-3やGPT-4のような大規模言語モデルにおける文脈ウィンドウの拡張とは、モデルが言語を生成または理解する際に考慮するテキストまたはトークンの範囲を指します。これは、要約文書のようなタスクにおいて、ドキュメントを包括的に理解した上で要約を行う必要がある場合に価値があります。 Rotary position embedding(RoPE)は、モデルが順序データを処理し、シーケンス内の位置情報を捉える能力を向上させます。ただし、これらのモデルは、彼らが訓練されたシーケンスの長さを超えて一般化する必要があります。Nous Research、Eleuther AI、およびジュネーブ大学の研究者は、このようなモデルの文脈ウィンドウを効率的に拡張する方法であるYaRN(Yet another RoPE extension method)を提案しています。 RoPEは、複素数の回転を使用する回転位置埋め込みであり、モデルが固定された位置埋め込みだけに頼らずに位置情報を効果的にエンコードすることを可能にします。これにより、モデルは長距離の依存関係をより正確に捉えることができます。回転を制御するパラメータは、モデルの訓練プロセス中に学習されます。モデルは適応的に回転を調整して、トークン間の位置関係を最もよく捉えることができます。 彼らが行った手法は、文脈ウィンドウを拡張するために外部メモリメカニズムを使用する圧縮トランスフォーマです。彼らは外部メモリバンクから情報を保存し、取得することで、通常のウィンドウサイズを超えた文脈にアクセスすることができます。トランスフォーマのアーキテクチャの拡張により、メモリコンポーネントが開発され、モデルは過去のトークンや例から情報を保持し利用することができます。 彼らの実験では、YaRNはわずか400ステップのトレーニングでLLMの文脈ウィンドウの拡張を成功させました。これは、モデルの元の事前トレーニングコーパスの0.1%に相当し、25からの10倍の削減、および7からの2.5倍のトレーニングステップの削減です。これにより、追加の推論コストなしで非常に計算効率が高くなります。 全体的に、YaRNはすべての既存のRoPE補間手法を改善し、PIを置き換えるだけであり、実装努力も最小限です。微調整モデルは複数のベンチマークで元の機能を保持しながら、非常に大きなコンテキストサイズに対応することができます。将来の研究では、伝統的なNLPモデルと組み合わせることができるメモリ拡張が関与することができます。トランスフォーマベースのモデルは、外部メモリバンクを組み込むことで、質問応答や機械翻訳などの下流タスクに関連する情報をコンテキストに保存して利用することができます。

「カタストロフィックな忘却を防ぎつつ、タスクに微調整されたモデルのファインチューニングにqLoRAを活用する:LLaMA2(-chat)との事例研究」

大規模言語モデル(LLM)のAnthropicのClaudeやMetaのLLaMA2などは、さまざまな自然言語タスクで印象的な能力を示していますしかし、その知識とタスク固有の...

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル(LLM)の一部の例です。インコンテキスト学習、コード作成、常識的な推論といった新しいスキルが表示されます。最近の取り組みは、LLMを視覚と言語のデータを同時に処理できるようにトレーニングすることです。GPT4、Flamingo、PALIは、VLMの3つの優れた例です。それらは、ピクチャーキャプショニング、ビジュアルクエスチョンアンサリング、オープンボキャブラリ認識などの多くのタスクにおいて新たな基準を確立しました。最先端のLLMは、テキスト情報検索に関するタスクで人間よりも優れた成績を収めますが、最先端のVLMは、Infoseek、Oven、OK-VQAなどの視覚情報検索データセットに苦戦しています。 さまざまな理由から、現在の最先端のビジョン言語モデル(VLM)は、そのような問い合わせに十分な応答をすることは困難です。子供たちは、画像の細かいカテゴリや詳細を認識することを学ぶ必要があります。第二に、彼らの推論はより堅牢でなければなりません、なぜなら彼らは最新の大規模言語モデル(LLM)よりも小さい言語モデルを使用しているからです。最後に、彼らは画像検索エンジンとは異なり、さまざまなメタデータでタグ付けされた大量の画像コーパスとクエリ画像を調べません。この研究では、カリフォルニア大学ロサンゼルス校(UCLA)とGoogleの研究者が、LLMと3つの異なるタイプのツールを統合することで、視覚情報検索のタスクで最先端のパフォーマンスを実現する新しいアプローチを提供しています。 視覚情報抽出を支援するコンピュータプログラムには、オブジェクト検出器、光学文字認識ソフトウェア、ピクチャーキャプショニングモデル、視覚品質評価ソフトウェアが含まれます。 外部の世界に関するデータと情報を発見するためのオンラインリソース 視覚的に関連する画像のメタデータをマイニングして、画像検索の関連結果を見つける方法。 この手法では、LLMによって駆動されるプランナーが、必要なツールとそれに送信するクエリを動的に決定するために使用されます。さらに、研究者は、LLMによって結果を調べ、関連するデータを引き出すためにLLMによって駆動されるリーズナーを使用します。 まず、LLMはクエリを戦略、プログラム、または一連の命令に単純化します。その後、適切なAPIを活性化してデータを収集します。このアプローチは、単純な視覚言語の課題では有望ですが、より複雑な現実のシナリオでは改訂が必要です。このような初期のクエリから包括的な戦略を決定することはできません。代わりに、進行中のデータに応じて継続的な反復を必要とします。現場での意思決定能力が提案された戦略の主要なイノベーションです。視覚情報を必要とする質問の計画は、課題の複雑さのため、複数のステップで行われます。プランナーは、各段階でどのAPIを使用するか、どのクエリを提出するかを決定する必要があります。画像検索などの高度なAPIの回答の有用性を予測することしかできず、それらを呼び出した後の出力を予測することしかできません。したがって、研究者は、アップフロントのプロセス段階とAPI呼び出しの計画を含む従来の方法ではなく、ダイナミックな戦略を選択します。 研究者は、APIとのやり取りで人々がどのように選択を行うかを理解するためのユーザースタディを実施します。この情報を体系的なフレームワークにまとめることで、大規模言語モデル(LLM)がAPIの選択とクエリの作成を決定するための根拠を提供します。収集されたユーザーデータがシステムにもたらす2つの主な利点があります。まず、ユーザーアクションの順序を推論して遷移グラフを構築します。このグラフは、状態間の境界と各状態で実行できる手順を定義します。第二に、プランナーとリーズナーに有用なユーザーの意思決定の具体例を提供します。 主な貢献 チームは革新的なビジュアルクエスチョンアンサリングフレームワークを提案し、大規模言語モデル(LLM)を使用して外部ツールの動的な戦略立案とその出力の調査を行うことで、質問に対する回答を提供するために必要な知識を学習します。 チームは人々が意思決定を行う方法に関するユーザースタディからの知見を活用して、体系的な計画を作成します。このフレームワークは、大規模言語モデル(LLM)に、APIの選択とクエリの構築において人間の意思決定を模倣するよう指示します。 この戦略は、知識ベースのビジュアルクエスチョンアンサリングの2つのベンチマークであるInfoseekとOK-VQAで、最先端のソリューションを上回っています。特に、PALIのInfoseek(未知のエンティティ分割)データセットでの16.0%の正答率に対して、私たちの結果は50.7%と大幅に高いです。 APIとその他のツール AVIS(Autonomous Visual Information Seeking with Large Language Models)は、適切な詳細な情報検索を必要とする視覚的な問い合わせに応えるために、堅牢なリソースセットが必要です。 画像キャプションモデル 視覚的な質問応答モデル 物体検出…

「Amazon SageMaker JumpStartを使用して、Generative AIとRAGを活用して安全なエンタープライズアプリケーションを構築する」

この投稿では、AWS Amplifyを使用してセキュアなエンタープライズアプリケーションを構築し、Amazon SageMaker JumpStart基盤モデル、Amazon SageMakerエンドポイント、およびAmazon OpenSearch Serviceを呼び出して、テキストからテキストまたはテキストから画像への変換、およびRetrieval Augmented Generation(RAG)の作成方法を説明しますこの投稿を参考にして、AWSサービスを使用してジェネレーティブAI領域のセキュアなエンタープライズアプリケーションを構築するために利用できます

「PaLM 2はどのように動作しますか?完全ガイド」

「PaLM 2の機能を完全に解説するガイドで、内部の仕組みを探求しましょうこの強力な言語モデルがどのように人間らしいテキストを理解し生成するのかを発見しましょうコンテキストを理解し、矛盾のない応答を提供する能力を理解してください」

自然言語処理のための高度なガイド

イントロダクション 自然言語処理(NLP)の変革的な世界へようこそ。ここでは、人間の言語の優雅さが機械の知能の正確さと出会います。NLPの見えない力は、私たちが頼りにしているデジタルのインタラクションの多くを支えています。このナチュラルランゲージプロセッシングガイドは、あなたの質問に応答するチャットボット、意味に基づいて結果を調整する検索エンジン、声のアシスタントがリマインダーを設定するなど、さまざまなアプリケーションで使用されます。 この包括的なガイドでは、ビジネスを革新しユーザーエクスペリエンスを向上させる、最先端のNLPの応用について掘り下げていきます。 文脈埋め込みの理解: 単語は単なる分離された単位ではありません。文脈によってその意味が変わります。Word2Vecのような静的な埋め込みから文脈を必要とする対話型な埋め込みまで、埋め込みの進化について見ていきます。 トランスフォーマーとテキスト要約の技術: 要約は単なるテキストの切り詰めを超える難しい仕事です。トランスフォーマーアーキテクチャとT5などのモデルについて学び、成功する要約の基準がどのように変わっているかを理解しましょう。 深層学習の時代には、層や複雑さのために感情を分析することは困難です。特にトランスフォーマーアーキテクチャに基づく深層学習モデルは、これらの複雑な層を解釈することに長けており、より詳細な感情分析を提供します。 有用な洞察を得るために、Kaggleのデータセット ‘Airline_Reviews’ を使用します。このデータセットには実世界のテキストデータが含まれています。 学習目標 ルールベースのシステムから深層学習アーキテクチャへの移行を認識し、特に転換の重要な瞬間に重点を置きます。 Word2Vecなどの静的単語表現から動的な文脈埋め込みへのシフトについて学び、言語理解における文脈の重要性を強調します。 トランスフォーマーアーキテクチャの内部構造と、T5などのモデルがテキスト要約を革新している方法について詳しく学びます。 特にトランスフォーマーベースのモデルなどの深層学習を活用して、テキストの感情に具体的な洞察を提供できるかを発見します。 この記事はデータサイエンスブログマラソンの一部として公開されました。 NLPの深い探求 自然言語処理(NLP)は、機械に人間の言語を理解し、解釈し、応答することを教える人工知能の分野です。この技術は、人間とコンピュータをつなげ、より自然なインタラクションを可能にします。スペルチェックやキーワード検索などの簡単なタスクから、機械翻訳、感情分析、チャットボットの機能などのより複雑な操作まで、さまざまなアプリケーションでNLPを使用できます。これにより、音声アクティベーションされた仮想アシスタント、リアルタイム翻訳サービス、さらにはコンテンツ推奨アルゴリズムなどが機能することが可能になります。自然言語処理(NLP)は、言語学、コンピュータサイエンス、機械学習の知識を結集し、テキストデータを理解できるアルゴリズムを作成することで、現代のAIアプリケーションの基盤となっています。 NLPの技術の進化 NLPはこれまでに大きく進化し、ルールベースのシステムから統計モデル、そして最近では深層学習へと進化してきました。言語の特異性を捉えるための旅は、従来の袋状モデルからWord2Vec、そして文脈埋め込みへの変化によって見ることができます。計算能力とデータの利用可能性が向上するにつれて、NLPは言語の微妙なニュアンスを理解するために洗練されたニューラルネットワークを使用するようになりました。現代の転移学習の進歩により、モデルは特定のタスクを改善し、実世界のアプリケーションでの効率と正確性を確保することができます。 トランスフォーマーの台頭 トランスフォーマーは、多くの最先端NLPモデルの基盤となる一種のニューラルネットワークアーキテクチャです。トランスフォーマーは、再帰的または畳み込み層に重点を置いた従来のモデルと比較して、入力と出力の間のグローバルな依存関係を引き出すための “アテンション”…

『ご要望に合わせたチャット:ソフトウェア要件に応用した生成AI(LLM)の旅』

「大規模言語モデル(LLM)をソフトウェア要件に適用し、ビジネスロジックの知識ハブと開発を加速するためのコパイロットを作成した方法を発見してください」

ReactとExpressを使用してChatGPTパワードおよび音声対応のアシスタントを構築する

現代の世界において、大規模な言語モデルがますます人気を集めるにつれて、それらを開発に使用する関心も高まっていますが、どこから始めれば良いかを理解することは常に容易ではありませんこの記事では、ChatGPT言語を活用したシンプルなチャットボットの構築方法について説明します...

このAIの論文では、プログラミング言語が指示調整を通じて互いを向上させる方法について説明しています

大型言語モデル(LLM)の導入は世界中で大きな話題となっています。これらのモデルは、人間のように独自で創造的なコンテンツを生成し、人間のように質問に答えることで知られています。また、これらのモデルは長い文章を要約したり、言語を翻訳したり、コードを補完することも可能です。最近、コード生成専用のLLMが急速に開発されています。これらのモデルの素晴らしいコード生成能力は、学術および産業界で大きな注目を集めています。CodeGeeX、StarCoder、CodeLlama、Codexなどは、最近導入された注目すべきコードLLMの一部です。 指示チューニングアルゴリズムの応用は、コードLLMの分野での興味深いブレークスルーです。最近の研究では、特定の指示に従う方法をLLMに教えることで、彼らのコード生成能力を向上させることが可能であるというアイデアが検討されています。最近の研究では、人間のプログラマが1つのプログラミング言語をマスターした後、2番目の言語を習得することがより簡単になる可能性があるという興味深いアイデアを探求しています。この研究の主な目標は、大型言語モデルが指示を微調整している間に、さまざまなプログラミング言語がお互いを補完できるかどうかを明らかにすることです。 この理論を探求し、調査するために、研究者のグループはPython、JavaScript、TypeScript、C、C++、Java、Go、HTMLの8つの人気プログラミング言語を使用した一連の大規模な実験を行いました。これらの言語は、HTMLのようなマークアップ言語からCやC++のようなシステムレベルの言語、PythonやJavaScriptのようなスクリプト言語まで、さまざまなプログラミングパラダイムとユースケースを含んでいます。これらのテストの主な目的は、1つのプログラミング言語での指示の微調整が他の言語と組み合わせた場合に、コードLLMのパフォーマンスを向上させるかどうかを確認することでした。これらのテストでは、使用されるコードLLMはStarCoderでした。 言語ごとの構文や要件に指示が準拠していることを確認するために、言語固有の指示を作成する方法は、初期のPythonベースのシード指示を詳細に進化させるか、HTMLの場合は広範な進化を行うことです。詳細な進化は、Pythonベースのシード指示から始めて、より複雑でターゲットの言語に合わせた言語固有の指示を生成する方法であり、言語固有のニュアンスを捉えます。一方、広範な進化は、Pythonベースの指示からではなく、HTML固有の指示を新たに作成する方法であり、Web開発のHTMLの独特な性質を認識しています。 実験の結果からは、いくつかの強力な結論が導かれました。コード作成の作業において、プログラミング言語は明らかに他の言語よりも優れたパフォーマンスを発揮することが示されました。例えば、HumanEval-Xベンチマークを使用してJavaコードでテストした場合、PythonデータでトレーニングされたCODEM-Python 15Bというコードモデルは、pass@1の正解率において驚異的な17.95%の絶対的な改善を示しました。この結果から、Pythonのような1つの言語の知識は、Javaなどの他の言語でのコード生成を大幅に改善することができるということが示唆されます。 さらに驚くべきことに、マークアップ言語であるHTMLのコーパスに使用された場合、CODEM-HTML 7Bはpass@1の絶対的な改善率15.24%を示しました。これは、HTMLのようなマークアップ言語とJavaのような従来のプログラミング言語など、根本的に異なる言語でも、お互いのコード生成能力を相互に向上させることができるということを意味します。

「Llama 2:ChatGPTに挑むオープンソースの深層ダイブ」

「プログラミングや創造的な文章作成などの特定の領域で有望な複雑な推論タスクをこなす大規模言語モデル(LLM)が存在しますしかし、LLMの世界はただプラグアンドプレイの楽園ではありません使いやすさ、安全性、計算要件において課題があります本記事では、Llama 2の能力について詳しく掘り下げながら、[…]を提供します」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us