Learn more about Search Results BLOOM - Page 4

「大規模言語モデルによってプログラミングは終わるのか?」

「OpenAIのGPT-4 TurboやCopilotなど、LLMの進化を探求し、プログラミングやクリエイティブ産業に与える変革的な影響を体験してみましょう」

マイクロソフトの研究者たちは「エモーションプロンプト」を発表しました:複数の言語モデルにおけるAIの感情的知性を向上させる

感情的知性は、人間の質の多様なモザイクの中に位置する歴史的な要素です。感情の理解は、感情的なデータを正しく認識し処理し、そのデータを問題解決や行動管理のような論理的かつ分析的なプロセスの適用に利用する能力です。反射、知覚、認知、行動はすべて感情を生み出し、さまざまな内的および外的要因がこれらの要素に影響を与えることができます。自己モニタリング、社会認知理論、ポジティブな感情の重要性は、感情の制御が人間の問題解決能力に影響を与えることを示しています。その広範囲な効果のため、感情調整理論は教育や健康など、さまざまな分野で使用されています。 CAS、Microsoft、ウィリアム&メアリー大学、北京師範大学、香港科技大学による新しい研究は、EQと洗練されたAIモデルとの関連を調査しています。新興の大規模言語モデル(LLM)は、推論、自然言語処理と生成、STEM問題解決など、さまざまなタスクで印象的なパフォーマンスを発揮しており、人工一般知能への有望な研究の取り組みの一つとなっています。最近の研究では、LLMによる人間によって開発された困難なタスクの実行を許すことで、LLMはAGIへの顕著な潜在能力を示すと示唆されています。しかし、LLMが心理的な感情の衝動を解釈できるかどうかはまだ不明です。心理学的な域内学習方法を使用して、いくつかの学者はさまざまな分野で大きな進歩を遂げています。ただし、容量の違いがあるため、現在利用可能な方法からすべてのLLMが同じように利益を得るわけではありません。最近の研究では、LLMが感情的な手がかりを認識し処理できることが示されていますが、この研究ではLLMの感情的知性がパフォーマンスの向上にどのような重要な影響を与えるかは評価されていません。 この新しい研究は、LLMが感情の刺激を理解し活用する潜在能力を調査するための最初のステップを踏み出します。希望、自信、および同輩の承認と関連付けられた感情的手がかりが、以前の心理学的研究で肯定的な効果を持つことが証明されています。この現象の現実世界の応用には、学業成績の向上や身体の健康増進のための励ましの言葉が含まれます。研究者らはこれらの心理学的プロセスに着想を得て、LLMの感情的知性を調査するためのシンプルで強力な方法であるEmotionPromptを提案しました。具体的には、感情的な反応を引き起こすために使用される心理フレーズとして11の文を設計しました。 幅広い難易度レベルを含む決定論的および生成課題を、彼らの詳細な調査で使用しています。彼らはFlanT5-Large、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4など、いくつかのLLMでトライアルを行いました。これらのトライアルは24のインストラクション誘導タスクと21のカリキュレートBIG-Benchタスクであり、いずれも決定論的で一般的なメトリックで評価できます。GPT-4に基づいてバニラおよび感情的なプロンプトを使用してタスクの生成品質を判断するために、106人の参加者を対象に人間の研究を行いました。その人間の研究では、感情的なプロンプトが生成タスクのパフォーマンス(パフォーマンス、真実性、責任度の平均改善率が10.9%)を有意に向上させることが示されました。一方、標準的な実験では、LLMは感情的な知性を持ち、感情的な刺激によって向上させることができることが示されています。 研究者らはまた、EmotionPromptがLLMにとってなぜ有益なのかを、入力注意を通じた感情的な刺激の最終出力への影響を評価することによって分析しました。その結果、LLMの勾配は感情的な刺激からより重要な重みを持つことで恩恵を受け、元のプロンプトの表現を改善することにより結果を向上させます。モデルのサイズや温度がEmotionPromptの効果にどのような影響を与えるかを学ぶために、彼らは消去研究を実施しました。 最後に、多くの感情的な手がかりを一緒に使用することがパフォーマンスにどのような影響を与えるかを調べ、それが結果を大幅に改善することが示されました。探索誘導の場合、EP02が最も優れた刺激であり、最も劣った刺激に比べてパフォーマンスが6.06%向上しました。一方、BIG-Benchの場合、EP06が最も優れた刺激です。刺激のパフォーマンスには、タスクの複雑さ、タスクの種類、使用されるメトリックなど、さまざまな要素が影響することを忘れずにおいてください。

GLM-130B:オープンなバイリンガル事前訓練モデル

「GLM-130Bフレームワーク」は、英語と中国語の両方でテキストを生成できる、13兆パラメータを備えたバイリンガル事前学習済み大規模言語モデルですGLM-130Bフレームワークは、1000億以上のパラメータを持つ言語モデルをオープンソースで公開する試みであり、このような大規模なフレームワークについての議論を目指しています

「オープンソースLLMsの歴史:初期の日々(パート1)」

言語モデリングの研究は、GTPやGPT-2などのモデル、または最新のトランスフォーマーベースの言語モデルよりも前の、RNNベースの技術(例:ULMFit)などを含め、長い歴史があります...

テキスト生成の新時代:RAG、LangChain、およびベクトルデータベース

はじめに 革新的な技術によって、自然言語処理の急速に変化するランドスケープの中で、機械が人間の言語を理解し生成する方法が常に再構築されています。そのような画期的なアプローチの1つが、Retrieval Augmented Generation(RAG)です。これは、GPT(Generative Pretrained Transformer)などの生成モデルのパワーとベクトルデータベースとLangchainの効率を組み合わせています。 RAGは機械が言語を処理する方法のパラダイムシフトを象徴し、従来に比べて類前の文脈理解と反応性を実現するために生成モデルと検索モデルの隔たりを埋める役割を果たしています。このブログ記事では、RAGのコアコンセプト、GPTモデルとの統合、ベクトルデータベースの役割、および現実世界での応用について説明します。 学習目標 Retrieval Augmented Generation(RAG)の基礎を理解する。 ベクトルデータベースとそのベクトルを使用した革新的なデータ保存および検索手法に洞察する。 RAG、LangChain、およびベクトルデータベースがユーザーのクエリを解釈し、関連情報を取得し、一貫した応答を生成するためにどのように連携するかを理解する。 特定の応用に統合されたテクノロジーの実践スキルを開発する。 この記事はData Science Blogathonの一部として公開されました。 RAGとは何ですか? Retrieval Augmented Generation(RAG)は生成モデルと検索モデルを融合させたものです。これにより、生成モデルの創造的な能力と検索システムの正確さをシームレスに組み合わせることで、多様で文脈に即したコンテンツの生成が可能となります。 テキストの補完や質問応答など、一部の従来の言語生成タスクでは、GPT(Generative Pretrained Transformer)などの生成モデルが豊富なトレーニングデータセットに基づいて文脈に即したテキストを生成する能力が優れていることが示されています。しかし、入力コンテキストが曖昧であるかデータが不足している場合、誤った応答や一貫性のない応答を生成する可能性があります。…

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb(Falcon)、Dolma(AI2)、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。 チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ(84個の処理済みダンプ)が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ(プレーンテキスト)、40以上の高品質な注釈、および重複削除クラスタが含まれています。 このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。 研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。 ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60%減少しますが、ドキュメント数は71%減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40%削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ(パーティション)が示されます。 チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

人間のフィードバックからの強化学習(RLHF)

たぶん、あなたはこの技術について聞いたことがあるかもしれませんが、完全には理解していないかもしれません特にPPOの部分についてですこの説明がお手伝いできるかもしれません私たちはテキストからテキストへの言語モデルに焦点を当てます 📝 例えば...

『トランスフォーマーの位置符号化の解説』

元のトランスフォーマーアーキテクチャでは、位置エンコーディングが入力と出力の埋め込みに追加されました位置エンコーディングは、トランスフォーマーにおいて重要な役割を果たし、それらが…

無料のオープンパスでODSC West Virtualに参加してください.

Note Japanese translation is provided in Unicode characters. Please make sure that your device and browser are capable of displaying Japanese characters for accurate…

LoRa、QLoRA、およびQA-LoRa:低ランク行列分解を通じた大規模言語モデルの効率的な適応性

大型言語モデル(LLM)は、人間のようなテキストを理解し生成するという非常に優れた能力を持つ特異な領域を切り開いてきましたLLMのすごさは、膨大な数のパラメータを持っていることに起因していますこの巨大なスケールがパフォーマンスを引き上げる一方で、特定のモデルへの適応においては課題も生じます

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us