Search Results Falcon

「大型言語モデルを使用して開発するために知っておくべきすべて」

この記事の目的は、簡単な言葉でLLMベースのアプリケーション開発に必要な主要なテクノロジーを説明することですさらなる学習のために多くの有用なリンクも提供されていますそれは行く...

「深層学習モデルの可視化方法」

ディープラーニングモデルは通常非常に複雑です多くの伝統的な機械学習モデルが数百のパラメータで済むことがありますが、ディープラーニングモデルは数百万または数十億のパラメータを持っていますオープンAIが2023年春にリリースした大規模言語モデルGPT-4は、約2兆のパラメータを持っていると噂されていますそれは･･･

ML Model Development

動くAI

「2023年はLLM（Large Language Models）の年だったとすれば、2024年はLMM（Large Multimodal Models）の年となるでしょう主な違いは、テキストと画像の認識による生成が行われることです...」

Amazon ComprehendとLangChainを使用して、生成型AIアプリケーションの信頼性と安全性を構築しましょう

私たちは、産業全体で生成型AIアプリケーションを動かすための大規模言語モデル（LLM）の活用が急速に増加していることを目撃していますLLMsは、創造的なコンテンツの生成、チャットボットを介した問い合わせへの回答、コードの生成など、さまざまなタスクをこなすことができますLLMsを活用してアプリケーションを動かす組織は、ジェネラティブAIアプリケーション内の信頼性と安全性を確保するために、データプライバシーについてますます注意を払っていますこれには、顧客の個人情報（PII）データを適切に処理することが含まれますまた、不適切で危険なコンテンツがLLMsに拡散されないように防止し、LLMsによって生成されたデータが同じ原則に従っているかどうかを確認することも含まれますこの記事では、Amazon Comprehendによって可能になる新機能について議論し、データプライバシー、コンテンツの安全性、既存のジェネラティブAIアプリケーションにおける迅速な安全性を確保するためのシームレスな統合を紹介します

リフレックスを使って、純粋なPythonでChatGPTに似たWebアプリを作成する

OpenAIのAPIを使用して、一行のデプロイメントで純粋なPythonでChatGPT風のWebアプリを構築する方法

「Amazon SageMaker JumpStartで大規模な言語モデルの応答をストリーム配信する」

「Amazon SageMaker JumpStartでは、言語モデル（LLM）の推論応答をストリーミングで提供できるようになりましたトークンのストリーミングでは、LLMの応答生成が完了するのを待つ必要なく、応答生成が行われるたびにモデルの応答結果を確認できます」[...]

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb（Falcon）、Dolma（AI2）、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ（84個の処理済みダンプ）が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ（プレーンテキスト）、40以上の高品質な注釈、および重複削除クラスタが含まれています。このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60％減少しますが、ドキュメント数は71％減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40％削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ（パーティション）が示されます。チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

「Pythonにおける構造化LLM出力の保存と解析」

イントロダクションジェネラティブAIは現在、世界中で広く使用されています。大規模言語モデルのテキスト理解能力とそれに基づいたテキスト生成能力により、チャットボットからテキスト分析まで様々なアプリケーションが生まれました。しかし、これらの大規模言語モデルは非構造化な形式でテキストを生成することが多いです。時には、LLM（大規模言語モデル）によって生成された出力を、構造化された形式、例えばJSON（JavaScript Object Notation）形式にしたいケースもあります。例えば、LLMを使用してソーシャルメディアの投稿を分析し、LLMによって生成された出力をJSON/python変数としてコード内で扱い他のタスクを実行する必要があるかもしれません。このような場合に、プロンプトエンジニアリングを使ってこれを実現することは可能ですが、プロンプトの調整には多くの時間がかかります。そこで、LangChainでは出力パースを導入しており、これによりLLMの出力を構造化された形式に変換することができます。学習目標大規模言語モデルによって生成された出力の解釈 Pydanticを使用したカスタムデータ構造の作成プロンプトテンプレートの重要性とLLMの出力を整形してプロンプトを生成する方法の理解 LangChainを使用してLLMの出力のフォーマット指示を作成する方法の学習 JSONデータをPydanticオブジェクトにパースする方法の理解この記事はデータサイエンスブログマラソンの一環として掲載されました。 LangChainと出力パースとは？ LangChainは、大規模言語モデルを使用したアプリケーションを短時間で構築できるPythonライブラリです。OpenAI GPT LLM、GoogleのPaLM、そしてFalcon、LlamaなどのHugging Faceのオープンソースモデルなど、さまざまなモデルに対応しています。LangChainを使用すると、大規模言語モデルへのプロンプトのカスタマイズが容易になり、組込みのベクトルストアを提供するため、入出力の埋込みを保存することができます。そのため、数分でドキュメントをクエリできるアプリケーションを作成することができます。 LangChainは、大規模言語モデルがインターネットから情報を取得できるようにするためのエージェント機能も提供しています。また、出力パーサーも提供しており、大規模言語モデルによって生成されたデータを構造化することができます。LangChainには、リストパーサー、日時パーサー、列挙型パーサーなどさまざまな出力パーサーがあります。この記事では、LLMが生成した出力をJSON形式にパースすることができるJSONパーサーについて説明します。以下の図は、LLMの出力がPydanticオブジェクトにパースされる一般的なフローを示しており、Python変数で即座に使用できるデータが作成されます。はじめに – モデルのセットアップこのセクションでは、LangChainを使用してモデルをセットアップします。この記事全体を通して、PaLMをLarge Language Modelとして使用します。環境としてGoogle Colabを使用しますが、PaLMを他のどのLarge…

「GPTからMistral-7Bへ：AI会話のエキサイティングな進化」

紹介人工知能の分野では、特に大規模な言語モデルの領域で驚くべき進展が見られています。大規模言語モデルは、人間のようなテキストを生成したり、文書を要約したり、ソフトウェアコードを書いたりすることができます。Mistral-7Bは、英語のテキストとコード生成の能力をサポートする最近の大規模な言語モデルの一つであり、テキスト要約、分類、テキストの補完、コードの補完など、さまざまなタスクに使用することができます。 Mistral-7B-Instructの特徴は、パラメータが少ないにもかかわらず、優れたパフォーマンスを発揮する能力です。ベンチマークの結果によると、このモデルはすべての7Bモデルを凌駕し、さらに13Bチャットモデルとも競争力を持っています。本ブログでは、Mistral 7Bの機能や能力、使用事例、パフォーマンス、モデルの微調整に関する実践的なガイドなどについて探っていきます。学習目標大規模言語モデルとMistral 7Bの動作を理解する Mistral 7Bのアーキテクチャとベンチマーク Mistral 7Bの使用事例とパフォーマンス推論とモデルの微調整のためのコードの詳細な解説この記事はData Science Blogathonの一環として公開されました。大規模言語モデルとは何ですか？大規模言語モデルのアーキテクチャは、トランスフォーマーを使用して構築されており、アテンションメカニズムを使用してデータの長距離依存性を捉えます。複数のトランスフォーマーブロックの層には、マルチヘッドのセルフアテンションやフィードフォワードニューラルネットワークが含まれています。これらのモデルはテキストデータで事前学習され、シーケンス内の次の単語を予測することを学習し、言語のパターンを捉えます。事前学習された重みは特定のタスクで微調整することができます。Mistral 7B LLMのアーキテクチャと、その特徴について詳しく見ていきましょう。 Mistral 7Bのアーキテクチャ Mistral 7Bモデルのトランスフォーマーアーキテクチャは、アテンションメカニズムとキャッシュ戦略を使用して、高いパフォーマンスとメモリ使用量を効率的にバランスさせ、より大きなモデルよりも速度と品質で優れた結果を出します。4096ウィンドウのスライディングウィンドウアテンション（SWA）を使用して、各トークンが直前のトークンの一部に注意を払うことで、より長いシーケンスに対するアテンションを最大化します。特定の隠れ層は、ウィンドウサイズと層の深さによって、入力層のトークンに対して決定された距離からアクセスできます。モデルは、Flash…

「DeepMindのAlphaFoldによる生体分子予測の革命」

生体分子の理解を進めましょう DeepMindは先駆的なAI研究所です。Google DeepMindは画期的なAlphaFoldシステムの最新バージョンを発表しました。これは生体分子の理解において重要な飛躍となります。AlphaFoldは、タンパク質の構造を正確に予測する能力で話題になっています。最近、彼らは新しいモデルを発表し、その拡張機能を備えました。これらの機能は、リガンド、核酸、翻訳後修飾を含む、広範な生物学的に関連する分子に適用されます。 Google DeepMindのAlphaFoldは、2020年の初版リリース以来、タンパク質とその相互作用を認識する方法を変革してきました。この先端技術は、DeepMindとIsomorphic Labsの協力のもとで生み出されました。彼らは分子の予測におけるAIの限界を押し上げるために共同で取り組んできました。また読む： Google DeepMindはChatGPTを超えるアルゴリズムに取り組んでいます新しいAlphaFoldモデルの主なハイライト新しいGoogle DeepMindのAlphaFoldモデルの主なハイライトは以下の通りです：高い精度とカバレッジ：最新のAlphaFoldモデルは、ほぼProtein Data Bank（PDB）データベース内のすべての分子に対して予測を生成し、原子レベルの精度を実現します。この画期的な精度は、リガンド、タンパク質、核酸（DNAおよびRNA）、翻訳後修飾を含むさまざまな生物分子クラスにまで広がります。バイオメディカルのブレークスルーの加速：拡張された能力により、AlphaFoldはバイオメディカルの発見を加速し、新たな「デジタルバイオロジー」の時代を切り開く準備が整っています。病気の経路、ゲノミクス、生物再生可能材料、植物免疫、治療の標的、薬剤設計のメカニズム、タンパク質エンジニアリングと合成生物学の革新的なアプローチなど、研究者はより深い洞察を得ることができます。薬物探索の進歩：AlphaFoldは、特に薬物探索への影響が大きいです。このモデルは、リガンドとタンパク質の相互作用を決定するために広く使用される最もよく知られたドッキング法よりも優れた性能を発揮します。さらに、参照タンパク質構造を必要とせずにタンパク質リガンドの構造を予測できるため、新しい分子や潜在的な薬剤の設計に貴重なツールとなります。最近の進展報告では、このモデルの驚異的な精度と生物分子全般への能力が示され、多くの科学領域での進歩が確認されました。 AlphaFold：画期的なタンパク質構造予測 AlphaFoldの旅は、単一鎖タンパク質の予測から複数のタンパク質鎖を持つ複雑な構造の予測へと進化し、ついに2022年にAlphaFold 2.3がリリースされました。特筆すべきは、Google DeepMindのAlphaFoldがほぼすべてのカタログ化されたタンパク質の構造予測をAlphaFold Protein Structure…

Learn more about Search Results Falcon - Page 6