Learn more about Search Results Meg - Page 9
- You may be interested
- ChatGPTはデータサイエンティストを置き換...
- 『臨床試験結果予測』
- 量産自動運転におけるBEVパーセプション
- テンセントの研究者が「FaceStudio」を発...
- 「CRISPRツールがウイルスを撃ち破るのに...
- BERTopic(バートピック):v0.16の特別さ...
- 「金融機関は責任あるAIを活用して金融犯...
- 「視覚化された実装と共に、Graph Attenti...
- このAI研究では、ドライブ可能な3Dガウス...
- LLM SaaSのためのFastAPIテンプレート パ...
- PyTorch DDPからAccelerateへ、そしてTrai...
- 検索の未来:ChatGPT、音声検索、画像検索...
- 「AIの教父、ジェフリー・ヒントン氏が人...
- Dropboxが、ゲームチェンジングなAIパワー...
- 富士通とLinux Foundationは、富士通の自...
大規模言語モデル(LLM)とは何ですか?LLMの応用と種類
コンピュータプログラムである大規模言語モデルは、テキストの解析や作成のための新しいオプションをソフトウェアに提供します。大規模言語モデルは、ペタバイト以上のテキストデータを使用してトレーニングされることが珍しくなく、そのサイズは数テラバイトになることもあります。モデルのパラメータは、以前のトレーニングデータから学習されたコンポーネントであり、テキスト生成などのタスクにおけるモデルの適性を確立します。音声認識、感情分析、テキスト要約、スペルチェック、トークンの分類など、自然言語処理(NLP)の活動は、言語モデルを基盤としています。言語モデルはテキストを分析し、ほとんどの自然言語処理のタスクで次のトークンの確率を予測することができます。ユニグラム、N-グラム、指数、およびニューラルネットワークは、言語モデルの有効な形式です。 LLMの応用 以下のチャートは、大規模言語モデル(LLM)の現状を機能、製品、およびサポートソフトウェアの面でまとめたものです。 画像の出典:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b シェルコマンドの生成 次世代ターミナルのWarpは、GPT-3を使用して自然言語を実行可能なシェル命令に変換します。GitHub Copilotのようなものですが、ターミナル向けです。 経験豊富なプログラマでも、シェルコマンドの構文を説明する必要がある場合があります。 正規表現の生成 開発者にとって正規表現の生成は時間がかかりますが、Autoregex.xyzはGPT-3を活用してこのプロセスを自動化します。 コピーライティング このタスクに最も人気のあるモデルはGPT-3ですが、BigScienceのBLOOMやEleuther AIのGPT-Jなどのオープンソースの代替品もあります。Copy ai、Copysmith、Contenda、Cohere、Jasper aiなどのスタートアップ企業は、この分野でアプリを開発しており、ブログ投稿、販売コンテンツ、デジタル広告、ウェブサイトのコピーなどの執筆を素早く容易にします。 分類 テキストを予め定義されたカテゴリに分類することは、教師あり学習の例です。クラスタリングという教師なし学習技術を用いることで、意味が似ているテキストを事前定義されたクラスなしでまとめることができます。 応答生成 応答生成は、サンプルの対話を使用して対話のフローを生成し、機械学習のアプローチを採用するアイデアです。ユーザーに提示される次の議論がモデルによって決定され、ユーザーの過去の応答と最も可能性の高い将来の会話を考慮に入れます。これを予測対話と呼びます。 テキストの生成 LLMの能力は、簡単な説明からテストを生成することで、「メタ能力」と見なされるかもしれません。ほとんどのLLMは生成の役割を果たします。フューショット学習データは、生成を大幅に向上させるだけでなく、データのキャスティングもデータの使用方法に影響を与えます。 知識応答 知識応答は、アプリケーションプログラミングインターフェース(API)のクエリや従来の知識ストアに頼ることなく、一般的なクロスドメインの問い合わせに対する応答を可能にする知識重視の自然言語処理(KI-NLP)の応用です。 知識重視の自然言語処理はウェブ検索ではなく、意味検索をサポートする知識ベースです。…
SalesforceはXGen-7Bを導入:1.5Tトークンのために8Kシーケンス長でトレーニングされた新しい7B LLMを紹介します
最近の人工知能の技術的なブレークスルーにより、Large Language Models(LLMs)はますます一般的になっています。過去数年間、研究者たちは、これらのモデルを膨大な量のデータでトレーニングして、複雑な言語関連のタスクを解決するための急速な進歩を遂げてきました。これには、複雑な言語パターンの理解、連続した回答の生成などが含まれます。特に研究者や開発者の関心を引いている研究の1つは、LLMsの長文コンテンツの取り扱いにおける応用です。これらのタスクの例は、テキストの要約やコードの生成などの比較的単純なタスクから、タンパク質の構造予測や情報検索などのより複雑な問題の記述まで様々です。長いテキストのシーケンスには、段落、表、画像などさまざまな形式の情報が含まれているため、LLMsはこれらの要素を処理し理解するためにトレーニングされなければなりません。さらに、長距離の構造的依存関係を効果的に考慮することで、LLMsはテキストの異なる部分間の関連性を特定し、最も関連性の高い情報を抽出することができます。したがって、より広範な知識に触れることで、LLMsはユーザーのクエリにより正確で文脈に即した回答を提供することができます。 しかし、数多くの潜在的なユースケースにもかかわらず、MetaのLLaMAからMosaicMLのMPT LLMモデルに至るまで、ほとんどのオープンソースのLLMsは、最大2Kトークンのシーケンスでトレーニングされています。この制限は、より長いシーケンスのモデリングにおいて大きな課題を提起します。さらに、モデルのスケーリングに関する以前の研究は、固定された計算予算が与えられた場合、トークン数が多いほど小さなモデルの方が大きなモデルよりも優れたパフォーマンスを発揮することを示しています。したがって、現在の進歩と課題に着想を受けて、Salesforce ResearchはXGen-7Bを導入し、1.5兆トークンの8Kシーケンス長でトレーニングされた一連の7B LLMsにおいて画期的な成果を上げました。このモデルシリーズには、4Kシーケンス長に対応するXGen-7B-4K-Base、8Kシーケンス長に対応するXGen-7B-8K-Base、および公開用の教育データでファインチューニングされたXGen-7B-8k-Instが含まれています(研究目的のみで公開されています)。これらのLLMsの注目すべき特徴は、XGenがMPT、Falcon、LLaMAなどといった同様のサイズの最先端のLLMsと比較して、標準のNLPベンチマークで同等または優れた結果を達成することです。 この研究で使用されたXGen-7bモデルは、Salesforceの独自のライブラリJaxFormerを使用してトレーニングされました。このライブラリは、TPU-v4ハードウェアに最適化されたデータとモデルの並列処理を利用した、効率的なLLMのトレーニングを可能にします。トレーニングプロセスはLLaMAのガイドラインに従い、さらに2つの追加の調査を行いました。最初の調査は「損失スパイク」の理解に焦点を当てました。これは、トレーニング中に損失が突然一時的に増加する現象であり、明確な原因がない状態です。これらのスパイクの原因はまだ不明ですが、研究者は「順次回路の並列化」、「swish-GLUの使用」、「RMS-Normの使用」などがトレーニングの不安定性に寄与する可能性があると特定しました。2つ目の調査はシーケンス長に関連しています。自己注意の二次の計算量のため、より長いシーケンスでのトレーニングは計算コストが著しく増加するため、段階的なトレーニングアプローチが採用されました。トレーニングは最初にシーケンス長2kの800Bトークンから始まり、次にシーケンス長4kの400Bトークン、最後にシーケンス長8kの300Bトークンを対象としました。 XGen-7b 8kモデルの長い文脈の理解能力を評価するために、研究者たちは3つの主要なタスクで評価を行いました。それらのタスクは、長い対話生成、テキストの要約、および質問応答です。研究者は、対象のタスクの難しさに基づいて、インストラクションに調整されたモデルを使用しました。長い対話生成に関しては、AMIミーティングの要約、ForeverDreaming、およびTVMegaSiteの脚本の要約の3つのタスクを評価に使用しました。すべての指標において、XGen-7B-instモデルは他のいくつかのインストラクションに調整されたモデルと比較して最高のスコアを達成し、優れたパフォーマンスを示しました。 長文の質問応答に関しては、研究者は物理学、工学、歴史、エンターテイメントなどさまざまなトピックをカバーするウィキペディアのドキュメントを基にChatGPTを使用して質問を生成しました。質問と元の文書の関連性、構成、および関連性に基づいて、256トークンのLLM生成された回答をGPT-4で評価しました。このシナリオでは、2kトークンに制限されたベースラインモデルに比べて、XGen-7B-8k-Instモデルのパフォーマンスが優れていることが示されました。テキストの要約に関しては、研究者は会議の会話と政府の報告書という2つの異なるドメインのデータセットを使用してXGen-7bモデルを評価しました。その結果、XGen-7bモデルはこれらのタスクで他のベースラインモデルを大幅に上回り、テキストの要約でも優れたパフォーマンスを発揮することが示されました。 評価により、XGen-7bモデルは、長い文脈を理解する能力に優れており、長い対話生成、質問応答、テキスト要約など、さまざまなタスクで優れた性能を発揮しました。その性能は、他の指示に調整されたモデルやベースラインモデルを上回り、広範なテキスト文脈での理解力と連続した応答生成能力を示しています。ただし、その効果的さにもかかわらず、XGenモデルには制約があることが研究者によって認識されており、バイアスが免除されず、有害な応答を生成する可能性があります。これは、他の多くのAIモデルと共有する特徴です。Salesforce Researchはまた、コードをオープンソース化して、コミュニティが研究内容を探求できるようにしています。 SF BlogとGithub Linkをチェックしてください。最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している25k+ ML SubReddit、Discord Channel、Email Newsletterにもぜひ参加してください。上記の記事に関する質問や見落としがある場合は、お気軽に[email protected]までメールでお問い合わせください。
科学ソフトウェアの開発
この記事では、このシリーズの最初の記事で示されたように、科学ソフトウェアの開発においてTDDの原則に従って、Sobelフィルタとして知られるエッジ検出フィルタを開発します
データサイエンティストとは具体的に何をする人なのでしょうか?
この様々な職務記述の羅列からも明らかなように、データサイエンティストの役割が実際に日々何を含むのかを明確に把握するのは非常に困難であることがあります既存の多くの記事は、...
LlamaIndex インデックスと検索のための究極のLLMフレームワーク
LlamaIndex(以前はGPT Indexとして知られていました)は、データ取り込みを容易にする必須ツールを提供することで、LLMを使用したアプリケーションの構築を支援する注目すべきデータフレームワークです
NYUとNVIDIAが協力して、患者の再入院を予測するための大規模言語モデルを開発する
退院は患者にとって重要なマイルストーンですが、時には回復への道のりの終わりではありません。米国では、初回退院後30日以内に約15%の入院患者が再入院することがあり、患者と病院の両方にとってより悪い結果や高いコストが伴うことがしばしばあります。 ニューヨーク大学の学術医療センターであるNYUランゴーンヘルスの研究者は、NVIDIAの専門家と協力して、患者の30日間の再入院リスクや他の臨床的な結果を予測する大規模言語モデル(LLM)を開発しました。 NYUランゴーンヘルスの6つの入院施設に展開されたNYUTronモデルは、今日発表された科学誌ネイチャーに掲載され、AIによる洞察力を提供することで、再入院の可能性を低減する臨床介入が必要な患者を特定する医師を支援します。 「患者を退院させる際には、再入院が必要になることは予想されません。また、もしそうだった場合は、病院に長く入院させる必要があるかもしれません」と、NYUグロスマン医学部の放射線科と脳神経外科の助教授であり、NYUTronの主要な協力者の一人であるエリック・オーマン博士は述べています。「AIモデルの分析を使用することで、私たちはクリニシャンに再入院のリスクを予測し、防止または解決するための手段を提供できるようになるでしょう。」 このモデルはNYUの医療システムで50,000人以上の患者に適用され、再入院リスクの予測結果が医師に電子メール通知で共有されています。オーマン氏のチームは、NYUTronの分析に基づく介入が再入院率を減らすかどうかを検証する臨床試験を計画しています。 急速な再入院の脅威に立ち向かう 米国政府は、30日間の再入院率を医療の質の指標として追跡しています。再入院率が高い医療機関には罰金が科され、これにより病院が退院プロセスを改善するように刺激されます。 最近退院した患者が再び入院する必要がある理由はたくさんあります。例えば、感染症、抗生物質の過剰処方、早すぎる手術ドレーンの除去などがあります。これらのリスク要因が早期に発見されれば、医師は治療計画を調整したり、患者を長期入院させたりすることで介入することができます。 「患者の再入院を予測する計算モデルは、1980年代から存在していますが、これを自然言語処理のタスクとして、臨床テキストの健康システム規模のコーパスが必要となるものとして扱っています」と、オーマン博士は述べています。「私たちは、電子健康記録の非構造化データを使用してLLMをトレーニングし、人々が以前に考慮していなかった洞察力を捕捉できるかどうかを確認しました。」 NYUTronは、NYUランゴーンヘルスの10年間の健康記録、約4十億語の臨床ノート、約40万人の患者を表す大量のデータによって事前トレーニングされました。このモデルは、再入院を予測するための最先端の機械学習モデルよりも10%以上の精度改善を達成しました。 LLMが初期の使用ケースで30日間の再入院を予測するためにトレーニングされた後、チームは1週間ほどで他の4つの予測アルゴリズムを展開することができました。これには、患者の入院期間の長さを予測すること、入院中の死亡リスク、患者の保険請求が拒否される可能性などが含まれます。 「病院を運営することは、ある意味ではホテルを管理することに似ています」と、オーマン博士は述べています。「病院がより効率的に運営できるようにする洞察力は、より多くの患者により多くのベッドとより良いケアを提供することを意味します。」 トレーニングから展開までのLLM NYUTronは、数億のパラメータを持つLLMで、NVIDIA NeMo Megatronフレームワークを使用して、NVIDIA A100 Tensor Core GPUの大規模クラスターでトレーニングされました。 「言語モデルに関する話題の多くは、数百または数千のGPUを使用して、汚いデータセットでトレーニングされた数十億のパラメータを持つ巨大で汎用的なモデルについてです」と、オーマン博士は述べています。「私たちは、高度に洗練されたデータでトレーニングされた中程度のサイズのモデルを使用して、医療特化のタスクを達成しています。」 現実の医療現場で推論を最適化するために、チームはNVIDIA Tritonオープンソースソフトウェアの変更バージョンを開発し、NVIDIA TensorRTソフトウェア開発キットを使用してAIモデルの展開を簡素化しました。…
あなたの究極のチャットGPTおよびその他の略語ガイド
ChatGPTについて、誰もが熱狂しているようですこれは文化現象になりましたまだChatGPTの利用者でない場合、この記事はこの革新に対する文脈と興奮をよりよく理解するのに役立つかもしれません
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.