Learn more about Search Results リリース - Page 98
- You may be interested
- 「高等教育の前にデータサイエンスのブー...
- 重要なデータサイエンスのスキルを習得す...
- iPhone、iPad、およびMacでのCore MLによ...
- 次世代の終わりのない学習者のベンチマーク化
- 🤗 Transformersを使用して、Wav2Vec2を使...
- 「トライするためのAIライティングツール...
- 「生成モデルを本番環境に展開する際の3つ...
- 『思考の整理、早くて遅い+AI』
- 「キナラがAra-2プロセッサを発表:パフォ...
- UCバークレーの研究者は、目的指向の対話...
- 世界のトップ10の生成AI企業
- 「Underrepresented Groupsの存在下での学...
- 最終的なDXAネーション
- MITが革新的なAIツールを発表:すべての能...
- 「Kubernetesに対応した無限スケーラブル...
Meet ChatGLM2-6B:オープンソースのバイリンガル(中国語-英語)チャットモデルChatGLM-6Bの第2世代バージョンです
OpenAIの革命的なChatGPTの導入以来、自然言語対話エージェントの分野ではかなりの進歩が見られています。研究者たちは、チャットボットモデルの能力を向上させ、ユーザーとのより自然で魅力的な対話を作成できるようにするために、さまざまな技術と戦略を積極的に探求しています。その結果、ChatGPTの代替となるいくつかのオープンソースで軽量なモデルが市場に登場しています。その中の1つが、中国の清華大学の研究者によって開発されたChatGLMモデルシリーズです。このシリーズは、一般言語モデル(GLM)フレームワークをベースにしており、より一般的に見られるGenerative Pre-trained Transformer(GPT)グループのLLMとは異なります。このシリーズには、中国語と英語のバイリンガルモデルがいくつか含まれており、最もよく知られているのはChatGLM-6Bです。このモデルは62億のパラメータを持ち、1兆以上の英語と中国語のトークンで事前学習され、強化学習などの技術を用いて中国語の質問応答、要約、対話タスクにさらに微調整されています。 ChatGLM-6Bのもう1つの特徴は、その量子化技術により、ローカルで展開されることができ、非常に少ないリソースしか必要としないことです。モデルは、消費者向けのグラフィックスカードでもローカルに展開することができます。このモデルは特に中国で非常に人気があり、世界中で200万回以上ダウンロードされ、最も影響力のある大規模なオープンソースモデルの1つとなっています。その広範な採用の結果、清華大学の研究者はバイリンガルチャットモデルの第2世代バージョンであるChatGLM2-6Bをリリースしました。ChatGLM2-6Bは、第1世代モデルのすべての強みに加えて、パフォーマンスの向上、より長いコンテキストのサポート、より効率的な推論など、いくつかの新機能が追加されています。さらに、研究チームはモデルの重みの使用を学術目的に留まらず(以前に行われていたように)、商業利用にも利用できるように拡張しました。 研究者たちは、ChatGLM2-6Bのベースモデルを第1世代バージョンと比較して向上させることから始めました。ChatGLM2-6Bは、GLMのハイブリッド目的関数を使用し、1.4兆以上の英語と中国語のトークンで事前学習されました。研究者たちは、市場のほぼ同じサイズの他の競合モデルとのパフォーマンスを評価しました。その結果、ChatGLM2-6Bは、MMLU、CEval、BBHなどのさまざまなデータセットで顕著なパフォーマンスの向上を実現していることが明らかになりました。ChatGLM2-6Bが示したもう1つの印象的なアップグレードは、前バージョンの2Kから32Kまでのより長いコンテキストのサポートです。FlashAttentionアルゴリズムがこの点で重要な役割を果たし、より長いシーケンスに対してアテンションの高速化とメモリ使用量の削減を実現しました。さらに、モデルは対話のアライメント中に8Kのコンテキスト長でトレーニングされており、ユーザーにより多様な会話の深さを提供しています。ChatGLM2-6Bはまた、Multi-Query Attention技術を使用しており、KVキャッシュのGPUメモリ使用量が低下し、第1世代と比較して推論速度が約42%向上しています。 清華大学の研究者たちは、ChatGLM2-6Bをオープンソース化し、LLMの成長とイノベーションを促進し、そのモデルを基にしたさまざまな有用なアプリケーションの開発を世界中の開発者と研究者に呼びかけることを望んでいます。ただし、研究者たちは、モデルの規模が小さいため、その決定はしばしばランダムに影響を受ける可能性があること、その出力は正確性を慎重に確認する必要があることを強調しています。将来の作業に関しては、チームは一歩先を見越して、モデルの第3バージョンであるChatGLM3の開発を始めています。
ロッテン・トマト映画評価予測のデータサイエンスプロジェクト:最初のアプローチ
数値およびカテゴリカルな特徴に基づく映画の状態予測
機械学習とは何か?メリットとトップMLaaSプラットフォーム
機械学習は、明示的なプログラミングを必要とせずに予測出力を生成するために統計分析を使用します。データセットの関係を解釈するために学習するアルゴリズムの連鎖を使用して目標を達成します。残念ながら、ほとんどのデータサイエンティストはソフトウェアエンジニアではないため、成長する企業のニーズに応えるためにスケールアップすることが困難になることがあります。データサイエンティストは、Machine Learning as a Service(MLaaS)のおかげでこれらの複雑さを簡単に処理できます。 MLaasとは何ですか? 機械学習をサービスとして提供する(MLaaS)は、最近、データサイエンス、機械学習エンジニアリング、データエンジニアリング、およびその他の機械学習専門家にとっての利点から、多くの注目を集めています。「機械学習をサービスとして提供する」という用語は、機械学習技術を採用して回答を提供するクラウドベースのプラットフォームの幅広い範囲を指します。 顧客は、MLaaSを使用することで、社内の機械学習チームの構築のオーバーヘッドや関連するリスクを負わずに、機械学習の利点を享受することができます。予測分析、ディープラーニング、アプリケーションプログラミングインターフェース、データ可視化、自然言語処理など、さまざまなサプライヤーから提供されるサービスがあります。サービスプロバイダーのデータセンターがすべてのコンピューティングを処理します。 機械学習のコンセプトは何十年も前から存在していますが、最近になってメインストリームに入り、MLaaSはこの技術の次世代を表しています。MLaaSは、組織内で機械学習を実装する複雑さとコストを削減し、より迅速で正確なデータ分析を可能にすることを目指しています。一部のMLaaSシステムは、画像認識やテキスト読み上げ合成などの特定のタスクに特化して設計されていますが、他のものは、セールスやマーケティングなどの業界を横断した使用を想定して構築されています。 MLaaSはどのように機能しますか? MLaaSは、各企業が必要に応じてカスタマイズできる、事前に構築された一般的な機械学習ツールを提供するサービスのコレクションです。ここでは、データ可視化、APIの豊富さ、顔認識、NLP、PA、DLなどがすべて提供されています。MLaaSアルゴリズムの主なアプリケーションは、データパターンの発見です。これらの規則性は、数学モデルの基礎として使用され、新しい情報に基づく予測を作成するために使用されます。 MLaaSは、最初のフルスタックAIプラットフォームであり、モバイルアプリ、ビジネスデータ、産業用自動化制御、LiDarなどの最新のセンサーを含むさまざまなシステムを統合します。パターン認識に加えて、MLaaSは確率的推論も容易にします。これにより、独自の要件に合わせたワークフローを設計する際に、組織がさまざまなアプローチから選択できる包括的かつ信頼性の高いMLソリューションが提供されます。 MLaasの利点は何ですか? MLaaSを使用する主な利点は、基盤をゼロから構築する必要がないことです。多くの企業、特に中小企業、ボイジャイズ企業(SME)は、大量のデータを保管および処理するためのリソースと能力を持っていない場合があります。この情報を収容するための大量のストレージスペースを購入または構築する必要性は、さらに費用がかかります。ここで、MLaaSインフラストラクチャがデータの保存と管理を引き継ぎます。 MLaaSプラットフォームはクラウドプロバイダーであるため、クラウドストレージを提供し、機械学習の実験用データ、データパイプラインなどのデータを適切に管理する手段を提供し、データエンジニアがデータにアクセスして分析することが容易になります。 企業は、MLaaSプロバイダの予測分析およびデータ可視化ソリューションを使用することができます。さらに、感情分析、顔認識、クレジットリスク評価、企業情報、ヘルスケアなど、さまざまな用途に対するアプリケーションプログラミングインターフェース(API)も提供されています。 MLaaSを使用すると、データサイエンティストは、ほとんどの他のクラウドコンピューティングサービスとは異なり、長時間のソフトウェアインストールや独自のサーバーの調達を待つ必要がなく、すぐに機械学習を使用できます。 MLaaSでは、実際のコンピューティングは、企業にとって非常に便利です。 トップMLaaSプラットフォーム 1. AWS Machine Learning クラウドサービスに関しては、AWS…
Earth.comとProvectusがAmazon SageMakerを使用してMLOpsインフラストラクチャを実装する方法
このブログ記事は、ProvectusのMarat AdayevとDmitrii Evstiukhinと共同で執筆されました機械学習(ML)モデルが本番環境に展開され、ビジネス上の意思決定に活用される場合、課題はしばしば複数のモデルの運用と管理にあります機械学習運用(MLOps)はこの問題の技術的な解決策を提供し、組織が管理するのを支援します[…]
マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました
トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩してきましたが、この成果の基礎となる科学はまだ幼い段階にあります。同じ時期にトランスフォーマーがリリースされたことで、圧倒的で混乱するような結果の中に秩序が出現し、計算量またはネットワークサイズを増やすと性能が予測可能に向上するというスケーリング則が判明しました。これらのスケーリング則は、深層学習におけるスケールの調査のためのガイドとして機能し、これらの則の変化の発見により性能が急激に向上しました。 本論文では、別の軸に沿ってデータ品質をどのように改善できるかを調査しています。高品質のデータはより良い結果を生み出します。たとえば、データのクリーニングは、現在のデータセットを作成するための重要なステップであり、比較的小さなデータセットまたはデータをより多くのイテレーションに通すことができます。ニューラルネットワークに英語を教えるために人工的に作成された高品質のデータセットであるTinyStoriesに関する最近の研究は、高品質のデータの利点がこれ以上のものであることを示しています。改良されたスケーリング則により、高品質のデータは大規模なモデルの性能を、よりシンプルなトレーニング/モデルで一致させることができるようになります。 この研究では、マイクロソフトリサーチの著者たちは、良質なデータが大規模言語モデル(LLMs)のSOTAをさらに向上させながら、データセットのサイズとトレーニング計算を大幅に減らすことができることを実証しています。トレーニングが必要なモデルが小さいほど、LLMsの環境コストを大幅に削減することができます。彼らは、コーディングのためにトレーニングされたLLMsを使用して、自分のdocstringsから特定のPython関数を構築しました。後者の論文で提唱された評価基準であるHumanEvalは、コード上でLLMのパフォーマンスを比較するために頻繁に使用されています。 彼らは、1.3Bパラメータモデルをトレーニングし、phi-1と呼びます。7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programs)で55.5%のpass@1精度を達成しました。 彼らは、7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、1.3Bパラメータのphi-1モデルをトレーニングすることで、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programmes)で55.5%のpass@1精度を達成しました。
Pandas 2.0 データサイエンティストにとってのゲームチェンジャー?
Pandas 2.0の効率的なデータ操作を可能にするトップ5の機能を活用する方法を学び、データサイエンススキルを次のレベルに引き上げましょう!
Midjourney 5.2 を発表:AI画像生成における飛躍的進歩
Midjourney 5.2によるAI画像生成の最新の進化を発見してくださいこの記事では、革新的な「ズームアウト」機能、四角形作成ツール、「スタイル化」コマンドを含む新機能と改善点について詳しく説明しますこれらの機能がどのようにAI芸術の分野を革新しているかを学んでください
AWS CDKを介してAmazon SageMakerロールマネージャーを使用して、カスタム権限を数分で定義します
機械学習(ML)の管理者は、MLワークロードのセキュリティと完全性を維持する上で重要な役割を果たしています彼らの主な焦点は、ユーザーが最高のセキュリティで操作し、最小特権の原則に従うことを確認することですただし、異なるユーザーペルソナの多様なニーズに対応し、適切な許可ポリシーを作成することは、時にアジリティを妨げることがあります[…]
AIを活用した言語学習アプリの構築:2つのAIチャットからの学習
新しい言語を学び始めるときは、私は「会話ダイアログ」の本を買うのが好きです私はそのような本が非常に役立つと思っていますそれらは、言語がどのように動作するかを理解するのに役立ちます単に…
ChatGPT プラグイン:知っておく必要があるすべて
OpenAIが展開したサードパーティのプラグインについて学び、ChatGPTsの実際の使用を理解しましょう
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.