Learn more about Search Results GAO

『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者向けにさまざまな選択肢を提供しています。しかし、これらのLLMの大部分は、エンドモデルの重みや推論スクリプトなどの一部のコンポーネントだけが利用可能であり、技術的なドキュメントでは、一般的な設計の側面や基本的なメトリックに焦点を絞った内容が多いです。このアプローチでは、LLMのトレーニング手法の明確性が低下し、チームがトレーニング手順のさまざまな側面を継続的に解明するための努力が重複してしまいます。 Petuum、MBZUAI、USC、CMU、UIUC、UCSDの研究者チームが、LLM360を導入しました。これは、エンドツーエンドのLLMトレーニングプロセスを透明で再現可能にすることにより、オープンかつ協力的なAIの研究をサポートするイニシアチブです。LLM360は、トレーニングコードとデータ、モデルのチェックポイント、中間結果などのすべてをコミュニティに提供することを主張する、完全なオープンソースのLLMです。 LLM360に最も近いプロジェクトはPythiaであり、LLMの完全な再現性を目指しています。GPT-JやGPT-NeoXなどのEleutherAIモデルは、トレーニングコード、データセット、中間モデルのチェックポイントと共にリリースされており、オープンソースのトレーニングコードの価値を示しています。INCITE、MPT、OpenLLaMAは、トレーニングコードとトレーニングデータセットがリリースされ、RedPajamaも中間モデルのチェックポイントを公開しています。 LLM360は、AMBERとCRYSTALCODERの2つの7BパラメータLLMをリリースし、そのトレーニングコード、データ、中間チェックポイント、分析も提供します。事前トレーニングデータセットの詳細、データの前処理、フォーマット、データミキシングの比率、LLMモデルのアーキテクチャの詳細については、研究で詳しく説明されています。 この研究では、以前の研究で導入された記憶スコアの使用と、メトリック、データチャンク、チェックポイントの公開により、研究者が対応関係を容易に見つけることができるようになることを示しています。研究ではまた、LLMが事前にトレーニングされたデータを削除することの重要性や、データのフィルタリング、処理、トレーニング順序の詳細についても強調しています。 研究では、ARC、HellaSwag、MMLU、TruthfulQAの4つのデータセットについてのベンチマーク結果が示され、モデルの事前トレーニング中のパフォーマンスが示されています。HellaSwagとARCの評価スコアはトレーニング中に単調に増加し、TruthfulQAのスコアは減少します。MMLUのスコアは最初に減少し、その後成長します。AMBERのパフォーマンスはMMLUなどのスコアで競争力があるものの、ARCでは遅れています。ファインチューニングされたAMBERモデルは、他の類似モデルと比較して強力なパフォーマンスを示します。 LLM360は、オープンソースLLMの完全かつ包括的なイニシアチブであり、オープンソースのLLM事前トレーニングコミュニティ内での透明性を推進するものです。この研究では、AMBERとCRYSTALCODERの2つの7B LLMをトレーニングコード、データ、中間モデルのチェックポイント、分析と共にリリースしています。研究では、チェックポイント、データチャンク、評価結果を公開することにより、包括的な分析と再現性を可能にするため、すべての角度からLLMをオープンソース化することの重要性を強調しています。 “`

「データについての厳しい質問に答える必要があるとき、人間が行動する必要がある」

データサイエンスと機械学習の専門家は、データの中から答えを見つける方法を知っていますそれが彼らの仕事の中心的な柱ですしかし、いくつかの難しい問題を見ると、状況は少し複雑になります...

ナレッジグラフ、ハードウェアの選択、Pythonのワークフロー、およびその他の11月に読むべきもの

データと機械学習の専門家にとって、1年間のイベント満載な時期もいよいよ終盤に入ってきました皆さんの中には、新しいスキルを学ぶために最後の力を振り絞り、最新の研究に追いつくために奮闘している方も多いことでしょう

「セルフサービスデータ分析はニーズの階層化です」

90年代を振り返ってみると、ビジネスオブジェクトやコグノスなどのセルフサービス型ビジネスインテリジェンス(BI)ツールが最初に導入されたことを思い出しますまったくもって熱心なソフトウェアエンジニアのように、私も...

Learning to build—Towards AI コミュニティニュースレター第1号

私たちは最新のニュースレターをお知らせすることをとても楽しみにしています!それは私たちの共同体についてのすべてですコラボレーションの機会、素晴らしい記事、投票など、興味深い情報をまとめて共有します

実生活の例とPythonコードで説明される隠れマルコフモデル

「隠れマルコフモデルは、気象予測から文の次の単語を見つけるまで、様々な現実の問題を解くために使用される確率モデルです」

「ULTRA 知識グラフ推論のための基礎モデル」

「任意のデータセットを解決するための単一の一般的なモデルを訓練することは、特に基盤モデルの時代において、機械学習の研究者にとって常に夢でしたこのような夢は知覚の領域で実現されていますが…」

シュナイダーエレクトリックは、SageMakerでのリトリーバルアグメントドLLMsを活用して、ERPシステムのリアルタイムの更新を確実にしています

この投稿は、Schneider ElectricのNorth America Artificial IntelligenceのソリューションエンジニアリングおよびアーキテクチャのマネージャーであるAnthony Medeirosと、ビジネスインテリジェンスマネージャーのBlake Santschiによって共同執筆されましたその他のSchneider Electricの専門家には、Jesse Miller、Somik Chowdhury、Shaswat Babhulgaonkar、David Watkins、Mark Carlson、およびBarbara Sleczkowskiが含まれます企業資源計画(ERP)システムは、企業が使用するものです...

「機械学習手法を用いたJava静的解析ツールレポートのトリアージに関する研究」

この研究では、最新の機械学習技術を利用して、Java静的解析ツールからの効果的な発見の選別について詳しく探求しています

「データプラットフォームから機械学習プラットフォームへ」

データ/機械学習は、私たちのテクノロジーの風景では最も人気のあるトピックです私はデータ/機械学習プラットフォームの理解と、それらのプラットフォームが基本的なものから複雑なものへと進化する方法を共有したいと思います最後に、最善を尽くします...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us