ラミニAIに会ってください:開発者が簡単にChatGPTレベルの言語モデルをトレーニングすることができる、革命的なLLMエンジン

ラミニAIに会ってください:ChatGPTレベルの言語モデルを簡単にトレーニングできる、革命的なLLMエンジン

LLMをゼロから教えることは難しいです。なぜなら、微調整されたモデルがなぜ失敗するのかを理解するのには時間がかかり、小さなデータセットに対する微調整の反復サイクルは通常数ヶ月かかるからです。一方、プロンプトの調整の反復サイクルは数秒で行われますが、数時間後には性能が安定します。倉庫のギガバイトのデータはプロンプトのスペースに収まりません。

Laminiライブラリのわずか数行のコードを使うことで、機械学習に精通していない開発者でも、巨大なデータセット上でChatGPTと同等の高性能LLMをトレーニングすることができます。Lamini.aiによってリリースされたこのライブラリの最適化は、プログラマが現在利用できるものを超えており、RLHFなどの複雑な技術や幻想抑制などの簡単な技術も含まれています。OpenAIのモデルからHuggingFaceのオープンソースのモデルまで、Laminiは1行のコードでさまざまなベースモデルの比較を実行することを簡単にします。

LLMを開発するための手順:

  • Laminiは、微調整されたプロンプトとテキストの出力が可能なライブラリです。
  • Laminiライブラリを使用して簡単に微調整やRLHFを行う
  • これは、指示に従うLLMをトレーニングするために必要なデータを作成するために商業利用が承認された最初のホストされたデータジェネレータです。
  • 上記のソフトウェアを使用して指示に従うためのデータを作成するための最小限のプログラミング作業で無料でオープンソースのLLMを使用できます。

ベースモデルの英語の理解力は、一般の使用には十分です。しかし、自分の業界の専門用語や標準を教える場合、プロンプトの調整だけでは不十分であり、ユーザーは独自のLLMを開発する必要があります。

LLMは、以下の手順に従うことでChatGPTのようなユーザーケースを処理できます:

  1. ChatGPTのプロンプトの調整または他のモデルの使用。 チームは使いやすさを最適化し、LaminiライブラリのAPIを使用してモデル間を素早くプロンプト調整し、1行のコードでOpenAIとオープンソースのモデルを切り替えることができます。
  2. 大量の入出力データを作成。 これにより、それが受け取ったデータにどのように反応すべきかを示します。Laminiライブラリを使用してわずか100個から50,000個のデータポイントを生成するための数行のコードを含むリポジトリをリリースしました。このリポジトリには、パブリックで利用可能な50,000のデータセットが含まれています。
  3. 豊富なデータを使用して開始モデルを調整。 データジェネレータに加えて、合成データでトレーニングされたLamini調整LLMも共有しています。
  4. 微調整済みモデルをRLHFに通す。 Laminiは、RLHFを操作するために大規模な機械学習(ML)および人間のラベリング(HL)スタッフを必要としなくなります。
  5. クラウドに置く。 アプリケーションでAPIのエンドポイントを呼び出すだけです。

37,000個の生成された指示(70,000個のフィルタリング後)でPythia基本モデルをトレーニングした後、オープンソースの指示に従うLLMをリリースしました。Laminiは、従来の手間をかけずにRLHFと微調整の利点をすべて提供します。まもなく、手続き全体を管理するようになるでしょう。

チームは、エンジニアリングチームのトレーニングプロセスを簡素化し、LLMのパフォーマンスを大幅に向上させることに興奮しています。反復サイクルをより速く効率的に行うことができれば、より多くの人々がプロンプトの調整だけでなく、これらのモデルを構築できるようになることを願っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させまし...

人工知能

「2023年の最高のAIアバタージェネレーター10選」

ゲームの冒険に最適なバーチャルなキャラクターを選ぶというスリルを覚えていますか?今日では、バーチャルなアイデンティテ...

機械学習

聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化...

AIニュース

Android 14:より多様なカスタマイズ、制御、アクセシビリティ機能

「Android 14は個人的で保護的な機能を備え、ユーザーを最優先し、彼らの個性を祝福するためのものです」

AIニュース

「AIのための機会の議題」

今日は、できる限り多くの人々に利益をもたらすための具体的な政策提言を提供するためのAI機会アジェンダを共有しています

データサイエンス

AI増強ソフトウェアエンジニアリング:知っておくべきすべてのこと

この包括的なガイドで、AIを活用したソフトウェアエンジニアリングの急速に成長する分野について学び、どのようにソフトウェ...