Learn more about Search Results リーダーボード - Page 2
- You may be interested
- DB-GPT プロプライエタリLLMテクノロジー...
- 「Python 正しい方法で積分を計算する」
- 『ジュリエット・パウエル&アート・ク...
- 初めての機械学習モデルを展開する
- ジェン AI for the Genome LLM は COVID ...
- 「データビジュアルの誤り:一般的なGPT-4...
- NVIDIA AI研究者が提案するTied-Lora 低ラ...
- 次元をパンプアップせよ:DreamEditorは、...
- 自分のドキュメントで春のAIとOpenAI GPT...
- 大学フットボールカンファレンスの再編成 ...
- 人間の嗅覚とAIが匂いの命名で競い合う
- 「次元の呪い、解明される」
- Pythonでのデータサイエンスの線形代数講座
- 「Scikit-LLMを使用したゼロショットテキ...
- 「Azure OpenAI Studioを使用したNL2SQLシ...
一時的なグラフのベンチマーク (Ichijiteki na gurafu no benchimāku)
最近では、公開データセットや標準化された評価プロトコルの提供により、静的グラフにおける機械学習において重大な進展がなされています
リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか
パート1では、非最適な埋め込みモデル、効率の悪いチャンキング戦略、およびメタデータフィルタリングの不足により、LLMから関連する応答を得るのが難しくなることをご覧いただけます
ChatGPTの初めての記念日:AIインタラクションの未来を変える
私たちの包括的な記事で、ChatGPTの1年間の旅とオープンソースのLarge Language Models(LLMs)の進化を探求してください技術の進歩、産業への応用、医療への影響、そしてAIの未来についての洞察を深く掘り下げますまた、OpenAIの噂されるQ*モデルについても触れます
スターリング-7B AIフィードバックからの強化学習によるLLM
UCバークレーの研究チームが、オープンソースの大規模言語モデル(LLM)であるStarling-7Bを導入しています。このモデルは人工知能フィードバック(RLAIF)からの強化学習を使用し、最新のGPT-4ラベル付きランキングデータセットであるNectarの力を活用しています。洗練された報酬トレーニングとポリシーチューニングパイプラインを組み合わせたStarling-7B-alphaは、言語モデルの性能において新たな基準を打ち立て、MT-Benchを除くすべてのモデルをしのぐ性能を発揮しています(ただし、OpenAIのGPT-4とGPT-4 Turboには及ばない)。 強化学習の可能性 教師あり微調整はチャットボットシステム開発において効果を示していますが、人間のフィードバックからの強化学習(RLHF)またはAIフィードバック(RLAIF)の可能性は限定的に調査されてきました。Zephyr-7BやNeural-Chat-7Bのような既存のモデルは、主導的な微調整(SFT)モデルと比較してRLHFの潜在能力を十分に示していませんでした。 この問題に対処するため、研究チームはNectarを導入しました。これは、チャットに特化した高品質なランキングデータセットであり、183,000のプロンプトと3,800,000のペアワイズ比較からなります。このデータセットはRLHFの研究をより詳細に行うことを目的とし、さまざまなモデルから収集されたさまざまなプロンプトを提供しています。 報酬モデルであるStarling-RM-7B-alphaおよびファインチューンされたLLMであるStarling-LM-7B-alphaのHuggingFaceでのリリースは、オープンソースAI研究の重要な進展を示しています。このモデルのMT-Benchスコアは、7.81から印象的な8.09に向上し、チャットボットの助けになる度合いを測るAlpacaEvalの向上も88.51%から91.99%に大幅に改善されました。 他にも読む: 強化学習とは何か、そしてそれはどのように機能するのか(2023年) モデルの評価 Starling-7Bの評価には独自の課題があります。このLLMは、RLHF後の助けや安全性の機能が向上していることを示すMT-BenchおよびAlpacaEvalスコアの改善が証明されています。ただし、知識ベースの質問応答や数学、コーディングに関連する基本的な機能は一貫しているか、わずかな回帰を経験しています。 直接チャットや匿名の比較のためにLMSYSチャットボットアリーナに組み込まれることで、人間の選好をテストするプラットフォームが提供されます。評価はまた、チャットモデルのベンチマークとしてのOpenLLMリーダーボードの使用における制限を強調し、Alpaca EvalとMT-Benchによるニュアンスのある評価の重要性を強調しています。 合成優先データのGoodhartの法則 考慮すべき重要な点は、合成された優先データのGoodhartの法則です。より高いMT-Benchスコアは、GPT-4による改善されたモデルの性能を示していますが、それが必ずしも人間の選好と相関するわけではありません。RLHFは主に応答スタイルを向上させることに寄与しており、特に助けや安全性の側面でスケーリングオンラインRL方法のポテンシャルを示しています。 制限事項 Starling-7Bは優れた性能を持っていますが、推論や数学に関わるタスクには苦労しています。また、ジェイルブレイキングのプロンプトへの感受性や出力の冗長さなどの制限も認識されています。研究チームは改善のためにコミュニティとの協力を求めており、RLHFを使用したオープンデータセット、報酬モデル、言語モデルの向上に取り組んでいます。 私たちの意見 RLAIFアプローチと綿密なデータセット作成を備えたStarling-7Bは、言語モデルにおける強化学習のポテンシャルを示すものです。課題や制約はまだ残っていますが、改善への取り組みと大規模なコミュニティとの協力により、Starling-7BはAI研究の進展する風景において輝く存在となっています。RLHFメカニズムの洗練とAI安全性研究の最前線への貢献について、さらなるアップデートをお楽しみに。
「Amazon SageMaker ClarifyとMLOpsサービスを使用して、LLM評価をスケールで運用化する」
ここ数年、大規模言語モデル(LLM)は類稀なる能力を持ち、テキストの理解、生成、操作が可能な優れたツールとして注目されてきましたその潜在能力は、会話エージェントからコンテンツ生成、情報検索まで広範囲にわたり、あらゆる産業を革新する可能性を秘めていますしかし、この潜在能力を生かす一方で、責任ある利用と...
Zephyr LLM アライメントの直接蒸留
近年、小さなオープン大規模言語モデルの能力とパフォーマンスは大幅に向上しており、初期のGPT-2モデルからよりコンパクトで正確かつ効果的なLLMフレームワークへの進歩を目撃してきましたこれらのフレームワークは、Chinchillaスケーリングが推奨する「計算最適」トークン量よりもはるかに多くのトークンを使用しています
「OpenAIモデルに対するオープンソースの代替手段の探索」
序文 AIの領域では、11月はドラマチックな展開がありました。GPTストアやGPT-4-turboのローンチ、そしてOpenAIの騒動まで、まさに忙しい一ヶ月でした。しかし、ここで重要な問題が浮かび上がります:クローズドモデルとその背後にいる人々はどれだけ信頼できるのでしょうか?自分が実際に運用しているモデルが内部の企業ドラマに巻き込まれて動作停止するのは快適な体験とは言えません。これはオープンソースモデルでは起こらない問題です。展開するモデルには完全な管理権限があります。データとモデルの両方に対して主権を持っています。しかし、OSモデルをGPTと置き換えることは可能でしょうか?幸いなことに、既に多くのオープンソースモデルが、GPT-3.5モデル以上の性能を発揮しています。本記事では、オープンソースのLLM(Large Language Models)およびLMM(Large Multi-modal Models)の最高の代替品をいくつか紹介します。 学習目標 オープンソースの大規模言語モデルについての議論。 最新のオープンソース言語モデルとマルチモーダルモデルについての探求。 大規模言語モデルを量子化するための簡易な導入。 LLMをローカルおよびクラウド上で実行するためのツールやサービスについて学ぶ。 この記事は、データサイエンスブログマラソンの一環として公開されました。 オープンソースモデルとは何ですか モデルがオープンソースと呼ばれるのは、モデルの重みとアーキテクチャが自由に利用できる状態にあるからです。これらの重みは、例えばMeta’s Llamaのような大規模言語モデルの事前訓練パラメータです。これらは通常、ファインチューニングされていないベースモデルやバニラモデルです。誰でもこれらのモデルを使用し、カスタムデータでファインチューニングして下流のアクションを実行することができます。 しかし、それらはオープンなのでしょうか?データはどうなっているのでしょうか?多くの研究所は、著作権に関する懸念やデータの機密性の問題などの理由から、ベースモデルの訓練データを公開しません。これはまた、モデルのライセンスに関する部分にも関連しています。すべてのオープンソースモデルは、他のオープンソースソフトウェアと同様のライセンスが付属しています。Llama-1などの多くのベースモデルは非商用ライセンスとなっており、これらのモデルを利用して収益を上げることはできません。しかし、Mistral7BやZephyr7Bなどのモデルは、Apache-2.0やMITライセンスが付属しており、どこでも問題なく使用することができます。 オープンソースの代替品 Llamaのローンチ以来、オープンソースの領域ではOpenAIモデルに追いつこうとする競争が繰り広げられています。そしてその結果は今までにないものでした。GPT-3.5のローンチからわずか1年で、より少ないパラメータでGPT-3.5と同等またはそれ以上のパフォーマンスを発揮するモデルが登場しました。しかし、GPT-4は依然として理性や数学からコード生成までの一般的なタスクには最も優れたモデルです。オープンソースモデルのイノベーションと資金調達のペースを見ると、GPT-4のパフォーマンスに近づくモデルが間もなく登場するでしょう。とりあえず、これらのモデルの素晴らしいオープンソースの代替品について話しましょう。 Meta’s Llama 2 Metaは今年7月にLlama-2という彼らの最高のモデルをリリースし、その印象的な能力により一瞬で人気を集めました。MetaはLlama-7b、Llama-13b、Llama-34b、Llama-70bの4つの異なるパラメータサイズのLlama-2モデルをリリースしました。これらのモデルは、それぞれのカテゴリにおいて他のオープンモデルを上回る性能を発揮しました。しかし、現在ではmistral-7bやZephyr-7bのような複数のモデルが、多くのベンチマークで小さなLlamaモデルを上回る性能を発揮しています。Llama-2 70bはまだそのカテゴリーで最高のモデルの一つであり、要約や機械翻訳などのタスクにおいてGPT-4の代替モデルとして価値があります。 Llama-2はGPT-3.5よりも多くのベンチマークで優れたパフォーマンスを発揮し、GPT-4に迫ることもできました。以下のグラフは、AnyscaleによるLlamaとGPTモデルのパフォーマンス比較です。…
このAIリサーチはGAIAを紹介します:一般AIの能力の次のマイルストーンを定義するベンチマーク
FAIR Meta、HuggingFace、AutoGPT、GenAI Metaの研究者は、論理思考や多様性のハンドリングなどの基本的なスキルを必要とする現実世界の問題を、人間のような応答能力を持つ高度なAIに対してテストする問題に取り組んでいます。GAIAの開発は、人間レベルの堅牢性を目指すことで、人工汎用知能(AGI)の達成を目指しています。 GAIAは、人間と高度なAIの両方にとって困難なタスクに重点を置くことで、現在のトレンドから外れています。クローズドシステムとは異なり、GAIAは現実のAIアシスタントの使用例を反映しています。GAIAは、品質を重視し、GPT-4とのプラグインを使用して人間の優位性を確認するため、慎重に選ばれたゲーム可能性のない質問を特集しています。それは、マルチステップの完了を確実にし、データの汚染を防ぐための質問設計を指南することを目指しています。 LLM(Language and Logic Models)は現在のベンチマークを超える性能を持つようになってきており、その能力を評価することはますます困難になっています。ただし、複雑なタスクに重点を置くにもかかわらず、LLMにとっての難易度レベルは必ずしも人間を挑戦するものではありません。この課題に対処するために、GAIAという新しいモデルが導入されました。GAIAは、LLMの評価の落とし穴を回避するために、実世界の問題に焦点を当てた一般的なAIアシスタントです。AIアシスタントの使用例を反映する人間が作成した質問によって実用的性を確保しています。NLPにおけるオープンエンドの生成を目指すことで、GAIAは評価ベンチマークを再定義し、次世代のAIシステムを進化させることを目指しています。 GAIAによって行われたベンチマークでは、実世界の質問に対する人間とGPT-4の間に大きな性能差があることが明らかになりました。人間は92%の成功率を達成しましたが、GPT-4はわずか15%のスコアでした。ただし、GAIAの評価では、LLMの正確性と使用例は、ツールAPIやWebアクセスを介して向上させることができることも示されています。これは、ヒューマン・AIモデルと次世代のAIシステムの進歩のための機会を提供します。全体として、このベンチマークはAIアシスタントの明確なランキングを提供し、一般的なAIアシスタントの性能向上のためにさらなる改善の必要性を浮き彫りにしています。 まとめると、GAIAによる実世界の質問に対する一般的なAIアシスタントの評価のためのベンチマークでは、ヒューマンがプラグインと共にGPT-4を凌駕していることが示されました。それは概念的に単純で複雑な質問に対しても、人間と同様の堅牢性をAIシステムが示す必要性を強調しています。ベンチマークの方法論のシンプルさ、ゲーム性のなさ、解釈可能性は、人工汎用知能を実現するための効率的なツールとして役立ちます。さらに、注釈付きの質問とリーダーボードの公開は、NLPおよびそれ以上の領域におけるオープンエンドの生成評価の課題に対処することを目指しています。
「ODSC West 2023の優れたバーチャルセッションをこちらでご覧ください」
ODSCウエストは終了し、私たちは1年間待たなければならないでしょうそれまでに、仮想セッションの録画がオンデマンドで利用可能になりました!ソリューションショーケースのトークやキーノートのトークは無料で利用できますトピックに関する詳細な情報を提供するトレーニングセッションなどもあります...
このAIニュースレターはあなたが必要なすべてです#75
今週は、OpenAIのドラマが終わり、Sam AltmanとGreg BrockmanがOpenAIに復帰し、2人の新しい取締役が任命されました(既存の1人とともに…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.