Search Results ランキング

ChatGPTの初めての記念日：AIインタラクションの未来を変える

私たちの包括的な記事で、ChatGPTの1年間の旅とオープンソースのLarge Language Models（LLMs）の進化を探求してください技術の進歩、産業への応用、医療への影響、そしてAIの未来についての洞察を深く掘り下げますまた、OpenAIの噂されるQ*モデルについても触れます

ディープサーチ：Microsoft BingがGPT-4と統合

Microsoftは、OpenAIのGPT-4技術と統合した最新機能でオンライン検索を革命化する予定です。このBingの機能強化により、複雑なクエリのより微妙で包括的な探索が約束され、ユーザーの検索体験を豊かにします。ディープサーチの概要 MicrosoftのBingは、GPT-4のパワーを活用して、AIプロンプトの生成プロセスを簡略化することを目指しています。従来の検索とは異なり、漠然としたクエリを詳細なプロンプトに変換します。たとえば、日本のポイントシステムの仕組みについての検索は、忠誠度プログラム、特典、他の支払い方法との比較を探求するものに進化する可能性があります。ユーザー意図の理解ディープサーチは、GPT-4によって強化されたBingのウェブインデックスとランキングシステムを活用し、ユーザーの意図をより良く理解します。クエリを書き換えることで、標準的な検索では見落とされる可能性のある検索トピックのさまざまな側面をより深く探求し、より関連性の高い微妙な回答を提供します。ディープサーチのプロセスディープサーチの背後にある技術は、関連性、詳細さ、信頼性、タイムリネスに基づいて結果を詳細にランク付けします。ディープサーチを実行するには最大30秒かかる可能性がありますが、これはオプションの機能であり、Bingの標準検索を補完するものです。標準検索では1秒以下でより迅速な結果が提供されます。ディープサーチの活用例ディープサーチを実際に体験するには、Perplexity Proプランで動作するGPT-4パワーを活用したCopilot検索機能を探索することができます。これにより、クエリの書き換えなど、Copilotが最適な回答を見つけるために行う手順が示されます。Microsoftは、2024年にさらにAI機能を追加する計画を含め、ディープサーチを超えたユーザーエクスペリエンスの向上にコミットしています。 Microsoftの2024年の生成型AI計画さらに、MicrosoftはAIにおいて画期的な年を迎える準備を進めています。現在テスト中のGPT-4 TurboをCopilotに統合する予定であり、複雑なタスクの処理能力が向上します。また、画像生成のためのDALL-E 3、Microsoft Edgeユーザー向けのInline Compose、GPT-4 VisionによるマルチモーダルBingイメージ検索なども期待されており、画像とウェブ検索へのAIの統合が進んでいます。私たちの意見 MicrosoftのAIにおける革新的な進歩は、ディープサーチや近日公開予定の機能によって具現化され、AI支援の生産性と創造性において将来性のある未来を予感させます。新たな年に歩みを進めるにあたり、これらの進展はBingとCopilotを単なるツールではなく、デジタル体験の不可欠な要素として位置付けます。MicrosoftのAIを通じたユーザーエクスペリエンスの洗練への確固たるコミットメントは、オンライン検索と生産性の新たな時代を告げるものです。 MicrosoftのGPT-4によるディープサーチは、ユーザーが検索エンジンと関わる方法を再定義しようとしています。高度なAI技術のシームレスな統合により、複雑なクエリのより深い探求が約束されます。これは、CopilotとBingの機能を向上させる予定の機能とともに、AIにおける画期的な年を迎える舞台を設定しています。

スターリング-7B AIフィードバックからの強化学習によるLLM

UCバークレーの研究チームが、オープンソースの大規模言語モデル（LLM）であるStarling-7Bを導入しています。このモデルは人工知能フィードバック（RLAIF）からの強化学習を使用し、最新のGPT-4ラベル付きランキングデータセットであるNectarの力を活用しています。洗練された報酬トレーニングとポリシーチューニングパイプラインを組み合わせたStarling-7B-alphaは、言語モデルの性能において新たな基準を打ち立て、MT-Benchを除くすべてのモデルをしのぐ性能を発揮しています（ただし、OpenAIのGPT-4とGPT-4 Turboには及ばない）。強化学習の可能性教師あり微調整はチャットボットシステム開発において効果を示していますが、人間のフィードバックからの強化学習（RLHF）またはAIフィードバック（RLAIF）の可能性は限定的に調査されてきました。Zephyr-7BやNeural-Chat-7Bのような既存のモデルは、主導的な微調整（SFT）モデルと比較してRLHFの潜在能力を十分に示していませんでした。この問題に対処するため、研究チームはNectarを導入しました。これは、チャットに特化した高品質なランキングデータセットであり、183,000のプロンプトと3,800,000のペアワイズ比較からなります。このデータセットはRLHFの研究をより詳細に行うことを目的とし、さまざまなモデルから収集されたさまざまなプロンプトを提供しています。報酬モデルであるStarling-RM-7B-alphaおよびファインチューンされたLLMであるStarling-LM-7B-alphaのHuggingFaceでのリリースは、オープンソースAI研究の重要な進展を示しています。このモデルのMT-Benchスコアは、7.81から印象的な8.09に向上し、チャットボットの助けになる度合いを測るAlpacaEvalの向上も88.51％から91.99％に大幅に改善されました。他にも読む: 強化学習とは何か、そしてそれはどのように機能するのか（2023年）モデルの評価 Starling-7Bの評価には独自の課題があります。このLLMは、RLHF後の助けや安全性の機能が向上していることを示すMT-BenchおよびAlpacaEvalスコアの改善が証明されています。ただし、知識ベースの質問応答や数学、コーディングに関連する基本的な機能は一貫しているか、わずかな回帰を経験しています。直接チャットや匿名の比較のためにLMSYSチャットボットアリーナに組み込まれることで、人間の選好をテストするプラットフォームが提供されます。評価はまた、チャットモデルのベンチマークとしてのOpenLLMリーダーボードの使用における制限を強調し、Alpaca EvalとMT-Benchによるニュアンスのある評価の重要性を強調しています。合成優先データのGoodhartの法則考慮すべき重要な点は、合成された優先データのGoodhartの法則です。より高いMT-Benchスコアは、GPT-4による改善されたモデルの性能を示していますが、それが必ずしも人間の選好と相関するわけではありません。RLHFは主に応答スタイルを向上させることに寄与しており、特に助けや安全性の側面でスケーリングオンラインRL方法のポテンシャルを示しています。制限事項 Starling-7Bは優れた性能を持っていますが、推論や数学に関わるタスクには苦労しています。また、ジェイルブレイキングのプロンプトへの感受性や出力の冗長さなどの制限も認識されています。研究チームは改善のためにコミュニティとの協力を求めており、RLHFを使用したオープンデータセット、報酬モデル、言語モデルの向上に取り組んでいます。私たちの意見 RLAIFアプローチと綿密なデータセット作成を備えたStarling-7Bは、言語モデルにおける強化学習のポテンシャルを示すものです。課題や制約はまだ残っていますが、改善への取り組みと大規模なコミュニティとの協力により、Starling-7BはAI研究の進展する風景において輝く存在となっています。RLHFメカニズムの洗練とAI安全性研究の最前線への貢献について、さらなるアップデートをお楽しみに。

「プロダクションに適したRAGアプリケーションの12のチューニング戦略ガイド」

「実稼働のための検索増強生成（RAG）アプリケーションのパフォーマンス向上に調整できる戦略とパラメータ」

「MLOps をマスターするための5つの無料コース」

「機械学習の基礎を学び終え、次は何をすべきか悩んでいますか？ここは正しい場所です！」

MLOps

このAIニュースレターはあなたが必要とするものです＃76

今週、私たちはトランスフォーマーや大規模な言語モデル（LLM）の領域を超えた重要なAIの進展に焦点を当てました最近の新しいビデオ生成拡散ベースのモデルの勢いについて…

「UCバークレーの研究者たちは、スターリング-7Bを発表しました：AIフィードバックからの強化学習でトレーニングされたオープンな大規模言語モデル（LLM）です（RLAIF）」

大規模言語モデル（LLM）は、自然言語処理タスクのための人工知能モデルです。これらのモデルは膨大なデータセットでトレーニングされ、人間のようなテキストを理解し、生成することができます。彼らは人間のようなテキストを理解し、生成する能力によって自然言語処理を変革しました。その役割は、生活のあらゆる分野に及んでいます。 UCバークレーの研究者たちは、Reinforcement Learning from AI Feedback（RLAIF）によってトレーニングされたオープンな大規模言語モデル（LLM）であるStarling-7Bを開発しました。このモデルは、最近開発された報酬訓練およびポリシーチューニングパイプライン、新しいGPT-4ラベル付きランキングデータセットNectar、最先端の報酬訓練およびポリシーチューニングパイプラインの機能を活用しています。 https://starling.cs.berkeley.edu/ Starling-7Bの基盤は、GPT-4のラベル付きランキングデータセットNectarにあります。このデータセットには183,000のチャットプロンプトが含まれており、各プロンプトにはGPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct、およびLlama2-7Bなどのさまざまなモデルからの7つの応答があります。これにより、380万組の比較が可能となります。研究者たちは、GPT-4の順位付けを求める際に位置バイアスを軽減するためにかなりの努力を注いでおり、データセットのセクションで詳細に説明しています。 https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha 彼らは学習報酬モデルを使用してOpenchat 3.5言語モデルを洗練させ、結果は印象的であると結論づけました。アルパカ評価スコアは88.51％から91.99％に向上し、MT-Benchスコアは7.81から8.09に向上しました。これらのメトリックは、チャットボットの有用性を評価する基準として機能します。研究者たちは、Direct Preference Optimization（DPO）を使用してZephyra-7B、Neural-Chat-7B、およびTulu-2-DPO-70Bなどの既存のオープンソースモデルとモデルを比較しました。これらのモデルはChatbot Arenaで良いパフォーマンスを発揮しましたが、MT BenchではOpenHermes 2.5やOpenchat 3.5などのトップSFTモデルと比較してRLHFの完全なポテンシャルには及びませんでした。研究者たちは、このモデルには特定の課題があると強調しました。それは欺瞞的または操作的な手法に対して脆弱です。また、モデルは数学的または推論タスクに苦労し、出力の事実的な正確性は時々しか保証されません。彼らはまた、モデルが時折冗長になり、ジェイルブレイキングプロンプトに対しても脆弱であることを指摘しました。これらの欠点に対しては、Starling-7Bの改善に引き続き取り組んでいます。この問題に対処するために、彼らはGPT-4をガイドとして使用するルールベースの報酬モデルを利用して、モデルをさらに洗練することを提案しました。GPT-4の技術レポートで概説されている技術を使用します。まとめると、Starling-7Bは、LLMにおける重要な進歩を示し、AIフィードバックからの強化学習の可能性を示しています。自然言語処理の分野は、これらのモデルとコミュニティの共有知識の協力によって向上しています。研究者たちは、モデルのパフォーマンスを向上させ、制限を解決するために取り組んでいます。この投稿は、UCバークレーの研究者によるStarling-7Bの紹介：AIフィードバックからの強化学習によってトレーニングされたオープンな大規模言語モデル（LLM）が最初に掲載されたMarkTechPostです。

「Perplexity（パープレキシティ）が2つの新たなオンラインLLMモデルを発表：『pplx-7b-online』と『pplx-70b-online』」

パープレキシティ（Perplexity）は、革新的なAIスタートアップとして、情報検索システムを変革する解決策を発表しました。このローンチでは、革新的なLLM（Large Language Models）の2つ、pplx-7b-onlineとpplx-70b-onlineが公にアクセス可能なAPIを介して導入されました。これらのモデルは、Claude 2などの従来のオフラインLLMとは異なり、ライブインターネットデータを活用してリアルタイムで正確なクエリの応答を実現するため、最新のスポーツスコアなどの最新情報といった即座の情報に対する課題を克服しています。パープレキシティのpplxオンラインモデルがAIの領域で差別化される要因は、APIを介して提供されるユニークなオファーにあります。Google Bard、ChatGPT、BingChatなどの既存のLLMは、オンラインブラウジングで進歩を遂げていますが、APIを介してこの機能を拡張しているものはありません。パープレキシティは、社内の検索インフラストラクチャにこの機能を帰属し、信頼性のある情報源を優先し、高度なランキングメカニズムを活用してリアルタイムに関連性の高い信頼性のある情報を提示するための幅広い優れたウェブサイトのリポジトリをカバーしています。これらのリアルタイムの「スニペット」はLLMに統合され、最新の情報を容易に反映しています。両モデルは、mistral-7bベースモデルとllama2-70bベースモデルに基づいて構築されています。特筆すべきことに、Perplexity AIは、最先端のテクノロジーと統合するだけでなく、最適なパフォーマンスを引き出すためにこれらのモデルを細かく調整しています。この注意深いプロセスでは、社内データ請負業者によってキュレートされた多様なトップクラスのトレーニングセットを活用しています。この継続的な改善作業により、モデルは助けになり、事実性と新鮮さの面で優れた性能を発揮します。これらのモデルの効果を検証するために、Perplexity AIは、助けになり、事実性、最新の情報性などの要素を評価する多様なプロンプトを使用して包括的な評価を実施しました。これらの評価では、オープンAIのgpt-3.5やメタAIのllama2-70bなどの主要なモデルとの比較を行い、全体的なパフォーマンスと特定の基準に焦点を当てました。これらの評価の結果は印象的です。pplx-7b-onlineおよびpplx-70b-onlineは、鮮度、事実性、総合的な好みの面で、対応する他のモデルを常に上回っています。例えば、鮮度の基準では、pplx-7bとpplx-70bは、gpt-3.5とllama2-70bを上回る1100.6と1099.6の推定Eloスコアを獲得しました。即座に、開発者はPerplexityのAPIにアクセスして、これらのモデルのユニークな機能を活用したアプリケーションを作成することができます。価格体系は利用料に基づいており、早期テスター向けの特別プランも用意されています。このパイオニア的なリリースにより、PerplexityはAIによる情報検索システムに革新的な変革をもたらしています。pplx-7b-onlineとpplx-70b-onlineモデルがアクセス可能なAPIを介して導入され、既存のオフラインLLMの制約を解消し、正確かつ最新の事実性のある情報の提供で優れたパフォーマンスを発揮しています。 pplx-apiでの開始はこちら。 Perplexity Labsでオンラインモデルを無料で試す。この記事は、PerplexityがオンラインLLMモデル2つを発表：「pplx-7b-online」と「pplx-70b-online」記事から取得されました。MarkTechPostから転載されました。

「2024年に必ず試してみるべきトップ15のベクターデータベース」

イントロダクション迅速に進化するデータサイエンスの風景において、ベクトルデータベースは高次元データの効率的な保存、検索、操作を可能にする重要な役割を果たしています。本稿では、ベクトルデータベースの定義と意義を探求し、従来のデータベースとの比較を行い、2024年に検討すべきトップ15のベクトルデータベースについて詳細な概要を提供します。ベクトルデータベースとは何ですか？ベクトルデータベースは、本質的にはベクトル化されたデータを効率的に処理するために設計されています。伝統的なデータベースが構造化データの保存に優れているのに対し、ベクトルデータベースは多次元空間におけるデータポイントの管理に特化しており、人工知能、機械学習、および自然言語処理のアプリケーションに理想的です。ベクトルデータベースの目的は、ベクトル埋め込み、類似検索、高次元データの効率的な処理を支援する能力にあります。伝統的なデータベースは非構造化データに苦労する場合があるのに対し、ベクトルデータベースはデータポイント間の関係性や類似性が重要なシナリオで優れたパフォーマンスを発揮します。ベクトルデータベース vs 伝統的なデータベース側面伝統的なデータベースベクトルデータベースデータの種類テーブル形式の単純なデータ（単語、数字）。専用の検索を行う複雑なデータ（ベクトル）。検索方法正確なデータの一致。近似最近傍探索（Approximate Nearest Neighbor、ANN）を使用した最も近い一致。検索手法標準的なクエリメソッド。ハッシュやグラフベースの検索など、ANNに特化した手法。非構造化データの処理予め定義された形式の不足により困難。…

「単一細胞生物学のAIのフロンティアを探索する：GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

単一細胞生物学における基礎モデルの応用は、研究者の間で最近の議論のトピックとなっています。scGPT、GeneCompass、Geneformerなどのモデルは、この分野において有望なツールの一部です。しかし、特にゼロショット設定での効果が懸念されており、特に探索的実験や微調整のための明確なラベルの欠如がこの分野に関与する場合において、その有効性が問題となっています。この論文は、この問題に基づいて、これらのモデルのゼロショットパフォーマンスを徹底的に評価しています。以前の研究では、特定のタスクに対してこれらのモデルを微調整することに頼ってきましたが、この分野の性質や高い計算要件のため、その限界は一目瞭然です。そのため、この課題に対処するため、マイクロソフトの研究者はGeneformerとscGPTの基礎モデルのゼロショットパフォーマンスを、異なるデータセットや細胞型クラスタリング、バッチエフェクトの修正、事前トレーニング目標に基づくモデルの入力再構築の有用性など、多様なタスクについて評価しました。これらの2つのモデルを選んだ理由は、（評価時点で）事前学習済みの重みが利用可能であるためです。評価には、研究者はそれぞれのデータセットで訓練された生成モデルであるscVIを比較対象としました。以下のメトリックスを各タスクに使用しました：細胞埋め込みの評価には、Average Silhouette Width（ASW）およびAverage Bio（AvgBIO）スコアを使用し、細胞型が埋め込み空間内でどの程度一意であるかを計算しました。バッチ統合においては、スケール0から1までのAWSスコアの変形を使用し、0はバッチの完全な分離を示し、1は完璧なバッチの混合を示します。 scGPTおよびGeneformerの事前トレーニング目標のパフォーマンス評価には、それぞれ平均二乗誤差（MSE）およびピアソンの相関係数を使用しました。 scGPTおよびGeneformerは、両方のメトリックスにおいてベースライン戦略よりも劣った結果となりました。Geneformerは異なるデータセットに対して高い分散を示し、scGPTは1つのデータセットにおいてはベースモデルscVIよりも優れた性能を発揮しましたが、2つのデータセットでは遅れを取りました。その後、研究者は事前学習データセットがモデルのパフォーマンスに与える影響を評価しました。特にscGPT（scGPTの4つのバリアント）に焦点を当て、すべてのモデルバリアントで中央値スコアが改善されたことが分かりました。バッチエフェクトの評価では、両モデルが低い結果を示し、しばしばscVIのようなモデルに遅れを取ることから、ゼロショット環境においてバッチエフェクトに完全に頑健ではないことが示されています。最後の評価セットでは、研究者はscGPTが遺伝子の発現を再構築できないこと、一方Geneformerがより良いパフォーマンスを示すことを発見しました。ベースラインと比較した結果、すべてのscGPTバリアントよりもベースラインの予測の方が優れており、Geneformerはデータセットの1つで平均ランキングよりも優れた性能を発揮しました。結論として、研究者は単一細胞生物学に適用した場合のscGPTとGeneformerのゼロショット能力を詳細に分析し、その結果はこれらのモデルの劣ったパフォーマンスを示しています。研究者はさらなる研究が必要な領域についても洞察を提供し、特に事前トレーニングタスクとデータセット、およびダウンストリーム分析タスクのパフォーマンスとの関係を明示しました。

Learn more about Search Results ランキング - Page 4