Search Results Nathan

基礎モデルは人間のようにデータにラベルを付けることができますか？

ChatGPTの登場以来、Large Language Models（LLM）の開発に前例のない成長が見られ、特にプロンプト形式の指示に従うように微調整されたチャットモデルの開発が増えてきました。しかし、これらのモデルの比較は、その性能を厳密にテストするために設計されたベンチマークの不足により明確ではありません。指示とチャットモデルの評価は本質的に困難であり、ユーザーの好みの大部分は質的なスタイルに集約されていますが、過去のNLP評価ははるかに定義されていました。このような状況で、新しい大規模言語モデル（LLM）が「モデルはChatGPTに対してN％の時間で優先される」という調子でリリースされるのはよくあることですが、その文から省かれているのは、そのモデルがGPT-4ベースの評価スキームで優先されるという事実です。これらのポイントが示そうとしているのは、異なる測定の代理となるものです：人間のラベラーが提供するスコア。人間のフィードバックから強化学習でモデルを訓練するプロセス（RLHF）は、2つのモデル補完を比較するためのインターフェースとデータを増やしました。このデータはRLHFプロセスで使用され、優先されるテキストを予測する報酬モデルを訓練するために使用されますが、モデルの出力を評価するための評価とランキングのアイデアは、より一般的なツールとなっています。ここでは、ブラインドテストセットのinstructとcode-instructの分割それぞれからの例を示します。反復速度の観点では、言語モデルを使用してモデルの出力を評価することは非常に効率的ですが、重要な要素が欠けています：下流のツールショートカットが元の測定形式と整合しているかどうかを調査することです。このブログ投稿では、オープンLLMリーダーボード評価スイートを拡張することで、選択したLLMから得られるデータラベルを信頼できるかどうかを詳しく調べます。 LLMSYS、nomic / GPT4Allなどのリーダーボードが登場し始めましたが、モデルの能力を比較するための完全なソースが必要です。一部のモデルは、既存のNLPベンチマークを使用して質問応答の能力を示すことができ、一部はオープンエンドのチャットからのランキングをクラウドソーシングしています。より一般的な評価の全体像を提示するために、Hugging Face Open LLMリーダーボードは、自動化された学術ベンチマーク、プロの人間のラベル、およびGPT-4の評価を含むように拡張されました。目次オープンソースモデルの評価関連研究 GPT-4評価の例さらなる実験まとめとディスカッションリソースと引用オープンソースモデルの評価ヒトがデータをキュレートする必要があるトレーニングプロセスのどのポイントでもコストがかかります。これまでに、AnthropicのHHHデータ、OpenAssistantの対話ランキング、またはOpenAIのLearning to Summarize /…

Spotifyで学んだ初心者データサイエンティストのための5つの重要なレッスン（パート2）

この記事は「データサイエンティストの新入生クロニクル」シリーズの第2部ですまずは第1部をチェックしてください！これによって、チームや利害関係者との信頼関係を築くのに役立ちます

アルファベットは、遠隔地域でのインターネット提供のためにレーザーに賭けています

ターラプロジェクトは、レーザーを使用してインターネットアクセスを遠隔地や農村地域にもたらすことを目的としています

CVPR 2023におけるGoogle

Googleのプログラムマネージャー、Shaina Mehtaが投稿しました今週は、バンクーバーで開催される最も重要なコンピュータビジョンとパターン認識の年次会議であるCVPR 2023の始まりを迎えます（追加のバーチャルコンテンツもあります）。Google Researchはコンピュータビジョンの研究のリーダーであり、プラチナスポンサーであり、メインカンファレンスで約90の論文が発表され、40以上のカンファレンスワークショップやチュートリアルに積極的に参加しています。今年のCVPRに参加する場合は、是非、ブースに立ち寄って、最新のマシンパーセプションの様々な分野に応用するための技術を積極的に探求している研究者とお話ししてください。弊社の研究者は、MediaPipeを使用したオンデバイスのMLアプリケーション、差分プライバシーの戦略、ニューラル輝度場技術など、いくつかの最近の取り組みについても話し、デモを行います。以下のリストでCVPR 2023で発表される弊社の研究についても詳しくご覧いただけます（Googleの所属は太字で表示されています）。理事会と組織委員会シニアエリアチェアには、Cordelia Schmid、Ming-Hsuan Yangが含まれます。エリアチェアには、Andre Araujo、Anurag Arnab、Rodrigo Benenson、Ayan Chakrabarti、Huiwen Chang、Alireza Fathi、Vittorio Ferrari、Golnaz Ghiasi、Boqing Gong、Yedid Hoshen、Varun Jampani、Lu…

二党間の法案が提出され、AIのリスクや規制に対処するためのブルーリボンパネルが提案されています

カリフォルニア州選出の代表テッド・リュウ（民主党）は、人工知能によって引き起こされるリスクを理解し、可能であれば規制するために、議会に必要な専門知識を提供する努力を率いています

Rにおける二元配置分散分析

二元分散分析（Two-way ANOVA）は、二つのカテゴリカル変数が量的連続変数に与える同時効果を評価することができる統計的方法です二元分散分析は…

医療界はAIに備えているのか？　医師、コンピューターサイエンティスト、政策立案者たちは、慎重な楽観主義を示しています

人工知能の会話が今では主流となり、2023年のMIT-MGB AI Curesカンファレンスの参加者数は過去の年に比べ倍増しました

非教師あり学習シリーズ：階層クラスタリングの探索

前回の「教師なし学習シリーズ」の投稿では、最も有名なクラスタリング手法の1つであるK平均法クラスタリングについて探究しました今回の投稿では、別の手法の背後にある方法について説明します...

Rendered.aiは、合成データの生成にNVIDIA Omniverseを統合します

Rendered.aiは、プラットフォームとして提供される合成データ生成（SDG）により、開発者、データサイエンティスト、その他の人々のAIトレーニングを簡素化しています。コンピュータビジョンAIモデルのトレーニングには、膨大で高品質で多様で偏りのないデータセットが必要です。これらを入手することは困難でコストがかかるため、AIの需要と供給の双方が増大する中で特に課題になります。 Rendered.aiのプラットフォームは、3Dシミュレーションから作成された物理的に正確な合成データを生成することにより、コンピュータビジョンモデルのトレーニングに役立ちます。「実世界のデータは、AIモデルを一般化するために必要なすべてのシナリオとエッジケースをキャプチャできないことがあり、それがAIおよび機械学習エンジニアにとってキーとなるSDGの場所です」と、シアトルの郊外であるベルビューに拠点を置くRendered.aiの創設者兼CEOであるNathan Kundtzは述べています。 NVIDIA Inceptionプログラムの一員であるRendered.aiは、オンライントレーニング、ロボティクス、自律走行などの多くのアプリケーションにラベル付き合成データを生成することができるOmniverse Replicatorをプラットフォームに統合しました。 Omniverse Replicatorは、Universal Scene Description（「OpenUSD」）、Material Definition Language（MDL）、およびPhysXを含む3Dワークフローのオープンスタンダードに基づいて構築され、仮想世界の風景と植生のモデリング、衛星画像のオブジェクト検出、さらには人間の卵細胞の生存可能性のテストに使用されています。 Omniverse Replicatorを使用して生成された合成画像。Rendered.ai提供。 Rendered.aiは、Omniverse ReplicatorのRTXアクセラレーション機能を活用することで、レイトレーシング、ドメインランダム化、マルチセンサーシミュレーションなどの機能を利用することができます。コンピュータビジョンエンジニア、データサイエンティスト、およびその他のユーザーは、クラウド上の簡単なウェブインターフェイスを介して合成データを迅速かつ簡単に生成することができます。「AIをトレーニングするために持つ必要があるデータは、実際にAIのパフォーマンスを支配する要因です」とKundtzは述べています。「Omniverse ReplicatorをRendered.aiに統合することで、さまざまな産業分野でより大きく、より優れたAIモデルをトレーニングするために合成データを利用するユーザーにとって、新しいレベルの簡単さと効率が実現されます。」 Rendered.aiは、カナダのバンクーバーで6月18日から22日まで開催されるコンピュータビジョンとパターン認識のカンファレンス（CVPR）で、Omniverse Replicatorとのプラットフォーム統合をデモンストレーションします。クラウドでの合成データ生成 AWS…

VoAGIニュース、6月14日：あなたの無料のローカルチャットGPT、GPT4All！• Falcon LLM：オープンソースのキング

GPT4Allは、あなたのドキュメントのためのローカルチャットGPTであり、無料です！ • Falcon LLM：オープンソースLLMの新しい王様 • ReactPyの始め方 • データストーリーテリングの技術をマスターする：データサイエンティストのためのガイド • より速いデータの取得のためのSQLクエリの最適化方法

NEWS

Learn more about Search Results Nathan - Page 6