Search Results リーダーボード

基礎モデルは人間のようにデータにラベルを付けることができますか？

ChatGPTの登場以来、Large Language Models（LLM）の開発に前例のない成長が見られ、特にプロンプト形式の指示に従うように微調整されたチャットモデルの開発が増えてきました。しかし、これらのモデルの比較は、その性能を厳密にテストするために設計されたベンチマークの不足により明確ではありません。指示とチャットモデルの評価は本質的に困難であり、ユーザーの好みの大部分は質的なスタイルに集約されていますが、過去のNLP評価ははるかに定義されていました。このような状況で、新しい大規模言語モデル（LLM）が「モデルはChatGPTに対してN％の時間で優先される」という調子でリリースされるのはよくあることですが、その文から省かれているのは、そのモデルがGPT-4ベースの評価スキームで優先されるという事実です。これらのポイントが示そうとしているのは、異なる測定の代理となるものです：人間のラベラーが提供するスコア。人間のフィードバックから強化学習でモデルを訓練するプロセス（RLHF）は、2つのモデル補完を比較するためのインターフェースとデータを増やしました。このデータはRLHFプロセスで使用され、優先されるテキストを予測する報酬モデルを訓練するために使用されますが、モデルの出力を評価するための評価とランキングのアイデアは、より一般的なツールとなっています。ここでは、ブラインドテストセットのinstructとcode-instructの分割それぞれからの例を示します。反復速度の観点では、言語モデルを使用してモデルの出力を評価することは非常に効率的ですが、重要な要素が欠けています：下流のツールショートカットが元の測定形式と整合しているかどうかを調査することです。このブログ投稿では、オープンLLMリーダーボード評価スイートを拡張することで、選択したLLMから得られるデータラベルを信頼できるかどうかを詳しく調べます。 LLMSYS、nomic / GPT4Allなどのリーダーボードが登場し始めましたが、モデルの能力を比較するための完全なソースが必要です。一部のモデルは、既存のNLPベンチマークを使用して質問応答の能力を示すことができ、一部はオープンエンドのチャットからのランキングをクラウドソーシングしています。より一般的な評価の全体像を提示するために、Hugging Face Open LLMリーダーボードは、自動化された学術ベンチマーク、プロの人間のラベル、およびGPT-4の評価を含むように拡張されました。目次オープンソースモデルの評価関連研究 GPT-4評価の例さらなる実験まとめとディスカッションリソースと引用オープンソースモデルの評価ヒトがデータをキュレートする必要があるトレーニングプロセスのどのポイントでもコストがかかります。これまでに、AnthropicのHHHデータ、OpenAssistantの対話ランキング、またはOpenAIのLearning to Summarize /…

倫理と社会ニュースレター＃4：テキストから画像へのモデルにおけるバイアス

要約: テキストから画像へのモデルのバイアスを評価するためにより良い方法が必要ですはじめにテキストから画像（TTI）生成は最近のトレンドであり、数千のTTIモデルがHugging Face Hubにアップロードされています。各モダリティは異なるバイアスの影響を受ける可能性がありますが、これらのモデルのバイアスをどのように明らかにするのでしょうか？このブログ投稿では、TTIシステムのバイアスの源泉、それらに対処するためのツールと潜在的な解決策について、私たち自身のプロジェクトと広範なコミュニティのものを紹介します。画像生成における価値観とバイアスのエンコードバイアスと価値観には非常に密接な関係があります。特に、これらが与えられたテキストから画像モデルのトレーニングやクエリに埋め込まれている場合、この現象は生成された画像に大きな影響を与えます。この関係は、広範なAI研究分野で知られており、それに対処するためのかなりの努力が進行中ですが、特定のモデルで進化する人々の価値観を表現しようとする複雑さは依然として存在しています。これは、適切に明らかにし、対処するための持続的な倫理的な課題を提起します。たとえば、トレーニングデータが主に英語である場合、それはおそらく西洋の価値観を伝えています。その結果、異なる文化や遠い文化のステレオタイプな表現が得られます。以下の例では、同じプロンプト「北京の家」に対してERNIE ViLG（左）とStable Diffusion v 2.1（右）の結果を比較すると、この現象が顕著に現れます：バイアスの源泉近年、自然言語処理（Abidら、2021年）およびコンピュータビジョン（BuolamwiniおよびGebru、2018年）の両方の単一モダリティのAIシステムにおけるバイアス検出に関する重要な研究が行われています。MLモデルは人々によって構築されるため、すべてのMLモデル（そして技術全般）にはバイアスが存在します。これは、画像の中で特定の視覚的特性が過剰または過少に表現される（たとえば、オフィスワーカーのすべての画像にネクタイがある）ことや、文化的および地理的なステレオタイプの存在（たとえば、白いドレスとベールを着た花嫁のすべての画像、代表的な花嫁のイメージである赤いサリーの花嫁など）が現れることで現れます。AIシステムは広く異なるセクターやツール（例：Firefly、Shutterstock）に展開される社会技術的なコンテキストで展開されるため、既存の社会的なバイアスや不平等を強化する可能性があります。以下にバイアスの源泉の非徹底的なリストを示します：トレーニングデータのバイアス：テキストから画像への変換のための人気のあるマルチモーダルデータセット（たとえば、テキストから画像へのLAION-5B、画像キャプショニングのMS-COCO、ビジュアルクエスチョンアンサリングのVQA v2.0など）には、多数のバイアスや有害な関連が含まれていることが判明しています（Zhaoら、2017年、PrabhuおよびBirhane、2021年、Hirotaら、2022年）。これらのデータセットでトレーニングされたモデルには、画像生成の多様性の欠如や、文化やアイデンティティグループの共通のステレオタイプが永続化するという初期の結果がHugging Face Stable Biasプロジェクトから示されています。たとえば、CEO（右）とマネージャー（左）のDall-E 2の生成結果を比較すると、両方とも多様性に欠けていることがわかります：事前トレーニングデータのフィルタリングにおけるバイアス：モデルのトレーニングに使用される前に、データセットに対して何らかの形のフィルタリングが行われることがよくあります。これにより、異なるバイアスが導入されます。たとえば、Dall-E 2の作者たちは、トレーニングデータのフィルタリングが実際にバイアスを増幅することを発見しました。これは、既存のデータセットが女性をより性的な文脈で表現するというバイアスや、使用されるフィルタリング手法の固有のバイアスに起因する可能性があると彼らは仮説を立てています。推論におけるバイアス：Stable…

AIを活用した亀の顔認識による保全の推進

私たちは、Zindiと出会いましたZindiは、補完的な目標を持つ専門のパートナーであり、アフリカのデータサイエンティストの最大のコミュニティであり、アフリカの最も切迫した問題を解決するために焦点を当てた競技会を開催しています私たちの科学チームの多様性、公正性、包括性（DE＆I）チームは、Zindiと協力して、保全活動を進め、AIへの参加を促進することができる科学的な課題を特定しましたZindiのバウンディングボックスカメの課題に触発され、私たちは実際の影響を持つ可能性のあるプロジェクトに着地しました：カメの顔認識です

research

AIモデルの知覚を測定する

知覚は、感覚を通じて世界を経験するプロセスであり、知能の重要な部分ですそして、人間レベルの知覚的な世界理解能力を持つエージェントを構築することは、ロボット工学、自動運転車、パーソナルアシスタント、医療画像など、ますます重要な課題ですが、それは困難な課題でもありますそこで、本日は、モデルの知覚能力を評価するための、実世界のビデオを使用したマルチモーダルベンチマークである「知覚テスト」を紹介いたします

research

レコメンデーションシステムにおけるディープラーニング：入門

レコメンダーシステムは、現在最も急速に進化している産業用機械学習アプリケーションの一つですビジネス的な観点から見れば、これは驚くべきことではありませんより良いレコメンデーションはより多くのユーザーをもたらしますそれは...

ウィンブルドン、ビデオハイライトの解説にAIを使用

この発表は、テニスがテクノロジーを受け入れるスポーツとして広がる傾向の一部です

Amazon SageMaker 上で MPT-7B を微調整する

毎週新しい大規模言語モデル（LLM）が発表され、それぞれが前任者を打ち負かして評価のトップを狙っています最新のモデルの1つはMPT-7Bです

Falcon LLM：オープンソースLLMの新しい王者

Falcon LLMは、LLaMAから王冠を奪った新しい大規模言語モデルです

Natural language processing

テクノロジー・イノベーション・インスティテュートは、最新鋭のFalcon LLM 40BファウンデーションモデルをAmazon SageMakerでトレーニングします

このブログ投稿は、AI-Cross Centerユニットの執行役員であり、TIIのLLMプロジェクトのプロジェクトリーダーであるDr. Ebtesam Almazrouei氏と共同執筆されましたアブダビの先進技術研究委員会の応用研究柱であるアラブ首長国連邦（UAE）のTechnology Innovation Institute（TII）は、基礎となる大規模言語モデルであるFalcon LLMを立ち上げました

Amazon SageMaker で大規模なモデル推論 DLC を使用して Falcon-40B をデプロイする

先週、テクノロジー・イノベーション・インスティチュート（TII）は、オープンソースの基礎的な大規模言語モデル（LLM）であるTII Falcon LLMを発表しましたFalconは、Amazon SageMakerで1兆トークンでトレーニングされ、ハグイングフェイスのランキングでトップクラスのパフォーマンス（執筆時点での第1位）を誇り、llama-65Bなどの他のLLMよりも比較的軽量でホストするのに費用がかからないとされています[…]

Learn more about Search Results リーダーボード - Page 10