Learn more about Search Results IDEFICS
- You may be interested
- 「Amazon SageMaker JumpStartを使用した...
- 近接度とコミュニティ:PythonとNetworkX...
- ユニバーサルシミュレータ(UniSim)をご紹...
- テキストデータのチャンキング方法-比較分析
- 「MITの研究者たちは、人工知能(AI)の技...
- 『ScaleCrafterを知る:事前学習済みの拡...
- マイクロソフト エージェントAIがIdea2Img...
- 価値あるデータテストの作成方法
- Q-Learningの紹介 パート2/2
- Hugging Face Transformers と Amazon Sag...
- 『自分のデータでChatGPTを訓練する方法:...
- 「なぜ自分自身のLLMモデルを所有すること...
- このAI研究は、CoDi-2を紹介します:イン...
- Googleの安全なAIフレームワークを紹介します
- AnomalyGPT:LVLMを使用して産業の異常を...
ハギングフェイスがIDEFICSを導入:視覚言語モデルを活用した先駆的なオープンマルチモーダル対話AI
人工知能のダイナミックな景色において、続く挑戦がこの分野の進歩に影を落としています:最先端のAIモデルについての謎。これらの専有の驚異は確かに印象的ですが、オープンな研究開発の進展を隠す秘密主義の雰囲気を保ち続けています。この巨大なギャップを埋めるため、Hugging Faceの専門の研究チームが驚異的なブレークスルーを演出しました – IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)の誕生です。このマルチモーダル言語モデルは単なる競争相手ではありません。その能力に関しては、専有の競合モデルと肩を並べています。 さらに、IDEFICSは公に利用可能なデータを利用して、新鮮な透明性で動作します。この取り組みの背後にある推進力は、AIにおけるオープンモデルの進化、アクセシビリティ、および協力的なイノベーションを促進することです。テキストと画像の両方の入力を適切に処理して一貫した会話の出力を生み出すことができるオープンなAIモデルが求められる世界において、IDEFICSは進歩の光として登場します。 現在の方法論は称賛されるものですが、専有の制約にはまだ絡まっています。しかしIDEFICSを指導するビジョナリーたちはより大胆な提案をしています:専有の競合モデルと同等のパフォーマンスを持ち、公に利用可能なデータにのみ依存するオープンアクセスモデルです。この画期的な創造物はFlamingoの能力に根ざしており、80兆パラメータバリアントと90億パラメータバリアントの2つの形態で提供されています。これにより、さまざまなアプリケーションに適応できるようになっています。研究チームの願望は単なる進歩を超えており、マルチモーダルな会話型AIの空白を埋め、他の人が追随するための舞台を設けることです。 IDEFICSが登場し、マルチモーダルモデルの真の天才です。画像とテキストのシーケンスを取り込んで、これらの入力を文脈を持った一貫した会話テキストに変換します。この革新は、チームの透明性の大きな使命とシームレスに結びついています。このモデルの基盤は、公に利用可能なデータとモデルの塔であり、エントリーの壁を効果的に壊します。そのパフォーマンスには証拠があります:IDEFICSは、簡単に画像に関するクエリに答えたり、視覚的なストーリーを生き生きと描写したり、複数の画像に根ざしたストーリーを創り出したりすることで驚かせます。80兆と90億のパラメータバリアントのタンデムは、前例のないスケーラビリティを持っています。このマルチモーダルの驚異は、煩雑なデータキュレーションとモデル開発を経て誕生し、オープンな研究とイノベーションの物語に新たな章を切り開いています。 https://huggingface.co/blog/idefics 専有の競合モデルによって引き起こされる困難に対する響きを持つIDEFICSは、オープンイノベーションの火の玉として登場します。創造だけでなく、このモデルはアクセス可能で協力的なAIの開発への歩みを象徴しています。テキストと画像の入力の融合が、産業全体にわたる変革の到来を告げています。透明性、倫理的な審査、共有の知識への研究チームの献身は、AIの潜在能力を具現化し、大勢の人々に利益をもたらすことになります。その本質において、IDEFICSはオープンな研究の力を具体化し、超越的なテクノロジーの新時代を予示しています。AIコミュニティがこの鼓舞に呼応するにつれて、可能性の境界は広がり、より明るく包括的なデジタルの明日が約束されます。
「IDEFICSをご紹介します:最新の視覚言語モデルのオープンな再現」
私たちは、IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)をリリースすることを喜んでいます。IDEFICSは、Flamingoに基づいたオープンアクセスのビジュアル言語モデルです。FlamingoはDeepMindによって開発された最先端のビジュアル言語モデルであり、公開されていません。GPT-4と同様に、このモデルは画像とテキストの任意のシーケンスを受け入れ、テキストの出力を生成します。IDEFICSは、公開されているデータとモデル(LLaMA v1およびOpenCLIP)のみを使用して構築されており、ベースバージョンと指示付きバージョンの2つのバリアントが9,000,000,000および80,000,000,000のパラメーターサイズで利用可能です。 最先端のAIモデルの開発はより透明性を持つべきです。IDEFICSの目標は、Flamingoのような大規模な専有モデルの能力に匹敵するシステムを再現し、AIコミュニティに提供することです。そのために、これらのAIシステムに透明性をもたらすために重要なステップを踏みました。公開されているデータのみを使用し、トレーニングデータセットを探索するためのツールを提供し、このようなアーティファクトの構築における技術的な教訓とミスを共有し、リリース前に敵対的なプロンプトを使用してモデルの有害性を評価しました。IDEFICSは、マルチモーダルAIシステムのよりオープンな研究のための堅固な基盤として機能することを期待しています。また、9,000,000,000のパラメータースケールでのFlamingoの別のオープン再現であるOpenFlamingoなどのモデルと並んでいます。 デモとモデルをハブで試してみてください! IDEFICSとは何ですか? IDEFICSは、80,000,000,000のパラメーターを持つマルチモーダルモデルであり、画像とテキストのシーケンスを入力とし、一貫したテキストを出力します。画像に関する質問に答えることができ、視覚的なコンテンツを説明し、複数の画像に基づいて物語を作成することができます。 IDEFICSは、Flamingoのオープンアクセス再現であり、さまざまな画像テキスト理解ベンチマークで元のクローズドソースモデルと同等のパフォーマンスを発揮します。80,000,000,000および9,000,000,000のパラメーターの2つのバリアントがあります。 会話型の使用事例に適した、idefics-80B-instructとidefics-9B-instructのファインチューニングバージョンも提供しています。 トレーニングデータ IDEFICSは、Wikipedia、Public Multimodal Dataset、LAION、および新しい115BトークンのデータセットであるOBELICSのオープンデータセットの混合物でトレーニングされました。OBELICSは、ウェブからスクレイプされた141,000,000の交互に配置された画像テキストドキュメントで構成され、353,000,000の画像を含んでいます。 OBELICSの内容をNomic AIで探索できるインタラクティブな可視化も提供しています。 IDEFICSのアーキテクチャ、トレーニング方法論、評価、およびデータセットに関する詳細は、モデルカードと研究論文で入手できます。さらに、モデルのトレーニングから得られた技術的な洞察と学びを文書化しており、IDEFICSの開発に関する貴重な見解を提供しています。 倫理的評価…
Amazon SageMaker JumpStartを使用した対話型ビジュアル言語処理
ビジュアル言語処理(VLP)は生成AIの最前線にあり、言語知能、ビジョン理解、処理を包括するマルチモーダル学習の進展を推進しています大規模な言語モデル(LLM)と大量のマルチモーダリティデータで訓練された対照的な言語-画像プレトレーニング(CLIP)との組み合わせにより、ビジュアル言語モデル(VLM)は特に画像キャプショニングなどのタスクに優れた能力を示しています
イメージの中の数学を解読する:新しいMathVistaベンチマークがビジュアルと数理推論のAIの限界を押し広げている方法
数学的な推論能力を大型言語モデル(LLM)および大型マルチモーダルモデル(LMM)が視覚的な文脈で評価するためのベンチマークとしてMATHVISTAが紹介されています。この基準は、さまざまな数学的およびグラフィカルなタスクを組み合わせ、既存のデータセットと新しいデータセットを含んでいます。LLM、ツールを補助したLLM、およびLMMを含む11の主要なモデルを初期評価すると、人間の能力と比べて実質的な性能差が見られ、さらなる進化の必要性が示されています。このベンチマークは、数学的および視覚的な推論能力を持つ汎用のAIエージェントを開発するために重要です。 現在のLLMの数学的推論能力を評価するベンチマークは、テキストベースのタスクに焦点を当てており、GSM-8Kなどのいくつかは性能の飽和を示しています。この制限を解決するために、科学的領域の堅牢なマルチモーダルなベンチマークの需要が高まっています。VQAのようなベンチマークでは、自然な画像を超えたLMMの視覚的推論能力を広範囲にカバーしています。多様なタスクを微調整せずに解決するために、生成基盤モデルは重要な役割を果たしており、専門の事前学習方法は視覚的な文脈でのチャート推理を改善しています。最近の研究では、これらのモデルの実用的な応用の重要性が強調されています。 数学的な推論は、教育、データ分析、科学的な発見など人間の知能の重要な側面です。AIの数学的推論を評価する既存のベンチマークは、テキストベースであり、視覚的な文脈が欠けています。UCLA、ワシントン大学、およびマイクロソフトリサーチの研究者は、MATHVISTAという包括的なベンチマークを紹介し、基礎モデルの推論能力を評価するためにさまざまな数学的およびグラフィカルな課題を組み合わせています。MATHVISTAは複数の推論タイプ、主要なタスク、およびさまざまな視覚的な文脈を含み、モデルの数学的な推論能力を現実世界の応用に向けて向上させることを目指しています。 数学的な推論が視覚的な文脈での基礎モデルの推論を評価するMATHVISTA。課題タイプ、推論スキル、および視覚的な文脈の分類を使用して、既存のデータセットと新しいデータセットをキュレートしています。ベンチマークには、深い視覚的理解と構成的推論を必要とする問題が含まれています。予備的なテストでは、GPT-4Vへの挑戦を示し、その重要性を強調しています。 MATHVISTAの結果、最も性能の良いモデルであるMultimodal Bardの正確度は34.8%であり、人間のパフォーマンスは60.3%と顕著に高いです。テキストのみのLLMはランダムベースラインを上回り、2ショットのGPT-4は正確度29.2%を達成しています。画像のキャプションとOCRテキストを備えた強化LLMはより良いパフォーマンスを示し、2ショットのGPT-4は正確度33.9%を達成しています。IDEFICSやLLaVAなどのオープンソースのLMMは、数学的な推論、テキスト認識、形状検出、チャート理解の制限のために力不足を示しています。 まとめると、MATHVISTAの研究は視覚的な文脈での数学的な推論の向上と数学と視覚的理解の統合の課題を強調しています。将来の展望には、数学的および視覚的な能力に優れた汎用のLMMの開発、外部ツールを使ったLLMの拡張、およびモデルの説明の評価が含まれます。この研究は、視覚的な認識と数学的な推論を改善するためのモデルアーキテクチャ、データ、およびトレーニング目標の革新を通じて、数学的に集中し視覚的に豊かな現実世界のタスクを実行するAIエージェントの進化の重要性を強調しています。
『倫理と社会ニュースレター#5:ハグフェイスがワシントンに行くと、他の2023年夏の考え事』
人工知能(AI)における「倫理」について知っておくべき最も重要なことの一つは、それが「価値観」に関連しているということです。倫理は何が正しくて何が間違っているかを教えてくれるのではなく、透明性、安全性、公正などの価値観の語彙と優先順位を定めるための枠組みを提供します。今年の夏、私たちはAIの価値観についての理解を欧州連合、イギリス、アメリカの立法府に伝え、AIの規制の未来を形作るのに役立ちました。ここで倫理が光を放つのです:法律がまだ整っていないときに前進するための道筋を切り開くのに役立つのです。 Hugging Faceの主要な価値であるオープンさと責任を守るために、私たちはここで私たちが言ったことや行ったことのコレクションを共有しています。これには、私たちのCEOであるクレムが米国議会に対する証言や米国上院AI Insight Forumでの発言、E.U. AI Actに関するアドバイス、NTIAに対するAIの責任に関するコメント、そして私たちのChief Ethics Scientistであるメグの民主党議員団に対するコメントなどが含まれています。これらの議論の多くで共通していたのは、なぜAIのオープンさが有益であるのかという質問でした。私たちはこの質問に対する私たちの回答のコレクションをこちらで共有しています。 Hugging Faceのコア価値である民主化に則り、私たちは多くの時間を公に話すことに費やしてきました。そしてAIの世界で今起こっていることを説明するためにジャーナリストと対話する機会を与えられています。これには以下のものが含まれます: サーシャのAIのエネルギー使用と炭素排出に関するコメント(The Atlantic、The Guardian、2回、New Scientist、The Weather Network、The Wall Street Journal、2回)およびWall Street Journal op-edの一部の執筆;AIの終末論的なリスクに対する考え(Bloomberg、The Times、Futurism、Sky…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.