Learn more about Search Results 7 - Page 10

「11/9から17/9までの週のトップ重要なコンピュータビジョンの論文」

「コンピュータビジョンは、人工知能の一分野であり、機械が視覚世界を解釈し理解することを可能にする技術です画期的な研究や技術の進展により、コンピュータビジョンは急速に進化しています…」

「ベイチュアン2に会おう:7Bおよび13Bのパラメータを持つ大規模な多言語言語モデルのシリーズ、2.6Tトークンでゼロからトレーニングされました」

大規模言語モデルは近年、大きな進展を遂げています。GPT3、PaLM、Switch Transformersなどの言語モデルは、以前のELMoやGPT-1のようなモデルの数百万から、数十億、あるいは数兆のパラメータを持つようになりました。人間に似た流暢さを持ち、様々な自然言語の活動を行う能力は、モデルのサイズの成長により大幅に向上しました。OpenAIのChatGPTのリリースにより、これらのモデルが人間の話し言葉に似たテキストを生成する能力が大いに注目されました。ChatGPTは、カジュアルな会話から難しいアイデアの明確化まで、さまざまな文脈で優れた言語スキルを持っています。 この革新は、自然言語の生成と理解を必要とするプロセスを自動化するために、巨大な言語モデルがどのように使用されるかを示しています。LLMの革新的な開発と使用が進んでいるにもかかわらず、GPT-4、PaLM-2、ClaudeなどのトップのLLMのほとんどはまだクローズドソースです。モデルのパラメータについて開発者や研究者が部分的なアクセスしか持てないため、このコミュニティがこれらのシステムを徹底的に分析や最適化することは困難です。LLMの透明性とオープンさがさらに向上することで、この急速に発展している分野での研究と責任ある進歩が加速される可能性があります。Metaが作成した巨大な言語モデルのコレクションであるLLaMAは、完全にオープンソースであることにより、LLMの研究コミュニティに大いに役立っています。 OPT、Bloom、MPT、Falconなどの他のオープンソースLLMとともに、LLaMAのオープンな設計により、研究者はモデルに自由にアクセスし、分析、テスト、将来の開発を行うことができます。このアクセシビリティとオープンさにより、LLaMAは他のプライベートLLMとは一線を画しています。Alpaca、Vicunaなどの新しいモデルは、オープンソースLLMの研究と開発のスピードアップによって可能になりました。しかし、英語はほとんどのオープンソースの大規模言語モデルの主な焦点となっています。たとえば、LLaMAの主なデータソースであるCommon Crawl1は、67%の事前学習データを含んでいますが、英語の資料しか含むことが許可されていません。MPTやFalconなど、異なる言語の能力に制約のあるフリーソースLLMも主に英語に焦点を当てています。 そのため、中国語などの特定の言語でのLLMの開発と使用は困難です。Baichuan Inc.の研究者は、この技術的な研究で、広範な多言語言語モデルのグループであるBaichuan 2を紹介しています。Baichuan 2には、13兆パラメータを持つBaichuan 2-13Bと7兆パラメータを持つBaichuan 2-7Bの2つの異なるモデルがあります。両モデルは、Baichuan 1よりも2.6兆トークン以上のデータを使用してテストされました。Baichuan 2は、大量のトレーニングデータにより、Baichuan 1を大幅に上回るパフォーマンスを発揮します。Baichuan 2-7Bは、MMLU、CMMLU、C-Evalなどの一般的なベンチマークで、Baichuan 1-7Bよりも約30%優れたパフォーマンスを示します。Baichuan 2は特に数学とコーディングの問題のパフォーマンスを向上させるように最適化されています。 Baichuan 2は、GSM8KとHumanEvalのテストでBaichuan 1の結果をほぼ2倍に向上させます。また、Baichuan 2は医療および法律の領域の仕事でも優れた成績を収めています。MedQAやJEC-QAなどのベンチマークで他のオープンソースモデルを上回り、ドメイン特化の最適化のための良い基礎モデルとなっています。彼らはまた、人間の指示に従う2つのチャットモデル、Baichuan 2-7B-ChatとBaichuan 2-13B-Chatを作成しました。これらのモデルは、対話や文脈を理解するのに優れています。彼らはBaichuan 2の安全性を向上させるための戦略についてさらに詳しく説明します。これらのモデルをオープンソース化することで、大規模言語モデルのセキュリティをさらに向上させながら、LLMの責任ある作成に関する研究を促進することができます。…

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル(LLM)の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、膨大なデータの利用可能性、コンピュータの性能向上、ニューラルネットワークの設計の突破が含まれます。GPT-4、PaLM、LLaMAなどの有名なモデルは、多くの異なるタスクを非常に優れた能力でこなすことが示されています。これらのタスクでは、プロンプトの提供、能力の微調整、人間からのフィードバックを活用して学習と改善を支援する手法がよく使用されます。天文学の分野は、LLMの応用にとってユニークな課題と肥沃な土壌を提供しています。 上記の画像では、各モデルが同じ短いテキストスニペットで提示され、それぞれのボックスでハイライトされていることがわかります。GPT-4は一般的な文言をより多く生成する傾向があり、ドメイン固有のニュアンスを欠いています。AstroLLaMAは最も堅牢な補完を示し、天文学の分野に特化したより関連性の高い概念や深い洞察を提供するため、LLaMA-2およびGPT-4を大幅に上回っています。 ただし、AstroLLaMAには認識されるべきいくつかの制約もあります。その中でも重要な制約の1つは、モデルが天文学の特定の領域における知識の不足です。AstroLLaMAはGaia-ESOデータから潜在的な星の候補を推定する能力が著しく不正確です。これらの問題に対処するため、研究者は現在、AstroLLaMAの訓練データセットの強化に取り組んでいます。抽象のみを使用するのではなく、既存の天文学の論文の完全なLaTeXソースを組み込む予定です。これにより、モデルが学習できるトークンの数が大幅に増加します。 AstroLLaMAは、天文学に特化した専門の大規模言語モデル(LLM)の印象的なプロトタイプとなっています。このモデルは、GPT-4よりもはるかに少ないパラメータを持ちながら、注目すべき文脈に関する能力を示し、優れたパフォーマンスを発揮しています。この進展は、質問に答える、科学的な内容を要約する、仮説を生成するなどのさまざまなタスクのパフォーマンス向上に向けた扉を開くだけでなく、マルチモーダルモデルにも影響を与えます。

Amazon SageMakerで@remoteデコレータを使用してFalcon 7Bやその他のLLMを微調整する

今日、生成型AIモデルはテキスト要約、Q&A、画像やビデオの生成など、さまざまなタスクをカバーしています出力の品質を向上させるために、n-短期学習、プロンプトエンジニアリング、検索補完生成(RAG)およびファインチューニングなどの手法が使用されていますファインチューニングにより、これらの生成型AIモデルを調整して、ドメイン固有の改善されたパフォーマンスを達成することができます

「2023年に注目すべきトップ7のデジタルマーケティングのトレンド」

「2023年のデジタルマーケティングのトレンドを探索しましょう:AI、VR / ARコンテンツ、対話型マーケティング、インフルエンサー効果的な戦略で先を行きましょう」

PyTorch FSDPを使用してLlama 2 70Bのファインチューニング

はじめに このブログ記事では、PyTorch FSDPと関連するベストプラクティスを使用して、Llama 2 70Bを微調整する方法について説明します。Hugging Face Transformers、Accelerate、およびTRLを活用します。また、AccelerateをSLURMと一緒に使用する方法も学びます。 Fully Sharded Data Parallelism(FSDP)は、オプティマイザの状態、勾配、およびパラメータをデバイス間でシャードするパラダイムです。フォワードパスでは、各FSDPユニットが完全な重みを取得するための全ギャザー操作を実行し、計算が行われた後に他のデバイスからのシャードを破棄します。フォワードパスの後、ロスが計算され、バックワードパスが行われます。バックワードパスでは、各FSDPユニットが完全な重みを取得するための全ギャザー操作を実行し、ローカルな勾配を取得するための計算が行われます。これらのローカルな勾配は平均化され、リダクション-スキャッタ操作を介してデバイス間でシャードされるため、各デバイスは自身のシャードのパラメータを更新することができます。PyTorch FSDPの詳細については、次のブログ記事を参照してください:PyTorch Fully Sharded Data Parallelを使用した大規模モデルトレーニングの加速。 (出典: リンク) 使用されたハードウェア ノード数:2。最小要件は1です。ノードあたりのGPU数:8。GPUタイプ:A100。GPUメモリ:80GB。ノード内接続:NVLink。ノードあたりのRAM:1TB。ノードあたりのCPUコア数:96。ノード間接続:Elastic Fabric Adapter。 LLaMa 70Bの微調整における課題…

「PhysObjectsに会いましょう:一般的な家庭用品の36.9K個のクラウドソーシングと417K個の自動物理的概念アノテーションを含むオブジェクト中心のデータセット」

現実世界では、情報はしばしばテキスト、画像、または動画の組み合わせによって伝えられます。この情報を効果的に理解し、対話するためには、AIシステムは両方のモダリティを処理できる必要があります。ビジュアル言語モデルは、自然言語理解とコンピュータビジョンの間のギャップを埋め、より包括的な世界の理解を可能にします。 これらのモデルは、テキストとビジュアル要素を組み込んだ豊かで文脈に即した説明、ストーリー、または説明を生成することができます。これは、マーケティング、エンターテイメント、教育など、さまざまな目的のコンテンツを作成するために役立ちます。 ビジュアル言語モデルの主なタスクには、ビジュアルクエスチョンアンサリングと画像キャプションがあります。ビジュアルクエスチョンアンサリングでは、AIモデルに画像とその画像に関するテキストベースの質問が提示されます。モデルはまずコンピュータビジョンの技術を使用して画像の内容を理解し、NLPを使用してテキストの質問を処理します。回答は理想的には画像の内容を反映し、質問に含まれる特定のクエリに対応する必要があります。一方、画像キャプションでは、画像の内容を説明する記述的なテキストキャプションや文を自動生成することが含まれます。 現在のビジュアル言語モデルは、一般的なオブジェクトの物質の種類や壊れやすさなどの物理的な概念を捉えることを改善する必要があります。これにより、物体の物理的な推論を必要とするロボットの識別タスクが非常に困難になります。この問題を解決するために、スタンフォード大学、プリンストン大学、Google DeepMindの研究者らはPhysObjectsを提案しています。これは、一般的な家庭用品の36.9Kのクラウドソースおよび417Kの自動物理的概念アノテーションのオブジェクト中心のデータセットです。クラウドソースのアノテーションは、分散グループの個人を使用して大量のデータを収集し、ラベル付けする方法です。 彼らは、PhysObjectsでファインチューンされたVLMが物理的な推論能力を大幅に向上させることを示しました。物理的に基礎づけられたVLMは、保持データセットの例において予測精度が向上しています。彼らはこの物理的に基礎づけられたVLMをLLMベースのロボットプランナーと組み合わせてその利点をテストしました。LLMはシーン内のオブジェクトの物理的な概念についてVLMにクエリを行います。 研究者は、EgoObjectsデータセットを画像ソースとして使用しました。これは、PhysObjectsを構築する際に公開された最大の実オブジェクト中心のデータセットでした。リアルな家庭の配置のビデオで構成されているため、家庭用ロボティクスのトレーニングに関連しています。平均して、117,424枚の画像、225,466個のオブジェクト、4,203個のオブジェクトインスタンスIDが含まれています。 彼らの結果は、物理的に基礎づけられたVLMを使用しないベースラインと比較して、物理的な推論を必要とするタスクの計画パフォーマンスが向上したことを示しています。彼らの今後の研究では、幾何学的な推論や社会的な推論など、物理的な推論を超えて拡大する予定です。彼らの手法とデータセットは、VLMを用いたより洗練された推論のための第一歩です。

Fast.AIディープラーニングコースからの7つの教訓

「最近、Fast.AIのPractical Deep Learning Courseを修了しましたこれまでに多くの機械学習コースを受講してきましたので、比較することができますこのコースは間違いなく最も実践的でインスピレーションを受けるものの一つですですので…」

72歳で亡くなったダグラス・レナット氏、人間に似たAIを作ろうとした人

彼は数十年間、人工知能に取り組み、日常の感覚を再現できるコンピュータを作り出すことに努めました

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us