Search Results 15

「2023年、オープンLLMの年」

2023年には、大型言語モデル（Large Language Models、LLMs）への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります（その他の利点もあります）。では、オープンLLMsの今年を振り返ってみましょう！文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方まず、大型言語モデルはどのようにして作られるのでしょうか？（もし既に知っている場合は、このセクションをスキップしてもかまいません）モデルのアーキテクチャ（コード）は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです（詳細は元のトランスフォーマーペーパーをご覧ください）。訓練データセットには、モデルが訓練された（つまり、パラメータが学習された）すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語（例：フランス語、英語、中国語）、プログラミング言語（例：Python、C）またはテキストとして表現できる構造化データ（例：MarkdownやLaTeXの表、方程式など）のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します（モデルは数学的な関数であり、したがって入力として数値が必要です）。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます（トークン化方法によっては単語、サブワード、または文字になる場合があります）。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります！訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか？モデルの更新速度はどのくらいですか？これらのパラメータが選択されたら、モデルを訓練するためには1）大量の計算パワーが必要であり、2）有能な（そして優しい）人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化（訓練用のハードウェア上での行列の作成）および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論（つまり、新しい入力の予測やテキストの生成など）に使用することができます。事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる（通常はより専門化された小規模な）データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか？ 2022年初頭まで、機械学習のトレンドは、モデルが大きければ（つまり、パラメータが多ければ）、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM（BigScience Large Open-science…

Google AIはPixelLLMを提案します：細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

大規模言語モデル（LLMs）は、自然言語処理（NLP）、自然言語生成（NLG）、コンピュータビジョンなど、人工知能（AI）のサブフィールドの力を活用しています。LLMsにより、画像について複雑な推論を行い、画像に関するクエリに応答し、自然言語で画像を説明することが可能になりました。しかし、LLMsが単語の位置特定や位置の参照などの位置情報タスクを実行できるかはまだ不確かです。この課題を解決するため、Google ResearchとUC San Diegoの研究チームが、PixelLLMという賢いモデルを導入し、細かい位置情報と画像-言語の整合性を実現することが可能になりました。このアプローチは、特に赤ちゃんがジェスチャーや指さし、命名などで自然に自分の視覚環境を説明する方法に着想を得ています。チームは、LLMsが視覚入力から空間的理解と推論をどのように派生できるかを見つけることを目標としていると共有しています。 PixelLLMは、言語モデルの各単語出力をピクセルの位置に密接に対応させます。これには、単語特徴の上に小さなマルチレイヤーパーセプトロン（MLP）が追加され、各単語のピクセル位置に回帰できるようになっています。低ランクのファインチューニング（LoRA）が使用され、言語モデルの重みを更新または凍結することができます。モデルはテキストまたは場所のプロンプトも受け取ることができ、プロンプトに合わせた出力を提供できます。モデルのアーキテクチャには、画像エンコーダ、プロンプトエンコーダ、およびプロンプト特徴抽出器が含まれています。大規模言語モデルは、プロンプトに基づいた画像特性とオプションのテキストプロンプトを入力とし、単語ごとの位置特定とキャプションという形で出力します。言語または位置の様々な組み合わせを入力または出力として受け取る能力により、アーキテクチャは幅広い視覚言語活動に適応できます。チームは、密なオブジェクトキャプショニングや位置条件付きキャプショニング、位置の参照など、よく知られたビジョンタスクを使用してモデルを評価しました。89.8 [email protected]のRefCOCOを参照した位置情報、Visual Genome条件付きキャプショニングの19.9 CIDEr、密なオブジェクトキャプショニングの17.0 mAPなど、優れたパフォーマンス指標を持つPixelLLMは、さまざまな課題において最先端の結果を示しています。ピクセルごとの密な位置特定の定式化が重要であることは、RefCOCOでの収縮研究によって示されており、他の位置特定の定式化に比べて3.7ポイントの利益を上げています。したがって、PixelLLMは正確なビジョン-言語の整列と位置情報を達成することに成功しています。チームは、主な貢献を以下のようにまとめています。「PixelLLM」という新しいビジョン-言語モデルを紹介し、単語の位置特定と画像キャプションを生成する。モデルは、画像入力に加えてテキストまたはオプションの場所の手がかりをサポートします。位置特定のトレーニングには、ローカル化されたナラティブデータセットが使用されました。セグメンテーション、位置条件付きキャプショニング、参照位置、密なキャプショニングなど、さまざまなビジョン-言語タスクに適応することができます。位置条件付きキャプショニング、密なキャプショニング、参照位置とセグメンテーションで優れた成果を示しました。

「MongoDBの時系列コレクションとAmazon SageMaker Canvasで洞察力の向上を加速する」

これは、MongoDBのBabu Srinivasanと共同執筆したゲスト投稿です現在の急速に変化するビジネスの風景では、リアルタイムの予測を行う能力の欠如は、正確かつタイムリーな洞察に重要な依存をする産業にとって、重要な課題をもたらしますさまざまな産業におけるリアルタイムの予測の欠如は、意思決定に重要な影響を与える切迫したビジネスの課題を提起します

「スタートアップに必要なテックパートナー：ソフトウェア開発サービス」

スタートアップの速い世界では、成功を決定づけるためにテクノロジーが重要な役割を果たしていますスタートアップにとって適切なソフトウェア開発サービスは、革新的なアイデアを現実のものにするための推進力となる可能性がありますこの記事では、スタートアップの成功におけるテクノロジーの重要な役割、適切な開発パートナーの選択の複雑さ、その旅行について詳しく説明します...スタートアップに必要なテクノロジーパートナー：ソフトウェア開発サービス」詳細を読む»

Tech

Sudowriteのレビュー：AIが人間らしい小説を書けるのか？

「AIは本当に人間のように小説を書くことができるのか？ Sudowriteの詳細を知り、このSudowriteのレビューで真実を解明しましょう」

２０２４年にフォローするべきデータサイエンスのトップ１２リーダー

データサイエンスの広がりを見据えると、2024年の到来は、革新を牽引し、分析の未来を形作る一握りの著名人にスポットライトを当てる重要な瞬間として迎えられます。『Top 12 Data Science Leaders List』は、これらの個人の卓越した専門知識、先見のリーダーシップ、および分野への重要な貢献を称えるビーコンとして機能します。私たちは、これらの画期的なマインドの物語、プロジェクト、そして先見の見通しをナビゲートしながら、データサイエンスの進路を形作ると約束された航跡を探求します。これらの模範的なリーダーたちは単なるパイオニアにとどまることはありません。彼らは無類のイノベーションと発見の時代へと私たちを導く先駆者そのものです。 2024年に注目すべきトップ12データサイエンスリーダーリスト 2024年への接近とともに、データサイエンスにおいて傑出した専門知識、リーダーシップ、注目すべき貢献を示す特異なグループの人々に焦点を当てています。『Top 12 Data Science Leaders List』は、これらの個人を認識し、注目することで、彼らを思想リーダー、イノベーター、およびインフルエンサーとして認め、来年重要なマイルストーンを達成することが予想されます。さらに詳細に突入すると、これらの個人の視点、事業、イニシアチブが、さまざまなセクターを横断する複雑な課題に対するメソッドとデータの活用方法を変革することが明らかになります。予測分析の進展、倫理的なAIの実践の促進、または先進的なアルゴリズムの開発など、このリストでハイライトされた個人たちが2024年にデータサイエンスの領域に影響を与えることが期待されています。 1. Anndrew Ng 「AIのゲームにおいて、適切なビジネスコンテキストを見つけることが非常に重要です。私はテクノロジーが大好きです。それは多くの機会を提供します。しかし結局のところ、テクノロジーはコンテクスト化され、ビジネスユースケースに収まる必要があります。」 Dr. アンドリュー・エングは、機械学習（ML）と人工知能（AI）の専門知識を持つ英米のコンピュータ科学者です。AIの開発への貢献について語っている彼は、DeepLearning.AIの創設者であり、Landing AIの創設者兼CEO、AI Fundのゼネラルパートナー、およびスタンフォード大学コンピュータサイエンス学科の客員教授でもあります。さらに、彼はGoogle AIの傘下にある深層学習人工知能研究チームの創設リードでありました。また、彼はBaiduのチーフサイエンティストとして、1300人のAIグループの指導や会社のAIグローバル戦略の開発にも携わりました。アンドリュー・エング氏は、スタンフォード大学でMOOC（大規模オープンオンラインコース）の開発をリードしました。また、Courseraを創設し、10万人以上の学生に機械学習のコースを提供しました。MLとオンライン教育の先駆者である彼は、カーネギーメロン大学、MIT、カリフォルニア大学バークレー校の学位を保持しています。さらに、彼はML、ロボット工学、関連する分野で200以上の研究論文の共著者であり、Tiime誌の世界で最も影響力のある100人のリストに選ばれています。…

「コンピュータビジョン101」

コンピュータビジョンの進歩により、未来には莫大な可能性がありますその変革的な影響は、さまざまな産業にまたがっています

一般的な世界モデル：ランウェイAI研究が新しい長期研究の取り組みを開始

ワールドモデルは、環境の内部理解を構築し、その知識を利用してその空間内の将来のイベントを予測することを目指すAIシステムです。研究者はこれらのワールドモデルを主に制御された環境でテストしており、ビデオゲームや運転などの特定のタスクを含むものです。最終目標は、予測不可能な現実世界で遭遇するさまざまな状況を処理できるモデルを作成することです。そのようなシステムを作成する初の試みの1つは、Gen-2ビデオ生成システムです。これは、ものの動きを基本的に理解することを示す短い動画を作成しようとする初心者の画家のようなものです。ただし、より複雑なタスクに取り組む際には厳しいもので、急速なカメラの移動や精巧なオブジェクトの挙動を含むシナリオに苦しんでいます。これは、現在のワールドモデルの限界を明らかにし、研究者がこれらのシステムを改善して発展させることに深く関与するきっかけとなっています。効果的なワールドモデルを構築するための道のりにはいくつかの課題があります。重要な側面の1つは、これらのモデルが環境の正確かつ一貫したマップを生成する必要があるということです。動きを認識するだけでなく、与えられたスペース内でのナビゲーションと相互作用に関わるものです。さらに、これらのモデルは、世界のダイナミクスだけでなく、その住人の行動も理解しシミュレートする必要があります。これは多面的な課題であり、継続的な研究とイノベーションが求められます。研究者たちはこれらの課題に取り組んでおり、ワールドモデルの適応性と能力を向上させることを目指しています。ビデオゲームにおけるキャラクターのアップグレードと考えるとイメージしやすいですが、これらのモデルは信頼性のあるマップの生成と多様で複雑なシナリオを通じたナビゲーションのレベルアップが必要です。目標は、現実世界の予測不可能性に対応するスキルを身につけさせることです。ワールドモデルの効果を測定するため、研究者はさまざまな側面を測定するメトリクスを使用しています。これらのメトリクスは、モデルが一貫した正確なマップを生成する能力、さまざまな環境でのナビゲーション能力、および人間の行動の現実的なシミュレーションなど、さまざまな側面を測定します。これらの数量化可能な指標は、進捗状況と進化し続けるワールドモデルの能力を評価するための基準として利用されます。結論として、一般的なワールドモデルの開発は、課題と興味深い見通しに満ちた進行中のプロセスです。研究者がこれらのモデルを磨き続けることで、さまざまな現実世界のシナリオでのシミュレーションと予測が向上することが期待されています。これらのモデルの進化は、AIの能力の限界を押し広げるだけでなく、複雑な環境の深い理解とダイナミックな世界との改善されたAIの相互作用の可能性を持っています。この投稿はGeneral World Models: Runway AI Research Starting a New Long-Term Research Effortの記事、「MarkTechPost」で最初に公開されました。

このAI論文では、既知のカメラパラメータなしで新しい視点合成を行うために、COLMAP-Free 3D Gaussian Splatting（CF3DGS）を提案しています

ニューラルレンダリングの進歩により、シーンの再構築や新しい視点の生成において重要なブレイクスルーがもたらされました。しかし、その効果はカメラの姿勢の正確な予備計算に大きく依存します。この問題を最小化するために、事前計算されたカメラの姿勢がないNeural Radiance Fields（NeRFs）を訓練するためにさまざまな取り組みが行われています。しかし、NeRFsの暗黙的な表現は、3Dの構造とカメラの姿勢を同時に最適化するのが困難です。 UCサンディエゴ、NVIDIA、UCバークレーの研究者らは、COLMAP-Free 3D Gaussian Splatting（CF-3DGS）を導入しました。これは、ビデオの時間的な連続性と明示的なポイントクラウド表現の2つの重要な要素を高めています。すべてのフレームを一度に最適化するのではなく、CF-3DGSはカメラが移動するにつれてシーンの3Dガウスを連続的な形で「成長させる」一つの構造を構築します。CF-3DGSは各フレームに対してローカルな3Dガウスセットを抽出し、全体のシーンのグローバルな3Dガウスセットを維持します。 https://arxiv.org/abs/2312.07504 リアルな画像を視点から生成するためにさまざまな3Dシーン表現が使用されており、平面、メッシュ、ポイントクラウド、マルチプレーンイメージなどが含まれます。NeRFs（Neural Radiance Fields）は、その写真のようなリアルなレンダリング能力のために、この分野で注目を集めています。3DGS（3D Gaussian Splatting）メソッドは、純粋な明示的な表現と微分を利用したポイントベースのスプラッティング方法を使用して、ビューのリアルタイムレンダリングを可能にします。 CF-3DGSは既知のカメラパラメータを必要としないで合成ビューを実現します。それは3D Gaussian Splatting（3DGS）とカメラの姿勢を同時に最適化します。近くのフレームから相対カメラ姿勢を推定するためにローカルな3DGSメソッドを使用し、未観測のビューから3Dガウスを進行的に展開するためにグローバルな3DGSプロセスを使用しています。CF-3DGSは、明示的なポイントクラウドを使用してシーンを表現し、3DGSの機能とビデオストリームに固有の連続性を活用します。このアプローチは、入力フレームを順次処理し、3Dガウスを進行的に展開してシーンを再構築します。この手法により、トレーニングと推論の速度が高速化されます。 https://arxiv.org/abs/2312.07504 CF-3DGSメソッドは、先行の最先端技術よりもポーズ推定の耐性が高く、新規ビューの合成品質も優れています。この手法は、より複雑で挑戦的なカメラの動きを示すCO3Dビデオで検証され、ビューの合成品質においてNope-NeRFメソッドを上回る結果を示しました。このアプローチは、CO3D V2データセットにおいてすべてのメトリックでNope-NeRFeをしのぎ、特に複雑なカメラの動きがあるシナリオでのカメラの姿勢推定の耐性と精度を示しています。まとめると、CF-3DGSはビデオの時間的な連続性と明示的なポイントクラウド表現を利用してビューを効果的かつ堅牢に合成する方法です。この方法は、主にビデオストリームや順序付けられた画像コレクションに適しており、Structure-from-Motion（SfM）前処理の必要はありません。また、非順序の画像コレクションに対応するための将来の拡張の可能性もあります。

グーグルのディープマインドリサーチは、FunSearchを紹介します：数学とコンピュータ科学の新しい解決策を検索するための新しい人工知能手法

LLMは、人間のようなテキストの理解と生成に優れており、機械と人間のコミュニケーションを改善するために、人の言語を模倣した応答を理解し生成することができます。これらのモデルは言語翻訳、要約、質問応答、テキスト生成、感情分析など、多様なタスクで柔軟かつ適応性があります。その柔軟性により、さまざまな産業やアプリケーションに展開することが可能です。ただし、LLMは時に幻覚を見ることがあり、正当ながら誤った主張をすることがあります。GPTモデルのような大規模言語モデルは、言語理解と生成において非常に高度であり、入力やプロンプトが曖昧、矛盾、または誤解を招く場合、モデルは入力の解釈に基づいて幻覚的な応答を生成する可能性があります。 Google DeepMindの研究者は、この制限を克服するために、FunSearchと呼ばれるメソッドを提案しています。これは、事実誤認や誤ったアイデアに対してガードする、事前にトレーニングされたLLMと評価器を組み合わせています。FunSearchは、複数の重要な要素を組み合わせることで、初期のスコアの低いプログラムを高スコアのプログラムに進化させ、新しい知識を発見するプログラムを生成します。 FunSearchは繰り返しのプロセスとして機能し、各サイクルでシステムは現在のプールから特定のプログラムを選択します。これらの選択されたプログラムはLLMによって処理され、革新的に拡張された新鮮なプログラムを生成し、自動評価を受けます。最も有望なプログラムは既存のプログラムのプールに再導入され、自己向上のループが確立されます。研究者は、性能の良いプログラムをサンプリングし、それらを改善するためにLLMに戻すことでその機能を向上させます。彼らは骨格としての初期プログラムから始め、制御を司る重要なプログラムロジックのみを進化させます。彼らは各ステップに優先関数を配置することで意思決定を行います。彼らは多様なプログラムの大規模なプールを維持するために島ベースの進化的手法を使用します。新しい結果を見つけるために非同期にスケールさせます。 FunSearchは、ビンパッキングと同じ一般的な戦略を使用します。最も容量が少ないビンにしかアイテムを割り当てないのは、アイテムを配置した後に非常にきついフィットがされている場合のみです。この戦略により、埋まらない小さな隙間がなくなります。FunSearchの重要なコンポーネントの一つは、直接的に構成物を検索するのではなく、プログラムの空間で動作することです。これにより、FunSearchは実世界の応用の可能性を持ちます。もちろん、これはただの初期段階です。FunSearchの進歩は、LLMの広範な進化と自然に一致します。研究者は、社会に存在するさまざまな重要な科学的および技術的な課題に対処するために、その機能を拡張し続けることを約束しています。

Uncategorized

Learn more about Search Results 15 - Page 4