Search Results arXiv

MuZeroの研究から現実世界への第一歩

YouTubeとの協力により、オープンソースのVP9コーデックにおける動画圧縮の最適化を行っています

Applied

Perceiver AR（パーシーバーAR）：汎用、長文脈の自己回帰生成

私たちはPerceiver ARを開発していますこれは自己回帰型であり、モダリティを問わないアーキテクチャで、クロスアテンションを使用して長距離の入力を少数の潜在変数にマッピングすると同時に、エンドツーエンドの因果的マスキングを維持しますPerceiver ARは、手作りの疎なパターンやメモリメカニズムの必要なしに、10万以上のトークンに直接アテンションを注ぐことができ、実用的な長文脈の密度推定を可能にします

Technical blog

動的言語理解：パラメトリックおよび半パラメトリックモデルでの新しい知識への適応

進化する知識に対して半パラメトリックなQAモデルとその基礎となるパラメトリックな言語モデル（LMs）がどのように適応するかを研究するために、与えられた日付において人間が作成した質問や生成された質問を14年分のタイムスタンプのあるニュース記事から回答するための新しい大規模データセットであるStreamingQAを作成しました学習前には見られなかった新しい記事を読むたびに、モデルを四半期ごとに評価します我々は、パラメトリックモデルは完全な再学習なしで更新することができ、同時に壊滅的な忘却を回避することを示します

Technical blog

ロボキャット：自己改善型ロボティックエージェント

ロボットは私たちの日常生活の一部として急速になっていますが、彼らはしばしば特定のタスクをうまく実行するためにのみプログラムされています最近のAIの進歩を活用することで、より多くの方法で助けることができるロボットが可能になるかもしれませんが、一般的な用途のロボットの構築には、現実世界のトレーニングデータを収集するために必要な時間の制約があり、進展が遅れています私たちの最新の論文では、自己改善型のAIエージェントであるロボキャットを紹介していますロボキャットは、異なるアームでさまざまなタスクを実行する方法を学び、その後、新しいトレーニングデータを自己生成して技術を向上させるのです

Technical blog

極小データセットを用いたテキスト分類チャレンジ：ファインチューニング対ChatGPT

Toloka MLチームは、さまざまな条件下でのテキスト分類の異なるアプローチを継続的に研究し比較していますここでは、NLPのパフォーマンスに関する私たちの別の実験をご紹介します

物理情報を組み込んだDeepONetによるオペレータ学習ゼロから実装しましょう

普通微分方程式と偏微分方程式（ODEs / PDEs）は、物理学や生物学から経済学や気候科学まで、科学と工学の多くの分野の基礎ですそれらは...

ハイカーディナリティのカテゴリカル変数に対する混合効果機械学習-第I部：異なる手法の実証的比較

高次元のカテゴリー変数のモデリングを向上させるための機械学習におけるランダム効果：アプローチの紹介と比較

3Dで「ウォーリーを探せ」をプレイする：OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです

画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオブジェクトをミリ秒の間にセグメント化することが可能になり、結果は非常に正確です。一方、3Dの場合、インスタンスセグメンテーションという別の課題があり、2D画像セグメンテーションの性能に追いつくまでにはまだ時間がかかります。 3Dインスタンスセグメンテーションは、ロボット工学や拡張現実などの分野で重要な課題として浮上しています。3Dインスタンスセグメンテーションの目的は、3Dシーン内のオブジェクトインスタンスのマスクとそれに対応するカテゴリを予測することです。この分野で注目すべき進展がある一方、既存の手法は主にクローズドセットのパラダイムの下で操作され、トレーニングに使用されたデータセットに制約されたオブジェクトカテゴリの集合に密接に関連しています。この制約には2つの根本的な問題があります。まず、クローズドボキャブラリーのアプローチでは、トレーニング中に遭遇したオブジェクトカテゴリを超えたシーンを理解するのが困難であり、新しいオブジェクトの認識や誤分類の可能性があります。また、これらの手法は自由形式のクエリを処理する能力に限界があり、特定のオブジェクトの特性や説明を理解して行動する必要があるシナリオでの効果的な処理が妨げられます。これらの課題に対処するために、オープンボキャブラリーのアプローチが提案されています。これらのアプローチは自由形式のクエリを処理でき、トレーニングデータに存在しないオブジェクトカテゴリのゼロショット学習を可能にします。より柔軟で広範なアプローチを採用することで、オープンボキャブラリーの手法はシーン理解、ロボット工学、拡張現実、3Dビジュアルサーチなどのタスクでいくつかの利点を提供します。オープンボキャブラリーの3Dインスタンスセグメンテーションを可能にすることで、複雑な3Dシーンの理解と操作に依存するアプリケーションの柔軟性と実用性を大幅に向上させることができます。それでは、有望な3DインスタンスセグメンテーションモデルであるOpenMask3Dについて見てみましょう。 OpenMask3Dはオブジェクトのインスタンスをセグメント化することができます。出典：https://arxiv.org/pdf/2306.13631.pdf OpenMask3Dは、クローズドボキャブラリーのアプローチの制約を克服することを目指しています。事前に定義された概念を超えた推論を行いながら、3Dオブジェクトのインスタンスマスクを予測し、マスクフィーチャーレプリゼンテーションを計算するタスクに取り組みます。OpenMask3DはRGB-Dシーケンス上で動作し、対応する3D再構築ジオメトリを活用して目標を達成します。それは、クラスに関係ないマスク提案ヘッドとマスクフィーチャーアグリゲーションモジュールからなる2段階のパイプラインを使用しています。OpenMask3Dは、インスタンスが明らかなフレームを識別し、各マスクの最良の画像からCLIPフィーチャーを抽出します。得られたフィーチャーレプリゼンテーションは複数のビューで集約され、各3Dインスタンスマスクに関連付けられます。このインスタンスベースのフィーチャー計算アプローチにより、OpenMask3Dは与えられたテキストクエリとの類似性に基づいてオブジェクトのインスタンスマスクを取得する能力を備え、クローズドボキャブラリーパラダイムの制約を超えたオープンボキャブラリーの3Dインスタンスセグメンテーションを実現します。 OpenMask3Dの概要。出典：https://arxiv.org/pdf/2306.13631.pdf OpenMask3Dは、オブジェクトインスタンスごとにマスクフィーチャーを計算することで、任意のクエリとの類似性に基づいてオブジェクトインスタンスマスクを取得することができます。また、OpenMask3Dは、トレーニングまたはファインチューニングされたモデルよりも、新しいオブジェクトやロングテールのオブジェクトに関する情報を保持します。さらに、セマンティクス、ジオメトリ、アフォーダンス、材料特性などのオブジェクトの特性に関連する自由形式のクエリに基づいてオブジェクトインスタンスのセグメンテーションを可能にすることで、クローズドボキャブラリーパラダイムの制約を超えます。

企業がOpenAIのChatGPTに類似した自社の大規模言語モデルを構築する方法

最近の数年間で、言語モデルは大きな注目を集め、自然言語処理、コンテンツ生成、仮想アシスタントなど、さまざまな分野を革新しました最も注目されているのは、

公正を実現する：生成モデルにおけるバイアスの認識と解消

2021年、プリンストン大学の情報技術政策センターは、機械学習アルゴリズムが人間と同様の偏見を抱くことがあるという報告書を公表しました

Learn more about Search Results arXiv - Page 24