Learn more about Search Results マーフ
- You may be interested
- 私たちは本当に人工知能AIウォーターマー...
- 「デバイス内AIの強化 QualcommとMetaがLl...
- マイクロソフトの研究者たちは、ラベル付...
- 「GPT-4とXGBoost 2.0の詳細な情報:AIの...
- 特定のデータロールに適したプログラミン...
- 「Underrepresented Groupsの存在下での学...
- 「時系列予測と再帰型ニューラルネットワ...
- 赤い猫&アテナAIは夜間視認能力を備え...
- 「ログモジュールを使用してPythonスクリ...
- ポリシーグラディエント(Policy Gradient...
- 「ゼロ-ETL、ChatGPT、およびデータエンジ...
- 「一般的なコンピュータアルゴリズムに対...
- エンテラソリューションズの創設者兼CEO、...
- 彼らはGoogleのAIの訓練を手伝ったしかし...
- 「vLLMに会ってください:高速LLM推論とサ...
中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました
上海交通大学と中国矿业大学の研究者たちはTransLOを開発しました。このLiDARオドメトリネットワークは、セルフアテンションとマスクされたクロスフレームアテンションを備えたウィンドウベースのマスクされたポイントトランスフォーマーを統合しています。TransLOは、スパースな点群を効果的に扱うため、無効な動的な点を除外するためにバイナリマスクを使用しています。 この手法では、Iterative Closest Point(ICP)のバリアントや広く使用されているLOAMなど、一般的なLiDARオドメトリの手法について説明しています。また、パフォーマンスの向上のために地面のセグメンテーションを組み込んだLOAMのバリアントに重点を置いています。この研究では、CNNとトランスフォーマーを組み合わせた世界的な特徴埋め込みを実現するため、最初のトランスフォーマーベースのLiDARオドメトリネットワークであるTransLOが紹介されています。射影感知型マスク、ウィンドウベースのマスクされたセルフアテンション(WMSA)、マスクされたクロスフレームアテンション(MCFA)などのコンポーネントは、TransLOの効果を示すアブレーション研究を通じて評価されています。 LiDARオドメトリは、SLAM、ロボットナビゲーション、自動運転などのアプリケーションにおいて重要ですが、従来はICPや特徴ベースの手法に依存していました。CNNなどの学習ベースの手法は、ポイントクラウドにおける長距離の依存関係やグローバル特徴のキャプチャに課題があります。TransLOは、ウィンドウベースのマスクされたポイントトランスフォーマーを使用して、効率的にポイントクラウドを処理し、姿勢推定を予測します。 TransLOは、2D射影、長距離の依存関係をキャプチャするローカルトランスフォーマー、および姿勢推定を予測するMCFAを使用してポイントクラウドを処理します。ストライドベースのサンプリング層とWMSAを使用してポイントクラウドを円柱状の表面に射影します。CNNは受容野を拡大し、射影感知型マスクはポイントクラウドのスパースさに対処します。姿勢ワーピング操作により反復的な改善が行われます。アブレーション研究は、コンポーネントの効果を確認し、TransLOがKITTIオドメトリデータセットで既存の手法を上回ることを示しています。 KITTIオドメトリデータセット上の実験結果は、平均回転RMSEが0.500°/100m、平行移動RMSEが0.993%というTransLOの優れたパフォーマンスを示しています。TransLOは最近の学習ベースの手法を上回り、ほとんどの評価シーケンスでLOAMをも凌駕します。アブレーション研究では、外れ値をフィルタリングするバイナリマスク、フレーム間のソフトな対応関係の確立により、MCFAモジュールが翻訳と回転エラーの改善に貢献していることが強調されています。 提案されたTransLOネットワークは、LiDARオドメトリのためのエンドツーエンドのウィンドウベースのマスクされたポイントトランスフォーマーであり、CNNとトランスフォーマーを統合してグローバル特徴埋め込みと外れ値除去を強化し、KITTIオドメトリデータセット上で最新のパフォーマンスを達成します。主要なコンポーネントには、長距離の依存関係のためのWMSA、外れ値フィルタリングのためのバイナリマスク、フレームの関連付けと姿勢推定におけるMCFAが含まれています。アブレーション研究は、WMSAの重要性、外れ値フィルタリングのためのバイナリマスク、MCFAのモデルの成功における重要な役割を確認しています。TransLOは、大規模な位置特定とナビゲーションにおいて優れた精度、効率、グローバル特徴に焦点を当てています。
「トランスフォーマーブロックは、効率を損なうことなく簡素化することはできるのか? このAIの研究論文は、設計の複雑さと性能のバランスを探求しますETHチューリッヒ大学の論文」
ETHチューリッヒの研究者が、ディープトランスフォーマーの設計における単純化を探求し、より堅牢で効率的なものにすることを目指しています。シグナル伝播理論と経験的観察を組み合わせてさまざまな部品を削除するための修正を提案し、訓練速度やパフォーマンスに影響を与えることなく、標準トランスフォーマーブロックから削除することができます。 この研究は、ディープニューラルネットワークのトランスフォーマーブロックの単純化に関する研究であり、特に標準的なトランスフォーマーブロックに焦点を当てています。シグナル伝播理論からインスピレーションを受け、アテンションやMLPのサブブロック、スキップ接続や正規化レイヤーを組み込んだ同一のビルディングブロックの配置を探求しています。また、MLPとアテンションのサブブロックを並列に計算するためのパラレルブロックを導入し、効率の向上を図っています。 この研究は、ディープニューラルネットワークのトランスフォーマーブロックの単純化を具体的に検討し、特にブロック内のさまざまなコンポーネントの必要性を調査し、訓練速度を損なうことなく削除する可能性を探求しています。単純化の動機は、現代のニューラルネットワークのアーキテクチャの複雑さと、ディープラーニングにおける理論と実践の間のギャップから生じています。 この手法では、シグナル伝播理論と経験的観察を組み合わせてトランスフォーマーブロックの単純化のための修正を提案しています。この研究では、自己回帰デコーダ専用のモデルとBERTエンコーダ専用のモデルで実験を行い、単純化されたトランスフォーマーのパフォーマンスを評価しています。さらに、アテンションのサブブロックからスキップ接続を削除した場合の信号変性についても追加の実験と異なる手法の影響を研究しています。 研究では、スキップ接続、投射/値パラメータ、シーケンシャルサブブロック、正規化レイヤーを削除することでトランスフォーマーブロックを単純化する修正案を提案しています。これらの修正は、標準的なトランスフォーマーの訓練速度とパフォーマンスを維持しながら、より高速な訓練スループットを実現し、パラメータを少なく利用します。研究はまた、単純化されたトランスフォーマーのパフォーマンスに異なる初期化方法が与える影響を調査しました。 提案された単純化されたトランスフォーマーは、標準的なトランスフォーマーと同等のパフォーマンスを実現しながら、パラメータを15%削減し、訓練スループットを15%向上させます。この研究は、大規模トランスフォーマーモデルのコストを削減できる単純化されたディープラーニングアーキテクチャを提供しています。実験結果は、さまざまな設定での単純化の有効性を支持し、最適な結果のための適切な初期化の重要性を強調しています。 推奨される将来の研究は、提案された単純化が最大のトランスフォーマーモデルに対してどれほど効果的かを調査することです。この研究では、比較的小さいモデルに焦点を当てているため、包括的なハイパーパラメータの検索を実施し、単純化されたブロックのパフォーマンスを向上させることを提案しています。また、ハードウェア固有の実装を探求し、訓練速度とパフォーマンスをさらに向上させる可能性があります。
ルーシッドドリーマー:インターバルスコアマッチングを介した高品位のテキストから3D生成
最近のテキストから3DジェネレーティブAIフレームワークの進歩は、生成モデルにおける重要な節目を示していますこれらは、数多くの現実世界のシナリオで3Dアセットを作成する新たな可能性を開拓していますデジタル3Dアセットは現在、私たちのデジタル存在において不可欠な場所を占めており、複雑な環境やオブジェクトとの包括的な視覚化や対話を可能にしています
「GPTの進化を探る ChatGPT-4の新機能と、コンバーショナルAIの再定義」
以前のバージョンをベースに、多様性と倫理的考慮を特徴とするConversational AIのChatGPT-4の進化を探求し、新たな可能性を解き放つ
「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です
どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込みからテキストトークンを予測してラベルを形成するために言語デコーダを利用する新しい手法を開発し、物体認識の問題に取り組みました。また、パフォーマンスを損なうことなく、より効率的なデコーダの作成戦略も提案しました。 深層学習時代以前から存在した物体認識は、画像注釈に貢献してきました。領域のスライシングや単語の予測などの手法を用いて、領域と単語を語彙に基づいて結びつけました。画像とテキストを共有空間に共同埋め込みすることで、画像とテキストのマッチングに取り組み、フレーズのグラウンディングを強調しました。画像注釈はトピックモデルからトランスフォーマベースのアーキテクチャへ進化しました。GPTやLLaMAなどの言語モデルは視覚認識に貢献し、検出、フューショット認識、説明、推論などに応用されました。言語モデルからの建築的な概念、例えばプレフィックスのアイデアなどは、ビジョン-言語ドメインで影響を与え、探索されてきました。 この研究は、画像エンコーダが埋め込みを生成し、言語デコーダが物体のラベルを予測するフレームワークを導入することによって、コンピュータビジョンにおける物体認識に取り組んでいます。従来の固定埋め込みを持つ従来の手法とは異なり、提案手法では認識を次のトークンの予測として扱い、画像の埋め込みからタグの自己回帰的なデコーディングを可能にします。この手法により、事前に定義されたラベルの必要性がなくなり、柔軟で効率的な認識が促進されます。非因果的な注意マスクやコンパクトなデコーダなどの主要な革新は、パフォーマンスを損なうことなく効率を向上させ、コンピュータビジョンにおける物体認識への新しい解決策を提供します。 研究では、次のトークン予測に基づく物体認識に関する手法を提案し、画像埋め込みからテキストトークンを予測してラベルを作成する言語デコーダを使用します。デコーダは非因果的な注意マスクを組み込んで自己回帰を行い、画像トークンをプレフィックスとして扱います。推論時には、複数のラベルから並列トークンサンプリングを行い、確率に基づいてランキングします。効率性のために、事前学習された言語モデルから中間ブロックを削除するコンパクトなデコーダ構築戦略が提案されていますが、パフォーマンスは保持されます。 研究はCLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP、CaSEDと比較し、トップ-kの予測と適合率-再現率曲線を評価しています。提案手法はトップ10の予測で競合他社を一貫して上回り、ラベル生成の優れた関連性を示しています。適合率-再現率曲線は強い線形相関を示し、kが増加するにつれて高い再現率が得られ、データセット全体で予測品質が向上していることを示唆しています。デコーダの切り詰めによる摘出解析に関する研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。これは、物体認識のための初期のLLaMA 7Bモデルブロックの重要性を強調し、よりコンパクトなデコーダのために11番目以降のブロックを削除することを示しています。 結論として、提案された次のトークン予測を活用した自己回帰的な物体認識手法は、データセット全体でトップ10の予測を生成する他の手法よりも優れた関連性を示しています。適合率-再現率曲線で観察される強い線形相関は、すべてのテストデータセットで予測品質が向上していることを示唆しています。デコーダの切り詰めに関する摘出解析の研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。また、LLaMAモデルの中間トランスフォーマーブロックを削除することで、よりコンパクトなデコーダが得られ、パフォーマンスも保持されました。これは、物体認識においてLLMの一部の知識の重要性を強調しています。 さらなる研究では、一回のサンプリングでの競合の懸念に対処するため、緩和策を探索することに焦点を当てることができます。他の可能性としては、事前に定義されたサブセットや参照ピボットなしで、特にLLMと物体認識を直接的に結びつける生成モデルの直接のアライメントを調査することがあります。また、訓練データのボリュームを大幅に増やして、未知のデータや概念を解釈または認識するための依存度を減らす効果を検証することも有益であり、時間の経過とともに新しいラベルを増やしていくオープンワールドのパラダイムと一致しています。
大規模な言語モデル:DeBERTa — デコーディング強化BERTと解釈された注意力
最近、BERTは多くの自然言語処理の課題で第一のツールとなりました情報の処理と理解、高品質の単語埋め込みの構築能力に優れています…
UC Berkeleyの研究者たちは、ディープラーニングにおいて効率的なデータ圧縮とスパース化を実現するための新しいホワイトボックストランスフォーマーであるCRATEを提案しています
最近、深層学習の実用的な成功は、高次元で多様なデータの処理とモデリングにおけるもので、指数関数的に成長しています。この成果の多くは、ディープネットワークがデータ内に圧縮可能な低次元構造を見つけ、それらの発見を経済的な、つまりコンパクトで構造化された表現に変換する能力に起因しています。このような表現は、ビジョン、分類、認識、セグメンテーション、生成など、後続の多くのタスクを容易にします。 整理された簡潔な表現を学ぶため、カリフォルニア大学バークレー校、トヨタテクノロジカル研究所(シカゴ)、上海科技大学、ジョンズ・ホプキンス大学、イリノイ大学、香港大学の研究者たちは、一つの目標を提案しています:良質な基準の測定です。彼らの研究では、表現学習の最も一般的な目標の一つは、データ(ここではトークンセット)の表現を格納する空間の次元を減らすことであり、それをガウス混合分布に適合させ、非関連な部分空間で補完します。このような表現の良さは、獲得された表現の内部情報ゲインと外部スパース性を同時に最適化する原理的な指標であるスパースレート削減を用いて評価することができます。この指標を最大化するための反復的な手法は、トランスフォーマーなどの一般的なディープネットワーク設計を意味します。具体的には、この目標の異なる側面に対して交互に最適化を行い、トランスフォーマーブロックを導出します。まず、多重自己注意オペレータは、特徴の符号化レートに関する近似的な勾配降下ステップを用いて表現を圧縮し、次に、後続の多層パーセプトロンが特徴を指定します。 これにより、最適化の対象、ネットワークオペレータ、学習された表現がすべて数学的に完全に解釈可能な「ホワイトボックス」として、トランスフォーマーに似たディープネットワーク設計に至りました。彼らは、このタイプのホワイトボックスであるディープアーキテクチャをコーディングレートトランスフォーマーと呼びます。チームはまた、これらの増分写像が分布的意味で逆可能であり、逆演算は同じオペレータファミリーからなることを厳密な数学的証明で示しています。したがって、エンコーダ、デコーダ、およびオートエンコーダは、ほぼ同じクレートデザインを使用して実装することができます。 このフレームワークが理論と実践のギャップを実際に埋めることができるかどうかを示すために、研究者たちは画像とテキストデータの両方で広範な実験を行い、クレートモデルの実践的なパフォーマンスを評価しました。従来のトランスフォーマー(ViT、MAE、DINO、BERT、GPT2など)と比べて、クレートはすべてのタスクと設定でそのブラックボックスの対応物と競争力のあるパフォーマンスを示しました。これには、教師あり学習による画像分類、教師なしの画像や言語データのマスク補完、教師なしの特徴学習などのタスクが含まれます。さらに、クレートモデルは多くの有用な機能を持っています。オブジェクトを背景から容易に分割し、共有パーツに分割することでセマンティックな意味を示します。各層とネットワークオペレータには統計的および幾何学的な意味があります。提案された計算パラダイムは、ディープラーニングの理論と実践をデータ圧縮の統一的な観点から接続することで、大きな約束を示していると考えています。 チームは、限られたリソースで上記のすべてのタスクにおいて最先端のパフォーマンスを目指すわけではなく、重いエンジニアリングや大規模な微調整が必要な場合もなく、現在の産業規模でモデルを構築してテストすることもできません。彼らがこれらの雑用のために開発したソリューションは、一般的に汎用的でタスク固有の柔軟性に欠けるものです。しかし、彼らはこれらの研究が、これらのデータから構築されたホワイトボックスのディープネットワーククレートモデルが普遍的に効果的であり、将来のエンジニアリングの研究開発の堅固な基盤を提供していることを合理的な疑いを越えて証明したと考えています。 大規模な実世界(画像またはテキスト)のデータセットおよびタスク(識別および生成)において、教師あり、教師なし、および自己教師ありの状況で、これらのネットワークはおそらく利用可能なアーキテクチャの中で最もシンプルながら、経験豊富なトランスフォーマーと同等のパフォーマンスを発揮すると考えています。彼らは、この研究が、トランスフォーマーなどのディープネットワークに基づく現在のAIシステムの全ポテンシャルを明らかにする新たな視点を提供していると信じています。
ポッドキャストのアクセシビリティを向上させる:LLMテキストのハイライト化ガイド
イントロダクション ポッドキャストを愛して、最高の部分を覚えておきたいと思ったけれど、音声だけでテキストがない場合、どうすればいいでしょうか? そこで、LLMや音声からテキストへの翻訳などの便利なツールが登場します。 これらのツールは、話された言葉を書かれたノートに魔法のように変換し、簡単に重要なポイントをピックアップして便利な箇条書きを作成します。 そのため、お気に入りのポッドキャストの瞬間は、転写まであと一歩! 2022年11月の最初のデビュー以来、LLMは大流行しています。LLMはさまざまなタスクに使用でき、テキストの要約化は重要なアプリケーションです。 テキスト以外、オーディオやビデオなどの他のモードにも要約化できます。 LLMを使用してポッドキャストのアクセシビリティを向上させ、簡単に利用できる箇条書きのハイライトを生成したり、将来の参照のためにノートを取ることができます。 PaLM(Pathways Language LLM)は、2022年4月にGoogle AIによって確立された重要なLLMです。 今年の2023年3月、PaLM 2の第2バージョンがリリースされ、改良された最新バージョンとなりました。 優れたバイリンガル、コーディング、思考能力を持つことを目指しています。 PaLM 2 LLM APIの利点は、そのAPIが無料で利用できることです。 OpenAIのChatGPTとは異なり、他のLLMよりもパフォーマンスが向上し、推論能力も向上しています。 この記事では、PaLM 2 APIとMaker Suiteという2つのツールを使用して、シンプルなポッドキャストテキストハイライトを作成し、LLMモデルの設定を最適化する方法を学びます。…
WhatsAppチャットで言語モデルを構築しましょう
チャットボットは、デジタルプラットフォームとのやり取りを確実に変えてきました高度な言語モデルの能力の向上にもかかわらず、複雑なタスクを処理する能力において、ユーザー...
「FP8を用いたPyTorchトレーニング作業の高速化」
過去数年間、AIの分野では革命的な進展が見られており、特に最近のChatGPTなどのLLMベースのアプリケーションの人気と普及を最もよく表していますこれらは...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.