Search Results dvc

ハイプに乗ろう！ベイエリアでのAIイベント

サンフランシスコは、世界の人工知能（AI）の首都として誇り高く立っていますAIの領域に没頭するなら、今がこの都市にいるべき最適な時ですこの現象の重要な部分は、AIに焦点を当てたイベントの急増によりもたらされています過去数年間は、ベイエリアのイベント主催者にとって挑戦が続いてきました

Google AI研究のTranslatotron 3：革新的な教師なし音声対音声翻訳アーキテクチャの発表

音声から音声への翻訳（S2ST）は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。 https://blog.research.google/2023/12/unsupervised-speech-to-speech.html Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。 SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。 Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。 Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron…

「新時代のAI/MLのためのソフトウェア/ハードウェアアーキテクチャをどのように共同設計するか？」

最新の生成AI技術は、コンピュータビジョン、自然言語処理などで爆発的な成長を遂げ、画期的なモデルアーキテクチャの研究によるブレイクスルーが続々と生まれています

「安全で、安心で信頼性のあるAIフレームワークを開発するための専門家の洞察」

「バイデン大統領の最近の執行命令に基づき、安全で信頼性のあるAIを重視するという方針に沿って、米国連邦政府の資金援助を受けて行っているTrusted AI（TAI）の研究プロジェクトの2年間で得られた知見を共有します」

Artificial Intelligence

NVIDIAとUTオースティンの研究者がMimicGenを紹介：ロボティクスのための自律的なデータ生成システム

様々な操作動作をロボットに学習させるために、人間のデモンストレーションを模倣学習することが可能になりました。人間のオペレータは、さまざまな制御インターフェースを介してロボットアームをテレオペレートし、ロボットが異なる操作タスクを実行する様々なデモンストレーションを生成し、そのデータを使用してロボットにこれらのタスクを独立して実行させるように学習させる方法が一般的です。最近の取り組みでは、より多くのデータをより多くの人間オペレータの大規模なグループから、より広範な機能領域で収集することで、このパラダイムを拡大しようとする試みが行われています。これらの研究では、大規模で多様なデータセット上の模倣学習が印象的な性能を示し、ロボットが新しいオブジェクトや未知のタスクに対して汎化できることを示しています。これは、幅広く優れたロボットを作成するための重要な第一歩であることを意味しています。しかし、これは高価で時間のかかる人間の作業によってのみ可能な達成です。例えば、コーラの缶を一つのビンから別のビンに移動させるエージェントのケーススタディを見てみましょう。この単純な作業においても、200のデモが必要で、成功率は73.3%でした。さらに、最近の試みでは、様々なシーンやアイテムの設定に拡大するために、数万のデモが必要であることが明らかになりました。例えば、20,000の軌跡データを使用して、オブジェクトや目標のわずかな変化に対する課題を一般化できることが示されています。図1：研究者たちは、既存のデモを新しいコンテキストで有用に着想し、大規模で多様なデータセットを生成するデータ生成システムを提供しています。彼らはMimicGenを使用して、様々なアイテム、ロボットギア、シーンの設定に対してデータを提供しています。約1.5年にわたるデータ収集の取り組みで、NVIDIAとUT Austinの研究者は、複数の人間オペレータ、複数のキッチン、ロボットアームを使用して、キッチン内の物事を再配置、清掃、回復するためのルールを97%の成功率で作成しました。ただし、実世界のキッチンでこのシステムを実装するためには、必要なデータを収集するために何年もかかることがまだわかっていません。彼らは、「このデータはどの程度異なる操作動作から構成されているのか」と尋ねています。これらのデータセットには、さまざまな設定や状況で使用される類似の変更技術が含まれる場合があります。たとえば、カップを掴む場合、カップの配置に関係なく、人間のオペレータは非常に似たようなロボットの軌跡を示すかもしれません。これらの軌跡をさまざまな状況に適用することで、様々な操作動作を生成するのに役立ちます。しかし、これらの手法の適用範囲は、特定のタスクやアルゴリズムに対する仮定により制約されています。それよりも、彼らは現在の模倣学習プロセスに簡単に組み込むことができ、さまざまな活動のパフォーマンスを向上させることができる普遍的なシステムを作成したいと考えています。この研究では、限られた数の人間の例から自動的に多数のシナリオで巨大なデータセットを生成するユニークなデータ収集手法であるMimicGenを提案しています。彼らの手法は、ヒトのデモンストレーションをオブジェクトにフォーカスしたパーツに分割し、それらを空間上で変形させ、組み合わせ、ロボットにこの新しい経路をたどるように指示して、異なるオブジェクトの姿勢を持つ新たなシナリオで最新のデモンストレーションを収集するものです。単純な手法ですが、この手法は様々なシナリオから大規模なデータセットを生成するのに非常に適していることがわかりました。これらのデータセットは、模倣学習を使用して有能なエージェントの訓練に使用することができます。彼らの貢献は以下の通りです： • NVIDIAとUT Austinの研究者が、限られた数の人間のデモンストレーションを利用して、新しい状況適応を用いた技術で大規模で多様なデータセットを作成するMimicGenを提案しています。 • 彼らは、MimicGenが高品質のデータを提供できることを示しています。これらのデータは、元のデモには含まれていないさまざまなシーンの設定、オブジェクトのインスタンス、ロボットアームに対して訓練されたスキルのあるエージェントを模倣学習で訓練するのに適しています（図1を参照）。ピック＆プレース、挿入、関節オブジェクトとのインターフェースなど、MimicGenが広範で高精度なアクティビティに適しており、異なる操作能力が求められます。200の元の人間のデモで、彼らは2つのシミュレータと実際のロボットアームを使って、18のジョブのために50,000以上の追加のデモを生成しました。 • 彼らの方法は、より多くの人間のデモを集める代替方法と同等のパフォーマンスを発揮します。これは、いつ追加データを人間から要求する必要があるかについて重要な懸念を引き起こします。MimicGenを使用して同じ量の合成データを生成する（例：10人から生成された200のデモと200人のデモ）と、エージェントのパフォーマンスが同等になります。

LoftQをご紹介します：大規模言語モデルのためのLoRA（Fine-Tuning-Aware Quantization）

プリトレーニングされた言語モデル(PLM)の導入は、自然言語処理の分野において画期的な変革を示しています。プリトレーニングされたモデルは、自然言語理解(NLU)や自然言語生成(NLG)を含む幅広い言語タスクにおいて卓越した能力を示しています。これらのモデルは通常、数百万または数十億のパラメータを組み込んでおり、計算およびメモリの要件が大きくなっています。ただし、これらのモデルの計算およびメモリのニーズは、研究コミュニティに認識されているように、重要な課題を提起しています。この論文で、著者たちは新しい量子化フレームワークであるLoRA-Fine-Tuning-aware Quantization (LoftQ)を紹介しています。このフレームワークは、量子化とLoRA微調整を必要とするプリトレーニングモデルに特化しています。このフレームワークは、元々の高精度のプリトレーニングウェイトを低ランク近似と組み合わせて近似的に表現することにより、効果的に機能します。上記の画像は、QLoRAの異なるビットでのパフォーマンスを示しています。左：WikiText-2上のLLAMA-2-13bのQLoRA初期化。右：WikiText-2の言語モデリングタスクにおいてLLAMA-2-13bにQLoRAを適用。より小さい困惑度はより優れたパフォーマンスを示します。量子化手法。LoftQがさまざまな量子化関数と互換性があることを示すために、2つの量子化手法を適用します：・一様量子化は、古典的な量子化手法です。連続区間を均等に2N個に分割し、復元のために局所的な最大絶対値を格納します。・QLoRAで使用されるNF4とその2ビットバリアントNF2は、高精度の値がガウス分布に従っていると仮定し、これらの値を等しい確率を持つ離散スロットにマッピングします。私たちは全モデルに2ビットおよび4ビットの量子化を行い、4ビットおよび2ビットレベルでそれぞれ25〜30%、15〜20%の圧縮率を達成しました。すべての実験はNVIDIA A100 GPUで実施されました。彼らの量子化フレームワークの評価は、NLU、質問応答、要約、NLGを含むさまざまな下位タスクでの包括的な実験を通じて行われます。これらの実験の結果は、LoftQがすべての精度レベルにおいて常にQLoRAを上回っていることを示しています。たとえば、4ビット量子化では、XSumおよびCNN/DailyMailのRouge-1の改善がそれぞれ1.1と0.8であります。自然言語処理の分野が進歩し続けるにつれ、PLMの膨大な潜在能力とその実用的な展開との間のギャップを埋めるため、さらなる革新と最適化が期待されており、幅広いアプリケーションとユーザーに利益をもたらすでしょう。

「再トレーニングの必要なしでモデルのメモリを再形成する」

大きな言語モデル（LLMs）は世界中で大流行していますわずか1年足らずでありながら、今や多くのユーザーによって普及し、使用されていますこれらのモデルはしばしば大量のテキストで訓練されます...

AIを活用したエネルギー効率：今日の電気技師をどのようにスキルアップするのか？

画像元 Unsplash AI主導の世界では、技術の変化が唯一の定数です電気技師にとって、これらの変化は圧倒的であり、追いつくのが難しいと感じるかもしれませんしかし、このデジタルトランスフォーメーションこそ、成長と探求のための豊かな機会でもありますこのガイドでは、電気技師がスキルアップするための主要な戦略を提供します... エネルギー効率をAIで向上させるには：今の電気技師をどのようにスキルアップさせるのでしょうか？もっと読む »

Tech

このAI研究は、「ニューラルA *：パスプランニング問題のための新しいデータ駆動型検索方法」というタイトルで発表されました

パスプランニングは、環境マップ内の初期点から目標点への費用効果の高い有効なパスを特定するものです。パスプランニングの課題に取り組むためには、A*探索などの探索ベースのプランニング手法が広く活用されています。これらの技術は、自律型車両のナビゲーションやロボットアームの操作など、さまざまな領域での応用が見られます。最近の研究では、データ駆動型のパスプランニングが2つの特定のシナリオで重要な利点を持つことが強調されています。最初のシナリオは、従来のヒューリスティックプランナーと比較して、点から点への最短経路探索問題においてより効率的な近似最適パスの発見というものです。 2番目のシナリオは、生の画像入力を利用したパスプランニングの実現です。環境の意味論的なピクセル単位のラベリングにアクセスできない限り、これは古典的なプランナーにとっては困難な課題です。この研究では、著者たちは従来のA*探索アルゴリズムを異なる方法で再定義し、畳み込みエンコーダーと組み合わせて完全に学習可能なエンドツーエンドのニューラルネットワークプランナーであるNeural A*を作成しました。このアプローチは、与えられた問題インスタンスをガイダンスマップに変換し、そのマップに基づいて微分可能なA*探索を実行することで、パスプランニングの問題に対処します。上記の画像は、Neural A*によるパスプランニングの2つのシナリオを示しています。点から点への最短パス探索：入力マップに対して最適パス（赤）と少ないノードの探索（緑）を見つける。生の画像入力に対するパスプランニング：自然画像上の人間の軌跡（赤）を正確に予測する。 Neural A*は、検索結果を専門家が提供する正解パスと一致させる学習プロセスを通じて、正確かつ効率的に正解に従ったパスを生成することができます。この図は、Neural A*の概略図を示しています：（1）パスプランニングの問題インスタンスはエンコーダに供給され、ガイダンスマップが生成されます。（2）微分可能なA*モジュールは、ガイダンスマップを使用して点から点への最短パス探索を実行し、探索履歴と結果のパスを出力します。（3）探索履歴と正解パスとの間の損失が逆伝播され、エンコーダのトレーニングに利用されます。包括的な実験結果により、Neural A*が最先端のデータ駆動型プランナーを超え、探索の最適性と効率の良いバランスを実現することが示されています。さらに、Neural A*は、自然画像への探索ベースのプランニングの直接応用により、現実的な人間の軌跡を予測する能力を示しています。

Amazon SageMakerのマルチモデルエンドポイントを使用して、Veriffがデプロイ時間を80％削減する方法

「Veriffは、革新的な成長志向の組織、金融サービス、フィンテック、仮想通貨、ゲーム、モビリティ、オンラインマーケットプレイスなどのパイオニアを対象とした身元確認プラットフォームのパートナーですこの投稿では、Amazon SageMakerを使用してVeriffがモデルの展開ワークフローを標準化し、コストと開発時間を削減した方法を紹介します」

Learn more about Search Results dvc