Learn more about Search Results 3 - Page 6

Google AI研究のTranslatotron 3:革新的な教師なし音声対音声翻訳アーキテクチャの発表

音声から音声への翻訳(S2ST)は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。 音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。 研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。 https://blog.research.google/2023/12/unsupervised-speech-to-speech.html Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。 SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。 多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。 バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。 Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。 Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron…

「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」

人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の体の配置や位置を指します。良い姿勢は、筋肉、関節、靭帯の最適な配置をサポートし、筋力バランスの崩れ、関節痛、過度の使用による怪我のリスクを軽減します。体重を均等に分散させ、特定の体の部位に過度のストレスをかけないようにすることもできます。 適切な姿勢により、肺の拡張が容易になり、適切な呼吸が促進されます。 背が丸まったり、姿勢が悪いと、胸腔を圧迫し、肺の容量が制限され、効率的な呼吸が妨げられます。さらに、良い姿勢は全身の健康な循環をサポートします。研究によると、良い姿勢を維持することは、気分や自信に良い影響を与える可能性があります。直立かつ姿勢の開いた姿勢は、自己主張力が増し、ポジティブさが増し、ストレスレベルが低下すると関連付けられています。 マックス・プランク・インテリジェントシステムズ、ETHチューリッヒ、メッシュケイド、清華大学の研究者チームは、PoseGPTと呼ばれる大規模言語モデルを使用したフレームワークを作成し、画像またはテキストの記述から3D人体ポーズを理解し、推論することができます。画像ベースやテキストベースの従来の人体ポーズ推定手法では、より包括的なシーンの理解と微妙な推論が必要であり、視覚データとその現実世界での意味のギャップが生じることがあります。PoseGPTは、テキストと視覚的な入力の両方から3Dボディポーズを直接生成することができるように、SMPLポーズを異なる信号トークンとして埋め込むことで、これらの制約に対応します。 彼らの手法では、SMPLポーズをユニークなトークンとして埋め込み、SMPLポーズに関連する問い合わせに対してLMMをプロンプトすることで、これらを出力させます。このトークンから言語の埋め込みを抽出し、MLP(多層パーセプトロン)を使用してSMPLポーズパラメーターを直接予測します。これにより、モデルはテキストまたは画像を入力として受け取り、3Dボディポーズを出力することができます。 彼らは、PoseGPTを単一画像からの3D人体ポーズ推定やテキストの説明からのポーズ生成など、様々なタスクで評価しました。これらの古典的なタスクの評価精度は、特化した手法と同等にはまだ達していませんが、これを概念実証の最初の段階と見なしています。さらに重要なことは、LLMがSMPLポーズを理解すると、追加のデータやトレーニングを必要とせずに、人体ポーズに関連して世界の知識を活用し、推論することができる点です。 通常のポーズ回帰手法とは異なり、彼らの手法では、マルチモーダルLMMに個人を囲むトリミングされた領域外境界ボックスを提供する必要はありません。代わりに、モデルは全体のシーンにさらされ、そのコンテキスト内の個人や個々のポーズに関するクエリを形成することができます。 LLMが3Dボディポーズの概念を把握すると、人体ポーズを生成し、世界を理解する能力を持つようになります。これにより、複雑な口頭および視覚的な入力を通じて推論し、人体ポーズを開発することができます。この能力により、これまでには実現不可能だった新たなタスクや、どのモデルのパフォーマンスを評価するためのベンチマークが導入されます。

「クリスマスラッシュ」3Dシーンが今週の「NVIDIA Studio」でホリデーのチアをもたらします」

編集者の注記:この投稿は、我々の週刊「In the NVIDIA Studio」シリーズの一部であり、特集アーティストを称え、創造的なヒントやトリックを提供し、そしてNVIDIA Studioテクノロジーが創造的なワークフローを向上させる方法をデモンストレーションしています。 友達や家族、そして今週のIn the NVIDIA Studioアーティスト、3Dエキスパートボゾ・バロブによる美しく描かれたサンタのアニメーションを楽しむ季節です。 今週は、驚くべきマイルストーンも達成されました。NVIDIA RTXパワードのゲームとクリエイティブアプリが500以上、レイトレーシングやNVIDIA DLSSなどのAIパワードテクノロジーに対応して利用できます。Adobe Creative Cloudスイート、Autodesk Maya、Blender、Blackmagic DesignのDavinci Resolve、OBS、Unityなど、最も人気のあるアプリ120以上がRTXを使用してワークフローを数倍に加速し、新しいAIツールと機能を提供し、リアルタイムのレイトレーシングプレビューを可能にしています。 これを祝して、NVIDIA GeForceではギフトカード、希少な#RTXONキーボードキーキャップなどをプレゼントするキャンペーンを開催しています。参加方法については、GeForceのFacebook、Instagram、TikTok、またはX(以前のTwitter)をフォローしてください。 💚 THANK YOU FOR 500…

27/11から03/12までの週の主要なコンピュータビジョン論文のトップ重要度

毎週、いくつかのトップティアの学術会議やジャーナルで、画像認識などの様々なサブフィールドでの革新的な研究が紹介されますこれらの研究は、コンピュータビジョンにおける興奮をもたらすブレイクスルーを提示しています

『Re Invent 2023の私のお勧め』

ここに私のお気に入りのリストがありますが、特定の順序はありません (Koko ni watashi no okiniiri no risuto ga arimasu ga, tokutei no junjo wa arimasen.)

シンガポールがAIワークフォースを3倍に増やす予定

シンガポールは、人工知能の分野に目を向けています。国家AI戦略(NAIS)2.0の発表により、この都市国家は次の3〜5年でAIの労働力を15,000人にまで増やす計画です。この野心的なイニシアチブは、シンガポールの技術的な風景だけでなく、社会の構造も再構築するものとなるでしょう。 見習いによる人材育成 才能のプールを強化するために、シンガポール政府はすでに300人以上の卒業生を輩出した見習いプログラムを改革することを目指しています。多様な産業のAIプロダクト開発チームとの強化された協力により、参加者には実世界の経験が提供されます。この多角的なアプローチは、クリエイターとユーザーのギャップを埋めるダイナミックなエコシステムを育成することを目指しています。 戦略的なAIの統合 NAIS 2.0では、すべての企業でのAIの導入を奨励することに重要な重点を置いています。産業変革マップと職業変革マップによってガイドされるターゲットトレーニングプログラムは、労働力のスキルアップに不可欠です。その目標は、製造業、金融サービス、輸送、物流、バイオ医学などのセクターにAIをシームレスに統合することです。 未開のAI領域 副首相のローレンス・ウォンは、発表会で変革の道程について強調しました。人間の認知能力に似た機械によって特徴づけられるAIの進化する風景は、包括的な国家戦略を要求しています。フラッグシッププロジェクトからシステムアプローチへのシフトにより、AIは単なる機会ではなく、シンガポールの未来にとって必要不可欠なものとして位置付けられています。 倫理的なAIガバナンス AIの倫理的な影響についての懸念に対処するため、シンガポールの規制アプローチはイノベーションの促進とセーフガードの実施の微妙なバランスを求めています。更新されたモデルガバナンスフレームワークとAI Verifyツールキットは、責任ある開発を確保することを目指しています。ウォン副首相は、定期的なレビューと調整が行われる「目的に適した」規制環境の必要性を強調しました。 私たちの意見 シンガポールのグローバルリーダーシップへのコミットメントは、変革的な技術の課題と機会に対する積極的なアプローチを反映しています。この国がさまざまな領域で優れた研究、基盤整備、国際パートナーシップを追求することは、先例を打ち立てています。シンガポールカンファレンスの開催はその意義があり、全世界での協力とアイデア交換の場を提供します。シンガポールの国家AI戦略2.0は、単なるアップデート以上のものです。この国はAIの力をどのように認識し活用するかを再定義しています。この未開の領域に進む中、シンガポールは世界に招待し、関与することを求めています。この変革的な旅は、グローバルなAIの未来を形作っています。

「34%高速な整数から文字列への変換アルゴリズム」

コンピュータプログラミングにおいて、与えられた整数を文字列に変換することは一般的な操作ですこれは、例えば整数を画面に表示する前や、テキスト形式の任意の場所に表示する前に行うべきです...

「2024年に注目すべきトップ5のWeb3企業」

「Web3において革新を牽引しているトップ企業を発見しましょう彼らの特徴的な能力について学び、彼らがブロックチェーン、暗号通貨、ソーシャルプラットフォーム、ゲーム、そして分散型インターネットを再定義している方法を探求しましょう」(Web3においてかくしんをひっぱっているトップきぎょうをはっけんしましょうかれらのとくちょうてきなのうりょくについてまなび、かれらがぶろっくちぇーん、あんごうつうか、そーしゃるぷらっとふぉーむ、げーむ、そしてぶんさんがたいんたーねっとをさいていぎているほうほうをたんきゅうしましょう)

「デベロッパー用の15以上のAIツール(2023年12月)」

“`html GitHub Copilot GitHub Copilotは、市場をリードするAIによるコーディングアシスタントです。開発者が効率的に優れたコードを作成できるように設計され、CopilotはOpenAIのCodex言語モデルを基に動作します。このモデルは自然言語と公開コードの広範なデータベースの両方でトレーニングされており、洞察に満ちた提案を行うことができます。コードの行や関数を完全に補完するだけでなく、コメント作成やデバッグ、セキュリティチェックの支援など、開発者にとって大変貴重なツールとなっています。 Amazon CodeWhisperer AmazonのCodeWhispererは、Visual StudioやAWS Cloud9などのさまざまなIDEでリアルタイムのコーディング推奨事項を提供する、機械学習に基づくコード生成ツールです。大規模なオープンソースコードのデータセットでトレーニングされており、スニペットから完全な関数までを提案し、繰り返しのタスクを自動化し、コードの品質を向上させます。効率とセキュリティを求める開発者にとって大変便利です。 Notion AI Notionのワークスペース内で、AIアシスタントのNotionがさまざまな執筆関連のタスクをサポートします。創造性、改訂、要約などの作業を助け、メール、求人募集、ブログ投稿などの作成をスピードアップさせます。Notion AIは、ブログやリストからブレストセッションや創造的な執筆まで、幅広い執筆タスクの自動化に使用できるAIシステムです。NotionのAI生成コンテンツは、ドラッグアンドドロップのテキストエディタを使用して簡単に再構成や変換ができます。 Stepsize AI  Stepsize AIは、チームの生産性を最適化するための協力ツールです。プロジェクトの履歴管理やタスク管理の役割を果たし、Slack、Jira、GitHubなどのプラットフォームと統合して更新を効率化し、コミュニケーションのミスを防ぎます。主な機能には、活動の統一した概要、質問への即時回答、堅牢なデータプライバシーコントロールが含まれます。 Mintlify Mintlifyは、お気に入りのコードエディタで直接コードのドキュメントを自動生成する時間の節約ツールです。Mintlify Writerをクリックするだけで、関数のための良く構造化された、コンテキストに即した説明を作成します。開発者やチームにとって理想的であり、複雑な関数の正確なドキュメントを生成することで効率と正確性が高く評価されています。 Pieces for Developers…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us