Search Results ローン

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディアで有名人のミームやAI声の上書きを見たことがあるかもしれません。それがどのように行われているのか疑問に思ったことはありませんか？Eleven Labsなど、多くのプラットフォームがAPIを提供していますが、オープンソースソフトウェアを使用して無料で行うことはできるのでしょうか？短い答えは「YES」です。オープンソースには音声合成を実現するためのTTSモデルとリップシンクツールがあります。したがって、この記事では、音声クローンとリップシンクのためのオープンソースのツールとモデルを探求してみましょう。学習目標 AI音声クローンとリップシンクのためのオープンソースツールを探求する。 FFmpegとWhisperを使用してビデオを転写する。 Coqui-AIのxTTSモデルを使用して声をクローンする。 Wav2Lipを使用してビデオのリップシンクを行う。この技術の実世界での使用例を探求する。この記事はData Science Blogathonの一環として公開されました。オープンソーススタック既にご存じのように、私たちはOpenAIのWhisper、FFmpeg、Coqui-aiのxTTSモデル、およびWav2lipを私たちの技術スタックとして使用します。しかし、コードに入る前に、これらのツールについて簡単に説明しましょう。そして、これらのプロジェクトの作者に感謝します。 Whisper： WhisperはOpenAIのASR（自動音声認識）モデルです。これは、多様なオーディオデータと対応するトランスクリプトを用いて、650,000時間以上のトレーニングを受けたエンコーダ-デコーダトランスフォーマーモデルです。そのため、オーディオからの多言語の転写に非常に適しています。エンコーダは、30秒のオーディオチャンクのログメルスペクトログラムを受け取ります。各エンコーダブロックは、オーディオ信号の異なる部分を理解するためにセルフアテンションを使用します。デコーダは、エンコーダからの隠れ状態情報と学習済みの位置エンコーディングを受け取ります。デコーダはセルフアテンションとクロスアテンションを使用して次のトークンを予測します。プロセスの最後に、認識されたテキストを表すトークンのシーケンスを出力します。Whisperの詳細については、公式リポジトリを参照してください。 Coqui TTS： TTSはCoqui-aiのオープンソースライブラリです。これは複数のテキスト読み上げモデルをホストしています。Bark、Tortoise、xTTSなどのエンドツーエンドモデル、FastSpeechなどのスペクトログラムモデル、Hifi-GAN、MelGANなどのボコーダなどがあります。さらに、テキスト読み上げモデルの推論、調整、トレーニングのための統一されたAPIを提供しています。このプロジェクトでは、xTTSというエンドツーエンドの多言語音声クローニングモデルを使用します。これは英語、日本語、ヒンディー語、中国語などを含む16の言語をサポートしています。TTSについての詳細情報は、公式のTTSリポジトリを参照してください。 Wav2Lip： Wav2Lipは、「A Lip Sync…

空からのパイ：ドローンスタートアップがピザ、薬物、そして興奮をお届けします

ジップラインは、ただの空飛ぶドローンのスタートアップではありません。このサンフランシスコを拠点とする企業は、2011年の開始以来、7つの国で80万回以上の配送を完了しました。最近では、シアトルのパリャッチピザ、ビタミン・サプリメントの巨大企業であるGNC、およびIntermountain Health、OhioHealth、Michigan Medicineなどの大規模な医療システム向けにもサービスを追加しました。ジップラインは、NVIDIA JetsonエッジAIおよびロボティクスプラットフォームを使用して、自律的なナビゲーションと精密な着陸ができるドローンを開発しました。これらのドローンは現在までで5500万マイル以上を飛行しています。この急成長を遂げている企業は最近、43億ドル以上の評価額で3億3000万ドルの資金調達に成功しました。ジップラインは、技術的なサポートとAIプラットフォームのガイダンスを提供するプログラムであるNVIDIA Inceptionのメンバーです。ジェットソンパワードフリートでの配送同社のP1ドローン（プラットフォーム1）は、7年間の稼働を経て実稼働に移行しており、現在はJetson Xavier NXシステムオンモジュールを使用してセンサー入力を処理しています。GPS、航空交通管制の通信、慣性計測ユニットセンサー、および搭載された検出および回避システムによって誘導され、安全性のためにガイダンスの冗長性も持っています。ジップラインの固定翼ドローンは、55マイル以上を時速70マイルで飛行し、いくつかのジップラインの配送センターから配送を行い、その後戻ることができます。最大4ポンドの貨物を運ぶことができ、自律的に配送場所を飛び越え、パラシュートで目的地に向かってパッケージを降ろすことができます。 P2ドローン（プラットフォーム2）は、固定翼飛行で高速に飛行できるハイブリッドドローンであり、またホバリングも可能です。10マイルの距離で8ポンドの貨物を運び、細かな配置を完了するために、テザーで下げるドロイドを搭載しています。これは、密集した都市環境での使用を想定しています。 P2には2つのJetson Orin NXモジュールが使用されています。1つはドローンの環境を理解するためのセンサーフュージョンシステム用です。もう1つはテザーによって降下するドロイド内にあり、追加の安全性のための冗長性を提供します。ジップラインのP2ドロイドでは、最小かつ最も素早く、最も安全で最も静かなドローンを使って精密なデリバリーを実現することを目指しています。ジップラインは世界中で毎秒70回のデリバリーを行っています。多数の顧客に向けて飛び立つジップラインのサービスには顧客が惹かれる利点があります。同社によれば、そのドローンは車両の配送に比べて7倍速い配達時間を実現しています。「当社の航空機は時速70マイルで飛行しますので、交通渋滞や信号待ちの心配はありません。配送時間は数分です」とマーダールは語ります。「配達には一桁の分数の時間がかかりますので、確かに他の方法よりも速いです。」ピザ、ビタミン、薬の配送だけでなく、ジップラインはWalmart、レストランチェーンのSweetgreen、Michigan…

ドローンが風力タービンを氷から保護する

研究者たちは、ドローンを使用して風力タービンを氷から保護する方法を開発しました

「耳を持つドローン」というタイトルで提案されている最新のテクノロジーが注目されていますこのドローンは、耳のようなセンサーを備えており、音を感知することができますこれにより、ドローンが音声指示を聞き分けることが可能になり、より効果的な操作やアクションが行えるようになります

研究者たちは、カメラと一緒にドローンに追加できるマイクロフォンアレイを開発しましたこれにより、災害の被災者の位置の特定を支援することができます

大ニュース：Google、ジェミニAIモデルのローンチを延期

予想外の展開となり、Googleは最先端のAIモデル「Gemini」の高い期待を集めるローンチを来年の1月まで延期することを選びました。報道によると、非英語クエリにおけるモデルの信頼性に関してパフォーマンス上の懸念が浮上し、これにより入念な微調整のプロセスが行われることとなりました。このプロセスは、GoogleのCEOであるサンダー・ピチャイが直接主導しています。グローバル対応のための日程変更情報筋による報道によれば、New York、Washington、Californiaで予定されていた盛大な公開イベントは、匿名の情報源によると静かに2024年初めに延期され、Geminiが非英語のプロンプトに対して応答する能力に関する懸念に対処することを目的としています。サンダー・ピチャイの関与 GoogleのCEOであるサンダー・ピチャイは、この延期に対して積極的なアプローチを取り、堅牢なグローバルな言語サポートを保証するための決定を個人的に支持しています。この動きは、Googleが潜在的な問題を解決し、AIモデルの能力を向上させることにより、OpenAIのGPT-4を超えることを目指していることを示しています。 OpenAIの基準を満たすための微調整関係者によれば、Googleは既に特定の面でOpenAIの高い基準に達することを実現しており、生成型AIモデルの競争の中で際立つように、Geminiの初期バージョンを洗練し、完成させるために積極的に取り組んでいます。 Geminiのマルチモーダルスキルと将来の展望 Geminiの初の発表は、I/O 2023カンファレンスでその印象的なマルチモーダル能力が強調され、従来のモデルとは一線を画しています。テキストや画像の理解を超えて、GeminiはツールやAPIの統合でも優れることを目指し、第三者開発者にとって魅力的な選択肢として位置づけています。Googleは、モバイルに焦点を当てた「Gecko」を含むさまざまなサイズを提供することを想定しています。また読む： Google I/O 2023で何が起こったのか？我々の意見 GoogleがGeminiを完成させるための課題に取り組む中、1月の改定されたローンチ日は、同社が画期的なAIモデルを提供するという確固たる決意を示しています。競合他社が設定した基準に対応し、能力を微調整することにより、Googleはこれに満足するだけでなく、それを超えることを目指しています。この遅延は、グローバルな準備と人工知能の進化する景色でGeminiを強力な競争相手として確立するための戦略的な動きを意味しています。1月の発表を待ちながら、Geminiの革新的な機能と能力への期待はますます高まり、人工知能の新時代を約束しています。

Learn more about Search Results ローン

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

空からのパイ：ドローンスタートアップがピザ、薬物、そして興奮をお届けします

ドローンが風力タービンを氷から保護する

大ニュース：Google、ジェミニAIモデルのローンチを延期

「除細動器を搭載したドローンが命を救っています」

「Amazonが処方せんのドローン配送をテスト中」

科学者は、脅かされている氷河にセンサーを着陸させるためにドローンを使用しています

人工知能の無料コース「”Train & Fine-Tune LLMs for Production”のローンチに向けて進む

「Java での AI：Spring Boot と LangChain を使用して ChatGPT のクローンを構築する」

Find the right Blockchain Investment for you