Learn more about Search Results 22 - Page 153

人工「生命」を通じて光コンピューティングの可能性を解き放つ

カリフォルニア工科大学の研究者たちは、セルラーオートマトンに光学ハードウェアを使用し、グリッド状の世界で進化する振る舞いを持つコンピューターモデルを実装しました

原子力輸送船のAI推進帆のテスト

英国の使用済み核燃料輸送船団は、燃料費と排出物を減らすために、人工知能による帆を備えた改装を目指しています

人間の脳プロジェクトによるマッピングは、神経受容体の組織に関する理解を進める

「ヒューマンブレインプロジェクトの科学者たちは、新たなマッピングを通じて、脳内の神経伝達物質受容体の配置に関する新しい知見を得ました」

ロボットは人間と同じく植物を育てることができますが、より少ない量の水を使用します

カリフォルニア大学バークレー校の研究者たちは、人間と同じように植物を育てることができ、より多くの水を節約することができるロボット園芸家を開発しました

ディープフェイクビデオを出し抜く

「真実を探し求める時、現実を歪めることが驚くほど簡単になっている」という言葉を訳すと、「真実を求める際に、現実を驚くほど歪めることが簡単になっている」となります

マイクロソフトは、奇妙な新しい粒子が量子コンピュータを改善する可能性があると発表しています

マイクロソフトの研究者たちは、Majoranaゼロモードと呼ばれる難捉える準粒子を作成したと発表していますが、企業外の科学者たちは懐疑的です

AIをトレーニングするために雇われた人々が、AIに仕事を外注している…

これは、既にエラーが多いモデルにさらにエラーを導入する可能性のある実践です

音から視覚へ:音声から画像を合成するAudioTokenについて

ニューラル生成モデルは、私たちがデジタルコンテンツを消費する方法を変え、さまざまな側面を革命化しています。彼らは高品質の画像を生成し、長いテキストスパンでの一貫性を確保し、音声やオーディオを生成する能力を持っています。異なるアプローチの中でも、拡散ベースの生成モデルは注目を集め、さまざまなタスクで有望な結果を示しています。 拡散プロセス中、モデルは定義済みのノイズ分布を目標データ分布にマップする方法を学習します。各ステップで、モデルはノイズを予測し、目標分布から信号を生成します。拡散モデルは、生の入力や潜在表現など、さまざまな形式のデータ表現で動作できます。 Stable Diffusion、DALLE、Midjourneyなどの最先端のモデルは、テキストから画像合成のタスクに対して開発されています。最近ではX-to-Y生成に対する関心が高まっていますが、オーディオから画像へのモデルはまだ深く探究されていません。 テキストプロンプトではなくオーディオ信号を使用する理由は、動画のコンテキストでの画像と音声の相互接続にあります。一方、テキストベースの生成モデルは優れた画像を生成できますが、テキストの説明は画像と本質的に関連していません。つまり、テキストの説明は通常手動で追加されます。また、オーディオ信号には、同じ楽器の異なるバリエーション(例:クラシックギター、アコースティックギター、エレキギターなど)や、同一のオブジェクトの異なる視点(例:スタジオで録音されたクラシックギターとライブショーでのクラシックギター)など、複雑なシーンやオブジェクトを表す能力があります。異なるオブジェクトのこのような詳細な情報の手動注釈は労力がかかり、拡張性が低下するため、スケーラビリティに課題があります。 以前の研究では、主にGANを使用してオーディオ録音に基づいて画像を生成することに焦点を当てた方法が提案されています。ただし、彼らの作業と提案された方法の間には顕著な違いがあります。一部の方法では、MNIST数字の生成にのみ焦点を当て、一般的なオーディオサウンドを包括するアプローチには拡張しませんでした。その他の方法では、一般的なオーディオから画像を生成しましたが、低品質の画像に結果が出たものもありました。 これらの研究の制限を克服するために、オーディオから画像を生成するためのDLモデルが提案されました。その概要は、以下の図に示されています。 このアプローチは、事前にトレーニングされたテキストから画像を生成するモデルと、事前にトレーニングされたオーディオ表現モデルを活用して、それらの出力と入力の間の適応層マッピングを学習することを含みます。最近のテキスト反転の研究から、専用のオーディオトークンが導入され、オーディオ表現が埋め込みベクトルにマップされます。このベクトルは、新しい単語埋め込みを反映する連続表現として、ネットワークに転送されます。 オーディオエンベッダーは、事前トレーニングされたオーディオ分類ネットワークを使用して、オーディオの表現をキャプチャします。通常、識別的ネットワークの最後の層が分類目的に使用されますが、識別的なタスクとは関係のない重要なオーディオの詳細を見落とすことがよくあります。そのため、このアプローチでは、最後の隠れ層と以前の層を組み合わせて、オーディオ信号の時間埋め込みを生成します。 提供されたモデルによって生成されたサンプル結果は、以下に報告されています。 これが、新しいオーディオから画像(A2I)合成モデルであるAudioTokenの概要でした。興味がある場合は、以下のリンクでこの技術についてもっと学ぶことができます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us