Search Results モード

「3Dガウシアンスプラッティング入門」

3Dガウススプラッティングは、小さな画像サンプルから学習したフォトリアルなシーンをリアルタイムでレンダリングするための技術であり、3Dガウススプラッティングによるリアルタイム放射輝度フィールドレンダリングに記載されています。この記事では、その動作原理とグラフィックスの未来について解説します。ガウススプラッティングのシーンの例については、こちらのリモートガウスビューアーをご覧ください。 3Dガウススプラッティングとは何ですか？ 3Dガウススプラッティングは、本質的にはラスタライゼーション技術です。つまり：シーンを説明するデータを持つ。データを画面に描画する。これは、コンピュータグラフィックスの三角形ラスタライゼーションに類似しており、画面上に多くの三角形を描画するために使用されます。ただし、三角形ではなくガウス分布を使用します。以下は、境界を明確にするために描画された単一のガウス分布のラスタライズ例です。ガウス分布は、次のパラメータで説明されます：位置：どこにあるか（XYZ）共分散：どのように伸縮されるか（3×3行列）色：何色か（RGB）アルファ：どれくらい透明か（α）実際には、複数のガウス分布が一度に描画されます。これが三つのガウス分布です。では、700万個のガウス分布はどうでしょうか？以下は、それぞれのガウス分布を完全に不透明にラスタライズしたものです。これが3Dガウススプラッティングの概要です。次に、論文で説明されている手順を詳しく見ていきましょう。動作原理 1. Structure from Motion 最初のステップは、Structure from…

「2023年の写真とビデオのための10のAIディープフェイクジェネレーター」

AIのディープフェイク生成器や人工知能を使用したソフトウェアツールを使うと、言ったりしたこともしなかったこともない人々のビデオや音声の録音が作成できます。このために、ターゲットとなる個人の実在するメディアの大量のコレクションを使ってニューラルネットワークがトレーニングされます。ウェブは個人を認識し、その外見、話し方、行動を模倣するようにトレーニングされます。 AIのディープフェイク生成器には、さまざまな良い使い方と悪い使い方があります。コメディ動画や教材を作るために使用することもできます。以下は、写真やビデオのためのいくつかのAIのディープフェイク生成器です。 Zao 私たちのトップピックはZaoで、映画での顔の置き換えにおいて非常に優れた性能を発揮しています。このソフトウェアでは、コンピュータビジョンを使用してビデオから自動的に顔を抽出します。ユーザーはギャラリーやビデオフィードから顔を選び、Zaoを使用して簡単にセルフィービデオに組み込むことができます。Zaoは、洗練されたトラッキングとスムージングの技術によって可能になるリアルな顔の入れ替え能力で注目されています。このソフトウェアは、ユーザーが頭を動かしたり照明が変わったりしても信頼性があります。ユーザーは多くの有名人、架空のキャラクター、ミームテーマのクローンテンプレートにアクセスできます。Zaoは、特にモバイルデバイス上でのディープフェイク体験の専門的な使いやすさによって際立っています。 Reface 顔の交換や変形において、Refaceは最も優れたディープフェイクツールの一つとなっています。シンプルなデザインと高速なレンダリング時間が人気を集めています。Refaceは、ユーザーがターゲットとなる顔を選び、それをビデオにスムーズに挿入することを簡単にします。アラインメントが完璧でなくても、結果の品質は優れています。Refaceのユーザーは、様々な有名人の顔のテンプレート、GIF、バイラルなミームを選ぶことができます。自動的なスムージングにより、効果の変動が抑えられます。また、ユーザーはAIを利用してお気に入りの有名人の姿をセルフィーに重ねることで、風刺画を思わせるような結果を生み出すことができます。Refaceは、精密な手動コントロールが必要な特殊なアプリケーションには欠けているものの、驚くほどの速さとシンプルさにより、人気のある選択肢となっています。無料版には広告がありますが、基本的なディープフェイキングの機能を必要とする個人にはリーズナブルな価格で提供されています。 Deep Face Lab データサイエンティストのIPerovがキュレーションするDeep Face Labは、説得力のある顔の入れ替えを実現するために最新のアルゴリズムを使用しています。ユーザーは幅広い手動設定を提供され、ディープフェイクを細かく調整することができます。このツールは、GANのトレーニングに加えて、マルチターゲットフィルムの処理、カラーコレクション、スタビライゼーション、音声クローニングなどを扱う能力が特に印象的です。バッチ処理を可能にする自動化機能により、顔をシームレスに複数のフォルダやビデオコレクション全体に置き換えることができます。豊富なGitHubコミュニティは、DeepFaceLabサービスを改善するために新しいモデルやチュートリアルを絶えず追加しています。ただし、その複雑さやユーザーが追加のライブラリをダウンロードしたり設定を変更する必要があるため、DeepFaceLabは初心者には理想的ではありません。この複雑なプログラムをマスターするために時間と努力を惜しまないビデオ編集者は、説得力のあるディープフェイクを作成することができます。 Avatarify ZoomやSkype、Google Meetなどのサービスで使用するために、Avatarifyはリアルタイムのディープフェイクフェイシャルフィルターを提供します。このソフトウェアは、ブラウザでディープラーニングモデルを実行するための新しいWebGLの実装を使用しています。ユーザーが操作するための顔を選び、アプリにカメラへのアクセスを許可すると、Avatarifyはライブビデオフィード上にカスタマイズされた顔のアニメーションをシームレスに重ねることができます。この楽しいインタラクティブな機能により、ユーザーはライブ通話中にミームの顔や有名人のルックを作成することができます。ブラウザ互換性のおかげで、配布は簡単です。ただし、Avatarifyを使用するにはPythonとNode.jsが必要です。性能はパワフルでないシステムでは不安定になる可能性があります。現在でも、Avatarifyはオンラインビデオチャットや放送で使用するための最も広く利用可能なディープフェイクツールの一つです。これはコミュニティによるオープンソースの取り組みです。 Deep Nostalgia Deep Nostalgiaで使用される深層学習アルゴリズムにより、以前は静止画であった画像に表情の動きが生まれます。ユーザーからの顔の写真を受け取ると、Deep Nostalgiaは自動的にその人がまばたきをしたり笑ったり回ったりするGIFシーケンスを生成します。実用性には限りがありますが、Deep Nostalgiaはビンテージ写真に新たな息吹を与える能力から有名になりました。このアプリの魅力は、歴史的な写真や大切な人々の写真を生き返らせ、鑑賞者に強い感情を引き起こすことができる点にあります。アプリの機能はシンプルです：ユーザーは、自分の顔が見える画像をアップロードする必要があります。MyHeritageの人気は、クラウドベースの処理サービスの利便性と低コストに一部起因しています。結果の品質は比較的基本的であり、同じテンプレートの動きが繰り返し使用されることが多いです。Deep Nostalgiaにはソーシャル機能や手動コントロールの余地、個人化の余地はありません。いずれにせよ、Deep Nostalgiaはユーモアのあるアプローチでヴィンテージの画像にノスタルジアを追加したい人々にとって有益なツールです。 Wombo…

「2023年に使用するAI生産性ツールのトップ25」

現代社会の無情な要求に追いつくのに苦労していますか？時間を最大限に活用し、競争の先駆者になる方法を知りたいですか？迅速なデジタル時代において、生産性ツールのマスターが効率的な成功の鍵です。起業家、プロフェッショナル、学生であっても、AIツールの力を利用することで、生産性を向上させ、パフォーマンスを高めることができます。私たちは、仕事と生活のバランスを革新し、真の潜在能力を引き出すことができるトップ25のAIツールを探索しましょう。トップ25のAI生産性ツール Userpilot – AIライティングアシスタント CopyAI – AIライティングツール Surfer – SEOコンテンツ作成 Grammarly – オンラインライティングツール DALL-E2 Neural Love Illustroke Userpilot Alconost Smartling EliseAI Synthesia Levity…

「GPT-4を超えて新機能は何ですか？」

「GPT-4を超えて：生成AIの4つの主要なトレンド：LLMからマルチモーダル、ベクトルデータベースへの接続、エージェントからOSへ、そしてファインチューニングからプラグインへそして、MetaのLlama 2とCode Llama」

PyCharm vs. Spyder 正しいPython IDEの選択

PyCharmとSpyderはPython開発のための2つの最も人気のあるIDEですでは、PyCharmとSpyderの直接比較を見てみましょう

文の補完のための言語モデル

最近、GPTなどの言語モデルが非常に人気になり、ChatGPTや他の会話型AIシステムなど、さまざまなテキスト生成タスクに使用されていますこれらの言語モデルは...

「Amazon Comprehendのカスタム分類を使用して分類パイプラインを構築する（パートI）」

このマルチシリーズのブログ投稿の最初のパートでは、スケーラブルなトレーニングパイプラインの作成方法と、Comprehendカスタム分類モデルのためのトレーニングデータの準備方法について学びます数回のクリックでAWSアカウントにデプロイできるカスタム分類トレーニングパイプラインを紹介します

「新しい研究は、AIイノベーションのモデルとして生態学を示唆しています」

人工知能（AI）はしばしば神経学の視点から見られてきましたが、人間の認知に根ざしたプロセスをシミュレートしていますしかし、最近の一著名な論文、『国立科学アカデミー紀要（PNAS）』に掲載された論文は、AIの革新のための新しいインスピレーションとして生態学を提案する新しい視点を紹介していますこの収束は単なる学術的な演習に過ぎず、それは提示されています…

Biology

中国の研究者がImageBind-LLMを紹介：ImageBindを介した大規模言語モデル（LLM）のマルチモダリティインストラクションチューニング方法

研究者は最近、大規模言語モデル（LLM）の指示調整において大きな改善を見ています。ChatGPTとGPT-4は、言語と視覚に従って人間の命令に従う汎用対話システムです。しかし、クローズドソースの制約のため、それらはまだ再現不可能です。Alpaca、LLaMAAdapter、および関連する取り組みは、これに対応するために自己生成されたデータを使用して、公開されているLLaMAを言語指示モデルに変更することを提供します。LLaVA、LLaMA-Adapter、およびその他のモデルは、画像指示のカスタマイズを実現するために、ビジュアル理解能力をLLMに統合します。現在の指示調整技術の成功にもかかわらず、テキスト、画像、音声、3Dポイントクラウド、およびビデオなどの広範な多文化指示のためのLLMを作成するためには、さらなる改良が必要です。上海人工知能研究所、CUHK MMLab、およびvivo AI Labの研究者は、事前学習されたImageBindの結合埋め込み空間の指示に従って、効果的にLLaMAを微調整するImageBind-LLMマルチモーダリティ指示フォローモデルを紹介しています。図1に示すように、彼らのImageBind-LLM（b）は、従来のビジュアル指示モデル（a）とは異なり、画像以外のさまざまなモダリティの入力指示に応答することができます。これは、有望な拡張性と汎化能力を示しています。彼らは、ImageBindの画像に整列したマルチモーダリティ埋め込み空間の指示の微調整に、ビジョン-言語データのみを使用することを提案しています。画像キャプションのペアに対して、彼らはまず、ImageBindの凍結された画像エンコーダを使用してグローバルな画像特徴を抽出し、学習可能なバインドネットワークを使用して埋め込み変換を行います。変換された画像特徴は、LLaMAのすべてのトランスフォーマーレイヤーの単語トークンに適用され、適切なテキストキャプションの生成のためのビジュアルコンテキストを作成します。LLaMA-Adapterシリーズのゼロ初期化されたアテンションとは異なり、彼らのビジュアルインジェクションメカニズムはシンプルであり、訓練可能なゼロ初期化ゲート要素で重み付けされます。この効果的な方法により、訓練が進むにつれて、ImageBindのマルチモーダリティ埋め込みの指示キューがLLaMAに徐々に導入され、元の言語理解に干渉することなく導入されることがあります。テキスト、画像、音声、ビデオなどのモダリティにおけるビジョン-言語エンコーディングにImageBindを使用することで、基本的なビジョン-言語トレーニングの後に、ImageBind-LLMはさまざまなモダリティの指示に従う能力を獲得します。彼らは、3Dドメインの指示のために入力の3Dポイントクラウドをエンコードするために、Point-Bindの事前学習された3Dエンコーダを使用します。また、画像トレーニングとテキスト、音声、3D、またはビデオ条件の制作とのモダリティギャップを解消するために、推論中の埋め込み拡張のためのトレーニングフリーのビジュアルキャッシュアプローチも提供します。図1は、私たちのマルチモーダリティ対ビジュアル指示モデルImageBind-LLMとの比較です。ImageBind-LLMは、画像モダリティに限定された従来の取り組み[1-3]とは異なり、画像、テキスト、音声、ビデオ、および3Dに対して普遍的なマルチモーダリティ指示調整を行います。キャッシュモデルは、ImageBindによって取得されたトレーニングデータセットの数百万の画像特徴で構成されており、テキスト/音声/3D/ビデオの埋め込みを向上させるために比較可能なビジュアル特性（Tip-Adapter）を獲得します。その結果、マルチモーダルな指示に対する口頭の応答は、より高い品質になります。彼らは、ImageBind-LLMのマルチモーダリティ指示に従う能力をさまざまな状況でテストし、一貫して優れたパフォーマンスを発揮することを確認しています。全体として、彼らのImageBind-LLMは以下の4つの特性を示します。 • 多数のモードを持つ指示。ImageBind-LLMは、ImageBindおよびPoint-Bindによって表される画像、テキスト、音声、3Dポイントクラウド、およびビデオなどの一般的なマルチモーダリティ入力に応答するように最適化されています。これは、従来の言語と画像の指示モデルとは異なります。 • 効率のチューニング。トレーニング中に、ImageBindの画像エンコーダーをフリーズし、LoRAやバイアスノームチューニングなどのパラメータ効率の良い手法を使用して、LLaMAの一部の重みを調整します。また、ゼロ初期化されたゲーティングファクターと追加のバインドネットワークもトレーニングします。 • アテンションなしのゼロ初期化インジェクション。彼らは、進行的な知識インジェクションのための学習可能なゲーティング方法を採用し、注意レイヤーを介する追加の命令信号を導入する代わりに、LLaMAのすべての単語トークンを直接使用してマルチモダリティの要件を組み込みます。 • クロスモーダルキャッシュからの検索。彼らは、ImageBindによって抽出された画像特徴に基づく視覚的なキャッシュモデルを提供し、トレーニング（単一の画像）と推論（多くのモダリティ）の間のモダリティの不均衡を解消するための埋め込み補完のためのクロスモーダリティの検索を行います。

スタンフォード大学の研究者たちは、「Protpardelle」という画期的な全原子拡散モデルを導入しましたこれは、タンパク質の構造と配列を共同設計するためのものです

タンパク質設計の驚くべき進展として、研究チームが連続的なと離散的なタンパク質構造の複雑な相互作用に対処するオールアトム拡散モデル「Protpardelle」を発表しました。このモデルは、品質、多様性、革新性に優れたタンパク質を生成する画期的な成果を達成し、従来の分野の枠組みを超えています。タンパク質は生物学的な機能の要となり、正確な化学的相互作用を通じてさまざまな重要なプロセスを組織化します。課題は、効果的なタンパク質設計を可能にするため、主に側鎖によって支配されるこれらの相互作用を正確にモデリングすることにあります。Protpardelleは、さまざまな潜在的な側鎖状態を包括し、それらを後退拡散の開始に崩壊させるユニークな「重ね合わせ」技術を利用しています。 Protpardelleは、配列設計手法とシナジーを発揮し、オールアトムタンパク質構造と配列の共同設計を先駆的に行っています。その結果、設計されたタンパク質は、自己整合性を評価する広く受け入れられている指標によって評価される優れた品質を示します。この指標は、設計された配列の構造的な形状を予測し、予測された構造とサンプルされた構造との一致を測定します。Protpardelleは、既存の手法と比較して、300残基までのタンパク質に対して90％以上の成功率を一貫して達成し、設計可能性の飛躍的な向上を示しています。さらに、これを効率的に行うための計算コストを大幅に削減しています。多様性は生成モデルの重要な特徴であり、モードの崩壊を防ぎ、実行可能な解のスペクトルを広げる役割を果たします。Protpardelleはこの点で優れており、サンプルをクラスタリングして構造の多様性の豊かな風景を明らかにします。α型およびβ型の幅広い構造のタンパク質を生成する能力は、その多用途性を示しています。重要なことに、Protpardelleはトレーニングデータセットの制約に縛られていません。トレーニングセット内のタンパク質とは異なる新しいタンパク質を生成する能力は、未踏の領域に踏み込む可能性を示しています。オールアトムモデルのProtpardelleは、特に150残基までのタンパク質の無条件の生成において、その能力を発揮します。ここでは、構造の類似性指標によって評価された成功率が約60％に達します。サンプルの視覚的な検査は、2次構造要素で飾られた多様なタンパク質の折り畳みの多様な配列を示しています。 Protpardelleは、生成されたサンプルの化学的な整合性を維持し、天然のタンパク質で観察される結合長と角度の分布に一致します。モデルは、サイ角の天然分布の主なモードを巧みに捉え、側鎖の振る舞いを包括的に描き出します。 Protpardelleの非凡な能力を支えるチームのネットワークアーキテクチャは、戦略的に設計されたレイヤーとアテンションヘッドを備えたU-ViT構造を組み込んでいます。ノイズコンディショニングは、訓練プロセスに重要な情報を注入する役割を果たします。モデルは、その基盤の堅牢性を証明するCATH S40データセットで綿密にトレーニングされています。 Protpardelleのユニークなノイズ除去ステップは、そのサンプリングプロセスの重要な要素であり、最適な結果を得るためのパラメータを微調整します。 Protpardelleの登場は、バイオテクノロジーと製薬の未曽有の可能性への扉を開く、タンパク質設計におけるパラダイムシフトを示しています。構造と配列を組み合わせることによってタンパク質エンジニアリングを革新する潜在能力は、この分野における新たな時代の到来を予示しています。研究者がその無限の可能性を探求し続ける中で、Protpardelleはタンパク質設計とエンジニアリングの景観を変える準備が整っています。

Learn more about Search Results モード - Page 30