Search Results A

「Daskデータフレームのパーティションサイズについて知りたいことのほとんどすべて」

最近、私と同僚は、高負荷の大規模なサービスに取り組んでおり、Xgboost機械学習モデルと分散データ処理と予測のためのツールとしてDaskを使用しています…

「人間と機械の相互作用の秘密を解き放つ：スペインのAI研究がアダプティブインターフェースデザインの進展に向けた包括的なデータセットを紹介」

“`html 人間と機械の間でやり取りを可能にするシステムや技術を人間機械インターフェース（HMI）と呼びます。これらは、コンピュータ、スマートフォン、産業機械、ロボット、スマート家電など、デバイスやシステムと情報をやり取りし、制御することができます。技術の進展により、HMIの可能性と機能はさらに拡大し、さまざまなドメインやアプリケーションで、ユーザーの対話をより直感的で効率的、シームレスにすることを目指しています。これらのデータセットを活用することで、研究者や開発者はアルゴリズムを洗練し、より直感的なインターフェースを設計し、さまざまなユーザーのニーズや文脈に動的に適応するパーソナライズされたユーザー体験を作り出すことができます。ARやVRの技術は、ユーザーがデジタル要素と対話できる没入型の環境を作り出します。ゲーム、教育、トレーニング、シミュレーションなどの分野で活用されています。ユーザーインターフェース（UI）は、ユーザーの行動、好み、ニーズにシームレスに対応し、研究開発の焦点となっています。個々のユーザーに適応し進化するこれらのインターフェースは、人間と機械のやり取りに由来する構造化されたデータセットに大きく依存しています。このようなデータセットは、モデルのトレーニング、アルゴリズムの洗練、ユーザー入力と文脈に動的に適応するUIの設計の基盤となります。スペインの新しいAI研究では、研究チームが制御された構造化された方法で収集された人間と機械のやり取りのデータセットを作成しました。データセットは、形式的に定義されたユーザーインターフェース（UI）を活用したカスタムアプリケーションを使用して生成されました。彼らは生成されたやり取りを処理し、分析して、ユーザーインターフェース適応に興味のあるプロフェッショナルやデータアナリスト向けの適切なデータセットを作成しました。データ処理のステージでは、データのクリーニング、一貫性と完全性の確保が行われました。また、インタラクションのシーケンス内の要素の表面をチェックするためのデータプロファイリング分析も行われました。シーケンスの分布は、さまざまなサービス、ユーザー、期間で分析されました。データセットの分析により、ユーザーの行動と使用パターンに関する貴重な知見が得られました。さまざまなサービス、ユーザー、期間でのシーケンスの分布を分析することで、データサイエンティストチームはこれらの要素を考慮に入れてデータセットを使用しました。データ収集、プロファイリング、および使用ノートに使用したコードは、アダプティブなユーザーインターフェースを作成するために利用可能であり、無料でアクセスできるようになっています。アダプティブなUIの追求には、いくつかの課題と将来の研究の展望が浮かび上がります。まず第一に、ユーザーデータの倫理的な収集と使用を確保することが重要です。第二に、相互作用の種類、文脈、ユーザーの好みを包括するより包括的なデータセットの開発は、この分野に大きな助けとなるでしょう。より堅牢で多様かつ包括的なデータセットへの求めは継続的に行われており、個々のユーザーの好みと文脈にシームレスに合わせることができるアダプティブなインターフェースで技術との対話が革新される未来を約束しています。この記事はUnlocking the Secrets of Human-Machine Interaction: This AI Research from Spain Introduces a Comprehensive Dataset for…

AWSを使った生成AIを活用したクラウド上の新しい構築の時代へようこそ

「私たちは、時間の経過とともに、生成型AIが私たちが知るほぼすべての顧客エクスペリエンスを変革する可能性を持っていると信じていますAWS上で生成型AIアプリケーションを導入する企業の数は多く、adidas、Booking.com、Bridgewater Associates、Clariant、Cox Automotive、GoDaddy、LexisNexis Legal & Professionalなどがすばやく増えていますPerplexityなどの革新的なスタートアップも存在します...」

「単一細胞生物学のAIのフロンティアを探索する：GeneformerやscGPTのようなゼロショット基礎モデルの批判的評価」

単一細胞生物学における基礎モデルの応用は、研究者の間で最近の議論のトピックとなっています。scGPT、GeneCompass、Geneformerなどのモデルは、この分野において有望なツールの一部です。しかし、特にゼロショット設定での効果が懸念されており、特に探索的実験や微調整のための明確なラベルの欠如がこの分野に関与する場合において、その有効性が問題となっています。この論文は、この問題に基づいて、これらのモデルのゼロショットパフォーマンスを徹底的に評価しています。以前の研究では、特定のタスクに対してこれらのモデルを微調整することに頼ってきましたが、この分野の性質や高い計算要件のため、その限界は一目瞭然です。そのため、この課題に対処するため、マイクロソフトの研究者はGeneformerとscGPTの基礎モデルのゼロショットパフォーマンスを、異なるデータセットや細胞型クラスタリング、バッチエフェクトの修正、事前トレーニング目標に基づくモデルの入力再構築の有用性など、多様なタスクについて評価しました。これらの2つのモデルを選んだ理由は、（評価時点で）事前学習済みの重みが利用可能であるためです。評価には、研究者はそれぞれのデータセットで訓練された生成モデルであるscVIを比較対象としました。以下のメトリックスを各タスクに使用しました：細胞埋め込みの評価には、Average Silhouette Width（ASW）およびAverage Bio（AvgBIO）スコアを使用し、細胞型が埋め込み空間内でどの程度一意であるかを計算しました。バッチ統合においては、スケール0から1までのAWSスコアの変形を使用し、0はバッチの完全な分離を示し、1は完璧なバッチの混合を示します。 scGPTおよびGeneformerの事前トレーニング目標のパフォーマンス評価には、それぞれ平均二乗誤差（MSE）およびピアソンの相関係数を使用しました。 scGPTおよびGeneformerは、両方のメトリックスにおいてベースライン戦略よりも劣った結果となりました。Geneformerは異なるデータセットに対して高い分散を示し、scGPTは1つのデータセットにおいてはベースモデルscVIよりも優れた性能を発揮しましたが、2つのデータセットでは遅れを取りました。その後、研究者は事前学習データセットがモデルのパフォーマンスに与える影響を評価しました。特にscGPT（scGPTの4つのバリアント）に焦点を当て、すべてのモデルバリアントで中央値スコアが改善されたことが分かりました。バッチエフェクトの評価では、両モデルが低い結果を示し、しばしばscVIのようなモデルに遅れを取ることから、ゼロショット環境においてバッチエフェクトに完全に頑健ではないことが示されています。最後の評価セットでは、研究者はscGPTが遺伝子の発現を再構築できないこと、一方Geneformerがより良いパフォーマンスを示すことを発見しました。ベースラインと比較した結果、すべてのscGPTバリアントよりもベースラインの予測の方が優れており、Geneformerはデータセットの1つで平均ランキングよりも優れた性能を発揮しました。結論として、研究者は単一細胞生物学に適用した場合のscGPTとGeneformerのゼロショット能力を詳細に分析し、その結果はこれらのモデルの劣ったパフォーマンスを示しています。研究者はさらなる研究が必要な領域についても洞察を提供し、特に事前トレーニングタスクとデータセット、およびダウンストリーム分析タスクのパフォーマンスとの関係を明示しました。

Gスイートの見逃せない5つのGoogle Duet AIの驚異的な機能

Googleは最新のイノベーション、Duet AIにより再びレベルを引き上げました。このG-Suiteファミリーの強力な追加機能は、Sheets、Meet、Slides、Docs、そしてGmailを通じて生産性を向上させ、タスクを効率化するために設計されています。ここでは、働き方や協力方法を変えるであろうこれらの5つのゲームチェンジングな機能について詳しく見ていきましょう。 1. Sheets + Duet AI = これまで以上に高速な分析 Sheets内のDuet AIは、ユーザーが自然言語を使用して複雑な式を簡略化することで、複雑なタスクを簡略化します。それはタスクやプロジェクトのためのカスタマイズされた計画の作成を容易にします。複雑さと簡素さのギャップを埋めることにより、ユーザーはデータ分析と計画作成のプロセスを大幅にスピードアップすることができます。 2. Meet + Duet AI = より意味のあるコネクション Duet AIによりビデオ会議の体験が向上し、ユーザーは顧客の業界に基づいて背景を個別にカスタマイズすることができます。これにより仮想ミーティングにプロフェッショナルな印象を加えることができます。さらに、ミーティング中の自動メモ機能により、参加者は気を散らさずに重要なポイントを捉えることができます。 3. Slides + Duet…

「LLMの解読：PythonでスクラッチからTransformerエンコーダとマルチヘッドアテンションレイヤを作成する」

「大規模言語モデルにおけるエンコーダー、マルチヘッドアテンション、および位置エンコーディングの微妙な点を探る」

ソウル国立大学の研究者たちは、ディフュージョンベースモデリングを用いたVRにおけるドメインフリーな3Dシーン生成において、画期的なAI手法であるLucidDreamerを紹介します

商業的で混合現実プラットフォームの開発と、3Dグラフィックス技術の急速な進歩により、高品質な3Dシーンの作成はコンピュータビジョンの主要な課題の一つとなっています。これには、任意の入力テキスト、RGB、RGBD画像などをリアルな多様な3Dシナリオに変換する能力が求められます。3Dスキャンに基づく訓練データの制約により、ボクセル、ポイントクラウド、暗黙的なニューラル表現を使用して直接3Dオブジェクトとシーンを構築しようとする試みはあったものの、制限された多様性と品質を示しました。Stable Diffusionのような事前訓練された画像生成拡散モデルを使用して、多様な優れた3Dシナリオを生成するアプローチが問題の解決策の一つです。このような巨大なモデルは、大量の訓練セットから得られるデータ駆動型の知識に基づいて信じられる画像を生成しますが、生成される画像間の多視点の一貫性を保証することはできません。ソウル大学の研究チームは、この論文で「LucidDreamer」というパイプラインを紹介しています。これは、テキスト、RGB、RGBDなどのさまざまな種類の入力から、3Dガウススプラッティングと安定した拡散を使用して高品質な3Dシナリオを生成するために交互に繰り返される「Dreaming」と「Alignment」という2つのステップを提供します。「LucidDreamer」パイプラインを使用して、1つの大きなポイントクラウドを作成します。2つのプロセスを開始する前に、元の画像と一致する深度マップで初期のポイントクラウドを作成します。幾何学的に一貫した画像を作成し、それらを三次元空間に投影することは、夢の体験の一部です。新しいカメラ座標上の可視ポイントクラウド領域を新しいカメラ平面に投影する前に、研究チームはカメラを事前に定義されたカメラ軌跡に沿って移動させます。次に、投影された画像はStable Diffusionベースのインペインティングネットワークに送られ、画像を使用してアイデア全体を作成します。インペインティングされた画像と予測された深度マップを3D空間に持ち上げることにより、新しい3Dポイントのコレクションが作成されます。次に、新しいポイントの位置を3D空間でゆっくりと移動させることにより、提案されたアライメント技術が現在のポイントクラウドにスムーズに結合します。以上の手順を十分な回数行った結果得られる巨大なポイントクラウドを、Gaussian splatsの最適化のためのSfMポイントの開始点として使用します。 3Dガウススプラッティングの連続的な表現により、ポイントクラウド内の深度差によるギャップがなくなり、より写真のような3Dシナリオを表示することができます。図1は、シンプルなLucidDreamerテクニックと共に3D生成の結果を示しています。現行のモデルと比較して、LucidDreamerは非常に現実的で驚くほどの結果を示します。研究チームによると、ScanNet、NYUDepth、Stable Diffusionの画像を条件とした作成された3Dシーンを比較すると、すべてのデータセットでより良い視覚効果が見られます。図1：研究チームは、テキスト、RGB、RGBDなどの入力タイプから高品質で多視点一貫の3Dシナリオを生成するための基本的なフレームワーク「LucidDreamer」を作成します。RGBD画像を持ち上げて最初のポイントクラウドを生成した後、LucidDreamerはアライメントとドリーミングの2つのプロセスを繰り返してワールドモデルを成長させます。Gaussian splattingの表現を最適化することで、3Dシーンが完成します。彼らのモデルは、現実的、アニメ、レゴ、屋外/屋内など、さまざまなジャンルの3Dシナリオを作成できます。そのコンセプトは多くのドメインをサポートし、複数の入力条件を同時に使用することができます。たとえば、テキストに基づいて3Dシーンを作成し、画像を追加することができます。これにより、テキストだけから意図したシーンを完全に作成する際の困難が解消され、大量のサンプルを作成する必要もありません。さらに、彼らの方法では、3D空間の作成中に入力条件を変更することができます。これらの機能は、さまざまな3D設定を構築する機会を提供することで創造性を刺激します。以下は彼らがまとめて行った貢献です。 • 研究チームはLucidDreamerを提案します。これはドメインに依存しない高品質な3Dシーン制作ツールであり、明示的な3D表現、深度推定、安定した拡散を使用して、3Dシーン合成のドメイン一般化を改善します。 • 彼らのDreamingアプローチは、各画像生成のための幾何学的ガイドラインとしてポイントクラウドを生成し、Stable Diffusionから複数の視点の画像を生成します。生成された写真は彼らのAlignment技術を用いて巧みに統合され、一貫した3Dシーンが作成されます。 • 彼らの手法により、複数の入力タイプ（テキスト、RGB、RGBD）をサポートし、複数の入力を同時に使用したり、生成プロセス中に入力を変更したりすることで、ユーザーはさまざまな方法で3Dシーンを生成できます。

韓国大学の研究者たちは、HierSpeech++を発表しました：高品質で効率的なテキスト読み上げと声の変換のための画期的なAIアプローチ

韓国大学の研究者たちは、HierSpeech++という新しい音声合成器を開発しました。この研究は、堅牢で表現豊かで自然で人間らしい合成音声を作り出すことを目的としています。チームは、テキスト-音声の対応データセットに頼らずにこれを達成し、既存モデルの短所を改善することを目指しました。HierSpeech++は、音声合成における意味論的な空間と音響的な表現とのギャップを埋めることを目的として設計され、スタイルの適応を改善します。これまで、LLMに基づくゼロショット音声合成には制約がありました。しかし、HierSpeech++はこれらの制約に対処し、推論速度の遅さに関連する問題を解決するために開発されました。HierSpeech++は、テキストとイントネーションのプロンプトに基づいて自己教師あり音声とF0表現を生成するテキスト-ベクトルフレームワークを活用することで、LLMベースおよび拡散ベースのモデルを上回るパフォーマンスを発揮することが証明されています。これらの高速化、堅牢性の向上、品質の進歩により、HierSpeech++は強力なゼロショット音声合成器として位置付けられています。 HierSpeech++は、事前トレーニングなしで音声を生成するための階層的なフレームワークを使用しています。テキストとイントネーションのプロンプトに基づいて自己教師ありのアドレスとF0表現を開発するために、テキスト-ベクトルフレームワークを採用しています。音声は、階層的なバリアショナルオートエンコーダーと生成されたベクトル、F0、および音声プロンプトを使用して生成されます。この方法には、効率的な音声の超解像度フレームワークも含まれています。包括的な評価では、対数スケールメルエラー距離、音声品質の知覚評価、ピッチ、周期性、音声/非音声F1スコア、自然さ、平均評価スコア、音声の類似性MOSなど、ロスケールのメトリックスと主観的なメトリックスを備えたさまざまな事前トレーニングモデルと実装が使用されます。 HierSpeech++はゼロショットのシナリオで優れた自然さを実現し、堅牢性、表現力、話者の類似性を向上させます。自然さ、平均評価スコア、音声の類似性MOSなどの主観的なメトリックスが音声の魅力を評価するために使用され、その結果、HierSpeech++は真実の音声を上回る性能を示しました。音声の自然さをさらに向上させるために、16 kHzから48 kHzへの音声の超解像度フレームワークも取り入れられました。実験結果はまた、HierSpeech++における階層的なバリアショナルオートエンコーダーがLLMベースのモデルおよび拡散ベースのモデルに優れていることを示し、堅牢なゼロショット音声合成器となっています。また、ノイズのあるプロンプトでのゼロショットテキスト音声合成が、見知らぬ話者からの音声生成におけるHierSpeech++の有効性を検証することも明らかにされました。階層的な合成フレームワークは、柔軟なイントネーションと声のスタイルの転送も可能にし、合成音声をさらに柔軟にします。まとめると、HierSpeechはゼロショット音声合成において人間レベルの品質を達成するための効率的かつ強力なフレームワークを提供します。意味モデリング、音声合成、超解像度、イントネーションと声のスタイルの転送の切り離しにより、合成音声の柔軟性が向上します。このシステムは、小規模なデータセットでも堅牢性、表現力、自然さ、話者の類似性の向上を実証し、推論速度を大幅に向上させます。この研究では、クロスリンガルおよび感情制御可能な音声合成モデルへの拡張の可能性も探求されています。

このAI研究は、トライアングルとしてメッシュを直接出力する革新的な形状生成手法であるMeshGPTを紹介しています

メッシュGPTは、ドイツ工科大学ミュンヘン校、トリノ工科大学、アウディAGの研究者によって提案された三角形メッシュの自己回帰生成法であり、学習済みトライアングルシーケンスの語彙を利用したGPTベースのアーキテクチャを活用しています。この手法では、幾何学的な語彙と潜在的な幾何学的トークンを使用して三角形を表現し、鮮明なエッジを持つ整合性のある、クリーンでコンパクトなメッシュを生成します。他の手法とは異なり、MeshGPTは変換を必要とせずに三角形メッシュを直接生成し、既知の形状だけでなく、新しい現実的な形状も高い精度で生成する能力を示しています。従来の形状生成手法（ボクセルベースやポイントクラウド手法など）は、細部や複雑な形状を捉えることに制限がありました。暗黙的な表現手法は、形状をボリューメトリックな関数としてエンコードするものの、しばしばメッシュ変換が必要であり、密なメッシュを生成してしまいました。これまでの学習ベースのメッシュ生成手法では、適切な形状の詳細捕捉に支援が必要でした。一方、PolyGenとは異なり、MeshGPTはシングルデコーダーのみのネットワークを活用し、学習されたトークンを使用して三角形を表現することで、効率的かつ高精度なメッシュ生成を実現し、推論時の堅牢性を向上させています。 MeshGPTは、デコーダーのみのトランスフォーマーモデルを使用して三角形メッシュを直接生成する3D形状生成手法を提供します。この手法では、学習された幾何学的な語彙とグラフ畳み込みエンコーダーを使用して三角形を潜在的なエンベッディングにエンコードします。ResNetデコーダーにより、自己回帰的なメッシュシーケンス生成を実現します。MeshGPTは、形状のカバレッジとフレシェ・インセプション・ディスタンス（FID）スコアにおいて、既存の手法を上回り、ポスト処理をしないで密なメッシュや過度に滑らかな出力を生成するための効率的なプロセスを提供します。 MeshGPTは、ジオメトリックな語彙に基づいてトークンをデコードして三角形メッシュ面を生成するためのデコーダーのみのトランスフォーマーモデルを使用します。三角形を潜在的な量子化されたエンベッディングに変換するためにグラフ畳み込みエンコーダーを活用し、ResNetによって頂点座標を生成します。全てのカテゴリでの事前トレーニング、トレインタイムの拡張によるファインチューニング、ジオメトリックなエンベッディングの影響を評価するための実験などが行われます。MeshGPTのパフォーマンスは、形状のカバレッジとFIDスコアに基づいて評価され、最先端の手法に優れた性能を示します。 MeshGPTは、Polygen、BSPNet、AtlasNet、GET3Dなどの主要なメッシュ生成手法と比較して、形状品質、三角形化品質、形状多様性において優れた性能を発揮し、鮮明なエッジを持つクリーンで整合性のある詳細なメッシュを生成します。ユーザースタディでは、総合的な形状品質や三角形化パターンの類似性において、MeshGPTが他の手法よりも明らかに優れています。MeshGPTはトレーニングデータを超える新しい形状を生成することができ、そのリアリティが際立ちます。アブレーションスタディでは、形状品質において学習されたジオメトリックなエンベッディングの正確さが、単純な座標トークン化と比較してどれだけ良い影響を与えるかを明らかにしています。結論として、MeshGPTは鮮明なエッジを持つ高品質な三角形メッシュの生成において優れた性能を発揮しています。デコーダーのみのトランスフォーマーや学習されたジオメトリックなエンベッディングの語彙学習への組み込みにより、実際の三角形化パターンに近い形状を生成し、既存の手法を凌駕しています。最近の研究では、他の手法と比較して、ユーザーはMeshGPTを総合的な形状品質やグラウンドトゥルースの三角形化パターンとの類似性において優れていると評価しています。

「Amazon Titanを使用して簡単に意味論的画像検索を構築する」

デジタル出版社は、品質を損なうことなく、新しいコンテンツを迅速に生成・公開するために、常にメディアワークフローを効率化・自動化する方法を探し続けていますテキストの本質を捉えるために画像を追加することは、読む体験を向上させることができます機械学習技術を使うことで、そのような画像を発見することができます「印象的な画像は...」

Learn more about Search Results A - Page 46