Learn more about Search Results A - Page 520

リアルタイムで命を救うビッグデータ:IoVデータ分析が事故を予防するのを助ける

この投稿では、IoVデータ分析で注意が必要な点について説明し、リアルタイム分析プラットフォームと実際のリアルタイム分析プラットフォームの違いを実世界の例を使って示します

オルカ2の内部:Microsoftが小さな言語モデルに推論を教えるための新しい方法を紹介

今年早い時期、マイクロソフトリサーチはOrcaを発表しましたこれは130億パラメータのモデルで、他のLLMが示す複雑な推論プロセスを模倣することができます具体的には、OrcaはGPT-4から学習します...

「2024年に機械学習を学ぶ方法(もし最初からやり直せるなら)」

私は元メタ教授のもとで働く学生研究者であり、Google DeepMindやAmazonなどのクールな企業と面接をする機会がありましたが、この地点にたどり着くまでに3年以上かかりましたですので、今日は…

「One-2-3-45++に出会ってみましょう:おおよその1分で単一の画像を詳細な3Dテクスチャメッシュに変換する革新的な人工知能手法」

UCサンディエゴ、浙江大学、清華大学、UCLA、およびスタンフォード大学の研究者たちは、高速かつ高品質な3Dオブジェクト生成のための革新的なAI手法「One-2-3-45++」を発表しました。この手法は、まず2次元拡散モデルを活用し、一貫したマルチビュー画像の生成のために微調整を行います。次に、これらの画像を詳細な3Dのテクスチャつきメッシュに変換するために、マルチビューによる条件付きの3Dネイティブ拡散モデルが使用されます。この手法により、約1分間で入力画像によく似た高品質で多様な3Dアセットが合成され、実用アプリケーションにおける速度と忠実度の課題に取り組まれています。 One-2-3-45++は、1枚のRGB画像からわずか1分未満で高品質な3Dオブジェクトを生成する手法です。マルチビュー画像を活用し、生成されたメッシュのテクスチャを軽量の最適化プロセスを介して改善します。比較的な評価では、One-2-3-45++がCLIPの類似度スコアとユーザーの選好スコアにおいてベースライン手法よりも優れていることが示されています。3D拡散モジュールの効果に対するマルチビュー画像の重要性が強調され、一貫したマルチビューの生成において既存手法に対して改善が見られました。 この研究は、単一の画像やテキストに基づいて3D形状を生成するという課題に取り組んでおり、さまざまなアプリケーションにとって重要です。既存の手法は、3Dトレーニングデータの不足により未知のカテゴリにおいて汎化する際に改訂する必要があります。提案されたOne-2-3-45++手法は、以前のOne-2-3-45の欠点を克服し、一貫したマルチビュー画像を同時に予測し、マルチビューによる条件付きの3D拡散ベースモジュールを使用して効率的かつ現実的な3D再構築を実現します。この手法は、細かい制御を持ちつつ1分未満で高品質な結果を達成し、ベースライン手法を上回っています。 広範なマルチビューと3DペアリングでトレーニングされたOne-2-3-45++モデルは、各ステージに別々の拡散ネットワークを使用しています。最初のステージでは通常の3D畳み込みを使用して完全な3D占有ボリュームを作成し、2番目のステージでは3Dスパース畳み込みを3Dライトボリュームに取り入れます。マルチビュー画像によって誘導される軽量の改善モジュールは、テクスチャの品質を向上させます。CLIPの類似度スコアとユーザーの選好スコアを含む評価指標は、この手法がベースライン手法を上回っていることを示しています。ユーザー調査によっても品質が検証され、既存手法と比較してランタイムの効率性が強調されました。 One-2-3-45++はCLIPの類似度スコアとユーザーの選好スコアにおいてベースライン手法を上回し、優れた品質とパフォーマンスを示しています。改善モジュールはテクスチャの品質を向上させ、CLIPの類似度スコアを高めることにつながります。さらに、この手法は最適化ベースの手法と比較して優れたランタイムの利点を提供し、迅速な結果を提供します。 まとめると、One-2-3-45++は、1枚の画像から迅速かつ正確に高品質な3Dテクスチャ付きメッシュを生成する非常に効率的なテクノロジーです。ユーザー調査によって、入力画像との品質と整合性において他のテキストから3Dモデリング手法よりも優れていることが検証されました。さらに、最適化ベースの代替手法を上回し、迅速な結果を提供します。 将来の研究は、より大規模かつ多様な3Dトレーニングデータセットの活用、追加の後処理技術の探求、テクスチャの改善モジュールの最適化、幅広いユーザースタディの実施、および他の情報タイプの統合に注力する必要があります。この手法を仮想現実、ゲーム、コンピュータ支援設計などのさまざまな分野で適用する際の有効性と潜在的な影響を評価することが重要です。

『LEOと出会いましょう:先進的な3Dワールドインタラクションとタスクソルビングのための画期的なエンボディードマルチモーダルエージェント』

複数のタスクやドメインを重要な再プログラミングや再トレーニングなしに処理できるAIシステムは、ジェネラリストエージェントです。これらのエージェントは、様々なドメインにわたる知識とスキルを一般化し、さまざまな問題の解決において柔軟性と適応性を示すことを目指しています。トレーニングや研究の目的でのシミュレーションでは、しばしば3D環境が利用されます。これらのシミュレーションにおけるジェネラリストエージェントは、異なるシナリオに適応し、経験から学び、仮想空間内でタスクを実行することができます。たとえば、パイロットや外科医向けのトレーニングシミュレーションでは、これらのエージェントはさまざまなシナリオを再現し、適切に対応することができます。 3Dの世界におけるジェネラリストエージェントの課題は、三次元空間の複雑さの処理、多様な環境にわたって一般化する堅牢な表現の学習、および多次元的な環境の考慮を含んだ意思決定です。これらのエージェントは、強化学習、コンピュータビジョン、および空間的な推論といった技術を用いて、これらの環境内で効果的にナビゲーションや対話を行います。 北京総合人工知能研究所、CMU、北京大学、清華大学の研究者は、LLMベースのアーキテクチャで訓練されたLEOという汎用エージェントを提案しています。LEOは汎用的に構成されたマルチモーダルかつマルチタスキングエージェントです。LEOは、共有モデルアーキテクチャと重みを持つ形で知覚、基礎付け、推論、計画、行動を行うことができます。LEOは、具象視点のためのエゴセントリックな2D画像エンコーダと、第三者の大域的な視点のためのオブジェクトセントリックな3Dポイントクラウドエンコーダを通じて知覚します。 オートリグレッシブなトレーニング目標を用いることで、LEOはタスクに依存しない入出力で訓練することも可能です。3Dエンコーダは、観測されたエンティティごとにオブジェクトセントリックなトークンを生成します。このエンコーダの設計は、さまざまな具現化を持つタスクに柔軟に適応できます。LEOは、3Dビジョンと言語の対応および3Dビジョンと言語とアクションの基本原則に基づいています。チームはトレーニングデータを入手するため、オブジェクトレベルおよびシーンレベルのマルチモーダルタスクを含んだ包括的なデータセットを編集・生成しました。これにより、3D世界に対する深い理解と相互作用が求められる、規模と複雑さを超えたデータが豊富に取得されました。 また、チームはシーングラフに基づくプロンプティングおよびリファインメント手法、そしてオブジェクトセントリックな連鎖思考(O-CoT)を提案し、生成されたデータの品質を向上させ、データの規模と多様性を大幅に豊かにし、さらにLLMの空想を排除しました。チームはLEOを広範なタスクで評価し、具象的なナビゲーションやロボット操作などのタスクにおけるLEOの能力を証明しました。また、トレーニングデータを単純にスケーリングするだけで一貫したパフォーマンスの向上が見られました。 結果は、LEOの反応が豊かで情報豊かな空間関係を含み、3Dシーンに正確に基づいていることを示しています。LEOはシーンに存在する具体的なオブジェクトおよびこれらのオブジェクトに関する具体的なアクションを持っています。LEOは、3Dビジョン言語と具現化された動きのギャップを埋めることができます。チームの結果は、彼らの共同学習の可能性を示しています。

「スロープ・トランスフォーマーに出会ってください:銀行の言語を理解するために特別に訓練された大規模な言語モデル(LLM)」

支払いにおいて、トランザクションの理解は事業のリスク評価において重要です。しかし、乱雑な銀行の取引データの解読は課題となります。なぜなら、異なる銀行間で様々な方法で表現されるからです。PlaidやChatGPTのような既存の解決策には、カバレッジの低さや冗漫さといった制約があります。これを解決するために、Slope TransFormerと呼ばれる新しい解決策が開発されました。これは、銀行の言語を理解するために特別に訓練された大規模言語モデル(LLM)です。 トランザクションは、異なる形式で表現されるため理解が難しいですが、従来のルールベースの手法は無力です。Open BankingプロバイダであるPlaidは、50%未満のカバレッジのトランザクションデータを提供し、そのラベルはノイズがあり混乱しやすいです。ChatGPTのようなLLMは、非構造化データから意味を抽出することを約束していますが、予測不可能性やスケーラビリティの問題を抱えています。 Slope TransFormerは、銀行のトランザクションから意味を抽出するために専用に訓練されたLLMであるという特許を取得しています。これにより、前任者であるSlopeGPTの制約を克服し、正確で簡潔な取引先ラベルを解釈可能な方法で提供します。その成功の秘訣は、トランザクションから商店名を抽出するために新しい言語を定義することです。 効率的なベースモデルOPT-125Mと、LoRAと呼ばれるファインチューニングアルゴリズムを使用して、TransFormerは驚異的な速度を実現しています。これにより、SlopeGPTに比べて250倍のスピードで500件以上のトランザクションをラベリングできます。人間の専門家に対する正確な一致率は72%以上であり、たった62%しか達成していないPlaidを上回っています。この解決策は正確かつ高い一貫性を持ち、製品システムで信頼性があります。 TransFormerのパフォーマンスは既にライブの信用モニタリングダッシュボードへの展開につながっています。その効率性と機能性により、ビジネスの詳細な情報が提供され、変動するリスクの監視、異常なイベントの警告、自動的な調整の適用が可能となります。最終的な目標は、TransFormerを使用して、従来の財務情報を超えたビジネスの正確な理解を実現し、信用保証システム全体にパワーを与えることです。 まとめると、Slope TransFormerはB2B経済においてアンダーライティングの方法を再定義する重要なマイルストーンです。その効率性、正確性、解釈可能性は、ビジネスのより正確な理解を可能にし、リスクの監視と管理に新しいリアルタイムシグナルを解除することを可能にします。この進歩は、数十年にわたる進歩を妨げていた非効率性を解消し、AIを使用してワークフローを自動化することで、SlopeAIの広範なビジョンであるB2B経済のデジタル化に適合しています。 この投稿は、Slope TransFormer: A Large Language Model (LLM) Trained Specifically to Understand the Language of…

「仕事の未来を形作る:メタのアーピット・アガルワールからの洞察」

COVID-19パンデミックは職場を変革し、リモートワークが持続的な標準となっています。このLeading with Dataのエピソードでは、MetaのArpit Agarwalが、未来の仕事にはバーチャルリアリティが関与し、対面での経験と同じような遠隔協業が可能になることを説明しています。Arpitは自身の旅からの洞察を共有し、製品開発の初期段階での分析の課題や重要な瞬間を強調しています。 このエピソードのLeading with DataはSpotify、Google Podcasts、およびAppleなどの人気プラットフォームで聴くことができます。お気に入りのプラットフォームを選んで、洞察に富んだコンテンツをお楽しみください! Arpit Agarwalとの対話からの重要な洞察 将来の仕事は、遠隔協業のためのバーチャルリアリティにかかっている。 データサイエンスチームの立ち上げは、イノベーションとビジネスへの影響を促進する。 製品開発の早い段階では、内部テストとフィードバックを使用して品質に重点を置くデータサイエンス。 データサイエンスの採用には、技術力、問題解決能力、強い人柄が必要。 データサイエンスのキャリア成長には、広範な探求後の専門的な専門知識が求められる。 AIとデータサイエンスのリーダーとの洞察に満ちた議論のために、私たちの今後のLeading with Dataセッションに参加しましょう! さて、Arpit Agarwalがキャリアの旅と業界経験について回答した質問を見てみましょう。 COVID-19パンデミックは私たちの働き方にどのような変化をもたらしましたか? パンデミックは私たちの働き方の基盤を根本的に変えました。私たちはオフィス中心の環境から、新たな現実としてリモートワークを受け入れるようになりました。オフィスへの復帰方針を導入しても、多くの労働力は引き続きリモートで働くことになるでしょう。課題は、生産性を維持し、かつてオフィス内で構築されたつながりを促進することにあります。現在のツールでは、対面での経験を再現するのには限界があります。そこでMetaのビジョンが活躍します。私たちは、仮想空間内で一緒に働いている感覚を提供する製品の開発に取り組んでいます。お互いのボディランゲージを理解し、効果的に協力することができます。 大学からデータサイエンスのリーダーになるまでの旅を教えていただけますか? 私の旅はBITS…

「リテラルを使ったPythonの型ヒント」

認めます:私はいつもタイピングのファンではありませんでしたPythonのリテラルタイプの形式で、リテラルタイプを作成する方法実際、私はリテラルタイプを過小評価するだけでなく、完全に無視し、使用を拒否しました...

「PythonによるLong Short-Term Memoryのマスタリング:NLPでのLSTMの力を解き放つ」

この作業は、Pythonを使用したRNNとNLPに関する私の記事の続編です単純な再帰層を持つ深層学習ネットワークの自然な進化は、Long Short…

クラウドファーストデータサイエンス:データの分析とモデリングのための現代的なアプローチ

データサイエンスは、世界で最も急速に成長している産業の一つであり、モダンで先進的な技術を活用してデータの利用方法を向上させていますただし、もしデータサイエンスで働いているのであれば、おそらく...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us