Learn more about Search Results A - Page 118

あなたは優れたEDAフレームワークを持っていると思っていますか?もう一度考えてみてください

優れたデータサイエンティストは、データを内外に知り尽くしています良いモデルを構築するには、データに真につながっている必要があります機械学習プロジェクトを始めて終えることは確かに興奮しますしかし...

CommonCanvasをご紹介します:クリエイティブ・コモンズの画像を使ってトレーニングされたオープンな拡散モデル

人工知能は近年、テキストから画像生成において大きな進歩を遂げています。文章の説明を視覚的な表現に変換することは、コンテンツの作成から盲人の助けになるまで、さまざまなアプリケーションがあります。研究者たちは、高品質なデータが不足しており、インターネットからスクレイピングされたデータセットに関連する著作権の問題に直面しています。 最近の研究では、研究チームがクリエイティブ・コモンズ(CC)ライセンスの下に画像データセットを構築し、それを使ってStable Diffusion 2(SD2)を上回るオープンな拡散モデルを訓練するというアイデアを提案しました。これには、以下の2つの主な障壁が克服される必要があります。 キャプションのないデータの不在:高解像度のCC写真はオープンライセンスですが、しばしばテキストから画像を生成するためのキャプションが欠落しています。キャプションがないと、モデルはテキストの入力に基づいて視覚的な表現を理解し生成することが困難です。 CC写真の不足:LAIONなどの大規模な固有データセットと比較して、CC写真はより少なく、重要なリソースであるにもかかわらず、その不足により高品質なモデルを訓練するための十分なデータがあるかどうかという疑問が生じます。 チームは、転移学習の技術を使用し、事前に訓練されたモデルを用いて優れた合成キャプションを作成し、それらを注意深く選ばれたCC写真とマッチさせました。この方法はシンプルで、モデルが写真や他の入力からテキストを生成する能力を利用しています。これにより、言葉を視覚的な表現に変換するための生成モデルを訓練するために、写真と作り上げたキャプションのデータセットが編集されました。 チームは、2つ目の課題に取り組むために、コンピューティングとデータの効率を兼ね備えたトレーニングレシピを作成しました。このため、より少ないデータで現行のSD2モデルと同じ品質を目指しています。SD2をトレーニングするために最初に使用されたデータの約3%、およそ7,000万の例が必要です。これは、高品質なモデルを効率的にトレーニングするために十分なCC写真が利用可能であることを示しています。 チームは、データと効果的なトレーニング手順を使用して、複数のテキストから画像へのモデルを訓練しました。これらのモデルはCommonCanvasファミリーと呼ばれ、生成モデルの分野において重要な進歩を示しています。品質においてはSD2に匹敵する視覚的な出力を生成することができます。 CommonCanvasファミリーの最大のモデルは、LAIONデータセットの3%未満のCCデータセットで訓練され、人間の評価でSD2と比較して同等の性能を得ています。データセットのサイズの制約や人工的なキャプションの使用にもかかわらず、この手法は高品質な結果を生成する上で効果的です。 チームは、主な貢献を以下のようにまとめています。 チームは、最初はキャプションのないクリエイティブ・コモンズ(CC)写真に優れたキャプションを生成するために電話を使用した転移学習の方法を使用しました。 彼らはCommonCatalogと呼ばれるデータセットを提供しました。これにはオープンなライセンスの下でリリースされた約7,000万枚のCC写真が含まれています。 CommonCatalogデータセットは、一連のLatent Diffusion Models(LDM)を訓練するために使用されます。これらのモデルはCommonCanvasと呼ばれ、SD2-baseベースラインと比較して、質的および量的に競争力があります。 この研究では、SD2-baseモデルのトレーニングをほぼ3倍高速化するため、いくつかのトレーニング最適化を適用しています。 チームは、GitHubでトレーニングされたCommonCanvasモデル、CC写真、人工的なキャプション、そしてCommonCatalogデータセットを無料で利用できるようにし、協力とさらなる研究を促しています。

「AIの雇用展望:給与のトレンドと将来の予測」

「サイエンスフィクションが科学の事実となり、機械がますます『人間のよう』になる時代、無視することは不可能な一つのことがあります:AI(人工知能)が雇用の景色を劇的に変える可能性があるということですAI技術の出現は、雇用市場に変革の時代をもたらし、前例のない機会と課題をもたらします... AIの雇用見通し:給与の傾向と将来の予測 続きを読む」

グーグルサーチは、Googleサーチで文法チェック機能を備えた革新的なテキスト編集AIモデルであるEdiT5を導入しました

画期的な進歩として、Googleはその検索エンジンに革新的なEdiT5モデルによる最先端の文法修正機能を導入しました。この革新的なアプローチは、複雑な文法エラー修正(GEC)がもたらす課題に対処し、高い精度とリコールを確保しながら、素晴らしい速さで結果を提供します。 従来、GECは翻訳の問題としてアプローチされ、オートリグレッシブなトランスフォーマーモデルが利用されてきました。効果はあるものの、この方法ではオートリグレッシブなデコーディングによる並列化の制限が効率性に影響を与えます。より効率的なプロセスの必要性を認識し、EdiT5の開発チームは、GECをテキスト編集の問題として再構築しました。T5トランスフォーマーエンコーダデコーダーアーキテクチャを活用することで、デコーディングステップを大幅に削減し、レイテンシを最小限に抑えました。 EdiT5モデルは、文法エラーが含まれた入力を受け取り、エンコーダを使用して保持または削除するトークンを決定します。保持されたトークンはドラフトの出力を形成し、ノンオートリグレッシブなポインタネットワークを使用して必要に応じて再順序付けすることができます。その後、デコーダは文法的に正しい出力を生成するために、ドラフトに存在しないトークンを挿入します。重要なことは、デコーダはドラフトにないトークンのみに対して操作を行い、従来の翻訳ベースのGECと比較して処理時間を大幅に削減する点です。 デコード速度をさらに向上させるために、チームはデコーダを単層に絞り込み、同時にエンコーダのサイズを拡張しました。この戦略的な調整により、作業負荷が均衡化され、レイテンシが大幅に削減されます。具体的には、EdiT5モデルは驚異的な平均レイテンシ4.1ミリ秒で素晴らしい結果を達成することを意味します。 公開Bea文法エラー修正ベンチマークで行われたパフォーマンス評価は、EdiT5の優位性を示しています。パラメータ数が3億9100万である大規模なEdiT5モデルは、パラメータ数が2億4800万であるT5ベースモデルよりも高いF0.5スコア(修正の正確性を測定するもの)を出し、驚異的な9倍の高速化を実現しています。これは、モデルの効率性が非常に優れていることを示しています。 さらに、研究はモデルサイズが正確な文法修正の生成において重要な役割を果たすことを強調しています。大規模言語モデル(LLM)の利点とEdiT5の低レイテンシを組み合わせるために、ハード蒸留と呼ばれる技術を活用しています。教師LLMをトレーニングし、それを学生EdiT5モデルのトレーニングデータ生成に利用することで、正確さと速度の強力なシナジーを実現しています。 開発プロセスでは、最適なパフォーマンスを確保するためにトレーニングデータを洗練しました。非文法的なソースと文法的なターゲット文のペアから成るトレーニングセットは、厳格なセルフトレーニングと反復的な改善が行われました。この入念なアプローチにより、不要な言い換え、アーティファクト、文法エラーが排除され、クリーナーでより一貫性のあるトレーニングデータが得られました。 最終的な実装では、EdiT5ベースのモデルが2つトレーニングされました。文法エラー修正モデルと文法正当性分類器です。ユーザーが文法チェック機能を利用すると、クエリはモデルによる修正を受けた後、分類器によって検証されます。この2段階のプロセスにより、正確な修正のみがユーザーに提示され、誤ったまたは混乱を招く提案のリスクが軽減されます。 EdiT5を活用した文法チェック機能の導入により、Google検索は効率的かつ正確な文法修正の新たな基準を確立しました。ユーザーは単に検索時に「文法チェック」というフレーズを含めることで、クエリの文法的正当性を自信をもって評価することができます。自然言語処理のこのマイルストーンは、Googleのユーザーエクスペリエンスの向上と信頼性のある正確な検索結果に対する取り組みを再確認しています。

UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化

大きな言語モデル(LLM)は、人工知能と機械学習の進歩のおかげで絶えず改善されています。 LLMは、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどのAIのサブフィールドで大きな進展を遂げています。これらのモデルは、大規模なインターネットスケールのデータセットでトレーニングされ、さまざまな言語とビジュアルのタスクを処理できるジェネラリストモデルを開発します。大規模なデータセットとデータとモデルのサイズに効果的にスケーリングできる綿密に考えられたアーキテクチャの存在が成長の要因とされています。 最近では、LLMはロボティクスにも成功裏に応用されています。ただし、広範な未整理のデータセットから多くの制御タスクを低レベルアクションで学習するジェネラリストエンボディドエージェントはまだ実現していません。ジェネラリストエンボディドエージェントに対する現在のアプローチは2つの主要な障害に直面しています。 近接専門家軌道の仮定:利用可能なデータ量の制約により、多くの既存の行動クローニングの手法では近接専門家軌道に頼っています。これは、エージェントが異なるタスクに対して柔軟性が低くなることを意味し、専門家のような高品質なデモから学習する必要があります。 拡張コントロール方法のスケーラビリティの欠如:数多くのスケーラブルな連続制御方法は、大規模で整理されていないデータセットを効果的に処理できません。既存の強化学習(RL)アルゴリズムの多くは、タスク固有のハイパーパラメータに依存し、単一のタスク学習に最適化されています。 これらの課題への解決策として、研究チームは最近、モデルベースのRLアルゴリズムのTD-MPC(Trajectory Distribution Model Predictive Control)ファミリーの拡張であるTD-MPC2を紹介しました。さまざまなタスクドメイン、エンボディメント、アクションスペースにわたる大規模な未整理のデータセットを使用してTD-MPC2をトレーニングし、ジェネラリストワールドモデルの構築に役立つシステムを作成しました。その主要な特徴の1つは、ハイパーパラメータの調整が必要ないことです。 TD-MPC2の主な要素は次のとおりです。 潜在空間でのローカル軌道最適化:デコーダーの必要がないため、TD-MPC2はトレーニング済みの暗黙のワールドモデルの潜在空間でローカル軌道最適化を行います。 アルゴリズムの頑健性:重要な設計決定を再び確認することで、アルゴリズムはより強固になります。 多様なエンボディメントとアクションスペースのアーキテクチャ:事前のドメインエキスパートの要件を必要とせず、アーキテクチャは複数のエンボディメントとアクションスペースをサポートするように慎重に作成されています。 研究チームは、評価の結果、TD-MPC2が現在使用されているさまざまな連続制御タスクに対してモデルベースとモデルフリーのアプローチよりも優れたパフォーマンスを実現していることを示しました。特にピックアンドプレースや移動タスクなどの難しいサブセットでは特に優れた結果を示します。エージェントの増加した能力は、モデルとデータのサイズが増えるにつれてスケーラビリティを示しています。 研究チームは、TD-MPC2のいくつかの注目すべき特徴を以下にまとめています。 パフォーマンスの向上:さまざまなRLタスクで使用すると、TD-MPC2はベースラインのアルゴリズムよりも改善を提供します。 単一のハイパーパラメータとの一貫性:TD-MPC2の主な利点の1つは、単一のハイパーパラメータで信頼性のある印象的な結果を生み出す能力です。これにより、チューニング手順が簡素化され、さまざまなジョブに適用されやすくなります。 スケーラビリティ:モデルとデータのサイズが増えるにつれてエージェントの能力が増す。このスケーラビリティは、より複雑なジョブの管理およびさまざまな状況への適応に重要です。 研究チームは、317百万のパラメータを持つ単一のエージェントをトレーニングして80のタスクを達成し、TD-MPC2のスケーラビリティと効果を示しました。これらのタスクでは、複数のエンボディメント(エージェントの物理的な形態)および複数のタスクドメインにわたるアクションスペースが必要です。これは、TD-MPC2の柔軟性と強力さを示しています。

ホワイトハウス、AI安全への懸念に対処するための大統領令に署名

月曜日、バイデン政権は人工知能に関する行政命令に署名し、安全性の懸念を解消しつつも革新を妨げないことを目指していますこの命令の目標は、消費者の権利、市場のニーズ、国家安全保障の懸念をバランスさせるために、一連のガードレールを早期に設定することです

Note The translation result may vary depending on the context and specific requirements.

心配しないで、私はこのタイトルを選んだわけではなく、データサイエンスが「真の科学ではない」と嘆くためではありません(それが何を意味するのか、というのは別として)むしろ、データであることの意味について、いくつかの異なる視点を提供することを望んでいます...

このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています

“` 2D生成モデリングの信じられないほどの人気は、ビジュアル素材の制作方法に大きな影響を与えています。3Dファブリックの作成にはまだ深層生成ネットワークに多くの困難があります。ゲーム、映画、バーチャルリアリティなどのアプリケーションには欠かせない要素です。一部のカテゴリでは3D生成モデリングが素晴らしい結果を生み出しているものの、広範な3Dモデルを生成するにはさらなる3Dデータが必要です。事前学習済みのテキストから画像への生成モデルは、最近の研究でガイドとして使用され、励ましの結果をもたらしています。DreamFusionは初めて事前学習済みのテキストから画像へのモデル(T2I)を3Dクリエーションに使用することを提案した会社です。ランダムな視点での3Dモデルの表現が強力なT2I拡散モデルによって解釈されるテキスト条件付きの画像分布に適合するように3Dモデルを改善するために、スコア蒸留サンプリング(SDS)ロスが実装されています。 DreamFusionは、2D生成モデルの創造的なポテンシャルを保持しながら、信じられないほどの発明的な3D素材を生み出すことができます。最近の研究では、階段状の最適化手法を使用したり、ブラーと過飽和の懸念に対処するために2D蒸留ロスを向上させたりしていますが、既存の研究のほとんどは2D生成モデルと同じ方法で複雑な素材を合成することができません。さらに、これらの研究は、3D表現が個別には信頼性のあるものの、全体としてスタイリスティックまたは意味的なエラーがあることがわかった場合に「Janusの問題」に陥ることがよくあります。本論文では、清華大学とDeepSeek AIの研究者が、包括的な3Dの一貫性を維持しながら複雑な3Dオブジェクトを作成するための方法として、DreamCraft3Dを提案しています。 彼らは階層的な生成の可能性を調査しています。具体的なアイデアが最初に2Dの下書きになるような手動の創造プロセスに影響を受けています。荒いジオメトリが彫り上げられ、ジオメトリの詳細が磨かれ、高品質のテクスチャが描かれます。彼らは同様のアプローチを取り、3Dクリエーションの難しいタスクを消化可能な部分に分解します。テキストの入力から高品質の2Dリファレンス画像を作成し、テクスチャを強化し、ジオメトリを彫刻する手順を使用して3Dに持ち込みます。他の手法とは異なり、彼らの研究は、各レベルでの細心の注意が階層的な生成のポテンシャルを最大化し、最高品質の3Dクリエーションを生み出すことができることを示しています。ジオメトリ彫刻の目標は、2Dリファレンス画像を一貫性があり信じられる3Dジオメトリに変換することです。 参照ビューと新しいビューにおけるフォトメトリックロスやSDSロス以外にも、ジオメトリの一貫性を高めるための他の戦術を提示しています。まず、Zero-1-to-3オフシェルフのビューポイント条件付き画像変換モデルを使用して、リファレンス画像に基づいた一意の意見の分布をシミュレートします。このビューポイント条件付きの拡散モデルは、さまざまな3D入力で訓練されているため、2D拡散を強化する豊かな3D事前知識を提供します。彼らはまた、徐々にトレーニングビューを増やし、サンプルのタイムステップをアニーリングすることが一貫性のさらなる強化に不可欠であることを発見しました。粗いから細かいジオメトリの調整の最適化中に、暗黙の表面表現からメッシュ表現に移行します。これらの手法を使用すると、ジオメトリ彫刻ステップは、ほとんどのジオメトリアーティファクトを効果的に抑えながら、正確で詳細なジオメトリを生成します。 さらに、テクスチャを大幅に改善するためにブートストラップスコア蒸留を使用することを提案しています。現代の2D拡散モデルの忠実度は、限られた3Dで訓練されたビューポイント条件付きの拡散モデルによってしばしば凌駕されます。代わりに、最適化中の3Dインスタンスの多視点表現を使用して拡散モデルを微調整します。このビューコンシステンシーを意識したカスタマイズされた3D拡散事前知識は、3Dテクスチャの向上に重要な役割を果たします。さらに、彼らは、生成的先行と3D表現を交互に改善することで相互に補完する利点を発見しました。より優れた多視点レンダリングでのトレーニングは、拡散モデルに役立ち、3Dテクスチャの最適化により良い方向性を提供します。 “` 図1:DreamCraft3Dは2D写真を3Dに拡大することで、豊富な特徴とリアリティのある3D一貫性を持つ3Dを生成します。詳細な内容については、デモビデオと付録をご覧ください。 以前の試みと異なり、彼らは固定された目標分布から学ぶのではなく、最適化状態に基づいて徐々に進化させることでそれを実現しています。「ブートストラップ」法により、彼らはビジョンの一貫性を保ちながら、ますます詳細なテクスチャをキャプチャできます。図1に示されているように、彼らの技法は複雑な幾何学的形状とリアルな素材を360度一貫して提示することで、想像力豊かな3Dオブジェクトを作成することができます。最適化ベースの代替手法と比較して、彼らの手法ははるかに優れたテクスチャと複雑さを提供します。一方、彼らの取り組みは画像から3Dへのプロセスと比較して、今までにないほどリアルな360°表現を生成することに優れています。これらの研究結果は、DreamCraft3Dが3Dコンテンツ制作の新しい創造的な道を切り拓く巨大な潜在能力を示しています。この実装は一般の方々にもアクセスできるようになります。

「複数パネルの複雑な図を作成するためのMatplotlibサブフィギュアのガイド」

複雑な(科学的な)図は、しばしば異なるサイズや注釈を持つ複数のプロットで構成されていますもし、matplotlib/seabornのエコシステムで作業している場合、複雑な図を作成するためのさまざまな方法があります...

ジナAIは、「jina-embeddings-v2」を紹介します 世界初の8kオープンソースのテキスト埋め込みモデル

Jina AIは、第2世代のテキスト埋め込みモデルであるjina-embeddings-v2の最新の進化を発表しました。この最先端のモデルは、驚異的な8K(8192トークン)のコンテキスト長をサポートする唯一のオープンソースソリューションです。この成果により、それはOpenAIのプロプライエタリモデルであるtext-embedding-ada-002と同等の能力とMassive Text Embedding Benchmark(MTEB)のリーダーボードでのパフォーマンスを持つことができます。 jina-embeddings-v2は、容量とベンチマークのパフォーマンスの両方で既存のプロプライエタリの対応モデルと競合するオープンソースのテキスト埋め込みモデルであり、OpenAIの8Kモデルjina-embeddings-v2よりも優れたパフォーマンスを発揮します。特筆すべきは、Jina-embedding-v2は分類平均、再ランキング平均、検索平均、要約平均などの主要指標において、OpenAIの対応モデルと比較して優れたパフォーマンスを示しています。 研究者たちは、Jina-embeddings-v2が高度な機能を備えた多様なアプリケーションの革新を実現したと述べています。法的文書の分析では、広範囲な法的テキストの複雑な詳細を捉え、分析します。医療研究では、科学論文を埋め込み、包括的な分析を容易にし、画期的な発見を促進します。文学分析では、長編のコンテンツに深く入り込んでテーマの要素を捉え、より豊かな理解を実現します。財務予測では、詳細な財務レポートから優れた洞察を得ることで、意思決定プロセスを強化します。対話型AIでは、Jina Embeddings V2は複雑なユーザークエリに対するチャットボットの応答を大幅に改善します。その多彩で強力な機能により、Jina Embeddings V2はさまざまなドメインの複雑なデータセットからアプローチし、洞察を得る方法を変革する最先端の立場に立っています。 テスト結果では、このコンテキスト対応のjina-embeddings-v2が他の主要なベース埋め込みモデルを凌駕し、より長いコンテキスト能力の実用的な利点を強調しています。 Jina AIのCEOであるハン・シャオ博士は、このリリースの旅とその深い意義についての思いを共有しました。彼は、Jina-embeddings-v2のリリースによる成果は驚異的であり、OpenAIなどの業界リーダーと競争することを目指し、世界初のオープンソースの8Kコンテキスト長モデルを作り出すことを目指しています。Jina AIにおける使命は明確です:かつて機密のエコシステムに限定されていたツールを提供することで、AIを民主化し、本日この目標に向けて大きな進歩を遂げています。 研究者たちは、Jina-embeddings-v2の技術的な複雑さとベンチマークについての学術論文を公開する計画を立てており、AIコミュニティにモデルの能力をさらに深く探求する機会を提供します。チームは、OpenAIに類似した埋め込みAPIプラットフォームの開発に進んでおり、ユーザーが必要に応じてカスタマイズできる埋め込みモデルのシームレスな拡張性を保証する高度な段階に達しています。さらに、Jina AIは多言語の埋め込みにも進出し、ドイツ語-英語モデルを導入することで言語能力を広げています。この拡大は彼らのポートフォリオを向上させ、AIイノベーションのリーダーとしての地位を強化することを目指しています。 このモデルは、Hugging Faceで無料で簡単にダウンロードすることができます。ベースモデルは、高い精度を必要とする要求の厳しいタスクに適したものであり、学術研究やビジネス分析のような分野に応用されます。対照的に、コンパクトサイズ(0.07G)のSmallモデルは、軽量なタスクに向けて設計されており、モバイルアプリや計算リソースに制限のあるデバイスでのアプリケーションに理想的です。Jina AIは、AIコミュニティ内の様々な要件に対応し、ユーザーが計算ニーズに最適なモデルを選択し、アプリケーションの好みに合わせるための2つの異なるモデルオプションを提供しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us