Learn more about Search Results フ - Page 18

ニューラルネットワークチュートリアルのプログラミング:ヴィンテージスタイル

神経回路網を最初に記述したのは神経生理学者ウォーレン・マキューロックと数学者ウォルター・ピッツであり、生物の脳のモデルとして提案されました1959年にはバーナード・ウィドローとマーシャン・ホフが…

ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheを紹介します

人工知能(AI)とディープラーニングの進歩により、人間とコンピューターの相互作用は大きく変革されました。拡散モデルの導入により、生成モデリングはテキスト生成、画像生成、音声合成、映像制作などのさまざまなアプリケーションで驚異的な能力を示しています。 拡散モデルは優れた性能を示しているものの、これらのモデルは通常、モデルサイズの大きさと順次のノイズ除去手順に関連する高い計算コストがあります。これらのモデルは非常に遅い推論速度を持っており、モデルの剪定、蒸留、量子化などの手法を使用してステップごとのモデル推論のオーバーヘッドを低下させるなど、研究者によって様々な取り組みが行われています。 従来の拡散モデルの圧縮方法では、大量の再学習が必要であり、これには実用的および財務的な困難が伴います。この問題を克服するため、研究者チームはディープキャッシュと呼ばれる新しい学習フリーパラダイムを導入し、拡散を加速するために拡散モデルのアーキテクチャを最適化しました。 ディープキャッシュは、拡散モデルの連続したノイズ除去段階に固有の時間的冗長性を利用しています。この冗長性の理由は、いくつかの特徴が連続したノイズ除去ステップで繰り返されるためです。これにより、これらの特性のキャッシングと取り出しの方法を導入することで、重複計算を大幅に削減しています。チームは、このアプローチがU-Netの特性に基づいていることを共有しており、これにより高レベルの特徴を効果的かつ効率的に更新しながら、低レベルの特徴を再利用することができます。 ディープキャッシュの創造的なアプローチにより、Stable Diffusion v1.5に対して2.3倍の高速化が実現されており、CLIPスコアはわずか0.05の低下となっています。また、LDM-4-Gに対しては素晴らしい4.1倍の高速化が実現されており、ただしImageNetではFIDが0.22の低下となっています。 チームはDeepCacheを評価し、実験的な比較で現在の剪定および蒸留手法よりも優れたパフォーマンスを示すことを確認しました。また、既存のサンプリング手法とも互換性があることが示されています。DDIMやPLMSと同様の、またはわずかに優れた性能を示すことが報告されており、同時に生成される出力の品質を損なうことなく、効率を最大限に引き出しています。 研究者は、主な貢献を以下のようにまとめています。 DeepCacheは現在の高速サンプラーとうまく機能し、同様またはより良い生成能力を実現する可能性を示しています。 実行時に拡散モデルを動的に圧縮することで、画像生成の速度を改善しますが、追加のトレーニングは必要ありません。 キャッシュ可能な特徴を使用することで、高レベルの特徴における時間的一貫性を利用して、重複計算を削減します。 拡張キャッシング間隔に対するカスタマイズされた技術を導入することで、DeepCacheは特徴のキャッシュの柔軟性を向上させます。 DDPM、LDM、Stable Diffusionモデルにおいて、CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017、PartiPromptでテストした場合、DeepCacheはより効果的な結果を示します。 再学習が必要な剪定および蒸留アルゴリズムよりも優れたパフォーマンスを発揮するDeepCacheは、高い効果性を維持します。 結論として、DeepCacheは従来の圧縮技術の代替手段として、拡散モデルのアクセラレータとして大いに期待されます。

テンセントの研究者が「FaceStudio」を発表:アイデンティティ保持を重視したテキストから画像生成の革新的な人工知能アプローチ

テキストから画像への拡散モデルは、人工知能の研究分野で興味深い領域です。これらのモデルは、拡散モデルを利用して、テキストの説明に基づいた生き生きとした画像を作成することを目指しています。このプロセスでは、基本的な分布からサンプルを反復的に生成し、テキストの説明を考慮しながら目標の画像に似せるように徐々に変形させることが含まれています。複数のステップが関与し、生成された画像に進行性のノイズが加わります。 現在のテキストから画像への拡散モデルは、既存の課題に直面しています:テキストの説明だけから主題を正確に描写することです。この制約は、特に人間の顔の特徴などの複雑な詳細を生成する必要がある場合に顕著に現れます。その結果、テキストの手がかりを超えたアイデンティティを保持するイメージ合成を探求する関心が高まっています。 テンセントの研究者は、人間のイメージのためのアイデンティティを保持するイメージ合成に焦点を当てた新しいアプローチを紹介しました。彼らのモデルは、素早く効率的な画像生成のために複雑な微調整手続きを回避する直接のフィードフォワードアプローチを採用しています。テキストのプロンプトを利用し、スタイルとアイデンティティの画像から追加の情報を取り入れます。 彼らの手法は、マルチアイデンティティのクロスアテンションメカニズムを含み、モデルが画像内の異なるヒト領域に各アイデンティティからの具体的なガイダンス詳細を関連付けることを可能にします。彼らのモデルを人間のイメージを含むデータセットで訓練し、アイデンティティの入力として顔の特徴を使用することで、モデルはアイデンティティの特徴を強調しながらヒトのイメージを再構築することを学びます。 彼らのモデルは、主題のアイデンティティを忠実に保持しながらヒトのイメージを合成する一見すると素晴らしい能力を示します。さらに、ユーザーの顔の特徴をカートゥーンなどのさまざまなスタイルのイメージに重ねることを可能にし、アイデンティティを損なうことなくさまざまなスタイルで自分自身を視覚化することができます。さらに、対応する参照写真が提供された場合には、複数のアイデンティティを組み合わせたアイデアを生成することにも優れています。 彼らのモデルは、シングルショットとマルチショットの両方のシナリオで優れたパフォーマンスを発揮し、アイデンティティを保持するための設計の効果を強調しています。基本的なイメージ再構築はおおよそイメージの内容を保持しますが、微細なアイデンティティ情報には苦労します。一方、彼らのモデルはアイデンティティガイダンス枝からアイデンティティ情報を成功裏に抽出し、顔の領域に対してより優れた結果をもたらします。 ただし、このモデルの人間の顔を複製する能力は、特に冒涜的なまたは文化的に不適切なイメージを作成する可能性について倫理的な懸念を引き起こします。この技術の責任ある使用は重要であり、敏感な状況での不正な使用を防ぐためにガイドラインの策定が必要です。

ラジアルトリーマップ:トリーマップを円形マッピングに拡張する

「Treemap(ツリーマップ)」は、1990年代初頭にベン・シュナイダーマン氏によってメリーランド大学で紹介されました¹要するに、階層構造のデータをネストされた矩形のセットとして効率的に表示する方法です…

このGoogleとUC BerkeleyのAI論文は、NeRFillerを紹介します:2Dインペインティング拡散モデルを使用して3Dシーン再構築を革新する人工知能アプローチ

3Dキャプチャの欠けた部分を効果的に補完する方法はありますか?Google ResearchとUC Berkeleyの研究論文では、「NeRFiller」という新しい3Dインペインティング手法を紹介しています。この手法は、再構築の失敗や観測の不足によってしばしば欠落する、不完全な3Dシーンやオブジェクトの再構築の課題に対処しています。この手法は、参照例を通じてインペインティングプロセスを制御することで、精密かつカスタマイズ可能なシーンの補完を可能にします。NeRFillerは、3Dキャプチャ内のシーンやオブジェクトを強化する3D生成インペインティング手法であり、3D再構築の改善に効果的な解決策となります。 この研究では、伝統的な2Dインペインティングから大規模インペインティングのLaMaのような先進的な技術まで、さまざまな手法を用いて3Dシーンの欠落した部分を補完する方法を探求しています。確率的および潜在的な拡散モデルに取り組み、テキストや画像を入力とする3D生成アプローチを考慮しています。オブジェクトの削除設定の関連性が強調され、3Dインペインティングのためのさまざまなベースラインとデータセットが評価されています。ビデオやシーン編集の関連研究に触れながらも、主に既存の3Dシーンのコンテキスト内でのシーン補完に焦点を当てています。 この研究では、3Dシーンの補完とインペインティングの課題に取り組み、3Dに対応したマルチビュー一致アプローチの重要性を強調しています。シーン補完とオブジェクトの削除を区別し、3Dシーン内で新しいコンテンツを生成することに焦点を当てています。3D一貫性のあるイメージのための2D生成インペインティングモデルの制約について議論されています。提案されたNeRFillerアプローチは、テキストから画像への拡散モデルのグリッド事前現象を活用し、インペインティングでのマルチビュー一貫性を強化します。3Dシーンの最適化のための反復的な手法を利用し、グリッドインペインティングを大規模な画像コレクションに拡張しています。Masked NeRFやLaMaskなどのベースラインとの比較を行い、NeRFillerの効果を示しています。比較や新規ビューメトリクス、イメージ品質、ジオメトリメトリクスを含む評価も行われています。 NeRFillerは、3Dシーンの欠落した領域を補完するための生成的な2D拡散モデルを利用した手法です。さまざまなインペインティングの推定値の課題と、2Dモデルの3D一貫性の欠如に取り組んでいます。NeRFillerは、顕著なインペインティング結果のための統合機構を取り入れ、3Dキャラクターを促進します。反復的な3Dシーンの最適化を活用し、グリッドインペインティングを大規模な画像コレクションに拡張します。Masked NeRFやLaMaskといったベースラインとの比較を行い、NeRFillerの効果を示しています。比較や新規ビューメトリクス、イメージ品質、ジオメトリメトリクスを含む評価も行われています。 結論として、NeRFillerは3Dシーン内の欠落した部分を正確に補完することができる強力な3Dインペインティングツールです。ギャップを埋めたり、不要な要素を削除する能力は、オブジェクト削除のベースラインを上回ります。Joint Multi-View Inpaintingの導入により、複数の画像間でノイズの予測を平均化することで一貫性を強化しています。NeRFillerは、最新のベースラインと比較することで、ユーザー指定の3Dシーンの補完を達成しています。ユーザーが指定した仕様で3Dキャプチャの欠落部分をインペインティングするための貴重なフレームワークを提供しています。

AI2とワシントン大学の研究者が、LLMsの表面的な性質を明らかにし、チューニングフリーの新しい方法であるURIALを紹介した

ラージランゲージモデル(LLMs)は、人工知能(AI)やディープラーニングの分野での最近の革新です。GPT、PaLM、LLaMaなどのよく知られたLLMは、コンテンツの生成において非常に高いポテンシャルを示しています。質問応答やテキスト要約から言語翻訳やコード補完まで、これらのモデルは多くのことができます。ChatGPTを含むこれらのモデルは、広範な非監督テキストコーパスでの事前トレーニングを経ています。しかし、最近の研究は、従来のファインチューニングの採用方法が以前に考えられていたほど重要ではない可能性があると示唆しています。 オープンドメインのAIアシスタントとしての基本LLMの改善プロセスであるアライメントチューニングは業界標準と認められています。これには、人間のフィードバックからの強化学習(RLHF)や監視付きファインチューニング(SFT)が含まれます。この標準は、LIMAという研究によって問われ、SFTのためのわずか1,000のサンプルでも意味のあるアライメントパフォーマンスを達成することができると示されました。 LIMAが提案したスーパーフィシャルアライメント仮説では、基本LLMの振る舞いを根本的に変えるのではなく、特定のデータ形式を選択するようにトレーニングすることで、アライメントチューニングが行われる可能性があります。これにより、わずかな例でも高品質なアライメントモデルが監視付きファインチューニングによって生成されることが示されました。 スーパーフィシャルアライメント理論に確かな支持を見つけるための研究が不十分であるため、Allen Institute for Artificial Intelligenceおよびワシントン大学の研究チームは、最近の論文でアライメントチューニングの広く使用されている技術に取り組み、基本LLMを有用なオープンドメインのAIアシスタントにする方法を提案しています。選好チューニングは人間のフィードバックからの強化学習によって実現され、指導学習は監視付きファインチューニングによって実現されています。 チームは、基本LLMとそのアライメントされたバージョン(例:Llama-2およびLlama-2-chat)のトークン分布の変化を調査し、アライメント調整の影響を研究しました。彼らは、基本LLMとそのアライメントされたバージョンが上位ランクされたトークンを共有し、ほとんどのトークン位置でデコーディングにおいてほぼ同じパフォーマンスを発揮することを発見しました。ディスコースマーカーやセーフティディスクレイマーなどのスタイルトークンは、最も分布の変動を経験しています。この研究は、アライメント調整が主にAIアシスタントの言語スタイルを同化することに焦点を当てており、基本LLMがユーザーの問い合わせに応えるために必要な情報を提供しているという仮説の説得力のある証拠を提供しています。 チームはまた、SFTやRLHFなしで基本LLMをどの程度アラインできるかという研究トピックを提示しました。彼らは、URIAL(調整を必要としないLLMとコンテキスト内アライメント)というアライメント技術を提案しました。わずか3つの連続スタイルの例とシステムのプロンプトだけで、URIALは基本LLMとのコンテキスト内学習(ICL)のみを通じて効果的なアラインメントを達成します。 チームは、Mistral-7b-Instruct(SFTで調整されたLLM)やSFT+RLHF(Llama-2-70b-chat)でアラインされたLLMsと同等またはそれ以上のパフォーマンスを提供するURIALを持つ基本LLMの詳細で理解しやすい分析を提供する、just-eval-instructと呼ばれる一連のインスタンスで、チューニングフリーおよびチューニングベースのアライメント戦略のギャップを劇的に縮小することが示されました。 結論として、評価結果は浅いアライメントチューニングを強調し、基本LLMの言語スタイルの導入と既存の知識に委ねられることを示しています。

最近の人類学的研究によれば、クロード2.1の戦略的な促進を通じて、プロンプトに単一の追加をすることで、LLMsの記憶容量を70%増加させることができると報告されました

以下のHTMLコードを日本語に翻訳します(HTMLコードは結果に含めます): この研究は、Claude 2.1の機能における固有の課題に取り組んでいます:200,000トークンの文脈ウィンドウ内での個々の文に基づく質問に対する抵抗力です。このため、モデルのリコール能力を最大化する上で重要なハードルとなり、解決策の探求を促しています。 現在の手法を調査すると、Claude 2.1は、特に場違いとされる個々の文に関する質問に直面した際に躊躇することがわかります。これに対応して、Anthropicの研究者たちは、驚くほど効果的な解決策を提案しています:プロンプトの追加です。彼らは、「文脈内で最も関連のある文は次のとおりです:」という文をプロンプトに組み込むことを提案しています。この些細な調整は、メタコマンドに似ており、モデルのリコール能力を大幅に向上させます。 追加されたプロンプトは、Claude 2.1に関連する文を優先的に処理するよう指示するため、効果的にモデルの質問に対する躊躇を解消します。200,000文脈ウィンドウの評価において、Claudeのスコアは27%から98%に驚異的に向上するなど、パフォーマンスの改善が実証されています。 特に、このプロンプトを提供した後、単文のクエリの正確性が驚異的に90%増加しました。単文のクエリの正確性の増加は、追加されたプロンプトがClaude 2.1のパフォーマンスに与える重要な影響を示しています。この大幅な改善は、より広範な文脈内の単一の文の照会を処理する能力を高め、解決策の実用的な意義を示しています。 まとめると、この革新的な手法はClaude 2.1の躊躇を解消し、単一のプロンプトの追加によってリコール能力が70%向上することを示しています。研究チームの調査結果は、プロンプトの微妙な動態と言語モデルの振る舞いへの重要な影響について貴重な示唆を提供しています。AIコミュニティは大規模言語モデルの精度を高めるために改善を追求していますが、この発見は機能性の向上に実用的な意義を持つ注目すべき進展となります。 この記事はMarkTechPostの投稿から引用されました。

ジェミニに会いましょう:Googleの最大かつ最もパワフルなAIモデル

昨年11月、OpenAIがChatGPTをリリースした際、誰もが思い悩んでいた疑問がありましたそれは、テックの巨人たちは一体何をしているのか、というものです同社のCEO、サンダル・ピチャイによると、この技術は非常に重要です…

一時的なグラフのベンチマーク (Ichijiteki na gurafu no benchimāku)

最近では、公開データセットや標準化された評価プロトコルの提供により、静的グラフにおける機械学習において重大な進展がなされています

「パリを拠点とするスタートアップであり、OpenAIの競合他社であるMistral AIの評価額は20億ドルです」

ヨーロッパの人工知能セクターにとって重要な進展となりますが、パリに拠点を置くスタートアップ企業であるミストラルAIが注目すべきマイルストーンを達成しました同社は4億5000万ユーロの大規模な投資を成功裏に獲得し、その評価額を2億ドルという印象的な数字に押し上げましたこの資金調達ラウンドは、ミストラルAIだけでなく、急成長している人工知能業界にとっても転換点となる重要な瞬間です

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us