Learn more about Search Results で見る - Page 9

「時間差学習と探索の重要性:図解ガイド」

最近、強化学習(RL)アルゴリズムは、タンパク質の折りたたみやドローンレースの超人レベルの到達、さらには統合などの研究課題を解決することで、注目を集めています

正確にピークと谷を検出するためのステップバイステップガイド

私たちの人間の脳は、その文脈に関連してピークを検出する能力に優れています目で見ると簡単なタスクでも、機械にとっては難しい課題になることもあります一般的に、ピークや谷は...

「Pythonを使用してPDFファイルからテキストを抽出する:包括的なガイド」

大規模言語モデル(LLM)とそれらの幅広い応用の時代において、簡単なテキストの要約や翻訳から、感情や財務報告に基づいた株式のパフォーマンスの予測まで…

「Googleの研究者は、シーンのダイナミクスに先行する画像空間をモデリングするための新しい人工知能アプローチを発表します」

風や水の流れ、呼吸、自然のリズムなどのために、静止しているように思われる画像にも微細な振動が含まれています。これは自然界が常に動いているためです。人間は特に動きに敏感であり、これが最も顕著な視覚信号の一つになります。動きのない(またはやや幻想的な動きがある)画像は時折不安定であり、超現実的に感じられることがあります。しかし、人々はシーン内の動きを理解したりイメージしたりすることは簡単です。モデルに現実的な動きを獲得させることはより複雑です。シーンの物理的なダイナミクス、または物体の質量、弾性などの特定の物理的特性によって物体に作用する力は、人々が外部の世界で見る動きを生み出します。 これらの力や特性は、大規模に測定・捉えることが困難ですが、観察された動きから捉えて学ぶことができるため、しばしば定量化する必要はありません。この観測可能な動きは多様な形であり、複雑な物理プロセスに基づいていますが、予測可能です。ろうそくは特定のパターンで揺らぎ、木々は揺れ動き、葉をなびかせます。彼らは、静止画像を見ることで、その画像に基づく自然な動きの分布やその時点で進行中だったかもしれない可能性のある動きを想像することができます。この予測可能性は、彼らの人間の現実のシーンへの知覚に根付いています。 図1: この手法がシーンのダイナミクスに先行する生成画像空間のモデリングをどのようにシミュレートするかが分かります。単一のRGB画像から始めて、モデルはフーリエ領域で密な長期的な動きの軌跡をシミュレートするニューラル確率モーションテクスチャを作成します。彼らは、このモーション先行情報が、単一の画像を滑らかにループするムービーに変換したり、インタラクティブなユーザーの刺激(オブジェクトの点をドラッグしてリリースするなど)に応じてオブジェクトのダイナミクスを模倣したりするためにどのように使用できるかを示しています。彼らは、ビデオの10秒間(入力画像に表示されるスキャンラインに沿った)の空間-時間X-tスライスを使用して、右側の出力フィルムを視覚化しています。 人間がこれらの潜在的な動きを容易に視覚化できるため、これをデジタル上で類似の分布をシミュレートすることは自然な研究課題です。最近の生成モデル、特に条件付き拡散モデルの進歩により、テキストに基づいた実際の画像の分布を含む非常に豊かで複雑な分布をシミュレートすることが可能になりました。この能力のおかげで、以前は実現不可能だったテキストに基づいたランダムで多様なリアルなビジュアル素材の生成など、多数の応用が実現可能になりました。これらの画像モデルの成功を受けて、ビデオや3Dジオメトリなど、さまざまなドメインのモデリングも同様に下流応用において有益であることが最近の研究で示されています。 この論文では、Google Researchの研究者が、単一の画像内の各ピクセルのモーション、または画像空間のシーンモーションとして知られるものの生成先行をモデリングしています。このモデルは、大量の実際のビデオシーケンスから自動的に取得されるモーション軌跡を使用してトレーニングされます。トレーニングされたモデルは、入力画像に基づいてニューラル確率モーションテクスチャを予測し、各ピクセルの将来の軌跡を記述するモーション基底係数の集合を生成します。彼らはフーリエ級数を基底関数として選択し、風で揺れる木や花など、振動するダイナミクスを持つ現実世界の風景に限定して分析します。彼らは、拡散モデルを使用してニューラル確率モーションテクスチャを予測し、1回の予測で1つの周波数の係数を生成し、これらの予測を周波数帯域全体で調整します。 図1に示されているように、生成された周波数空間のテクスチャは、画像ベースのレンダリング拡散モデルを使用して密な長距離ピクセルモーション軌跡に変換され、静止画像をリアルなアニメーションに変換します。モーションキャプチャに関する先行研究と比較して、動画合成を行う従来の技術とは異なり、彼らのモーション表現はより一貫性のある長期的な生成とより細かい制御を可能にします。さらに、彼らは生成されたモーション表現が、シームレスにループするビデオの作成、誘発されたモーションの編集、ユーザーが適用した力に対してオブジェクトがどのように反応するかをシミュレートするインタラクティブなダイナミックイメージなど、さまざまな下流応用に容易に使用できることを示しています。

AccelDataがBewgleを買収:AIデータパイプラインの可視化における重要な動き

AIデータパイプラインへの企業の透明性向上を目指す重要な動きとして、AccelDataはBewgleを買収することを発表しましたこの合併は、データの可観測性におけるAccelDataの技能とフィードバック分析のBewgleの専門知識を組み合わせたAI領域における戦略的な統合を表していますギャップの埋め合わせ 強化されたデータの可観測性 データはしばしば[…]

「あなたのAIが意識しているかどうかを判断する方法」

新しいレポートでは、科学者たちは機械の存在を示す可能性があるいくつかの測定可能な特性のリストを提供しています

このAIニュースレターは、あなたが必要とするすべてです#65

今週のAIでは、AI規制に関する進展がありましたエロン・マスクやマーク・ザッカーバーグなどのテックリーダーが60人以上の上院議員とAIについて話し合いましたが、彼らは皆同意しました-

「生成AIにおけるバイアスの軽減」

イントロダクション 現代の世界では、生成型AIは創造性の限界を押し広げており、機械が人間のようなコンテンツを作り出すことが可能になっています。しかし、この革新の中には課題も存在します – AIによる生成物のバイアスです。この記事では、「生成型AIにおけるバイアスの緩和」について詳しく探求します。文化的なバイアスからジェンダーに至るまで、さまざまな種類のバイアスについて理解し、それらが現実世界に与える影響を把握します。私たちの旅は、対抗訓練や多様なトレーニングデータなど、バイアスを検出および軽減するための高度な戦略を含みます。一緒に、生成型AIにおけるバイアス緩和の複雑さを解明し、より公正かつ信頼性のあるAIシステムを作り出す方法を見つけましょう。 出典 – Lexis 学習目標 生成型AIにおけるバイアスの理解: AIにおけるバイアスの意味と、生成型AIにおいてなぜそれが真剣な懸念事項なのかについて探求します。具体的な例を用いて、その影響を説明します。 倫理的および実践的な影響: AIのバイアスによる倫理的および現実世界の影響について、不平等な医療からAIシステムへの信頼の問題までを掘り下げます。 生成型AIにおけるバイアスの種類: 選択バイアスやグループ思考バイアスなどのさまざまなバイアスの形式について学び、それらがAIによって生成されるコンテンツにどのように現れるかを理解します。 バイアス緩和技術: 対抗訓練やデータ拡張などの高度な手法を使って、生成型AIにおけるバイアスに対抗する方法を発見します。 事例研究: IBMのProject DebaterやGoogleのBERTモデルなどの実際の事例を探索し、バイアス緩和技術が効果的に適用されている様子を見てみましょう。 課題と将来の方向性: 進化するバイアスの形式から倫理的ジレンマまで、バイアス緩和における現在の課題と将来への展望について理解します。 この記事はData Science Blogathonの一環として公開されました。…

「ドローンがニューヨークのビーチでサメの安全対策に取り組む」

ニューヨークのジョーンズビーチの安全当局は、人間とサメの潜在的な相互作用を監視するためにドローンを使用しています

「プロダクションでのあなたのLLMの最適化」

注意: このブログ投稿は、Transformersのドキュメンテーションページとしても利用可能です。 GPT3/4、Falcon、LLamaなどの大規模言語モデル(LLM)は、人間中心のタスクに取り組む能力を急速に向上させており、現代の知識ベース産業で不可欠なツールとして確立しています。しかし、これらのモデルを実世界のタスクに展開することは依然として課題が残っています: ほぼ人間のテキスト理解と生成能力を持つために、LLMは現在数十億のパラメータから構成される必要があります(Kaplanら、Weiら参照)。これにより、推論時のメモリ要件が増大します。 多くの実世界のタスクでは、LLMには豊富な文脈情報が必要です。これにより、推論中に非常に長い入力シーケンスを処理する能力が求められます。 これらの課題の核心は、特に広範な入力シーケンスを扱う場合に、LLMの計算およびメモリ能力を拡張することにあります。 このブログ投稿では、効率的なLLMの展開のために、現時点で最も効果的な技術について説明します: 低精度: 研究により、8ビットおよび4ビットの数値精度で動作することが、モデルのパフォーマンスに大幅な低下を伴わずに計算上の利点をもたらすことが示されています。 Flash Attention: Flash Attentionは、よりメモリ効率の高いアテンションアルゴリズムのバリエーションであり、最適化されたGPUメモリの利用により、高い効率を実現します。 アーキテクチャのイノベーション: LLMは常に同じ方法で展開されるため、つまり長い入力コンテキストを持つ自己回帰的なテキスト生成として、より効率的な推論を可能にする専用のモデルアーキテクチャが提案されています。モデルアーキテクチャの中で最も重要な進歩は、Alibi、Rotary embeddings、Multi-Query Attention(MQA)、Grouped-Query-Attention(GQA)です。 このノートブックでは、テンソルの視点から自己回帰的な生成の分析を提供し、低精度の採用の利点と欠点について包括的な探索を行い、最新のアテンションアルゴリズムの詳細な調査を行い、改良されたLLMアーキテクチャについて議論します。これを行う過程で、各機能の改善を示す実用的な例を実行します。 1. 低精度の活用 LLMのメモリ要件は、LLMを重み行列とベクトルのセット、およびテキスト入力をベクトルのシーケンスとして見ることで最も理解できます。以下では、重みの定義はすべてのモデルの重み行列とベクトルを意味するために使用されます。 この投稿の執筆時点では、LLMは少なくとも数十億のパラメータから構成されています。各パラメータは通常、float32、bfloat16、またはfloat16形式で保存される10進数の数値で構成されています。これにより、LLMをメモリにロードするためのメモリ要件を簡単に計算できます: X十億のパラメータを持つモデルの重みをロードするには、おおよそ4 *…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us