Learn more about Search Results EU - Page 10

「ゼロから始めるLoRAの実装」

「LoRA(ローラ)は、既存の言語モデルを微調整するための効率的で軽量な方法を提供する、Low-Rank AdaptationまたはLow-Rank Adaptorsの頭字語ですこれには、BERTのようなマスクされた言語モデルも含まれます...」

EAGLEをご紹介します:圧縮に基づく高速LLMデコードのための新しい機械学習手法

ChatGPTのような大規模言語モデル(LLM)は、さまざまな言語関連タスクでその手腕を発揮し、自然言語処理を革命化しました。しかし、これらのモデルは、各トークンの処理に完全な順方向のパスを必要とする自己回帰デコーディングプロセスに取り組んでいます。この計算のボトルネックは、パラメータセットが広範囲であるLLMにおいて特に顕著であり、リアルタイムアプリケーションの妨げとなり、制約のあるGPUの機能を持つユーザーに課題を与えます。 Vector Institute、ウォータールー大学、北京大学の研究者チームは、LLMデコーディングに固有の課題に対処するためにEAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency)を導入しました。MedusaやLookaheadなどの従来の方法とは異なり、EAGLEは、第2トップレイヤーの文脈特徴ベクトルの外挿に焦点を当てる独自のアプローチを取っています。前例のない効率的な次の特徴ベクトルの予測を目指すEAGLEは、テキスト生成を大幅に加速する画期的な成果を提供します。 EAGLEの方法論の中核には、FeatExtrapolatorと呼ばれる軽量プラグインの展開があります。このプラグインは、元のLLMの凍結された埋め込み層と連携してトレーニングされ、第2トップレイヤーの現在の特徴シーケンスに基づいて次の特徴を予測します。EAGLEの理論的な基盤は、時間の経過に伴う特徴ベクトルの圧縮性にあり、トークン生成の迅速化の道筋をつけます。EAGLEの優れたパフォーマンスメトリックには注目です。通常のデコーディングと比較して3倍の速度向上を誇り、Lookaheadの速度を2倍にし、Medusaと比較して1.6倍の加速を実現します。もっとも重要なのは、生成されたテキストの分布の保存を確保しつつ、通常のデコーディングとの一貫性を保つことです。 https://sites.google.com/view/eagle-llm EAGLEの能力は、その加速能力を超えます。標準的なGPUでのトレーニングとテストが可能であり、より広いユーザーベースにアクセスできるようになっています。さまざまな並列技術とのシームレスな統合は、効率的な言語モデルデコーディングのツールキットへの価値ある追加として、その応用性を高めます。 FeatExtrapolatorへの依存度を考慮すると、EAGLEの方法論は軽量ですがパワフルなツールであり、元のLLMの凍結された埋め込み層と協力しています。この協力によって、第2トップレイヤーの現在の特徴シーケンスに基づいて次の特徴を予測することができます。EAGLEの理論的な基盤は、時間の経過に伴う特徴ベクトルの圧縮性に根ざしており、より効率的なトークン生成プロセスを実現します。 https://sites.google.com/view/eagle-llm 従来のデコーディング方法では、各トークンに対して完全な順方向のパスが必要であるのに対し、EAGLEの特徴レベルの外挿はこの課題を克服する革新的な方法を提供します。研究チームの理論的な探求は、テキスト生成を大幅に加速するだけでなく、生成されたテキストの分布の品質と一貫性を維持するために重要な側面も保持しています。 https://sites.google.com/view/eagle-llm 結論として、EAGLEはLLMデコーディングの長年の非効率性に対処するための希望の光として浮かび上がっています。EAGLEの背後にある研究チームは、自己回帰生成の核心問題に巧妙に取り組み、テキスト生成を劇的に加速するだけでなく、配布の一貫性も保持する方法を導入しました。リアルタイム自然言語処理が高い需要を持つ時代において、EAGLEの革新的なアプローチは、先駆者としての地位を確立し、先端の能力と実際の現実世界の応用との間の溝を埋める役割を果たしています。

このAIペーパーは、写真リアルな人物モデリングと効率的なレンダリングのブレイクスルーであるHiFi4Gを明らかにします

4D(時空)人間パフォーマンスのボリューメトリックな記録とリアルな表現は、観客とパフォーマーの間の障壁を取り払います。それはテレプレゼンスやテレエデュケーションなど、没入型のVR / AR体験を提供します。一部の早期システムは、記録された映像からテクスチャモデルを再現するために明示的に非剛体登録を使用しています。しかし、それらは依然として遮蔽とテクスチャの不足に対して感受性があり、再構築の出力にはギャップとノイズが生じます。最近のNeRFを例に挙げる最新のニューラルブレイクスルーは、写真のようなリアルなボリュームレンダリングを実現するために、明示的な再構築ではなく、座標ベースのマルチレイヤパーセプトロン(MLP)を最適化します。 特定の動的なNeRFのバリエーションでは、追加の暗黙変形フィールドを使用して、すべてのライブフレームでの特徴の再現に対してカノニカルな特徴空間を保持しようとします。ただし、このようなカノニカルデザインは、重要なトポロジーの変化や大きな動きに対して敏感です。最近の手法では、平面分解やハッシュエンコーディングによって、3D特徴グリッドを簡潔に説明し、動作時のメモリとストレージの問題を解決しました。最近、静的なシーンを表すための明示的なパラダイムへ戻る3Dガウシアンスプラッティング(3DGS)があります。これにより、3DガウシアンプリミティブのGPUフレンドリーなラスタライゼーションに基づく、過去に実現できなかったリアルタイムかつ高品質な放射場レンダリングが可能です。いくつかの進行中のプロジェクトでは、3DGSを動的な設定に適応させるために変更されています。 一部は、動的なガウシアンの非剛体運動に注力し、その過程でレンダリングの品質を失います。他のものは、元の3DGSの明示的でGPUフレンドリーなエレガンスを失い、追加の暗黙の変形フィールドを使用して動きの情報を補完することができないため、長時間の動きを処理することができません。本研究では、ShanghaiTech大学、NeuDim、ByteDance、およびDGeneの研究チームが、高密度ビデオから高品質な4D人間パフォーマンスを再現するための完全に明示的かつコンパクトなガウシアンベースのHiFi4Gメソッドを紹介しています(図1を参照)。彼らの主なコンセプトは、非剛体トラッキングと3Dガウシアン表現を組み合わせて、運動と外観データを分離し、コンパクトで圧縮フレンドリーな表現を実現することです。HiFi4Gは、現在の暗黙のレンダリング技術の最適化速度、レンダリング品質、およびストレージオーバーヘッドに関して、顕著な改善を示します。 彼らの明示的な表現の助けを借りて、彼らの結果はGPUベースのラスタ化パイプラインに容易に統合することもできます。これにより、VRヘッドセットを身に着けたままバーチャルリアリティで高品質な人間パフォーマンスを目の当たりにすることができます。研究チームはまず、細かいガウシアンと粗い変形グラフからなるデュアルグラフ技術を提供し、ガウシアン表現と非剛体トラッキングを自然に結び付けます。前者では、研究チームはNeuS2を使用してフレームごとのジオメトリプロキシを作成し、埋め込み変形(ED)をキーフレームのように使用します。このような明示的なトラッキング手法により、シーケンスがパートに分割され、各セグメント内で豊富な運動が与えられます。キーボリュームの更新と同様に、研究チームは3DGSを使用して現在のセグメント内のガウシアンの数を制限し、以前のセグメントから誤ったガウシアンを除外し、新しいガウシアンを更新します。 次に、研究チームは細かいガウシアングラフを構築し、粗いEDネットワークから各ガウシアン運動を補完します。ガウシアングラフをEDグラフで単純に曲げてスクリーン空間に当てはめると、顕著な不自然な歪みが生じます。制限なしに継続的な最適化が行われることから、ぶれのアーティファクトも生じます。ガウシアン特性の更新と非剛体運動の先行に適切なバランスを取るために、研究チームは4Dガウシアン最適化アプローチを提案しています。研究チームは、各ガウシアンの外観特性(不透明度、スケーリング係数、球面調和)の一貫性を保証するために、時間の経過による正則化を採用しています。研究チームは、近隣のガウシアン間でローカルにできるだけ剛体に近い運動を生成するために、運動特性(位置と回転)のスムーズ化項を提案しています。 非剛体移動を示す領域におけるちらつきアーティファクトを罰するため、これらの正則化に適応的な加重メカニズムが追加されています。研究チームは最適化後に空間的に時間的にコンパクトな4Dガウス関数を生成します。研究チームは、ガウスパラメータのための従来の残差補正、量子化、エントロピー符号化に従う同梱の圧縮技術を提案し、HiFi4Gを消費者にとって有用なものとしています。圧縮率は約25倍で、各フレームに必要なストレージ容量は2MB未満です。これにより、VRヘッドセットを含むさまざまなデバイスで人間のパフォーマンスを没入感ある観察することが可能です。 要点をまとめると、彼らの主な貢献は以下の通りです: ・研究チームは、人間のパフォーマンスレンダリングのためのガウススプラットと非剛体トラッキングを結ぶコンパクトな4Dガウス表現を提案しました。 ・研究チームは、異なる正則化設計を使用して空間的に時間的に一貫性のある4Dガウス関数を効率的に復元するための二重グラフアプローチを提供します。 ・研究チームは、複数のプラットフォーム上で低ストレージな没入型人間パフォーマンス体験を実現するための補完的な圧縮アプローチを提供します。

費用効率の高いGPT NeoXおよびPythiaモデルの訓練における節約と正確性:AWS Trainiumの活用

大規模言語モデル(またはLLMs)は、日々の会話のトピックとなっていますその迅速な採用は、1億人のユーザーに到達するまでに必要な時間の量で明らかですこれが「Facebookでの4.5年」からわずかな「2ヶ月でのChatGPT」の史上最低になったことが証拠です生成型事前学習トランスフォーマー(GPT)は因果自己回帰の更新を使用します[...]

「ウェアラブルデータによるコロナ感染予測」

消費者用ウェアラブルデバイスと医療用ウェアラブルデバイスの収斂は近いのか?

「陪審団がGoogleのアプリストアが反競争的な法律を破ったと判断」

「画期的な判決で、エピックゲームズが検索大手に対する訴訟で勝利しました」

バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入

諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキストだけを使用するシステムに比べて大きな利点をもたらします。画像は主に、言語では部分的または不完全にしか説明できない、詳細で豊かな視覚情報を提供します。例えば、画像はテクスチャ、色、空間的な関係などの細かな特徴を明確かつ即座に表現することができますが、単語の説明では同じレベルの詳細を完全に表現するためには助けが必要であり、非常に長い説明が必要になる場合もあります。システムは実際の視覚的な手がかりを直接参照することができるため、書かれた説明を解釈するよりも、複雑さや主観性に幅広いばらつきがあることがありますが、このビジュアルの特異性はより正確で詳細な3Dモデルの生成に役立ちます。 さらに、視覚的な手段を利用することで、特に言葉で自分のビジョンを表現するのが難しい人々にとって、意図した結果をより簡単かつ直接的に説明することができます。この多重モダリティの方法は、テキストの文脈の深さと視覚データの豊かさを組み合わせることで、より信頼性のある、ユーザーフレンドリーで効果的な3D制作プロセスを提供する幅広い創造的および実用的なアプリケーションに役立ちます。しかし、3Dオブジェクトの開発の代替手段として写真を使用する際には、いくつかの困難が存在します。テキストとは異なり、画像には色、テクスチャ、空間的な関係など、多くの追加要素があり、これらは単一のエンコーダ(CLIPなど)を使用して正しく分析および理解するのが難しくなります。 さらに、オブジェクトの光、形状、自己遮蔽の大きな変化は、不完全またはぼやけた3Dモデルを提供する可能性がある視点合成において、より正確で一貫性のあるものにするために、高度な計算負荷の技術が必要です。画像処理の複雑さにより、視覚情報を効果的にデコードし、多くの視点で一貫した外観を保証するために、研究者はZero123などのさまざまな拡散モデル手法を使用して2Dアイテム画像を3Dモデルに変換してきました。画像のみのシステムの1つの欠点は、合成された視点は素晴らしいように見える一方で、再構築されたモデルは時々ジオメトリの正確さや緻密なテクスチャに関して補完が必要です、特にオブジェクトの背面の視点に関してです。この問題の主な原因は、生成または合成された視点間の大きな幾何学的な不一致です。 その結果、再構築時に非一致のピクセルが平均化され、ぼやけたテクスチャと丸みを帯びたジオメトリが生じます。要するに、画像条件付きの3D生成は、テキスト条件付きの生成に比べてより制限の多い最適化問題です。3Dデータの量が限られているため、正確な特徴を持つ3Dモデルを最適化することはより困難になります。最適化プロセスは訓練分布から逸脱しやすい傾向があります。例えば、訓練データセットには様々な馬のスタイルが含まれている場合、テキストの説明だけから馬を作成すると、詳細なモデルが生成される可能性があります。しかし、画像が特定の毛皮の特徴、形状、テクスチャを指定する場合、新しい視点のテクスチャ作成は教授された分布から容易に逸脱することがあります。 これらの問題に対処するために、ByteDanceの研究チームは本研究でImageDreamを提案します。研究チームは、現在のアーキテクチャに容易に組み込むことができる多階層画像プロンプトコントローラを提案します。具体的には、カノニカルカメラ座標に基づいて、生成された画像はオブジェクトの中央の正面ビューを描写しなければなりません(アイデンティティの回転とゼロの移動を使用します)。これにより、入力画像の差異を3次元への変換プロセスがよりシンプルになります。多階層コントローラによって情報伝達プロセスが合理化され、画像入力から各アーキテクチャブロックへの拡散モデルの導入が指示されます。 図1: たった1枚の写真で、画期的なフレームワークImageDreamはあらゆる角度から高品質な3Dモデルを作成します。以前のSoTAであるMagic123などに比べて、3Dジオメトリの品質を大幅に向上させています。さらに重要なのは、MVDreamと比較して、作成された画像プロンプトからのテキストの優れた画像対応を保持していることです。さまざまな技術を使用して作成されたアイテムの8つのビューが以下に示されており、ImageDreamによって生成されたモデルによって描かれた一致する法線マップが最後の行に表示されています。 MVDreamのような厳格にテキストに基づいたモデルと比較して、ImageDreamは図1に示すように、与えられた画像から正確なジオメトリを持つオブジェクトを生成することで優れています。これにより、ユーザーは画像とテキストの整列を改善するために、よく開発された画像生成モデルを使用することができます。ジオメトリとテクスチャの品質に関しては、ImageDreamは現在の最先端技術(SoTA)のゼロショット単一画像3Dモデル生成器であるMagic123を凌駕しています。ImageDreamは、実験部分での定量評価とユーザーテストを通じた定性的比較を含む、これまでのSoTAの技術を凌駕していることが示されています。

「このAIニュースレターは、あなたが必要とするすべてです #77」

今週のAIのニュースは、Google(ジェミニ)とミストラル(8x7B)による新しい大規模言語モデルのリリースが主でしたモデルの発表におけるアプローチは、プレスイベントとデモによるもので、非常に異なっていました...

「ハグフェース上のトップ10大きな言語モデル」

イントロダクション Hugging Faceは、自然言語処理の愛好家や開発者にとって宝庫となり、さまざまなアプリケーションに簡単に統合できる事前学習済み言語モデルの幅広いコレクションを提供しています。Large Language Models(LLM)の世界で、Hugging Faceは頼りになるプラットフォームとして際立っています。この記事では、Hugging Faceで利用可能なトップ10のLLMモデルを紹介し、言語理解と生成の進化する景色に貢献します。 さあ、始めましょう! Mistral-7B-v0.1 Mistral-7B-v0.1は、70億のパラメータを誇る大規模言語モデル(LLM)です。これは事前学習済みの生成テキストモデルとして設計されており、Llama 2 13Bが検証されたドメインで設定したベンチマークを上回ることで知られています。このモデルは、グループ化されたクエリアテンションやスライディングウィンドウアテンションなどの注意機構に特定の選択を行ったトランスフォーマーアーキテクチャに基づいています。Mistral-7B-v0.1は、Byte-fallback BPEトークナイザーも組み込んでいます。 ユースケースとアプリケーション テキスト生成:Mistral-7B-v0.1は、コンテンツ作成、創造的な文章作成、または自動ストーリーテリングなど、高品質のテキスト生成を必要とするアプリケーションに適しています。 自然言語理解:高度なトランスフォーマーアーキテクチャと注意機構を備えたこのモデルは、感情分析やテキスト分類などの自然言語理解を必要とするタスクに適用することができます。 言語翻訳:生成能力と大規模なパラメータサイズを考慮すると、このモデルはニュアンスのある文脈に即した正確な翻訳が重要な言語翻訳タスクで優れたパフォーマンスを発揮するかもしれません。 研究開発:研究者や開発者は、さまざまな自然言語処理プロジェクトでのさらなる実験や微調整のためにMistral-7B-v0.1をベースモデルとして活用することができます。 このLLMにはこちらでアクセスできます。 Starling-LM-11B-alpha この大規模言語モデル(LLM)は、110億のパラメータを持ち、NurtureAIから生まれました。このモデルは、その基盤としてOpenChat 3.5モデルを利用し、AIのフィードバックからの強化学習(RLAIF)によるfine-tuningを経ています。このアプローチでは、ヒトによってラベル付けされたランキングのデータセットを利用してトレーニングプロセスを誘導します。 ユースケースとアプリケーション Starling-LM-11B-alphaは、マシンとの対話方法を革新する潜在的な大規模言語モデルであり、オープンソースの性質、優れたパフォーマンス、多様な機能を備えており、研究者、開発者、クリエイティブプロフェッショナルにとって貴重なツールです。…

「ベクターデータベースは、生成型AIソリューションの未来をどのように形作るのか?」

紹介 生成AIの急速に進化する風景において、ベクトルデータベースの重要な役割がますます明らかになってきました。本記事ではベクトルデータベースと生成AIソリューションとのダイナミックな相乗効果について探求し、これらの技術的基盤が人工知能の創造性の将来を形作っているかを紐解きます。革新的なAIソリューションの最先端にもたらすベクトルデータベースの変革的な影響を解き放つため、この強力な連携の複雑さを旅してください。 学習目標 この記事では以下のベクトルデータベースの側面を理解するのに役立ちます。 ベクトルデータベースの重要性とその主要な構成要素 従来のデータベースとのベクトルデータベースの詳細比較 応用の観点からのベクトル埋め込みの探求 Pineconeを使用したベクトルデータベースの構築 langchain LLMモデルを使用したPineconeベクトルデータベースの実装 この記事はData Science Blogathonの一部として公開されました。 ベクトルデータベースとは何ですか? ベクトルデータベースとは、空間に格納されたデータの集合の形式です。しかし、ここでは数学的な表現で格納されているため、AIモデルが入力を覚えるのに便利であり、オープンAIアプリケーションが認知検索、推奨、テキスト生成を使用してさまざまなユースケースで活用できるようになっています。データの格納と検索は「ベクトル埋め込み」と呼ばれます。また、これは数値配列形式で表されます。トラディショナルなデータベースと比べて、非常に大規模でインデックス化された機能を持つAIの観点での検索ははるかに容易です。 ベクトルデータベースの特徴 これらのベクトル埋め込みのパワーを活用し、巨大なデータセット全体でのインデックス作成と検索を実現します。 あらゆるデータ形式(画像、テキスト、データ)と互換性があります。 埋め込み技術と高度なインデックス化された機能を採用しているため、与えられた問題のデータと入力の完全なソリューションを提供できます。 ベクトルデータベースは、数百の次元を含む高次元ベクトルを通じてデータを整理します。これらは非常に迅速に構成できます。 各次元は、それが表しているデータオブジェクトの特定の特徴または属性に対応しています。 従来のデータベースとベクトルデータベースの比較 図は従来のデータベースとベクトルデータベースのハイレベルなワークフローを示しています。 フォーマルなデータベースのやり取りはSQLステートメントを通じて行われ、データは行ベースおよび表形式で格納されます。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us