Learn more about Search Results 15 - Page 13

アリゾナ州立大学のこのAI研究は、テキストから画像への非拡散先行法を改善するための画期的な対照的学習戦略「ECLIPSE」を明らかにした

拡散モデルは、テキストの提案を受け取ると、高品質な写真を生成するのに非常に成功しています。このテキストから画像へのパラダイム(T2I)の生成は、深度駆動の画像生成や主題/セグメンテーション識別など、さまざまな下流アプリケーションで成功裏に使用されています。2つの人気のあるテキスト条件付き拡散モデル、CLIPモデルと潜在的な拡散モデル(LDM)のような、しばしば安定拡散と呼ばれるモデルは、これらの進展に不可欠です。LDMは、オープンソースソフトウェアとして自由に利用可能なことで研究界で知られています。一方、unCLIPモデルにはあまり注目が集まっていません。両モデルの基本的な目標は、テキストの手がかりに応じて拡散モデルをトレーニングすることです。 テキストから画像への優位性と拡散画像デコーダを持つunCLIPモデルとは異なり、LDMには単一のテキストから画像への拡散モデルがあります。両モデルファミリーは、画像のベクトル量子化潜在空間内で動作します。unCLIPモデルは、T2I-CompBenchやHRS-Benchmarkなどのいくつかの構成ベンチマークで他のSOTAモデルを上回ることが多いため、この記事ではそれに集中します。これらのT2Iモデルは通常多くのパラメータを持つため、トレーニングには優れた画像とテキストのペアリングが必要です。LDMと比較すると、DALL-E-2、Karlo、KandinskyなどのunCLIPモデルは、約10億のパラメータを持つ前のモジュールがあるため、合計モデルサイズが大幅に大きくなります(≥ 2B)。 そのため、これらのunCLIPモデルのトレーニングデータは250M、115M、177Mの画像テキストのペアリングです。したがって、2つの重要な質問が残ります:1)テキスト構成のSOTAパフォーマンスは、テキストから画像への先行モデルを使用することで改善されるのでしょうか?2)それともモデルのサイズを増やすことが重要な要素なのでしょうか?パラメータとデータの効率性を向上させることで、研究チームはT2I先行モデルについての知識を向上させ、現在の形式に比べて重要な改善を提供することを目指しています。T2I先行モデルは、拡散プロセスの各タイムステップでノイズのない画像埋め込みを直接推定するための拡散モデルでもあり、これは以前の研究が示唆しているようです。研究チームは、この前期の普及プロセスを調査しました。 図1は、SOTAテキストから画像へのモデル間の3つの構成タスク(色、形、テクスチャ)の平均パフォーマンスとパラメータの総数を比較しています。ECLIPSEは少量のトレーニングデータしか必要とせず、少ないパラメータでより優れた結果を出します。提示されたECLIPSEは、Kandinskyデコーダを使用して、わずか5百万の画像テキストペアリングのみを利用して約3300万のパラメータでT2I先行モデルをトレーニングします。 研究チームは、拡散プロセスがわずかにパフォーマンスを低下させ、正しい画像の生成には影響を与えないことを発見しました。さらに、拡散モデルは収束が遅いため、トレーニングには大量のGPU時間または日数が必要です。そのため、非拡散モデルはこの研究では代替手段として機能します。分類子のガイダンスがないため、この手法は構成の可能性を制限するかもしれませんが、パラメータの効率性を大幅に向上させ、データの依存性を軽減します。 本研究では、Arizona State Universityの研究チームは、上記の制約を克服し、T2Iの非拡散先行モデルを強化するためのユニークな対照的学習技術であるECLIPSEを紹介しています。研究チームは、提供されたテキスト埋め込みから画像埋め込みを生成する従来のアプローチを最適化することにより、Evidence Lower Bound(ELBO)を最大化しました。研究チームは、事前学習されたビジョン言語モデルの意味的整合性(テキストと画像の間)機能を使用して、以前のトレーニングを監視しました。研究チームは、ECLIPSEを使用して、画像テキストのペアリングのわずかな断片(0.34%〜8.69%)を使用して、コンパクトな(97%小さい)非拡散先行モデル(3300万のパラメータを持つ)をトレーニングしました。研究チームは、ECLIPSEトレーニングされた先行モデルをunCLIP拡散画像デコーダバリエーション(KarloとKandinsky)に導入しました。ECLIPSEトレーニングされた先行モデルは、10億のパラメータを持つバージョンを上回り、ベースラインの先行学習アルゴリズムを上回ります。研究結果は、パラメータやデータを必要とせずに構成を改善するT2I生成モデルへの可能な道を示唆しています。 図1に示すように、彼らの総合パラメータとデータの必要性は大幅に減少し、T2Iの増加により類似のパラメータモデルに対してSOTAのパフォーマンスを達成します。貢献。1)unCLIPフレームワークでは、研究チームがテキストから画像への事前の対照的な学習に初めてECLIPSEを提供しています。 2)研究チームは包括的な実験を通じて、資源制約のある文脈でのECLIPSEの基準事前に対する優位性を証明しました。 3)注目すべきは、ECLIPSE事前のパフォーマンスを大きなモデルと同等にするために、トレーニングデータのわずか2.8%とモデルパラメータのわずか3.3%しか必要としないことです。 4)また、研究チームは現在のT2I拡散事前の欠点を検討し、経験的な観察結果を提供しています。

『GPT-4を使用したパーソナライズされたAIトレーディングコンサルタントの構築』

はじめに 近年、人工知能(AI)を株式取引に統合することで、投資家の意思決定に革命が起きています。GPT-3やGPT-4などの大規模言語モデル(LLMs)の登場により、複雑な市場分析や洞察が個々の投資家やトレーダーによりアクセスしやすくなりました。この革新的なテクノロジーは、膨大なデータと高度なアルゴリズムを活用して、かつて機関投資家の専売特許であった市場の理解を提供するものです。この記事では、リスク許容度、投資期間、予算、および期待利益に基づいた個別の投資プロファイルに合わせた、パーソナライズされたAI取引コンサルタントの開発に焦点を当てており、個人投資家に戦略的な投資アドバイスを提供することで彼らを強化しています。 GPT-3やGPT-4といった大規模言語モデル(LLMs)によって動かされる株式取引コンサルタントは、金融アドバイザリーサービスに革命をもたらしました。これらのコンサルタントは、AIを活用して過去の株式データや最新の金融ニュースを分析し、投資家の独自のポートフォリオと金融目標に合ったパーソナライズされた投資アドバイスを提供できます。本記事では、市場の動向やトレンドを予測するためのコンサルタントの構築に挑戦し、個別のリスク許容度、投資期間、投資可能な資金、および期待利益に基づいたカスタマイズされた推奨事項を提供します。 学習目標 本記事の終わりまでに、読者は以下のことができるようになります: AIやGPT-3などのLLMsが株式市場分析や取引をどのように変革するかについて洞察を得る。 AI主導のツールが個別のリスクプロファイルと投資目標に基づいたパーソナライズされた投資アドバイスを提供する能力を認識する。 AIが過去とリアルタイムのデータを活用して投資戦略と予測を立案する方法を学ぶ。 AIを用いた株式取引が、小売投資家を含むより広範なユーザーに洗練された投資戦略を提供する方法を理解する。 パーソナル投資や株式取引での情報を活用した意思決定のためにAI主導のツールを活用する方法を発見する。 LLMsを活用した株式取引コンサルタントのコンセプト この記事はData Science Blogathonの一部として公開されました。 データセットについて このプロジェクトのためのデータセットは、ニューヨーク証券取引所からのものであり、Kaggleで利用可能です。このデータセットには、7年間にわたる4つのCSVファイルが含まれています。重要な財務尺度を提供する「fundamentals.csv」、株式分割に関する過去の株価と調整を提供する「prices.csv」と「prices-split-adjusted.csv」、セクター分類や本社などの追加の企業情報を提供する「securities.csv」が含まれています。これらのファイルは、企業のパフォーマンスと株式市場の動向を包括的に把握するためのものです。 データの準備 GPT-4のような大規模言語モデル(LLMs)を使用した株式取引コンサルタントの実装は、重要なデータの準備から始まります。このプロセスには、データのクリーニング、正規化、カテゴリ化といった重要なタスクが含まれ、提供されたデータセット「fundamentals.csv」「prices.csv」「prices-split-adjusted.csv」「securities.csv」を使用します。 ステップ1:データのクリーニング 「Fundamental Dataset」では、「For Year」「Earnings Per Share」「Estimated…

「Phi-2解放:コンパクトで輝かしい言語モデル」

最近、Microsoft ResearchのMachine Learning Foundationsチームは、彼らの小さな言語モデル(SLM)のスイートの最新バージョンであるPhi-2を発表しました。パラメーター数が27億に上るPhi-2は、驚くほどコンパクトなフレームワーク内で非凡な推論力と言語理解能力を発揮し、期待を裏切るものです。 Phi-2謎解き Phi-2の登場は、その前身であるPhi-1とPhi-1.5の成功に続くものです。研究チームは、言語モデルのスケーリングにおけるユニークなアプローチを開拓し、サイズだけがすべてではないことを示しました。トレーニングデータの品質と革新的なスケーリング技術に焦点を当てることで、Phi-2は自身よりも25倍も大きいモデルに劣らず、さらに優れたパフォーマンスを発揮します。 品質が数量を凌駕する Phi-2の成功の要点は、チームがトレーニングデータの品質に重点を置いていることにあります。以前の研究「テキストブックが必要なすべて」に続いて、研究者たちは合成データセットと厳選されたウェブデータを組み合わせてモデルに常識的な推論と一般的な知識を植え付けることを目指しました。この緻密なデータキュレーションのアプローチが、Phi-2の優れたパフォーマンスへの道を開きました。 革新的なスケーリング技術 研究チームは、Phi-1.5モデルの知識をPhi-2に埋め込むという新たな知識転送アプローチを採用しました。これにより、トレーニングの収束が加速されるだけでなく、Phi-2のベンチマークスコアにおいて明確な性能向上が示されました。この革新的なスケーリング技術によって、Phi-2は他と一線を画し、戦略的なモデル開発の力を示しています。 Phi-2のトレーニングの歩み Phi-2は、次の単語予測目標を持つTransformerベースのモデルであり、合成データセットとウェブデータから合計14兆トークンに対してトレーニングを行いました。驚くべきことに、96台のA100 GPUでわずか14日間のトレーニングを実施し、効率性と効果性を示しました。Phi-2は、人間のフィードバックからの強化学習や命令による微調整を行っていないにもかかわらず、有害性や偏見に関して優れた振る舞いを示しています。 Phi-2の評価での勝利 Phi-2の優れた性能は、ミストラルやラマ2などのより大きなモデルを凌駕し、コーディングや数学などのマルチステップの推論タスクで卓越した成績を収めています。驚くべきことに、最近発表されたGoogleのジェミニナノ2を上回り、そのサイズの小ささにもかかわらず優れた性能を発揮します。研究者たちはモデルの評価における課題を認識していますが、Phi-2が一貫して自らの能力を証明できる具体的な使用例でのテストの重要性を強調しています。 私たちの考え Phi-2の優れたパフォーマンスは、大きなモデルが常に良い結果を意味するという常識に挑戦しています。そのコンパクトなサイズは、研究や開発の新たな可能性を開き、機械的解釈可能性、安全性の向上、およびさまざまなタスクにおける微調整実験を探求するための理想的なプレイグラウンドとなります。Microsoft Researchは、自然言語処理の未来を新たな情熱で探求するために、Phi-2を活用して限界を押し広げる姿勢を示しています。 Phi-2は、人工知能と言語理解の領域において、小さな言語モデルに宿る驚くべき力を証明し、効率性と効果性の新たな時代を切り開いています。

ジェンAIに関するトップ10の研究論文

イントロダクション 自然言語理解の常に進化する風景の中で、研究者たちは革新的なアプローチを通じて可能性の限界を em>押し上げることを続けています。本記事では、生成AI(GenAI)に関する画期的な研究論文のコレクションについて探求していきます。これらの研究は、人間の好みとの一致度向上からテキストの説明から3Dコンテンツを生成するという様々な側面にわたって言語モデルを探究しています。これらの研究は学術的な論議に貢献すると同時に、自然言語処理の未来を形作る可能性のある実践的な洞察を提供しています。これらの啓発的な調査を通じて旅を始めましょう。 GenAIに関するトップ10の研究論文 GenAIに関する数百の研究論文の中から、以下は私たちのトップ10の選り抜きです。 1. 生成プリトレーニングによる言語理解の向上 この研究論文は、非教示型のプリトレーニングと教示型のファインチューニングを組み合わせて自然言語理解タスクを強化するための半教師付きアプローチを探求しています。この研究では、Transformerアーキテクチャに基づいたタスクに依存しないモデルを利用しています。これにより、多様な未ラベルのテキストでの生成プリトレーニングとその後の識別的ファインチューニングによって、さまざまな言語理解ベンチマークでのパフォーマンスが大幅に向上することが明らかになりました。 このモデルは、常識的な推論において8.9%、質問応答において5.7%、テキスト言い換えにおいて1.5%といった注目すべき改善を達成しました。この研究は、大規模な未ラベルのコーパスをプリトレーニングに活用し、ファインチューニング中のタスクに意識した入力変換を行うことが、教師なし学習を自然言語処理や他の領域で進めるための貴重な洞察を提供しています。 論文はこちらで入手できます:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf 2. 人間フィードバックを用いた強化学習:悲観主義を通じたダイナミックな選択の学習 この生成AIに関する研究論文は、オフラインでの人間フィードバックによる強化学習(RLHF)の難しい領域に深入りしています。この研究は、人間の選択に影響を受けたトラジェクトリの集合から、マルコフ決定過程(MDP)における人間の基盤と最適方策を把握することを目指しています。この研究は、経済計量学に根ざしたダイナミックディスクリートチョイス(DDC)モデルに焦点を当て、有界合理性を持った人間の意思決定をモデル化します。 提案されたDynamic-Choice-Pessimistic-Policy-Optimization(DCPPO)メソッドは、次の3つのステージで構成されています。それらは、人間の行動方針と価値関数の推定、人間の報酬関数の再現、および事実に近い最適方策のための悲観的価値反復の呼び出しです。この論文は、動的なディスクリートチョイスモデルによるオフポリシーオフラインRLHFについての理論的な保証を提供しています。分布のシフトや次元のサブオプティマリティの課題への対処についての洞察も提供しています。 論文はこちらで入手できます:https://arxiv.org/abs/2305.18438 3. ニューラル確率言語モデル この研究論文は、次元の呪いによって生じる統計的言語モデリングの課題に取り組み、未見の単語の連続列に対して一般化する難しさに焦点を当てています。提案された解決策は、単語の分散表現を学習することで、各トレーニング文がモデルに対して意味的に隣接する文について情報を提供することを可能にします。単語の表現と単語列の確率関数を同時に学習することで、モデルは一般化性能を向上させることができます。 ニューラルネットワークを用いた実験結果は、最先端のn-gramモデルに比べて大幅な改善を示しており、長い文脈を活用するアプローチの効果を示しています。論文は、学習された分散表現によって次元の課題に対処するモデルの能力を強調しながら、潜在的な将来の改善の可能性についても言及しています。 論文はこちらで入手できます:https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf 4. BERT:言語理解のための深層双方向トランスフォーマーの事前学習 GenAIの研究論文では、未ラベル化されたテキストに対して双方向の事前学習を行うために設計された画期的な言語表現モデルであるBERTが紹介されています。従来のモデルとは異なり、BERTはすべてのレイヤーで左右の文脈に依存し、タスク固有の修正を最小限に抑えながら微調整を可能にします。BERTはさまざまな自然言語処理タスクで最先端の結果を実現し、その簡潔さと実証的なパワーを示しています。 この論文では既存の技術の制約に対処し、言語表現のための双方向の事前学習の重要性を強調しています。BERTのマスクされた言語モデル目的は、深い双方向のTransformer事前学習を促進し、タスク固有のアーキテクチャへの依存を減らし、11のNLPタスクの最先端の技術を前進させています。…

「30+ AI ツールスタートアップのための(2023年12月)」

AIによって、職場での創造力、分析力、意思決定力が革新されています。現在、人工知能の能力は、企業が成長を促進し、内部プロセスをより良く制御するための絶大な機会を提供しています。人工知能の応用は広範で、自動化や予測分析からパーソナライゼーションやコンテンツ開発までさまざまです。以下は、若い企業が成長を加速させるために最適な人工知能ツールの概要です。 Pecan AI Pecan AIは、予測分析を自動化して、現代のビジネス課題(予算の縮小、コストの上昇、データサイエンスとAIリソースの制約)を解決します。Pecanの低コード予測モデリングプラットフォームは、データ駆動の意思決定を導き、ビジネスチームが目標を達成するのに役立つAI駆動の予測分析を提供します。 直感的な低コードインターフェースで、分析者は数週間で正確なモデルを設定できます。このプラットフォームでは、顧客離脱、コンバージョン、LTV、アップセル/クロスセル予測、需要予測、マーケティングミックスモデリングなど、予測モデルの容易な実装が可能です。データの準備、特徴量エンジニアリング、モデル構築、展開、モデルの監視などを自動化します。 Pecanは汎用のプラットフォームとは異なり、特定のビジネスの関心事に合わせた実行可能な予測を提供します。個別レベルの予測は詳細な洞察を提供し、一般的なBIインターフェースやビジネスシステムと統合することができます。pecan.aiで詳細をご覧いただき、無料トライアルやガイドツアーにサインアップしてください。 Hostinger AIウェブサイトビルダー Hostingerは、スタートアップオーナーを含む、ウェブサイトを作成したいすべての人に最適なAIウェブサイトビルダーを提供しています。使いやすいインターフェースで、初心者からエキスパートまで、AIを利用して独自のオンラインプラットフォームを作成できます。このビルダーにはSEOツールやeコマース機能も付属しており、ウェブサイトをさらに最適化することができます。 AdCreative.ai AdCreative.aiを使用して、広告とソーシャルメディアの戦略を強化しましょう。この究極の人工知能ソリューションを利用することで、数秒で高変換率の広告やソーシャルメディアの投稿を生成できます。AdCreative.aiで成功を最大化し、努力を最小限に抑えましょう。 SaneBox SaneBoxの強力なAIによって、メールの整理が自動化され、その他のスマートツールによって、メールの習慣が想像以上に効率的になります。今日からSaneBoxで混乱を秩序に変えましょう。 DALL·E 2 OpenAIのDALL·E 2は、単一のテキスト入力からユニークで創造的なビジュアルを生成する最先端のAIアートジェネレーターです。AIモデルは、画像とテキストの説明の大規模なデータセットでトレーニングされており、テキストに応じて詳細でビジュアルに魅力的な画像を生成します。スタートアップは、このテキストから異なる画像を生成する手法により、広告やウェブサイト、ソーシャルメディアページでグラフィックを手動で入手する必要がなく、時間とお金を節約することができます。 Otter AI 人工知能を使用することで、Otter.AIはリアルタイムの会議のメモの音声テキスト変換を提供し、共有可能、検索可能、アクセス可能、安全なものにします。会議の音声を録音し、メモを書き、スライドを自動的にキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Notion Notionは、先進のAI技術を活用してユーザーベースを拡大しようとしています。最新の機能であるNotion AIは、ノートの要約、ミーティングのアクションアイテムの特定、テキストの作成と修正など、ユーザーをサポートする高パフォーマンスな生成AIツールです。Notion…

「40歳以上の方におすすめのクールなAIツール(2023年12月版)」

DeepSwap DeepSwapは、説得力のあるディープフェイクの動画や画像を作成したい人向けのAIベースのツールです。動画、写真、ミーム、古い映画、GIFなど、様々なコンテンツをリフェイスして簡単にコンテンツを作成することができます。このアプリにはコンテンツの制限がないため、ユーザーはどんなコンテンツのアップロードも行うことができます。また、初めて製品の定期購読ユーザーとなると、50%オフの特典を受けることができます。 Aragon Aragonを使用して、驚くべきプロフェッショナルなヘッドショットを手軽に撮影しましょう。最新のAI技術を活用して、自分自身の高品質なヘッドショットを瞬時に作成しましょう!写真スタジオの予約やドレスアップの手間を省いてください。写真の編集と修正が迅速に行われ、数日後ではなくすぐに受け取ることができます。次の仕事に就く際に優位性を持つ40枚のHD写真を受け取りましょう。 AdCreative.ai AdCreative.aiは、究極の人工知能ソリューションで広告とソーシャルメディアの効果を高めます。創造的な作業に費やす時間を減らし、数秒で生み出される高変換率の広告とソーシャルメディアの投稿に挨拶を告げましょう。AdCreative.aiを使って、成功を最大限に引き出し、努力を最小限に抑えましょう。 Hostinger AIウェブサイトビルダー Hostingerは、先進の人工知能エンジンの力を借りて、すべてのウェブサイトオーナーのための最高のAIウェブサイトビルダーを作成しています。このビルダーは、デザインプロセスをガイドし、レイアウト、カラースキーム、コンテンツ配置を提案し、ニーズに合わせてカスタマイズする自由を提供します。さまざまなデバイスに対応したレスポンシブデザインを維持しながら、細部のカスタマイズに取り組みましょう。 Otter AI Otter.AIは、人工知能を利用して、共有可能で検索可能でアクセス可能で安全なリアルタイムの会議の記録を提供します。音声を録音し、メモを書き、スライドを自動的にキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Notion Notionは、先進のAI技術を活用してユーザーベースを拡大しようとしています。最新の機能であるNotion AIは、ノートの要約、会議でのアクションアイテムの特定、テキストの作成と変更など、タスクをサポートする堅牢な生成AIツールです。Notion AIは、煩雑なタスクを自動化し、ユーザーに提案やテンプレートを提供することで、ワークフローを効率化し、ユーザーエクスペリエンスを簡素化・向上させます。 Codium AI 忙しい開発者向けの有意義なテストを生成します。CodiumAIを使用すると、IDE内で提案される非自明なテスト(そして自明なテストも!)を手に入れることができます。賢くコーディングし、価値をより多く創出し、プッシュする際に自信を持ちましょう。CodiumAIにより、開発者はテストとコードの分析に費やす時間を節約しながら、より迅速にイノベーションを実現します。あなたが意図した通りにコードを書きましょう。 Docktopus AI Docktopusは、100以上のカスタマイズ可能なテンプレートを備えたAIパワープレゼンテーションツールで、オンラインコンテンツの作成を簡素化します。数秒でプロのプレゼンテーションを作成できるようになりましょう。 SaneBox AIは未来ですが、SaneBoxでは12年以上にわたりAIを活用したメールの運営に成功し、平均ユーザーは週に3時間以上の受信トレイの管理時間を節約しています。…

トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランスフォーマーに代わる選択肢を提供することで、計算効率とパフォーマンスを向上させることで、このフィールドを革新しました。 このリリースには、ベースモデルのStripedHyena-Hessian-7B(SH 7B)とチャットモデルのStripedHyena-Nous-7B(SH-N 7B)が含まれています。StripedHyenaは、昨年作成されたH3、Hyena、HyenaDNA、およびMonarch Mixerといった効果的なシーケンスモデリングアーキテクチャの学習からの重要な知見に基づいています。 研究者は、このモデルが長いシーケンスをトレーニング、ファインチューニング、および生成する際に、高速かつメモリ効率が向上していることを強調しています。StripedHyenaは、ゲート付き畳み込みとアテンションを組み合わせたハイエナオペレータと呼ばれるものによって、ハイブリッド技術を使用しています。また、このモデルは、強力なトランスフォーマーベースモデルと競合する初めての代替アーキテクチャです。OpenLLMリーダーボードのタスクを含むショートコンテキストのタスクでは、StripedHyenaはLlama-2 7B、Yi 7B、およびRWKV 14Bなどの最強のトランスフォーマーの代替アーキテクチャを上回っています。 このモデルは、ショートコンテキストのタスクと長いプロンプトの処理において、さまざまなベンチマークで評価されました。Project Gutenbergの書籍によるPerplexityスケーリング実験では、Perplexityが32kで飽和するか、このポイントを超えて減少することから、モデルがより長いプロンプトから情報を吸収する能力を示しています。 StripedHyenaは、アテンションとゲート付き畳み込みを組み合わせたユニークなハイブリッド構造によって効率を実現しています。研究者は、このハイブリッドデザインを最適化するために革新的な接ぎ木技術を使用したと述べており、トレーニング中にアーキテクチャの変更を可能にしました。 研究者は、StripedHyenaの重要な利点の1つは、トレーニング、ファインチューニング、および長いシーケンスの生成など、さまざまなタスクにおける高速性とメモリ効率の向上です。最適化されたTransformerベースラインモデルと比較して、StripedHyenaはFlashAttention v2とカスタムカーネルを使用して、32k、64k、および128kの行でエンドツーエンドトレーニングにおいて30%、50%、および100%以上優れています。 将来、研究者はStripedHyenaモデルでいくつかの領域で大きな進歩を遂げたいと考えています。彼らは、長いコンテキストを処理できるより大きなモデルを作成し、情報理解の限界を拡大したいと考えています。さらに、テキストや画像などのさまざまなソースからデータを処理して理解できるようにすることで、モデルの適応性を高めるためのマルチモーダルサポートを取り入れたいとしています。 最後に、StripedHyenaモデルは、ゲート付き畳み込みなどの追加計算を導入することによって、Transformerモデルに対して改善の余地を持っています。このアプローチは、線形アテンションに触発されたものであり、H3やMultiHyenaなどのアーキテクチャにおいて効果が証明されており、トレーニング中のモデルの品質を向上させ、推論効率に利点を提供します。

「このAI研究は、グラフ上の大規模言語モデル(LLM)について包括的な概要を共有します」

よく知られたLarge Language Models(LLMs)であるGPTやBERT、PaLM、LLaMAは、自然言語処理(NLP)と自然言語生成(NLG)においていくつかの大変な進歩をもたらしました。これらのモデルは大規模なテキストコーパスで事前学習され、質問応答やコンテンツ生成、要約など、複数のタスクで驚異的なパフォーマンスを発揮しています。 LLMsは平文のテキストを扱うことができることが証明されていますが、テキストデータがグラフ形式の構造情報とリンクされたアプリケーションを扱う必要性がますます高まっています。研究者たちは、LLMsの良好なテキストベースの推論力を活用して、マッチングサブグラフ、最短パス、接続推論などの基本的なグラフの推論タスクにLLMsをどのように適用できるかを研究しています。LLMsの統合に関連付けられているグラフベースのアプリケーションには、純粋なグラフ、テキスト豊かなグラフ、テキスト対応グラフの3つのタイプがあります。これらの機能とGNNとの相互作用に応じて、LLMsをタスク予測器、GNNの特徴エンコーダー、またはGNNとのアライナーとして扱うテクニックがあります。 LLMsはグラフベースのアプリケーションでますます人気が高まっていますが、LLMsとグラフの相互作用を調査する研究は非常に少ないです。最近の研究では、研究チームが大規模な言語モデルとグラフの統合に関連した状況と方法の体系的な概要を提案しています。目的は、テキスト豊かなグラフ、テキスト対応グラフ、純粋なグラフの3つの主要なカテゴリに可能な状況を整理することです。チームは、アライナー、エンコーダー、または予測器としてLLMsを使用する具体的な方法を共有しています。各戦略には利点と欠点があり、リリースされた研究の目的はこれらのさまざまなアプローチを対比することです。 チームは、LLMsをグラフ関連の活動で使用する利点を示すことで、これらの技術の実用的な応用に重点を置いています。チームは、これらの方法の適用と評価を支援するためのベンチマークデータセットとオープンソーススクリプトに関する情報を共有しています。結果は、この急速に発展している分野でのさらなる研究と創造性の必要性を強調して、可能な将来の研究トピックを概説しています。 チームは、彼らの主な貢献を以下のようにまとめています。 チームは、言語モデルがグラフで使用される状況を体系的に分類することで貢献を果たしました。これらのシナリオは、テキスト豊かな、テキスト対応、純粋なグラフの3つのカテゴリに整理されています。この分類法は、さまざまな設定を理解するための枠組みを提供します。 言語モデルは、グラフのアプローチを用いて詳細に分析されました。評価は、さまざまなグラフ状況の代表的なモデルをまとめたもので、最も徹底的なものとなっています。 言語モデルをグラフに関連する研究に関連して、実世界の応用、オープンソースのコードベース、ベンチマークデータセットなど、多くの資料がキュレーションされています。 言語モデルをグラフでのさらなる研究のための6つの可能な方向が提案されており、基本的なアイデアを掘り下げています。

「RAGAsを使用したRAGアプリケーションの評価」

「PythonにおいてRAGAsフレームワークを使って、検索および生成コンポーネントを個別に評価するための検索強化生成(RAG)システムの評価」

AI論文は、高度なテクスチャリング、360度モデリング、インタラクティブ編集による3Dコンテンツ作成の進歩であるHyperDreamerを発表します

単一のRGBイメージから詳細でリアルな3Dモデルを生成することは容易ではありません。上海AI研究所、香港中文大学、上海交通大学、S-Lab NTUの研究者は、この課題に対処するためにHyperDreamerを提案しました。このフレームワークは、単一の2Dイメージから直接表示、レンダリング、編集可能な3Dコンテンツの作成を可能にすることで、この問題を解決します。 この研究では、テキストによる3D生成方法の変遷する景色について議論し、Dream Fields、DreamFusion、Magic3D、Fantasia3Dなどの注目すべき作品を引用しています。これらの手法は、CLIP、拡散モデル、空間的に変化するBRDFなどの技術を活用しています。また、テキストからイメージへの拡散モデルを利用した推論ベースと最適化ベースの形式を含む、単一画像再構築手法も強調しています。 この研究は、高度な3Dコンテンツ生成の需要の増大と従来の手法の制約を強調しています。テキストや単一画像条件を組み込んだ最近の2D拡散ベースの手法は、現実感を高めましたが、生成後の利用性やバイアスに課題を抱えています。これらを克服するために、HyperDreamerは単一のRGBイメージから包括的で表示可能、レンダリング可能、編集可能な3Dコンテンツの生成を可能にするフレームワークです。HyperDreamerは、カスタムの超解像モジュール、意味に敏感なアルベド正則化、対話型編集を組み合わせて、現実感、レンダリング品質、生成後の編集機能に関連する問題に対処します。 HyperDreamerフレームワークは、2D拡散、意味のあるセグメンテーション、および材料の推定モデルからのディーププライオールに基づいて、包括的な3Dコンテンツの生成と編集を実現します。高解像度の擬似マルチビューイメージを補助的な監視に使用し、高品質なテクスチャ生成を確保します。材料モデリングには、オンラインの3Dセマンティックセグメンテーションとセマンティックに敏感な正則化が含まれており、材料の推定結果に基づいて初期化されます。HyperDreamerは、対話型セグメンテーションを介した容易なターゲット3Dメッシュの変更のための対話型編集アプローチを導入します。フレームワークにはカスタムの超解像および意味に敏感なアルベドの正則化も組み込まれており、現実感、レンダリング品質、編集機能が向上しています。 HyperDreamerは、単一のRGBイメージからリアルで高品質な3Dコンテンツを生成し、完全な範囲の表示、レンダリング、編集可能性を提供します。比較評価では、最適化ベースの手法よりも現実的で適切な生成物を参照および背面ビューで生成します。超解像モジュールは、代替手法と比較して高解像度でのズームインが可能なテクスチャの詳細を向上させます。対話型編集アプローチにより、3Dメッシュ上のターゲットされた変更が可能であり、素朴なセグメンテーション手法よりも堅牢性と改善された結果を示します。HyperDreamerは、ディーププライオール、セマンティックセグメンテーション、および材料推定モデルの統合により、単一のイメージからハイパーリアリスティックな3Dコンテンツの生成において総合的な成果を上げています。 総括すると、HyperDreamerフレームワークは、ハイパーリアリスティックな3Dコンテンツの生成と編集において完全な範囲の表示、レンダリング、編集可能性を提供する革新的なツールです。領域に敏感な素材のモデリング、高解像度のテクスチャでのユーザーフレンドリーな編集、最先端の手法と比較して優れたパフォーマンスは、包括的な実験と定量的評価によって証明されています。このフレームワークは、3Dコンテンツ作成と編集の進歩において非常に大きなポテンシャルを秘めており、学術および産業の環境において有望なツールとなっています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us