Learn more about Search Results HBR
- You may be interested
- Loguru プリントのようにシンプル、ログの...
- 「トップのGPTとAIコンテンツ検出器」
- キャッシュの遷移に対する自動フィードバ...
- 「Huggingface 🤗を使用したLLMsのためのR...
- Hugging Faceの推論エンドポイントを使用...
- 「チップの戦いに勝ちたいですか?たくさ...
- Python例外テスト:クリーンで効果的な方法
- 「プロンプトエンジニアリングに入るため...
- AWSの知的ドキュメント処理を生成AIで強化...
- Pythonを使用した探索的データ分析(EDA)...
- このAI論文では、コンピュータビジョンの...
- このツールは、AIによる画像の操作からあ...
- 偽の預言者:自家製時系列回帰のための特...
- チャットアプリのLLMを比較する:LLaMA v2...
- 「最高のデジタルコンテンツ戦略(アレッ...
アリゾナ州立大学のこのAI研究は、テキストから画像への非拡散先行法を改善するための画期的な対照的学習戦略「ECLIPSE」を明らかにした
拡散モデルは、テキストの提案を受け取ると、高品質な写真を生成するのに非常に成功しています。このテキストから画像へのパラダイム(T2I)の生成は、深度駆動の画像生成や主題/セグメンテーション識別など、さまざまな下流アプリケーションで成功裏に使用されています。2つの人気のあるテキスト条件付き拡散モデル、CLIPモデルと潜在的な拡散モデル(LDM)のような、しばしば安定拡散と呼ばれるモデルは、これらの進展に不可欠です。LDMは、オープンソースソフトウェアとして自由に利用可能なことで研究界で知られています。一方、unCLIPモデルにはあまり注目が集まっていません。両モデルの基本的な目標は、テキストの手がかりに応じて拡散モデルをトレーニングすることです。 テキストから画像への優位性と拡散画像デコーダを持つunCLIPモデルとは異なり、LDMには単一のテキストから画像への拡散モデルがあります。両モデルファミリーは、画像のベクトル量子化潜在空間内で動作します。unCLIPモデルは、T2I-CompBenchやHRS-Benchmarkなどのいくつかの構成ベンチマークで他のSOTAモデルを上回ることが多いため、この記事ではそれに集中します。これらのT2Iモデルは通常多くのパラメータを持つため、トレーニングには優れた画像とテキストのペアリングが必要です。LDMと比較すると、DALL-E-2、Karlo、KandinskyなどのunCLIPモデルは、約10億のパラメータを持つ前のモジュールがあるため、合計モデルサイズが大幅に大きくなります(≥ 2B)。 そのため、これらのunCLIPモデルのトレーニングデータは250M、115M、177Mの画像テキストのペアリングです。したがって、2つの重要な質問が残ります:1)テキスト構成のSOTAパフォーマンスは、テキストから画像への先行モデルを使用することで改善されるのでしょうか?2)それともモデルのサイズを増やすことが重要な要素なのでしょうか?パラメータとデータの効率性を向上させることで、研究チームはT2I先行モデルについての知識を向上させ、現在の形式に比べて重要な改善を提供することを目指しています。T2I先行モデルは、拡散プロセスの各タイムステップでノイズのない画像埋め込みを直接推定するための拡散モデルでもあり、これは以前の研究が示唆しているようです。研究チームは、この前期の普及プロセスを調査しました。 図1は、SOTAテキストから画像へのモデル間の3つの構成タスク(色、形、テクスチャ)の平均パフォーマンスとパラメータの総数を比較しています。ECLIPSEは少量のトレーニングデータしか必要とせず、少ないパラメータでより優れた結果を出します。提示されたECLIPSEは、Kandinskyデコーダを使用して、わずか5百万の画像テキストペアリングのみを利用して約3300万のパラメータでT2I先行モデルをトレーニングします。 研究チームは、拡散プロセスがわずかにパフォーマンスを低下させ、正しい画像の生成には影響を与えないことを発見しました。さらに、拡散モデルは収束が遅いため、トレーニングには大量のGPU時間または日数が必要です。そのため、非拡散モデルはこの研究では代替手段として機能します。分類子のガイダンスがないため、この手法は構成の可能性を制限するかもしれませんが、パラメータの効率性を大幅に向上させ、データの依存性を軽減します。 本研究では、Arizona State Universityの研究チームは、上記の制約を克服し、T2Iの非拡散先行モデルを強化するためのユニークな対照的学習技術であるECLIPSEを紹介しています。研究チームは、提供されたテキスト埋め込みから画像埋め込みを生成する従来のアプローチを最適化することにより、Evidence Lower Bound(ELBO)を最大化しました。研究チームは、事前学習されたビジョン言語モデルの意味的整合性(テキストと画像の間)機能を使用して、以前のトレーニングを監視しました。研究チームは、ECLIPSEを使用して、画像テキストのペアリングのわずかな断片(0.34%〜8.69%)を使用して、コンパクトな(97%小さい)非拡散先行モデル(3300万のパラメータを持つ)をトレーニングしました。研究チームは、ECLIPSEトレーニングされた先行モデルをunCLIP拡散画像デコーダバリエーション(KarloとKandinsky)に導入しました。ECLIPSEトレーニングされた先行モデルは、10億のパラメータを持つバージョンを上回り、ベースラインの先行学習アルゴリズムを上回ります。研究結果は、パラメータやデータを必要とせずに構成を改善するT2I生成モデルへの可能な道を示唆しています。 図1に示すように、彼らの総合パラメータとデータの必要性は大幅に減少し、T2Iの増加により類似のパラメータモデルに対してSOTAのパフォーマンスを達成します。貢献。1)unCLIPフレームワークでは、研究チームがテキストから画像への事前の対照的な学習に初めてECLIPSEを提供しています。 2)研究チームは包括的な実験を通じて、資源制約のある文脈でのECLIPSEの基準事前に対する優位性を証明しました。 3)注目すべきは、ECLIPSE事前のパフォーマンスを大きなモデルと同等にするために、トレーニングデータのわずか2.8%とモデルパラメータのわずか3.3%しか必要としないことです。 4)また、研究チームは現在のT2I拡散事前の欠点を検討し、経験的な観察結果を提供しています。
『オープンソースLLMの歴史:模倣と整合性(パート3)』
オープンソースの大規模言語モデル(LLM)に関する以前の研究の大部分は、事前訓練ベースモデルの作成に重点を置いていましたしかしながら、これらのモデルは微調整されていないため、失敗することがあります...
「ODSC West 2023の優れたバーチャルセッションをこちらでご覧ください」
ODSCウエストは終了し、私たちは1年間待たなければならないでしょうそれまでに、仮想セッションの録画がオンデマンドで利用可能になりました!ソリューションショーケースのトークやキーノートのトークは無料で利用できますトピックに関する詳細な情報を提供するトレーニングセッションなどもあります...
「学習する機械:AI技術の可能性を探る」
人工知能(AI)は過去10年間で非常に進化してきましたこの技術が進化し続けると共に、様々な産業において新たな可能性が生まれており、倫理と責任あるイノベーションに関する重要な問いを提起していますAIが医療分野を変革する可能性 医療分野は、応用AIによって大きな恩恵を受けることができるでしょう機械学習アルゴリズムは… 学ぶ機械:AI技術の可能性を探る さらに読む »
退屈なプレゼンテーションを素晴らしいものに変える:プレゼンテーションを改善する7つのハック
イントロダクション HBrが言うように、「良いプレゼンテーションにはデータが必要ですが、データだけでは良いプレゼンテーションを保証することはできません。」PowerPointやCanvaの時代にあって、情報を提示することがこれまで以上に容易になった中で、プレゼンターが「この図表は見づらいかもしれませんが、〜を示しています」と言うのを聞いたことがない人は手を挙げてください。本質を伝えるのに苦労するプレゼンテーションよりも最悪な状況は何でしょうか? 働くプロフェッショナルは、タスクの向上と完璧さに取り組むために重要な努力が必要であることを知っています。例えば、データアナリストとして、データ分析の完璧さを追求するために非常に努力し、最新の技術トレンドについて学び、機械学習モデルを構築することに専念しています。しかし、よく見落とされがちな重要なスキルの一つは魅力的なプレゼンテーションを作り上げる能力です。自分の努力と取り組みを明確かつ効率的に観衆に伝えるために、プレゼンテーションを改善し、観衆を引き込むものにしなければなりません。また、情報に基づいた意思決定を促進する必要があります。 効果的なプレゼンテーションの力 プレゼンテーションは、グラフ、図表、地図などのさまざまな手法を用いて情報を視覚的に表現することで、視覚的な補助を通じて理解を促進します。データの視覚的表現は、形式、ツール、利用可能なデータ、データセットのサイズなどの要素に依存します。 プレゼンテーションを作成する際には、ターゲット観衆、明確な内容、必要なグラフィックス、表や図表、簡単に理解できる情報、明確な説明など、重要な要素を考慮してください。効果的なプレゼンテーションの力は見過ごすことができず、自分の努力を表示し、組織の変革を促すことができます。 超魅力的なプレゼンテーションを作るための7つのヒント 効果的なプレゼンテーションを作成する際に考慮すべき重要なポイントは多岐にわたります。しかし、プレゼンテーションを改善し、超魅力的なものにするための7つの主要なヒントは以下の通りです。 1. 観衆を知る あくまで結果に重点を置くのではなく、プレゼンテーションを観衆に合わせて作成することが重要です。観衆のバックグラウンドや彼らがあなたの結果から求めるものを理解することは、プレゼンテーションを効果的に構成するのに役立ちます。 このアプローチはデータを無視するものではありません。むしろ、データを理解しやすくプレゼンテーションを行うことで観衆の議論や主張を支持する方法です。アナリストの結果の伝達方法が観衆にとって理解しづらい場合、最も優れたプレゼンテーションであっても失敗する可能性があります。 プレゼンテーションを作成する前に、以下の質問を考えることでプレゼンテーションを改善することができます。 このプレゼンテーションの観衆は誰ですか? 彼らはあなたの分野の技術的な熟練度をどれくらい持っていますか? 彼らは対象の内容にどれくらい精通していますか? 彼らはどんな特定の興味、ニーズ、期待を持っていますか? 観衆のメンタル状態はどうですか?以前のミーティングや長時間のカンファレンスで疲れている可能性がありますか? 設定は形式的ですか非形式的ですか? これらの質問に答えることで、重要な情報を強調すべきかどうか、データがプレゼンテーションに最も役立つ方法を知ることができます。観衆の専門知識に合わせてコンテンツを適応し、望ましい要点を定義し、プレゼンテーションの設定を考慮することで、より効果的なプレゼンテーションを作成することができます。 2. データを使ったストーリーテリング ビジネスプレゼンテーションでは、「Situation-Complication-Resolution(SCR)」というアプローチが効果的なフレームワークとして機能し、プレゼンテーションを改善する助けとなります。この方法は、バーバラ・ミントがマッキンゼー・コンサルティングでの任期中に著書「ピラミッド・プリンシプル」で人気を博し、魅力的なビジネスストーリーを構築するための効果的な構造を提供します。このシンプルな方法は、行動志向の結果を促進し、コンテンツを整理し、Rule of…
「中国AI研究チームが導入した4K4D ハードウェアラスタライゼーションをサポートし、前例のない描画速度を実現する4Dポイントクラウド表現」
ダイナミックビューシンセシスは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型仮想再生を生成しようとするコンピュータビジョンとグラフィックのタスクです。この技術の実用性は、高忠実度なリアルタイムレンダリング能力に依存しており、VR / AR、スポーツ放送、芸術的パフォーマンスキャプチャなどで使用されます。従来のアプローチでは、動的な3Dシーンをテクスチャ付きメッシュシーケンスとして表現し、複雑なハードウェアを使用して再構築しますが、制御された環境に限定されます。最近の研究では、RGBビデオから動的な3Dシーンを再構築するための暗黙のニューラル表現が、微分可能なレンダリングを通じて非常に成功しています。最近開発された手法では、対象シーンを動的な放射輝度場としてモデル化し、ボリュームレンダリングを使用して画像を合成し、最適化のために入力画像と比較します。動的ビューシンセシスで印象的な結果を達成しているにもかかわらず、既存の手法は通常、1080pの解像度で画像をレンダリングするために数秒または数分の時間を要します。 静的なビューシンセシスの手法に触発され、特定のダイナミックビューシンセシスのテクニックは、コストまたはネットワーク評価の数を減らすことによってレンダリング速度を向上させます。これらの戦略を採用することにより、MLPマップとして知られる表現は、ダイナミックな前景人物のためのレンダリング速度を41.7 fpsに達成します。ただし、レンダリング速度の課題は依然残ります。MLPマップは、中程度の解像度の画像(384×512)を合成する場合にのみリアルタイムのパフォーマンスを発揮します。4K解像度の画像をレンダリングする場合、その速度は1.3 FPSまで低下します。 この研究では、4K4Dという新しいニューラル表現を紹介し、動的な3Dシーンのモデリングとレンダリングに使用します。4K4Dは、レンダリングの速度を大幅に改善し、レンダリングの品質において競争力を維持しています。システムの概要を以下に示します。 このコアのイノベーションは、4Dポイントクラウド表現とハイブリッド外観モデルにあります。具体的には、動的なシーンでは、空間刻みアルゴリズムを使用して取得した荒いポイントクラウドシーケンスを使用し、各ポイントの位置を学習可能なベクトルとしてモデル化します。4D特徴グリッドを導入し、各ポイントに特徴ベクトルを割り当て、それをMLPネットワークに入力してポイントの半径、密度、および球面調和(SH)係数を予測します。 4D特徴グリッドは、ポイントクラウドに空間的正則化を自然に適用し、最適化のロバスト性を向上させます。さらに、異なる可能な深さの剥離アルゴリズムを開発し、ハードウェアラスタライザを使用して前例のないレンダリング速度を実現します。 研究では、MLPベースのSHモデルが動的シーンの外観を表現する際の課題を特定しています。これに対処するために、SHモデルを補完するための画像ブレンディングモデルを導入して、シーンの外観を表現します。重要な設計の選択肢により、画像ブレンディングネットワークは視線方向と独立しており、トレーニング後の事前計算を可能にし、レンダリング速度を向上させます。ただし、この戦略は、ビュー方向に沿った離散動作の課題を導入し、連続のSHモデルを使用して緩和されます。3Dガウススプラッティングとは異なり、SHモデルのみを使用するのではなく、このハイブリッド外観モデルは入力画像で捉えられた情報を十分に活用し、レンダリング品質を効果的に向上させます。 著者によって報告された広範な実験では、4K4Dは注目すべきレンダリング品質であると同時に、桁違いに高速なレンダリングを達成しています。RTX 4090 GPUを使用した場合、この手法は1080pの解像度で最大400 FPS、4Kの解像度で80 FPSに達するとのことです。 以下の画像は、最先端の技術との視覚的比較です。 これは4K4Dの概要であり、ハードウェアラスタライゼーションをサポートし、前例のない高速なレンダリングを可能にする革新的なAI 4Dポイントクラウドの表現です。詳細を知りたい方は、以下に引用されたリンクを参照していただくか、お気軽にお問い合わせください。
私たちのインターン生の未来づくり:AIの企業進出の中で次世代を育むために
アジア太平洋のESSEC経営修士課程での教育中に、AIと持続可能性の交差点について重要な議論を深めました。このフォーラムでは、AIの真の能力を見るためにテクノロジーを解明する必要性について考えました。 ハーバード・ビジネス・スクールのカリム・ラカニは、「人間の反応は統計的な幻影に過ぎない」と述べています。ラカニは、人間らしい対話と思われるものが「統計的または計算上の幻影」であることを明らかにしました。これは、私の長年の見解と共鳴します。洗練されたAIは役割を奪うものではなく、人間の能力を強力な味方にするものです。 しかしながら、注意を払わなければなりません。将来の世代の成長する心に重大な影響を与える可能性のある進歩が約束されていると同時に、増大し続けるデジタル時代において、ビジネスにおけるAIの重要な役割は、インターンやジュニアのトレーニングの根本的な見直しを迫ります。 大規模言語モデル(LLM)の出現は、私たちのジュニアが陳腐化することを防止しなければならない警告を発しています。これらのLLMは、仮想領域の活気のあるインターンでありながら、人間の初学者のために予約されていた仕事をすでに指揮しています。彼らはメモを作成し、プレゼンテーションを手入れし、決して時を経ず、計算リソースの「トークンマネー」のみを消費します。彼らの効率は驚くべきものですが、はっきり言って、彼らは人間の理性、推論力、創造性の代替手段ではありません。 ビジネスの活況の中で、新人育成は背の高いオークの森で繊細な苗を育てることに匹敵します。インターンの役割は重要です。彼らはスポンジであり、技術的なノウハウだけでなく、企業文化の微妙なダンスも吸収します。彼らのプロフェッショナルな旅の基盤が構築され、成長の軌道が形作られるのは、この初期のキャリアの段階です。 さらに、この貴重な導入は、AIによって脅かされています。AIはかつて初心者の証明の場とされていた仕事や分析を容易に自動化できるのです。もしもLLMがジェーン・オースティンの主人公のように容易に人間の対話を模倣することができるのであれば、私たちはどのように適応すべきでしょうか?グーグルをはじめとする企業は、ギャップを埋めるためのトレーニングプログラムを開発していますが、真の変革は初期のキャリアの年を「実習教室」とし、学びが行動であり、行動が学びを生み出すものに変容させることにあります。 ここには、私たちの期待の二重性があります。私たちは、マシンにアシモフのロボット工学の第一法則を課している一方で、LLMの誤りを許容し、彼らの対話の巧妙さに魅了されます。自動運転車のまれなミスアップに侮辱し、チャットボットの欠陥のある詩を笑います。 では、行動への呼びかけは何でしょうか?ビジネスにAIを統合するにつれて、私たちはインターンのプレイブックを見直さなければなりません。トレーニングには人間性を注入し、忍耐を育み、アルゴリズムでは再現できない経験の基盤を提供しなければなりません。私たちの目標は、AIと共に繁栄するスキルを私たちのインターンに備えることであり、企業の階梯が進化するにつれ、それが無関係な立場への下降ではなく、啓蒙への登りになることを確保することです。 結論として、私の講義ではAIの神話を崩す一方で、LLMが洗練されたものであること、しかし完全ではないこと、AIは置き換えではなく拡張のためのツールであることを明確にしています。私はより深いメッセージを強調しています。私たちは企業教育を進化させなければならず、それは技術に対する膝反射ではなく、それを戦略的に受け入れることです。そうすることで、私たちの後輩たちが明日の企業の堅牢な建築家になり、その犠牲者ではないことを保証します。ボットがコーヒーを運ぶかもしれませんが、会議室の席は?それらは機械と踊りを学んだ人間に予約しましょう。 参考文献 [1] Lakhani, Karim. “AI Won’t Replace Humans — But Humans With AI Will Replace…
「生成型人工知能の新たな倫理的意味合い」
ジェネレーティブAIの急速な進歩は、データ、スケール、責任、著作権、そして情報の誤りのリスクに対する緊急の倫理的な保護策が必要です
「プロジェクト管理におけるGenAIスキルの緊急性」
今日のGenerative AI(GenAI)の未来についての議論には、課題に先手を打ち、混乱を乗り越え、リスクを最小限に抑えることがすべて重要ですこのような課題への対応は、プロジェクト管理の専門家が数十年にわたり行ってきた仕事の一環でもありますしかし、これらの問題に日々慣れ親しんでいるにもかかわらず、多くのプロジェクトの専門家は、自身の準備がいかに不足しているかに気づくかもしれません
製造でのトピックモデリング
前回の記事では、ChatGPTを使ったトピックモデリングの方法と素晴らしい結果について話しましたタスクは、ホテルチェーンの顧客レビューを見て、言及されている主要なトピックを定義することでした...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.