Learn more about Search Results MPT - Page 10

リトリーバル オーグメンテッド ジェネレーション(RAG)推論エンジンは、CPU上でLangChainを使用しています

「リトリーバル増強生成(RAG)は広範にカバーされており、特にチャットベースのLLMへの応用については詳しく語られていますが、本記事では異なる視点からそれを見て、その分析を行うことを目指しています...」

6つのGenAIポッドキャスト、聴くべきです

はじめに 急速に進化する 人工知能(AI)の世界において、生成AI(GenAI)の領域は魅力的でダイナミックな分野として注目されています。技術の進歩に伴い、この分野の微妙なニュアンスを理解することは重要ですが、最新情報を把握することは難しいかもしれません。GenAIは新しいコンテンツやデータを作成する能力で知られていますが、まだ比較的新しい分野ですので、最新の動向については多くの人が興味を持ちながらも情報を得ていません。この知識のギャップを埋めるために、GenAIの専門家がホストするポッドキャストは貴重な情報源となります。これらのポッドキャストは、最先端のテクノロジーの領域を探求したい学習者にとって、第一級の信頼できる情報を提供してくれます。以下に、生成AIの愛好家が聞くべきおすすめのポッドキャスト6つを紹介します。 聴くべきトップ6のGenAIポッドキャスト 1. Leading With Data by Analytics Vidhya Analytics VidhyaはデータサイエンスとAIコミュニティで有名なプラットフォームであり、彼らのポッドキャスト「Leading With Data」ではデータサイエンス、機械学習、そしてなんと言っても生成AIについてさまざまな側面を探求しています。業界のリーダーや専門家、実践者との洞察に満ちた議論を期待してください。彼らは自らの経験、課題、そしてGenAIの未来へのビジョンを共有しています。 コンテンツ形式:Leading With Dataでは業界リーダーや専門家、実践者との議論を取り上げ、GenAI、データサイエンス、機械学習などさまざまなトピックをカバーしています。 対象読者:データサイエンス愛好者、専門家、生成AIの応用に関する洞察を得たい人々。 このGenAIポッドキャストはSpotify、Apple Podcasts、Google Podcasts、YouTube、および彼らのコミュニティプラットフォームでご覧いただけます。 2. The…

なぜGPUはAIに適しているのか

GPUは人工知能の希少な地球の金属、さらには金そのものとも呼ばれています。それは、今日の生成的AI時代において基盤となる存在であるためです。それは3つの技術的理由と数多くのストーリーによって説明され、それぞれの理由には多くの側面がありますが、大まかに言えば次のようなものです。 GPUは並列処理を使用します。 GPUシステムはスーパーコンピュータの高さにまでスケールアップします。 AIのためのGPUソフトウェアスタックは幅広く深いです。 その結果、GPUはCPUよりも高速かつエネルギー効率が優れており、AIのトレーニングおよび推論においても優れたパフォーマンスを提供し、高速計算を使用するさまざまなアプリケーションにおいても利益をもたらします。 スタンフォード大学のヒューマンセンタードAIグループの最近のレポートによれば、GPUのパフォーマンスは「2003年以来約7000倍」向上し、価格性能比は「5600倍」増加していると報告されています。 2023年のレポートは、GPUのパフォーマンスと価格性能の急激な上昇を捉えています。 レポートはまた、AIの進展を測定し予測する独立系の研究グループであるエポックの分析も引用しています。 「GPUは、機械学習ワークロードを高速化するための主要なコンピューティングプラットフォームであり、過去5年間のほとんど(もしくはすべて)の最大のモデルがGPU上でトレーニングされています… それにより、AIの最近の進歩に重要な貢献をしています」とエポックはサイトで述べています。 また、米国政府のためにAI技術を評価した2020年の研究も同様の結論を導いています。 「製造および運用コストを含めた場合、最先端のAIチップは生産性と運用コストをリーディングノードCPUよりも1〜3桁高いと予想されます」と述べています。 「NVIDIAのGPUは、過去10年間にAI推論のパフォーマンスを1000倍向上させました」と同社の首席科学者であるビル・デーリー氏は、半導体およびシステムエンジニアの年次集会であるHot Chipsの基調講演で述べています。 ChatGPTがニュースを広める ChatGPTは、GPUがAIにとって優れたものであることを強力に示した例です。数千のNVIDIA GPUでトレーニングされ、実行される大規模な言語モデル(LLM)は、1億人以上の人々が利用する生成的AIサービスを提供しています。 その2018年のリリース以来、AIの業界標準ベンチマークであるMLPerfは、NVIDIA GPUのトレーニングおよび推論のリーディングパフォーマンスを詳細に示しています。 例えば、NVIDIA Grace Hopper Superchipsは最新の推論テストで圧倒的な成績を収めました。そのテスト以降にリリースされたNVIDIA TensorRT-LLM推論ソフトウェアは、パフォーマンスを最大8倍向上させ、エネルギー使用量と総所有コストを5倍以上削減します。実際、NVIDIA…

「ChatGPTを使ったデータサイエンスワークフローのマスター」

この記事では、データサイエンティストがChatGPTの能力を最大限に活用するために学べるスキルに焦点を当てています

LangChainの発見:ドキュメントとのチャット、チャットボット翻訳、ウィキペディアとのチャット、合成データ生成

「ジェネラティブAIの世界の成長は、重要なPythonライブラリであるLangChainのおかげで可能になっています興味も最近の数ヶ月間で増しており、次のチャートで示されています」

ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています

芸術的なテキストから画像までの拡散モデルの利用者は、通常、生成された画像に表現される視覚的特徴と概念において細かい制御が必要ですが、現在は実現不可能です。単純なテキストのプロンプトを使用して、個人の年齢や天候の強度などの連続的な品質を正確に修正するのは難しい場合があります。この制約により、プロデューサーはイメージをより良く反映させるために画像を修正することが難しくなります。マサチューセッツ工科大学と独立研究者からなるノースイースタン大学の研究チームは、この研究で解釈可能なアイデアスライダーを提案し、拡散モデル内で詳細なアイデアの操作を可能にします。彼らのアプローチは、アーティストに高品質な制御と生成画像の提供を可能にします。研究チームは、トレーニングされたスライダーとコードをオープンソースで提供します。コンセプトスライダーは、他のアプローチが十分に対応する必要があるいくつかの問題に対して複数の解決策を提供します。 多くの画像プロパティは、プロンプトを変更することで直接制御することができますが、出力はプロンプトとシードの組み合わせに対して感度があり、プロンプトを変更すると画像の全体的な構造が大きく変化する場合があります。PromptToPromptやPix2Videoなどの事後処理手法では、異なるビジュアル概念を変えるためにクロスアテンションを変更し、拡散プロセスを反転させることができます。ただし、これらの手法は同時に変更できる数が制限されており、新しいアイデアごとに独立した推論ステップが必要です。研究チームは、単純で汎用的な制御を学習する代わりに、特定の画像に適したプロンプトを設計する必要があります。適切にプロンプトされなければ、年齢が変わると同時に人種も変わるなどの概念的な絡み合いが生じる可能性があります。 一方、コンセプトスライダーは、軽量で事前トレーニングされたモデルに適用できる簡単なプラグアンドプレイのアダプターを提供します。これにより、一度の推論実行で目的の概念を正確かつ連続的に制御し、エンタングルメントが少なく効率的な組み合わせを実現できます。各コンセプトスライダーは、ランクの低い拡散モデルの変更です。研究チームは、低ランク制約が概念の精度制御において重要な要素であることを発見しています。低ランクトレーニングにより、最小の概念部分空間が特定され、高品質で制御されたディスエンタングル編集が生成されます。一方、低ランク正則化なしでのファインチューニングは、精度と生成画像の品質を低下させます。この低ランクフレームワークは、モデルのパラメータではなく個々の写真に対応する事後処理の画像変更技術には適用されません。 コンセプトスライダーは、これまでのテキストに頼る既存の概念編集技術とは異なり、書かれた説明によって表現されない視覚的概念の変更を可能にします。画像ベースのモデルカスタマイズ技術は画像編集において課題がありますが、研究チームは新しいトークンを導入することで新しい画像ベースの概念を表現できるようにしています。一方、概念スライダーでは、アーティストがいくつかのペアの写真で望ましい概念を指定できます。その後、コンセプトスライダーは視覚的概念を一般化し、他の画像に適用します。そのような画像では、変化を言葉で表現することが不可能な場合でも、変化を適用できます(図1を参照)。以前の研究では、GANのような他の生成画像モデルには、生成された出力に対して高度なディスエンタングル制御を提供する潜在的な領域が含まれていることが示されています。 図1は、さまざまなテキストプロンプトまたはマッチした画像データの範囲内で、他の品質への干渉を最小限に抑えたフォーカスされたアイデア制御のための拡散パラメータ空間での低ランク方向を見つける手法を示しています。これらの方向は、複雑なマルチ属性制御のために組み合わせることができ、アーティストによって作成された相反するテキスト概念またはビジュアルのペアから形成することができます。ディスエンタングルスタイルGANの潜在領域を拡散モデルに転送し、スタブルディフュージョンの出力で歪んだ手を修正することで、研究者は自身のアプローチの効果を示しています。 具体的には、StyleGANのスタイルスペースニューロンは、言葉でうまく説明することの難しい画像のいくつかの重要な特徴に対して、細かい制御が可能であることが示されています。研究チームは、FFHQの顔写真でトレーニングされたStyleGANのスタイル空間の潜在的な方向を拡散モデルに転送することが可能であり、彼らの手法の可能性をさらに示しています。興味深いことに、彼らのアプローチは、顔データセットからのものであっても、異なる画像生成にわたって微妙なスタイル制御を提供するようにこれらの潜在的な空間を適応させることに成功しています。これは、拡散モデルがGANの潜在的な視覚的概念を表現できることを示しています。書かれた説明はなくても表現できます。 研究者らは、コンセプトスライダーの表現力が、リアリズムの向上と手の変形の修正という2つの有用なアプリケーションを処理するのに十分であることを示しています。生成モデルは、リアルな画像合成を実現するために大きな進歩を遂げてきましたが、最新の拡散モデルであるStable Diffusion XLも、歪んだ顔、浮いたオブジェクト、歪んだパースペクティブ、さらには解剖学的に不合理な余分な指や欠損した指を生み出す傾向がまだあります。研究チームは知覚的なユーザースタディにより、2つのコンセプトスライダー、「固定された手」と「リアルな画像」によって、画像の実際的なリアリズムが統計的に有意に向上することを確認していますが、画像の本質を変えることはありません。 コンセプトスライダーは組み立てられ、分解することができます。研究チームは、50以上の異なるスライダーを作成することが可能であり、出力品質を犠牲にすることなく行うことがわかりました。この適応性により、アーティストたちは多くのテキスト、ビジュアル、GANで定義されたコンセプトスライダーを組み合わせることができるため、微妙な画像制御の新たな世界が開けます。彼らの技術は、通常のプロンプトトークンの制約を超えることができるため、テキストだけでは提供できないより複雑な編集を可能にします。

「データサイエンスのスキルを磨くための15のガイド付きプロジェクト」

紹介 データサイエンスでは、革新と機会が交差する場で、熟練した専門家の需要が急速に高まっています。データサイエンスは単なるキャリアだけでなく、複雑な問題の解決、イノベーションの推進、未来の形成への入り口です。業界は年間成長率が36%を超えるとされ、データサイエンスのキャリアは財政的な報酬と知的な充実感を約束しています。理論的な知識と実践的な経験の両方が、このダイナミックな環境で成功するために不可欠です。データサイエンスにおけるガイド付きプロジェクトは、理論と応用の架け橋として登場し、指導者の監視のもとでの実践的な学習体験を提供します。 ガイド付きプロジェクトとは何ですか? ガイド付きプロジェクトについて学ぶ前に、データサイエンスのキャリアの魅力を把握することが重要です。複雑なアルゴリズムと膨大なデータセットの向こう側で、データサイエンスは現実世界の課題を解明し、産業を前進させる最前線にあります。最近の業界レポートによれば、データサイエンティストの中央値給与は平均を上回っており、それは魅力的なキャリア選択肢となっています。業界の急速な成長は、適切なスキルと専門知識を持つ人々にさらなる機会を提供しています。 独立したデータサイエンスプロジェクトの課題 課題は巨大なデータセットの管理から洗練されたアルゴリズムの導入、有意義な洞察の導出まで多岐に渡ります。現実のデータサイエンスのシナリオでは、技術的な複雑さとドメイン固有のニュアンスを繊細に理解する必要があります。ここにガイド付きプロジェクトの重要性があります-構造化されたアプローチと専門的な指導によって、難航する旅を啓蒙的な学習体験に変えるのです。 当社がお手伝いできるトップ15のガイド付きプロジェクト 以下のプロジェクトは当社のBB+プログラムでカバーされています。当社の専門家が卓越した指導力でその内実に対してお手伝いします。 1. NYC Taxi Prediction NYC Taxi Predictionプロジェクトでは、参加者は交通分析のダイナミックな世界に没頭します。過去のタクシートリップデータを活用し、参加者はニューヨーク市のさまざまな場所でのタクシー需要を予測するための予測モデリングに取り組みます。このプロジェクトでは回帰分析と時系列予測のスキルを磨き、空間データの可視化に対する洞察を提供します。タクシー需要の理解と予測は、フリート管理の最適化、カスタマーサービスの改善、効率的な都市交通システムへの貢献に不可欠です。 2. シーン分類チャレンジ シーン分類チャレンジでは、参加者は画像を事前定義されたクラスに正確に分類する頑健な画像分類モデルの開発に取り組みます。畳み込みニューラルネットワーク(CNN)や転移学習などの深層学習技術を活用して、参加者は画像認識におけるハンズオンの経験を積みます。このプロジェクトでは、画像分類の文脈での特徴抽出、モデルトレーニング、検証のニュアンスを理解することが目的です。 3. Pascal VOC画像セグメンテーション Pascal VOC画像セグメンテーションプロジェクトでは、参加者は魅力的な画像セグメンテーションの世界に触れます。Pascal VOCデータセットを使用して、参加者は画像内のオブジェクトを正確にアウトライン化する方法を学びます。このプロジェクトでは、セマンティックセグメンテーションの複雑さに深く入り込みます。セマンティックセグメンテーションでは、画像内の各ピクセルを特定のオブジェクトクラスに割り当てることが目標です。画像セグメンテーションの習得は、コンピュータビジョン、医療画像、自動車などのアプリケーションにおいて重要です。…

「ジェンAI愛好家が読むべき5冊の本」

イントロダクション 技術がますます進化する中、人工知能(AI)の領域は拡大するだけでなく、ジェネラティブAIという様々なサブフィールドにも多様化しています。創造性とAIの融合であるジェンAIは、世界中の産業を変革する準備が整っています。業界の予測によると、ジェンAIセクターは2032年までに驚くべき1.3兆ドルの産業に成長すると予想されています。自身の専門分野を築きたいという意欲的なプロフェッショナルのために、独占的な書籍のページの中には待ち望まれる知識がたくさんあります。ここでは、ジェンAI愛好家が読むべき必須の5冊を厳選して紹介します。 「The Artificial Intelligence and Generative AI Bible:[5 in 1] 最も最新かつ完全なガイド」 by Alger Fraley 評価:4.4 『The Artificial Intelligence and Generative AI Bible』は、ジェンAIの複雑な領域を簡素化した包括的な書籍です。AIの基礎、深層学習、NLP、倫理、そして将来の応用に分割された5つの必須セクションで構成されています。この本は複雑な概念を分解し、多様な産業にわたる実践的な洞察と現実の例を提供します。理論だけでなく、倫理的な考慮事項を説明し、AIの潜在的な影響を紹介します。将来に焦点を当てたアプローチで、読者の好奇心を刺激し、革新的な解決策にAIの力を活用する力を与えます。初心者から専門家まで、AIの変革的な能力を理解し活用するための指南となります。 「Ripples…

Google DeepMindの研究者がDiLoCoを導入:効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム

現実世界のアプリケーションにおける言語モデルのソアリング能力は、標準的なバックプロパゲーションのような従来の方法を使用しての大規模トレーニングに関連する複雑な課題によってしばしば制約されます。Google DeepMindの最新のブレークスルーであるDiLoCo(Distributed Low-Communication)は、言語モデルの最適化において新たな基準を設定します。研究チームの論文「DiLoCo:分散低通信言語モデルのトレーニング」では、革新的な分散最適化アルゴリズムを紹介し、緩く接続されたデバイスのクラスタ上で操作することで、驚異的なパフォーマンス向上と通信の500倍の削減を実現しています。 Federated Learningの原則に触発され、研究者たちは広く認識されたFederated Averaging(FedAvg)アルゴリズムの変種を考案し、FedOptアルゴリズムに似た要素を注入しました。DiLoCoは内部最適化手法としてAdamWを戦略的に取り入れ、外側の最適化手法としてNesterov Momentumを活用し、従来のトレーニングパラダイムに内在する課題に立ち向かう巧妙な融合を実現しています。 DiLoCoの輝きは、3つの基本的な柱にあります: 1. 限られた共有位置の要件:各ワーカーは共有位置のデバイスを必要としますが、必要な総数は著しく小さく、物流の複雑さが軽減されます。 2. 通信頻度の削減:ワーカーはすべてのステップで通信する必要はなく、𝐻ステップごとに同期するだけで、通信オーバーヘッドを数百または数千に大幅に削減します。 3. デバイスの異質性:クラスタ内のデバイスは同一である必要がありますが、DiLoCoは異なるクラスタが異なるデバイスタイプを使用して運用できる柔軟性を提供します。 DiLoCoのトレーニングプロセスは、事前トレーニングされたモデル𝜃(0)を複数回複製することで行われます。各ワーカーは独自のデータシャードでモデルのレプリカを独立してトレーニングし、𝐻ステップ後に外部グラデーションを平均化し、外部最適化手法がグローバルパラメータコピー𝜃(1)を更新し、それがワーカーに配布されます。このサイクルは𝑇回繰り返され、各レプリカのトレーニングは異なるグローバル位置で異なるアクセラレータを使用して行われます。 C4データセットを用いた実験では、8つのワーカーを使用したDiLoCoは、通信を驚異的な500倍削減し、完全同期最適化と同等のパフォーマンスを達成します。さらに、DiLoCoはワーカー間のデータ分布の変動に対して非常に強い耐性を示し、トレーニング中にリソースの可用性の変化にシームレスに適応します。 要するに、DiLoCoは複数の接続が弱いマシン上でトランスフォーマー言語モデルのトレーニングを分散するための堅牢で革新的な解決策として浮上しています。この画期的なアプローチは、インフラの課題だけでなく、卓越したパフォーマンスと適応性を示し、言語モデルの最適化において大きな飛躍をもたらします。 この投稿は、Google DeepMind Researchers Introduce DiLoCo: A Novel…

「誰がどの役職を担当しますか?AIの視点から見た職業の役割」

2020年12月、私はオックスフォード大学のグループとともに、生成言語モデルにおける偏見を調査する論文の執筆を開始しました私たちは職業や...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us