Search Results A

AIに関する最高のコースは、YouTubeのプレイリストを持つ大学から提供されています

「信頼できる大学のYouTubeプレイリストで、新しいキャリアをスタートさせるか、現在のキャリアを発展させましょう！」

Artificial Intelligence

「NVIDIAの収益報告書がAI革命での優位性を明らかに」

近年、AIは技術の進歩の中心であり、イノベーションを促進し、産業を再構築していますグラフィック処理の能力で知られるNVIDIAは、AIの台頭に伴う広範な経済的および技術的な利益の証として高くそびえ立っています彼らの最近の財務報告は、この企業がどれだけ重要な存在になっているかを明らかにしています

NVIDIA

イントロダクション Generative AIとファッションの融合により、ファッションはクリエイティブなシナジーの旅に乗り出します。このブログでは、Generative AIがファッションに与える劇的な影響が明らかにされ、無限のイノベーション、個別化された体験、持続可能な実践が促進されています。独自のデザインとトレンド予測を通じて視点が広がり、ファッションの本質が変わります。この進歩は倫理的なデザインと持続可能性を受け入れ、環境に優しい手法に新たな命を与えます。Generative AIは、持続可能なファッション革命の推進力として浮上し、革新的な素材、廃棄物削減、サーキュラーファッションを取り入れ、産業の未来を再構築しています。学習目標 Generative AIがファッション業界に与える変革的な影響についての洞察を得る。ジェネラティブAIを探求することで、ファッションデザインにおけるバーチャルクチュールとその革命的な潜在能力を理解を深める。ファッション業界における人間の創造力とAIのイノベーションのシナジーを探求する。共同デザインの変革的な可能性を明らかにする。この記事はData Science Blogathonの一部として公開されました。ファッションにおけるGenerative AIの力 Generative AIは、美学とイノベーションが交わる領域で伝統的な制約を超え、ファッション業界を変革しています。Generative AIは計算的な創造性の具現化です。アルゴリズムとニューラルネットワークの複雑なシンフォニーとして機能します。様々な情報源からパターン、スタイル、データを吸収し、個性と自己表現が最も重要な要素となるファッションで、新しく斬新なアウトプットを生み出します。Generative AIは、独自性のある側面を提供します。この技術により、デザイナーは美しく個人的なアパレルを作り出し、着る人の本質に共鳴するものとなります。さらに、Generative AIとファッション業界全体との相互リンクを探求します。ファッション企業は競争が激化する市場で差別化を図るために努力しています。Generative AIは創造性を活性化させ、ブランドが注目を集め、興味を引くコレクションを作成することを可能にします。この技術は実験の場を提供し、デザイナーが伝統の限界に挑戦し、未踏の領域に進出することを推進します。 Generative AIの実践的な応用…

「言葉から世界へ：AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」

言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲーションを使用して特定の場所に導くなど、情報を伝達するための効果的なチャネルとしても機能します。視覚障がいのある人々の場合、映画を聴覚的な解説で体験することができます。前者は言語が他の感覚モードを向上させる方法を示し、後者は言語が異なるモダリティで最大限の情報を伝える能力を強調しています。多様なモダリティ間の言語との関係を確立するための現代の取り組みでは、画像や動画のキャプション付け、画像や動画からのテキスト表現の生成、テキストによってガイドされた視覚的なコンテンツの操作などのタスクが含まれます。しかし、これらの取り組みでは、言語は主に他の感覚入力に関する情報を補完する役割を果たしています。その結果、これらの取り組みは異なる感覚モード間の情報の複雑な交換を包括的に描写することができません。これらは主に1文のキャプションなどの単純な言語要素に焦点を当てています。これらのキャプションは短く、主要なエンティティやアクションを説明することしかできません。そのため、これらのキャプションを通じて伝えられる情報は、他の感覚モダリティに存在する情報の豊富さに比べてかなり限定的です。この差異により、他の感覚領域から情報を言語に翻訳しようとする際に情報の大幅な損失が生じます。この研究では、研究者たちは言語をマルチモーダルモデリングで情報を共有する手段として捉えています。彼らは「Fine-grained Audible Video Description（FAVD）」という新しいタスクを作成しました。通常、動画の短いキャプションは主要な部分を指しますが、FAVDではモデルにより人々が行うように動画を説明するよう要求し、短い概要から徐々に詳細な情報を追加していきます。このアプローチにより、言語のフレームワーク内にビデオ情報のより確かな部分が保持されます。ビデオは視覚的および聴覚的な信号を含んでいるため、FAVDタスクではオーディオの説明も総合的な描写を向上させるために組み込まれています。このタスクの実行をサポートするために、Fine-grained Audible Video Description Benchmark（FAVDBench）という新しいベンチマークが構築されました。FAVDBenchはYouTubeから収集された11,000以上のビデオクリップで構成されており、70以上の実生活のカテゴリをカバーしています。注釈には簡潔な1文の概要と、ビジュアル要素に関する4〜6文の詳細なセンテンス、オーディオに関する1〜2文のセンテンスが含まれており、包括的なデータセットとなっています。 FAVDタスクを効果的に評価するために、2つの新しいメトリックが考案されました。最初のメトリックであるEntityScoreは、ビデオから説明文への情報の伝達を評価し、視覚的な説明文内のエンティティの包括性を測定します。2番目のメトリックであるAudioScoreは、事前学習済みのオーディオ・ビジュアル・言語モデルの特徴空間内でオーディオの説明の品質を定量化します。研究者たちは、新しく導入されたタスクのための基礎モデルを提供しています。このモデルは、確立されたエンドツーエンドのビデオキャプションフレームワークを基にしており、さらにオーディオブランチが追加されています。さらに、ビジュアル言語トランスフォーマーからオーディオ・ビジュアル・言語トランスフォーマー（AVLFormer）への拡張も行われています。AVLFormerは、以下に示すようなエンコーダ・デコーダ構造の形式です。 https://arxiv.org/abs/2303.15616 ビデオクリップとオーディオをそれぞれ処理するために、ビジュアルエンコーダとオーディオエンコーダが適応され、マルチモーダルトークンの結合が可能となっています。ビジュアルエンコーダはビデオスウィン・トランスフォーマーを使用し、オーディオエンコーダはパッチアウトオーディオトランスフォーマーを利用しています。これらのコンポーネントは、ビデオフレームとオーディオデータからビジュアルとオーディオの特徴を抽出します。トレーニング中には、マスクされた言語モデリングや自己回帰言語モデリングなどの他のコンポーネントも組み込まれます。AVLFormerは、以前のビデオキャプションモデルからのインスピレーションを得て、テキストの記述も入力として使用します。テキストを特定のフォーマットに変換するために、ワードトークナイザと線形埋め込みが使用されます。トランスフォーマーはこのマルチモーダル情報を処理し、入力として与えられたビデオの詳細な説明を出力します。以下には、定性的な結果のいくつかの例と最新の手法との比較が報告されています。 https://arxiv.org/abs/2303.15616 結論として、研究者たちは、細かい音声付きビデオの説明のための新しいビデオキャプションタスクFAVDと、教師付きトレーニングのための新しいベンチマークFAVDBenchを提案しています。さらに、彼らはFAVDタスクに対処するための新しいトランスフォーマーベースのベースラインモデルAVLFormerを設計しました。興味があり、詳細を知りたい場合は、以下に引用されたリンクを参照してください。

「リリに会ってください：マッキンゼーの内部生成AIツール、洞察力を解き放ち、コンサルティングの効率を向上させる」

効率的かつ効果的な知識伝達の追求は、コンサルティングの世界で長年続いてきた課題です。コンサルティング業界の先駆者であるマッキンゼーは、自社の洞察力の膨大な貯蔵庫を活用する難しさを認識し、プロセスを効率化する方法を模索しました。多くの専門家、大量の文書、グローバルネットワークを持つにもかかわらず、これらのリソースを検索、統合、適用する作業は時間がかかるため、ビジネス価値を迅速に提供する能力を制限し、問題解決の枠組みを制約していました。特に初心者にとっては従来の研究方法は時間がかかり、経験豊富なプロフェッショナルでも、深い探求やネットワーキングには相当な時間投資が必要でした。さまざまな解決策が試みられましたが、これらのアプローチはしばしば制約がありました。特定の知識の取得においては改善されたかもしれませんが、企業の集合的な知恵を迅速にアクセスして活用するという多面的な課題を包括的に解決することはできませんでした。ここで、この問題に対するマッキンゼーの革新的な対応策である「Lilli」が登場します。Lilliは、マッキンゼーの広範な知識リソースにアクセスする方法を革新する生成型AIプラットフォームです。このAIパワードソリューションは、マッキンゼーの貴重な洞察力と専門知識に迅速にアクセスするためのシームレスかつ公正なプロセスを提供します。これは、コンサルタントが洞察力を適用する時間を探すことよりも多く費やすための洗練されたツールであり、会社の膨大な知的財産を実行可能な戦略に変換するためのものです。 Lilliの影響は計測可能であり、変革的です。このプラットフォームにより、プロジェクト計画の初期段階を自動化することで、エンゲージメントを始めるために必要な時間と努力が大幅に削減されます。関連する研究文書を特定することから関連する専門家を特定することまで、効率性は初心者のコンサルタントだけでなく、シニアの同僚にも、問題解決、コーチング、およびクライアントとのやり取りのような高い価値のあるタスクに時間を充てることを可能にします。さらに、LilliのAIの機能は単なる文書の検索に留まらず、多くの人にとって「考えの相手」として進化しており、質問の予測、議論の洗練、視点の広がりに役立っています。メトリクスはLilliの効力を物語っています。かつて数週間かかっていた調査やネットワーキングは、わずかな時間で済むようになりました。特にテクノロジー戦略を専門とするチームメンバーは、ミーティングの準備にかかる時間を最大20%節約し、自らの貢献の質を向上させることができます。このプラットフォームは文書を取得するだけでなく、新しい洞察力を生み出すことも可能であり、クライアントの問い合わせに関連する予想外かつ関連性のある例を発見するというチームメンバーの経験によって明らかにされています。Lilliの機能は、マッキンゼーの内部知識ベースだけでなく、外部ソースでも検索できるため、その汎用性が高まっています。 Lilliの導入は単なる技術的な成果にとどまらず、法務、サイバーセキュリティ、リスクマネジメント、人材開発などの分野の調整を必要としました。このプラットフォームの旅は、3人のチームから70人以上の専門家のコンソーシアムへと進化し、成功を保証するための献身を反映しています。QuantumBlackのGenAIの専門知識により、Lilliは何千人もの同僚に広範な展開が可能になり、企業の知識利用のアプローチを再構築しています。まとめると、マッキンゼーのLilliは、生成型AIの潜在能力を活用してコンサルティング業界を前進させる可能性を示す存在です。知識の獲得と活用の課題に巧妙に対応することで、Lilliはコンサルタントの創造的な潜在能力を引き出し、顧客に前例のない価値を提供します。この革新は時間を節約するだけでなく、問題解決や思考の新たな方法を促進し、技術が人間の専門知識を拡大して変革的な結果を生み出す方法を示しています。

「シームレスM4Tに出会ってください：Meta AIの新しいスピーチ翻訳の基盤モデル」

「音声は急速に基盤モデルの次のフロンティアの一つとなっています言語やコンピュータビジョンなどの領域がまだ主流ですが、音声はますます重要性を増しています...」

「Xbox PC Game PassがGeForce NOWに登場、25本の新しいゲームも同時に追加されます」

ゲーマーへのより多くの選択肢をもたらすため、NVIDIAとMicrosoftのコラボレーションの一環として、GeForce NOWにMicrosoft Storeの統合が追加されました。これにより、ゲーマーはXbox PC Game Passカタログの一部のタイトルをGeForce NOWでストリーミングできるようになります。統合は本日から開始されます。 Microsoft Storeの統合により、メンバーはサポートされているPCゲームで新しいXboxボタンを表示し、Microsoft Storeで単体のゲームを購入したか、アクティブなXbox Game Pass UltimateまたはPC Game Passのサブスクリプションを持っている場合には、これらのタイトルをデバイス間でシームレスに起動できます。最新のGamescomの発表に続いて、この秋にGeForce NOWに登場する4つの大ヒットタイトルがあります。それは、Alan Wake 2、Cyberpunk 2077: Phantom Liberty拡張、Party Animals、PAYDAY 3です。…

「全てのOECDおよびG20加盟国において、インドがAIスキルと人材で1位にランクされました」

技術の絶え間ない進化の中で、一つのスキルが輝く存在となりました。それが人工知能（AI）です。インドはその膨大な技術労働力を活かし、AIスキル競争のリードを取っています。この国のテックに精通した専門家たちはAIを受け入れ、自身のキャリアを再構築し、産業全体にイノベーションをもたらしています。ソフトウェアとサービス業協会（Nasscom）の報告書によると、インドはAI領域でのリーダーシップを発揮しています。この国は、すべてのOECDとG20の国の中でAIスキルの普及率とAI人材の集中度でトップのランキングを獲得しています。この記事では、インドがどのようにAIの領域でこの高みを達成し、その仕事の景観について語っています。また読む：サム・オルトマン氏とナレンドラ・モディ首相の重要な会談：インドのAIの未来を描くインドのAIリーダーシップ：ランキングと認識 Nasscomの報告書は、AIの統合への取り組みを示しています。さらに、インドはAI科学論文の世界ランキングで5位を獲得し、AI研究への貢献を強調しています。インドはG20とOECD諸国の中でAIスキル浸透率が最も高く、3.09という指標を示しています。これは、他の国々と比べて、インドのテック人材がAIスキルを持っている可能性が3倍高いことを示しています。大きな上昇：インドのAIスキルのブーム AIが主流になるという話題がスキルの向上の波を引き起こしました。LinkedInプラットフォームでは、2016年1月以来、インド人が自分のプロフィールにAIスキルを追加する数が驚異的に14倍増加しました。この急増は、職業の場でAIの重要性が増していることを強調しています。インドはテックのパワーハウスであり、47万人のテックに精通した労働力を持っています。それにもかかわらず、その大規模なテック人材プールにもかかわらず、インドはAIの専門家の不足という問題に直面しています。AIスキルの需要が急増しており、それはAIがさまざまなセクターで変革の力を持っていることを示しています。また読む：G20向けのAIベースのポータルを提案するインド：中小企業にとってのゲームチェンジャー需要と供給のジレンマ：インドのAI人材の探求インドはAIとデータサイエンスに従事している専門家416,000人を誇っていますが、今後数年間で213,000人の専門家のギャップが広がると予想されています。世界経済フォーラムによると、インドの雇用の景色が22%変化するという予測は、新興のAIの役割の重要性を一層強調しています。企業はAIの専門家を確保するためにあらゆる手段を講じています。生成的なAIの役割に対する求人は1年間で50%増加し、これらのポジションへの求職は驚異的な12,300%増加しました。AIの人材需要は否応なく存在し、企業はこれらの専門家を引き付け、確保するために相当な報酬を提供する意思があります。また読む：AWSとAccelが「ML Elevate 2023」を立ち上げ、インドのAIスタートアップエコシステムを力強くサポートギャップを埋める：インドのAIの進化 2022年8月時点で、インドのデータサイエンスとAIの専門家の需要は629,000人であり、人材基盤は416,000人に達しました。この大規模な人材プールにもかかわらず、国内には51%の需要と供給のギャップがあります。このギャップは、アメリカなどの主要な経済国と比べてはるかに低いですが、それでも重要です。インドのAIの雇用の景色は、MLエンジニア、データエンジニア、データサイエンティスト、データアーキテクト、DevOpsエンジニアという5つの主要な役割で占められています。これらの役割は、全国のAIの求人の73%を占めています。インドは160万人以上のデジタル人材プールを持ち、グローバルな人材ハブとして台頭しています。また読む：インドと海外でのAIエンジニアの給与[2023年版] 地域の違い：インド全国のAIの給与インドのシリコンバレーとも呼ばれるバンガロールは、機械学習（ML）の専門家の給与が最も高いです。一方、チェンナイの平均ML給与は全国平均の5%を下回っています。この違いは、AIの報酬における地域のニュアンスを示しています。さまざまなAIの役割には異なる報酬パッケージが付いています。機械学習エンジニア、データアナリスト、AI研究者は需要が高く、印象的な給与を得ています。コンピュータビジョンエンジニア、AIプロダクトマネージャー、AIコンサルタントも需要と報酬が増加しています。国境を越えて：AIの専門家のグローバルな機会インドの国境を超えて、AIの専門家は世界的に高い給与を受け取っています。NetflixのAIに特化したプロダクトマネージャーなどの役職は、6桁を超える報酬を提供しており、AIの専門知識への世界的な需要を示しています。Amazon、Google、ゴールドマン・サックスなどのテックジャイアントは、AIとMLの専門家に大きな投資をする意欲があります。また読む:…

「LoRAとQLoRAを用いた大規模言語モデルのパラメータ効率的なファインチューニング」

概要パラメータ効率の高いファインチューニング（PEFT）の世界に深く没入するにつれて、この革新的な手法の背後にある駆動要因と方法論を理解することが不可欠となってきます。この記事では、PEFT手法が大規模言語モデル（LLM）を特定のタスクに最適化する方法について探求します。PEFTの利点と欠点を解明し、PEFT技術の複雑なカテゴリについて掘り下げ、2つの注目すべき技術であるLow-Rank Adaptation（LoRA）とQuantized Low-Rank Adaptation（QLoRA）の内部動作を解読します。この旅は、これらの技術の包括的な理解を身につけることで、言語処理の取り組みにおいてその力を活用できるようにすることを目指しています。学習目標：事前学習済み言語モデルとNLPにおけるファインチューニングの概念を理解する。ファインチューニング大規模モデルにおける計算およびメモリ要件がもたらす課題について探求する。 Low-Rank Adaptation（LoRA）やQuantized Low-Rank Adaptation（QLoRA）などのPEFT技術について学ぶ。 PEFT手法の利点と欠点を見つける。 T-Few、AdaMix、MEFTなどのさまざまなPEFT手法を探求する。 LoRAとQLoRAの動作原理を理解する。 QLoRAがパラメータ効率を高めるためにどのように量子化を導入するかを学ぶ。 LoRAとQLoRAを使用したファインチューニングの実際の例を探索する。 PEFT技術の適用性と利点を理解する。 NLPにおけるパラメータ効率の高いファインチューニングの将来の展望を理解する。はじめに自然言語処理の刺激的な世界では、大規模な事前学習済み言語モデル（LLM）がこの分野を革新しました。ただし、特定のタスクにこれらの巨大なモデルをファインチューニングすることは、高い計算コストとストレージ要件のために困難を伴います。研究者はパラメータ効率の高いファインチューニング（PEFT）技術に取り組み、より少ない訓練可能なパラメータで高いタスクパフォーマンスを達成することを目指しています。事前学習済みLLMとファインチューニング事前学習済みLLMは、一般的なドメインの大量のデータでトレーニングされた言語モデルであり、豊富な言語パターンと知識を捉えることに優れています。ファインチューニングは、これらの事前学習済みモデルを特定の下流タスクに適応させることで、専門的なタスクで優れたパフォーマンスを発揮するためにその知識を活用します。ファインチューニングでは、事前学習済みモデルをタスク固有のデータセットで訓練し、元のトレーニングデータよりも一般的で集中したものにします。ファインチューニング中、モデルのパラメータはターゲットタスクのパフォーマンスを最適化するために調整されます。パラメータ効率の高いファインチューニング（PEFT）…

AutoGPTQをご紹介します：GPTQアルゴリズムに基づく使いやすいLLMs量子化パッケージで、ユーザーフレンドリーなAPIを提供します

Hugging Faceの研究者たちは、大規模な言語モデル（LLM）の訓練と展開における資源集約型の要求に対処するための革新的な解決策を紹介しました。彼らの新しく統合されたAutoGPTQライブラリは、Transformersエコシステム内でLLMをGPTQアルゴリズムを使用して量子化し、実行することをユーザーに可能にします。自然言語処理では、LLMは人間のようなテキストの理解と生成能力によって様々な領域を変革してきました。しかし、これらのモデルの訓練と展開には、計算上の要件が重要な障害となっています。そこで、研究者たちはAutoGPTQライブラリにGPTQアルゴリズムを統合しました。この進歩により、ユーザーはモデルを8ビット、4ビット、3ビット、または2ビットにまで減量化して実行できるようになります。特に小規模なバッチサイズに対しては、fp16のベースラインと比較して、ほとんどの精度劣化と同等の推論速度を維持しながらモデルを実行できます。 GPTQは、メモリ効率と計算速度のトレードオフを最適化するためのポストトレーニング量子化（PTQ）手法として分類されます。この手法では、モデルの重みはint4で量子化され、アクティベーションはfloat16で保持されます。推論中に重みは動的に量子化解除され、実際の計算はfloat16で行われます。このアプローチにより、融合カーネルベースの量子化解除によるメモリの節約と、データ通信時間の短縮を通じた潜在的な高速化がもたらされます。研究者たちは、GPTQにおける層ごとの圧縮の課題に対処するために、Optimal Brain Quantization（OBQ）フレームワークを活用しました。彼らは、モデルの精度を維持しながら量子化アルゴリズムを最適化するための最適化手法を開発しました。従来のPTQ手法と比較して、GPTQは量子化の効率を大幅に改善し、大規模モデルの量子化にかかる時間を短縮しました。 AutoGPTQライブラリとの統合により、ユーザーはさまざまなトランスフォーマーアーキテクチャで簡単にGPTQを活用できるようになります。Transformersライブラリでのネイティブサポートにより、複雑なセットアップなしでモデルを量子化できます。特に、量子化されたモデルはHugging Face Hubなどのプラットフォームでシリアル化および共有可能であり、より広範なアクセスと共同作業の可能性を開くことができます。この統合は、Text-Generation-Inferenceライブラリ（TGI）にも拡張されており、GPTQモデルを効率的に本番環境で展開することができます。ユーザーは、最適なリソース利用のためにGPTQとともにダイナミックバッチングなどの高度な機能を活用することができます。 AutoGPTQの統合は重要な利点をもたらしますが、研究者たちはさらなる改善の余地も認識しています。彼らは、カーネルの実装の向上や、重みとアクティベーションを含む量子化手法の探索の可能性について言及しています。現在の統合は、LLMのデコーダーまたはエンコーダーのみのアーキテクチャに焦点を当てており、特定のモデルにのみ適用されます。まとめると、Hugging FaceのTransformersにAutoGPTQライブラリを統合することで、資源集約型のLLMの訓練と展開の課題に取り組んでいます。GPTQ量子化を導入することで、メモリ消費と推論速度を最適化する効率的な解決策を提供しています。統合の広範なカバレッジとユーザーフレンドリーなインターフェースは、異なるGPUアーキテクチャでの量子化LLMへのアクセスを民主化する一歩となっています。この分野が進化し続ける中、機械学習コミュニティの研究者たちの協力によってさらなる進歩とイノベーションが期待されています。

Learn more about Search Results A - Page 266