Learn more about Search Results Discord - Page 5

大規模言語モデル(LLM)の微調整

この投稿では、事前学習されたLLMをファインチューニング(FT)する方法について説明しますまず、FTの重要な概念を紹介し、具体的な例を示して終わります

「アルテアナのアートスクワッド」が結成されるーインディーショーランナーのラフィ・ニザムが予算内で高品質な子供向け番組を制作する

編集者の注:この投稿は、私たちの週刊「NVIDIA Studio」シリーズの一部であり、注目されるアーティストを紹介し、クリエイティブなヒントやトリックを提供し、NVIDIA Studioテクノロジーがクリエイティブなワークフローを向上させる方法を示しています。さらに、新しいGeForce RTX 40シリーズGPUの機能、技術、リソースについて詳しく調査し、コンテンツ作成を劇的に加速する方法についても掘り下げています。 Rafi Nizamは、受賞歴のある独立系アニメーター、ディレクター、キャラクターデザイナーなどです。彼はソニー・ピクチャーズで映画を制作し、BBCで子供向けシリーズやコメディを制作し、NBCユニバーサルでグローバルなトランスメディアコンテンツを制作してきました。 彼はまた、アルテアナのアートスクワッドのクリエイターでもあります。このコンピューターグラフィックスのアニメーションシリーズは、アートの力を使って世界の問題を解決する活気あるキャラクターたちが登場します。彼らはジュニアスクールの美術教室で集まり、それぞれが独自の芸術的な才能、知識、芸術史、アートセラピー、アート制作に対する見解を持ち寄ります。 このシリーズは子供たちを対象にしており、キャラクターの芸術的な旅と創造的な表現力の力に触発されることを目指しています。彼らの冒険は、自己疑念、社会的ダイナミクス、成功と失敗といった普遍的なテーマを探求することで共感の感覚を引き起こすことを意図しています。想像力と創造的思考の力を強調することも共通のテーマです。 Nizamの創造的な洞察力と独自の視点は、今週のNVIDIA Studioの企画の対象となっています。 最近、このアーティストはASUS ProArt Masters’ Talksセッションプログラムに参加し、ASUS ProArtのソリューション(GeForce RTX 3060 GPUを搭載したNVIDIA Studio認定のProArt Studiobook Pro 16 OLEDラップトップやNVIDIA…

このAIニュースレターは、あなたが必要なすべてです#63

「AIの今週のハイライトでは、Large Language Models(LLM)の採用による西洋市場での収益成長のさらなる証拠と、新しいAIモデルの導入を紹介しています...」

「ChatGPTは本当に中立なのか?AIによる対話エージェントの政治的バイアスに関する実証的研究」

イギリスとブラジルの研究者による最近の調査は、OpenAIが開発した人気のあるAI言語モデルであるChatGPTの客観性に関する懸念を明らかにしました。研究者たちは、ChatGPTの応答には明らかな政治的なバイアスがあり、政治的スペクトルの左側に傾いていることを発見しました。彼らはこのバイアスが、従来のメディアに存在する既存のバイアスを持続させ、政策立案者、メディア機関、政治団体、教育機関などの様々な利害関係者に影響を与える可能性があると主張しています。 現在、ChatGPTは入力プロンプトに基づいて人間らしいテキストを生成するために使用される主要なAI言語モデルの一つです。さまざまなアプリケーションにおける多目的なツールとしての実績を示していますが、応答におけるバイアスの出現は重要な課題を提起しています。以前の研究ではAIモデルのバイアスに関する懸念が指摘され、公正でバランスの取れた出力を確保するためにこれらのバイアスを緩和することの重要性が強調されています。 ChatGPTの特定のバイアスに対応するため、イギリスとブラジルの研究者チームが、ChatGPTが政治的なコンパスの質問や、AIモデルが民主党員と共和党員の両方の人物像を演じるシナリオに対する応答を分析することを目的とした研究を発表しました。 研究者たちはChatGPTの政治的な傾向を測定するために経験的な手法を採用しました。彼らはアンケートを使用してAIモデルの政治的な問題や文脈に対するスタンスを評価しました。さらに、ChatGPTが平均的な民主党員と共和党員の人物像を演じる場面も調査しました。研究の結果は、バイアスが機械的な結果ではなく、AIモデルの出力に意図的な傾向があることを示唆しています。研究者たちは、トレーニングデータとアルゴリズムの両方を調査し、観察されたバイアスに両方の要素が寄与していると結論づけました。 研究の結果は、ChatGPTの応答におけるかなりのバイアスを示し、特に民主党寄りの視点を好む傾向があることを示しました。このバイアスは米国にとどまらず、ブラジルやイギリスの政治的文脈に関連する応答でも明らかになりました。この研究は、バイアスのあるAI生成コンテンツが様々な利害関係者に与える潜在的な影響を明らかにし、バイアスの源についてさらなる調査が必要であることを強調しています。 AIによるChatGPTなどのツールの影響力の増大を考えると、この研究は公正で偏りのないAI技術を確保するための警鐘となります。AIモデルのバイアスに対処することは、既存のバイアスを持続させずに客観性と中立性の原則を守るために重要です。AI技術がさまざまなセクターに進化し拡大するにつれて、開発者、研究者、利害関係者がバイアスを最小限に抑え、倫理的なAI開発を推進するために共同で取り組むことが不可欠となります。ChatGPT Enterpriseの導入は、AIツールが効率的だけでなく、バイアスのない信頼性のあるものであることを確保するための堅牢な手段の必要性をさらに強調しています。 論文をご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している29k+ ML SubReddit、40k+ Facebook コミュニティ、Discord チャンネル、およびメールニュースレターにぜひ参加してください。 もし私たちの活動が好きなら、ニュースレターも気に入るでしょう。 この記事は、AI駆動型の会話エージェントにおける政治的バイアスに関する経験的な研究についてのものです。MarkTechPostに最初に掲載されました。

「生成AIゴールドラッシュで誰がお金を稼ぐのか?」

「創発型AIのゴールドラッシュに備えよ!ビッグテックはピックとシャベルで支配するのか?どのスタートアップが成功するのか?「Xのための共同運転者」が黄金を手にするビジネス戦略になるのか?他の探鉱者を遠ざけるための堀をスタートアップが掘る方法は?そして、再びアメリカは…」

このAIニュースレターは、あなたが必要とするすべてです#62

今週は、METAのコーディングモデルの開発とOpenAIの新しいファインチューニング機能の進展を見てきましたMetaは、Code LLaMAという大規模な言語モデルを導入しましたこのモデルは…

UCLとGoogleの研究者が提案する「AudioSlots:オーディオドメインの盲目的なソース分離のためのスロット中心の生成モデル」

最近、集合構造化データ上で動作するアーキテクチャにおけるニューラルネットワークの使用と、非構造化入力から集合構造化出力空間へのマッピングを学習することが注目されています。特に、ビジョン領域でのオブジェクトの識別と非教示的なオブジェクトの発見において、スロット中心型またはオブジェクト中心型のシステムがサポートされています。これらのオブジェクト中心型のアーキテクチャは、順列同変性の内在的な帰納バイアスを持つため、音声の分離に適しています。本論文では、これらのアーキテクチャからのキーコンセプトの応用を通じて、音声ソースを内部情報や混合プロセスに関する情報を持たずに混合音声信号から区別することを目的としています。 図1:アーキテクチャの概要:入力波形を切り取った後、スペクトログラムが作成されます。その後、ニューラルネットワークはスペクトログラムを順列不変なソース埋め込み(s1…n)のセットにエンコードし、それらをデコードして異なるソーススペクトログラムのコレクションを生成します。マッチングベースの順列不変損失関数は、グラウンドトゥルースのソーススペクトログラムを使用してパイプライン全体を監視します。 音の分離は、ソースの順序がランダムであるため、集合ベースの問題です。混合音声スペクトログラムから順序のない一連の別々のソーススペクトログラムへのマッピングが学習され、音の分離の課題は順列不変条件付き生成モデリング問題としてフレーム化されます。彼らの技術であるAudioSlotsを使用することで、音声は各ソースごとに異なる潜在変数に分割され、それらはソース固有のスペクトログラムを提供するためにデコードされます。これはTransformerアーキテクチャに基づくエンコーダーとデコーダー関数を使用して作成されます。これは順列同変性を持ち、ソースの潜在変数の順序に依存しない(「スロット」とも呼ばれる)ため、その独立性を保ちます。彼らは、このようなアーキテクチャの可能性を評価するために、マッチングベースの損失を使用してAudioSlotsをトレーニングし、混合音声入力から独立したソースを生成します。 ロンドン大学とGoogle Researchの研究者は、AudioSlotsというスロット中心の音声スペクトログラムの生成アーキテクチャを提案しています。彼らは、AudioSlotsが音声ソースの分離の問題に構造化生成モデルを利用する可能性を示しています。ただし、高周波特徴の再構築品質が低いなど、AudioSlotsの現在の実装にはいくつかの欠点があります。また、独立した音声ソースを監視する必要があります。これらの問題は解決できる可能性があると自信を持っており、さまざまな研究の可能性のいくつかを示唆しています。 彼らは、Libri2Mixからの簡単な2つのスピーカーボイス分離課題で彼らの手法を実演しています。スロット中心の生成モデルによる音の分離は有望ですが、いくつかの困難も伴います:提示されたモデルのバージョンでは、高周波詳細を生成することが難しく、独立して予測された音声チャンクを縫い合わせるためにヒューリスティックを使用し、トレーニングには依然としてグラウンドトゥルースの参照音声ソースが必要です。彼らの将来の研究では、研究で提供される潜在的なルートについて、これらの困難が克服される可能性があると楽観的です。ただし、彼らの結果は主にこのアイデアの概念実証として役立ちます。 この論文をチェックしてください。最新のAI研究ニュースやクールなAIプロジェクトなどを共有している22k+ ML SubReddit、Discordチャンネル、Emailニュースレターに参加するのを忘れないでください。上記の記事に関する質問や見落としがあれば、お気軽に[email protected]までメールでお問い合わせください。 AI Tools Clubの100以上のAIツールをチェックアウト この記事は、MarkTechPostで最初に表示されました。

Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です

最近の進歩により、コンピュータは人間の視覚のように、世界から視覚情報を解釈し理解することができるようになりました。画像と動画から情報を処理、分析、抽出することを含みます。コンピュータビジョンは、視覚解釈を必要とするタスクの自動化を実現し、手作業の介入を減らすことができます。オブジェクト検出は、画像やビデオフレーム内の複数の興味深いオブジェクトを識別し、位置を特定するコンピュータビジョンのタスクです。 オブジェクト検出は、シーン内に存在するオブジェクトを判別し、それらが画像内のどこに位置しているかに関する情報を提供することを目指しています。ほとんどの現代のオブジェクト検出器は、領域とクラスラベルの手動注釈に依存していますが、これにより語彙サイズが制限され、さらなるスケーリングが高価になります。 代わりに、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるために、ビジョン-言語モデル(VLM)を使用することができます。ただし、そのようなモデルの事前学習プロセスでオブジェクト/領域の概念を適切に活用する必要があります。 Google Brainの研究者らは、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるためのシンプルなモデルを提案しています。彼らは、領域に意識を持たせたオープンボキャブラリービジョントランスフォーマー(RO-ViT)を提案しています。 RO-ViTは、オープンボキャブラリーオブジェクト検出のために、ビジョントランスフォーマーを領域に意識した方法で事前学習するためのシンプルな手法です。通常の事前学習では、画像全体の位置埋め込みが必要ですが、研究者は、全画像の位置埋め込みの代わりに、ランダムに領域の位置埋め込みを切り取り、リサイズすることを提案しています。これを「切り取られた位置埋め込み」と呼びます。 研究チームは、焦点損失を使用した画像テキストの事前学習が既存のソフトマックスCE損失よりも効果的であることを示しています。また、さまざまな新しいオブジェクト検出技術も提案しています。彼らは、既存のアプローチでは、オブジェクトの候補のステージで新しいオブジェクトを見逃すことがよくあると主張しています。なぜなら、候補はよりバランスが取れる必要があるからです。 チームは、モデルRO-ViTが最先端のLVISオープンボキャブラリー検出ベンチマークを達成していると述べています。その統計によると、イメージテキスト検索ベンチマークの12メトリックのうち9つでそれを達成しているとのことです。これは、学習された表現が領域レベルで有益であり、オープンボキャブラリー検出で非常に効果的であることを反映しています。 オブジェクト検出技術の進歩に伴い、責任ある開発、展開、規制が重要になります。その正の影響を最大化し、潜在的なリスクを軽減するためです。全体として、オブジェクト検出技術の持続的な進歩は、産業の革新、安全性と生活の質の向上、かつてはSFと考えられていたイノベーションを実現することによって、より明るい未来に貢献することが期待されています。 論文とGoogleブログをチェックしてください。この研究に関しては、このプロジェクトの研究者によるものです。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している29k+のML SubReddit、40k+のFacebookコミュニティ、Discordチャンネル、Emailニュースレターにもぜひ参加してください。 私たちの業績が気に入ったら、ニュースレターも気に入るでしょう。 この記事はMarkTechPostで最初に公開されました。Googleの研究者は、オープンボキャブラリー検出を改善するために、リージョンに意識した方法でビジョントランスフォーマーを事前学習する単純なAI手法、RO-ViTを紹介しました。

ウィスコンシン大学マディソン校の研究者たちは、「エベントフルトランスフォーマー:最小限の精度損失でコスト効果のあるビデオ認識手法」というタイトルで、イベントフルトランスフォーマーに基づくビデオ認識の費用対効果の高い手法を提案しています

最近、言語モデリングを目的としたTransformerは、ビジョン関連のタスクのアーキテクチャとしても研究されています。オブジェクトの識別、画像の分類、ビデオの分類などのアプリケーションにおいて最先端のパフォーマンスを発揮し、さまざまな視覚認識の問題において優れた精度を示しています。ビジョンTransformerの主な欠点の1つは、高い処理コストです。ビジョンTransformerは、通常の畳み込みニューラルネットワーク(CNN)に比べて、数百GFlopsの処理が1枚の画像に対して必要となることもあります。ビデオ処理にかかるデータ量の多さは、これらの費用をさらに増加させます。この興味深い技術の潜在能力は、リソースが少ないデバイスや低遅延が必要なデバイスで使用することを妨げる高い計算要件によって制約されています。 ビデオデータと一緒に使用する場合、ビジョンTransformerのコストを削減するために、連続する入力間の時間的冗長性を活用する最初の手法の1つが、ウィスコンシン大学マディソン校の研究者によって提案されました。フレームごとまたはクリップごとにビデオシーケンスに適用されるビジョンTransformerを考えてみてください。このTransformerは、フレームごとのモデル(オブジェクト検出など)や時空間モデルの過渡的なステージ(初期の因子分解モデルなど)のようなものかもしれません。彼らは、時間を超えて複数の異なる入力(フレームまたはクリップ)にTransformerが適用されると考えています。これは、言語処理とは異なり、1つのTransformer入力が完全なシーケンスを表すものです。自然な動画は高い程度の時間的冗長性を持ち、フレーム間の変動が少ない傾向があります。しかし、これにもかかわらず、このような状況でも、Transformerなどの深層ネットワークは各フレームで頻繁に「ゼロから」計算されます。 この方法は効率的ではありません。なぜなら、それによって以前の結論からの潜在的に有用なデータが捨てられてしまうからです。彼らの主な洞察は、以前のタイムステップの中間計算を再利用することで冗長なシーケンスをより良く活用できるということです。知的推論。ビジョンTransformer(および深層ネットワーク全般)の推論コストは、設計によって決まることがよくあります。ただし、実際のアプリケーションでは、利用可能なリソースは時間とともに変化する可能性があります(たとえば、競合するプロセスや電源の変更など)。そのため、計算コストをリアルタイムに変更できるモデルが必要です。本研究では、適応性が主な設計目標の1つであり、計算コストに対してリアルタイムの制御を提供するためにアプローチが作成されています。映画の中で計算予算をどのように変更するかの例については、図1(下部)を参照してください。 図1:この戦略は、連続するモデル入力間の時間的なオーバーラップを利用しています。(上)各Transformerブロック内で、時間の経過に伴って大幅な変更が加えられたトークンのみを検出および更新します。 (下)このソリューションは、効率性を向上させるだけでなく、実行時に計算コストを細かく制御することも可能です。 以前の研究では、CNNの時間的冗長性と適応性に関して調査されてきました。しかし、TransformerとCNNの間には重要なアーキテクチャの違いがあるため、これらのアプローチは通常、Transformerのビジョンには互換性がありません。特に、Transformerは複数のCNNベースの手法から逸脱した、新しい基本的な手法である自己注意を導入しています。しかし、このような障害にもかかわらず、ビジョンTransformerには大きな可能性があります。特に、時空間的な冗長性を考慮に入れることで獲得されるCNNのスパース性を実際の高速化に転送することは難しいです。これを行うには、スパース構造に大きな制約を課すか、特別な計算カーネルを使用する必要があります。一方、トークンベクトルの操作に焦点を当てたTransformerの性質により、スパース性をより短い実行時間に転送することはより簡単です。イベントを持つTransformer。 効果的で適応性のある推論を可能にするために、彼らはイベントフルTransformerという新しいタイプのTransformerを提案しています。イベントフルという言葉は、シーンの変化に応じて疎な出力を生成するセンサーであるイベントカメラを指すために作られました。イベントフルTransformerは、時間の経過に伴うトークンレベルの変化を追跡するために、各タイムステップでトークンの表現と自己注意マップを選択的に更新します。ゲーティングモジュールは、更新されるトークンの量をランタイムで制御するためのイベントフルTransformerのブロックです。彼らのアプローチは、さまざまなビデオ処理アプリケーションと共に動作し、再トレーニングなしで既存のモデルに使用することができます。彼らの研究は、最先端のモデルから作成されたイベントフルTransformerが、計算コストを大幅に削減しながら元のモデルの精度をほぼ保持することを示しています。 彼らのソースコードは、イベントフルトランスフォーマーを作成するためのPyTorchモジュールが公開されています。Wisionlabのプロジェクトページは、wisionlab.com/project/eventful-transformersにあります。CPUとGPUでは、壁時計の速度向上が示されています。彼らのアプローチは、標準的なPyTorchオペレータに基づいているため、技術的な観点からは最適とは言えないかもしれません。彼らは、オーバーヘッドを減らすための作業(ゲーティングロジックのための融合CUDAカーネルの構築など)を行うことで、速度向上比率がさらに高まる可能性があると確信しています。さらに、彼らのアプローチには、ある程度避けられないメモリオーバーヘッドが生じます。当然のことながら、一部のテンソルをメモリ上に保持することは、以前の時間ステップからの計算の再利用に必要です。 論文をチェックしてください。この研究に関する全てのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素敵なAIプロジェクトなどを共有している2.9万人以上のML SubReddit、4万人以上のFacebookコミュニティ、Discordチャンネル、およびメールニュースレターにも参加するのを忘れないでください。 私たちの活動が気に入ったなら、ニュースレターも気に入るはずです。 この投稿は、「ミニマルな精度損失を伴うコスト効果的なビデオ認識手法であるイベントフルトランスフォーマーについて、ウィスコンシン大学マディソン校の研究者が提案しました」という記事です。 (翻訳元:MarkTechPost)

「2023年の最高のAIアバタージェネレーター10選」

ゲームの冒険に最適なバーチャルなキャラクターを選ぶというスリルを覚えていますか?今日では、バーチャルなアイデンティティはゲームを超えて私たちのオンラインの生活に溶け込んでいます。それらは単なる遊びではなく、ソーシャルメディアやデジタルプラットフォーム上で私たちを表すものです。AIアバタージェネレータは、個人のためにパーソナライズされたアバターを作成するために広く使用されています。この記事では、10の最高のAIアバタージェネレータについてご紹介します。 AIアバタージェネレータとは何ですか? ニューラルネットワークと人工知能アルゴリズムを使用して、AIアバタージェネレータは個々の人やチームのためにパーソナライズされたアバターを作成します。ユーザーは自分のセルフィー、肖像画、全身画像、またはテキストのプロンプトをアップロードしてパーソナライズされたアバターを生成する必要があります。これらは、倫理的な懸念に沿ってプライバシーを保ちながら機能します。 異なるAIアバタージェネレータは、革新的で創造的なアバターを生成するためのユニークな機能を提供しています。一部のAIアバタージェネレータは自動化されていますが、他のものはユーザーのニーズに応じてカスタマイズ可能です。ユニークなアバターを作成する目的は、AIアバタージェネレータを選ぶ際の決定基準の一つであるべきです。 トップ10のAIアバタージェネレータ 以下は、参考のための有料および無料のトップ10のAIアバタージェネレータのリストです: PicsArt Synthesia Aragon Fotor AIアバタージェネレータ Lensa AIマジックアバター Magic AIアバター Reface Dawn AI Starry AI Photoleap PicsArt PicsArtは他のソフトウェアアプリとは異なり、テキストやプロンプトを必要としません。ユーザーはアバターを生成するためにプリセットを選択し、好みに応じてカスタマイズする必要があります。アバターはギャラリーから画像を選択して生成することができます。PicsArtでは、AndroidやiPhoneであれば、10から30枚の写真で50から200のアバターを作成することができます。 無料版ではアバターの生成は利用できません。プレミアム機能を利用するためには、ソフトウェアの有料版にアクセスする必要があります。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us