Search Results A

「パッチのせいかもしれませんか？このAIアプローチは、ビジョントランスフォーマーの成功における主要な貢献要素を分析します」

畳み込みニューラルネットワーク（CNN）はコンピュータビジョンのタスクのバックボーンとなってきました。オブジェクト検出から画像の超解像まで、あらゆる問題に対して、CNNは行き先アーキテクチャとなっています。実際には、深層学習領域での有名な飛躍（例：AlexNetなど）は、畳み込みニューラルネットワークのおかげで可能になりました。しかし、Transformerモデルに基づいた新しいアーキテクチャであるVision Transformer（ViT）が現れ、特に大規模なデータセットにおいて古典的な畳み込みアーキテクチャを圧倒し、有望な結果を示したことで状況は変わりました。それ以来、この分野では長年にわたってCNNで対処されてきた問題に対してViTベースのソリューションを可能にしようとしています。 ViTは、画像を処理するために自己注意層を使用しますが、これらの層の計算コストはピクセルごとの画像の数に対して二次的にスケーリングされます。そのため、ViTはまず画像を複数のパッチに分割し、それらを線形的に埋め込み、そのパッチのコレクションに直接Transformerを適用します。元のViTの成功に続いて、多くの研究がViTアーキテクチャを改良してパフォーマンスを向上させました。自己注意を新しい操作で置き換える、他の小さな変更を行うなど。しかし、これらの変更にもかかわらず、ほとんどのViTアーキテクチャは共通のシンプルなテンプレートに従います。すべてのネットワークはネットワーク全体で均等なサイズと解像度を維持し、交互のステップで空間とチャネルのミキシングを実現することで等方性の振る舞いを示します。さらに、すべてのネットワークはパッチの埋め込みを使用してネットワークの開始時にダウンサンプリングを可能にし、シンプルで均一なミキシング設計を容易にします。このパッチベースのアプローチは、すべてのViTアーキテクチャの共通の設計選択肢であり、全体の設計プロセスを簡素化します。そこで、質問が出てきます。ビジョンTransformerの成功は、主にパッチベースの表現によるものですか？それとも、自己注意やMLP（Multi-Layer Perceptron）などの高度で表現豊かな技術の使用によるものですか？ビジョンTransformerの優れたパフォーマンスに貢献する主要な要素は何でしょうか。それを確かめる方法があり、それはConvMixerと呼ばれています。 ConvMixerの概要。出典：https://openreview.net/forum?id=rAnB7JSMXL ConvMixerは、ViTのパフォーマンスを分析するために開発された畳み込みアーキテクチャです。それはViTと多くの点で非常に似ています：画像のパッチに直接作用し、ネットワーク全体で一貫した解像度を維持し、画像の異なる部分での空間的なミキシングとチャネルごとのミキシングを分離します。ただし、ConvMixerの重要な違いは、Vision TransformerやMLP-Mixerモデルで使用される自己注意メカニズムとは異なり、標準の畳み込み層を使用してこれらの操作を実現することです。結果として、深度方向とポイント方向の畳み込み演算は、自己注意やMLP層よりも計算コストが低くなります。この極めてシンプルなConvMixerは、同じパラメータ数を持つResNetなどの「標準的な」コンピュータビジョンモデル、および対応するViTやMLP-Mixerのバリアントよりも優れた性能を発揮します。これは、パッチベースの等方性のミキシングアーキテクチャが、よく行動するミキシング操作のほとんどの選択肢とうまく機能する強力なプリミティブであることを示しています。 ConvMixerは、標準の畳み込みのみを使用して、パッチ埋め込みの空間的およびチャネルの位置を独立してミキシングします。これは、ViTやMLP-Mixerの大きな受容野に触発された大きなカーネルサイズを使用することで、大幅なパフォーマンス向上を実現することができます。最後に、ConvMixerは、将来のパッチベースのアーキテクチャにおける新しい操作のベースラインとして機能することができます。

「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル（TAM）を提案する」

ビデオアイテムトラッキング（VOT）は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の基盤です。ビデオオブジェクトセグメンテーション（VOS）は、VOTと同様に、ビデオの興味領域を識別し、フレームの残りから分離する技術です。現在の最高のビデオトラッカー/セグメンターは、セグメンテーションマスクまたはバウンディングボックスで初期化され、大規模な手動注釈付きデータセットでトレーニングされています。一方で、大量のラベル付きデータは膨大な人的労力を隠しています。また、半教師ありのVOSでは、現在の初期化パラメータの下で初期化のために一意のオブジェクトマスクの正解が必要です。 Segment-Anythingアプローチ（SAM）は、画像のセグメンテーションの包括的なベースラインとして最近開発されました。柔軟なプロンプトとリアルタイムのマスク計算により、対話的な使用が可能であり、ポイント、ボックス、または言語の形式でユーザーフレンドリーな提案が与えられた場合、SAMは指定された画像領域に対して満足のいくセグメンテーションマスクを返すことができます。しかし、SAMを直ちにビデオに適用した場合、時間的な一貫性の欠如により、研究者は目の覚ましいパフォーマンスを見ることはありません。 SUSTech VIP Labの研究者は、ビデオオブジェクトの追跡とセグメンテーションのための強力なツールを提供するTrack-Anythingプロジェクトを紹介します。Track Anything Model（TAM）は、直感的なインターフェースを持ち、単一の推論ラウンドでビデオ内の任意のオブジェクトをトラッキングおよびセグメンテーションすることができます。 TAMは、大規模なセグメンテーションモデルであるSAMを拡張し、最新のVOSモデルであるXMemを組み合わせたものです。ユーザーは、SAMを対話的に初期化することにより、対象オブジェクトを定義できます（つまり、オブジェクトをクリックする）。次に、XMemは時間的および空間的な対応に基づいて次のフレームのオブジェクトのマスク予測を提供します。最後に、SAMはより正確なマスクの説明を提供します。ユーザーは、トラッキングの過程でトラッキングの失敗に気付いたら一時停止して修正することができます。 TAMの分析には、DAVIS-2016の検証セットとDAVIS-2017のテスト開発セットが使用されました。特に、研究結果は、TAMが困難で複雑な環境で優れたパフォーマンスを発揮することを示しています。TAMは、クリックの初期化だけでマルチオブジェクトの分離、ターゲットの変形、サイズ変更、カメラの動きをうまく処理する能力により、優れた追跡およびセグメンテーション能力を示しています。提案されたTrack Anything Model（TAM）は、以下に限定されない適応型ビデオトラッキングとセグメンテーションのさまざまなオプションを提供します：素早く簡単なビデオの転写：TAMは、映画の興味領域を分離し、ユーザーが追跡およびセグメンテーションしたいアイテムを選択できるようにします。これは、ビデオの注釈（ビデオオブジェクトの追跡およびセグメンテーションなど）に使用することができます。オブジェクトの長期間の観察：長期の追跡は、多くの現実世界の用途があるため、研究者たちはますます関心を持っています。TAMの実世界の応用はより高度であり、長時間のビデオ内の頻繁なショットの変更に対応することができます。使いやすいビデオエディタ：Track Anything Modelにより、物事をカテゴリに分けることができます。TAMのオブジェクトセグメンテーションマスクを使用すると、映画内の任意のオブジェクトを選択的に切り取るか再配置することができます。ビデオ関連の活動の可視化および開発キット：チームはさまざまなビデオ操作（VOS、VOT、ビデオインペイントなど）のための可視化されたユーザーインターフェースも提供しており、それらの使用を容易にするためです。ユーザーは実世界の映像でモデルをテストし、ツールボックスでリアルタイムの結果を確認することができます。

このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています

ここ数年、大型言語モデル（LLM）（GPT4など）の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスクに優れています。最近の研究では、2Dビジュアルを理解し意味を理解することができる新しいタイプのマルチモーダルLLM（FlamingoやBLIP-2など）のための画像や動画の整合性に焦点を当てています。しかし、これらのモデルは、空間的な関連性、アフォーダンス、物理、相互作用など、現実の3D物理世界に存在するより深い概念とは異なるものに基づいているため、3D状況を理解し、その理解に基づいて推論と計画を行うことができるSF映画に登場するロボットのヘルパーと比較して無意味です。そのため、3Dワールドを大型言語モデルに組み込み、入力としてさまざまな3D関連のタスクを処理できる新しいクラスの3D-LLMを導入することを提案しています。図1 3D表現を使用すると、LLMは次の2つの点で利益を得ることができます：（1）エピソード的な部分的な観察ではなく、全体的な3D表現に完全なシーンの長期的なメモリを保存できます。（2）3D表現からの推論により、アフォーダンスや空間的なリンケージなどの3Dの特徴を推論することができ、言語または2D画像ベースのLLMよりも遥かに進んだ能力を持つことができます。提案された3D-LLMを訓練するためには、データ収集が重要な障壁となります。3Dデータの不足により、インターネット上の2D画像とテキストデータの豊富さとは対照的に、3Dデータを基にした基礎モデルを作成することが困難です。さらに困難なのは、言語的な説明と組み合わせた3Dデータを取得することです。この問題を解決するために、彼らは言語とリンクされた大量の3Dデータを提供する特異なデータ生成プロセスのコレクションを提案しています。彼らは、3Dデータと言語の間のコミュニケーションにChatGPTを使用した3つの効果的なプロンプティングプロセスを提供しています。図1に示されているように、これにより、3Dキャプション、デンスキャプション、3D質問応答、3Dタスク分解、3Dグラウンディング、3D支援対話、ナビゲーションなど、さまざまなタスクに関する情報を含む30万の3D言語データを取得できます。次の困難は、3D-LLMに対応する有用な3D属性を見つけることです。一つの方法は、CLIPに似た対比学習パラダイムを使用して、言語と2D画像を整列させることで、3Dエンコーダをゼロから訓練することです。ただし、このアプローチは多くのデータ、時間、およびGPUリソースを使用します。異なる視点から、アイデアフュージョンや3D-CLRなどの最近の取り組みでは、2Dマルチビュー写真から3D特徴を構築しています。これに対応するために、2D事前訓練済みの特徴から3D特徴を作成する3D特徴エクストラクタを使用しています。最近のビジュアル言語モデル（BLIP-2やFlamingoなど）は、2D事前訓練済みCLIP特徴を使用してVLMを訓練することを始めました。彼らは、2D VLMをバックボーンとして簡単に使用し、抽出された3D特徴を効果的に3D-LLMを訓練するための入力とすることができます。 3D LLMが情報の基になる3D空間的な感覚を持つことが予想される事実は、伝統的なLLMや2D VLMとは異なる重要な点であります。そのため、UCLA、上海交通大学、中国南方科技大学、イリノイ大学アーバナ・シャンペーン校、MIT、UMass AmherstおよびMIT-IBM Watson AI Labの研究者は、言語と地理的な場所を結び付ける3Dローカリゼーションシステムを作成しました。彼らは、取得した3D特徴に3D位置埋め込みを追加して、空間情報をより効果的にエンコードします。さらに、3D-LLMにいくつかの位置トークンを追加します。これにより、特定の景色の中の特定のアイテムの言語的な説明に基づいて、位置トークンを生成することにより、ローカリゼーションを訓練することができます。これにより、3D-LLMは3D空間データをより効果的に記録することができます。結論として、彼らの論文は以下の貢献を行っています： •彼らは、3Dポイントの入力を使用して、3D関連のタスクを処理できる新しい3Dベースの大規模言語モデル（3D-LLMs）の新しいファミリーを提示しています。彼らは、従来のまたは2D-LLMsの範囲外の活動、例えば全体のシーンの知識、3D空間の接続、利用可能性、および3D計画を含むものに重点を置いています。 •彼らは、3D言語の多くのデータを生成できる革新的なデータ収集パイプラインを作成しました。パイプラインに基づいて、彼らは3D関連の幅広い活動（3Dの基盤、密なキャプション、3Dの質問応答、タスク分解、3D支援対話、ナビゲーションなど）をカバーする30万以上の3D言語データポイントを含むデータセットを収集しました。 •彼らは、レンダリングされた複数の視点の画像を取り込み、有用な3D特徴を抽出する3D特徴抽出器を使用しています。彼らは、2Dの事前学習済みVLMを使用してトレーニングシステムを構築しました。3D-LLMsをより良い3D空間情報の収集に向けてトレーニングするために、3Dの位置推定手法を追加しました。 •実験では、ScanQAという保留評価データセットの方が最先端のベースラインよりも優れた結果を示しています。特に、3D-LLMsはベースライン（例：BLEU-1で9％）よりも優れたパフォーマンスを発揮しています。彼らの手法は、3Dキャプション作成、タスク作成、および3D支援対話のための保留データセットを使用したテストで2D VLMsを上回っています。質的な調査では、彼らの手法がさまざまなジョブをより詳細に処理できることが示されています。 •彼らは、今後の研究での使用のために、3D-LLMs、3D言語データセット、およびデータセットの言語に整列した3D特徴を利用可能にしたいと考えています。

マイクロソフトのAIチームがNaturalSpeech 2を発表：強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

テキストから音声（TTS）の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者の身元（性別、アクセント、音質など）、話し方や歌い方など、すべてが人間の音声の豊かさに寄与しています。ニューラルネットワークと深層学習の進歩により、TTSシステムの理解可能性と自然さは大幅に向上しており、一部のシステム（NaturalSpeechなど）は、単一話者のレコーディングスタジオのベンチマークデータセットで人間並みの音声品質に達しています。以前の話者制限型のレコーディングスタジオデータセットは、話者の身元、プロソディ、スタイルの多様性を捉えるのに十分ではありませんでした。しかし、フューショットまたはゼロショットの技術を使用することで、TTSモデルは大規模なコーパスでトレーニングされ、これらの違いを学習し、これらのトレーニングされたモデルを使用して無限の未知のシナリオに一般化することができます。連続的な音声波形を離散的なトークンに量子化し、これらのトークンを自己回帰言語モデルでモデリングすることは、現在の大規模TTSシステムでは一般的です。マイクロソフトの新しい研究では、表現豊かなプロソディ、良好な回復性、そして何よりも強力なゼロショット容量を持つ音声合成のための潜在的な拡散モデルを使用するTTSシステムであるNaturalSpeech 2を紹介しています。研究者たちは、音声波形を一連の潜在ベクトルに変換するコーデックエンコーダと、元の波形を回復するためのコーデックデコーダを使用するニューラルオーディオコーデックをトレーニングすることから始めました。音素エンコーダ、長さ予測子、ピッチ予測子から以前のベクトルを取得した後、彼らはこの潜在ベクトルを構築するために拡散モデルを使用します。以下は、彼らの論文で議論されているデザイン上の決定事項の例です：従来の方法では、音声は通常、神経コーデックの音声再構成の品質を保証するために多数の残余量子化器で量子化されます。これにより、結果として得られる離散トークンのシーケンスが非常に長くなり、音響モデル（自己回帰言語モデル）に大きな負担がかかります。代わりに、チームは連続ベクトルを使用しました。したがって、彼らは連続ベクトルを使用し、長さを短くし、粒度レベルで正確な音声再構成のためのより多くのデータを提供します。自己回帰モデルを拡散モデルに置き換える。拡散モデルとピッチ/長さ予測子でコンテキストで学習するための音声提示メカニズムを通じてコンテキストで学習する。チームは音声提示メカニズムを開発し、拡散モデルとピッチ/長さ予測子でコンテキストで学習を促進し、拡散モデルが音声提示の特性に従うようにすることでゼロショット容量を向上させました。 NaturalSpeech 2は、従来の自己回帰モデルよりも信頼性と安定性が高く、2段階のトークン予測ではなく、単一の音響モデル（拡散モデル）のみを必要とします。つまり、それは自身の長さ/ピッチ予測と非自己回帰生成を使用して、音声以外のスタイル（歌声など）に適用することができます。これらのアーキテクチャの効果を示すために、研究者たちはNaturalSpeech 2を400Mのモデルパラメータと44K時間の音声データでトレーニングしました。その後、さまざまな話者の身元、プロソディ、スタイル（歌唱など）においてゼロショットのシナリオ（わずか数秒の音声提示のみ）で音声を作成するために使用しました。その結果、NaturalSpeech 2は実験で従来の強力なTTSシステムを上回り、ゼロショットの条件下で自然な音声を生成します。音声提示とグラウンドトゥルースの音声とより似たプロソディを実現します。また、LibriTTSとVCTKのテストセットにおいて、グラウンドトゥルースの音声と比較して、同等またはより高い自然さ（CMOSに関して）を実現します。実験結果は、短い歌唱提示または興味深いことに、音声提示のみで、新しい音質で歌声を生成することができることも示しています。これにより、真のゼロショットの歌声合成が可能になります。将来、チームは一貫性モデルなどの効果的な方法を調査し、拡散モデルを高速化するための広範な話し方と歌唱声のトレーニングを調査し、より強力な混合話し方/歌唱能力を実現する予定です。

韓国のこの人工知能（AI）論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています

最近では、ニューラルネットワークを用いて座標を数量（スカラーまたはベクトル）にマッピングして信号を表すニューラルフィールドの研究が急速に進展しています。これにより、音声、画像、3D形状、動画など、さまざまな信号を扱うためにこの技術を利用することへの関心が高まっています。普遍近似定理と座標エンコーディング技術は、脳フィールドの正確な信号表現のための理論的な基盤を提供しています。最近の調査では、データ圧縮、生成モデル、信号操作、基本的な信号表現における適応性が示されています。図1は、提案されたフローガイドのフレームごとの表現（a）、フレームごとの動画表現（b）、ピクセルごとの動画表現（FFNeRV）（c）を示しています。最近では、ニューラルネットワークを用いて座標を数量（スカラーまたはベクトル）にマッピングして信号を表すニューラルフィールドの研究が急速に進展しています。これにより、音声、画像、3D形状、動画など、さまざまな信号を扱うためにこの技術を利用することへの関心が高まっています。普遍近似定理と座標エンコーディング技術は、脳フィールドの正確な信号表現のための理論的な基盤を提供しています。最近の調査では、データ圧縮、生成モデル、信号操作、基本的な信号表現における適応性が示されています。各時刻座標は、MLPと畳み込み層のスタックによって作成されたビデオフレームによって表されます。基本的なニューラルフィールドの設計に比べて、私たちの手法はエンコーディング時間を大幅に削減し、一般的なビデオ圧縮技術を上回ります。このパラダイムは、最近提案されたE-NeRVによっても追求され、さらにビデオの品質を向上させるものです。図1に示すように、彼らはフローガイドのフレームごとのニューラル表現（FFNeRV）を提供しています。彼らは光学フローをフレームごとの表現に埋め込んで、時間的冗長性を利用しています。これは一般的なビデオコーデックからのインスピレーションを得たものです。フローによって導かれる近くのフレームを組み合わせることにより、FFNeRVは前のフレームからピクセルの再利用を強制するビデオフレームを作成します。ネットワークがフレーム間で同じピクセル値を再度覚えることを避けるように促すことで、パラメータの効率性が劇的に改善されます。実験結果によると、UVGデータセットでのビデオ圧縮とフレーム補間では、FFNeRVが他のフレームごとのアルゴリズムを上回っています。さらなる圧縮性能の向上のために、連続的な時間座標を対応する潜在的な特徴にマッピングするために、固定された空間解像度の多重解像度の時間グリッドを使用することを提案しています。これは、グリッドベースのニューラル表現に触発されたものです。さらに、より縮小された畳み込みアーキテクチャを利用することを提案しています。彼らは、フレームごとのフロー表現において、高品質の画像と軽量なニューラルネットワークを生成する生成モデルによってドライブされたグループとポイントワイズの畳み込みを使用しています。FFNeRVは、量子化意識トレーニングとエントロピー符号化を使用した人気のあるビデオコーデック（H.264およびHEVC）を上回り、最先端のビデオ圧縮アルゴリズムと同等の性能を発揮します。コードの実装はNeRVに基づいており、GitHubで利用可能です。

「Rodinに会ってください：さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能（AI）フレームワーク」

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分析と合成のための最も有望な方法の一つを表しています。Stable Diffusionは、複雑な入力プロンプトから美しいリアルな画像を生成するための最もよく知られた生成モデルです。このアーキテクチャはDiffusion Models（DMs）に基づいており、画像と動画に対して驚異的な生成力を示しています。拡散と生成モデリングの急速な進歩が、2Dコンテンツの創造において革命を起こしています。その鍵となる言葉は非常にシンプルです。「それを説明できるなら、それを視覚化できる」ということです。または、さらに良いと言えば、「それを説明できるなら、モデルがそれを描くことができる」ということです。本当に信じられないほど、生成モデルが何ができるかです。 2DコンテンツはDMsにとってストレステストとなることが示されていますが、3Dコンテンツは追加の次元によると限定されないさまざまな課題をもたらします。アバターなどの3Dコンテンツを2Dコンテンツと同じ品質で生成することは、高品質のアバターに必要な豊富な詳細を生成するためのメモリと処理コストが制約となるため、困難な課題です。技術が映画、ゲーム、メタバース、そして3D産業でデジタルアバターの使用を推進する中、誰でもデジタルアバターを作成できるようにすることは有益です。それがこの研究の進展を促している動機です。著者たちは、デジタルアバターの作成の問題に対処するために、Roll-out diffusion network（Rodin）を提案しています。モデルの概要は、以下の図に示されています。モデルへの入力は画像、ランダムノイズ、または望ましいアバターのテキストの説明であることができます。次に、与えられた入力から潜在ベクトルzが導かれ、拡散に使用されます。拡散プロセスは、いくつかのノイズ除去ステップから成り立っています。最初に、ランダムノイズが初期状態または画像に追加され、より鮮明な画像が得られるようにノイズが除去されます。ここでの違いは、望ましいコンテンツの3D性質にあります。拡散プロセスは通常通り実行されますが、2D画像を対象とする代わりに、拡散モデルはアバターの粗いジオメトリを生成し、詳細合成のための拡散アップサンプラーを生成します。計算およびメモリの効率性は、この研究の目標の一つです。このため、著者たちはニューラル輝度場の三軸（三軸）表現を利用しました。この表現は、ボクセルグリッドと比較して、記憶フットプリントをかなり小さくすることができるため、表現力を犠牲にすることなく効率性を高めることができます。次に、別の拡散モデルが訓練され、生成された三面体プレーン表現を望ましい解像度にアップサンプリングします。最後に、4つの完全接続層から構成される軽量なMLPデコーダを利用して、RGBの体積画像を生成します。以下にいくつかの結果を報告します。先述の最先端の手法と比較して、Rodinは最も鮮明なデジタルアバターを提供します。モデルでは、他の手法とは異なり、共有されたサンプルにはアーティファクトが見られません。これは、さまざまな入力ソースから簡単に3Dデジタルアバターを生成するための新しいフレームワークであるRodinの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

「デバイス内AIの強化 QualcommとMetaがLlama 2テクノロジーと共同開発」

Metaの新しいオープンソースのLlama 2のリリースにより、大規模言語モデル（LLMs）の使用事例についての議論が起こっています。しかし、多くの人にとって、ローカルのハードウェア上でLlama 2にアクセスし、実行することは依然として重要な障壁です。この問題に対処し、Llama 2のパワーへのアクセスを民主化するために、MetaはQualcommと提携し、モデルをオンデバイスで使用するためにQualcommのAI対応Snapdragonチップを活用して最適化しています。 MetaとQualcommの協力により、Llama 2のオンデバイスでの実装が可能になり、新しいAI対応Snapdragonチップの機能を活用しています。モデルをオンデバイスで実行することで、開発者はクラウドコンピューティングコストを削減し、データが外部サーバーに送信されないため、ユーザーに強化されたプライバシーを提供することができます。オンデバイスでのAI処理は、インターネット接続なしで生成的AIを可能にし、ユーザーの好みに合わせたモデルのパーソナライズも可能にします。 QualcommのHexagonプロセッサは、Snapdragonチップにマイクロタイル推論、テンソルコア、SegNet、スカラーおよびベクトルワークロード用の専用処理など、さまざまなAI機能を備えています。Llama 2をQualcomm AIスタックに統合することで、オンデバイスでのAIモデルの実行がさらに最適化されます。 Metaは、最初のLLaMAモデルのリークから多くを学びました。最初は研究者や学術機関にのみ提供されていたLLMのリークは、オープンソースのLLMイノベーションの爆発を引き起こし、さまざまな改良版のLLaMAを生み出しました。オープンソースコミュニティの貢献は大きく、デバイス上で実行できるバージョンが作成され、LLMがより広い観客にアクセス可能になりました。リークに対応するため、MetaはLlama 2のリリースにおいて異なるアプローチを取り、オープンネスと協力を重視しています。Qualcommとの提携により、チップメーカーはモデルの内部機能に対する洞察を得て、Snapdragonチップ上でのパフォーマンスを最適化することができます。この協力は、2024年のQualcomm Snapdragon 8 Gen 3チップの発売と同時に予定されています。オープンソースコミュニティもLlama 2の開発に重要な役割を果たすと予想されています。業界のオンデバイスAIへの勢いとオープンなLLMエコシステムを組み合わせることで、この動きは活気あるオンデバイスAIエコシステムを育成するための最初の一歩と見なされています。専門家は、オープンなLLMがAIパワードのコンテンツ生成、インテリジェントアシスタント、生産性アプリケーションなどの新世代をもたらす可能性があると予測しています。デバイス上でネイティブにLLMを実行できる能力は、オンデバイスAI処理の数多くの可能性を開放し、AppleのM1チップにニューラルエンジンを組み込んだことや、MicrosoftのHybrid AI Loopツールキットに示されるように、エッジでのAI機能の成長トレンドをサポートします。全体的に、MetaとQualcommの提携は、AIモデルへのアクセスを民主化するための重要な一歩であり、開発者がAIパワードアプリケーションを作成し、iPhoneと同様のアプリストア爆発をもたらす新しいオンデバイスAIエコシステムの時代を迎えることを可能にしています。

CatBoost カテゴリカルデータを用いたモデル構築のための解決策

イントロダクション熱心な学習者がデータサイエンスや機械学習を学びたい場合、ブーステッドファミリーを学ぶべきです。ブーステッドファミリーから派生した多くのアルゴリズムがあります。例えば、AdaBoost、Gradient Boosting、XGBoostなどです。ブーステッドファミリーのアルゴリズムの1つはCatBoostアルゴリズムです。CatBoostは機械学習アルゴリズムであり、Categorical Boostingを表しています。これはYandexによって開発されたオープンソースのライブラリです。PythonとRの両方で使用することができます。CatBoostはデータセット内のカテゴリ変数と非常にうまく動作します。他のブースティングアルゴリズムと同様に、CatBoostも分類ラベルを予測するために背後で複数の決定木、つまり木のアンサンブルを作成します。これは勾配ブースティングに基づいています。また読む：CatBoost：カテゴリカル（CAT）データを自動的に処理するための機械学習ライブラリ学習目標ブーステッドアルゴリズムの概念とデータサイエンスおよび機械学習における重要性を理解する。カテゴリ変数の処理を担当するブーステッドファミリーの一員であるCatBoostアルゴリズム、その起源、および役割を探索する。 CatBoostの主な特徴、カテゴリ変数の処理、勾配ブースティング、順序ブースティング、および正則化技術の理解。 CatBoostの利点、カテゴリ変数の堅牢な処理と優れた予測パフォーマンスについての洞察。回帰および分類タスクにおいてPythonでCatBoostを実装し、モデルパラメータを探索し、テストデータ上で予測を行う方法を学ぶ。この記事はData Science Blogathonの一部として公開されました。 CatBoostの重要な特徴カテゴリ変数の処理： CatBoostはカテゴリ変数を含むデータセットの処理に優れています。さまざまな方法を使用して、カテゴリ変数を数値表現に変換することで、自動的にカテゴリ変数を処理します。これにはターゲット統計、ワンホットエンコーディング、または両方の組み合わせが含まれます。この機能により、手動のカテゴリ変数の前処理の要件を省略することで、時間と労力を節約できます。勾配ブースティング： CatBoostは、効果的な予測モデルを作成するために、複数の弱学習器（決定木）を組み合わせるアンサンブル技術である勾配ブースティングを使用します。前の木によって引き起こされる誤りを修正するために訓練され、指示された木を追加することで、異なる可能性のある分割構成を最小化する勾配ブースティングは、イテレーションごとにツリーを作成する方法です。この反復的なアプローチにより、モデルの予測能力が徐々に向上します。順序ブースティング： CatBoostは、「順序ブースティング」と呼ばれる新しい技術を提案して、カテゴリ変数を効果的に処理します。ツリーを構築する際に、カテゴリ変数の最適な分割点を特定するために、カテゴリ変数のパーミュテーション駆動の事前ソートという技術を使用します。この方法により、CatBoostはすべての潜在的な分割構成を考慮し、予測を改善し、過学習を低減することができます。正則化： CatBoostでは、過学習を減らし、汎化性能を向上させるために正則化技術が使用されます。葉の値に対するL2正則化を特徴とし、過剰な葉の値を防ぐために損失関数にペナルティ項が追加されます。また、カテゴリデータのエンコーディング時の過学習を防ぐために、「順序ターゲットエンコーディング」という先端的な手法も使用します。 CatBoostの利点…

マイクロソフトが「TypeChat」をリリース：型を使用して自然言語インターフェースを簡単に構築できるAIライブラリ

MicrosoftのTypeChatライブラリは、大規模な言語モデル（LLM）に基づいたタイプベースの自然言語インターフェースの作成を容易にする試みです。TypeChatは、TypeScriptと生成AIを通じてAPI、アプリケーションスキーマ、自然言語のギャップを埋めることを目指すGitHubプロジェクトです。TypeChatは、アプリケーションの型定義を使用して型安全な構造化AI応答を取得します。Microsoftの技術フェローであり、C＃とTypeScriptのリードデベロッパーであるAnders Hejlsbergは、7月20日にTypeChatを紹介しました。これは、複雑な決定木を用いてユーザーの意図を推測し、必要なデータを収集してアクションを起こすアプリに対して自然言語インターフェースを作成するという課題に取り組むためのものです。 TypeChatは、型を使用してNLUの作成プロセスを簡略化するライブラリです。最近まで、自然言語とのインターフェースを持つアプリを開発することは困難でした。これらのアプリは、ユーザーの意図を推測し、さらなる処理のために関連するデータを収集するために、詳細な決定木を頻繁に使用していました。大規模な言語モデル（LLM）のおかげで、ユーザーの自然言語の入力を受け取り、その意図に一致させることははるかに簡単になりました。これにより、モデルの応答の妥当性を保証し、モデルの出力に必要な安全性制約を課すという新たな困難が生じました。ただし、プロンプトエンジニアリングの学習曲線は厳しく、目標はこれらの問題を修正することであっても、その成長とともにプロンプトの脆弱性も増していきます。 TypeChatの開発者は、この製品がスキーマエンジニアリングによってプロンプトエンジニアリングを効果的に代替できる可能性があると主張しています。自然言語アプリで使用できる意図は、開発者によって型として定義できます。これは、感情をラベル付けするシステムからデジタル音楽ストアのカテゴリセットまで、非常に基本的なものから洗練されたものまでです。 TypeChatは、開発者が定義した型を使用してLLMのプロンプトを構築し、そのプロンプトがスキーマに従っているかどうかを確認します。検証に失敗した場合は、言語モデルを再び対話して出力を修正し、それに従うようにします。TypeChatはまた、状況を要約し、それがユーザーの期待に一致しているかを確認します。 TypeChatの開発者は、最近のLLMに関する「興奮のラッシュ」について、多くの質問が出されていると述べています。これらのモデルの最も明らかなユースケースはチャットボットでした。ただし、従来のUIを自然言語インターフェースで補完したり、ユーザーのリクエストをアプリが処理できる形式に変換するためにAIを使用したりするなど、これらのモデルを既存のアプリインターフェースに組み込む方法についての質問が提起されています。TypeChatの目的は、これらの問題に対処することです。この取り組みにおいて、あなたの意見とアイデアは非常に貴重です。寄付のほとんどにはContributor License Agreement（CLA）にサインする必要があり、貢献者が貢献を利用する権限を持っていることを明示します。詳細については、https://cla.opensource.microsoft.com/をご覧ください。 CLAが必要な場合、CLAボットは自動的にプルリクエストのスタイリング（ステータス、備考など）を更新してこれを反映します。ロボットが指示する通りに行ってください。CLAを使用する場合は、すべてのリポジトリに対して一度だけ行う必要があります。

「Amazon SageMaker StudioでAmazon SageMaker JumpStartを使用して安定したDiffusion XLを利用する」

「今日、私たちはお知らせすることを喜んでいますStable Diffusion XL 1.0（SDXL 1.0）がAmazon SageMaker JumpStartを通じて顧客に利用可能ですSDXL 1.0は、Stability AIからの最新の画像生成モデルですSDXL 1.0の改良点には、さまざまなアスペクト比でのネイティブな1024ピクセルの画像生成が含まれていますプロフェッショナルな使用を目的としており、高解像度に合わせてキャリブレーションされています...」

Learn more about Search Results A - Page 341