Learn more about Search Results MarkTechPost - Page 146

「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」

大規模言語モデル(LLM)は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にないほどの力を持っていますが、特定の困難にも直面しています。これらのモデルは数十億または数兆のパラメータを含むことがあり、それらを実行するには膨大なメモリと計算能力が必要です。例えば、GPT-175Bは、モデルの重みを読み込むために325GBのGPU RAMだけが必要です。このモデルをGPUに適合させるには、少なくとも5つのA100(80GB)のGPUと高度な並列処理技術が必要です。そのため、LLM推論に必要なリソースの削減は最近、多くの関心を集めています。 LLMは、ベンチマーキング、情報抽出、データ整形、フォーム処理、チャットボットなどのさまざまな「裏方」の操作に使用されます。この研究では、スループット志向の生成型推論という状況に焦点を当てています。企業のコーパスの全ペーパーなど、大量のトークンにわたってバッチでLLM推論を実行する必要があるため、トークン生成の遅延への感受性が低いというのがこれらのジョブの重要な特徴です。そのため、一部のワークロードでは、遅延を犠牲にしてスループットを向上させることで、リソースの必要性を低減する可能性があります。 LLM推論に必要なリソースを削減するためには、次の3つのアプローチが使用されています: 全体のメモリフットプリントを減らすためのモデル圧縮、推論のコストを分散させるための共同推論、メモリとディスク上のメモリの効果的な利用のためのオフロード。明確な制約は存在しますが、これらの戦略により、LLMの利用に必要なリソースが大幅に削減されています。最初の2つの方法の研究では、モデルがGPUメモリに収まることを前提としているため、単一の商用GPU上で175Bスケールのモデルを実行するための支援が必要です。一方、第3のカテゴリに属する最先端のオフローディングベースのシステムは、効果的なI/Oスケジューリングとテンソル配置ができないため、単一のGPU上で受け入れ可能なスループットに到達することはできません。 単一の商用GPUを使用して、彼らの主な目標は高スループットの生成型推論のための効果的なオフロードメカニズムを構築することです。彼らはLLMを部分的にロードし、制約のあるGPUメモリでのLLMの演算を逐次的にオフロードして実行することができます。典型的なシステムでは、メモリの階層は3つの層に分かれています。下位レベルは遅いですが豊富で、上位レベルは速いですが希少です。小さなバッチサイズはこれらのシステムでボトルネックを引き起こす可能性があります。高バッチサイズを使用し、高価なI/O操作を複数のメモリ階層に分散させて処理と重なり合わせることで、スループット志向のシナリオでは遅延を犠牲にすることができます。 ただし、遅延を犠牲にしても、制約のあるGPUメモリで高スループットの生成型推論を達成することは困難です。最初の困難は、成功するオフローディング計画を立てることです。計画では、どのテンソルをオフロードするか、3レベルのメモリ構造のどこにオフロードするか、推論中にいつオフロードするかを明確にする必要があります。生成型推論では、重み、アクティベーション、キー値(KV)キャッシュの3種類のテンソルが使用されます。 アルゴリズムのバッチごと、トークンごと、レイヤごとの構造のため、計算方法はいくつかあります。これらのオプションが組み合わさって複雑な設計空間が作成されます。現在使用されているオフローディングベースの推論システムは、過度のI/Oを実行し、理論的なハードウェアの制約に比べてスループットが大幅に低下しているため、推論においては劣悪な領域となっています。効率的な圧縮アルゴリズムの作成は、2番目の問題を提起します。以前の出版物では、LLMの重みとアクティベーションは、有望な圧縮結果を示しています。ただし、高スループットの生成型推論のために圧縮とオフロードを組み合わせる場合、重みとKVキャッシュのI/Oコストとメモリ削減によって追加の圧縮戦略が推進されます。 UCB、Stanford、CMU、Meta、Yandex、ETH、HSEの研究者たちは、これらの問題を克服するために、高スループットのLLM推論のためのオフロードフレームワークであるFlexGenを共同で紹介しています。FlexGenは、GPU、CPU、ディスクからのメモリを組み合わせて、効果的なI/Oアクティビティ、潜在的な圧縮技術、および分散パイプライン並列処理を効果的にスケジュールします。彼らの貢献は以下の通りです: 計算スケジュール、テンソル配置、計算委任を考慮した潜在的なオフロードオプションの検索空間を明示的に説明します。彼らは、その検索空間がI/Oの複雑さを最適性の2つ以内に捉える計算順序を表していることを示します。次に、彼らは検索空間内でスループットを最大化するための線形計画に基づく検索アルゴリズムを作成します。 再トレーニングやキャリブレーションなしに、OPT-175BのようなLLMの重みとKVキャッシュを4ビットに減らすことが可能で、ほとんどまたは全く精度の低下がありません。I/Oコストとオフロード時のメモリ使用量を低減するために適した細かいグループごとの量子化がこれを実現しています。 彼らは、NVIDIA T4(16GB)GPU上でOPT-175Bを実行することで、FlexGenの効率を示します。FlexGenは、DeepSpeed Zero-InferenceやHugging Face Accelerateといった2つの最先端のオフローディングベースの推論アルゴリズムよりも大きなバッチサイズを許容することが多く、その結果、大幅に高いスループットを実現できます。 以下に、PaperとGithubをご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素敵なAIプロジェクトなどを共有している16k+ ML SubReddit、Discordチャンネル、およびメールニュースレターにもぜひ参加してください。 Tensorleapの解釈性プラットフォームで深層学習の秘密を解き放つ この投稿は、MarkTechPostに掲載されています。

このAI論文は、拡散モデルのコンセプトを自身の知識を使って消去するためのモデルの重みを微調整する新しい方法を提案しています

近年、優れた画像品質と無限の生成能力から、モダンなテキストから画像を生成するモデルが注目を集めています。これらのモデルは、巨大なインターネットデータセットで訓練されたため、さまざまな概念を模倣することができます。しかし、これらのモデルは、ポルノグラフィーやその他の悪い概念を出力に含めないように訓練されています。このNEUとMITの研究者による研究では、事前訓練されたテキスト条件付きモデルの重みから特定の概念を選択して排除する方法を提供しています。これまでの戦略は、推論ガイダンス、生成後処理、データセットのフィルタリングに焦点を当ててきました。 回避が容易ではありますが、推論ベースのアプローチは望ましくない概念からの出力のフィルタリングや誘導に成功することができます。彼らのシステムは再訓練を必要とせず、大規模なモデルにとってコストがかかるデータフィルタリング技術とは異なります。それに対して、彼らの手法はモデルの入力から概念を直ちに排除し、モデルの重みの分布を可能にします。安定拡散テキストから画像への拡散モデルはオープンソースとして公開され、多くの人々が画像生成技術にアクセスできるようになりました。初期バージョンのソフトウェアには基本的なNSFWフィルターが搭載されており、危険な写真の作成を防ぐことができますが、コードとモデルの重みが公開されているため、フィルターをオフにすることも簡単です。 次のSD 2.0モデルは、露骨な写真を除外するためにフィルタリングされたデータで訓練されており、感度のあるコンテンツの作成を防止しています。この実験は、50億枚のLAIONデータセット上で150,000時間のGPUを使用して完了しました。プロセスの高コストのため、データの特定の変更と生じる可能性のある能力との因果関係を確立することは困難です。それでも、ユーザーは露骨な画像やその他の対象を訓練データから除外することが出力の品質に悪影響を与えている可能性があると報告しています。研究者たちは、人気のあるSD 1.4モデルがヌード検出器によって特定される露出した身体部位を持つ画像を796枚生成するのに対して、新しい訓練セット制限のあるSD 2.0モデルは417枚しか生成しないことを発見しました。これは、彼らの努力にもかかわらず、モデルの出力にはまだ重要な露骨なコンテンツが含まれていることを示しています。 テキストから画像へのアルゴリズムの著作権侵害の可能性も深刻な懸念材料です。AIによる生成アートの品質は、人間による生成アートと同等であり、実際のアーティストの美的嗜好も正確に模倣することができます。Stable Diffusionなどの大規模なテキストから画像合成システムのユーザーは、「特定のアーティストのスタイルでのアート」といった提案が特定のアーティストのスタイルを模倣する可能性があり、オリジナルの作品を損なう可能性があると述べています。さまざまなアーティストの苦情により、Stable Diffusionの開発者は彼らのアイデアを盗んだとして訴えられています。現在の研究では、モデルがそれをコピーしないように、オンラインで公開する前に作品に対して敵対的な摂動を追加することで、アーティストを保護することを試みています。 しかし、この方法を使用すると、学習された芸術的スタイルを持つ教え込まれたモデルが残ります。彼らは、安全性と著作権侵害の懸念に対応して、テキストから画像へのモデルから概念を削除するための手法を提供しています。彼らは、望ましくない概念の説明だけを使用し、その後の訓練データは必要とせず、彼ら自身のErased Stable Diffusion(ESD)技術を使用してモデルのパラメータを微調整します。彼らの手法は迅速であり、既存のモデルとの組み合わせで使用するために入力写真を変更する必要はありません。消去は、パラメータにアクセス権を持つユーザーでも、単純なブラックリストやポストフィルタリングよりも打破することが難しいです。 研究者は、削除されたアーティストのスタイルが出力された画像におけるユーザーの認識や他のアーティスティックなタイプへの干渉、および画像の品質への影響を調査するためにユーザースタディを実施しました。彼らのアプローチを望ましくない画像の削除に使用するSafe Latent Diffusionと比較したところ、同じく成功した結果が得られました。彼らはまた、その手法がモデルの創造的な特性を除去する能力を調査しました。最後に、彼らはオブジェクトクラス全体を消去することで、彼らの手法をテストしました。この記事は、論文のプレプリントに基づいています。彼らはモデルの重みとモデルのコードをオープンソース化しています。 PrePrint Paper、Code、およびProjectをご覧ください。この研究に関しては、このプロジェクトの研究者に全てのクレジットがあります。また、最新のAI研究ニュースや素晴らしいAIプロジェクトなどを共有している16k+ ML SubReddit、Discord Channel、およびEmail Newsletterにぜひご参加ください。 この記事はMarkTechPostに最初に掲載されました。

このAI論文では、一般的なソース分布とターゲット分布の間の連続時間確率生成モデルの学習のための新しいクラスのシミュレーションフリーな目的を紹介しています

複雑な分布を記述できる効果的な生成モデルの一つに、スコアベースの生成モデル(SBGM)があります。これには拡散モデルも含まれます。ほとんど常にガウス分布が用いられるソース密度の開発は、スコアベースの生成モデルを用いた確率微分方程式(SDE)のシミュレーションによって一般的に行われます。SBGMは、シミュレーションフリーのノイズ除去目標を最適化するためにガウス分布の仮定が必要であり、その経験的な成功にもかかわらず、ガウス分布の仮定が頻繁に崩れる物理的または生物学的システムの時間的発展の場合など、基礎となるダイナミクスを理解するためには制約があります。  連続的な正規化フロー(CNF)、またはフローベースの生成モデルは、これらの問題を解決するための選択肢として広く使われています。ソース密度は、確定論的な連続時間生成プロセスの仮定に基づいて、普通の微分方程式(ODE)で目標密度に変換されます。以前の研究では、ガウス分布の仮定がされる場合にCNFがSBGMと競合するためのシミュレーションフリーのトレーニング目標が導入され、これらの目標は任意のソース分布の場合にも拡張されました。フローベースのモデルは、トレーニング時にODEの高価な積分を要求する非効率なシミュレーションベースのトレーニング目標によって以前は制約されていました。  しかし、これらの目標はまだ確率的なダイナミクスを学習する必要があり、これは生成モデリングと実際のシステムのダイナミクスの回復の両方に役立つ可能性があります。シュレディンガーブリッジ問題(SB)は、特定の参照プロセスの下で、ソースとターゲットの確率分布間の最も確からしい発展を考慮します。これは2つの任意の分布間の確率的マッピングの基本的な確率論的定式化です。自然な確率的ダイナミカルシステム、平均場ゲーム、および生成モデリングなど、多くの問題においてSB問題が使用されています。SB問題は通常、特定の状況(ガウス分布など)を除いて、閉形式の解がなく、学習済みの確率過程を複製するための反復的な手法を用いて近似することができます。  理論的には妥当なアプローチですが、これらの手法には高次元スケーリングしか許容しない数値的および実用的な問題があります。Mila Québec AI Institute、モントリオール大学、マギル大学、トロント大学、Vector Instituteの研究者は、シュレディンガーブリッジ問題に対するシミュレーションフリースコアとフローマッチング(2M)の目標を研究しています。2Mによって、CNFのシミュレーションフリーの目標と拡散モデルのノイズ除去トレーニング目標が同時に一般化され、それぞれ確率的ダイナミクスと任意のソース分布に対して拡張されます。彼らのアプローチでは、シュレディンガーブリッジはSB問題とエントロピック最適輸送(OT)の関係を用いて、ブラウニアンブリッジの集合のマルコビ化として定義されます。  2Mでは、ソースとターゲットの分布間の静的なエントロピックOTマッピングを利用し、動的SBアプローチではなく、各反復でSDEをシミュレートする必要がある動的SBアプローチの代わりにSinkhorn法や確率的アルゴリズムによって効果的に近似されます。彼らは2Mの有用性を示すために、シミュレートされたデータと実世界のデータセットを使用します。人工データでは、2Mが生成モデリングの評価指標において他の先行研究と比較して優れた性能を発揮し、実際のシュレディンガーブリッジにより正確な近似を見つけることができます。彼らは実際のデータへの応用として、断面測定系列(つまり、対応のない時系列観測)をシュレディンガーブリッジの連続した系列としてモデリングすることを調査します。  シュレディンガーブリッジを静的または低次元のダイナミック設定で細胞をモデリングするための先行研究はいくつかありましたが、2Mはシミュレーションを必要とせずに数千の遺伝子次元にスケーリングできる最初のアプローチです。彼らはまた、非ユークリッドコストを持つシュレディンガーブリッジの近似の現実世界での最初の使用例の一つである静的な多様体測地線マップを提供し、動的環境での細胞の補間を向上させます。最後に、彼らは静的最適輸送の例とは異なり、細胞のダイナミクスを制御する遺伝子間相互作用ネットワークを直接モデル化および再構築することができることを示します。コードと例はGitHubで利用可能です。

2023年の最高のオープンソースインテリジェンス(OSINT)ツール

「OSINT」という頭字語は、オープンソースインテリジェンスソフトウェアを指します。これらのプログラムはオープンソースからデータを収集するために使用されます。OSINTツールは、主に対象となる個人や会社に関する情報を収集するために使用されます。 以下に、最も一般的なOSINTツールをリストアップします(特定の順序ではありません): Maltego Maltegoは柔軟なオープンソースインテリジェンスプラットフォームであり、短縮し、問い合わせを高速化することができます。58のデータソースにアクセスすることで、より正確な調査を容易にし、最大100万のエンティティを収容するデータベースを提供します。強力な可視化機能により、ブロック、階層、または円グラフなど、さまざまな形式から選択し、より詳細な分析のために重みと注釈を追加することもできます。 信頼性と安全性のチーム、法執行機関、およびサイバーセキュリティの専門家は、Maltegoが単一のクリックで調査結果と理解しやすい洞察を提供する能力を活用することができます。 Intel 471 Intel 471は無料でオープンソースのOSINT偵察ツールであり、IPアドレス、CIDRレンジ、ドメインやサブドメイン、AS番号、メールアドレス、電話番号、名前やユーザー名、さらにはBitcoinアドレスなど、さまざまな情報を収集および分析することができます。 Intel 471には200以上のモジュールがあり、最も包括的な操作を実行し、任意の対象に関する重要な事実を明らかにすることができます。コマンドラインインターフェースと使いやすいGUIインターフェースを備えた組み込みのWebサーバーの両方をGitHubで利用することができます。 企業内で公開されたデータによるセキュリティ上の脆弱性が存在するかどうかを確認するために使用することができます。全体として、これは潜在的に危険なインターネット組織に関する以前に知られていなかった情報を明らかにする能力を持つ強力なサイバーインテリジェンスツールです。 OSINT Framework オープンソースインテリジェンス(OSINT)フレームワークは優れたツールです。データソースから有用な接続や成功したツールまで、すべてが含まれているため、独自にすべてのアプリケーションやツールを調査するよりも便利です。 このリストはLinuxに限定されているわけではありません。他のOSの代替手段も提供しており、ユニバーサルなリソースとなっています。実際、このように整理されたリソースを持つことは、以前よりもさらに有益です。唯一の困難は、車の登録やメールアドレスなどの結果を絞り込む効率的な検索技術を考案することです。オープンソースインテリジェンス(OSINT)フレームワークは、情報を収集し、データを整理するための頼りになるツールになりつつあります。 SEON 人物のソーシャルメディアやその他のオンラインアカウントを使用して、その個人の身元を証明することは、今日のデジタル経済においてますます一般的になっています。SEONはデジタルアイデンティティを検証するために先導をしています。 SEONでは、電子メールや電話番号のシステムを使用して、50以上のソーシャルシグナルにアクセスすることができます。これらのシグナルは、顧客の電子メールアドレスや電話番号を確認するだけでなく、顧客のオンライン行動に関する追加情報を収集します。 使いやすさとアクセシビリティに加えて、SEONは直接クエリを実装したり、API経由でクエリを実行したり、Google Chromeのプラグインを介してクエリを実行したりすることも可能です。 Lampyre LampyreはOSINTに特化したプレミアムソフトウェアであり、デューデリジェンス、サイバー脅威インテリジェンス、犯罪捜査、および金融分析などに効果的に役立ちます。1つのデータポイント(企業登録番号、完全な名前、または電話番号など)から始めて、100以上の頻繁に更新されるデータソースを自動的に分析することができます。 情報を取得するために、コンピュータに1回クリックしてインストールするか、ブラウザで使用することができます。…

機械学習(ML)の実験トラッキングと管理のためのトップツール(2023年)

機械学習プロジェクトを行う際に、単一のモデルトレーニング実行から良い結果を得ることは一つのことです。機械学習の試行をきちんと整理し、信頼性のある結論を導き出すための方法を持つことは別のことです。 実験トラッキングはこれらの問題に対する解決策を提供します。機械学習における実験トラッキングとは、実施する各実験の関連データを保存することの実践です。 実験トラッキングは、スプレッドシート、GitHub、または社内プラットフォームを使用するなど、さまざまな方法でMLチームによって実装されています。ただし、ML実験の管理とトラッキングに特化したツールを使用することが最も効率的な選択肢です。 以下は、ML実験トラッキングと管理のトップツールです Weight & Biases 重みとバイアスと呼ばれる機械学習フレームワークは、モデルの管理、データセットのバージョン管理、および実験の監視に使用されます。実験トラッキングコンポーネントの主な目的は、データサイエンティストがモデルトレーニングプロセスの各ステップを記録し、モデルを可視化し、試行を比較するのを支援することです。 W&Bは、オンプレミスまたはクラウド上の両方で使用できるツールです。Weights & Biasesは、Keras、PyTorch環境、TensorFlow、Fastai、Scikit-learnなど、さまざまなフレームワークとライブラリの統合をサポートしています。 Comet Comet MLプラットフォームを使用すると、データサイエンティストはモデルのトレーニングから本番まで、実験とモデルの追跡、比較、説明、最適化を行うことができます。実験トラッキングでは、データセット、コードの変更、実験履歴、モデルを記録することができます。 Cometは、チーム、個人、学術機関、企業向けに提供され、誰もが実験を行い、作業を容易にし、結果を素早く可視化することができます。ローカルにインストールするか、ホステッドプラットフォームとして使用することができます。 Sacred + Omniboard Sacredは、オープンソースのプログラムであり、機械学習の研究者は実験を設定、配置、ログ記録、複製することができます。Sacredには優れたユーザーインターフェースがないため、Omniboardなどのダッシュボードツールとリンクすることができます(他のツールとも統合することができます)。しかし、Sacredは他のツールのスケーラビリティに欠け、チームの協力のために設計されていない(別のツールと組み合わせる場合を除く)が、単独の調査には多くの可能性があります。 MLflow MLflowと呼ばれるオープンソースのフレームワークは、機械学習のライフサイクル全体を管理するのに役立ちます。これには実験、モデルの保存、複製、使用が含まれます。Tracking、Model Registry、Projects、Modelsの4つのコンポーネントは、それぞれこれらの要素を代表しています。 MLflow TrackingコンポーネントにはAPIとUIがあり、パラメータ、コードバージョン、メトリック、出力ファイルなどの異なるログメタデータを記録し、後で結果を表示することができます。…

Google AIは、アーキテクチャシミュレータにさまざまな種類の検索アルゴリズムを接続するための、マシンラーニングのためのオープンソースのジム「ArchGym」を紹介しました

コンピュータアーキテクチャの研究は、コンピュータシステムの設計を評価および影響するためのシミュレータやツールを生み出す長い歴史があります。例えば、1990年代後半には、SimpleScalarシミュレータが開発され、科学者が新しいマイクロアーキテクチャの概念をテストすることができました。コンピュータアーキテクチャの研究は、gem5、DRAMSysなどのシミュレーションやツールの普及により大きな進歩を遂げてきました。その後、学術およびビジネスレベルでの共有リソースとインフラの広範な提供のおかげで、この学問は大きく進展しました。 産業界と学界は、厳しい特定ドメインの要件を満たすために、コンピュータアーキテクチャ研究において機械学習(ML)最適化にますます焦点を当てています。これには、コンピュータアーキテクチャのためのML、TinyMLアクセラレーションのためのML、DNNアクセラレータデータパスの最適化、メモリコントローラ、消費電力、セキュリティ、プライバシーなどが含まれます。以前の研究では、設計最適化におけるMLの利点が示されていますが、異なる手法間での公平かつ客観的な比較を妨げる堅牢で再現性のあるベースラインの不足など、まだ採用には障害があります。一貫した開発には、これらの障害に対する理解と共同攻撃が必要です。 ドメイン固有のアーキテクチャの設計空間を探索するために機械学習(ML)を使用することは広く行われています。ただし、設計空間をMLを使用して探索することは困難を伴います: 成長するMLテクニックのライブラリから最適なアルゴリズムを見つけることは困難です。 手法の相対的なパフォーマンスとサンプル効率を評価する明確な方法はありません。 MLを支援したアーキテクチャの設計空間の探索と再現可能なアーティファクトの生成は、異なる手法間での公平で再現性のある客観的な比較のための統一されたフレームワークの欠如により妨げられています。 これらの問題に対処するため、Googleの研究者はArchGymを発表しました。これは、様々な検索手法をビルディングシミュレータと統合する柔軟でオープンソースのジムです。 機械学習によるアーキテクチャの研究:主な課題 機械学習の支援を受けてアーキテクチャを研究する際には、多くの障害が存在します。 コンピュータアーキテクチャの問題(例:DRAMコントローラの最適なソリューションの特定)に対して、最適な機械学習(ML)アルゴリズムやハイパーパラメータ(学習率、ウォームアップステップなど)をシステマチックに決定する方法はありません。設計空間探索(DSE)は、ランダムウォークから強化学習(RL)まで、さまざまなMLおよびヒューリスティック手法を使用することができます。これらの手法は、選択したベースライン以上のパフォーマンスを明らかに向上させますが、これが最適化アルゴリズムの選択された手法または設定ハイパーパラメータによるものかは明確ではありません。 コンピュータアーキテクチャシミュレータは、アーキテクチャの進歩に不可欠ですが、探索フェーズにおいて精度、効率、経済性のバランスを取ることについての懸念があります。使用されるモデルの具体的な仕様によって(例:サイクル精度 vs MLベースのプロキシモデル)、シミュレータは大きく異なるパフォーマンスの推定値を提供することがあります。解析的またはMLベースのプロキシモデルは、低レベルの特徴を無視することができるため、アジャイルですが、通常、予測誤差が高いです。また、商用ライセンスによってシミュレータの使用頻度が制限されることもあります。総じて、これらの制限によるパフォーマンス対サンプル効率のトレードオフは、設計探索に選択される最適化アルゴリズムに影響を与えます。 最後になりますが、MLアルゴリズムの環境は迅速に変化しており、一部のMLアルゴリズムは適切に機能するためにデータに依存しています。また、デザイン空間に関する洞察を得るために、データセットなどの関連アーティファクトでDSEの出力を視覚化することも重要です。 ArchGymによるデザイン ArchGymは、さまざまなMLベースの検索アルゴリズムを一貫して比較および対比するための統一された方法を提供することで、これらの問題を解決します。主要なパーツは次の2つです: 1) ArchGymの設定 2) ArchGymのエージェント 環境は、アーキテクチャのコストモデルと目的のワークロードをカプセル化し、特定のアーキテクチャパラメータのセットに対してワークロードの実行にかかる計算コストを計算するために使用されます。エージェントにはハイパーパラメータと、検索に使用されるMLアルゴリズムを指示するポリシーが含まれています。ハイパーパラメータは、最適化されているモデルにとって重要であり、結果に大きな影響を与えることがあります。一方、ポリシーは、エージェントが時間の経過に伴って目標を最適化するためにどのパラメータを選択するかを指定します。 ArchGymの標準化されたインタフェースは、これらの2つの部分を結びつけ、ArchGymデータセットはすべての探索情報が保存される場所です。インタフェースを構成する3つの主要なシグナルは、ハードウェアの状態、パラメータ、およびメトリックスです。これらのシグナルは、エージェントとその周囲との信頼性のある通信路を確立するために最低限必要なものです。これらのシグナルにより、エージェントはハードウェアの状態を監視し、設定の調整を推奨して(顧客指定の)報酬を最大化するようにします。報酬は、ハードウェアの効率のいくつかの指標に比例します。 研究者はArchGymを使用して、少なくとも1つのハイパーパラメータの組み合わせが他のML手法と同じハードウェアパフォーマンスをもたらすことを経験的に示し、これはさまざまな最適化ターゲットとDSEの状況にわたって成り立ちます。MLアルゴリズムのハイパーパラメータまたはベースラインの任意の選択によって、MLアルゴリズムのファミリーのどれが優れているかについて誤った結論が導かれる可能性があります。彼らは、ランダムウォーク(RW)を含むさまざまな探索アルゴリズムが、適切なハイパーパラメータの調整で最適な報酬を見つけることができることを示しています。ただし、最適なハイパーパラメータの組み合わせを特定するには、多くの作業または運が必要な場合もあることを覚えておいてください。 ArchGymは、MLアーキテクチャDSEのための共通で拡張可能なインターフェースを提供し、オープンソースソフトウェアとして利用できます。ArchGymはまた、コンピュータアーキテクチャの研究問題に対するより堅牢なベースラインを可能にし、さまざまなML技術の公正かつ再現可能な評価を行うことができます。研究者たちは、コンピュータアーキテクチャの分野で研究者が集まり、機械学習を利用して作業を加速し、新しい創造的な設計のアイデアを生み出す場所があれば、大きな進歩となると考えています。

「生成型AIとMLOps:効率的で効果的なAI開発のための強力な組み合わせ」

人工知能はほとんどの可能な領域で注目すべき進歩を遂げています。それは創造性に羽根を与え、分析や意思決定能力を向上させることを可能にしました。過去数か月間、生成AIはますます人気が高まっています。組織からAI研究者まで、誰もが生成AIが持つ広範な領域でユニークでオリジナルなコンテンツを生成するという広大な可能性を発見しています。 生成AIとは何ですか? 生成AIは、アルゴリズムを使用してデータを生成、操作、合成する任意のプロセスの共通の用語です。既存のデータから学習して新しいデータを生成するための人工知能のサブセットとして説明できます。新しいコンテンツは、既存のデータに創造性とユニークな特性を持たせたものです。データは画像や人間が読みやすいテキストの形式であることができ、存在しなかったものを生成します。 生成AIはどのように使用されていますか? 生成AIは、その導入以来、急速に進化してきました。大規模言語モデル(LLM)の開発は、生成AIが受ける認識と人気の急成長の主な理由の1つと言えます。LLMは、自然言語を処理し人間らしい応答を生成するために設計されたAIモデルです。OpenAIのGPT-4やGoogleのBERTは、チャットボットや仮想アシスタントの開発からコンテンツ作成まで、近年重要な進歩を遂げた素晴らしい例です。生成AIが使用されているドメインには、コンテンツ作成、仮想アシスタントの開発、人間を模したチャットボット、ゲームなどがあります。また、生成AIは医療業界でも使用され、患者のための個別化された治療計画の生成や医学診断の精度の向上などに役立てられています。 MLOpsとは何ですか? AI MLの潜在能力を自社のサービスと製品に組み込もうとする企業の数が増えるにつれて、MLOpsが人気を集めています。MLOps(Machine Learning Operations)は、主にMLモデルを本番環境に展開するプロセスを最適化し、その後のメンテナンスと監視を中心とする機械学習エンジニアリングの重要な機能です。MLOpsは、DevOpsとMLの両方の特徴を統合し、最小限のリソースと最大の効率性で堅牢なMLパイプラインを設計するための優れたフレームワークを提供します。 MLOpsが生成AIをさらに向上させる力 生成AIは、モデルのトレーニングと展開の複雑さを伴い、大規模なコンピューティングリソースと専用のインフラストラクチャを必要とします。生成AIと組み合わせたMLOpsは、関連するプロセスを自動化するだけでなく、生成AIモデルの開発と展開を管理するための優れたフレームワークを提供することで、これらの課題に対処するのに役立ちます。組織がインフラストラクチャを改善するためには、MLOpsを統合することで、パラメータの最適化、自動化されたデプロイメント、スケーリングなどの機能を追加でき、追加の手動コストなしで生成AIアプリケーションに組み込むことができます。 MLOpsが生成AIに提供する主な利点は、効率性、スケーラビリティ、リスクの低減です。これに加えて、MLOpsは以下のように貢献することができます。 データ管理:MLOpsは、生成AIモデルのトレーニングに使用される大量のデータを管理するのに役立ちます。データは高品質で多様であり、必要なドメインに特化していることを確認します。 モデル開発:MLOpsは、トレーニングからテストと検証までのモデルの開発プロセス全体に役立ちます。バージョン管理やコードレビューなどのツールを提供します。 展開:MLOpsは、生成AIモデルの展開を自動化するのに役立ちます。これにより、本番環境への展開が容易になります。 スケーリング:MLOpsは、トラフィックの増加を処理するのに役立ちます。インフラストラクチャとデータ量の管理のためのツールを提供します。 モニタリングとメンテナンス:MLOpsは、稼働中の生成AIモデルのパフォーマンスを監視し、問題の検出、パフォーマンスのチェック、異常の検出などを行うのに役立ちます。 結論 生成AIは、より多くのデータの利用可能性、コンピューティング技術の進歩、およびユニークで革新的なコンテンツの生成能力により、ますます人気が高まっています。MLOpsの追加により、生成AIモデルのライフサイクルを管理し、製品とアプリケーションの最大限の利益を得るために重要な役割を果たすことができます。

「UIとUXのためのトップAIツール(2023年)」

これまでの数年間、特に2022年から2023年にかけて、ユーザーエクスペリエンスデザインの風景には大きな変化がありました。デザイナーにはさまざまなリソースが利用できます。最高のAI駆動ツールは、各プロセスの段階ごとに最終製品のプレビューをデザイナーに提供します。その一つが人工知能(AI)プロトタイピングツールであり、デザイナーは作業を各段階で評価することで時間と労力を節約することができます。 デザインにおける人工知能(AI)により、デザイナーはワークフローを完全に自動化することができます。ユーザーインターフェースおよびユーザーエクスペリエンスデザインのための人工知能の強化ツールは、デザインプロセスのあらゆる側面をはるかに速く簡単にします。 市場にあるトップの人工知能(AI)デザインツールを見て、UI/UXデザイナーがそれらをどのように活用できるかを考えてみましょう。 Uizard Uizardは、人間のようなグラフィカルユーザーインターフェースの理解を自動化する広く使用されているシステムです。ネイティブモバイルアプリを作成するには、デザイナーがスケッチといくつかのAIの助けを必要とします。それはスケッチからコードを生成するだけでなく、デザインプロセスも自動化します。Uizardはデザインとフローのユーザーテストに優れたツールです。 Chat GPT Chat GPTを使用することで、デザインプロセスは大いに恩恵を受けることができます。コンテンツベースのテキストプロンプトを生成できる能力により、デザインのインスピレーションやユーザーリサーチのアイデア、アクセシビリティの解決策など、あらゆることに役立ちます。UXデザイナーは、デジタルアイテムをよりユーザーフレンドリーで興味深いものにするためにChatGPTの助けを借りることができます。ユーザーインターフェース、製品の説明、コーチマーカーなどのコンテンツの作成は、このカテゴリーに含まれます。デザイナーはより良いコンテンツを提供することでユーザーエクスペリエンスを向上させることができ、このツールが彼らをサポートします。 Khroma Khromaは、色の選択にかかる時間を短縮したいデザイナーのために開発された最新のカラーツールです。お気に入りの50色を選び、AIアルゴリズムに無数の類似した色を認識させることで、無限のカラースキームを作成することができます。テキスト、ポスター、グラデーション、写真など、これらのカラースキームはさまざまなカテゴリーに分類され、ユーザーが簡単にアクセスできます。さらに、デザイナーは自分のオリジナルの画像のコンテキストで自分のカラーパレットがどのように見えるかを確認することができます。 Let’s Enhance Let’s Enhanceは、デザイナーが画質を損なうことなく画像の解像度を向上させるのに役立つ強力な人工知能ツールです。すべてが迅速かつ自動的に行われます。画像は品質の低下がほとんど見られないまま最大16倍拡大することができます。Let’s Enhanceを使用すると、写真の改善が簡単になります。このツールにより、デザイナーは人間の介入なしで高解像度の画像を作成することができます。 Balsamiq ほとんどのデザイナーは、作品の最終形態をイメージする際に、できるだけシンプルに保つことを重視しています。Balsamiqを使用することで、このプロセスをサポートすることができます。Balsamiqのワイヤーフレームインターフェースは、競合するプロトタイピングプログラムの派手でカラフルなインターフェースとは対照的に、最小限で明確です。これはノートブックやホワイトボードでの落書きにデジタルな相当物を提供することを目指しています。このツールの最大の利点は、デザイナーが色やフォント、レイアウトなどのプレゼンテーションの側面を後で調整できるようにする代わりに、作品の内容に集中することができることです。 Mockplus 創造性の実装、コミュニケーション、素材収集、手作業の削減など、デザイナーをサポートするツールを考える際に、Mockplusは最初に思い浮かぶものの一つです。AI駆動のデザインの時代において、すべてのデザイナーはMockplusが必要です。このツールを使用すると、デザイナーはSketch、Photoshop、Adobe XDなどのプログラムから直接作品をエクスポートし、インタラクティブなプロトタイプを作成することができます。また、デザイナーは事前に作成された仕様を確認し、インタラクティブなプロトタイプを作成することもできます。 Beautiful.ai プレゼンテーションソフトウェアBeautiful.aiは、人々が魅力的なビジュアルな資料を作成する方法を変えています。Design AIを使用すると、誰でも数分で素晴らしいプレゼンテーションを作成することができます。70以上のプロフェッショナルにデザインされたスライドテンプレートで簡単に始めることができます。新しいテキストを追加すると、スライドは自動的に変更されます。もうテキストボックスや矢印の配置に時間を無駄に費やす必要はありません。…

新しいAI研究がGPT4RoIを紹介します:地域テキストペアに基づくInstruction Tuning大規模言語モデル(LLM)によるビジョン言語モデル

大型言語モデル(LLM)は最近、自然言語処理を必要とする会話タスクで驚異的なパフォーマンスを発揮し、大きな進歩を遂げています。商用製品のChatGPT、Claude、Bard、テキストのみのGPT-4、およびコミュニティオープンソースのLLama、Alpaca、Vicuna、ChatGLM、MOSSなどがその例です。彼らの前例のない能力のおかげで、彼らは汎用人工知能モデルへの潜在的なルートを提供しています。LLMの効果の結果として、マルチモーダルモデリングコミュニティは、ジョブの特徴空間を事前学習済み言語モデルの特徴空間に合わせるための普遍的なインターフェースとしてLLMを使用する新しい技術的な道を創造しています。 MiniGPT-4、LLaVA、LLaMA-Adapter、InstructBLIPなどのビジョンと言語のモデルは、代表的なタスクの1つとして画像とテキストのペアリングでの指示調整により、ビジョンエンコーダをLLMに合わせるようにアラインメントされます。アラインメントの品質は、指示調整の設計コンセプトに基づいてビジョンと言語のモデルのパフォーマンスに大きな影響を与えます。これらの作品は優れたマルチモーダルスキルを持っていますが、領域レベルのアラインメントにより、領域のキャプションや推論などのより複雑な理解タスクを超えることができません。彼らのアラインメントは画像とテキストのペアリングに限定されています。一部の研究では、MM-REACT、InternGPT、DetGPTなどの外部のビジョンモデルを使用して、ビジョン言語モデルで領域レベルの理解を提供しています。 ただし、彼らの非エンドツーエンドの設計は、汎用マルチモーダルモデルにとってより良い可能性があります。この作品は、関心領域の細かい理解を提供するために、最初から終わりまでビジョン言語モデルを開発することを目指しています。画像全体を画像埋め込みとして圧縮し、特定の部分を参照するための操作を行わないこれらのモデルのモデルアーキテクチャでは、空間指示にオブジェクトボックスを形式として確立します。回答を得るために、LLMは空間教育と言語的指示によって抽出されたビジュアル要素を提供されます。たとえば、問い合わせが「これは何をしているのか?」という交互のシーケンスの場合、モデルは空間指示によって参照される領域の特徴で置き換えます。 RoIAlignまたは変形可能なアテンションは、空間指示のための柔軟な実装方法です。これらは、画像とテキストのデータセットから領域とテキストのデータセットにトレーニングデータを更新し、領域とテキストのペアリング間の細かいアライメントを構築するために、各アイテムの境界ボックスとテキストの説明が提供されます。COCOオブジェクト識別、RefCOCO、RefCOCO+、RefCOCOg、Flickr30Kエンティティ、Visual Genome(VG)、Visual Commonsense Reasoning(VCR)などの公開データセットが組み合わされます。これらのデータセットは、指示調整のための形式に変更されます。さらに、商業的に利用可能な物体検出器を使用して、画像からオブジェクトボックスを抽出し、空間指示として利用することができます。LLaVA150Kなどの画像とテキストのトレーニングデータを活用するために、棚からひとつオブジェクト検出器を使用することもできます。彼らのモデルは、LLMに影響を与えることなく、領域特徴抽出器を事前トレーニングするために使用されます。 彼らのモデルは、これらの画像テキストデータセットから学習し、視覚的指示の調整に注意深く選択されたビジュアルインストラクションを持つため、対話品質が向上し、より人間らしい返答を生成します。収集されたデータセットは、テキストの長さに基づいて2種類に分けられます。まず、短いテキストデータにはアイテムのカテゴリや基本的な特徴に関する情報が含まれます。これらはLLMに影響を与えることなく、領域特徴抽出器を事前トレーニングするために使用されます。次に、より長いテキストには、複雑なアイデアや論理的思考が必要な場合があります。これらのデータには複雑な空間指示が提供され、エンドツーエンドの領域特徴抽出器とLLMの微調整が可能になります。これにより、実際の使用時に柔軟なユーザー指示をシミュレートすることができます。彼らの手法は、空間指示の調整から得られる利点により、ビジョン言語モデルのユーザーに、言語形式と空間指示形式の両方でモデルに問い合わせることができるユニークなインタラクティブな体験を提供します。 図1は、これにより、複雑な領域推論や領域キャプションなど、画像レベルの理解を超える新たな能力が実現することを示しています。結論として、彼らの作品は以下の点に貢献しています: • LLMに地域テキストデータセットのトレーニングを与えることで、地域レベルのビジョン言語モデルを進化させます。彼らのモデルは、以前の画像レベルのモデルと比較して、領域キャプションや推論などの追加機能を備えています。 • 応答を得るために、関心領域を参照するための空間指示を導入し、ビジュアルエンコーダから回復した領域特性を言語指示と共にLLMに提供します。 • コーディング、データセットの指示調整形式、オンラインデモはすべてGitHubで利用可能です。 図1: GPT4RoIと呼ばれるビジョン言語モデルは、領域とテキストのペアリングで大規模な言語モデル(LLM)を調整する指示調整に基づいて構築されています。単一の領域に口頭と位置情報を組み合わせたユーザーの指示を分析することができます。領域のキャプション付けや推論など、細かいマルチモーダル理解のタスクを達成します。

ペンシルバニア大学の研究者は、RNNベースのリザーバーコンピュータを設計およびプログラムするための代替AIアプローチを紹介しました

人間の脳は、自然が創り出した中で最も複雑なシステムの一つです。ニューロンは再発するニューラルリンクを形成し、インパルスを通じて情報を伝達することで相互作用します。その信じられないほどの論理的推論と数値解析の方法により、研究者たちはこれらの生物学的なニューラルネットワークの方法を現在の人工ニューラルシステムに実装しようと試みています。ニューラル計算の方法には、動的システムの中のRNNや機械学習のためのコンピュータアーキテクチャのニューラルレプリカが含まれます。 研究グループは、現在のニューラルネットワーク技術の進歩により、ソフトウェア仮想化と論理回路の完全な分散型ニューラル実行が可能になると主張しています。これは、これらのニューラルネットワークのトレーニングと改善に通常必要な例データや状態空間のサンプリングの必要性を排除することによって達成されます。基本的には、仮想化やデジタル回路設計などの領域での人工知能のより効率的で堅牢な応用の可能性を示唆しています。 現在のニューラル計算へのアクセスは、ニューラルコンピュータと現代のシリコンコンピュータとの関係の理解が必要であるために限られています。これには、多くのコンピュータのような機能を管理する単純な一連の支配方程式を持つニューラルネットワークが必要です。単純な方程式の結果として、リザーバーコンピュータ(RC)などのネットワークは、再帰型ニューラルネットワーク(RNN)として理論的によく理解されています。これらは入力を受け取ると、内部状態の一連の進化を遂げ、出力はそれらの状態の重み付けの合計です。 ペンシルベニア大学の研究チームは、state neural programming(SNP)とdynamic neural programming(DNP)という2つのフレームワークを開発しました。SNPは、解析的な方程式を解決し操作するためにRCを使用します。DNPは、RCをカオスな力学系をランダムアクセスメモリとして保存するようにプログラムし、ニューラル論理AND、NAND、OR、NOR、XOR、XNORを実装します。 「SNPを使用したオープンループアーキテクチャ」では、タイムラグ入力の多項式時間乗のプログラミング行列を取得し、ハイパスフィルタとして操作できます。アルゴリズムを解決するために、「SNPを使用したクローズドループアーキテクチャ」が使用され、RNNが確率的で微分不可能な時間系列の重要な時間履歴を保存し、短時間フーリエ変換が行われます。 シミュレーションと仮想化には、連続時間RNNの時間履歴のプログラミングが必要なため、DNPメソッドを使用してクローズドループRNNが実装されます。研究者たちは、2000状態のホストRNNと15状態のゲストRNNのフィードバックのダイナミクスをシミュレートしようとしました。彼らは、サンプルなしでカオスなローレンツアトラクターをシミュレートしているだけだとわかりました。結論として、以下のようになります: 研究者たちは、シリコンハードウェアを模倣する現在のアプローチに対して、完全にプログラム可能な代替計算フレームワークが存在することを発見しました。代わりに、それぞれのユニークなシステムの完全な計算能力を最大化する特定のプログラミングシステムの作成に焦点を当てることを提案しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us