Learn more about Search Results ML - Page 253

モデルマージングとは、複数のモデルを統合して1つのモデルにすることを指しますこのプロセスでは、異なるモデルを組み合わせることにより、新しいモデルを作成することができますモデルマージングにより、異なる特徴やスキルを持つモデルを統合し、より多様な表現を可能にすることができますまた、モデルマージングは、異なるデザインやスタイルのモデルを結びつけるためにも使用されますモデルマージングは、ファッション業界や美容業界でよく使用される技術であり、新しいトレンドやスタイルの創造に役立ちます

モデルのマージングとは、追加のトレーニングを必要とせずに、個別のタスクを実行したり異なる問題を解決するために設計された複数の異なるモデルを統合し、単一の統合モデルを作成するプロセスを指します。具体的な技術や目標によって、モデルのマージングはアンサンブル学習、モデルのブレンディング、またはモデルのスタッキングとも呼ばれることもあります。この技術は、同時にさまざまなタスクを処理できるより多目的で包括的な機械学習モデルを作成することを目指しています。 LLMの文脈では、モデルのマージングは、初期化、アーキテクチャ、または異なるタスクでのトレーニングに基づいてLLMを組み合わせることを含む場合があります。主な目標は、個々のモデルの長所を活かし、より広範なタスクに対応できるマルチタスクLLMを作成することです。このアプローチにより、各構成モデルの知識と機能を利用することで、パフォーマンスと効率を大幅に向上させることができます。 なぜMLモデルをマージするのか? 機械学習モデルを統合することには、予測のばらつきやバイアスを異なるモデルの平均化や投票を通じて減らすなど、いくつかの利点があります。さまざまなデータソースとモデルから複雑なパターンと特徴を活用することで、予測の正確性と適応性を向上させることができます。さらに、モデルのマージングにより、単一のデータセットやアルゴリズムへの依存を減らすことで、予測の多様性と信頼性を向上させることもできます。 モデルのマージングにより、パフォーマンスが向上し、効率が改善され、より広範な適用が可能となります。これにより、追加のトレーニングが必要なく、異なるAIモデルの強みを活用するための貴重な戦略となります。 LLMの結合戦略 一般的なアプローチの1つは、モデルの重みまたはパラメータを平均化して結合することです。これにより、元の各モデルに埋め込まれた知識や専門知識を活用した融合モデルが得られます。モデルのマージングには、各モデルからの特徴の統合も含まれる場合があります。これは、モデルが個別のタスクに対して学習した特定の特徴が、マージモデルの全体的なパフォーマンスに貢献する場合に特に有用です。 一部のモデルのマージング技術では、指定した層までモデルを結合することができるため、マルチヘッドモデルが作成できます。これは、異なるモデルがタスクの異なる側面に特化している場合に有益です。 モデルマージに関する最近の研究論文 トレーニング済みモデルの融合による改良 この研究では、トレーニング済みモデルが自然言語処理のタスクの起点として広く使用されていますが、作成には高コストがかかることを認識しています。著者らは、既存の複数の微調整済みモデルを統合し、その重みの平均値を使用して1つの融合モデルを作成する新しいアプローチを提案しています。この融合モデルは、トレーニング済みモデルよりも一貫して優れたパフォーマンスを発揮し、ベースモデルを別のタスクで微調整するインタートレーニングよりも優れています。この融合プロセスは、ターゲットタスクに依存せずに効果的であり、重み減衰を考慮してもコスト効果の高いリソース効率の良いNLPモデル初期化の改善方法を提供します。 モデルのマージ時の干渉の解消 ダウンストリームタスクのためにトレーニング済みモデルをさらに微調整する転移学習は、パフォーマンスの向上、収束の速さ、およびサンプル効率性を提供します。ただし、タスク固有の微調整済みモデルはしばしば効果的に共同作業することができません。モデルのマージング方法が登場していますが、異なるモデルのパラメータ間の干渉を頻繁に無視し、パフォーマンスの低下を引き起こすことがあります。このため、著者らは、パラメータのリセット、符号の衝突の解決、および互換性のあるパラメータののみのマージングを行うことで干渉の問題を解決するTIES-MERGINGを提案しています。TIES-MERGINGは、多様な設定で既存の方法を凌駕し、性能と多様性を向上させるために、モデルのマージングにおける干渉の解消の重要性を強調しています。 トレーニングなしで異なるタスクのモデルをマージするZipIt!  この研究では、別々のタスクに対してトレーニングされた異なる初期化のモデルを、追加のトレーニングを必要とせずに1つのマルチタスクモデルに統合する際の課題に取り組んでいます。従来のモデルのマージング方法は、同じタスクでトレーニングされたモデルに対してのみ機能しますが、異なるタスクのためにトレーニングされたモデルの統合ではうまくいきません。著者らは、「ZipIt」と呼ばれる任意のアーキテクチャに基づくモデルのマージングのための一般的な方法を提案しています。ZipItは、最初に、共有されていない特徴量を考慮するために各モデル内で特徴量を結合することを可能にし、そして第二に、特定の層までの部分的な結合をサポートし、マルチヘッドモデルを作成します。これらのイノベーションにより、従来の方法に比べて20〜60%の大幅な改善が実現され、異なるタスクでトレーニングされたモデルを効果的にマージすることが可能になります。

マルチモーダルニューロンの秘密を明らかにする:モリヌーからトランスフォーマーへの旅

トランスフォーマーは人工知能領域において最も重要なイノベーションの一つとなるかもしれません。これらのニューラルネットワークアーキテクチャは、2017年に導入され、機械が人間の言語を理解し生成する方法を革新しました。 これまでの方法とは異なり、トランスフォーマーは入力データを並列で処理するための自己注意機構に依存しており、情報のシーケンス内の隠れた関係や依存関係を捉えることができます。この並列処理能力は、トレーニング時間の短縮だけでなく、有名なChatGPTのような洗練されたモデルの開発への道を開きました。 最近の数年間は、人工ニューラルネットワークがさまざまなタスクにおいてどれだけ能力を発揮できるかを示してくれました。言語タスクや視覚タスクなどを変えました。しかし、真の可能性は、ビジョンとテキストなど、さまざまな感覚モーダリティを統合するクロスモーダルタスクにあります。これらのモデルは追加の感覚入力で補完され、異なるソースからの情報の理解と処理を必要とするタスクで印象的な性能を発揮しました。 1688年、ウィリアム・モリナクスという哲学者が、ジョン・ロックに対して長い間学者たちの心を捉え続ける魅力的な謎を提案しました。彼が提起した質問は簡単ですが、深遠です。生まれつき盲目だった人が突然視力を取り戻した場合、以前に触覚や他の視覚以外の感覚だけで知っていた物体を認識することができるでしょうか?この興味深い問い合わせは、モリナクスの問題として知られ、哲学の領域に深く関わるだけでなく、視覚科学にも重要な意味を持っています。 2011年に、視覚神経科学者たちはこの古代の問いに答えるためのミッションを開始しました。彼らは、以前は触覚のみで知っていたオブジェクトの直ちに視覚的な認識は不可能であることを見つけました。しかし、重要な発見は、私たちの脳が驚くほど適応性があることでした。視力を取り戻す手術の数日後には、個人は迅速に視覚的にオブジェクトを認識することができるようになり、異なる感覚モーダリティの間のギャップを埋めることができました。 この現象は、マルチモーダルニューロンにも当てはまるのでしょうか?答えに出会う時間です。 マルチモーダルニューロンはトランスフォーマーMLP上で特定の特徴を活性化させます。出典:https://arxiv.org/pdf/2308.01544.pdf 私たちは技術革新の真っただ中にいます。特に言語タスクで訓練された人工ニューラルネットワークは、視覚とテキストなど、さまざまな感覚モーダリティを統合するクロスモーダルタスクにおいて驚異的な能力を発揮しています。これらのモデルは、追加の感覚入力で補完され、異なるソースからの情報の理解と処理を必要とするタスクで印象的な性能を発揮しました。 これらのビジョン-言語モデルにおける一般的なアプローチの一つは、画像に応じたプレフィックス調整の形態を使用することです。このセットアップでは、別の画像エンコーダがテキストデコーダと整合し、しばしば学習済みのアダプタレイヤーの助けを借りています。このような戦略を採用している方法はいくつかありますが、通常はCLIPなどの画像エンコーダを言語モデルと一緒に訓練しています。 しかし、最近の研究であるLiMBeRは、機械においてモリナクスの問題に似たユニークなシナリオを提示しました。彼らは、一切の言語データを見たことがない自己教育画像ネットワーク「BEIT」を使用し、線形射影層で画像からテキストへのタスクでトレーニングされた言語モデル「GPT-J」と接続しました。この興味深いセットアップは、基本的な疑問を呼び起こします。モーダリティ間の意味の翻訳は射影層内で行われるのか、それともビジョンと言語の表現の整合が言語モデル内で起こるのでしょうか? 6つのCOCOのスーパーカテゴリのサンプル画像に対するトップ5のマルチモーダルニューロン。出典:https://arxiv.org/pdf/2308.01544.pdf MITの著者によって発表された研究は、この400年以上の謎の解明と、これらの多様なモデルがどのように機能するのかを明らかにすることを目的としています。 まず、彼らは画像プロンプトが変換器の埋め込み空間に変換されても解釈可能な意味をエンコードしないことを発見しました。代わりに、異なるモダリティ間の翻訳は変換器内で行われます。 第二に、同じ意味を持つ画像とテキスト情報の両方を処理できる多モダルニューロンが、テキスト専用の変換器MLP内で発見されました。これらのニューロンは、視覚表現を言語に変換する上で重要な役割を果たしています。 最後に、そしておそらく最も重要な発見は、これらの多モダルニューロンがモデルの出力に因果的な影響を与えるということです。これらのニューロンを制御することで、画像のキャプションから特定の概念を除去することができ、コンテンツの多モダル理解における重要性が強調されます。 深層ネットワーク内の個々のユニットの内部構造に対するこの調査は、多くの情報を明らかにします。画像分類器の畳み込みユニットが色やパターンを検出し、後のユニットがオブジェクトのカテゴリを認識できるのと同様に、変換器でも多モダルニューロンが現れることがわかりました。これらのニューロンは、同じ意味を持つ画像とテキストに対して選択的です。 さらに、ビジョンと言語が別々に学習されている場合でも、多モダルニューロンが現れることがあります。彼らは効果的に視覚表現を統一されたテキストに変換することができます。異なるモダリティ間で表現を整列させるこの能力は、言語モデルがゲーム戦略の予測からタンパク質の設計に至るまで、さまざまな順序モデリングを必要とするさまざまなタスクにおいて、強力なツールとなります。

コンピュータビジョンの進歩:画像認識のためのディープラーニング

この記事では、コンピュータビジョンの進歩について詳しく学びますまた、画像認識のためのディープラーニングについても学びましょう (Kono kiji de wa, konpyu-ta bijon no shinpo ni tsuite kuwashiku manabimasu. Mata, gazō ninshiki no tame no dīpura-ningu ni tsuite mo manabimashou.)

MITとCUHKの研究者たちは、LLM(Long Context Large Language Models)に対して効率的なファインチューニングAIアプローチであるLongLoRA(Long Low-Rank Adaptation)を提案しています

Large language models(LLMs)の導入により、人工知能の領域で大きな進歩がもたらされました。自然言語処理(NLP)、自然言語理解(NLU)、自然言語生成(NLG)の概念に基づいて、LLMsは驚異的な能力を持って世界を席巻しています。LLaMAとLLaMA2などのよく知られているモデルは、自然言語の理解と生成に非常に効果的なツールとなっています。 ただし、LLMには制約があり、LLaMAの最大コンテキストサイズは2048トークン、LLaMA2の最大コンテキストサイズは4096トークンです。これにより、長いドキュメントや長いクエリを処理する必要があるタスクに対しては苦労します。シーケンスを長く訓練することでコンテキストウィンドウを拡張する方法もありますが、これには計算上の困難が伴い、リソースを過度に消費する可能性があります。 ローランク適応(LoRA)は、コンテキストウィンドウを拡張するための簡単な方法です。LoRAは、自己注意ブロックの線形射影層を変更するために計算効率が高く、トレーニング可能なパラメータの数を制限した低ランク行列を使用します。ただし、長いコンテキストモデルを単純なローランク適応で訓練することは、経験的な研究によるとあまり効果的ではないようです。通常の自己注意メカニズムにより、コンテキストの拡張が進むにつれ、混乱が生じ、効果が低下します。 制約を克服するために、研究チームはLongLoRAという効率的な微調整手法を開発しました。この手法は、過度な計算コストをかけることなく、事前学習済みの大規模言語モデルのコンテキストサイズを効果的に拡張するために開発されました。LongLoRAは、LLaMA2などの事前学習済みLLMのコンテキストウィンドウを拡大するプロセスを2つの重要な方法で高速化します。 まず、LongLoRAは、微調整中に有効なコンテキスト拡張を実現するために、シフトショートアテンション(S2-Attn)を利用します。LLMが推論中にうまく機能するためには、依然として密なグローバルアテンションが必要ですが、微調整プロセスでは疎なローカルアテンションを利用することで効果的かつ迅速に実行することができます。従来のアテンション技術を使った微調整と比較して、S2-Attnはコンテキストの拡張を可能にし、計算上の節約につながります。なぜなら、トレーニング中に実装するための2行のコードだけで済むオプションの部分なので、推論とは別に容易に統合できるからです。 次に、LongLoRAはパラメータの効果的なコンテキスト拡張技術に重点を置いて微調整手順を再検討します。研究チームは、モデルにトレーニング可能な埋め込み層と正規化層がある場合、LoRAはコンテキストの拡張に優れたパフォーマンスを発揮することを発見しました。この認識は、計算負荷を大幅に増やすことなくコンテキストを拡張するために重要な要素です。 7B/13Bから70BまでのサイズのLLaMA2モデルに対して、LongLoRAはさまざまなタスクに対して注目すべき経験的な結果を示しました。1つの8 x A100 GPUコンピュータでは、この手法によりLLaMA2 7Bのコンテキストを4kトークンから100kトークン、LLaMA2 70Bのコンテキストを32kトークンまで拡大することができます。これにより、元のモデル構造を維持しながら、既存の使用方法やFlashAttention-2などのツールと互換性があります。 また、実際のLongLoRAの使用を支援するために、LongQAというデータセットが開発されています。このデータセットには、広範なコンテキストを持つ3,000以上の質問-回答のペアが含まれています。このデータセットの提供により、LLMの機能を拡張したいと考えている学術研究者やプロフェッショナルにとって、LongLoRAの有用性が向上しています。

スタビリティAIによるステーブルオーディオはどのように機能するのでしょうか?

そうですね研究の文脈でそれを行うことができるだけでなく、自分でコーディングすることもできますが、簡単なテキストの説明を入力するだけで音楽のサンプルを取得できるウェブサイトでもできます!そして...

データサイエンティストが生産性を10倍にするための5つのツール

AIツールは、単調で繰り返されるタスクを自動化することで、データサイエンティストの生産性を最大限に引き上げるのに役立ちます詳細はこちらでご確認ください!

「Amazon EUデザインと建設のためにAmazon SageMakerで動作する生成AIソリューション」

アマゾンEUデザイン・コンストラクション(Amazon D&C)チームは、ヨーロッパとMENA地域全体でアマゾン倉庫を設計・建設するエンジニアリングチームですプロジェクトの設計と展開のプロセスには、アマゾンとプロジェクト固有のガイドラインに関するエンジニアリング要件についての情報リクエスト(RFI)の多くの種類が含まれますこれらのリクエストは、基本ラインの取得から簡単なものから始まります [...]

MDauditは、AIを使用して医療関係者の収益結果を改善することを目指しています

MDauditは、7万以上の医療提供者と1,500以上の医療施設にクラウドベースの請求のコンプライアンスと収益の正確性を保証するソフトウェアサービス(SaaS)プラットフォームを提供しています健康関連のお客様が規制のコンプライアンスを保持し、収益を維持できるようにしていますトップ60以上の米国の医療ネットワークとの取り組みを行っているMDauditは、人工知能(AI)の能力を拡張する必要があります...

最速の道 AIを使用して手術室でがん細胞を分析するヘルスケアスタートアップ

医療機器会社のInvenio Imagingは、手術室で組織生検を評価することができる技術を開発しており、サンプル採取後すぐに、病理学研究所で数週間かかるであろう情報をわずか3分で提供します。 手術の生検では、医療専門家ががんなどの病気のために解析する細胞や組織のサンプルを取ります。治療室内のコンパクトなAI駆動の画像システムを通じて、Invenioは迅速な臨床的意思決定をサポートすることを目指しています。 シリコンバレー拠点のInvenioのテクノロジーチームのCTOであるChris Freudigerは、「この技術は生検や手術時に外科医が臨床的な意思決定を行うのを支援します。組織のサンプルにがん細胞が含まれているかどうかを迅速に評価でき、さらに、Invenioが開発しているAIモデルで分子診断を行い、数分で個別の医療治療を行うことができるかもしれません」と述べています。 より迅速な診断は、より迅速な治療を可能にします。特に、専門の病理学研究所からの生検結果が戻るまでの数週間の間に成長したり広がったりする可能性のある悪性腫瘍にとっては、特に重要です。 Invenioは、先進的なスタートアップ企業に技術的なサポートとAIプラットフォームのガイダンスを提供するプログラムであるNVIDIA Inceptionのメンバーです。同社は、NVIDIAのGPUとソフトウェアライブラリを使用して、AIのトレーニングと推論を加速させています。 がん治療におけるレーザー焦点 NIOレーザーイメージングシステムにより、新鮮な組織生検のイメージングが加速されます。 InvenioのNIOレーザーイメージングシステムは、新鮮な組織生検のイメージングを加速するデジタル病理学ツールです。これは、アメリカとヨーロッパで何千もの手術で使用されています。2021年には、欧州での規制承認のCEマークを受けました。 同社は、次世代イメージングシステムにNVIDIA Jetson OrinシリーズのエッジAIモジュールを採用する予定であり、NVIDIA TensorRT SDKによるほぼリアルタイムのAI推論を含むものとなります。 Chris Freudigerは、「私たちは、イメージングの能力の上にAIモデルの層を構築しており、医師に診断イメージだけでなく、彼らが見ているものの分析結果を提供します。NVIDIA Jetsonが提供するAIパフォーマンスにより、生検画像にどのようながん細胞が存在するかを迅速に判断することができるようになります」と述べています。 Invenioは、組織学データに基づいて、数千万のパラメータを持つニューラルネットワークをNVIDIA RTX A6000 GPUのクラスターを使用してトレーニングします。これらのモデルは、TensorFlowディープラーニングフレームワークを使用して開発され、NIOイメージングシステムで取得した画像でトレーニングされました。 Freudiger氏は、「RTX…

「静止画や無音ビデオからオーディオを取得する」

ノースイースタン大学で開発された機械学習ツールは、静止画や音声のない動画から音声を取得することができます

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us