Learn more about Search Results これ - Page 6

「CMUの研究者たちは、スロット中心のモデル(Slot-TTA)を用いたテスト時の適応を提案していますこれは、シーンを共通してセグメント化し、再構築するスロット中心のボトルネックを備えた半教師付きモデルです」

コンピュータビジョンの最も困難で重要なタスクの1つは、インスタンスセグメンテーションです。画像や3Dポイントクラウド内のオブジェクトを正確に区別し、カテゴリ分けする能力は、自律走行から医療画像解析までさまざまなアプリケーションに基盤となるものです。これらの最先端のインスタンスセグメンテーションモデルの開発においては、長年にわたって著しい進歩が達成されてきました。しかし、これらのモデルは、しばしばトレーニング分布から逸脱した多様な現実のシナリオとデータセットに対して助けが必要です。セグメンテーションモデルをこれらの分布外(OOD)シナリオに適応させるというこの課題は、革新的な研究を促しています。そのような画期的なアプローチの1つであるSlot-TTA(テスト時適応)は、非常に注目されています。 計算機ビジョンの急速な進化の中で、インスタンスセグメンテーションモデルは顕著な進歩を遂げ、画像や3Dポイントクラウド内のオブジェクトを認識し、正確にセグメント化することが可能となりました。これらのモデルは、医療画像解析から自動運転車まで、さまざまなアプリケーションの基盤となっています。しかし、それらは共通の困難な敵に直面しています。それは、トレーニングデータを超える多様な現実のシナリオとデータセットに適応することです。異なるドメイン間でシームレスに移行することのできなさは、これらのモデルを効果的に展開するための重要な障壁となっています。 カーネギーメロン大学、Google Deepmind、Google Researchの研究者たちは、この課題に対処する画期的なソリューションであるSlot-TTAを発表しました。この新しいアプローチは、インスタンスセグメンテーションのテスト時適応(TTA)に設計されています。Slot-TTAは、スロット中心の画像とポイントクラウドレンダリングコンポーネントの能力と最先端のセグメンテーション技術を結びつけています。Slot-TTAの核となるアイデアは、インスタンスセグメンテーションモデルがOODシナリオに動的に適応できるようにすることであり、これにより精度と汎用性が大幅に向上します。 Slot-TTAは、その主なセグメンテーション評価指標として調整済みランド指数(ARI)の基礎に基づいて動作します。Slot-TTAは、マルチビューの姿勢付きRGB画像、単一ビューのRGB画像、複雑な3Dポイントクラウドなど、さまざまなデータセットで厳密なトレーニングと評価を行います。Slot-TTAの特徴的な特徴は、テスト時適応のための再構成フィードバックを活用する能力です。このイノベーションは、以前に見たことのない視点とデータセットに対してセグメンテーションとレンダリングの品質を反復的に改善することを含みます。 マルチビューの姿勢付きRGB画像において、Slot-TTAは強力な競合相手として浮上します。その適応性は、MultiShapeNetHard(MSN)データセットの包括的な評価によって示されます。このデータセットには、リアルワールドのHDR背景に対して注意深くレンダリングされた51,000以上のShapeNetオブジェクトが含まれています。MSNデータセットの各シーンには、Slot-TTAのトレーニングとテストのために入力ビューとターゲットビューに戦略的に分割された9つの姿勢付きRGBレンダリング画像があります。研究者たちは、トレーニングセットとテストセットの間のオブジェクトインスタンスとシーン中のオブジェクトの数に重なりがないように特別な配慮をしています。この厳格なデータセットの構築は、Slot-TTAの堅牢性を評価するために重要です。 評価では、Slot-TTAはMask2Former、Mask2Former-BYOL、Mask2Former-Recon、Semantic-NeRFなどのいくつかのベースラインと対決します。これらのベースラインは、Slot-TTAのパフォーマンスをトレーニング分布内外で比較するためのベンチマークです。その結果は驚くべきものです。 まず最初に、OODシーンにおいて特にMask2Formerと比較して、Slot-TTA with TTAは優れた性能を発揮します。これは、Slot-TTAが多様な現実のシナリオに適応する能力の優れていることを示しています。 次に、Mask2Former-BYOLにおけるBartlerらの自己教師あり損失の追加は、改善をもたらさないことが明らかになります。これは、すべてのTTA手法が同じくらい効果的ではないことを強調しています。 さらに、セグメンテーション監督なしのSlot-TTAは、OSRT(Sajjadi et al., 2022a)のようなクロスビュー画像合成にのみトレーニングされたバリアントと比較して、Mask2Formerのような監督セグメンターに比べて大幅に性能が低下します。この観察結果は、効果的なTTAのためには訓練中のセグメンテーション監督の必要性を強調しています。 Slot-TTAの能力は、新しい、以前に見たことのないRGB画像ビューの合成と分解にも広がります。前述のデータセットとトレーニングとテストの分割を使用して、研究者はSlot-TTAのピクセル単位の再構成品質とセグメンテーションARIの精度を、5つの新しい、以前に見たことのない視点について評価します。この評価には、TTAのトレーニング中に見られなかったビューも含まれます。その結果は驚くべきものです。 Slot-TTA(Slot-centric Temporal Test-time Adaptation)による未知の視点におけるレンダリングの品質は、テスト時の適応によって大幅に向上し、新しいシナリオでのセグメンテーションとレンダリングの品質を向上させる能力を示しています。これに対し、強力な競合であるSemantic-NeRFは、これらの未知の視点への一般化に苦労しており、Slot-TTAの適応性と潜在能力を示しています。 結論として、Slot-TTAはコンピュータビジョンの分野における重要な進歩を表しており、多様な現実世界のシナリオにセグメンテーションモデルを適応させるという課題に取り組んでいます。スロット中心のレンダリング技術、高度なセグメンテーション手法、およびテスト時の適応を組み合わせることで、Slot-TTAはセグメンテーションの精度と汎用性の両方で顕著な改善を提供します。この研究は、モデルの制約を明らかにするだけでなく、コンピュータビジョンの将来のイノベーションへの道を開拓します。Slot-TTAは、コンピュータビジョンの絶えず進化する領域で、インスタンスセグメンテーションモデルの適応性を向上させることを約束します。

「ExcelでのPython:これがデータサイエンスを永遠に変える」

「ExcelでPythonコードを実行してデータを分析し、機械学習モデルを構築し、可視化を作成することができます」

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル(LLM)の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、膨大なデータの利用可能性、コンピュータの性能向上、ニューラルネットワークの設計の突破が含まれます。GPT-4、PaLM、LLaMAなどの有名なモデルは、多くの異なるタスクを非常に優れた能力でこなすことが示されています。これらのタスクでは、プロンプトの提供、能力の微調整、人間からのフィードバックを活用して学習と改善を支援する手法がよく使用されます。天文学の分野は、LLMの応用にとってユニークな課題と肥沃な土壌を提供しています。 上記の画像では、各モデルが同じ短いテキストスニペットで提示され、それぞれのボックスでハイライトされていることがわかります。GPT-4は一般的な文言をより多く生成する傾向があり、ドメイン固有のニュアンスを欠いています。AstroLLaMAは最も堅牢な補完を示し、天文学の分野に特化したより関連性の高い概念や深い洞察を提供するため、LLaMA-2およびGPT-4を大幅に上回っています。 ただし、AstroLLaMAには認識されるべきいくつかの制約もあります。その中でも重要な制約の1つは、モデルが天文学の特定の領域における知識の不足です。AstroLLaMAはGaia-ESOデータから潜在的な星の候補を推定する能力が著しく不正確です。これらの問題に対処するため、研究者は現在、AstroLLaMAの訓練データセットの強化に取り組んでいます。抽象のみを使用するのではなく、既存の天文学の論文の完全なLaTeXソースを組み込む予定です。これにより、モデルが学習できるトークンの数が大幅に増加します。 AstroLLaMAは、天文学に特化した専門の大規模言語モデル(LLM)の印象的なプロトタイプとなっています。このモデルは、GPT-4よりもはるかに少ないパラメータを持ちながら、注目すべき文脈に関する能力を示し、優れたパフォーマンスを発揮しています。この進展は、質問に答える、科学的な内容を要約する、仮説を生成するなどのさまざまなタスクのパフォーマンス向上に向けた扉を開くだけでなく、マルチモーダルモデルにも影響を与えます。

MITとマイクロソフトの研究者が、DoLaという新しいAIデコーディング戦略を紹介しましたこれは、LLMsにおける幻覚を減らすことを目的としています

大規模言語モデル(LLM)の利用により、多くの自然言語処理(NLP)アプリケーションが大きな恩恵を受けてきました。LLMは性能が向上し、スケールアップにより追加の機能を獲得しましたが、事前トレーニング中に検出された実世界の事実と一致しない情報を「幻覚」する問題を抱えています。これは高リスクなアプリケーション(臨床や法的な設定など)において、信頼性のあるテキストの生成が不可欠な場合には、採用の障害となります。 データとモデルの分布の間の前方KLダイバージェンスを最小化しようとする最尤言語モデリングのターゲットが、LLMの幻覚の原因かもしれません。しかし、これは確証されているわけではありません。この目標を追求する場合、LMは、トレーニングデータにエンコードされた知識と完全に一致しないフレーズに非ゼロの確率を割り当てる場合があります。 モデルの解釈可能性の観点からは、トランスフォーマーの初期レイヤーは「低レベル」の情報(品詞タグなど)をエンコードすることが示されています。対照的に、後のレイヤーはより「意味的な」情報をエンコードします。 MITとMicrosoftの研究者グループは、このモジュラーな知識のエンコードを利用して、より深いレベルからの情報を優先し、中間または浅いレベルの情報を軽視することで、LMの事実の知識を増やすための対照的なデコーディング戦略を提案しています。 彼らの最近の研究は、Decoding by Contrasting Layers(DoLa)という新しいデコーディング手法を紹介しています。提案された手法は、外部の知識を取得したり、さらなる微調整を行ったりせずに、LLMにエンコードされた事実知識の露出を改善することに基づいています。 DoLaは、TruthfulQAおよびFACTORの両方でLLaMAファミリーモデルの整合性を改善する実験的な証拠が示されています。StrategyQAとGSM8K ccの両方で、連鎖思考の推論に関する追加の実験は、事実の推論を改善する可能性を示しています。最後に、GPT-4で評価されたオープンエンドのテキスト生成の実験結果は、DoLaが情報を提供し、元のデコーディング手法と比較して優れた評価を導くより事実に基づく応答を生成することができることを示しています。DoLaは、LLMの信頼性を高めるためのデコーディング手法であり、研究結果はデコーディングプロセスにわずかな時間しか追加しないことを示しています。 研究者たちは、他のドメイン(指示の従順性や人間のフィードバックへの反応など)でのモデルのパフォーマンスを調査していません。また、人間のラベルや事実情報源を利用して微調整するのではなく、チームは既存のアーキテクチャとパラメータに依存しており、可能な改善の範囲を制限しています。特定の回収強化LMとは異なり、この手法は完全にモデルの既存の知識に依存しており、外部の回収モジュールを介して新しい情報を追加することはありません。チームは、将来の研究が上記のコンポーネントをデコーディング技術に組み込んで制限を克服するのに役立つことを望んでいます。

スタンフォード大学の研究者たちは、「Protpardelle」という画期的な全原子拡散モデルを導入しましたこれは、タンパク質の構造と配列を共同設計するためのものです

タンパク質設計の驚くべき進展として、研究チームが連続的なと離散的なタンパク質構造の複雑な相互作用に対処するオールアトム拡散モデル「Protpardelle」を発表しました。このモデルは、品質、多様性、革新性に優れたタンパク質を生成する画期的な成果を達成し、従来の分野の枠組みを超えています。 タンパク質は生物学的な機能の要となり、正確な化学的相互作用を通じてさまざまな重要なプロセスを組織化します。課題は、効果的なタンパク質設計を可能にするため、主に側鎖によって支配されるこれらの相互作用を正確にモデリングすることにあります。Protpardelleは、さまざまな潜在的な側鎖状態を包括し、それらを後退拡散の開始に崩壊させるユニークな「重ね合わせ」技術を利用しています。 Protpardelleは、配列設計手法とシナジーを発揮し、オールアトムタンパク質構造と配列の共同設計を先駆的に行っています。その結果、設計されたタンパク質は、自己整合性を評価する広く受け入れられている指標によって評価される優れた品質を示します。この指標は、設計された配列の構造的な形状を予測し、予測された構造とサンプルされた構造との一致を測定します。Protpardelleは、既存の手法と比較して、300残基までのタンパク質に対して90%以上の成功率を一貫して達成し、設計可能性の飛躍的な向上を示しています。さらに、これを効率的に行うための計算コストを大幅に削減しています。 多様性は生成モデルの重要な特徴であり、モードの崩壊を防ぎ、実行可能な解のスペクトルを広げる役割を果たします。Protpardelleはこの点で優れており、サンプルをクラスタリングして構造の多様性の豊かな風景を明らかにします。α型およびβ型の幅広い構造のタンパク質を生成する能力は、その多用途性を示しています。 重要なことに、Protpardelleはトレーニングデータセットの制約に縛られていません。トレーニングセット内のタンパク質とは異なる新しいタンパク質を生成する能力は、未踏の領域に踏み込む可能性を示しています。 オールアトムモデルのProtpardelleは、特に150残基までのタンパク質の無条件の生成において、その能力を発揮します。ここでは、構造の類似性指標によって評価された成功率が約60%に達します。サンプルの視覚的な検査は、2次構造要素で飾られた多様なタンパク質の折り畳みの多様な配列を示しています。 Protpardelleは、生成されたサンプルの化学的な整合性を維持し、天然のタンパク質で観察される結合長と角度の分布に一致します。モデルは、サイ角の天然分布の主なモードを巧みに捉え、側鎖の振る舞いを包括的に描き出します。 Protpardelleの非凡な能力を支えるチームのネットワークアーキテクチャは、戦略的に設計されたレイヤーとアテンションヘッドを備えたU-ViT構造を組み込んでいます。ノイズコンディショニングは、訓練プロセスに重要な情報を注入する役割を果たします。モデルは、その基盤の堅牢性を証明するCATH S40データセットで綿密にトレーニングされています。 Protpardelleのユニークなノイズ除去ステップは、そのサンプリングプロセスの重要な要素であり、最適な結果を得るためのパラメータを微調整します。 Protpardelleの登場は、バイオテクノロジーと製薬の未曽有の可能性への扉を開く、タンパク質設計におけるパラダイムシフトを示しています。構造と配列を組み合わせることによってタンパク質エンジニアリングを革新する潜在能力は、この分野における新たな時代の到来を予示しています。研究者がその無限の可能性を探求し続ける中で、Protpardelleはタンパク質設計とエンジニアリングの景観を変える準備が整っています。

Amazon SageMakerで@remoteデコレータを使用してFalcon 7Bやその他のLLMを微調整する

今日、生成型AIモデルはテキスト要約、Q&A、画像やビデオの生成など、さまざまなタスクをカバーしています出力の品質を向上させるために、n-短期学習、プロンプトエンジニアリング、検索補完生成(RAG)およびファインチューニングなどの手法が使用されていますファインチューニングにより、これらの生成型AIモデルを調整して、ドメイン固有の改善されたパフォーマンスを達成することができます

アリババグループによるこの論文では、FederatedScope-LLMという包括的なパッケージが紹介されていますこれは、フェデレーテッドラーニングでLLMを微調整するためのものです

今日、Hugging Faceのようなプラットフォームは、AI研究者から機械学習の経験が限られている人まで、さまざまなエンティティのために事前学習された大規模言語モデル(LLM)にアクセスし、活用することを容易にしました。似たようなタスクに取り組む複数の組織やエンティティが、プライバシー規制により直接ローカルデータを交換できない場合、フェデレーテッドラーニング(FL)は、これらのエンティティからの集合データを利用するための優れた解決策として浮上します。FLはまた、強力なプライバシー保護を提供し、モデルのアイデアを安全に保ち、異なる方法を使用してカスタマイズされたモデルを作成することができます。 この研究では、データセットの前処理、フェデレーテッドファインチューニングの実行またはシミュレーション、およびフェデレーテッド大規模言語モデル(LLM)のファインチューニングのコンテキストでのパフォーマンス評価など、包括的なエンドツーエンドのベンチマーキングパイプラインを確立し、さまざまな能力デモンストレーションの目的のために設計されています。 上記の画像はFS-LLMのアーキテクチャを示しており、LLMBENCHMARKS、LLM-ALGZOO、LLM-TRAINERの3つの主要モジュールで構成されています。チームは、フェデレーテッドパラメータ効率の高いファインチューニング(PEFT)アルゴリズムの堅牢な実装と、将来の拡張を容易にする多目的プログラミングインターフェースを開発しました。これにより、クローズドソースLLMを扱う場合でも、最小限の通信および計算オーバーヘッドでLLMを効果的にフェデレーテッドラーニング(FL)シナリオで動作させることができます。 詳しいチュートリアルは彼らのウェブサイトで提供されています:federatedscope.io FederatedScopeはFederatedScope PlaygroundまたはGoogle Colabを介してお試しください。 彼らのアプローチは、リソース制約下でLLMのファインチューニングを行うための加速技術とリソース効率の高い戦略を組み込んでおり、LLMを個別化されたフェデレーテッドラーニング設定での応用などの異分野研究のための柔軟なプラグイン可能なサブルーチンも提供しています。 この研究では、最新のパラメータ効率の高いファインチューニングアルゴリズムを使って、フェデレーテッドコンテキスト内でのFS-LLMの効果を検証し、高度なLLMのベンチマークを確立しています。これらの実験結果から得られた知見に基づき、FLおよびLLMコミュニティの将来の研究方向についていくつかの有望な方向性を示しています。

グーグルの研究者たちは、MEMORY-VQという新しいAIアプローチを提案していますこれにより、メモリ拡張モデルのストレージ要件を削減することができますが、パフォーマンスを犠牲にすることはありません

言語モデルの最近の研究では、事実知識を強化するために検索の拡張の重要性が強調されています。検索の拡張は、これらのモデルに関連するテキストパッセージを提供してパフォーマンスを向上させるものですが、より高い計算コストがかかります。LUMENとLUMEN-VQによって示される新しいアプローチは、コーパスからパッセージを事前エンコードして検索の拡張を高速化することを目指しています。このアプローチは、品質を維持しながら計算負荷を減らすのに役立ちます。ただし、事前エンコードには大量のストレージが必要であり、これが課題となっています。 製品量子化とVQ-VAEの手法を組み合わせたLUMEN-VQは、このストレージの問題に取り組んでおり、16倍の圧縮率を達成しています。これにより、膨大なコーパスのメモリ表現を効率的に保存することができます。この進歩は、言語理解や情報検索のタスクにおいて、実用的な大規模な検索の拡張を実現するための重要な一歩となります。 Googleの研究者は、ストレージ要件を削減するための手法としてMEMORY-VQを紹介しています。これにより、メモリをベクトル量子化して圧縮し、元のメモリベクトルをオンザフライで復号できる整数コードで置き換えます。各量子化ベクトルのストレージ要件は、サブスペースの数とコードを表現するために必要なビット数によって決まります。このアプローチは、LUMENモデルに適用され、LUMEN-VQが実現されます。圧縮と復号には、慎重なコードブックの初期化とメモリの分割が使用されます。 結論として、MEMORY-VQは、高いパフォーマンスを維持しながらメモリ拡張言語モデルのストレージ要件を効果的に削減する先駆的な手法です。広範な検索コーパスを扱う場合に特に有益な推論速度の向上を実現するための実用的な解決策となります。

「プリンストンの研究者たちは、CoALA(コアラ)という概念的なAIフレームワークを提案していますこれにより、言語エージェントを体系的に理解し構築することが可能となります」

人工知能の急速な進化の中で、人間の言語を理解し生成する能力を持つ言語エージェントを開発するという課題が課せられています。これらのエージェントは言語を理解し解釈し、複雑なタスクを実行することが期待されています。研究者や開発者にとって、これらのエージェントをどのように設計し、向上させるかという問題は最重要な関心事となっています。 プリンストン大学の研究チームは、言語エージェントの開発に構造と明瞭さをもたらす画期的な概念モデルである「Cognitive Architectures for Language Agents (CoALA)」フレームワークを紹介しました。この革新的なフレームワークは、内部メカニズム、メモリモジュール、アクションスペース、意思決定プロセスに基づいてエージェントを分類することで、言語エージェントの開発に構造と明瞭さを与えることを目指しています。このフレームワークの顕著な応用例としては、メタAIの研究者が開発したLegoNNメソッドが挙げられます。 CoALAフレームワークの重要な構成要素であるLegoNNは、エンコーダ・デコーダモデルの構築における画期的なアプローチを提供します。これらのモデルは、機械翻訳(MT)、自動音声認識(ASR)、光学文字認識(OCR)を含むさまざまなシーケンス生成タスクにおいてバックボーンとなります。 従来のエンコーダ・デコーダモデルの構築方法では、通常、各タスクごとに別々のモデルを作成する必要がありました。この手間のかかるアプローチには、各モデルの個別のトレーニングと微調整が必要であり、多くの時間と計算リソースを要求します。 しかし、LegoNNは、そのモジュール式のアプローチによってパラダイムの転換をもたらします。開発者は、異なるシーケンス生成タスクに適応できる柔軟なデコーダモジュールを作成することによって、モデルの構築とトレーニングに必要な時間と労力を大幅に削減することができます。これらのモジュールは、さまざまな言語関連アプリケーションにシームレスに統合するために巧妙に設計されています。 LegoNNの特徴的な革新は、再利用性に重点を置いている点にあります。デコーダモジュールが特定のタスクに対して緻密にトレーニングされると一度、再トレーニングを行わずにさまざまなシナリオで利用することができます。これにより、時間と計算リソースを大幅に節約でき、高効率で多目的な言語エージェントの作成が可能となります。 CoALAフレームワークの導入とLegoNNなどの革新的な手法は、言語エージェントの開発において重要なパラダイムシフトをもたらしています。以下に主なポイントの要約を示します。 構造化された開発: CoALAは、言語エージェントを分類するための構造化されたアプローチを提供します。この分類により、研究者や開発者はこれらのエージェントの内部機能をより理解し、より情報に基づいた設計の決定が可能となります。 モジュールの再利用性: LegoNNのモジュール式のアプローチは、言語エージェントの開発における新たな再利用性をもたらします。さまざまなタスクに適応できるデコーダモジュールを作成することで、モデルの構築とトレーニングに必要な時間と労力を大幅に削減できます。 効率と多様性: LegoNNの再利用性の側面は、効率と多様性に直結します。言語エージェントは、特定のアプリケーションごとにカスタムビルドされたモデルを必要とせずに、さまざまなタスクを実行できるようになります。 コスト削減: 言語エージェントの開発には従来、膨大な計算コストがかかりました。LegoNNのモジュール設計により、時間と計算リソースを節約することができ、費用効果の高いソリューションとなります。 パフォーマンスの向上: LegoNNによるデコーダモジュールの再利用は、パフォーマンスの向上につながります。これらのモジュールは特定のタスクに対して微調整され、さまざまなシナリオに適用されることで、堅牢な言語エージェントが実現します。 結論として、CoALAフレームワークやLegoNNなどの革新的な手法は、言語エージェントの開発の景色を変えつつあります。このフレームワークは、構造化されたアプローチを提供し、モジュールの再利用を重視することで、効率的で多目的かつ費用効果の高い言語エージェントの実現を可能にします。人工知能の進歩に伴い、CoALAフレームワークは、よりスマートで能力の高い言語エージェントの追求において進歩の指標となっています。

「LLM製品を開発するのは難しい – これが6つの主要な課題です」

∘ 紹介 ∘ チャレンジ1:「AI戦略」の不足 ∘ チャレンジ2:データの制約 ∘ チャレンジ3:プライバシー/セキュリティの懸念 ∘ チャレンジ4:コンテキストウィンドウ ∘ チャレンジ5:プロンプトエンジニアリング ∘…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us