Search Results A

「Amazon Comprehendのカスタム分類を使用して分類パイプラインを構築する（パートI）」

このマルチシリーズのブログ投稿の最初のパートでは、スケーラブルなトレーニングパイプラインの作成方法と、Comprehendカスタム分類モデルのためのトレーニングデータの準備方法について学びます数回のクリックでAWSアカウントにデプロイできるカスタム分類トレーニングパイプラインを紹介します

「新しい研究は、AIイノベーションのモデルとして生態学を示唆しています」

人工知能（AI）はしばしば神経学の視点から見られてきましたが、人間の認知に根ざしたプロセスをシミュレートしていますしかし、最近の一著名な論文、『国立科学アカデミー紀要（PNAS）』に掲載された論文は、AIの革新のための新しいインスピレーションとして生態学を提案する新しい視点を紹介していますこの収束は単なる学術的な演習に過ぎず、それは提示されています…

Biology

中国の研究者がImageBind-LLMを紹介：ImageBindを介した大規模言語モデル（LLM）のマルチモダリティインストラクションチューニング方法

研究者は最近、大規模言語モデル（LLM）の指示調整において大きな改善を見ています。ChatGPTとGPT-4は、言語と視覚に従って人間の命令に従う汎用対話システムです。しかし、クローズドソースの制約のため、それらはまだ再現不可能です。Alpaca、LLaMAAdapter、および関連する取り組みは、これに対応するために自己生成されたデータを使用して、公開されているLLaMAを言語指示モデルに変更することを提供します。LLaVA、LLaMA-Adapter、およびその他のモデルは、画像指示のカスタマイズを実現するために、ビジュアル理解能力をLLMに統合します。現在の指示調整技術の成功にもかかわらず、テキスト、画像、音声、3Dポイントクラウド、およびビデオなどの広範な多文化指示のためのLLMを作成するためには、さらなる改良が必要です。上海人工知能研究所、CUHK MMLab、およびvivo AI Labの研究者は、事前学習されたImageBindの結合埋め込み空間の指示に従って、効果的にLLaMAを微調整するImageBind-LLMマルチモーダリティ指示フォローモデルを紹介しています。図1に示すように、彼らのImageBind-LLM（b）は、従来のビジュアル指示モデル（a）とは異なり、画像以外のさまざまなモダリティの入力指示に応答することができます。これは、有望な拡張性と汎化能力を示しています。彼らは、ImageBindの画像に整列したマルチモーダリティ埋め込み空間の指示の微調整に、ビジョン-言語データのみを使用することを提案しています。画像キャプションのペアに対して、彼らはまず、ImageBindの凍結された画像エンコーダを使用してグローバルな画像特徴を抽出し、学習可能なバインドネットワークを使用して埋め込み変換を行います。変換された画像特徴は、LLaMAのすべてのトランスフォーマーレイヤーの単語トークンに適用され、適切なテキストキャプションの生成のためのビジュアルコンテキストを作成します。LLaMA-Adapterシリーズのゼロ初期化されたアテンションとは異なり、彼らのビジュアルインジェクションメカニズムはシンプルであり、訓練可能なゼロ初期化ゲート要素で重み付けされます。この効果的な方法により、訓練が進むにつれて、ImageBindのマルチモーダリティ埋め込みの指示キューがLLaMAに徐々に導入され、元の言語理解に干渉することなく導入されることがあります。テキスト、画像、音声、ビデオなどのモダリティにおけるビジョン-言語エンコーディングにImageBindを使用することで、基本的なビジョン-言語トレーニングの後に、ImageBind-LLMはさまざまなモダリティの指示に従う能力を獲得します。彼らは、3Dドメインの指示のために入力の3Dポイントクラウドをエンコードするために、Point-Bindの事前学習された3Dエンコーダを使用します。また、画像トレーニングとテキスト、音声、3D、またはビデオ条件の制作とのモダリティギャップを解消するために、推論中の埋め込み拡張のためのトレーニングフリーのビジュアルキャッシュアプローチも提供します。図1は、私たちのマルチモーダリティ対ビジュアル指示モデルImageBind-LLMとの比較です。ImageBind-LLMは、画像モダリティに限定された従来の取り組み[1-3]とは異なり、画像、テキスト、音声、ビデオ、および3Dに対して普遍的なマルチモーダリティ指示調整を行います。キャッシュモデルは、ImageBindによって取得されたトレーニングデータセットの数百万の画像特徴で構成されており、テキスト/音声/3D/ビデオの埋め込みを向上させるために比較可能なビジュアル特性（Tip-Adapter）を獲得します。その結果、マルチモーダルな指示に対する口頭の応答は、より高い品質になります。彼らは、ImageBind-LLMのマルチモーダリティ指示に従う能力をさまざまな状況でテストし、一貫して優れたパフォーマンスを発揮することを確認しています。全体として、彼らのImageBind-LLMは以下の4つの特性を示します。 • 多数のモードを持つ指示。ImageBind-LLMは、ImageBindおよびPoint-Bindによって表される画像、テキスト、音声、3Dポイントクラウド、およびビデオなどの一般的なマルチモーダリティ入力に応答するように最適化されています。これは、従来の言語と画像の指示モデルとは異なります。 • 効率のチューニング。トレーニング中に、ImageBindの画像エンコーダーをフリーズし、LoRAやバイアスノームチューニングなどのパラメータ効率の良い手法を使用して、LLaMAの一部の重みを調整します。また、ゼロ初期化されたゲーティングファクターと追加のバインドネットワークもトレーニングします。 • アテンションなしのゼロ初期化インジェクション。彼らは、進行的な知識インジェクションのための学習可能なゲーティング方法を採用し、注意レイヤーを介する追加の命令信号を導入する代わりに、LLaMAのすべての単語トークンを直接使用してマルチモダリティの要件を組み込みます。 • クロスモーダルキャッシュからの検索。彼らは、ImageBindによって抽出された画像特徴に基づく視覚的なキャッシュモデルを提供し、トレーニング（単一の画像）と推論（多くのモダリティ）の間のモダリティの不均衡を解消するための埋め込み補完のためのクロスモーダリティの検索を行います。

このAI論文は、自律言語エージェントのためのオープンソースのPythonフレームワークである「Agents」を紹介しています

カスタマーサービス、コンサルティング、プログラミング、執筆、教育などのタスクでは、言語エージェントは人間の労力を削減することができ、人工一般知能（AGI）に向けた潜在的な第一歩となります。AutoGPTやBabyAGIなどの言語エージェントの潜在能力を示す最近のデモンストレーションは、研究者、開発者、一般の観客から多くの注目を浴びています。経験豊かな開発者や研究者でも、これらのデモやリポジトリのほとんどは、エージェントをカスタマイズ、設定、展開するのに適していません。これは、これらのデモンストレーションが、言語エージェントの潜在能力を強調する概念実証の一環であり、徐々に開発およびカスタマイズ可能なフレームワークではないためです。さらに、研究によると、これらのオープンソースソースの大多数は、ジョブの分解、長期記憶、ウェブナビゲーション、ツールの使用、複数エージェントの通信など、基本的な言語エージェントの機能のほんの一部しかカバーしていないことがわかっています。また、現在使用されている言語エージェントフレームワークのほとんど（もしくはすべて）は、短いタスクの説明とLLMの計画と行動能力に完全に依存しています。異なる実行間での高いランダム性と一貫性のため、言語エージェントは修正や微調整が困難であり、ユーザーエクスペリエンスが低いです。 AIWaves Inc.、浙江大学、ETH Zürichの研究者は、LLMを活用した言語エージェントをサポートするオープンソースの言語エージェントライブラリおよびフレームワークであるAGENTSを提案しています。AGENTSの目標は、言語エージェントのカスタマイズ、調整、展開を可能な限り簡単にすることです。非専門家でも利用できるようにする一方で、プログラマーや研究者にとっても拡張性のあるプラットフォームであることも重要です。ライブラリは以下のコア機能も提供しており、これらを組み合わせることで柔軟な言語エージェントのプラットフォームとなっています。長短期記憶：AGENTSはメモリコンポーネントを組み込み、言語エージェントがスクラッチパッドを使用して短期作業メモリを定期的に更新し、VectorDBと意味検索を使用して長期記憶を保存および取得することができます。ユーザーは設定ファイルのフィールドに値を入力するだけで、エージェントに長期記憶、短期記憶、または両方を与えるかどうかを決定できます。ウェブナビゲーションとツールの使用：外部ツールの使用とインターネットの閲覧能力は、自律エージェントのもう一つの重要な特性です。AGENTSはいくつかの一般的に使用される外部APIをサポートし、他のツールを簡単に組み込むための抽象クラスを提供しています。ウェブ検索とナビゲーションを特殊なAPIとして分類することにより、エージェントがインターネットを閲覧し情報を収集することも可能にしています。複数エージェントの相互作用：AGENTSはカスタマイズ可能なマルチエージェントシステムとシングルエージェントの機能を許可しており、ゲーム、社会実験、ソフトウェア開発など、特定のアプリケーションに有用です。AGENTSの「動的スケジューリング」機能は、マルチエージェント間の通信において新しい機能です。動的スケジューリングにより、コントローラーエージェントが「モデレーター」として機能し、役割と最近の履歴に基づいて次のアクションを実行するエージェントを選択することができます。動的スケジューリングを使用すると、複数のエージェント間でより柔軟かつ自然なコミュニケーションが可能です。開発者は設定ファイルでコントローラーのルールを定義することで、コントローラーの動作を簡単に変更できます。人間とエージェントの相互作用：AGENTSは単一エージェントおよびマルチエージェントのシナリオで、1人以上の人間と言語エージェントの相互作用とコミュニケーションを可能にします。制御性：AGENTSは、標準的な作業手順（SOP）として知られる象徴的な計画を使用して、制御可能なエージェントの開発に革新的なパラダイムを提供します。SOPは、エージェントがタスクを実行する際に直面するさまざまな状況と、状態間の遷移ルールを記述したグラフです。AGENTSのSOPは、特定の活動や手順を実行する方法を詳細に指定した、手作業で記録された詳細な指示の集合です。これは現実の世界のSOPに似ています。LLMは、ユーザーが個別に変更および微調整しながらSOPを生成することができます。展開後、エージェントは各状態に対して設定された指示と基準に従って動作し、外部の世界、人々、他のエージェントとの相互作用に応じて現在の状態を動的に変更します。象徴的な計画の登場により、エージェントの振る舞いに対して細かい制御を提供し、安定性と予測性を向上させ、調整とエージェントの最適化を容易にします。チームは、AGENTSが言語エージェントの研究者にとって研究をより容易にし、言語エージェントを活用したアプリケーションを作成する開発者にとっても便利になり、非技術的なユーザーでも独自の言語エージェントを作成および変更できるようになることを望んでいます。

スタンフォード大学の研究者たちは、「Protpardelle」という画期的な全原子拡散モデルを導入しましたこれは、タンパク質の構造と配列を共同設計するためのものです

タンパク質設計の驚くべき進展として、研究チームが連続的なと離散的なタンパク質構造の複雑な相互作用に対処するオールアトム拡散モデル「Protpardelle」を発表しました。このモデルは、品質、多様性、革新性に優れたタンパク質を生成する画期的な成果を達成し、従来の分野の枠組みを超えています。タンパク質は生物学的な機能の要となり、正確な化学的相互作用を通じてさまざまな重要なプロセスを組織化します。課題は、効果的なタンパク質設計を可能にするため、主に側鎖によって支配されるこれらの相互作用を正確にモデリングすることにあります。Protpardelleは、さまざまな潜在的な側鎖状態を包括し、それらを後退拡散の開始に崩壊させるユニークな「重ね合わせ」技術を利用しています。 Protpardelleは、配列設計手法とシナジーを発揮し、オールアトムタンパク質構造と配列の共同設計を先駆的に行っています。その結果、設計されたタンパク質は、自己整合性を評価する広く受け入れられている指標によって評価される優れた品質を示します。この指標は、設計された配列の構造的な形状を予測し、予測された構造とサンプルされた構造との一致を測定します。Protpardelleは、既存の手法と比較して、300残基までのタンパク質に対して90％以上の成功率を一貫して達成し、設計可能性の飛躍的な向上を示しています。さらに、これを効率的に行うための計算コストを大幅に削減しています。多様性は生成モデルの重要な特徴であり、モードの崩壊を防ぎ、実行可能な解のスペクトルを広げる役割を果たします。Protpardelleはこの点で優れており、サンプルをクラスタリングして構造の多様性の豊かな風景を明らかにします。α型およびβ型の幅広い構造のタンパク質を生成する能力は、その多用途性を示しています。重要なことに、Protpardelleはトレーニングデータセットの制約に縛られていません。トレーニングセット内のタンパク質とは異なる新しいタンパク質を生成する能力は、未踏の領域に踏み込む可能性を示しています。オールアトムモデルのProtpardelleは、特に150残基までのタンパク質の無条件の生成において、その能力を発揮します。ここでは、構造の類似性指標によって評価された成功率が約60％に達します。サンプルの視覚的な検査は、2次構造要素で飾られた多様なタンパク質の折り畳みの多様な配列を示しています。 Protpardelleは、生成されたサンプルの化学的な整合性を維持し、天然のタンパク質で観察される結合長と角度の分布に一致します。モデルは、サイ角の天然分布の主なモードを巧みに捉え、側鎖の振る舞いを包括的に描き出します。 Protpardelleの非凡な能力を支えるチームのネットワークアーキテクチャは、戦略的に設計されたレイヤーとアテンションヘッドを備えたU-ViT構造を組み込んでいます。ノイズコンディショニングは、訓練プロセスに重要な情報を注入する役割を果たします。モデルは、その基盤の堅牢性を証明するCATH S40データセットで綿密にトレーニングされています。 Protpardelleのユニークなノイズ除去ステップは、そのサンプリングプロセスの重要な要素であり、最適な結果を得るためのパラメータを微調整します。 Protpardelleの登場は、バイオテクノロジーと製薬の未曽有の可能性への扉を開く、タンパク質設計におけるパラダイムシフトを示しています。構造と配列を組み合わせることによってタンパク質エンジニアリングを革新する潜在能力は、この分野における新たな時代の到来を予示しています。研究者がその無限の可能性を探求し続ける中で、Protpardelleはタンパク質設計とエンジニアリングの景観を変える準備が整っています。

ウェブ開発者のためのAI：プロジェクトの紹介とセットアップ

この投稿では、Qwikを使用してウェブ開発プロジェクトをブートストラップし、OpenAIのAIツールを組み込む準備を整えます

「PandasAIを使用してデータを自動的に探索し、クリーンアップする方法」

「我々は、大規模言語モデル（LLM）の採用の最盛期にあります質問応答、リンク検索、日常のタスクの計画からコンテンツまで、私たちのテキスト要件のほとんどが迅速に提供されています...」

AutoMLのジレンマ

「AutoMLは過去数年間、注目の的となってきましたそのハイプは非常に高まり、人間の機械学習の専門家を置き換えるという野心さえも持っていますしかし、長期間にわたってほとんど採用されていないという現実があります…」

「CodiumAIに会ってください：開発者のための究極のAIベースのテストアシスタント」

ソフトウェア開発の快速な世界では、テストの作成はしばしば実際のコーディングから時間を奪う面倒な作業と見なされます。CodiumAIをご紹介します。CodiumAIは、IDE内で意味のあるテストを生成することで、あなたの生活をより簡単にする革命的なツールです。小さなスクリプトから大規模なプロジェクトまで、CodiumAIがサポートします。ほぼすべてのプログラミング言語をサポートしており、スマートにコードを作成し、変更をプッシュする際に自信を持つことができます。CodiumAIを使えば、本当に意図した通りにコーディングできます。 CodiumAIの主な機能テストスイートの生成 CodiumAIはただのテストツールではありません。自動化されたテストアシスタントです。クラス、関数、小さなスニペットなど、さまざまなタイプのコードに対して包括的なテストスイートを生成することができます。自動化プロセスは時間と労力を節約し、あなたが最も得意なこと、つまりコーディングに集中できるように設計されています。特定のクラス、関数、またはコードの一部をテストしたい場合、CodiumAIは意味のあるテストケースを生成する機能を提供しています。これらのテストは、コードの品質と信頼性を確保し、開発プロセスを効率化します。コード解析品質はテストに合格するだけでなく、コードの基本的な構造と動作を理解することでもあります。CodiumAIには、表面を超えた詳細なコード解析機能が備わっています。テストスイートが生成される間、CodiumAIのTestGPTモデルはコードを上から下まで分析し、貴重なインサイトを簡単なテキスト出力で提供します。コード提案 CodiumAIは、「コード提案」機能によりさらに進化します。この高度なツールは、コードを分析し、改善のための貴重なインサイトを提供します。TestGPTによって強化されたこの機能は、パフォーマンスの最適化からベストプラクティスまで、コード品質のさまざまな側面に対してその専門知識を提供します。テストの実行包括的なテストスイートが生成されたら、テストの実行は簡単です。CodiumAIは、パネルを通じてシームレスな体験を提供し、テストを実行して合格または不合格のステータスを確認できます。これにより、問題を素早く特定し、必要な調整を行うことができます。開発環境を離れる必要はありません。コードの動作異なる条件下でコードがどのように動作するかを理解することは、どんな開発者にとっても重要です。CodiumAIを使用すると、生成されたテストを実行し、コードがさまざまな入力や条件にどのように応答するかを観察することができます。この機能はデバッグだけでなく、コード全体の品質向上にも役立ちます。 Codium AIの無料拡張機能のダウンロード方法最良の部分は何でしょうか？CodiumAIをすぐに始めることができます。無料のVSCode拡張機能と/またはJetBrainsプラグインをダウンロードするだけです。CodiumAIは個人開発者向けに無料で提供されており、オープンソース版の公開も計画されています。まとめ CodiumAIは単なるテストツール以上のものであり、高品質なコードを作成することを目指す開発者向けの包括的なソリューションです。意味のあるテストの生成から貴重なコードの提案まで、CodiumAIは究極のテスト補助ツールとして設計されています。なぜ待つ必要があるでしょうか？今日からCodiumAIを開発プロセスに統合し、意図した通りにコードを書きましょう。

スタビリティAIが安定したオーディオを導入：テキストプロンプトからオーディオクリップを生成できる新しい人工知能モデル

Stability AIは、画期的な技術であるStable Audioを発表しました。これは、オーディオ生成の分野における大きな進歩を示すものです。この革新的なソリューションは、簡単なテキストプロンプトからカスタムオーディオクリップを作成するという課題に取り組んでいます。Stability AIは、テキストから画像を生成する技術であるStable Diffusionで評判を得てきましたが、それらの専門知識を音楽とオーディオにも拡大しました。この開発は、Stable DiffusionのSDXLベースモデルを導入することで、画像作成への成功した進出に続いています。これまで、ベースのオーディオトラックを生成することは、しばしばMIDIファイルを使用した「象徴的な生成」の技術によって可能でした。しかし、Stable Audioはこれを超えて、ユーザーが完全に新しい音楽作品を作り上げることを可能にし、MIDIや象徴的な生成によってよく見られる反復的な音符の制約から解放します。この成果は、モデルが生のオーディオサンプルと直接対話することによる優れた出力品質に起因しています。モデルのトレーニングには、AudioSparksライブラリからの80万以上のライセンス付き音楽が含まれており、その堅牢なパフォーマンスに貢献しています。この豊富なデータセットは、高品質のオーディオを保証し、テキストベースのモデルにおいて重要な要素である包括的なメタデータを提供します。特定のアーティストのスタイルをエミュレートできる画像生成モデルとは異なり、Stable Audioは、The Beatlesなどの伝説的なバンドのようなスタイルを模倣することを試みません。この意図的な選択は、ミュージシャンが固定されたスタイルの制約なしで創造的な旅に乗り出すことを望んでいるという理解に基づいています。代わりに、Stable Audioはユーザーに独自の音楽表現を探求する力を与えます。 Stable Audioモデルは、約12億のパラメータを持つ拡散モデルであり、画像生成のための元々のStable Diffusionモデルに匹敵します。オーディオ生成に欠かせないテキストプロンプトは、Stability AIによって厳密に開発され、Contrastive Language Audio Pretraining（CLAP）技術を使用してトレーニングされました。効果的なプロンプトの作成を支援するために、Stability AIはStable Audioのリリースと同時にプロンプトガイドを公開しています。 Stable Audioは、無料版と月額$12のプロプランの2つのバージョンで利用可能になります。無料版では、月間最大20回の生成が可能で、それぞれ最大20秒のトラックを生成します。一方、プロ版はこれらの制限を拡張し、500回の生成と90秒のトラックの再生が可能です。まとめると、Stability…

Learn more about Search Results A - Page 212