Search Results による

「非営利研究者による人工知能（AI）の進展リスト」

去年遅くから今年にかけて、2023年はAIの人々がAIアプリケーションを作成するのに最適な時期であり、これは非営利の研究者によるAIの進歩リストのおかげです。以下にそのリストを示します。 ALiBi ALiBiはTransformersにおけるテキストの推測問題に効率的に取り組む方法であり、学習に使用されたものよりも長いテキストシーケンスを推測する際に適用されます。ALiBiは実行時間に影響を与えず、追加のパラメータも必要とせず、既存のTransformerコードの数行を変更するだけで推測を行うことができる実装が容易なメソッドです。 Scaling Laws of RoPE-based Extrapolation この方法は、Transformerの推測能力を向上させるためのフレームワークです。研究者は、Rotary Position Embedding（RoPe）ベースのLLMを事前学習の文脈長でより小さなまたは大きなベースで微調整すると、より良いパフォーマンスが得られることを発見しました。 FlashAttention Transformersは、テキスト情報を処理できる強力なモデルですが、大規模なテキストシーケンスで作業する場合には大量のメモリが必要とされます。FlashAttentionは、既存の基準よりも高速でTransformerをトレーニングする、入出力（IO）を考慮したアルゴリズムです。 Branchformer Conformers（Transformerの一種）は音声処理に非常に効果的です。それらは畳み込み層とセルフアテンション層を順次使用するため、そのアーキテクチャは解釈しづらいものとなっています。Branchformerは、エンコーダの代替手法であり、柔軟で解釈可能であり、エンドツーエンドの音声処理タスクにおいて依存関係をモデル化するための並列ブランチを持っています。 Latent Diffusion Diffusion Modelsは、多くの画像処理タスクで最先端のパフォーマンスを達成するものの、計算が非常に負荷がかかります。Latent Diffusion Modelsは、Diffusion Modelsのバリエーションであり、より少ないリソースを必要としながら、さまざまな画像ベースのタスクで高いパフォーマンスを実現することができます。 CLIP-Guidance CLIP-Guidanceは、大規模なラベル付きデータセットを必要としないテキストから3D生成の新しい方法です。CLIPなどの事前学習されたビジョン言語モデルを活用し、テキストの説明と画像を関連付けることを学ぶことができるため、研究者はそれを使用して3Dオブジェクトのテキストの説明から画像を生成します。…

「Scikit-LearnとMatplotlibによる外れ値の検出：実践ガイド」

「色とりどりの風船で満たされた部屋を想像してくださいそれぞれがデータセットのデータポイントを象徴しています異なる特徴を持つため、風船は異なる高さで浮かんでいますさて、ヘリウムで満たされたいくつかの風船を思い浮かべてください...」

「Kerasを使用したニューラルネットワークによるウェルログ測定予測」

世界中の井戸からは毎日大量のデータが取得されますただし、そのデータの品質は欠損データからセンサーの故障や井戸に影響を受けたデータまで、大きく異なる場合があります...

「Amazon Textract、Amazon Bedrock、およびLangChainによるインテリジェントドキュメント処理」

今日の情報時代において、無数の書類に収められた膨大なデータ量は、企業にとって挑戦と機会を同時にもたらします従来の書類処理方法は、効率性や正確さの面でしばしば不十分であり、革新や費用効率化、最適化の余地がありますIntelligent Document Processing（IDP）の登場により、書類処理は大きな進歩を遂げました[…]

「VADERによる感情分析の洞察：感情とコミュニケーションの言語」

「世界で最も難しい言語」という点については、数年にわたり熱い議論が続いています多言語を話す人々は、それが中国語であると主張するかもしれませんし、プログラマーたちはアセンブリ言語であると議論するかもしれませんしかし、私は強く信じています...

グラフニューラルネットワークによるローマ数字の分析

『この記事では、自動和声分析のモデル開発の過程を説明したいと思います個人的には音楽を深く理解することに興味がありますなぜなら、物事はなぜこのような和声になるのか、といった問いに興味を持っています…』

「Mini-DALLE3と出会おう：大規模な言語モデルによるテキストから画像へのインタラクティブアプローチ」

人工知能コンテンツ生成の急速な進化、特にテキストから画像へのモデル(T2I)の進展により、高品質で多様性に富み創造的なAIによるコンテンツ生成の新たな時代が到来しました。しかしながら、自然言語の説明を用いてこれらの先進的なT2Iモデルと効果的にコミュニケーションを行うという重要な制約が残り、プロンプトエンジニアリングにおける専門知識のないユーザーにとって魅力的な画像を生成することが困難となっています。 Stable DiffusionなどのT2Iモデルの最新手法は、テキストプロンプトから高品質な画像を生成することで優れた成果を収めています。しかし、これらのモデルでは複雑なプロンプトやマジックタグ、注釈を作成する必要があり、それによってユーザーフレンドリーさに制約が生じます。さらに、既存のT2Iモデルは自然言語の理解においてまだ限定されており、効果的なコミュニケーションのためにはモデル特有の言葉遣いを習得する必要があります。さらに、単語の重み付け、ネガティブプロンプト、スタイルキーワードなどのT2Iパイプラインでのテキストと数値の配置の多様性は、非専門家のユーザーにとって複雑です。そこで、中国の研究チームが最近発表した論文で、新しい手法である「インタラクティブテキストから画像へ」（iT2I）を紹介しています。この手法では、ユーザーが大型言語モデル（LLM）と対話をして画像要件を具体化し、フィードバックを提供し、自然言語を使って提案することができます。 iT2I手法は、プロンプト技術と市販のT2Iモデルを活用して、LLMの画像生成と改善の能力を向上させます。複雑なプロンプトや構成の必要性を排除することで、ユーザーフレンドリーさを大幅に向上させ、非専門家のユーザーにもアクセス可能にします。 iT2I手法の主な貢献は、ユーザーとAIエージェントの間での対話型画像生成を実現する画期的な手法であることです。iT2Iは、視覚的一貫性を確保し、言語モデルとの構成可能性を提供し、画像生成、編集、選択、改善のためのさまざまな指示をサポートします。論文ではまた、iT2I用の言語モデルを向上させる手法を提案しています。その多目的性は、コンテンツ生成、デザイン、インタラクティブストーリーテリングのアプリケーションにおいて優れたユーザーエクスペリエンスを提供し、テキストの説明から画像を生成する際の効果的な手段となります。さらに、提案された手法は既存のLLMに容易に統合することができます。提案手法の評価のために、著者らは実験を実施し、LLMの性能への影響を評価し、さまざまなシナリオでの実用的なiT2Iの例を提供しました。実験では、iT2IプロンプトがLLMの能力に与える影響を考慮し、商業用LLMは対応するテキスト反応とともに画像を生成することに成功し、オープンソースのLLMは異なる程度の成功を示しました。実例では、単発および複数回の画像生成やテキストと画像の交替するストーリーテリングが実演され、システムの機能が紹介されました。まとめると、この論文ではAIコンテンツ生成における革新的な手法であるインタラクティブテキストから画像へ（iT2I）を紹介しています。この手法により、ユーザーとAIエージェントの間での対話型画像生成が可能となり、画像生成がユーザーフレンドリーになります。iT2Iは、言語モデルを向上させ、画像の一貫性を確保し、さまざまな指示をサポートします。実験の結果、言語モデルのパフォーマンスへの影響はわずかであり、iT2IはAIコンテンツ生成の有望なイノベーションとなります。

ミニGPT-5：生成的なヴォケンによる交錯したビジョンと言語の生成

ここ数年、大規模言語モデル（LLM）は、自然言語処理（NLP）のブレークスルーにより、AI開発者から世界的に注目されていますこれらのモデルは、テキストの生成と理解の新たな基準を打ち立てていますしかし、テキストに対応する画像を一貫して生成することは依然として難しい課題ですこの問題に取り組むために、[…]

データから洞察力へ：KubernetesによるAI/MLの活用

「KubernetesがAI/MLと連携することで、AI/MLのワークロードに対して細粒度の制御、セキュリティ、弾力性を提供する方法を発見しましょう」

SalesForce AIはCodeChainを導入：代表的なサブモジュールによる自己改訂の連鎖を通じたモジュラーコード生成のための革新的な人工知能フレームワーク

“`html 人工知能の研究における重要な目標の一つは、困難な問題に対処するための有用なコンピュータプログラムを提供できるAIシステムの開発です。この方向性において、特に大規模な事前訓練済み大規模言語モデル(LLM)の驚異的な成功により、この分野での多くの進歩がなされています。これらのモデルは元々自然言語の理解のために作成されましたが、現在ではコードやテキストの生成と理解の能力も備えています。この開発の成果により、自然言語の問題の説明からコードを生成することで、コードの作成に関する notable な進展が達成されています。 LLMは、MBPPやHumanEvalなどのベンチマークでの成果からわかるように、簡単なプログラミングタスクの処理には既に成功しています。ただし、より困難で競争力のあるプログラミングタスクに取り組む際には、これらのモデルは重大な困難に直面します。彼らがコードの解決策を単一のブロックとして提供する傾向があり、論理的なサブタスクや再利用可能なサブモジュールに分解することができないためです。一方、複雑な問題に直面すると、熟練したヒューマンプログラマーは本能的にモジュラーで抽象的なコードを書きます。以前に作成されたモジュールを再利用することで、彼らは効果的に現在の専門知識を拡大することができます。 Salesforce Researchの研究チームが最近行った研究では、CodeChainという革新的なフレームワークがLLMと人間の開発者とのギャップを埋めることを紹介しています。このフレームワークは、以前のイテレーションで開発された代表的なサブモジュールによる連続的な自己修正のシーケンスを通じて、モジュール化されたコードの開発プロセスを改善することを目指しています。CodeChainは、チェーン思考アプローチを用いてLLMにモジュール化されたコードを書くように指示します。このアプローチにより、モデルは論理的なサブタスクとサブモジュールに基づいて問題解決をアプローチするように促されます。 CodeChainの基盤となるのは、連続的な自己修正のシーケンスです。以下に2つのイテレーションフェーズを示します。サブモジュールの抽出とクラスタリング: この段階では、LLMが生成したコードを分析してサブモジュールを見つけ、それらをクラスターに配置します。各クラスターから代表的なサブモジュールを選択します。これらの表現はより広く適用可能で再利用可能とされています。プロンプトの拡張と再生成: 初期のチェーン思考プロンプトは、前の段階で選択されたモジュールの実装を統合して拡張・再生成されます。その後、LLMに対して再度新鮮なモジュール化された解決策を生成するよう指示されます。この結果、モデルは以前のイテレーションで得た情報と理解を効果的に拡大することができます。 CodeChainは、コード生成に大きな影響を与えています。チームは、LLMが既存の検証済みのサブモジュールを構築して再利用することで、生成されるソリューションのモジュラリティと正確性が大幅に向上することを共有しています。CodeChainフレームワークによるAPPSの相対的なpass@1の改善率は35%、CodeContestsでは驚異的な76%です。これらの成果は、WizardCoderやOpenAIからのオープンソースLLMを含むさまざまなLLMで示されています。CodeChainの成功に寄与した要素についての包括的な検証研究も行われており、プロンプテクニック、使用されるクラスターの数、LLMモデルのサイズ、生成されるプログラムの質などの要素が調査されています。これらの調査から得られた理解は、CodeChainがLLMによって生成されるコードの品質とモジュラリティを高めるのに非常に成功している理由を明らかにしています。要約すると、CodeChainは大規模言語モデルのコード生成の分野における革命的な開発です。これにより、モジュール化が促進され、以前に作成されたサブモジュールを再利用することでLLMと経験豊富なヒューマンプログラマーとのギャップを埋めることが可能になります。 “`

Learn more about Search Results による - Page 10