Search Results A

「迅速エンジニアリングのための普遍的な道筋：コンテクストの足場フレームワーク（CSF）」

「最近の記事では、私はChatGPT4の新しいプロンプトエンジニアリングアプローチを探求しましたそれはプログラムシミュレーションと呼ばれる方法ですこの方法によって、ChatGPT4は優れたプログラムの模倣能力を披露しました...」

「自分自身でタスクを行う方法を知っている場合に限り、LLMsを使用してください」

「ほとんどの人（または全員）にとって、LLMは驚くほど早く複雑なことを片付けてくれる神秘的な箱です私たちは通常、必要なものを提供してくれる限り、「どのように」行われるのかにはあまり興味を持ちません...」

「インタリーブされた視覚と言語の生成における新たな道を切り拓く：MiniGPT-5とジェネラティブVokenの力を解き放つ」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-25-at-2.32.14-AM-1024×691.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-25-at-2.32.14-AM-150×150.png”/>大規模言語モデルは、人間の言語を理解し生成することに優れています。この能力は、テキストの要約、感情分析、翻訳、チャットボットなどのタスクにおいて重要であり、自然言語処理のための貴重なツールとなっています。これらのモデルは、機械翻訳システムを改善することができ、異なる言語間でより正確かつ文脈に即した翻訳を可能にし、数多くのグローバルなコミュニケーションやビジネスアプリケーションに活用できます。 大規模言語モデルは、テキスト内の人名、場所名、組織名、日付などの具名エンティティを認識し分類することが得意です。彼らは文章や文書に提示された情報に基づいて質問に答えることができます。彼らは質問の文脈を理解し、関連する情報を抽出して正確な回答を提供します。ただし、現在の大規模言語モデルは、テキスト画像のペアを処理することに基づいています。新しい画像を生成するタスクでは支援が必要です。新しいビジョンと言語のタスクでは、トピック中心のデータに強く依存し、しばしば画像の記述をスキップします。カリフォルニア大学の研究者たちは、ジェネレーティブトーカンに基づく視覚と言語生成技術を取り入れた新しいモデルである MiniGPT-5 を開発しました。このマルチモーダルエンコーダは、他の大規模言語モデルと比較して効果的であることが証明された画期的な技術です。ジェネレーティブトーカンを安定した拡散モデルと組み合わせて、視覚と言語の出力を生成します。 ジェネレーティブトーカンとは、生の画像で直接トレーニング可能な特別なビジュアルトーカンのことを指します。ビジュアルトーカンは、ビジョン情報を組み入れるためにモデルの入力に追加される要素を指します。画像キャプションを生成する際には、モデルは画像を入力として受け取り、特別なビジュアルトーカンの系列にトークン化し、画像の文脈や説明を表すテキストトークンと組み合わせます。この統合により、モデルは意味のある文脈に適したキャプションを生成することができます。研究者たちは、高品質なテキストに対応する視覚特徴の単一モードアラインメントと、視覚とテキストのプロンプトが生成時にうまく調整されることを確認する二段階メソッドを採用しました。彼らの手法はドメイン特有の注釈を排除し、既存の作品からのソリューションを作ることができるようにします。彼らはテキストと画像のバランスを取るために、デュアルロス戦略を採用しました。彼らの適応された方法はトレーニングの効率を最適化し、メモリの制約に対処することも容易です。チームは、MiniGPT-4エンコーダに対してパラメータ効率の高い微調整を実施し、モデルがより良く指示やプロンプトを理解し、新しいタスクやゼロショットタスクでのパフォーマンスを向上させるようにしました。彼らはまた、MiniGPT-4で使用される言語エンコーダVicunaに対してプレフィックスチューニングとLoRAを試しました。これらの手法に関する今後の研究は、既存の画像とテキストモデルの不一致の性質により以前は難しいと思われていた応用範囲を広げるでしょう。

「TfidfVectorizerを使用してテキストを数値形式に変換する：ステップバイステップガイド」

TFIDFは、機械学習やAIモデルのためにテキストを数値形式に変換する方法です言い換えると、TFIDFはテキストから特徴を抽出する方法ですこれはより洗練された方法であって、…

「言語モデルの微調整を革命化する：NEFTuneのノイズ付き埋め込みで達成する前例のない向上」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-25-at-2.28.30-AM-1024×810.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-25-at-2.28.30-AM-150×150.png”/>命令の微調整は、LLMを小規模な厳選された命令データセットでトレーニングするプロセスであり、モデルが命令に基づくタスクで高いパフォーマンスを達成できるようにします。これには、解釈性の向上、バイアスの削減、およびタスクパフォーマンスの向上など、多くの利点があります。したがって、LLMの真の潜在能力を引き出すためには、命令の微調整が不可欠であり、そのためにはプロセスの結果を改善することが重要となります。この研究論文の著者たちは、命令に基づくタスクのモデルパフォーマンスを改善するためのNEFTune（ノイズ埋め込み命令微調整）という新しい手法を提案しています。彼らは、微調整の前方パスの段階でトレーニングデータの埋め込みベクトルにランダムノイズを追加することで、モデルのパフォーマンスを著しく改善できることを示していますが、追加の計算リソースやデータは必要ありません。NEFTuneにより、LLMの対話タスクにおけるパフォーマンスが驚くほど向上し、同時に事実に基づく質問応答のパフォーマンスを維持します。研究者たちは、LLLaMA-1、LLLaMA-2、OPT-6.7Bなどの7BパラメータLLMやAlpaca、ShareGPTなどの微調整データセットを使用してほとんどの実験を行いました。結果はAplacaEvalデータセットを使用して評価され、評価者であるGPT-4によって、LLMがOpenAIのText-Davinci-003モデルよりも好まれる割合である勝率を算出することができました。結果は、これらのモデルをNEFTでトレーニングすることで、対話能力と回答の品質が大幅に向上することを示しています。ノイズ埋め込みで微調整することで、LLLaMA-2 7Bのパフォーマンスは29.8％から64.7％に大幅に向上し、すべてのモデルの平均パフォーマンスも約15％向上しました。研究者は、LLMを評価する際に人間の注釈者も使用しました。NEFTは88回優先され、22回が引き分けであり、NEFTの勝利スコアは約74％となりました。実験の1つでは、LLLaMA-2をAlpacaでNEFTの有無でトレーニングし、量子コンピューティングに関するプロンプトを提示しました。ノイズ埋め込みを使用した2段階目の応答は、超越性や量子もつれのような複雑な概念をより明確に説明し、流暢性が向上しました。研究者たちは、トレーニング時に埋め込みにノイズを導入することで、モデルが過学習に陥りにくくなると仮説を立てています。フォーマットの詳細やテキストの長さ、正確な言い回しなどの正確な情報分布に焦点を当てる代わりに、モデルは事前にトレーニングされた基本モデルの知識と振る舞いを包括した回答を提供します。命令の微調整の重要性を考えると、これまでにさまざまなモデルと方法が研究者によって紹介されています。NEFTは、ノイズ埋め込みを使用してパフォーマンスを改善する最初の手法ではありませんが、対話タスクにおけるLLMのパフォーマンスを大幅に向上させることができ、量子コンピューティングのような複雑なトピックの詳細で明確な説明を提供します。最も重要なのは、この方法が追加の計算リソースを必要とせず、著者たちはそれをLLMの微調整における「無料の昼食」と呼んでいます。NEFTuneは将来のLLMの開発に広く活用される可能性があり、実世界のさまざまなタスクにおけるLLMの機能を向上させる有望なツールとなります。

「Google BigQuery / SQLでの5つの一般的な失敗を避ける方法」

Google BigQueryは多くの理由で人気です非常に高速で、使いやすく、完全なGCPスイートを提供し、データを保護し、早期にミスを発見するようにしていますそれに加えて...

事前訓練された視覚表現は、長期的なマニピュレーションの解決にどのように役立つのでしょうか？ユニバーサルビジュアルデコンポーザー（UVD）に会ってみてください：ビデオからサブゴールを識別するためのすぐに利用できる方法

研究論文「Universal Visual Decomposer：Long-Horizon Manipulation Made Easy」では、著者たちは視覚的観察からロボットに長期の操作タスクを教えるという課題に取り組んでいます。これらのタスクには複数の段階が含まれ、料理や片付けのような現実世界のシナリオでよく遭遇します。このような複雑なスキルを学ぶことは、誤差の蓄積、広大な行動と観察空間、各ステップごとの有意義な学習信号の不在などの理由で困難です。著者たちはUniversal Visual Decomposer（UVD）と呼ばれる革新的な解決策を紹介しています。UVDは、ロボット制御用に設計された事前学習済みの視覚表現を活用するオフシェルフのタスク分解手法です。タスク固有の知識を必要とせず、追加のトレーニングなしにさまざまなタスクに適用することができます。UVDは、視覚デモンストレーション内のサブゴールを発見することにより、ポリシーの学習と未知のタスクへの汎化を支援します。 UVDの核心アイデアは、事前学習された視覚表現が目標指向の行動の短いビデオで時間的な進行を捉える能力を持っているということです。これらの表現を長丁場のセグメント化されていないタスクビデオに適用することで、UVDは埋め込み空間でのフェーズシフトを特定し、サブタスクの遷移を示します。この手法は完全に教師なしであり、標準的な視覚モーターポリシートレーニングにはゼロの追加トレーニングコストを課します。 UVDの効果は、シミュレーションおよび実世界のタスクでの包括的な評価によって示されています。UVDは、模倣学習および強化学習の設定でベースライン手法を上回り、UVDフレームワークを使用した自動化された視覚タスクの分解の利点を示しています。結論として、研究者たちはUniversal Visual Decomposer（UVD）を事前学習済みの視覚表現を使用して長期の操作タスクを分解するためのオフシェルフのソリューションとして紹介しました。UVDは、ロボットのポリシートレーニングと汎化の改善に有望なアプローチを提供し、シミュレーションおよび実世界のシナリオの両方で成功した応用があります。

文書解析の革命：階層構造抽出のための最初のエンドツーエンドトレーニングシステム、DSGに出会ってください

ドキュメント構造ジェネレータ（DSG）は、構造化ドキュメントの解析と生成において強力なシステムです。 DSGは商用OCRツールの能力を上回り、新しいパフォーマンス基準を設定し、多様な実世界のアプリケーションに対応する強力で適応性のあるソリューションとして位置づけられています。研究者はDSGの革新的な機能と印象的な成果に深く入り込み、ドキュメント処理の革新的な可能性を強調しました。従来のドキュメント構造システムはヒューリスティックに依存し、エンドツーエンドのトレーニングができませんでした。 DSGは、階層的なドキュメントパージングのための最初のエンドツーエンドトレーニングシステムという解決策を提供します。ディープニューラルネットワークを使用してエンティティをパースし、シーケンスとネストされた構造をキャプチャします。 DSGはクエリのための拡張された構文を導入し、手動で再エンジニアリングせずに新しいドキュメントにシームレスに適応することで、実用的な使用に貢献します。ドキュメント構造のパージングは、特にPDFやスキャンなどのドキュメントから階層的な情報を抽出するために重要ですが、これはストレージやダウンストリームのタスクに挑戦することができます。 OCRのような既存のソリューションはテキストの検索に焦点を当てていますが、階層的な構造の推論には助けが必要です。 DSGは、ディープニューラルネットワークを使用してエンティティをパースし、関係を保持し、構造化された階層形式の作成を容易にする革新的なシステムとして紹介されています。このドメインにおけるエンドツーエンドトレーニング可能なシステムの必要性を解決します。 DSGは、深いニューラルネットワークを使用してエンティティをパースし、そのシーケンスとネストされた構造をキャプチャする階層的なドキュメントパージングのシステムです。その効果と柔軟性を示しています。著者はE-Periodicaデータセットへの貢献を行い、DSGの評価を可能にしました。 DSGは商用OCRツールを上回り、最新のパフォーマンスを達成しています。パフォーマンス評価にはエンティティ検出と構造生成の個別評価が含まれ、場面グラフ生成などの関連タスクから適応されたベンチマークが使用されます。評価は主にE-Periodicaデータセットに依存しており、異なるドキュメントタイプへのシステムの汎用性は考慮されていません。トレーニングと推論の詳細な計算リソース分析を含める必要があります。 DSGは商用OCRツールを上回るが、OCRツールの制限についての詳細な比較や分析が不足しています。トレーニングの課題やデータの潜在的な偏り、またシステムのエラーケースと障害モードの包括的な分析が議論されていません。これらの側面を理解することは今後の改善に不可欠です。結論として、DSGはドキュメントパージングのための完全にトレーニング可能なシステムを提供し、エンティティのシーケンスとネストされた構造を効果的にキャプチャします。商用OCRツールを上回り、最新の階層的ドキュメントパージングを実現しています。著者は、多様な意味カテゴリと入り組んだネストされた構造を特徴とする難解なE-Periodicaデータセットを導入しています。…

「SDXLのためのシンプルな最適化の探究」

ステーブルディフュージョン XL (SDXL)は、Stability AIによる高品質な超現実的な画像生成を目的とした最新の潜在ディフュージョンモデルです。これは、手やテキストの正確な生成、および空間的に正しい構成といった、以前のステーブルディフュージョンモデルの課題を克服しています。さらに、SDXLはコンテキストにより適応しており、より見栄えの良い画像を生成するために、プロンプトで少ない単語数を必要とします。しかし、これらの改善は、かなり大きなモデルのコストで実現されています。具体的には、基本のSDXLモデルには35億のパラメータ（特にUNet）があり、それは以前のステーブルディフュージョンモデルのおよそ3倍の大きさです。 SDXLの推論速度とメモリ使用量を最適化する方法を探るために、A100 GPU（40 GB）でいくつかのテストを行いました。各推論実行において、4つの画像を生成し、それを3回繰り返し行います。推論レイテンシを計算する際には、3回のイテレーションのうち最終イテレーションのみを考慮します。つまり、デフォルトの精度とデフォルトのアテンションメカニズムを使用してSDXLをそのまま実行すると、メモリを28GB消費し、72.2秒かかります！ from diffusers import StableDiffusionXLPipelinepipeline = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0").to("cuda")pipeline.unet.set_default_attn_processor() しかし、これは非常に実用的ではなく、特に4つ以上の画像を生成する場合には遅くなる可能性があります。また、よりパワフルなGPUを持っていない場合、メモリ不足のエラーメッセージに遭遇するかもしれません。では、どのようにしてSDXLを最適化して推論速度を向上させ、メモリ使用量を減らすことができるでしょうか？ 🤗 Diffusersでは、SDXLのようなメモリ集中型モデルを実行するための最適化のトリックとテクニックを数多く提供しています。以下では、推論速度とメモリに焦点を当てます。推論速度ディフュージョンはランダムなプロセスですので、好みの画像が得られる保証はありません。よくあるのは、複数回の推論を実行して反復する必要があることです。そのため、速度の最適化が重要です。このセクションでは、低精度の重みとメモリ効率の良いアテンションおよびPyTorch 2.0のtorch.compileの使用に焦点を当てて、速度を向上させ、推論時間を短縮する方法を紹介します。…

エネルギー省が新興技術を加速させます

国立研究所は、重要なテクノロジーの開発につながるパイプラインを短くするために取り組むでしょう

Learn more about Search Results A - Page 585