Learn more about Search Results A - Page 114

「ChatGPT を PDF の OCR として利用する:データ分析のための新しい ETL ツール」

「ChatGPTを使用してコードを作成し、ChatGPTを使用してPDF OCRをExcelに変換し、ChatGPTを使用してPython OCRコードを作成する方法」

「人間の偏見がAIによるソリューションを妨げる方法」

昨年の9月、イーロン・マスク氏、マーク・ザッカーバーグ氏、サム・オルトマン氏(OpenAIのCEO)など、世界のリーダーたちは、ワシントンD.C.で集まり、一方で、公共・私的セクターがこの技術を共同で活用する方法について議論し、他方で、規制について取り組む目的で集まりました規制は問題となっています...

「類推的な & ステップバック型プロンプティング:Google DeepMindの最新の進歩に潜入する」

「Google DeepMindの最新研究による2つの新しいプロンプト工学技術を探求し、アナロジカルプロンプティングとステップバックプロンプティング技術によって、GPT-4、PaLMなどの大規模言語モデルのパフォーマンスを数学、推論、コーディング、STEM問題などの複雑なタスクで向上させます」

この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。 幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。 Woodpeckerは、次の5つのキープロセスからなります: 1. キーコンセプトの抽出:この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。 2. 質問の形成:抽出したオブジェクトに関連する質問を診断するために形成します。 3. ビジュアル知識の検証:これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答(VQA)モデルなどが使用されます。 4. ビジュアルクレームの生成:質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。 5. 幻覚の修正:ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。 このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。 研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66%と24.33%の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。 MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。 LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。 まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

「Arxiv検索のマスタリング:Haystackを使用したQAチャットボットの構築のDIYガイド」をマスターする

イントロダクション カスタムデータに関する質問と回答は、大規模言語モデルの最も求められるユースケースの一つです。LLMの人間のような対話スキルとベクトル検索手法を組み合わせることで、大量のドキュメントから回答を抽出することがより容易になります。いくつかのバリエーションを加えることで、ベクトルデータベースに埋め込まれたデータ(構造化、非構造化、準構造化)と対話するシステムを作成することができます。このクエリ埋め込みとドキュメント埋め込みの類似性スコアに基づいてLLMに取得データを追加する手法は、「RAGまたはRetrieval Augmented Generation」と呼ばれています。この手法により、arXiv論文の読解など、さまざまなことが簡単になります。 AIやコンピュータサイエンスに興味がある方なら、少なくとも一度は「arXiv」を聞いたことがあるでしょう。arXivは電子プレプリントおよびポストプリントのためのオープンアクセスリポジトリであり、ML、AI、数学、物理学、統計学、電子工学などのさまざまな主題の検証済み論文をホストしています。arXivは、AIや理系の研究のオープンな研究を推進する上で重要な役割を果たしています。しかし、研究論文を読むことはしばしば困難で時間がかかります。それでは、論文から関連するコンテンツを抽出し、回答を取得するためのRAGチャットボットを使用することで、少しでも改善することはできるでしょうか? この記事では、Haystackというオープンソースツールを使用して、arXiv論文用のRAGチャットボットを作成します。 学習目標 Haystackとは何かを理解し、LLMを活用したアプリケーションを構築するためのコンポーネントを把握する。 「arxiv」ライブラリを使用してArXiv論文を取得するコンポーネントを構築する。 Haystackノードでインデックスとクエリパイプラインを構築する方法を学ぶ。 Gradioを使用してチャットインターフェースを構築し、ベクトルストアからドキュメントを取得し、LLMから回答を生成するパイプラインを調整する方法を学ぶ。 この記事はData Science Blogathonの一環として公開されました。 Haystackとは何か? HaystackはスケーラブルなLLMパワードアプリケーションを構築するためのオープンソースのNLPフレームワークです。Haystackはセマンティックサーチ、質問応答、RAGなどの本番向けNLPアプリケーションを構築するための非常にモジュラーかつカスタマイズ可能なアプローチを提供します。これはパイプラインとノードのコンセプトに基づいて構築されており、パイプラインはノードを繋げることで効率的なNLPアプリケーションを構築するのに非常に便利です。 ノード:ノードはHaystackの基本的な構成要素です。ノードはドキュメントの前処理、ベクトルストアからの取得、LLMからの回答生成など、一つのことを達成します。 パイプライン:パイプラインはノードを繋ぐためのもので、ノードの連鎖を構築するのが容易になります。これによってHaystackでアプリケーションを構築することが容易になります。 HaystackはWeaviate、Milvus、Elastic Search、Qdrantなど、主要なベクトルストアを直接サポートしています。詳細については、Haystackのパブリックリポジトリを参照してください:https://github.com/deepset-ai/haystack。 したがって、この記事では、Haystackを使用してArxiv論文のためのQ&AチャットボットをGradioインターフェースで構築します。 Gradio Gradioは、任意の機械学習アプリケーションのデモをセットアップおよび共有するためのHuggingfaceのオープンソースソリューションです。バックエンドにはFastapiが使用され、フロントエンドコンポーネントにはsvelteが使用されています。これにより、Pythonでカスタマイズ可能なWebアプリを作成することができます。機械学習モデルやコンセプトのデモアプリを構築して共有するのに最適です。詳細は、Gradioの公式GitHubをご覧ください。Gradioを使用したアプリケーションの構築については、「GradioでChat GPTを構築しましょう」という記事も参考にしてください。…

「KaggleのAIレポート2023で未来にダイブしよう – ホットなトレンドをチェックしよう」

「AIの世界について学んだことについて、世界最大のデータサイエンスと機械学習コミュニティに飛び込んでください」

AIの革新的なイノベーションが開発者を強化する

SAPは、Build CodeやHANA Cloudなどの複数の生成AI機能を導入し、開発者が迅速にデータから価値を生み出し、革新するのを支援します

SCD(Slowly Changing Dimensions)を理解する

データ管理のダイナミックな領域において、時間をかけて変化する寸法(Slowly Changing Dimensions、SCD)の概念が重要なパラダイムとして浮かび上がります SCDは、データウェアハウジングの領域において基本的な原則を構成します...

「GPTからMistral-7Bへ:AI会話のエキサイティングな進化」

紹介 人工知能の分野では、特に大規模な言語モデルの領域で驚くべき進展が見られています。大規模言語モデルは、人間のようなテキストを生成したり、文書を要約したり、ソフトウェアコードを書いたりすることができます。Mistral-7Bは、英語のテキストとコード生成の能力をサポートする最近の大規模な言語モデルの一つであり、テキスト要約、分類、テキストの補完、コードの補完など、さまざまなタスクに使用することができます。 Mistral-7B-Instructの特徴は、パラメータが少ないにもかかわらず、優れたパフォーマンスを発揮する能力です。ベンチマークの結果によると、このモデルはすべての7Bモデルを凌駕し、さらに13Bチャットモデルとも競争力を持っています。本ブログでは、Mistral 7Bの機能や能力、使用事例、パフォーマンス、モデルの微調整に関する実践的なガイドなどについて探っていきます。 学習目標 大規模言語モデルとMistral 7Bの動作を理解する Mistral 7Bのアーキテクチャとベンチマーク Mistral 7Bの使用事例とパフォーマンス 推論とモデルの微調整のためのコードの詳細な解説 この記事はData Science Blogathonの一環として公開されました。 大規模言語モデルとは何ですか? 大規模言語モデルのアーキテクチャは、トランスフォーマーを使用して構築されており、アテンションメカニズムを使用してデータの長距離依存性を捉えます。複数のトランスフォーマーブロックの層には、マルチヘッドのセルフアテンションやフィードフォワードニューラルネットワークが含まれています。これらのモデルはテキストデータで事前学習され、シーケンス内の次の単語を予測することを学習し、言語のパターンを捉えます。事前学習された重みは特定のタスクで微調整することができます。Mistral 7B LLMのアーキテクチャと、その特徴について詳しく見ていきましょう。 Mistral 7Bのアーキテクチャ Mistral 7Bモデルのトランスフォーマーアーキテクチャは、アテンションメカニズムとキャッシュ戦略を使用して、高いパフォーマンスとメモリ使用量を効率的にバランスさせ、より大きなモデルよりも速度と品質で優れた結果を出します。4096ウィンドウのスライディングウィンドウアテンション(SWA)を使用して、各トークンが直前のトークンの一部に注意を払うことで、より長いシーケンスに対するアテンションを最大化します。 特定の隠れ層は、ウィンドウサイズと層の深さによって、入力層のトークンに対して決定された距離からアクセスできます。モデルは、Flash…

UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル

ダイナミックシステムの将来の振る舞いを予測することは、システムの進化を駆動する基礎的なダイナミクスを理解し、将来の状態について正確な予測を行うことを意味します。正確で信頼性のある確率的な予測は、リスク管理、リソース最適化、政策開発、戦略企画において重要です。多くの応用では正確な長期的な確率的予測を生成することは非常に困難です。運用状況で使用される手法は通常、計算を合理的な時間内に完了させるためにスーパーコンピューターを必要とする複雑な数値モデルに依存しており、しばしばグリッドの空間解像度を犠牲にしています。 確率的ダイナミクス予測における興味深いアプローチの一つは、生成モデリングです。特に拡散モデルを使用することで、自然画像や動画の分布を効果的にモデル化することができます。ガウス拡散が一般的な手法であり、ガウスノイズを用いてデータを様々な程度で破壊する「順方向プロセス」を介して、推論時にランダムな入力を系統的に除去して非常にリアルなサンプルを生成します。ただし、高次元の場合、ノイズから実データへのマッピングを学習することは難しく、特にデータが少ない場合に困難です。そのため、拡散モデルの訓練と結論付けには非常に高い計算コストがかかり、数百の拡散段階にわたる逐次的なサンプリング手続きが必要です。 例えば、ノイズ除去拡散確率モデル(DDPM)を使用して32×32の写真を5万枚サンプリングする場合、約20時間かかります。さらに、動画の拡散モデルを使用する技術はあまりありません。動画の拡散モデルはリアルなサンプルを生成することができますが、データの時間的な側面を特に利用して正確な予測を行うことはありません。この研究では、カリフォルニア大学サンディエゴ校の研究者が、ダイナミクスに基づいた拡散モデルを訓練するための多段階確率予測の新しいフレームワークを提案しています。彼らは非ガウス拡散プロセスの可能性を示す最近の発見に基づき、新しい順方向プロセスを提供します。この手続きは時間補間に依存するため、時間条件付きニューラルネットワークを使用しています。 彼らの手法は、物理システムについての仮定を必要とせずに、ダイナミックシステムの時間ステップを拡散プロセスの段階と結びつけることで帰納的なバイアスを課すことです。その結果、拡散モデルの計算量はメモリ使用量、データ効率性、トレーニングに必要な拡散ステップの数に関して削減されます。高次元の空間時間データに対しては、彼らの拡散モデルベースのフレームワーク(DYffusion)が自然な長期的な関係を捉え、正確な確率的アンサンブル予測を生成します。 以下に彼らの貢献の要約を示します: ・拡散モデルの観点から、多次元でデータが少ない複雑な物理システムに対する確率的な空間時系列予測の研究とその適用を行っています。 ・マルチステップ予測と長期の展望のために学習時間を短くし、メモリ要件を削減するために時系列帰納バイアスを利用する柔軟なフレームワークであるDYffusionを提供しています。DYffusionは暗黙的なモデルであり、冷却サンプリングはオイラー法の解と解釈することができます。 ・また、条件付きビデオ拡散モデルを含む最先端の確率的手法の計算要件と性能を比較する実証的な研究を行い、提案手法の理論的な示唆について探求します。彼らは、従来のガウス拡散に比べて、提案された手法は良い確率的な予測を行い、計算効率を向上させることを発見しました。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us