Search Results Docs

「2023年のトップ8のAIトレンド：年間レビュー」

葉っぱが金色に変わり、12月の寒さが広がる中、人工知能の領域で目覚ましい進歩が見られた今年を振り返る時が来ました。2023年は単なる進歩の年ではありませんでした。それはトライアンフの年であり、AIが成し遂げられる限界が繰り返し押し広げられ、再定義された年でした。LLM（大規模言語モデル）の能力における画期的な進展から、前例のないほど世界とのナビゲーションや相互作用が可能な自律エージェントの登場まで、この年はこの変革的な技術の無限の可能性を示すものでした。この包括的な探求の中で、私たちは2023年のAIを定義した8つの主要なトレンドについて掘り下げ、産業を再構築し、未来を革命化する革新を明らかにしていきます。だから、AI愛好家の皆さん、私たちは技術史の記録に永遠に刻まれる一年についての旅に出発です。 RLHFとDPOの微調整 2023年は、大規模言語モデル（LLM）の能力を向上させるための重要な進展が見られました。2つの主要なアプローチが登場しました：人間のフィードバックに基づく強化学習（RLHF）：この手法は、人間のフィードバックを活用してLLMの学習プロセスをガイドし、持続的な改善と進化するユーザーのニーズや好みに対応させることができます。このインタラクティブなアプローチにより、LLMは複雑または主観的な領域において微妙な理解力と意思決定能力を開発することができます。直接的な選好最適化（DPO）：：DPOはよりシンプルな代替手法であり、明示的な強化信号を必要とせずにユーザーの選好に直接最適化します。このアプローチは効率性とスケーラビリティを重視し、より速い適応と展開を必要とするアプリケーションに最適です。そのすっきりした性格により、ユーザーフィードバックに基づいてLLMの振る舞いを迅速に調整することができ、進化する好みに合わせることができます。 RLHFとDPOはLLMの開発における重要な進展を表していますが、既存の微調整手法を置き換えるのではなく、補完するものです：事前学習：大規模なテキストとコードのデータセットを用いてLLMを訓練し、一般的な言語理解能力を学習させること。微調整：特定のタスクまたはデータセットに基づいてLLMをさらに訓練し、特定のドメインやアプリケーションに適した能力を調整すること。マルチタスク学習：LLMを複数のタスクに同時に訓練することで、共有表現を学習し、各タスクのパフォーマンスを向上させること。 LLMの効率性に対処する LLMの能力が向上するにつれて、計算上の制約とリソースの限界が重要な懸念事項となりました。その結果、2023年の研究はLLMの効率性の向上に焦点を当て、以下のような技術の開発をもたらしました： FlashAttention：この革新的なアテンションメカニズムは、LLMの計算コストを大幅に削減します。これにより、より速い推論と訓練が可能になり、LLMをリソースに制約のある環境でより実用的に利用し、実世界のアプリケーションに統合することができるようになります。 LoRA および QLoRA：LoRAやQLoRAなどの手法は、2023年にも提案された軽量かつ効率的なLLMの微調整方法を提供します。これらの手法は、既存のLLMアーキテクチャに追加された小さなモジュールであるアダプターに依存し、再トレーニングすることなくカスタマイズを可能にします。これにより、著しい効率の向上、より速い展開時間、さまざまなタスクへの適応性の向上が実現されます。これらの進展は、効率的なLLMへの需要の増大に対応し、この強力な技術への広範な導入の道を開き、結果としてこの技術へのアクセスを民主化することにつながります。検索補完生成（RAG）の浸透純LLMは巨大な可能性を秘めていますが、それらの正確性と実証的根拠に関する懸念は依然として存在しています。検索補完生成（RAG）は、既存のデータや知識ベースとLLMを組み合わせることで、これらの懸念に対処する有望な解決策として登場しました。このハイブリッドアプローチにはいくつかの利点があります：エラーの減少：外部情報から事実情報を取り込むことにより、RAGモデルはより正確で信頼性のある出力を生成することができます。拡張性の向上：RAGモデルは純LLMに必要な大規模なトレーニングリソースの必要性を排除し、大規模なデータセットに適用することができます。低コスト：既存の知識リソースを利用することにより、LLMのトレーニングおよび実行に関連する計算コストを削減することができます。これらの利点により、RAGは検索エンジン、チャットボット、コンテンツ生成など、さまざまなアプリケーションにおける貴重なツールとして位置付けられています。自律エージェント…

「Power BI ビジュアライゼーションの究極ガイド」

イントロダクション Power BIは、データサイエンスの中でも強力なツールとして浮上しており、データに基づく洞察に根ざした情報を提供することで、企業が情報に基づいた意思決定を行うことを可能にしています。Microsoftによって開発されたPower BIビジュアライゼーションは、ユーザーがデータを視覚的に表現し、洞察を組織全体に円滑に伝達することを可能にします。また、広範なデータソースとの接続を確立しながら、アプリケーションやウェブサイトにシームレスに埋め込む能力も注目されています。間違いなく、データサイエンスの分野で最も重要な要素の一つは、データの可視化の実践です。これは、視覚的要素（チャート、グラフ、マップなど）を用いて情報やデータをグラフィカルに説明することを意味します。これらの視覚ツールを活用することで、データの可視化はデータをより理解しやすくし、傾向や外れ値、パターンを判断しやすくします。要するに、Power BIは生データを視覚的に一貫性のある語りに変換する能力を持つ、典型的なツールであり、複雑なデータセットの普遍的な理解を向上させます。 Power BIビジュアライゼーションの理解 Power BIビジュアライゼーションは、Power BIを使用してデータをグラフィカルに表現するプロセスです。これにより、複雑なデータセットをより直感的で視覚的な形式で理解することができます。Power BIビジュアライゼーションは重要であり、テキストベースのデータでは明らかではない複雑な概念を理解したり、新しいパターンを識別したりすることができます。 Power BIビジュアライゼーションのメリットは多岐に渡ります。データと対話することができ、詳細な情報を得るためにチャートやグラフを掘り下げたり、他の人とレポートを作成して共有したりすることができます。また、ユーザーはユニークな360度のビジネスビューを持つパーソナライズされたダッシュボードを作成することも可能です。 Power BIビジュアライゼーションの種類 Power BIは、データを異なる方法で表現するための幅広いビジュアライゼーションを提供しています。 A. チャートチャートは、Power BIでのデータのグラフィカル表現です。これを使用して、複雑なデータセットを簡素化し、データを理解しやすく解釈できるようにします。Power BIはさまざまなチャートの種類を提供しており、それぞれ異なる種類のデータやデータの可視化タスクに適しています。 1.…

「データベース間でSQLの実行順序が異なる方法」

「MySQLやPostgreSQLなどのオープンソースデータベースと定期的に協力してきた後、最近、SQL Serverプロジェクトで働く機会があり、SQLに微妙で重要な違いを発見しました...」

2024年の予測17：RAG to RichesからBeatlemaniaとNational Treasuresへ

メリアム・ウェブスターの前に譲れ：今年、企業は年間のワードに追加するための多くの候補を見つけました。「生成的AI」と「生成的事前学習変換器」の後には、「大規模言語モデル」と「検索増強生成」（RAG）のような用語が続き、さまざまな産業が変革的な新技術に注目しました。生成的AIは今年の初めにはまだ注目されていなかったが、終わりには大きなインパクトを与えました。多くの企業が、テキスト、音声、動画を取り込み、生産性、イノベーション、創造性を革新する新しいコンテンツを生み出す能力を利用するために全力で取り組んでいます。企業はこのトレンドに乗っています。OpenAIのChatGPTなどのディープラーニングアルゴリズムは、企業のデータをさらにトレーニングすることで、63のビジネスユースケース全体で年間2.6兆ドルから4.4兆ドル相当の価値を生み出すことができると、マッキンゼー・アンド・カンパニーによって評価されています。しかし、大量の内部データを管理することは、AIの拡大における最大の障害とされてきました。NVIDIAのAIの専門家の一部は、2024年は友達との電話に関するすべてだと予測しており、クラウドサービスプロバイダーやデータストレージおよび分析会社など、大規模データを効率的に処理し、調整し、展開するノウハウを持つ企業や個人とのパートナーシップや協力関係を構築することが重要だと述べています。大規模言語モデルがその中心にあります。NVIDIAの専門家によると、LLM研究の進展は、ますますビジネスや企業向けのアプリケーションに適用されるようになります。RAG、自律型インテリジェントエージェント、マルチモーダルインタラクションのようなAIの機能は、ほぼすべてのプラットフォームを介してよりアクセス可能で容易に展開できるようになります。 NVIDIAの専門家の予想を聞いてください： MANUVIR DASエンタープライズコンピューティング部門副社長一揃いは全てに合わない：カスタマイズが企業にやってきます。企業は1つまたは2つの生成的AIアプリケーションを持つのではなく、さまざまな部門に適した独自のデータを使用した何百ものカスタマイズされたアプリケーションを持つことになるでしょう。これらのカスタムLLMは、稼働中にデータソースを生成的AIモデルに接続するためのRAGの機能を備え、より正確で明確な応答を提供します。Amdocs、Dropbox、Genentech、SAP、ServiceNow、Snowflakeなどのリーディングカンパニーは、既にRAGとLLMを使用した新しい生成的AIサービスを構築しています。オープンソースソフトウェアが先頭を走っています：オープンソースの事前学習モデルのおかげで、特定のドメインの課題を解決する生成的AIアプリケーションがビジネスの運用戦略の一部になるでしょう。企業がこれらの先行モデルをプライベートまたはリアルタイムのデータと組み合わせると、組織全体で加速された生産性とコストの利益を見ることができるようになります。クラウドベースのコンピューティングやAIモデルファウンドリーサービスから、データセンターやエッジ、デスクトップまで、ほぼすべてのプラットフォームでAIコンピューティングとソフトウェアがよりアクセス可能になります。棚卸しのAIとマイクロサービス：生成的AIは、開発者が複雑なアプリケーションを構築しやすくするアプリケーションプログラミングインターフェース（API）エンドポイントの採用を促しています。 2024年には、ソフトウェア開発キットとAPIが進化し、開発者がRAGなどのAIマイクロサービスを利用してオフシェルフのAIモデルをカスタマイズすることができるようになります。これにより、企業は最新のビジネス情報にアクセスできる知能を持つアシスタントや要約ツールを使用して、AIによる生産性の完全な可能性を引き出すことができます。開発者は、これらのAPIエンドポイントをアプリケーションに直接埋め込むことができ、モデルとフレームワークをサポートするために必要なインフラストラクチャの維持について心配する必要はありません。エンドユーザーは、自分のニーズに適応するより直感的でレスポンシブなアプリケーションを体験することができます。 IAN BUCKハイパースケールとHPC部門副社長国家的な財産：人工知能は新しい宇宙競争となり、すべての国が研究と科学の重要な進展を推進し、GDPを向上させるために自国の卓越の中心を作ろうとしています。数百個のアクセラレートされた計算ノードを使用するだけで、国は高効率で大規模なパフォーマンスを発揮するエクサスケールAIスーパーコンピュータを迅速に構築することができます。政府資金による創発型AI卓越センターは、新しい雇用を創出し、次世代の科学者、研究者、エンジニアを育成するためにより強力な大学のプログラムを構築することで、国の経済成長を後押しします。飛躍的な進歩:企業リーダーは、二つの主要な要因に基づいて量子コンピューティングの研究イニシアチブを立ち上げます。まず、従来のAIスーパーコンピュータを使用して量子プロセッサをシミュレートする能力、そして、ハイブリッドクラシカル量子コンピューティングのためのオープンかつ統一された開発プラットフォームの利用が可能になることです。これにより、開発者は、量子アルゴリズムを構築するためにカスタムで特殊な知識を必要とせず、標準のプログラミング言語を使用することができます。かつてはコンピュータ科学の奇妙なニッチと考えられていた量子コンピューティングの探求は、素材科学、製薬研究、サブアトミック物理学、物流などの分野で急速な進歩を追求する企業がアカデミアや国立研究所に加わることで、より一般的なものになるでしょう。 KARI BRISKIAIソフトウェア担当副社長 RAGから富へ:2024年、企業がこれらのAIフレームワークを採用するにつれ、再試行補完生成はさらに注目されるでしょう。…

「松ぼっくりベクトルデータベースとAmazon SageMaker JumpStartのLlama-2を使用したリトリーバル増強生成によって幻覚を軽減する」

産業全体でのLLMの採用は止まることのないように見えますが、それらは新しいAIの波を支えるより広範な技術エコシステムの一部です多くの対話AIのユースケースでは、Llama 2、Flan T5、BloomのようなLLMがユーザーのクエリに応答するために必要ですこれらのモデルは質問に答えるためにパラメトリックな知識に依存していますモデルは[…]

SetFitABSA SetFitを使用したFew-Shotアスペクトベースの感情分析

SetFitABSAは、テキスト内の特定の側面に対する感情を検出する効率的な技術です。 Aspect-Based Sentiment Analysis (ABSA)は、テキスト内の特定の側面に対する感情を検出するタスクです。例えば、「この電話は画面が素晴らしいですが、バッテリーは小さすぎます」という文では、側面の用語は「画面」と「バッテリー」であり、それぞれに対する感情極性はPositiveとNegativeです。 ABSAは、さまざまなドメインの製品やサービスの顧客フィードバックを分析して貴重な情報を抽出するために、組織によって広く使用されています。しかし、ABSAのためのラベル付けトレーニングデータは、トレーニングサンプル内で側面を手動で細かく識別する必要があるため、手間のかかる作業です。 Intel LabsとHugging Faceは、ドメイン固有のABSAモデルのfew-shotトレーニングのためのフレームワークであるSetFitABSAを紹介しています。SetFitABSAは、few-shotシナリオでLlama2やT5などの生成モデルに比べて競争力があり、さらに優れた性能を発揮します。 LLMベースの手法と比較して、SetFitABSAには次の2つのユニークな利点があります: 🗣 プロンプトが不要です: LLMを使ったfew-shot in-context学習では、結果がもろくなり、表現に敏感になり、ユーザーの専門知識に依存する手作りのプロンプトが必要です。SetFitABSAは、ラベル付けされた少数のテキスト例から直接豊かな埋め込みを生成することで、プロンプトを完全に不要とします。 🏎 高速トレーニング: SetFitABSAは、わずかなラベル付きトレーニングサンプルのみを必要とします。さらに、専門のタグ付けツールを必要としないシンプルなトレーニングデータ形式を使用します。これにより、データのラベリングプロセスが迅速かつ容易になります。このブログ記事では、SetFitABSAの動作方法と、SetFitライブラリを使用して独自のモデルをトレーニングする方法を説明します。では、さっそく見ていきましょう！どのように機能しますか？ SetFitABSAの3つのステージからなるトレーニングプロセス SetFitABSAは3つのステップで構成されています。第1ステップでは、テキストから側面候補を抽出し、第2ステップでは、側面候補を側面または非側面として分類し、最終ステップでは抽出された各側面に感情極性を関連付けます。第2ステップと第3ステップはSetFitモデルに基づいています。トレーニング 1. 側面候補の抽出…

「誰も所有していないサービスを修復するために、アンブロックされたものを使う」

「サービスが誰にも所有されていないのは珍しいことではありませんほとんどの文書化もない状態で、Unblockedの魔法を使って、サービスを理解し修正するのはどれだけ簡単か、ご覧ください」

LangChainの発見：ドキュメントとのチャット、チャットボット翻訳、ウィキペディアとのチャット、合成データ生成

「ジェネラティブAIの世界の成長は、重要なPythonライブラリであるLangChainのおかげで可能になっています興味も最近の数ヶ月間で増しており、次のチャートで示されています」

「Langchainを利用した半構造化データのためのRAGパイプラインの構築」

イントロダクション Retrieval Augmented Generation（RAG）は長い間存在しています。この概念を基にしたツールやアプリケーションが多数開発されており、ベクトルストア、検索フレームワーク、LLMなどがあり、カスタムドキュメント、特にLangchainを使用した半構造化データとの作業が容易で楽しくなっています。長くて密度のあるテキストとの作業はこれまでになく簡単で楽しいものとなりました。従来のRAGはDOC、PDFなどのドキュメントやファイル形式の非構造化テキストにはうまく対応していますが、PDFの埋め込みテーブルなどの半構造化データには対応していません。半構造化データとの作業時には通常2つの問題が生じます。従来の抽出およびテキスト分割方法ではPDFのテーブルを考慮していません。通常、テーブルが分割されてしまい、情報が失われます。テーブルの埋め込みは正確な意味ベースの検索には適さない場合があります。そのため、本記事ではLangchainを使用して半構造化データ用の検索生成パイプラインを構築し、これらの2つの問題に対処します。学習目標構造化、非構造化、半構造化データの違いを理解する。 RAGとLangchainの基本をおさらいする。 Langchainを使用して半構造化データを処理するためのマルチベクトル検索生成システムを構築する方法を学ぶ。この記事はData Science Blogathonの一環として公開されました。データの種類通常、データには構造化データ、半構造化データ、非構造化データの3つのタイプがあります。構造化データ：構造化データは標準化されたデータです。データは事前に定義されたスキーマ（行と列など）に従います。SQLデータベース、スプレッドシート、データフレームなどが該当します。非構造化データ：非構造化データは、構造化データとは異なり、データモデルに従いません。データはランダムな形式となっています。たとえば、PDF、テキスト、画像などです。半構造化データ：これは前述のデータタイプの組み合わせです。構造化データとは異なり、厳密な定義済みのスキーマを持ちませんが、データはいくつかのマーカーに基づいて階層的な順序を保持しています。これは非構造化データとは異なります。たとえば、CSV、HTML、PDFの埋め込みテーブル、XMLなどが該当します。 RAGとは何ですか？ RAGはRetrieval Augmented Generation（検索拡張生成）の略であり、大規模言語モデルに新しい情報を提供する最も簡単な方法です。RAGについて簡単に説明しましょう。…

dbtコア、Snowflake、およびGitHub Actions データエンジニアのための個人のプロジェクト

これは、Data/Analyticsエンジニア向けの簡単で高速なプロジェクトですdbt Core、Snowflake、Fivetran、およびGitHub Actionsなどの最新のデータスタックツールを試してみたい方にお勧めですハンズオン形式で行います...

Learn more about Search Results Docs - Page 3