Search Results 調査

新しいAI研究がAttrPromptを紹介します：ゼロショット学習における新しいパラダイムのためのLLM-as-Training-Data-Generator

大規模な言語モデル（LLM）のパフォーマンスは、多くの自然言語処理（NLP）アプリケーションで印象的でした。最近の研究では、LLMはタスク固有のトレーニングデータジェネレータとして提案され、特にテキスト分類においてタスク固有のデータと注釈の必要性を低減するために使用されています。これらの取り組みは、LLMをデータ生成者としての有用性を示していますが、生成されたデータがタスク固有のモデルのトレーニングに使用される場合、上流のデータ作成プロセスは無視されています。LLMをクエリするための主要な方法は、単一のクラス条件付きのプロンプトを使用するものですが、これにより提供されるデータの多様性が低下し、LLMの固有のシステムバイアスが持続する可能性があります。ジョージア工科大学、ワシントン大学、UIUC、Google Researchによる新しい研究は、さまざまなドメインからの大規模な枢軸分類タスクを分析します。高品質で人間らしい言語を書く能力のためにLLMをChatGPTに固定します。チームは主にデータ属性を使用して、作成されたトレーニングセット内のバイアスと多様性のレベルを評価します。具体的には、データ属性は複数の属性次元とさまざまな属性値から構成されており、それぞれが属性自体の可能な実現を表しています。研究者たちは、SimPromptで生成されたデータセットにおける属性のバイアスを分析するために訓練された属性分類器を使用しました。さまざまな属性がモデルの最終結果にどのように影響するかを調査します。属性付きデータを生成するために、ChatGPTを使用し、必要な特性に対して特定の値を持つ質問に制約を加えます。研究者たちは、ランダムな特性を持つデータセットでトレーニングされたモデルのパフォーマンスが、特定の属性を持つデータセットでトレーニングされたモデルよりも有意に優れていることを発見しました。この結果は、生成されたデータの属性の多様性の重要性を示しています。チームは、属性のバイアスを減らし、生成されたデータの属性の多様性を増やすために、多様な属性を持つプロンプトを使用してデータを生成することを提案しています。LLMを使用したインタラクティブな半自動プロセスを最初に使用して、与えられた分類タスクに適切な属性次元と値を決定します。LLMデータクエリの標準的なクラス条件付きプロンプトは、ランダムに組み合わされたプロパティによって生成されたより複雑な問い合わせに置き換えられます。彼らはこれらのさまざまな属性トリガーを説明するために「AttrPrompt」という用語を作り出しました。研究者たちは、4つの分類タスクで作成したデータセットを、次の2つのシナリオでトレーニングされたモデルの結果を比較することによって実証的に評価しました：1）生成されたデータセットのみでトレーニングされたモデルと2）本物のトレーニングセットと生成されたセットを含む統合されたデータセットでトレーニングされたモデル。AttrPromptを使用して作成されたデータセットは、両方の場合においてSimPromptで作成されたデータセットよりも優れたパフォーマンスを発揮します。さらに、彼らの結果は、AttrPromptがデータ/予算の効率性、およびさまざまなモデルサイズとLLMとしてのトレーニングデータジェネレータ戦略の幅広さにおいて、SimPromptに比べて優れていることを示しています。 AttrPromptは、SimPromptが必要とするChatGPTのクエリコストの5％しか必要とせずに、SimPromptと同じパフォーマンスを提供するために注目されています。最後に、彼らはLLMをより困難なマルチラベル分類問題に適用することによって、AttrPromptがSimPromptをすべての評価基準で上回ることを初めて示しています。

データ駆動型の世界で理解すべき重要な統計的アイデア4つ

2023年にデータリテラシーを持つためには、サンプリング、不確実性、AI、機械学習、そして統計的な主張の解釈といった基本的な概念が必要です

分析から実際の応用へ：顧客生涯価値の事例

データサイエンティスト、マーケター、あるいはデータリーダーであろうと、もし「顧客生涯価値」をGoogleで検索したことがあるなら、がっかりしたことでしょう私もかつてCLVを担当していた時に同じように感じました

SalesforceはXGen-7Bを導入：1.5Tトークンのために8Kシーケンス長でトレーニングされた新しい7B LLMを紹介します

最近の人工知能の技術的なブレークスルーにより、Large Language Models（LLMs）はますます一般的になっています。過去数年間、研究者たちは、これらのモデルを膨大な量のデータでトレーニングして、複雑な言語関連のタスクを解決するための急速な進歩を遂げてきました。これには、複雑な言語パターンの理解、連続した回答の生成などが含まれます。特に研究者や開発者の関心を引いている研究の1つは、LLMsの長文コンテンツの取り扱いにおける応用です。これらのタスクの例は、テキストの要約やコードの生成などの比較的単純なタスクから、タンパク質の構造予測や情報検索などのより複雑な問題の記述まで様々です。長いテキストのシーケンスには、段落、表、画像などさまざまな形式の情報が含まれているため、LLMsはこれらの要素を処理し理解するためにトレーニングされなければなりません。さらに、長距離の構造的依存関係を効果的に考慮することで、LLMsはテキストの異なる部分間の関連性を特定し、最も関連性の高い情報を抽出することができます。したがって、より広範な知識に触れることで、LLMsはユーザーのクエリにより正確で文脈に即した回答を提供することができます。しかし、数多くの潜在的なユースケースにもかかわらず、MetaのLLaMAからMosaicMLのMPT LLMモデルに至るまで、ほとんどのオープンソースのLLMsは、最大2Kトークンのシーケンスでトレーニングされています。この制限は、より長いシーケンスのモデリングにおいて大きな課題を提起します。さらに、モデルのスケーリングに関する以前の研究は、固定された計算予算が与えられた場合、トークン数が多いほど小さなモデルの方が大きなモデルよりも優れたパフォーマンスを発揮することを示しています。したがって、現在の進歩と課題に着想を受けて、Salesforce ResearchはXGen-7Bを導入し、1.5兆トークンの8Kシーケンス長でトレーニングされた一連の7B LLMsにおいて画期的な成果を上げました。このモデルシリーズには、4Kシーケンス長に対応するXGen-7B-4K-Base、8Kシーケンス長に対応するXGen-7B-8K-Base、および公開用の教育データでファインチューニングされたXGen-7B-8k-Instが含まれています（研究目的のみで公開されています）。これらのLLMsの注目すべき特徴は、XGenがMPT、Falcon、LLaMAなどといった同様のサイズの最先端のLLMsと比較して、標準のNLPベンチマークで同等または優れた結果を達成することです。この研究で使用されたXGen-7bモデルは、Salesforceの独自のライブラリJaxFormerを使用してトレーニングされました。このライブラリは、TPU-v4ハードウェアに最適化されたデータとモデルの並列処理を利用した、効率的なLLMのトレーニングを可能にします。トレーニングプロセスはLLaMAのガイドラインに従い、さらに2つの追加の調査を行いました。最初の調査は「損失スパイク」の理解に焦点を当てました。これは、トレーニング中に損失が突然一時的に増加する現象であり、明確な原因がない状態です。これらのスパイクの原因はまだ不明ですが、研究者は「順次回路の並列化」、「swish-GLUの使用」、「RMS-Normの使用」などがトレーニングの不安定性に寄与する可能性があると特定しました。2つ目の調査はシーケンス長に関連しています。自己注意の二次の計算量のため、より長いシーケンスでのトレーニングは計算コストが著しく増加するため、段階的なトレーニングアプローチが採用されました。トレーニングは最初にシーケンス長2kの800Bトークンから始まり、次にシーケンス長4kの400Bトークン、最後にシーケンス長8kの300Bトークンを対象としました。 XGen-7b 8kモデルの長い文脈の理解能力を評価するために、研究者たちは3つの主要なタスクで評価を行いました。それらのタスクは、長い対話生成、テキストの要約、および質問応答です。研究者は、対象のタスクの難しさに基づいて、インストラクションに調整されたモデルを使用しました。長い対話生成に関しては、AMIミーティングの要約、ForeverDreaming、およびTVMegaSiteの脚本の要約の3つのタスクを評価に使用しました。すべての指標において、XGen-7B-instモデルは他のいくつかのインストラクションに調整されたモデルと比較して最高のスコアを達成し、優れたパフォーマンスを示しました。長文の質問応答に関しては、研究者は物理学、工学、歴史、エンターテイメントなどさまざまなトピックをカバーするウィキペディアのドキュメントを基にChatGPTを使用して質問を生成しました。質問と元の文書の関連性、構成、および関連性に基づいて、256トークンのLLM生成された回答をGPT-4で評価しました。このシナリオでは、2kトークンに制限されたベースラインモデルに比べて、XGen-7B-8k-Instモデルのパフォーマンスが優れていることが示されました。テキストの要約に関しては、研究者は会議の会話と政府の報告書という2つの異なるドメインのデータセットを使用してXGen-7bモデルを評価しました。その結果、XGen-7bモデルはこれらのタスクで他のベースラインモデルを大幅に上回り、テキストの要約でも優れたパフォーマンスを発揮することが示されました。評価により、XGen-7bモデルは、長い文脈を理解する能力に優れており、長い対話生成、質問応答、テキスト要約など、さまざまなタスクで優れた性能を発揮しました。その性能は、他の指示に調整されたモデルやベースラインモデルを上回り、広範なテキスト文脈での理解力と連続した応答生成能力を示しています。ただし、その効果的さにもかかわらず、XGenモデルには制約があることが研究者によって認識されており、バイアスが免除されず、有害な応答を生成する可能性があります。これは、他の多くのAIモデルと共有する特徴です。Salesforce Researchはまた、コードをオープンソース化して、コミュニティが研究内容を探求できるようにしています。 SF BlogとGithub Linkをチェックしてください。最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している25k+ ML SubReddit、Discord Channel、Email Newsletterにもぜひ参加してください。上記の記事に関する質問や見落としがある場合は、お気軽に[email protected]までメールでお問い合わせください。

Pythonを使用したウェブサイトモニタリングによるリアルタイムインサイトの強化

イントロダクションこのプロジェクトの目的は、複数のウェブサイトの変更をモニタリングし、追跡するプロセスを自動化するPythonプログラムを開発することです。Pythonを活用して、ウェブベースのコンテンツの変更を検出し、文書化する繊細な作業を効率化することを目指しています。リアルタイムのニュース追跡、即時の製品更新、競合分析を行うために、この能力は非常に貴重です。デジタルの世界が急速に変化する中で、ウェブサイトの変更を特定することは、持続的な認識と理解を保つために不可欠です。学習目標このプロジェクトの学習目標は、以下のコンポーネントをカバーすることです： BeautifulSoupやScrapyなどのPythonライブラリを使用したウェブスクレイピングの方法に関する知識を向上させる。効率的にウェブサイトから価値のあるデータを抽出し、HTMLの構造をナビゲートし、特定の要素を特定し、さまざまなコンテンツタイプを処理することを目指します。ウェブサイトのコンテンツの微妙な変化を特定するスキルを向上させる。新しくスクレイピングされたデータを既存の参照と比較して、挿入、削除、または変更を検出するための技術を学ぶことを目指します。また、これらの比較中に遭遇するさまざまなデータ形式と構造を処理することも目指します。ウェブサイトの更新を追跡するためにPythonの自動化機能を活用する。cronジョブやPythonのスケジューリングライブラリなどのスケジューリングメカニズムを使用して、データ収集を強化し、繰り返しのタスクを排除する予定です。 HTMLのアーキテクチャについて包括的な理解を開発する。HTMLドキュメントを効率的にナビゲートし、データ抽出中に重要な要素を特定し、ウェブサイトのレイアウトと構造の変更を効果的に管理することを目指します。データ操作技術を探索することにより、テキスト処理のスキルを向上させる。抽出したデータをクリーンアップし、洗練させ、データエンコーディングの複雑さに対処し、洞察に基づいた分析と多目的なレポートのためにデータを操作する方法を学びます。この記事は、データサイエンスのブログマラソンの一環として公開されました。プロジェクトの説明このプロジェクトでは、特定のウェブサイトの変更を監視し、カタログ化するためのPythonアプリケーションを作成することを目指しています。このアプリケーションには、以下の機能が組み込まれます：ウェブサイトのチェック：特定のコンテンツやセクションの更新を検出するために、割り当てられたウェブサイトを一貫して評価します。データの取得：ウェブスクレイピングの方法を使用して、テキスト、グラフィック、または関連データなど、必要な詳細をウェブサイトから抽出します。変更の特定：新しくスクレイピングされたデータを以前に保存されたデータと比較し、違いや変更箇所を特定します。通知メカニズム：変更が検出された場合にユーザーをリアルタイムに通知するアラートメカニズムを実装します。ログ記録：変更の詳細な記録を時間スタンプや変更の情報とともに保持します。このアプリケーションは、ユーザーの設定に基づいて、任意のウェブサイトと特定のコンテンツを監視するようにカスタマイズできます。期待される結果には、ウェブサイトの変更に関する直ちにアラートが含まれ、変更の性質とタイミングを理解するための包括的な変更記録が含まれます。問題の定義このプロジェクトの主な目的は、特定のウェブサイトの監視プロセスを効率化することです。Pythonアプリケーションを作成することで、興味のあるウェブサイトの変更を追跡し、カタログ化します。このツールは、ニュース記事、製品リスト、その他のウェブベースのコンテンツの最新の変更について、タイムリーな更新情報を提供します。この追跡プロセスを自動化することで、時間の節約とウェブサイトへの変更や追加に対する即時の認識が確保されます。アプローチこのプロジェクトを成功裏に実装するために、以下の手順に従う高レベルのアプローチを取ります：プロジェクトでは、BeautifulSoupやScrapyなどの強力なPythonライブラリを使用します。これらのライブラリを使用すると、ウェブサイトから情報を収集し、HTMLコンテンツを取捨選択することが容易になります。始めに、ウェブサイトから情報を取得してベースラインを作成します。このベンチマークデータは、後で変更を特定するのに役立ちます。入力データを設定されたベンチマークと照合して、新しい追加や変更を追跡することができます。テキストの比較やHTML構造の違いの分析など、さまざまな技術を使用する場合があります。…

共分散と相関の違いは何ですか？

イントロダクション統計の広範な領域において、変数間の複雑な関係を理解し解き放つことは重要です。データ駆動型の意思決定、科学的な発見、予測モデリングなど、複雑なデータセット内の隠れた関連やパターンを解き明かす能力に依存しています。この追求を支えるさまざまな統計基準の中で、共分散と相関は重要であり、変数間の独立性に関する洞察を提供します。共分散と相関は統計解析において頻繁に発生する変数ですが、多くの人々が誤解したり、相互に交換可能に使用したりすることがあります。これら2つの基準を区別する微妙なニュアンスは、統計的な関係の解釈と活用に深い影響を与える可能性があります。したがって、共分散と相関の真の性質を理解することは、データの全ポテンシャルを明らかにしようとするデータ愛好家や専門家にとって非常に重要です。このブログ「共分散と相関」では、これら2つの統計的概念の違いを説明し、その関係を解明します。また、Analytics Vidhyaの「データサイエンスのためのSwift学習」コースでスキルを向上させ、データサイエンスのキャリアを活性化しましょう。共分散 2つのランダム変数間の系統的な関連性を示す統計用語であり、もう一方の変数の変化が1つの変数の変化を反映することを示します。共分散の定義と計算共分散は、2つの変数が直接的または逆比例しているかどうかを示します。共分散の式は、データセット内のデータポイントをその平均値から求めます。たとえば、次の式を使用して、2つのランダム変数XとYの共分散を計算できます：上記の手順において、共分散値の解釈共分散値は、変数間の関係の大きさと方向（正または負）を示します。共分散値は-∞から+∞の範囲を持ちます。正の値は正の関係を示し、負の値は負の関係を示します。正の共分散、負の共分散、およびゼロ共分散数値が高いほど、変数間の関係は依存性が高くなります。それぞれの共分散の種類を理解しましょう：正の共分散 2つの変数間の関係が正の共分散である場合、それらは同じ方向に進化しています。これは変数間の直接的な関係を示しています。したがって、変数は同様に振る舞います。変数の値（小さいまたは大きい）が、他の変数の重要性と等しい場合、変数間の関係は正の共分散となります。負の共分散負の共分散は、2つのランダム変数間の負の関係を示します。この場合、変数は逆方向に動きます。正の共分散とは異なり、1つの変数の増加に対応して他の変数の値が減少し、その逆も同様です。…

MITが革新的なAIツールを発表：すべての能力レベルのユーザーに対して適応可能で詳細豊富なキャプションを使用して、チャートの解釈とアクセシビリティを向上させる

複雑なグラフや図のアクセシビリティと理解を向上させるための重要な一歩として、MITの研究チームがVisTextと呼ばれる画期的なデータセットを作成しました。このデータセットは、機械学習モデルを訓練して、データの傾向や複雑なパターンを正確に説明する精緻で意味のあるキャプションを生成することで、自動グラフキャプションシステムを革新することを目指しています。グラフのキャプション付けは労力を要するプロセスであり、追加の文脈情報を提供する必要がある場合があります。自動キャプション技術は、理解を向上させる認知的な特徴を取り入れることに苦労してきました。しかし、MITの研究者たちは、VisTextデータセットを使用して訓練された機械学習モデルが、他の自動キャプションシステムのそれを常に上回るキャプションを一貫して生成することを発見しました。生成されたキャプションは正確であり、複雑さと内容の異なるさまざまなユーザーのニーズに応えるものでした。 VisTextのインスピレーションは、MITのVisualization Group内で行われた以前の研究から生まれました。この研究では、良いチャートキャプションの要素について探求しました。彼らの研究によれば、視覚のあるユーザーと視覚障害や低視力を持つ人々は、キャプション内の意味的な内容の複雑さに対して異なる好みを示しました。このヒューマンセンタードな分析に基づいて、研究者たちはVisTextデータセットを構築しました。このデータセットには、データテーブル、画像、シーングラフ、およびそれに対応するキャプションとして表される12,000以上のチャートが含まれています。効果的な自動キャプションシステムの開発には、さまざまな課題がありました。既存の機械学習手法は、グラフキャプションを画像キャプションと同様の方法でアプローチしましたが、自然画像の解釈はチャートの読み方とは大きく異なります。代替手法では視覚的なコンテンツを完全に無視し、チャートの公開後にはしばしば利用できないデータテーブルのみに頼っていました。これらの制限を克服するために、研究者たちはチャート画像から抽出されたシーングラフを表現として利用しました。シーングラフは包括的な情報を含んでいる一方で、現代の大規模言語モデルとも互換性があり、よりアクセスしやすくなりました。研究者たちはVisTextを使用して自動キャプションのために5つの機械学習モデルを訓練し、画像、データテーブル、シーングラフなどの異なる表現を探索しました。彼らは、シーングラフで訓練されたモデルがデータテーブルで訓練されたモデルと同等か、それ以上に性能が良かったことを発見しました。また、低レベルと高レベルのキャプションを別々に訓練することで、研究者たちは生成されるキャプションの複雑さに適応するようモデルを設定しました。研究者たちは、最も性能の良い手法が犯す一般的なエラーを分類する詳細な定性分析を行い、モデルの正確性と信頼性を確保しました。この調査は、モデルの微妙なニュアンスや制限を理解する上で重要であり、自動キャプションシステムの開発に関連する倫理的な考慮事項に光を当てました。生成型の機械学習モデルは効果的な自動キャプションツールを提供しますが、キャプションが誤って生成されると情報の誤情報が広まる可能性があります。この懸念に対処するため、研究者たちは自動キャプションシステムを作者ツールとして提供し、ユーザーがキャプションを編集して検証できるようにし、潜在的なエラーや倫理的な問題を軽減することを提案しました。今後、研究チームは一般的なエラーを減らすためにモデルを改善することに専念します。彼らは、スタックバーまたは複数の線があるようなさらに多様で複雑なチャートを含めたVisTextデータセットを拡充することを目指しています。さらに、自動キャプションモデルの学習プロセスに関する洞察を得て、チャートデータの理解を深めることを目指しています。 VisTextデータセットの開発は、自動グラフキャプションにおける重要なブレイクスルーを表しています。継続的な進化と研究により、機械学習によって支えられた自動キャプションシステムは、視覚障害を持つ人々にとって重要な情報を包括的かつアクセス可能にし、グラフのアクセシビリティと理解を革新することを約束しています。

Spotifyで学んだ初級データサイエンティストのための5つの重要なレッスン（パート1）

大学を卒業し、今はゲームを変えている成功者たちが集まる世界に飛び込んでいます確かに、あなたはまだその中の一人ではないかもしれませんが、あなたはまさに旅立ったばかりです

Spotifyで学んだ初心者データサイエンティストのための5つの重要なレッスン（パート2）

この記事は「データサイエンティストの新入生クロニクル」シリーズの第2部ですまずは第1部をチェックしてください！これによって、チームや利害関係者との信頼関係を築くのに役立ちます

2023年の最高のAIテキスト生成ツール

ChatGPTのリリース以来、AIテキスト生成器は頻繁にニュースになっています。適切に訓練されたツールをプロンプトすると、AIテキスト生成器は作業をより良く、より速く支援することができます。現在、ChatGPTは最も有名なAIシステムかもしれませんが、その基盤となるGPT技術は注目を浴びています。最新のGPT-3とGPT-4は非常に強力であり、APIとしても利用できるため、他のプログラマーが自分のプログラムにAIテキスト生成を組み込むことができます。そのため、類似のAIテキスト生成器が数多く存在しています。以下は現在チェックするべきいくつかのAIテキスト生成器です： Jasper AIを使用したテキスト生成に関して、Jasperは有名です。ブランドのトーンに合わせてカスタマイズ可能な長さの高品質なコンテンツを簡単に作成することができます。Jasperはこのリストで最も高価なプログラムの一つなので、コミットする前にデモを活用しましょう。ZapierはJasperとの統合をサポートしているため、AIのテキスト生成を他のすべてのワークアプリケーションにリンクして自動化することができます。 Copy.ai Copy.aiは、ビジネス向けに説得力のあるコンテンツを作成するのを支援するAI駆動のコピーライティングツールです。参加には会員費や最低購入額は必要ありません。このツールでは、よりパーソナライズされた体験と広告を提供するためにCookieが使用されます。Cookieは、このサイトでのGDPRの遵守およびボットの識別に使用されます。アプリは、ユーザーのサイト上のクリックやタップを記録し、統計情報やヒートマップを作成するために使用します。Cookieはまた、ユーザーの好みの言語とサーバークラスターを記憶します。これにより、ユーザーの体験と表示される広告にメリットがあります。 Anyword Anywordは、マーケティングで使用するための人工知能（AI）ベースのテキスト生成器およびコピーライティングツールです。AnywordはAIシステムを使用して、ユーザーの入力を分析し、再現的なテーマを認識し、ユーザーのニーズに合わせたオリジナルでカスタマイズされたコンテンツを作成します。スペルチェック、文法修正、最適な文構造などの追加機能もあります。 Sudowrite Sudowriteは、小説や映画の執筆に向けた高度なAIライティングツールで、作家やジャーナリストなどの著名人から称賛を受けており、The New Yorker、The New York Times、The Vergeなどの一流のジャーナルにも掲載されています。Sudowriteの多くの機能のうち、「Show, Not Tell」ボタンと「Brainstorming Buddy」は、ユーザーが執筆スキルを磨くのをサポートするために設計されています。人工知能ツールに関する事前の知識や経験は必要ありません。Human++株式会社がソフトウェアをサポートし、定期的なサブスクリプション料金を請求する前に無料トライアル期間を提供しています。 Rytr Rytrは、高品質なコンテンツを迅速かつ手頃な価格で作成するのを支援するAIライティングアシスタントです。このツールは、最新の言語AIを使用して、40以上のユースケースと30以上の言語で100％ユニークなコンテンツを生成することができます。Rytrの充実した機能には、リッチテキストエディタ、言い換えや短縮ツール、盗作チェック、フォーマットオプションなどがあります。さらに、Rytrにはブラウザ拡張機能もあり、メール、ドキュメント、ソーシャルメディア、請求書、プロジェクトと統合することができます。 Notion AI パワフルなAI駆動のアプリケーションNotion…

Learn more about Search Results 調査 - Page 146