Search Results Jam

「AIによる気候変動対策の加速」

「ボストン・コンサルティング・グループとの新しいレポートによると、AIは世界の温室効果ガス排出量の5〜10％を軽減する可能性があります」

算術推論問題のための即座のエンジニアリング

大規模言語モデル（LLM）は、言語の理解と生成の能力において、学術研究者と業界の専門家の両方からますます注目を集めていますその理由は…

「Google の CEO Sundar Pichai は AI を気候変動にたとえる」という記事です

サンフランシスコで開催されたアジア太平洋経済協力CEOサミットで、GoogleのCEOであるサンダー・ピチャイ氏がAIを気候変動に例えましたこのコメントは、「スマートAI規制に対するグローバルな合意をどのように得るか」という質問に対して出たものですCNBCによると、彼はAIが「広まり続ける」と述べ、「AIの進歩は...」と述べました

モデルアーキテクチャのための生成AIに向けて

「Attention is All You Need」というトランスフォーマー革命は、深層学習モデルのアーキテクチャの設計に深い影響を与えましたBERTが登場して間もなく、RoBERTa、ALBERT、DistilBERTが続きました...

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパワードのユーザーアシスタンスプラットフォームを提供しています彼らはAI共同運転手を提供しており、コンテンツに基づいて質問に答えるだけですそして、何か分からない場合は、あなたがコントロールするエクスペリエンスにデフォルトします

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレースに初参入したxAIのGrok GPT-3クラスモデルはかき消されてしまった...

「パンドラの箱をのぞいてみよう：『ホワッツインマイビッグデータ（WIMBD）』で言語モデルのデータセットの隠された複雑さを明らかにする」

機械学習はその基盤としてデータに依存しています。新しいデータセットは、研究や革新的なモデルの開発において重要な要素です。大規模なデータセット上で大きなモデルをトレーニングすることは、AIの実験の計算コストを時の経過とともに大幅に増加させています。現在、最も影響力のあるデータセットのいくつかは、公にアクセス可能なインターネット全体からテキストを抽出することによって生成されています。通常、これらのデータベースには内容の記述はなく、生成方法の説明のみが提供されます。これは重要な違いであり、現在、大規模なテキストコーパス上でモデルがトレーニングされているが、それに含まれる概念、主題、有害性、または個人情報を知る手段がないということを意味します。一方、言語モデルは現在、世界中の個人によって日常的に広範に利用されています。これらのAIシステムは人々の生活に直接的な影響を与えるため、それらの利点と欠点を理解することは今や重要です。モデルはそれらがトレーニングされたデータからのみ学ぶことができますが、事前トレーニングコーパスの非公開性と膨大な量は、それらを分析することを困難にしています。ウェブスケールのコーパスの内容を評価する作業では、通常、わずかな重要な側面に焦点が当てられますが、同じ側面でいくつかのデータセットを分析するためにはさらなる作業が必要です。そのため、機械学習の実践者は、データセットの違いをより有用に説明するための方法が必要です。本研究では、Allen Institute for AI、ワシントン大学、カリフォルニア大学の研究者らが、マイビッグデータ（WIMBD）と呼ばれるツールのコレクションを利用して、大規模な言語データセットを迅速に調査することで、大規模なテキストコーパスの内容を研究するための手助けをすることを提案しています。また、彼らはこの技術を使用して、複数のウェブスケールのデータセットを比較した初めての直接的に比較可能な指標を提供しています。 WIMBDには2つのパートがあります：(1) Elasticsearch（ES）ベースの検索ツールで、クエリを含むドキュメントをプログラムで検索することができます。ESは、コーパス内の文字列を検索し、それらが出現したテキストや回数とともに見つけることができる検索エンジンです。(2) MapReduceに基づいたカウント機能で、データセット全体を高速にイテレーションし、ドキュメントの文字数の分布、重複、ドメインの数、個人情報（PII）の特定など、関連するデータを抽出することができます。WIMBDのコードはオープンソースで、github.com/allenai/wimbdでアクセス可能です。これは拡張可能で、大規模なスケールで異なるコーパスをインデックス化、カウント、分析するために使用することができます。彼らは、これらの技術を使用して、C4、The Pile、RedPajamaなどの10の異なるコーパス上で16の研究を実施し、言語モデルのトレーニングに使用されています。彼らはその分析を以下の4つのカテゴリに分類しています：データの統計（トークンの数やドメインの分布など）。データの品質（重複ドキュメントの測定や最も頻出のn-gramの計測など）。コミュニティおよび社会に関連する測定（ベンチマークの汚染や個人情報の検出など）。コーパス間の分析（ドキュメントの重複や最も一般的なn-gramの比較など）。図1はWIMBDの概要を示しています。彼らの研究では、データの分布や異常に関する多くの洞察が提供されています。図1：WIMBDの概要。CountとSearchの2つの主要機能を提供し、大規模なテキストコーパスへの迅速な処理とアクセスを容易にし、さまざまな分析を可能にします。たとえば、ドキュメントの長さの分布を調べることにより、近隣の長さと比較してある長さが過剰に表示される異常が明らかになることがあります。これらの異常は、ほぼ正確に2倍のテンプレートから作成されるテキストや、特定の文字数に意図的に切り詰められたドキュメントに関連することがよくあります。また、最も一般的なn-gramとして句読点の連続もあります。たとえば、The Pileでは、最も一般的な10-gramは「-」（ダッシュ）が10回繰り返されたものです。WIMBDは、より高品質なコーパスのキュレーション、モデルの行動の遡及的なドキュメンテーションやアンカリングに実践的な洞察を提供します。また、wimbd.apps.allenai.orgでは、彼らの分析の一部をハイライトするインタラクティブなデモが提供されており、この公開とともにリリースされています。

Learn more about Search Results Jam - Page 3

「AIによる気候変動対策の加速」

算術推論問題のための即座のエンジニアリング

「Google の CEO Sundar Pichai は AI を気候変動にたとえる」という記事です

モデルアーキテクチャのための生成AIに向けて

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

このAIニュースレターはあなたが必要なすべてです #72

「パンドラの箱をのぞいてみよう：『ホワッツインマイビッグデータ（WIMBD）』で言語モデルのデータセットの隠された複雑さを明らかにする」

実生活の例とPythonコードで説明される隠れマルコフモデル

『ラグランジュの未定乗数法、KKT条件、そして双対性 – 直感的に説明する』

「ナイトシェードの仕組み」

Find the right Blockchain Investment for you