Learn more about Search Results A - Page 110

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb(Falcon)、Dolma(AI2)、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。 チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ(84個の処理済みダンプ)が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ(プレーンテキスト)、40以上の高品質な注釈、および重複削除クラスタが含まれています。 このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。 研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。 ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60%減少しますが、ドキュメント数は71%減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40%削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ(パーティション)が示されます。 チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

「’Acoustic Touch’テクノロジーが音を通して視覚を提供する方法」

「技術の驚異が息をのむほどの速さで登場する時代にあって、オーストラリアの研究者たちの研究室から驚くべき突破が現れました――『音響タッチ』という革新的な技術ですこの先駆的な技術は視覚障害者向け支援デバイスの領域を再定義することを約束しますシドニー工科大学とシドニー大学、そして...からなる熱心なチームによって開発されました」

データロボットとAWS Hackathon 2023でGenAI CVスクリーナーを構築する

この記事は、DataRobot&AWS Hackathon 2023で第3位を獲得した音声AI履歴書スクリーナーの解決策について述べていますソリューションの設計には、DataRobotとAWS Bedrockが必要です...

イーロン・マスク氏とXAiチームがGrokを発表:人工知能(AI)の新たなフロンティア、ライブデータとChatGPTに対する最強の競合相手

イーロン・マスクは、宇宙と電気自動車に対する野心的な取り組みで知られるテック界の大物であり、現在は急成長している人工知能の分野にも注目しています。彼のxAIチームは、OpenAIのChatGPTに挑戦するだけでなく、機械学習の対話に新しい風をもたらすAIプラットフォーム「Grok」を発表しました。 Grokは、ロバート・ハインラインの「異邦人」で造語された用語にちなんで名付けられており、あるものを徹底的に理解し、それが自分自身の一部になることを意味します。それは「銀河ヒッチハイク・ガイド」のデジタル再生版であり、知識を持ち、ほぼ全知であり、ユーモアを持っています。 マスクの最新のAI(Grok)の特徴を以下に示します: 1. リアルタイム接続: Grokは、つぶやきへのリアルタイムアクセスと謎の「X」プラットフォームにリンクされた「ライブ」検索エンジンを持っています。これにより、最新の情報の連続的なフィードにアクセスできる可能性があり、同僚よりも知識の更新速度に優れているかもしれません。 2. 強力な文脈理解: 競合他社の多くよりも会話の中でより多くの情報を保持し参照できる、印象的な25,000文字の文脈ウィンドウを誇っています。 3. マルチタスク能力: Grokはマルチタスキングを処理し、チャット会話を維持することができます。それはおしゃべり好きな宇宙ガイドとのインタラクションを目指したAIにとって重要な機能です。 4. 未来の感覚API: 画像および音声認識のための計画されたAPIにより、Grokは多感覚AIを目指し、潜在的な応用範囲をさらに拡大することを目指しています。 5. Teslaとの統合: マスクはGrokをTeslaでネイティブに実行する予定であり、すでに高度なAIの機能が向上する可能性があります。 6. 限定的な早期アクセス: 前バージョンベータ版からX Premium+の定期購読者に提供される予定のため、早期導入者に対する限定的な優位性を示しています。 7. 機知の狭間:…

マイクロソフトがデータフォーミュレータを導入:データ変換の課題に取り組むためのコンセプト駆動型の可視化作成ツールで、人工知能AIエージェントを活用しています

データの可視化は、データ内のパターン、傾向、洞察を理解するために、データを図形や画像の形式で表示することを指します。効果的なデータの可視化は、データ分析において重要な役割を果たします。それにより、データアナリストは複雑なデータセットを探索し、パターンを理解し、さまざまな関係者に有意義な洞察を伝えることができます。現在、データの視覚的な表現を作成するための多くのツールがあります。しかし、データを整理した形式に変換する必要があります。 これにはプログラミングの経験または別個のデータ処理ツールが必要であり、データの変換は可視化の制作における障壁となっています。それには一定のプログラミングの専門知識や追加のデータ処理ツールの理解が必要です。データの可視化の複雑さを浮き彫りにし、技術的な背景に関係なく、データアナリストがインパクトのある視覚化を作成できるようにするために、より簡単でシームレスなプロセスが必要とされます。 そのため、研究者たちはデータの可視化における障壁を克服するための大きな進歩を遂げています。人工知能(AI)とヒューマンコンピュータインタラクション(HCI)の共同研究により、データ表現における画期的なパラダイムを導入するAIパワードの可視化制作ツールであるData Formulatorが生まれました。 Data Formulatorは、データの可視化の複雑なプロセスを簡単にすることを目指しています。このツールは従来の手法とは異なり、高レベルの可視化の概念とデータ処理の具体的な内容を区別します。データアナリストは、可視化のために考えているアイデアを「データの概念」として記述します。つまり、生データには存在しなくても表示されて欲しい特定のフィールドやカテゴリを指します。このように考えを表現することで、アナリストはAIエージェントに意味を理解させることができ、概念を関連する視覚的な要素と結び付けて可視化プロセスを容易にします。 アナリストが望むものが不明確である可能性があることを理解して、Data Formulatorはデータの異なる可視化方法を表示して支援します。アナリストには多くの選択肢が与えられ、すべてがより透明になります。さらに、Data FormulatorはAIがデータを変更するために使用したプログラムと新しいデータ自体も提供します。これにより、アナリストはすべてを見て次回に向けてアイデアをより良くすることが容易になります。 Data Formulatorから派遣されたAIエージェントは、入力データを変換してこれらの概念を強調し、望ましい視覚化を作成します。結果を提示すると同時に、Data Formulatorは変換されたデータと可視化の理解と検査を支援するためのフィードバックを提供します。 Data Formulatorは、アナリストの入力に基づいて2つの異なる方法、具体例に基づいた概念の定義と自然言語クエリを使用します。前者では、プログラム合成器が特殊なデータ再形成プログラムを生成し、後者では言語モデル(LLM)を呼び出してコードを生成し、記述された新しいデータカテゴリを作成します。生成された変換後のデータは、対応する可視化とともに構造化されたテーブルにコンパイルされます。 可視化に限らず、この手法はデータクリーニング、統合、探索、ストーリーテリングにも応用されます。理想的なAIシステムは、高レベルの指示に従い、データ分析パイプライン全体でアクションを提案し、ユーザーとAIエージェントの協力を促し、データの可視化目標を達成するために共同作業を進めます。研究者は、不明確であったり、曖昧であったり、正確でなかったりしても結果をアナリストに効果的に伝えるAIツールの作成が、この協力のために重要であると述べています。

高度なRAG 01:小から大への検索

RAG(Retrieval-Augmented Generation)システムは、与えられた知識ベースから関連情報を検索することで、事実に基づいて文脈に即した特定のドメインに関連する情報を生成することができます...

Embedchainの紹介- LLM向けのデータプラットフォーム

イントロダクション LangChainやLangFlowのようなツールを紹介することで、Large Language Modelsを使ったアプリケーションの構築が容易になりました。さまざまなLarge Language Modelsを選択してアプリケーションを構築することが容易になった一方で、データのアップロード部分では、データがさまざまなソースから取得されるため、開発者にはデータをプレーンテキストに変換してベクトルストアに注入する必要があるため、依然として時間がかかることがあります。このような場合には、Embedchainが登場します。Embedchainを使用すると、さまざまなデータタイプのデータを簡単にアップロードしてLLMを瞬時にクエリできます。この記事では、embedchainの使い方について探っていきます。 学習目標 Large Language Models(LLMs)のデータの管理とクエリに関して、embedchainの重要性を理解する。 非構造化データを効果的に統合し、embedchainにアップロードする方法を学ぶ。これにより、さまざまなデータソースでシームレスに作業を行うことができる。 embedchainがサポートしているさまざまなLarge Language Modelsとベクトルストアについて知る。 ウェブページやビデオなどのさまざまなデータソースをベクトルストアに追加し、データの取り込み方法を理解する。 この記事はData Science Blogathonの一部として公開されました。 Embedchainとは何ですか? EmbedchainはPython/JavaScriptライブラリであり、開発者はこれを使ってLarge Language Modelsと多くのデータソースをシームレスに接続することができます。Embedchainを使用すると、非構造化データをアップロード、インデックス化、検索することができます。非構造化データには、テキスト、ウェブサイト/YouTube動画へのURL、画像など、いかなるタイプのデータも含まれます。 Emdechainを使ってこれらの非構造化データをアップロードする場合、単一のコマンドでデータをアップロードし、それらに対してベクトル埋め込みを作成し、接続されたLLMと即座にクエリを開始することができます。内部では、embedchainがデータをソースからロードし、チャンキングし、ベクトル埋め込みを作成し、最終的にベクトルストアに格納する処理を行います。 Embedchainを使った最初のアプリの作成…

「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」

会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの能力を評価する上で改善が必要です。それに対処するため、同じ推論スキルを必要とする様々な質問が設計されました。これらの質問はLLMの限定されたToMの能力を明らかにしました。推論の連鎖や微調整を行っても、最先端のLLMはこれらの質問に対処する際にまだ支援が必要で、人間の基準を下回るパフォーマンスを示します。 異なる大学の研究者たちは、会話型の質疑応答を通じてLLMのToMをテストするためのベンチマークであるFANToMを紹介しました。これにはLLMの評価に心理学的な観点や経験的な洞察が組み込まれています。FANToMは最先端のLLMにとっても難しいものであり、推論や微調整を行っても人間よりもパフォーマンスが悪いことが示されています。このベンチマークでは、キャラクターの知識に関する質問に対する2値の回答や特定の情報を持つキャラクターの列挙を求めることによってLLMを評価しました。人間のパフォーマンスは11人の学生ボランティアで評価されました。 FANToMは、社会的な相互作用に焦点を当てた会話文脈で機械のToMを評価するために設計された新しい英語のベンチマークです。キャラクター間の情報の非対称性や異なる心的状態を強調し、多数の参加者による会話内の1万の質問を含んでいます。その目標は、モデルが議論内の信念を追跡し、他者の心的状態を理解し、幻想的なToMの事例を特定する能力を測定することです。 FANToMは、情報の非対称性を持つ会話文脈で機械のToMを質問応答を通じて試験するベンチマークです。そのベンチマークには、アクセスできない情報による異なる心的状態を持つキャラクターが関与する会話に基づく1万の質問が含まれています。推論の連鎖や微調整を行っても、既存のLLMはFANToMで人間よりも明らかに性能が低く、評価結果が示すとおりです。 FANToMの評価結果は、推論の連鎖や微調整を行っても既存のLLMが人間よりも明らかに性能が低いことを示しています。FANToMでの一部のLLMのToM推論は幻想的と見なされ、異なるキャラクターの視点を理解する能力に欠けていることを示しています。ゼロショットの推論の連鎖や微調整を適用しても、LLMのスコアは改善されますが、人間のパフォーマンスと比べて大きなギャップが存在します。これらの結果は、LLMに一貫したToM推論能力を持つモデルを開発する上での課題を強調し、LLMの人間レベルの理解を実現することの困難さを示しています。 まとめると、FANToMは会話の中でのLLMのToMを評価するための貴重なベンチマークであり、現実世界のユースケースにより良く合致するより対話指向の基準が必要であることを強調しています。この評価では、現在のLLMは高度な技術を用いても人間と比較して性能が低いことが示されています。また、ニューラルモデルの内部的な整合性の問題を特定し、それに対処するためのさまざまなアプローチも提供しています。FANToMはToMの推論を実践的な状況や視覚情報、信念グラフに基づいて考えるようにするなど、将来の研究方向も示唆しています。評価は特定のトピックにとどまらず、さまざまな会話シナリオを含み、視覚情報などの多様な要素を組み合わせることができます。ニューラルモデルの内部的な整合性の問題に取り組むことは重要です。FANToMは現在、さらなる研究のために公開されており、LLMのToM理解の進歩を促進しています。将来の研究では、より動的な社会的推論のために関係変数を組み込むことが考慮されるかもしれません。

この機械学習の研究では、データセット内のバイアスを効果的に取り除くためのAIモデルを開発しています

データ収集は、テクスチャバイアスが意図せず導入される可能性のある主要な機会となるかもしれません。モデルがバイアスのあるデータでトレーニングされ、それから異なる分布のデータに適用されると、バイアスの源と性質を明確にする必要があるため、性能はしばしば劇的に低下します。文献には、偏見を減らすか排除するための研究が豊富にあります。以前の研究では、敵対的学習を通じてバイアスに独立した特徴を抽出し、バイアスのあるデータに頼らずに意図した分類タスクを解決するモデルを作成することが提案されました。しかし、敵対的学習によってバイアスの特徴を完全に分離することは難しいため、トレーニング後にはテクスチャベースの表現が一般的に保持されます。 大邱広域市科学技術院(DGIST)のチームは、データバイアスを著しく軽減させる可能性のある新しい画像変換モデルを作成しました。複数のソースからの写真のコレクションからAIモデルをゼロから構築する際、ユーザーが最善の努力をしてもデータバイアスが存在する場合があります。この解決策は、自律車両、コンテンツ作成、ヘルスケアの進歩に大いに貢献するでしょう。 ディープラーニングモデルはしばしばバイアスのあるデータセットでトレーニングされます。例えば、風邪の肺炎を新型コロナウイルス感染症(COVID-19)から特定するデータセットを開発する際、COVID-19感染の可能性があるため、画像収集の状況は異なるかもしれません。その結果、これらの変動により画像には小さな差異が生じ、既存のディープラーニングモデルは、実用的な疾患識別のための主要な特徴ではなく、画像処理の違いによる属性に基づいて疾患を診断することになります。 空間自己相関損失、テクスチャ共起、GAN損失を使用することで、一貫したコンテンツと類似したローカルおよびグローバルなテクスチャなど、望ましい特性を持つ高品質の画像を生成することができます。トレーニングデータの支援を受けて画像が生成された後、バイアスのない分類器や変更されたセグメンテーションモデルを学習することができます。最も重要な貢献は以下のとおりです。 代わりとして、チームはテクスチャ共起と空間自己相関の損失を使用して画像を変換することを提案しています。画像変換タスクは、これらの損失が他の要素と分離して研究されたことがないものです。彼らは、これらの損失の両方を最適化することで、バイアスを軽減し、ドメイン適応に適した最適な画像を生成できることを示しています。 チームは、トレーニング中に予期せぬバイアスを効果的に軽減するための下流タスクの学習戦略を提案しています。これにより、バイアスラベルを使用せずにトレーニングデータセットを明示的に充実させることが可能となります。また、セグメンテーションモジュールに依存しないアプローチであるため、最先端のセグメンテーションツールとも連携することができます。このアプローチにより、これらのモデルに効率的に適応し、トレーニングデータセットを充実させることでパフォーマンスを向上させることができます。 チームは、バイアスのあるデータセット5つとドメイン適応データセット2つと比較し、以前の画像変換モデルと比較して高品質な画像を生成することにより、当チームのアプローチが最先端のバイアス軽減およびドメイン適応手法よりも優れていることを実証しました。 作成されたディープラーニングモデルは、テクスチャのバイアス軽減を適用してデータセットを作成し、そのデータセットでトレーニングするため、既存のアルゴリズムよりも優れた性能を発揮します。 テクスチャのバイアスが存在するデータセット(例:数字を区別する分類データセット、異なる毛色の犬と猫を判別する分類データセット、COVID-19と細菌性肺炎を区別するための他の画像プロトコルを適用する分類データセット)に対してテストされた際、既存のバイアス軽減および画像変換手法よりも優れたパフォーマンスを発揮しました。また、多ラベル整数を区別する分類データセットや、静止写真、GIF、アニメーションGIFを区別するために設計された分類データセットなどのバイアスを含むデータセットでも、従来の方法よりも優れた結果を示しました。

ChatGPTがロボットの世界に足を踏み入れる:ボストン・ダイナミクスの最新メカニカルマーベルが今度は会話する

画期的な開発が行われ、エンジニアリング会社であるボストン・ダイナミクスは、OpenAIが開発した洗練された言語モデルであるChatGPTを、その驚異的なロボットSpotの1つに統合しました。この犬のようなコンパニオンは、建物のガイド付きツアーを提供し、途中の展示物ごとに洞察に富んだ解説を行うことができるようになりました。 Spotは驚異的な変化を遂げ、特色ある個性の選択肢を持つようになりました。選択されたパーソナリティに応じて、ロボットの声、トーン、個人的な発言が適応します。 周囲の状況を認識するため、SpotはVisual Question Answering(VQA)モデルを利用し、画像のキャプションを生成し、それに関する簡潔な応答を提供することができます。この視覚データは約1秒ごとに更新され、テキストプロンプトとしてシステムに伝えられます。 Spotのコミュニケーション機能は、Respeaker V2スピーカー用の特別に作られた振動耐性マウントを追加することで強化されています。この革新的なハードウェアは、LEDが付いたリングアレイマイクロフォンで飾られたSpotのEAP 2ペイロードとUSBでシームレスに統合されます。 ロボットの制御は、デスクトップPCまたはノートパソコンのオフボードコンピュータによって管理され、そのコンピュータはSpotとの通信にはソフトウェア開発キット(SDK)を利用しています。EAP 2とのオーディオコミュニケーションを容易にするために、簡単なSpot SDKサービスが実装されています。 口頭応答に関しては、SpotはElevenLabsのテキスト読み上げサービスを利用しています。応答時間を最適化するため、エンジニアはテキストを「フレーズ」として並行してツールにストリーミングし、生成されたオーディオを直列で再生するシステムを考案しました。 個性を付加するため、Spotは今や身体の言語能力も持っています。移動するオブジェクトを識別し追跡することができ、最も近くの人物の位置を判断し、腕をその方向に向けることができます。愉快な演出の一環として、発話にはローパスフィルターが適用され、パペットの口の動きを模倣しています。この効果は、グリッパーにおかしな衣装を付けたり、くりくりした目をつけたりすることでさらに引き立てられます。 この実験の最も興味深い側面の1つは、AIの固有の論理ですが、最小限の微調整が必要でした。例えば、「親」という言葉について質問されたとき、Spotは驚くべきことに、それまでのモデルが存在する場所に自動的に移動し、おかしくもそれらを「先輩」と称しました。これは、モデルが意識を意味せずに概念間の統計的な関連性を確立する能力を示すものです。 ただし、デモンストレーションにはいくつかの制約があります。Spotも他の言語モデルと同様に、時折幻覚を経験することがあり、架空の情報を生成することがあります。この現象の興味深い例は、AIエージェントが集まるSimsにインスパイアされた町についての記事に見ることができます。さらに、応答にはわずかな遅延があり、ユーザーは約6秒待つことがあります。 これらのわずかな妨げにもかかわらず、このプロジェクトは、ロボティクスとAIの交差点での研究における重要な進歩を表しています。ボストン・ダイナミクスは、人間中心の環境でロボットのパフォーマンスを向上させることを目的として、この技術の融合をさらに探求することを約束しています。この有望な試みは、機械との相互作用の方法を革新し、知的なコンパニオンシップの新たな時代を築く可能性を秘めています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us