Learn more about Search Results A - Page 287

メタAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています

大規模言語モデル(LLM)は、コンテキスト学習や思考の連鎖など、優れた一般化能力を示しています。LLMが自然言語の指示に従い、現実世界のタスクを完了するために、研究者はLLMの指示調整方法を探求しています。これは、人間の注釈付きプロンプトやフィードバック、または公開ベンチマークとデータセットを使用した監督微調整など、さまざまな関数でモデルを微調整することで実現されます。最近の研究では、人間の注釈データの品質の重要性が強調されています。しかし、そのような品質のデータセットに従って指示を注釈付けすることは、スケールするのが難しいことがわかっています。 この解決策は、LLMとの自己整列を扱います。つまり、モデルを利用して自身を改善し、モデルが書かれたフィードバック、批判、説明などの望ましい振る舞いに応じて応答を整列させることです。Meta AIの研究者は、自己整列による指示付きバックトランスレーションを紹介しました。基本的なアイデアは、大規模言語モデルを使用してWebテキストに対応する指示を自動的にラベル付けすることです。 セルフトレーニングのアプローチでは、ベースとなる言語モデル、ラベルのない例のコレクション(例えば、Webコーパス)、および少量のシードデータにアクセスできることが前提とされます。この方法の第一の前提は、この大量の人間によって書かれたテキストの一部は、いくつかのユーザー指示のための良い生成物として有用であるということです。第二の前提は、これらの応答に対して指示を予測できるということであり、これを使用して高品質の例のペアを使用して指示に従うモデルをトレーニングすることができます。 指示付きバックトランスレーション全体は、以下の手順に分割できます: セルフオーグメント:ラージ言語モデルMeta AI(LLaMA)を使用して、ラベルの付いていないデータ(Webコーパスなど)のための「良い指示」を生成し、指示の調整のためのトレーニングデータ(指示、出力のペア)を生成します。 セルフクリエイト:LLaMAを使用して生成されたデータを評価します。 そして、このデータを使用してLLaMAを微調整し、手順を繰り返して改良されたモデルを使用します。その結果、トレーニングされたLlamaベースの指示バックトランスレーションモデルは、「ハンプバック」と呼ばれました(クジラの大規模性にちなんでいます)。 「ハンプバック」は、アルパカリーダーボードのClaude、Guanaco、Falcon-Instruct、LIMAなどに関して、すべての既存の非蒸留モデルを上回りました。 現在の手順の欠点は、高度なデータがWebコーパスから派生しているため、微調整モデルはウェブデータのバイアスを強調する可能性があるということです。結論として、この方法はトレーニングデータがなくなることは絶対にありませんし、大規模言語モデルに指示に従うための堅牢なスケーラブルなアプローチを提供します。今後の課題は、より大きな未ラベルのコーパスを考慮することで、さらなる利益が得られる可能性があることです。

「IBMの「脳のような」AIチップが、環境にやさしく効率的な未来を約束します」

興味深い進展として、テクノロジー巨人IBMが人工知能(AI)の世界を革新するかもしれない「脳のような」チップのプロトタイプを発表しました。エネルギーを大量に消費するAIシステムの環境への影響についての懸念が高まる中、この革新はよりエネルギー効率が高く持続可能なAI技術への重要な一歩となる可能性があります。この画期的なチップは、人間の脳の複雑なつながりからインスピレーションを得ており、さまざまなプラットフォームでAIシステムを再構築する可能性を提供しています。 また読む:IBMとNASAが連携して地球科学GPTを作成:地球の謎を解読する 将来のエネルギー効率の高いAI IBMのプロトタイプチップは、AIのエネルギー効率を劇的に改善することを約束しています。エネルギーを大量に消費するAIインフラストラクチャに関連する炭素排出量への懸念が高まる中、この革新的なチップは希望の光です。このチップのデザインは、最小の電力消費で高性能を実現する人間の脳の驚異的な効率にインスピレーションを得ています。このブレークスルーは、先進的で環境に配慮したAI技術の道を開くかもしれません。 また読む:AI技術がリサイクルをどのように変革しているのか? 人間のつながりを模倣する このプロトタイプチップの中心には、革新的なアプローチがあります。それは、人間の脳内のつながりのように機能するコンポーネントであるメモリスターを使用することです。0と1のバイナリデータストレージに頼る従来のデジタルチップとは異なり、メモリスターをベースとしたチップは情報を処理する私たちの脳の複雑な方法と似たような範囲の値を格納することができます。この「アナログ」アプローチは、より微妙で複雑な人間の認知をより良く模倣したAIシステムへとつながる可能性があります。 また読む:人工知能と人間の知能:トップ7の違い 自然を模倣したコンピューティングの活用 サリー大学のフェランテ・ネリ教授によると、メモリスターをベースとしたアプローチは自然を模倣したコンピューティングの一環です。この分野は、人間の脳の機能を模倣しようとします。メモリスターの「電気の履歴を記憶する」能力は、生物学的なシステムのシナプスの振る舞いを反映しています。相互に接続されたメモリスターは、人間の脳の働きに近いネットワークを生み出す可能性があります。 前途に立ちはだかる課題と機会 脳のようなチップの可能性は非常に大きいものですが、専門家は注意を促しています。ネリ教授は、メモリスターをベースとしたコンピュータを実現することは複雑であり、材料費や製造の複雑さなどの課題があります。しかし、彼は慎重な楽観主義を持ちながら、脳のようなチップの出現が近い将来にあるかもしれないと示唆しています。 また読む:NVIDIAが発表したゲーム変革的なAIチップは、生成型AIアプリケーションを高速化する AIエコシステムの環境への配慮 IBMのチップは、既存のAIシステムとの互換性とエネルギー効率を提供しています。この革新は、スマートフォンから自動車まで、バッテリー寿命の延長や新しいアプリケーションへと展開する可能性があります。さらに、大規模に統合されれば、これらのチップはデータセンターのエネルギー消費量を大幅に削減し、冷却に必要な水量を減らすことができます。 また読む:NVIDIAのAIが地球温暖化から地球を救う 私たちの意見 持続可能な未来を目指す世界において、IBMのプロトタイプチップの可能性は輝いています。広範な採用に向けた道のりには課題が残りますが、この革新は持続可能でより効率的なAI技術の基盤を築くかもしれません。継続的な研究と開発による可能性は魅力的であり、AIと持続可能性が調和して共存する未来の一端を示唆しています。

「3D-VisTAに会いましょう:さまざまな下流タスクに簡単に適応できる、3Dビジョンとテキストの整列のための事前学習済みトランスフォーマー」

人工知能のダイナミックな景観では、進化が可能性の境界を再構築しています。三次元の視覚理解と自然言語処理(NLP)の複雑さを融合させたものが、魅力的なフロンティアとして現れています。この進化により、現実世界で人間の指示を理解し実行することが可能になるかもしれません。3Dビジョン言語(3D-VL)の問題が注目を集め、物理環境と言語を組み合わせるという現代の推進力が明らかになりました。 中国の清華大学と国家一般人工知能研究所(BIGAI)の最新の研究では、研究チームが3D-VisTA(3D Vision and Text Alignment)を紹介しました。3D-VisTAは、3Dビジョンとテキスト理解をシームレスに組み合わせるために、事前にトレーニングされたトランスフォーマーアーキテクチャを使用して開発されています。セルフアテンション層を使用することで、3D-VisTAは現在のモデルとは対照的にシンプルさを取り入れており、さまざまな活動に対して複雑で専門化されたモジュールを組み合わせる必要がありません。これらのセルフアテンション層には、視覚的およびテキスト領域からの情報の多くの要素を組み合わせるためのマルチモーダルフュージョンと、個々のモダリティ内の情報をキャプチャするためのシングルモーダルモデリングという2つの機能があります。 これは、複雑なタスク固有の設計が必要なく実現されます。チームは、3D-VLジョブの困難さに対処するためにScanScribeという大規模なデータセットを作成しました。このデータセットは、3Dシーンデータとそれに付随する文章の説明を組み合わせたものであり、ScanNetや3R-Scanなどのよく知られたデータセットから取得された1,185の異なる屋内シーンから2,995のRGB-Dスキャンの多様なコレクションで構成されています。これらのスキャンには、278,000以上の関連するシーンの説明があり、テキストの説明は、洗練されたGPT-3言語モデル、テンプレート、および現在の3D-VLプロジェクトなど、さまざまなソースから派生しています。 この組み合わせにより、モデルをさまざまな言語と3Dシーンの状況に晒すことで、徹底的なトレーニングを受けることが容易になります。3D-VisTAのトレーニングプロセスでは、ScanScribeデータセット上で3つの重要なタスクが関与しています:マスクされた言語モデリング、マスクされたオブジェクトモデリング、およびシーンテキストのマッチング。これらのタスクを組み合わせることで、モデルのテキストと三次元シーンの整合性能力が強化されます。この事前トレーニング技術により、3D-VisTAは3D-VLの包括的な理解を持つため、次の微調整段階では追加の補助的な学習目標や困難な最適化手順が必要ありません。 3D-VisTAの優れたパフォーマンスは、その有効性の証拠としてさらに示されています。これらのタスクは、3D環境の空間コンテキスト内での推論である配置された推論、3Dシーンの明示的なテキストの説明である密なキャプション、オブジェクトをテキストの説明と結び付ける視覚的な接地、および3Dシーンに関する問い合わせに対する正確な回答を提供する質問応答など、さまざまな困難をカバーしています。3D-VisTAはこれらの課題において優れたパフォーマンスを発揮し、3Dビジョンと言語理解の領域を成功裏に融合させる能力を示しています。 また、3D-VisTAは優れたデータ効率性を持っており、ダウンストリームタスクの微調整ステップで少量の注釈付きデータに直面しても、大きなパフォーマンスを発揮します。この機能は、大量のラベル付きデータを取得することが困難な実世界の状況でのモデルの柔軟性と潜在能力を強調しています。プロジェクトの詳細は、https://3d-vista.github.io/でアクセスできます。 貢献は以下のようにまとめられます: 3D-VisTAは、特定のタスクに合わせた複雑な設計ではなく、テキストと三次元(3D)ビジョンの整合性のための結合トランスフォーマーモデルとして導入されました。 ScanScribeは、2,995のRGB-Dスキャンと1,185の屋内シーンにわたる278,000のシーンテキストペアを持つ、大規模な3D-VL事前トレーニングデータセットです。 3D-VLのための自己教師ありの事前トレーニング方法が提供されました。この方法は、マスクされた言語モデリングとシーンテキストのマッチングを組み合わせることで、テキストと3Dポイントクラウドの整合性を効率的に学習し、後続のジョブの微調整を容易にします。 この手法は、視覚的な基盤構築、密なキャプション生成、質問応答、文脈的な推論など、さまざまな3D-VLタスクで最先端のパフォーマンスを達成しています。

「PythonとSklearnを使用して4つのセントロイドベースのクラスタリングアルゴリズムを示すアニメーションの作成」

クラスタリング分析は、データをその類似点や相違点に基づいてグループ化する効果的な機械学習技術です得られたデータグループは、セグメンテーションなど様々な目的に使用することができます

2023年の音楽制作に最適なAIツール

新しい音楽の創作からアルバム(または雑誌)のカバーデザインまで、AIは既にアーティストの作品の開発とプロモーションに大きな影響を与え始めています。新しいAI制作ツールの登場により、ソロミュージシャンを大いに支援し、新たな探求の道を開き、制作時間を短縮することができます。AI音楽技術は、メタ分析を通じて新しい音楽を生成し、複数のニューラルネットワークにアクセスしてトラックの構成パターンを認識することができます。これらの技術に十分なデータが与えられると、音楽の個別の実践をエミュレートし、クリエイターが独自の作品を作成するのを助けることができます。 以下は、音楽制作に最適なAIベースのツールのいくつかです: MAGENTA STUDIO(V1.0) GoogleはMagenta Studioという無料のAI音楽作成ツールをリリースしました。これはWindowsとMacコンピュータで動作し、Ableton Liveのプラグインとしても使用できる音楽制作ユーティリティのコレクションです。このツールキットを使用すると、Magentaのニューラルネットワークを使用して、シンプルなメロディやリフを好きなジャンルの完全な楽器演奏に変換することができます。このウェブサイトのレイアウトは、競合するデザインに比べて見た目が美しく、わかりやすくなっています。ダウンロード後、5つのプログラムのいずれかを選択します:Continueは既存のMIDIファイルに新しいサウンドを追加する音楽変形ツールです。Drumifyは、メロディやベースラインを仮定してドラムフィルを生成します。Generateは、数百万曲のトレーニングにより、音楽のための乱数生成器のようなものです。Grooveは、Magentaを使用してドラム録音を調査し、リズムを調整し、より自然な「人間の」サウンドを作成します。最後に、2つのMIDIメロディトラックを結合する音を作成する構成であるInterpolateがあります。 WavTool WavToolは、音楽プロデューサーに高品質な音楽制作環境を提供するAIパワードプログラムで、無料のウェブベースの環境を提供します。このツールには、サイドチェイン圧縮、洗練された合成、適応可能なシグナルルーティングなどの機能があります。WavToolには、初心者向けの簡単な英語の指示を提供するConductorという機能もあり、コードの提案、ビートの作成、メロディの生成などの支援を行います。AIが概念を把握し、提案を行うことができるため、音楽の作成は今や容易になりました。WavToolは、ユーザーとともに進化し、プラグインの変更やシグナルルーティングなどの機能を追加して、音楽作成のための完全なツールセットを提供します。WavToolは総合的なプログラムであり、ユーザーは追加のソフトウェアをダウンロード、インストール、または更新する必要はありません。ユーザーにはわかりやすいインターフェースが提供され、セットアップや待ち時間が必要ありません。すぐに音楽制作を始めるために必要なすべてが含まれています。誰もがツールに無料で無制限にアクセスでき、ヘルプを得たりアイデアを共有したりするためのソーシャルメディアのオプションもあります。 BOOMY Boomyは、ユーザーが自分の曲を作成し、ストリーミングサービスで共有することができる人工知能ベースの生成音楽プラットフォームです。このサービスは、「ユーザーに知識を与え、他の人に教える機会を与え、自分の音楽作品を世界と共有した後に利益を得る機会を提供することで、ユーザーを力づけます。サービスは、さまざまな形式で音楽を生成および変更するために複雑なAIアルゴリズムを利用しています。プリセットのジャンルには、エレクトロニックダンス、ラップビート、ローファイ、グローバルグルーブなどがあります。このデジタルオーディオワークステーションは、ユーザーの好みに合わせて適応し、ユニークなサウンドを提供します。一流のストリーミングプラットフォームとの「シームレスな統合」により、アマチュアミュージシャンでもグローバルな観客に露出し、配信オプションを使用して自分の作品から利益を得ることができます。システムをゼロから有機的な構成物を作り出すように訓練するために「ボトムアップ」の方法を使用することで、Boomyに使用されるAIは、著作権付きの音楽を教え込まれないことによって、法的な障害を回避することが非常にうまくいっています。 AIVA AIVAは、ゼロからカスタムスコアを作成できる人工知能駆動の音楽作曲家です。これは、経験豊富なミュージシャンやビデオゲーム業界で始めたばかりの人々など、箱から出ることを好む人々のために作られています。AI生成の音楽の力を活用することで、AIVAは作曲家にさまざまな音楽の可能性を提供します。モダンシネマティック、エレクトロニック、ポップ、アンビエント、ロック、ファンタジー、ジャズ、海の歌、20世紀のシネマティック、タンゴ、中国の影響を受けた作曲など、さまざまなジャンルの作曲が可能です。AIVAには、個人、学校、ビジネスに応じた3つの価格帯があり、Proプランのユーザーは月間ダウンロード数300回を割り当てられ、最大5分のトラックを聴くことができます。Proサブスクリプションでは、作者は作品を自由に配布し、利益を得る権利を制限なく持つことができます。要するに、AIVAはコンテンツクリエイターや作曲家のためのオリジナルで個別化された作曲の問題に対する賢明で時間の節約になる解決策を提供します。 Orb Producer 3 Orb Producer 3は、人工知能によってパワードされたプラグインセットで、高品質な音楽パターンとループを作成することがこれまで以上に簡単になりました。Orb Melody、Orb Bass、Orb Arpeggio、Orb Synthの4つのプラグインが含まれています。Orb Tuneプラグインは、多くのメロディの可能性とコントロールとカスタマイズオプションを提供し、トラックに最適な曲を見つけるのに役立ちます。Orb…

「なぜOpenAIのAPIは英語以外の言語に対してより高価なのか」

「OpenAIのAPIの費用を見積もる方法について最近記事を公開した後、他の場所でOpenAIのAPIがはるかに高価であることに気付いたという興味深いコメントをいただきました...」

「HaystackパイプラインとAmazon SageMaker JumpStartを使用して、LLMsを用いたエンタープライズ検索のための本番用ジェネレーティブAIアプリケーションを構築する」

この投稿では、HaystackパイプラインとAmazon SageMaker JumpStartおよびAmazon OpenSearch ServiceからのFalcon-40b-instructモデルを使用して、エンタープライズ検索のためのエンドツーエンドの生成型AIアプリケーションを構築する方法を紹介します

「Retrato:セルフィーをプロの写真に変える」

予算の関係でプロの写真撮影が難しい場合、非常に安価なオプションがありますそれが「Retrato」です

「AIのプロセス」

AIはまだ比較的新しい分野と見なされているため、SWEBOKのようなガイドや標準は実際には存在しません実際に、AI/MLの修士課程の教科書にはAIの明確かつ一貫した説明が提供されていません...

「ChatGPTのコードインタプリタをデータサイエンスに活用する5つの方法」

コードインタプリタを使用することで、ChatGPTは複雑なデータタスクを自動化し、視覚化を生成するためのPythonコードの書き込みと実行ができるようになりました

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us