Learn more about Search Results EU - Page 161

Light & WonderがAWS上でゲーミングマシンの予測保守ソリューションを構築した方法

この記事は、ライトアンドワンダー(L&W)のアルナ・アベヤコーン氏とデニス・コリン氏と共同執筆したものですライトアンドワンダーは、ラスベガスを拠点とするクロスプラットフォームゲーム会社であり、ギャンブル製品やサービスを提供していますAWSと協力して、ライトアンドワンダーは最近、業界初の安全なソリューション「Light & Wonder Connect(LnW Connect)」を開発しました[…]

Google Researchにおける責任あるAI 社会的善のためのAI

Google Research、AI for Social GoodのソフトウェアエンジニアであるJimmy TobinとKatrin Tomanekが投稿しました。 GoogleのAI for Social Goodチームは、研究者、エンジニア、ボランティア、その他のメンバーが、ポジティブな社会的インパクトに焦点を合わせたチームです。私たちの使命は、公衆衛生、アクセシビリティ、危機対応、気候とエネルギー、自然と社会の各分野で、現実世界での価値を実現することによって、AIの社会的な利益を示すことです。私たちは、未開発なコミュニティに対してポジティブな変化をもたらす最良の方法は、変化をもたらす人々やその組織と協力することだと信じています。 このブログ記事では、AI for Social Good内のチームであるProject Euphoniaが行った作業について説明します。このチームは、障害のある人々のための自動音声認識(ASR)の改善を目的としています。通常の発話を持つ人々にとって、ASRモデルの単語エラー率(WER)は10%未満になることがありますが、吃音、失語症、失行症などの障害のある人々の場合、エチオロジーと重症度に応じてWERは50%または90%に達することがあります。この問題に対処するために、私たちは1,000人以上の参加者と協力して、1,000時間以上の障害のある音声サンプルを収集し、個人化されたASRが障害のある人々のパフォーマンスギャップを埋めるための実現可能な道であることを示しました。私たちは、レイヤー凍結技術を使用して、3〜4分のトレーニング音声で個人化が成功することを示しました。 この作業は、個人化された音声モデルを必要とする人々にとって有益であるProject Relateの開発につながりました。GoogleのSpeechチームと共同で構築されたProject Relateは、典型的な音声の理解が難しい人々が自分自身のモデルをトレーニングできるようにするものです。人々はこれらの個人化されたモデルを使用して、より効果的にコミュニケーションを取り、より独立した生活を送ることができます。ASRをよりアクセス可能で使いやすくするために、デジタルアシスタント技術、ディクテーションアプリ、および会話で使用するために、GoogleのUniversal Speech Model(USM)を調整する方法について説明します。 課題に対処する Project Relateのユーザーと緊密に連携して作業を行うことで、個人化されたモデルは非常に有用であることが明らかになりましたが、多くのユーザーにとって、数十または数百の例を記録することは困難です。さらに、個人化されたモデルは、自由形式の会話では常にうまく機能しなかったこともわかりました。…

F.T.C.、AmazonをPrimeに加入させるためにユーザーをだますと非難

訴訟は、連邦取引委員会の委員長であるリナ・カーンが指揮する初めてのアマゾンに対する訴訟です

ジョン・イサザ弁護士、FAI氏によるAIとChatGPTの法的な土壌を航行する方法

私たちは、Rimon LawのパートナーであるJohn Isaza, Esq., FAIに感謝しています彼は、法的な景観の変化、プライバシー保護とイノベーションの微妙なバランス、そしてAIツールを統合する際に生じる独特の法的な意義など、多岐にわたる側面で自身の物語と貴重な洞察を共有してくれましたJohnは、AIに関連する課題や考慮事項について貴重な観点を提供しています...John Isaza, Esq., FAI がAIとChatGPTの法的景観を航海するための記事を読む»

アルトコインへの投資:暗号市場の包括的ガイド

アルトコインとは、ビットコインの後に登場した他の暗号通貨のことですこれらのデジタル通貨は、分散型ブロックチェーン技術を介して運営され、先駆的な暗号通貨であるビットコインとは異なる用途を提供しています 「アルトコイン」という用語は、暗号空間で数年間使用されており、ビットコインを除く多数の暗号通貨を指します… アルトコインへの投資:暗号市場の包括的ガイド 詳細はこちら»

音から視覚へ:音声から画像を合成するAudioTokenについて

ニューラル生成モデルは、私たちがデジタルコンテンツを消費する方法を変え、さまざまな側面を革命化しています。彼らは高品質の画像を生成し、長いテキストスパンでの一貫性を確保し、音声やオーディオを生成する能力を持っています。異なるアプローチの中でも、拡散ベースの生成モデルは注目を集め、さまざまなタスクで有望な結果を示しています。 拡散プロセス中、モデルは定義済みのノイズ分布を目標データ分布にマップする方法を学習します。各ステップで、モデルはノイズを予測し、目標分布から信号を生成します。拡散モデルは、生の入力や潜在表現など、さまざまな形式のデータ表現で動作できます。 Stable Diffusion、DALLE、Midjourneyなどの最先端のモデルは、テキストから画像合成のタスクに対して開発されています。最近ではX-to-Y生成に対する関心が高まっていますが、オーディオから画像へのモデルはまだ深く探究されていません。 テキストプロンプトではなくオーディオ信号を使用する理由は、動画のコンテキストでの画像と音声の相互接続にあります。一方、テキストベースの生成モデルは優れた画像を生成できますが、テキストの説明は画像と本質的に関連していません。つまり、テキストの説明は通常手動で追加されます。また、オーディオ信号には、同じ楽器の異なるバリエーション(例:クラシックギター、アコースティックギター、エレキギターなど)や、同一のオブジェクトの異なる視点(例:スタジオで録音されたクラシックギターとライブショーでのクラシックギター)など、複雑なシーンやオブジェクトを表す能力があります。異なるオブジェクトのこのような詳細な情報の手動注釈は労力がかかり、拡張性が低下するため、スケーラビリティに課題があります。 以前の研究では、主にGANを使用してオーディオ録音に基づいて画像を生成することに焦点を当てた方法が提案されています。ただし、彼らの作業と提案された方法の間には顕著な違いがあります。一部の方法では、MNIST数字の生成にのみ焦点を当て、一般的なオーディオサウンドを包括するアプローチには拡張しませんでした。その他の方法では、一般的なオーディオから画像を生成しましたが、低品質の画像に結果が出たものもありました。 これらの研究の制限を克服するために、オーディオから画像を生成するためのDLモデルが提案されました。その概要は、以下の図に示されています。 このアプローチは、事前にトレーニングされたテキストから画像を生成するモデルと、事前にトレーニングされたオーディオ表現モデルを活用して、それらの出力と入力の間の適応層マッピングを学習することを含みます。最近のテキスト反転の研究から、専用のオーディオトークンが導入され、オーディオ表現が埋め込みベクトルにマップされます。このベクトルは、新しい単語埋め込みを反映する連続表現として、ネットワークに転送されます。 オーディオエンベッダーは、事前トレーニングされたオーディオ分類ネットワークを使用して、オーディオの表現をキャプチャします。通常、識別的ネットワークの最後の層が分類目的に使用されますが、識別的なタスクとは関係のない重要なオーディオの詳細を見落とすことがよくあります。そのため、このアプローチでは、最後の隠れ層と以前の層を組み合わせて、オーディオ信号の時間埋め込みを生成します。 提供されたモデルによって生成されたサンプル結果は、以下に報告されています。 これが、新しいオーディオから画像(A2I)合成モデルであるAudioTokenの概要でした。興味がある場合は、以下のリンクでこの技術についてもっと学ぶことができます。

新たな能力が明らかに:GPT-4のような成熟したAIのみが自己改善できるのか?言語モデルの自律的成長の影響を探る

研究者たちは、AlphaGo Zeroと同様に、明確に定義されたルールで競争的なゲームに反復的に参加することによってAIエージェントが自己発展する場合、多くの大規模言語モデル(LLM)が人間の関与がほとんどない交渉ゲームでお互いを高め合う可能性があるかどうかを調査しています。この研究の結果は、遠い影響を与えるでしょう。エージェントが独立に進歩できる場合、少数の人間の注釈で強力なエージェントを構築することができるため、今日のデータに飢えたLLMトレーニングに対して対照的です。それはまた、人間の監視がほとんどない強力なエージェントを示唆しており、問題があります。この研究では、エジンバラ大学とAIアレン研究所の研究者が、顧客と売り手の2つの言語モデルを招待して購入の交渉を行うようにしています。 図1:交渉ゲームの設定。彼らは2つのLLMエージェントを招待して、値切りのゲームで売り手と買い手をプレイさせます。彼らの目標は、より高い値段で製品を販売または購入することです。彼らは第三のLLMであるAI批評家に、ラウンド後に向上させたいプレイヤーを指定してもらいます。その後、批判に基づいて交渉戦術を調整するようにプレイヤーに促します。これを数ラウンド繰り返すことで、モデルがどんどん上達するかどうかを確認します。 顧客は製品の価格を下げたいと思っていますが、売り手はより高い価格で販売するように求められています(図1)。彼らは第三の言語モデルに批評家の役割を担ってもらい、取引が成立した後にプレイヤーにコメントを提供させます。次に、批評家LLMからのAI入力を利用して、再度ゲームをプレイし、プレイヤーにアプローチを改善するように促します。彼らは交渉ゲームを選んだ理由は、明確に定義されたルールと、戦術的な交渉のための特定の数量化目標(より低い/高い契約価格)があるためです。ゲームは最初は単純に見えますが、モデルは次の能力を持っている必要があります。 交渉ゲームのテキストルールを明確に理解し、厳密に遵守すること。 批評家LLMによって提供されるテキストフィードバックに対応し、反復的に改善すること。 長期的にストラテジーとフィードバックを反映し、複数のラウンドで改善すること。 彼らの実験では、モデルget-3.5-turbo、get-4、およびClaude-v1.3のみが交渉ルールと戦略を理解し、AIの指示に適切に合致している必要があるという要件を満たしています。その結果、彼らが考慮したモデルすべてがこれらの能力を示さなかったことが示されています(図2)。初めに、彼らはボードゲームやテキストベースのロールプレイングゲームなど、より複雑なテキストゲームもテストしましたが、エージェントがルールを理解して遵守することがより困難であることが判明しました。彼らの方法はICL-AIF(AIフィードバックからのコンテキスト学習)として知られています。 図2:私たちのゲームで必要な能力に基づいて、モデルは複数の階層に分けられます(C2-交渉、C3-AIフィードバック、C4-継続的な改善)。私たちの研究は、gpt-4やclaude-v1.3などの堅牢で適切に合致したモデルだけが反復的なAI入力から利益を得て、常に発展することができることを明らかにしています。 彼らは、AI批評家のコメントと前回の対話履歴ラウンドをコンテキストに応じたデモンストレーションとして利用しています。これにより、プレイヤーの前回の実際の開発と批評家の変更アイデアが、次のラウンドの交渉のためのフューショットキューに変換されます。2つの理由から、彼らはコンテキストでの学習を使用しています:(1)強化学習を用いた大規模な言語モデルの微調整は、高額であるため、(2)コンテキストでの学習は、勾配降下に密接に関連していることが最近示されたため、モデルの微調整を行う場合には、彼らが引き出す結論がかなり一般的になることが期待されます(資源が許される場合)。 人間からのフィードバックによる強化学習(RLHF)の報酬は通常スカラーですが、ICL-AIFでは、フィードバックが自然言語で提供されます。これは、2つのアプローチの注目すべき違いです。各ラウンド後に人間の相互作用に依存する代わりに、よりスケーラブルでモデルの進歩に役立つAIのフィードバックを検討しています。 異なる責任を負うときにフィードバックを与えられた場合、モデルは異なる反応を示します。バイヤー役のモデルを改善することは、ベンダー役のモデルよりも難しい場合があります。過去の知識とオンライン反復的なAIフィードバックを利用して、get-4のような強力なエージェントが常に意味のある開発を続けることができるとしても、何かをより高く売る(またはより少ないお金で何かを購入する)ことは、全く取引が成立しないリスクがあります。彼らはまた、モデルがより簡潔であるがより綿密(そして最終的にはより成功する)交渉に従事できることを証明しています。全体的に、彼らは自分たちの仕事がAIフィードバックのゲーム環境での言語モデルの交渉を向上させる重要な一歩になると期待しています。コードはGitHubで利用可能です。

最初のLLMアプリを構築するために知っておく必要があるすべて

言語の進化は、私たち人類を今日まで非常に遠くまで導いてきましたそれによって、私たちは知識を効率的に共有し、現在私たちが知っている形で協力することができるようになりましたその結果、私たちのほとんどは...

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発展を表しています...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us