Search Results A

「生成型AIアプリケーションのためのプレイブック」

この記事では、Generative AIアプリケーションを実装する際の主要な考慮事項と、ビジョンを行動に変えるために人間の関与が果たす重要な役割について議論しています

スタンフォードの研究者が「予測音楽トランスフォーマー」を紹介：音楽作曲における創造的な制御を向上させる画期的なAIツール

美しい画像や感動的なエッセイを生成するジェネレーティブAIは、多くの場合、ユーザーにはほとんど制御が残されません。一部のツールは音楽を生成しますが、作曲家が望むよりも精密な制御が必要です。あなたはプロセスをガイドすることはできません。あなたが手に入るものを受け入れる必要があります。予測音楽変換器は、象徴的な音楽として知られるユニークな形式で作曲家により大きな所有権を与える新たなツールです。スタンフォードの学者によって開発されたこのツールは、作曲家が創造的な作曲プロセスで主導権を握ることを可能にします。彼らは曲の一部を書き、その後モデルに残りを埋めるよう依頼したり、伴奏を提案したり、代替バリエーションを提供したりすることができます。これは他のツールとは異なります。鍵はそのアプローチにあります-それは作曲家の助手です。単にランダムな作曲を吐き出すのではなく、それは作曲のルールを理解しています。高度な音楽のトレーニングを受けていないユーザーでも、システムと一緒に遊び、自分の好みに基づいてガイドすることができます。この音楽変換器は、ジェネレーティブプレトレーニングトランスフォーマーアーキテクチャ（GPT）上に構築されています。これはChatGPTなどの言語モデルを駆動する技術と同じものです。それがユニークなのは、オーディオそのものではなく象徴的な音楽に焦点を当てていることです。モデルは予想される音楽要素を予測するために訓練されており、より制御可能で対話型の出力を提供することができます。このツールは利用可能ですが、音楽制作ソフトウェアにシームレスに統合する必要があります。ただし、開発者は現在、これを実現するために積極的に取り組んでいます。目標は、作曲家やミュージシャンに、彼らの生活をより簡単で楽しいものにするツールを提供することです。音楽理論の専門家でなくても、より多くの人々が音楽作曲に関与する可能性を広げることです。まとめとして、予測音楽変換器は、AIが音楽を生成し、テクノロジーと協力して、ユーザーが音楽を好みのように形作り、作り上げることを可能にしています。継続的な改良と統合の取り組みにより、このツールは音楽家やプロデューサーにとって必須のものとなり、音楽作曲のアプローチ方法を革新するかもしれません。投稿：スタンフォードの研究者が予測音楽変換器を紹介：音楽作曲におけるクリエイティブな制御を向上させる画期的なAIツール – MarkTechPost。

「OpenAIやLM Studioに頼らずにAutoGenを使用する方法」

イントロダクション OpenAIやLMスタジオに頼らずに、あなた自身のAIチームを作成する準備はできていますか？もはや銀行を荒らすことも、アプリをダウンロードすることもありません。llama-cpp-pythonの設定から、autogenフレームワークのヘルプを借りてローカルLLMのパワーを探求するまで。OpenAI APIに依存せず、Autogenのフルポテンシャルを引き出す準備をしましょう。学習目標詳細に入る前に、この記事の主な学習目標を概説しましょう: さまざまなAIライブラリとツールを評価・比較する方法を学ぶ。 llama-cpp-pythonがOpenAI APIの代替として提供できる方法を探索する。 2つの現実世界の使用例で獲得した知識を適用する: アルゴリズムメンターチームの構築と金融チャート生成の自動化。 AutoGenの改善されたユーザーエクスペリエンスを探索し、統合されたIPythonを通じて即時のコード実行結果を得る。この記事はData Science Blogathonの一環として公開されました。ツール紹介: llama-cpp-python、AutoGen、およびローカルLLM しかし、このテックツールキットの特別な点は何でしょうか？ llama-cpp-pythonは、LLMAのような有名なモデルを含めて、ローカルでLLMを実行するためのゲートウェイです。コンピュータ上にAIのスーパースターがいるようなもので、さまざまなBLASバックエンドのサポートにより、速度は驚異的です！ AutoGen AutoGenは、基盤モデルを使用するための高レベルな抽象化として機能する統一されたマルチエージェント会話フレームワークです。LLM、ツール、および人間の参加者を統合し、自動化されたチャットを通じて能力のある、カスタマイズ可能で会話形式のエージェントを結合します。エージェント同士が自律的にコミュニケーションして共同作業を行うことができ、複雑なタスクを効率的に進めることやワークフローを自動化することが可能です。もしAutoGenの機能をより深く探求し、戦略的なAIチームビルディングをどのように支援するかを調べることに興味があるなら、当社の専用ブログ「Strategic AI Team Building…

スラヴァ・マデルスカ、ヘルステック起業家—ヘルスケアAI、痛み管理テクノロジー、予防医療、背中の痛みの革新、そしてヘルスケアのトレンド

このインタビューでは、HUGUPとSemiflex Dome Systemの創設者兼CEOであるスラワ・マデルスカの洞察を探っていますデジタルエージェンシーからメドテック起業への転身という経験を持つマデルスカは、医療におけるテクノロジーの統合について繊細な視点を持ちますHUGUPはエビデンスに基づいた腰痛管理ソリューションに焦点を当てており、一方でセミフレックスシステムは革新的な外科医療機器として使用されています...スラワ・マデルスカ、ヘルステック起業家 - ヘルスケアAI、疼痛管理テクノロジー、予防医療、腰痛イノベーション、そしてヘルスケアのトレンドについて詳しく見る»

「GPT-4が怠け者です：OpenAIが認める」

OpenAIは、GPT-4が予期せぬ動作を示し、一部のユーザーから「怠惰」と評される中で懸念が浮上しています。最新のGPT-4に関する課題について、OpenAIは最近の承認でフィードバックに対処し、明らかにしています。ユーザーフィードバックがGPT-4の遅延を明らかにするユーザーはピークタイム中にGPT-4から遅延した応答や異常な動作を報告しています。クレームの範囲は、遅い反応や形式上の対応から、特にコード関連のクエリを処理する際の明確な拒否までさまざまです。 Independentによると、コードの断片をリクエストしたユーザーは、AIから不完全な応答を得て、残りの部分を自分で埋めるよう提案されます。 OpenAIの認識と説明 OpenAIは、ユーザーのクレームを認識するためにTwitterを利用しました。同社はGPT-4への最後のアップデートが11月11日に行われ、パフォーマンスの低下が観察されたことは意図せぬものであると明確にしました。ツイートを通じて伝えられた認識は、モデルの振る舞いの予測できない性質とOpenAIが問題解決に取り組む姿勢を強調しています。モデルトレーニングの複雑さに関する洞察 OpenAIはより詳細なツイートスレッドで、チャットモデルのトレーニングの複雑さについて詳述しています。同社は、プロセスの非線形性を強調し、さまざまなトレーニングランでの個性、執筆スタイル、拒否の振る舞い、評価パフォーマンス、さらには政治的なバイアスの発生の可能性に注目しています。 OpenAIはユーザーフィードバックに感謝し、動的な評価上の課題に対処する上での重要な役割を認識しています。 GPT-4の振る舞いを改善するための継続的な取り組み問題を認識しながらも、OpenAIはまだ完全な解決策を実施していません。最近のアップデートの欠如は疑問を呼び起こしますが、OpenAIは具体的な理由については沈黙を守り、公式の情報のみを共有する選択をしています。憶測や噂は避けられ、透明なコミュニケーションに焦点を当て、ユーザーの懸念を認識しています。私たちの意見 GPT-4の最近の「怠惰さ」はアップデートの欠如による意図しない結果ですが、OpenAIが問題解決に取り組む姿勢は明白です。 OpenAIはAIモデルのトレーニングに関連する課題を認識し、会社が行う継続的なテストと評価プロセスを強調しています。 OpenAIはユーザーフィードバックを貴重なものと認識し、AIモデルの振る舞いの動的な領域を航行するための洞察を提供しています。

メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化

強化学習（RL）は、エージェントが適切なアクションを取り、報酬を最大化するために学習する機械学習のサブフィールドです。強化学習では、モデルは経験から学習し、最適なアクションを特定します。近年、RLは大幅に進化し、自律走行車からロボティクス、さらにはゲーミングまで、幅広い分野で応用されています。また、RLシステムの容易な開発を支援するライブラリの開発も大きく進歩しています。そのようなライブラリの例にはRLLib、Stable-Baselines 3などがあります。成功したRLエージェントを作成するには、遅延報酬やその他の影響などの問題に対処する必要があります。また、利用と探索のバランスを見つけたり、安全性やリスク要件などの追加パラメータを考慮することで、破滅的な状況を回避する必要があります。現在のRLライブラリは非常に強力ですが、これらの問題を十分に解決していません。そのため、Metaの研究者が「Pearl」というライブラリをリリースしました。このライブラリは上記の問題を考慮し、ユーザーが実世界のアプリケーションに対して多目的なRLエージェントを開発できるようにします。 PearlはPyTorchに基づいて構築されており、GPUと分散トレーニングとの互換性があります。また、テストと評価のためのさまざまな機能も提供しています。Pearlの主なポリシーラーニングアルゴリズムはPearlAgentと呼ばれ、知識の探索、リスク感度、安全制約などの特徴があり、オフラインとオンラインの学習、安全学習、履歴の要約、再生バッファなどのコンポーネントがあります。効果的なRLエージェントは、オフライン学習アルゴリズムを使用してポリシーを学習し、評価できるようにする必要があります。さらに、オフラインとオンラインのトレーニングには、データ収集とポリシー学習のためのセキュリティ対策が必要です。それに加えて、エージェントはさまざまなモデルを使用して状態表現を学習し、履歴を状態表現に要約して望ましくないアクションをフィルタリングする能力も持っている必要があります。最後に、エージェントは再生バッファを使用してデータを効率的に再利用し、学習効率を向上させる必要もあります。Metaの研究者は、これらのすべての機能をPearl（特にPearlAgent）の設計に取り入れ、RLエージェントの設計において多目的かつ効果的なライブラリとしての潜在能力を備えています。研究者は、モジュール性、知識の探索、安全性などの要素を評価しながらPearlを既存のRLライブラリと比較しました。Pearlは、これらの機能をすべて実装し、必要な機能を組み込んでいない競合他社とは区別されました。たとえば、RLLibはオフラインRL、履歴の要約、再生バッファをサポートしていますが、モジュール性と知識の探索をサポートしていません。同様に、SB3はモジュール性、安全な意思決定、およびコンテキストバンディットを組み込んでいません。これが研究者によって注目される他のライブラリとの違いです。 Pearlはまた、リコメンダーシステム、オークション入札システム、クリエイティブセレクションなど、さまざまな実世界のアプリケーションをサポートする予定です。これにより、異なるドメインでの複雑な問題を解決するための有望なツールとなります。RLは近年、大幅な進歩を遂げていますが、実世界の問題を解決するための実装は依然として困難です。しかし、Pearlは知識の探索や安全性、履歴の要約などの独自の特徴を持つことで、RLの広範な統合において貴重なツールとしての潜在能力を持っています。

「オーディオジェネレーションのための新しいメタAIの基礎研究モデル、オーディオボックスに会ってください」

“`html メディアやエンターテイメントの分野において、オーディオは重要な役割を果たします。映画やポッドキャスト、オーディオブック、ビデオゲームなど、すべてに影響を与えます。しかし、高品質のオーディオの制作には、豊富な音源ライブラリと深いドメインの専門知識が必要です。そのため、メタリサーチャーは、音声入力と自然言語テキストのプロンプトの組み合わせを使用して音声や効果音を生成できる新しいAIモデルであるAudioboxを開発しました。これにより、さまざまなユースケースにカスタムオーディオを簡単に作成することが可能です。スピーチ、効果音、音景の統一された生成と編集機能を持っています。研究者たちは、さまざまなオーディオ要素の生成と編集の能力を結びつけた大きな進歩であると強調しています。音声入力と自然言語テキストのプロンプトを組み合わせて音声や効果音を生成できるため、さまざまなユースケースにカスタムオーディオを簡単に作成できます。 Audioboxは、Voiceboxの後継として作られ、先行モデルの能力を高めるだけでなく、多様なオーディオ要素の生成と編集を強化する統一プラットフォームを導入しています。 Audioboxの利点は、音声入力と自然言語のテキストプロンプトを組み合わせて音声や効果音を生成できることです。この方法により、さまざまなユースケースに独自のオーディオを作成するプロセスが容易になります。たとえば、ユーザーはAudioboxにテキストで望む音やスピーチのタイプを説明することができ、Audioboxが自動的に対応するオーディオを作成します。また、ユーザーは自然言語のプロンプトを使用して希望するスピーチのスタイルを説明することもできます。Audioboxの適応性の利点の一つです。さらに、テキストプロンプトを使用してサウンド設定をカスタマイズすることもできます。たとえば、流れる川やさえずる鳥のいる静かな音景を作成するには、詳細なテキストプロンプトを入力するだけで、Audioboxがそのビジョンを実現します。 Audioboxの助けを借りると、ユーザーは声を異なる環境のものに聞こえるように変えることができます。テキストスタイルのプロンプトを音声入力に組み合わせることで、ユーザーは好みに合わせた合成音声を作成することができます。研究者たちは、音質や関連性の点でAudioboxをAudioLDM2、VoiceLDM、そしてTANGOなどさまざまなモデルでテストし、Audioboxがそれらを上回ることを見つけました。さまざまなスピーチスタイルにおいて、スタイルの類似性で30％以上もVoiceboxを超える結果となりました。研究者たちは、Audioboxがオーディオの作成を手軽にし、誰でもオーディオコンテンツの作成者になることを可能にすると述べています。研究者たちは、一種類のオーディオしか生成できない特殊なオーディオ生成モデルではなく、どんなオーディオでも生成できる汎用的なオーディオ生成モデルを構築することを目指しています。まとめると、Audioboxはオーディオ技術の進化における重要なモデルです。直感的なインターフェースと強力な機能により、オーディオの制作方法を再定義し、個々の音響的なビジョンを形作り、共有するための新しい可能性を開拓します。この記事の元の投稿は「Audioboxをご紹介：Meta AIによるオーディオ生成の基礎研究モデル」です。記事の著者はMarkTechPostです。 “`

オープンAIがインドに進出：現地チームの設立

名声高い人工知能（AI）企業OpenAIは、インドで力強い存在を確立するために重要な進展を遂げています。TechCrunchによれば、元Twitter Indiaの責任者であるリシ・ジャイトリーがOpenAIのシニアアドバイザーとなり、インドの政策や規制の入り組んだ環境を航海する重要な役割を果たしています。この動きは、OpenAIのインド政府との関係構築および現地チームの設立を目指す幅広い戦略の一部です。 OpenAIのインド進出を支援する情報筋によれば、リシ・ジャイトリーは、インドでのGoogleの公私連携を含む豊富な経験を持ち、後にTimes BridgeのCEOとして、インドでの重要なコネクション構築に積極的にアドバイスをしています。「ジェイトリーがOpenAIで正式に雇用されているのかは明確ではありませんが、CEOのサム・アルトマンが6月にニューデリーを訪れた後に関与した」とのことです。 OpenAIのインドにおける現状 OpenAIは、先月に商標の承認を得たばかりですが、インドに正式な存在がありません。サム・アルトマンが世界ツアー中にインドのナレンドラ・モディ首相との会談を行ったことは、潜在的な発表をほのめかしていましたが、それまでには実現していません。インドはその広大な人口と世界第二のインターネット市場という特徴から注目されています。 OpenAIとインドのAIの風景サム・アルトマンと理事会の議長であるグレッグ・ブロックマンが一時的に退任し、改革された理事会で復帰したOpenAIの最近の指導者交代は話題を呼んでいます。同社のインドにおける関心は、資金制約による同国のAI開発の遅れの議論と重なっています。批評家は、インドのAIスタートアップが40億ドルを調達したにもかかわらず、グローバルな同業他社と比較してまだ初期段階にあると主張しています。規制の未開領域と戦略規制上の課題が最後の障壁の一つであることから、OpenAIはインドの進化する規制環境を理解し、それに合わせて戦略を立てています。OpenAIの投資家は、同社がインドを重要な市場と見なしていることを示していますが、現在のリーダーシップが規制を航海することへの姿勢は、緻密なアプローチを示唆しています。インド政府の国際的なAI規制に対する傾向は、複雑さを増しています。私たちの意見リシ・ジャイトリーの専門知識によって支えられたOpenAIのインド進出は、同社のグローバル拡大における重要な一歩です。インドの急成長するAI市場は、課題と機会を併せ持っています。同社が規制の複雑さを航海する一方、インドにおけるAIの発展の方向性を理解することへの取り組みは、綿密かつ戦略的なアプローチを強調しています。OpenAIの主要な投資家で戦略的パートナーであるマイクロソフトがインドに強力な立場を持っている一方で、OpenAIのユニークなAIへの焦点は、個別の戦略を必要としています。同社がインドでの機会を探り、関係を築いていく中で、観察者はこの戦略的な動きがインドにおけるAIの発展の未来をどのように形作るかを見守っています。

ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました

“` 自然言語処理（NLP）は、GPTシリーズなどの大規模言語モデル（LLMs）の導入により、さまざまな言語的なタスクに対して新たなパフォーマンス基準を確立する変革期に入りました。自己回帰前処理は、モデルにシーケンス内で最も可能性の高いトークンを予測することを教えることで、この驚異的な達成に影響を与える主要な要素の1つです。この基本的な技術により、モデルは構文と意味の複雑な相互作用を吸収し、人間のように言語を理解する卓越した能力を持つことができます。自己回帰前処理は、NLPに加えてコンピュータビジョンにも大きく貢献しています。コンピュータビジョンにおいて、自己回帰前処理は最初は成功しましたが、後続の開発によりBERTスタイルの前処理に有利な鮮明なパラダイム変化が示されました。この移行は特に注目に値しますが、最初のiGPTの結果からは、自己回帰およびBERTスタイルの前処理がさまざまなタスクで同様のパフォーマンスを発揮することが示されました。ただし、視覚表現学習における効果の高さから、その後の研究ではBERTスタイルの前処理が優先されるようになりました。例えば、MAEはランダムにマスクされたピクセルの値を予測するだけの視覚表現学習に対してスケーラブルなアプローチを示しています。本研究では、ジョンズ・ホプキンス大学とUCサンタクルーズの研究チームがiGPTを再検討し、自己回帰前処理が広範に適用された場合に高度な視覚学習者を生み出すことができるかどうかを問いました。その過程には2つの重要な変更が組み込まれています。まず、研究チームは画像が自然にノイズや冗長性を持つため、BEiTを使用して写真を意味的なトークンにトークン化します。この変更により、自己回帰予測の焦点がピクセルから意味的なトークンにシフトし、さまざまな画像領域の相互作用のより洗練された理解が可能になります。さらに、研究チームは生成デコーダに識別デコーダを追加し、次の意味的なトークンを自己回帰的に予測します。視覚領域内の意味的なトークンの予測は、この追加のコンポーネントの責任です。さらに興味深いことに、CLIPのように識別的にトレーニングされたモデルは、この前処理経路に最適な意味的な視覚トークンを提供します。研究チームはこの改良された方法をD-iGPTと呼んでいます。彼らの提案されたD-iGPTの効率性は、さまざまなデータセットとタスクで行われた包括的なテストによって確認されています。関連する唯一のデータセットとしてImageNet-1Kを使用し、彼らのベースサイズのモデルは、従来の最先端モデルを0.6%上回る86.2％のトップ-1分類精度を達成しました。さらに、彼らの大規模モデルは、3600万の公開データセットで89.5％のトップ-1分類精度を達成します。D-iGPTは、パブリックデータセットで以前の最先端トレーニングと同等のパフォーマンスを発揮しますが、トレーニングデータとモデルのサイズがはるかに少なくなります。同じ前処理とファインチューニングのデータセットを使用して、研究チームはD-iGPTをセマンティックセグメンテーションにも適用し、MAEと比較して優れたパフォーマンスを発揮することを明らかにしました。 “`

スタンフォード大学とFAIR Metaの研究者が、CHOIS（言語によってガイドされたリアルな3D人間対物体の相互作用を合成するための画期的なAI方法）を発表しました

CHOIS（Choice of Human-Object Interactive Scenario）によって、スタンフォード大学とFAIRメタに所属する研究者は、3Dシーン内のオブジェクトと人間の同期した動きの生成の問題に取り組みました。このシステムは、疎なオブジェクトウェイポイント、物事と人間の最初の状態、テキストの説明に基づいて操作されます。指定された3D環境内で、両方のエンティティの現実的で制御可能な動きを生成することで、人間とオブジェクトの相互作用を制御します。 AMASSなどの大規模で高品質なモーションキャプチャデータセットを活用することで、アクション条件付きの合成やテキスト条件付きの合成を含む、生成的な人間の動きのモデリングへの関心が高まっています。以前の研究では、テキストから多様な人間の動きを生成するためにVAE形式が使用されていましたが、CHOISは人間とオブジェクトの相互作用に重点を置いています。手の動きの合成に焦点を当てる既存の手法とは異なり、CHOISはオブジェクトの掴む前の全身の動きを考慮し、人間の動きに基づいてオブジェクトの動きを予測することで、多様な3Dシーンにおける相互作用の包括的な解決策を提供します。 CHOISは、コンピュータグラフィックス、エンボディドAI、ロボット工学にとって重要な3D環境での現実的な人間の行動の合成のための重要なニーズに対応しています。CHOISは、言語の説明、初期状態、疎なオブジェクトウェイポイントに基づいて同期した人間とオブジェクトの動きを生成し、現実的な動きの生成、環境の混雑への対応、言語の説明からの相互作用の合成といった課題に取り組んでおり、多様な3Dシーンにおける制御可能な人間-オブジェクトの相互作用の包括的なシステムを提供しています。このモデルは、言語の説明、オブジェクトのジオメトリ、初期状態に基づいて同期したオブジェクトと人間の動きを生成するために、条件付きの拡散手法を使用しています。サンプリングプロセス中に制約を組み込むことで、現実的な人間とオブジェクトの接触を保証しています。トレーニングフェーズでは、接触制約を明示的に強制することなく、オブジェクトの変換を予測するための損失関数を使用してモデルを誘導します。 CHOISシステムは、ベースラインと抜粋に対して厳密な評価が行われており、条件の一致、接触の正確性、手とオブジェクトの貫通の削減、足の浮遊などのメトリクスで優れたパフォーマンスを示しています。FullBodyManipulationデータセットでは、オブジェクトのジオメトリ損失がモデルの能力を向上させています。3D-FUTUREデータセットでは、CHOISはベースラインを上回る性能を示し、新しいオブジェクトへの汎化能力を示しています。人間の主観的研究では、入力テキストとのより良い整合性と、ベースラインと比較して優れた相互作用品質を強調しています。位置と姿勢の誤差などの定量的なメトリクスは、生成された結果の地面の真実の動きからの乖離を測定します。結論として、CHOISは言語の説明と疎なオブジェクトウェイポイントに基づいて現実的な人間-オブジェクトの相互作用を生成するシステムです。手順では、トレーニング中にオブジェクトのジオメトリ損失を考慮し、サンプリング中に効果的なガイダンス用語を使用して結果のリアリティを向上させています。CHOISで学習された相互作用モジュールは、言語と3Dシーンからのオブジェクトウェイポイントに基づいて長期的な相互作用を生成するパイプラインに統合することができます。CHOISは、提供された言語の説明と一致する現実的な人間-オブジェクトの相互作用の生成において、大幅な改善を遂げています。今後の研究では、入力ウェイポイントとのオブジェクト動きの一致度を向上させるために、オブジェクトのジオメトリ損失などの追加の監視を統合することができます。接触制約を強制するための高度なガイダンス用語の検討は、より現実的な結果につながる可能性があります。多様なデータセットとシナリオへの評価の拡張により、CHOISの一般化能力をテストすることができます。さらなる人間の主観的な研究は、生成された相互作用についてより深い洞察を提供するでしょう。3Dシーンからのオブジェクトウェイポイントを基に、学習された相互作用モジュールを適用して長期的な相互作用を生成することも、CHOISの適用範囲を拡大することになります。

Learn more about Search Results A - Page 23