Learn more about Search Results MarkTechPost - Page 157

大規模言語モデル(LLM)に関する驚くべき8つの事実

近年、大規模言語モデル(LLM)の公開的な展開が広範な関心と活動を引き起こしています。新しい技術がもたらす切迫した懸念があるため、この焦点は正当化されていますが、いくつかの重要な要因を見落とすこともあります。 最近では、ChatGPTなどのLLMとそれらに基づく製品について、ジャーナリスト、政策立案者、学者から様々な分野で関心が高まっています。しかし、この技術が多くの点で驚くべきものであるため、簡潔な説明では重要な詳細が抜け落ちることがあります。 以下に、この技術に関する8つの予想外の側面があります。 LLMの機能は、意図的なイノベーションがなくても、投資が増えるにつれて予測可能に増加します。 LLMに対する研究や投資の増加は、スケーリング法則の結果と言えます。研究者が将来のモデルに与えるデータの量、モデルのサイズ(パラメーターで測定)、およびトレーニングに使用されるコンピューティングの量を増やすと、スケーリング法則により、それらのモデルがどの程度能力があるか(FLOPsで測定)を精確に予測できます。そのため、コストのかかる実験を行うことなく、特定の予算内で最適なモデルのサイズなど、重要な設計上の決定を行うことができます。 予測の精度は、現代の人工知能研究の文脈でも前例のないレベルです。R&Dチームが経済的に有益なシステムを開発することに成功することが期待される多数のモデルトレーニングイニシアチブを提供することができるため、投資を推進するための有力な手段でもあります。 最新のLLMのトレーニング方法はまだ公開されていませんが、最近の詳細な報告によると、これらのシステムの基本的なアーキテクチャは、ほとんど変わっていないとされています。 LLMにリソースが注がれると、予想外に重要な行動がしばしば現れます。 ほとんどの場合、モデルが未完了のテキストの続きを正確に予測できる能力は、プレトレーニングテストの損失によって測定され、スケーリング規則によってのみ予測できます。 この指標は平均的に多くの実用的な活動におけるモデルの有用性と相関しますが、モデルが特定の才能を発揮し始めたり、特定のタスクを実行できるようになるタイミングを予測することは容易ではありません。 具体的には、GPT-3のfew-shot learning(つまり、1回の相互作用で新しいタスクを少数の例から学習する能力)や、chain-of-thought reasoning(つまり、数学のテストで生徒が行うように、難しいタスクの理由を書き出し、改善されたパフォーマンスを示す能力)などは、現代のLLMの中で最初のものとして際立っています。 将来のLLMは必要な機能を開発する可能性があり、一般的に受け入れられている境界はほとんどありません。 ただし、LLMの進歩は、専門家の予想よりも予期せぬものであることがあります。 LLMは、外部世界の表現を獲得し利用することがよくあります。 ますます多くの証拠が、LLMが世界の内部表現を構築し、テキストの特定の言語形式に対して無関心な抽象レベルで推論することを可能にしていることを示しています。この現象の証拠は、最大かつ最新のモデルで最も強力であるため、システムがより大規模にスケールアップされるとより堅牢になることが予想されます。ただし、現在のLLMはこれをより効果的に行う必要があります。 広範な実験技術や理論モデルに基づく以下の調査結果が、この主張を支持しています。 モデルの内部色表現は、人間が色を知覚する方法に関する経験的な知見と非常に一致しています。 モデルは、著者の知識や信念を推測し、文書の将来の方向性を予測することができます。 物語はモデルに情報を提供し、それが物語に表現されているオブジェクトの特徴や位置の内部表現を変更します。 モデルは、奇妙なものを紙に描く方法を提供することがあります。 Winograd Schema…

ChatArenaをご紹介します:複数の大規模言語モデル(LLMs)間のコミュニケーションとコラボレーションを容易にするために設計されたPythonライブラリです

ChatArenaは、様々な巨大言語モデルを支援するために作成されたPythonパッケージです。ChatArenaにはすでにマルチエージェント会話シミュレーション環境が含まれています。参加者は周囲によって支援され、役割によって決定された相互作用を持つことができます。 ChatArenaにはすでにマルチエージェント会話シミュレーション環境が含まれています。キャラクターは様々な役割を担うことができ、雰囲気は協力を促します。LLMを使用することで、ゲームが終了するタイミングや、状態間の進行方法を決定することができます。 ChatArenaが互換性のあるLLMバックエンドには、GPT-3.5-turbo、GPT-4、Huggingface Pipeline(モデルハブから1900以上のモデルを持つ)、Cohereなどがあります。これにより、競合するLLM間のオープンなコミュニケーションと協力が促進され、ゲームの強度と多様性が高まります。 ChatArenaの便利なWebUIとCLIインターフェースのおかげで、誰でも簡単にChatArenaで異なるシナリオを試すことができます。直感的なインターフェースにより、新しいゲームを作成し、素早くプレイヤーのリクエストを実装し、簡単に異なるゲーム作成アプローチを試すことができます。 自分自身の言語ゲームを作成したい場合は、このガイドを参照してください。https://tinyurl.com/2t5us7fv 協調的AIの可能性と課題に対する考慮と対応が必要となっています。マルチエージェント言語ゲームに関して、ChatArenaは安全性とアライメントを理解するためのツールと第一歩です。 キー コンセプト プレイヤー – ゲームをプレイするには、「プレイヤー」である他のプレイヤーと相互作用できるエージェントが必要です。名前、インフラストラクチャ、機能はすべて、特定の参加者を識別するために貢献します。人間と大規模言語モデルの両方が対象です(LLM)。 バックエンド – プレイヤーが他のプレイヤーと通信する方法を定義するために、Python開発者は「バックエンド」と呼ばれるクラスを作成します。バックエンドは、人間またはLLM、またはその両方のハイブリッドである場合があります。バックエンドの名前、タイプ、およびパラメータは、その定義的特徴です。 環境 – Pythonでは、ドメインはゲームルールを定義するクラスです。名前、タイプ、およびパラメータがすべて協力して環境を指定します。 モデレーター – Pythonクラスとして、モデレーターはゲームのルールを指定します。その定義的特徴は、モデレーターの名前、クラス、および設定です。 Arena – Pythonでは、アリーナはゲームを定義するクラスです。特定のアリーナのパラメータには、名前、タイプ、およびサイズが含まれます。…

アーティストやクリエイターにとって最高のAIツール(2023年)

Otter.AI Otter.aiは、効率的なミーティングや会話の録音と記述を行うためのAIパワードプラットフォームです。自動音声認識を使用して、リアルタイムで暗号化され、簡単にアクセス可能で共有可能なノートを任意の議論から書き留めます。Otterは、Zoom、Microsoft Teams、Google Meetなどの一般的なプラットフォームで即座にミーティングに出席して録音することができます。私たちは、簡単に共有でき、重要なトピックを強調し、責任を割り当てる要約を作成します。Otterは、ビジネス、教育、個人の文脈で使用されているiOS、Android、Chromeの時間節約アプリです。精度、適応性(異なるスピーカーからの転写が可能)、時間節約の自動スライドキャプチャ機能に高い評価を受けています。 Runway  人工知能(A.I.)がRunwayを駆動する、コンテンツ作成プラットフォームで、人々がコンテンツを公開、編集、協力できるようにします。無制限の写真、テキストから画像の生成、消去と置換、テキストからカラーグレーディング、スーパースローモーション、A.I.トレーニングなど、AIが駆使された革新的な機能があります。グリーンスクリーン、インペインティング、モーショントラッキングは、ビデオ編集の機能の一部です。Runwayは、コンテンツ作成とビデオ編集の骨の折れる作業を効率化し、ユーザーが最終製品に完全に決定権を持つようにします。ソフトウェアには、安全に作曲、リソース、プロジェクトデータを共有するためのツールも含まれています。さらに、Runwayは、数分で変更できる専門的にデザインされたテンプレートの大規模なライブラリにアクセスできるようにしています。 DreamStudio  DreamStudioは、テキストに基づいて画像を生成するために人工知能を使用するコンピュータプログラムです。プラットフォームは、高品質の画像を作成する能力でよく知られているStable Diffusionと呼ばれる生成対抗ネットワーク(GAN)技術を使用しています。DreamStudioの多くの有用な機能は、アーティストやデザイナーにとって優れたリソースとなっています。テキストの説明から画像を作成する、インスピレーションとしての画像のインポート、スタイルバリアントの探索などが利用可能です。組み込みのアーカイブにより、ユーザーは以前の貢献を振り返ることができます。DreamStudioは、まだ開発初期の段階ではありますが、クリエイティブなタイプの間で人気が急速に高まっています。このプラットフォームは、画像作成プロセスを根本的に変える可能性があるため、注目されています。 Synthesia  Synthesiaは、A.I.ビデオを生成するためのプラットフォームで、A.I.ビデオを簡単かつ低コストで作成することができます。編集プログラムに触れることなく、誰でも本物の人物が主演のプロフェッショナルなビデオを作成できるブラウザ拡張機能です。 Synthesiaには、85種類以上の異なるタイプのA.I.アバター、120種類の異なる言語と方言、55種類の事前設計されたテンプレート、独自のA.I.アバターの作成が可能です。このプラットフォームには、カスタマーサポートや製品マーケティング映像から新しい従業員向けの内部トレーニング映像まで、さまざまな用途があります。 Synthesiaは、ビデオ制作コストを最大80%削減できる能力を持つため、様々な規模の30,000以上の企業が信頼しています。 Raw Shorts Raw Shortsは、テキストからビデオを作成するクリエイターや、Webやソーシャルメディア向けの説明映像、アニメーション、プロモーション映像を作成するためのテキスト-to-videoクリエーターと人工知能によるビデオエディターを提供することで、組織が作成を支援します。機械学習技術を使用して、脚本を読み取り、プロットポイントを抽出して適切なメディアを見つけます。任意のWebブラウザからアクセスできるプラットフォームには、テキストtoスピーチ、ダイナミックグラフィック、100万以上のメディアファイルなどの高度なツールが備わっています。A.I.があなたの映画の初期カットを生成し、ドラッグアンドドロップエディターで細かく調整して、望むように見せることができます。Capital One、American Airlines、Coca-Cola、IBM、Ocean Spray、Nielsen、Sony、Pfizerなどの有名企業が、Raw Shortsを信頼しています。 Murf AI Murf…

AI幻覚とは何ですか?AIチャットボットで何が間違っているのですか?幻覚を起こしている人工知能を見つける方法は?

AI幻覚は、新しい問題ではありません。人間が行ってきたことを以前はAIが行うようになり、過去数年間で人工知能(AI)はかなりの進歩を遂げてきました。しかし、幻覚はAIにとって大きな障害となっています。AIモデルが完全に虚偽の事実を生み出し、真実であるかのようにでっち上げの回答を返すことがあるため、開発者は注意を呼び掛けています。これは、アプリケーションの正確性、信頼性、および信頼性を危険にさらすため、幻覚はAIシステムを開発および展開する上で重大な障害となっています。そのため、AIに従事する人々は、この問題に対する解決策を積極的に探しています。このブログでは、AI幻覚の影響と効果、および誤った情報を受け入れたり拡散したりする危険性を減らすためにユーザーが取る可能性のある措置について探究します。 AI幻覚とは何ですか? 人工知能の幻覚という現象は、AIモデルが予期しなかった結果を生み出すときに発生します。一部のAIモデルは、実世界の入力(データ)とは関係のない出力を意図的に作るように教えられていることに注意してください。 幻覚とは、AIアルゴリズムとディープラーニングニューラルネットワークが、現実には存在しない、アルゴリズムがトレーニングされたデータに一致しない、またはその他の明確なパターンに従わない結果を生成する状況を表す言葉です。 AI幻覚は、偽のニュースレポートを作成したり、人物、歴史的な出来事、または科学的な事実に関する偽の主張や文書を作成したりするなど、多様な形をとります。たとえば、ChatGPTのようなAIプログラムは、存在しなかった歴史的人物の伝記や業績を作り出すことができます。ソーシャルメディアや即時通信の時代において、1つのツイートやFacebookの投稿が数秒で数百万人に届くため、誤った情報が急速かつ広範囲に拡散する可能性が特に問題となります。 なぜAI幻覚が起こるのですか? AIプログラムを誤認識させる入力データである敵対的な例は、AI幻覚を引き起こす可能性があります。たとえば、開発者は、画像、テキスト、その他のタイプのデータなどを使用してAIシステムをトレーニングします。データが変更または歪められた場合、アプリケーションは入力を異なるように解釈し、誤った結果を生成します。 ChatGPTなどの大規模な言語ベースのモデルでは、適切なトランスフォーマーのデコーディング(機械学習モデル)が不適切であるため、幻覚が発生する可能性があります。AIのトランスフォーマーは、エンコーダー-デコーダー(入力-出力)シーケンスを使用して、自己注意(文の中の単語間の意味的な関連性)を利用して、人間が書くかのようなテキストを作成する深層学習モデルです。 幻覚に関しては、言語モデルが十分で正確なデータとリソースでトレーニングされた場合、出力がでっち上げで誤っていることが予想されます。言語モデルは、不合理な隙間や曖昧なリンクのない物語やナレーションを生み出す可能性があります。 AI幻覚を見つける方法 コンピュータビジョンという人工知能のサブフィールドは、写真、描画、映画、実生活などの視覚的な入力から有用なデータを抽出する方法をコンピュータに教えることを目的としています。それは、コンピュータが人間の知覚に直接アクセスするのではなく、アルゴリズムやパターンに頼る必要があるためです。そのため、AIはポテトチップと落ち葉を区別できない場合があります。これは、AIが進化するにつれてますます困難になっています。 もし人工知能が日常生活に急速に取り込まれていなかったら、これら全てが馬鹿げているように見えるでしょう。自動運転車はすでにAIを採用しており、幻覚が発生すると死亡事故につながる可能性があります。もちろん、これは発生していませんが、現実の世界で運転中にアイテムを誤認識することは、いつ起こるか分からない災害です。 人気のあるAIアプリケーションを使用する際にAI幻覚を特定するいくつかの技術を以下に示します: 1.   大規模言語処理モデル ChatGPTなどの大規模処理モデルで生成された情報に文法的な誤りがある場合、幻覚の疑いがあります。同様に、テキスト生成コンテンツが意味をなさず、提供された文脈に合わない場合、または入力データに一致しない場合、幻覚の疑いがあります。 2.   コンピュータビジョン 人工知能には、コンピュータビジョン、機械学習、コンピュータサイエンスなどのサブフィールドがあり、これらの技術により、機械が人間の目と同様に画像を検出および解釈できます。これらの技術は、畳み込みニューラルネットワークにおける大量の視覚トレーニングデータに依存します。 トレーニングに使用される視覚データパターンが変化すると幻覚が起こることがあります。例えば、テニスボールの画像が教育されていない場合、コンピュータは間違ってテニスボールを緑色またはオレンジ色と認識する可能性があります。また、人の像の隣に立つ馬を本物の馬と誤って解釈する場合もあります。 出力結果を[通常の]人が観察することを比較することで、コンピュータビジョン幻覚を特定することができます。 3.…

スタンフォード大学の研究者がSequenceMatchを紹介:模倣学習損失を用いたLLMsのトレーニング

自己回帰モデルは、変数の現在の値が過去の値に大きく依存するという直感に基づいた統計モデルの一種です。つまり、モデルは、過去の値に回帰させることによって、変数の将来の値を予測します。自己回帰モデルの最もよく知られた例の1つは、特に前の単語が与えられた場合に、シーケンス内の次の単語を予測するという基盤に大きく依存するGPTモデルのクラスであり、特にGPT-3およびそのバリアントです。大規模なテキストコーパスでこの自己回帰的な方法でGPTをトレーニングすることにより、言語の統計的パターン、依存関係、および意味的関係を捕捉することを学び、それによって入力プロンプトに基づいて文脈に即したテキストを生成することができます。しかし、以前の研究実験では、より小さなモデルや、ランダム性や変動性が少なく調整されたモデル(すなわち、より低い生成温度)は、繰り返しや誤った出力を生成する傾向があることが示されています。さらに、これらのモデルは、自分自身の出力を入力として使用する場合があり、しばしば意図した分布からモデルをすぐに離れるような複合エラーを引き起こします。 これらの課題に対処するために、スタンフォード大学の研究者チームは初期研究を行い、MLEでトレーニングされた自己回帰モデルが評価中に整合的なシーケンスを生成することを妨げる2つの主な障害を特定しました。最初の問題は、モデルとデータ分布の間の不一致を評価するために使用される発散測度にあります。MLEでは、分布外(OOD)のシーケンスを考慮しないため、そのようなシーケンスにおけるモデルの動作を制御することはできません。これを解決するために、研究者たちは、実際のデータと自己回帰的に生成されたシーケンスの組み合わせ間のχ2発散度を最小化するというアイデアを考案しました。これはMLEに比べて優れた性能を発揮しています。2番目の課題は、モデルがOODトークンを生成して、データ分布に整合する適切な継続がない場合に発生します。これに対処するために、研究者たちは、生成プロセスで<backspace>アクションを導入し、モデルが前のトークンを消去して、誤りを修正できるようにしました。 これらの初期研究から学びを得て、スタンフォード大学の研究者たちは、SequenceMatchと呼ばれる新しい手法を提案しました。これにより、自己回帰モデルを異なる発散技術に対してトレーニングすることができ、<backspace>アクションを追加することができます。研究者たちは、シーケンス生成の問題を強化学習問題として再定式化しました。単純に言えば、与えられた状態(つまり、部分シーケンス)に対して、すべての可能なシーケンスの中から次の行動(この場合、次のトークンの生成)を選択することを要約します。したがって、強化学習のフレームワークの1つである非対抗的な模倣学習の最新の開発を活用することにより、トレーニングされたモデルの占有測定と実際のデータの分布の間の発散を減らすことができました。さらに、シーケンス生成における複合エラーをさらに最小限に抑えるために、MLEではなく<backspace>アクションを使用して、自己回帰モデルをトレーニングしました。この言語モデリングの完全教師あり損失技術であるSequenceMatchは、事前にトレーニングされたモデルを微調整する追加ステップとして使用できます。 研究者たちは、MAUVEスコアをメトリックとして使用して、SequenceMatchで微調整されたGPT-2ベースのモデルのパフォーマンスとMLEでトレーニングされたモデルのパフォーマンスを比較するためにいくつかの実験評価を実施しました。その結果、SequenceMatchで微調整されたモデルはデータセットに近いテキストを生成し、MLEでトレーニングされたモデルと比較して、より流暢でエラーの少ないテキストを生成することが判明しました。チームは、モデルが長いテキストを生成するためにより多くの計算リソースと時間が必要であるという制限を強調しました。今後の課題に関しては、研究者たちは、異なる発散方法が生成されたシーケンスの品質にどのように影響するかを研究することに注力しています。

PyRCAをご紹介します:AIOpsにおけるRoot Cause Analysis(RCA)のために設計されたオープンソースのPython Machine Learningライブラリです

人工知能(AI)および機械学習の分野は、その信じられないほどの能力とほとんどすべての産業での使用例のおかげで急速に進化しています。AIの人気と異なる分野への統合が増加するにつれて、それに関連する問題や制限事項もあります。ルート原因分析(RCA)は、問題のルート原因を発見して最良の解決策を見つけるためのメソッドです。それは、モデル内のインシデントや故障の根本的な原因を特定するのに役立ちます。ITオペレーション、通信などのドメイン、特にAIの分野では、モデルの複雑さが増すことで、生産システムの信頼性と効率性が低下するイベントが頻繁に発生します。RCAの助けを借りて、このメソッドは数多くの要因を探し、それらの原因関係を確立して、これらのインシデントの説明を提供しようとします。 最近、Salesforce AIの研究チームが、ITオペレーションの人工知能の分野におけるルート原因分析(RCA)のために設計されたオープンソースのPython機械学習ライブラリであるPyRCAを発表しました。PyRCAは、複雑な因果関係を独立して見つけることができる包括的なフレームワークを提供し、ライブラリはグラフの構築とスコアリングの操作の両方をサポートし、広く使用されるRCAモデルのさまざまな方法をサポートします。また、モデルの作成、テスト、展開を素早く行うための簡素化された方法を提供します。 このルート原因分析のためのPythonライブラリは、データの読み込み、因果グラフの発見、ルート原因の特定、RCA結果の可視化などを含むエンドツーエンドのフレームワークを提供します。グラフの作成とルート原因の評価に複数のモデルをサポートし、関連するさまざまなシステムコンポーネント間の因果関係を素早く特定するのに役立ちます。PyRCAには、対話的なRCAをより簡単にするGUIダッシュボードが付属しており、よりスムーズなユーザーエクスペリエンスを提供し、現実世界の状況により適合させることができます。GUIのポイントアンドクリックインターフェースは直感的なものになっており、ダッシュボードを使用すると、ユーザーはライブラリと対話し、自分たちのエキスパート知識をRCAプロセスに注入することができます。 PyRCAを使用することで、エンジニアや研究者は、結果を分析し、因果関係を視覚化し、GUIダッシュボードの支援を受けてRCAプロセスを進めることができます。チームが共有したPyRCAの主な特徴は以下の通りです。 PyRCAは、一般的なpandas.DataFrame形式を使用してメトリックデータを読み込み、さまざまなRCAモデルをベンチマークするための標準化された高度に適応可能なフレームワークを提供するように開発されています。 単一のインターフェースを介して、PyRCAは因果ネットワークを発見し、基礎となる原因を特定するためのさまざまなモデルにアクセスできます。GES、PC、ランダムウォーク、仮説検定などのモデルを完全にカスタマイズして、ユニークな要件に合わせることができます。 ライブラリで提供されるRCAモデルにユーザー提供のドメイン知識を組み込むことで、モデルを強化し、ノイズの多いメトリックデータを扱うときにより強靭になります。 RCAベースクラスから継承される単一のクラスを実装することで、開発者は迅速に新しいRCAモデルをPyRCAに追加できます。 PyRCAパッケージには、複数のモデルを比較し、RCA結果を確認し、コードを必要とせずにドメイン知識を迅速に含めることができる可視化ツールが提供されています。 チームは、PyRCAのアーキテクチャと主要な機能について詳しく技術レポートで説明しています。ライブラリの設計と主要な機能について概説しています。

プリンストン大学の研究者が、自然界の写実的な3Dシーンの手続き生成器であるInfinigenを紹介しました

プリンストン大学の研究チームは、「プロシージャルジェネレーションを使用した無限の写実的な世界」という最近の論文で、画期的なプロシージャルジェネレーターであるInfinigenを紹介しました。この研究は、多様性が限られ、現実世界のオブジェクトの複雑さを捉えることができない既存の合成データセットの制限に対処しています。 Infinigenは完全にプロシージャルなシステムであり、形状、テクスチャ、材料、およびシーンの構成を0から生成することができます。Infinigenの主要な特徴は、粗いおよび細かいジオメトリとテクスチャの詳細をプロシージャルに生成することによって高い写実性を生み出す能力にあります。Infinigenは分離されているため、生成されるすべてのジオメトリ情報は現実世界の参照に基づいており、合成されたシーンの真正性を高めています。 Infinigenのアーキテクチャは、プロシージャルジェネレーションの能力で知られている広く使用されているグラフィックスシステムであるBlenderに基づいて構築されています。研究チームは、自然物体やシーンのカバレッジを拡大するためのプロシージャルルールのライブラリを設計および実装しました。これらのルールはBlenderで利用可能な便利なプリミティブを活用しています。さらに、チームは、BlenderノードグラフをPythonコードに変換する自動変換ツールを含む、プロシージャルルールの作成を簡素化するユーティリティを開発しました。さらに、オブジェクトの深度、遮蔽境界、バウンディングボックス、光学フロー、表面法線、オブジェクトカテゴリ、およびインスタンスセグメンテーションなどの情報を提供するグラウンドトゥルーラベルで合成画像をレンダリングするユーティリティも開発されました。 Infinigenによって生成された合成データの品質を評価するために、チームは広範な実験を実施し、既存の合成データセットおよびジェネレーターと比較しました。これらの実験の結果、Infinigenは外部ソースに頼らずに写実的でオリジナルなアセットやシーンを生成する驚異的な能力を持っていることが示され、現実世界の複雑さをより正確に反映する多様で広範なトレーニングデータセットを生成する可能性を示しています。 Infinigenは、研究者がより広いコミュニティとの協力によって育成することを意図しているオープンソースプロジェクトです。彼らは、すべての現実世界の要素を包括するようにカバレッジを拡大し、その継続的な開発と成長を確保することにコミットしています。Infinigenを無料で提供することで、研究チームは協力を促進し、プロシージャルジェネレーションのさらなる進歩をインスパイアすることを望んでいます。 全体的に、Infinigenの導入は、コンピュータビジョンタスクのための合成データを生成するための重大な進歩を示しています。そのプロシージャルアプローチと写実的なシーンを生成する能力は、既存の合成データセットと現実世界のオブジェクトの複雑さのギャップを埋めることを約束し、さまざまなコンピュータビジョンアプリケーションでモデルをトレーニングするための貴重なツールとなります。

Allen Institute for AI の研究者が、自然言語の指示に基づいて複雑で構成的な視覚的タスクを解決するための神経記号アプローチである VISPROG を紹介します

汎用AIシステムを探すことで、熟練したエンドツーエンドトレーニングモデルの開発が促進され、多くのモデルがユーザーがモデルと対話するためのシンプルな自然言語インターフェースを提供することを目的としています。大規模な自己教示学習に続く監視多目的学習がこれらのシステムを開発するための最も一般的な方法でした。彼らは最終的に、これらのシステムが困難なジョブの無限長尾にスケールするように望んでいます。しかしながら、この戦略は各タスクについて慎重に選択されたデータセットが必要です。自然言語で述べられた困難なアクティビティを、エンドツーエンドトレーニングされた特殊なモデルや他のプログラムが処理できるように、より単純なフェーズに分解することにより、この作業では大言語モデルを使用して複雑なタスクの長い尾を処理する方法について研究しています。  「この画像からBig Bang Theoryの7人の主要キャラクターをタグ付けしてください」とコンピュータビジョンプログラムに伝えます。システムは、以下の手順を実行する前に、指示の目的を最初に理解する必要があります。顔を検出し、知識ベースからBig Bang Theoryの主要キャラクターのリストを取得し、キャラクターリストを使用して顔を分類し、認識されたキャラクターの名前と顔を画像にタグ付けします。いくつかのビジョンおよび言語システムが各タスクを実行できますが、自然言語タスクの実行はエンドツーエンドトレーニングシステムの範囲外です。  図1:組成ビジュアル推論のためのモジュラーで解釈可能なニューロシンボリックシステム-VISPROG。 VISPROGは、自然言語の指示の少数のインスタンスと必要な高レベルのプログラムが与えられたGPT-3内の文脈学習を使用して、新しい指示ごとにプログラムを作成し、プログラムを入力画像に実行して予測を取得します。さらに、VISPROGは中間出力を理解可能な視覚的な正当化に縮小します。知識検索、算術、論理操作のさまざまなモジュールを組み合わせる呼び出しを行うジョブを実行するためにVISPROGを使用します。また、画像の分析と操作にも使用します。 AI研究所の研究者は、VISPROGと呼ばれるプログラムを提案しました。このプログラムは、視覚情報(単一の画像または画像のコレクション)と自然言語命令を入力とし、一連の命令、すなわちビジュアルプログラムを作成し、これらの命令を実行して必要な結果を生成します。ビジュアルプログラムの各行は、システムが現在サポートしている多くのモジュールの1つを呼び出します。モジュールは、事前に構築された言語モデル、OpenCV画像処理サブルーチン、算術および論理演算子であることができます。また、事前に構築されたコンピュータビジョンモデルにすることもできます。コードの前の行を実行して生成された入力は、モジュールによって消費され、後で使用できる中間出力を生成します。 前述の例では、VISPROGが作成したビジュアルプログラムで、顔検出器、GPT-3を知識検索システムとして、CLIPをopen-vocabulary画像分類器として使用して必要な出力を提供します(図1を参照)。VISPROGによってビジョンアプリケーションのプログラムの生成と実行の両方が向上します。ニューラルモジュールネットワーク(NMN)は、専門の、微分可能なニューラルモジュールを組み合わせて、ビジュアル質問応答(VQA)問題のための質問固有のエンドツーエンドトレーニング可能なネットワークを作成します。これらの方法は、REINFORCEの弱い回答監視を使用してレイアウトジェネレータをトレーニングするか、脆弱な、事前に構築された意味解析器を使用してモジュールのレイアウトを決定的に生成します。  対照的に、VISPROGは、強力な言語モデル(GPT-3)と文脈に限定された例を使用して、事前のトレーニングなしに複雑なプログラムを構築できるようにします。訓練された最先端のモデル、非ニューラルPythonサブルーチン、およびNMNよりも高い抽象レベルを呼び出すことにより、VISPROGプログラムはNMNよりも抽象的です。これらの利点により、VISPROGは迅速で効果的で柔軟なニューロシンボリックシステムです。さらに、VISPROGは非常に解釈可能です。まず、VISPROGは、ユーザーが確認できる論理的な正確さを持つ理解しやすいプログラムを作成します。第二に、予測を管理可能な部分に分解することにより、VISPROGはユーザーが中間段階の結果を調べて欠陥を見つけ、必要に応じてロジックを修正できるようにします。  予測の視覚的な正当化として、テキスト、バウンディングボックス、セグメンテーションマスク、生成された画像などの中間ステップの出力が接続された完成したプログラムが、情報の流れを示すために役立ちます。彼らはVISPROGを4つの異なる活動に使用して、その汎用性を紹介しています。これらのタスクには、一般的なスキル(画像解析など)が必要ですが、専門的な思考力と視覚的な操作スキルも必要です。これらのタスクには以下が含まれます: 構成的な視覚的質問に答えること。 画像ペアに対するゼロショットNLVR。 NL指示からの事実知識オブジェクトラベリング。 言語による画像操作。 彼らは、モジュールまたは言語モデルのいずれもが変更されていないことを強調しています。自然言語のコマンドと適切なプログラムのいくつかの文脈の例があれば、VISPROGを任意のタスクに適応することができます。VISPROGは使いやすく、構成的なVQAテストで2.7ポイントの大幅な利益、NLVRのゼロショットの正確さが62.4%、そして知識タグ付けと画像編集のタスクでの質的・量的な結果が良好です。

これをデジタルパペットにしてください:GenMMは、単一の例を使用して動きを合成できるAIモデルです

コンピュータ生成のアニメーションは、毎日より現実的になっています。この進歩は、ビデオゲームで最もよく見ることができます。トゥームレイダーシリーズの最初のララ・クロフトと最新のララ・クロフトを考えてみてください。私たちは、230ポリゴンのパペットがおかしな動きをするのから、スクリーン上でスムーズに動くリアルなキャラクターに移行しました。 コンピュータアニメーションで自然で多様な動きを生成することは、長年にわたって難しい問題でした。モーションキャプチャシステムや手動アニメーション作成などの従来の方法は、高価で時間がかかり、スタイル、骨格構造、モデルタイプに多様性が欠けた動きのデータセットに結果をもたらします。アニメーション生成のこの手動で時間がかかる性質は、業界に自動化された解決策が必要とされています。 既存のデータ駆動型のモーション合成手法は、その効果が限定的です。しかし、近年、ディープラーニングがコンピュータアニメーションにおいて多様で現実的な動きを生成することができる強力な技術として登場しました。大規模かつ包括的なデータセットでトレーニングされた場合、多様で現実的な動きを合成できます。 ディープラーニング手法は、モーション合成において印象的な結果を示していますが、実用的な適用性が制限される欠点があります。まず、長時間のトレーニングが必要であり、アニメーションの製作パイプラインにおいて大きなボトルネックとなる可能性があります。さらに、ジッタリングや過度なスムージングなどの視覚的なアーティファクトが生じるため、合成された動きの品質に影響を与えます。最後に、複雑な骨格構造にスケーリングするのが困難であるため、複雑な動きが必要なシナリオで使用が制限されます。 私たちは、実用的なシナリオで適用できる信頼性のあるモーション合成手法が需要があると知っています。しかし、これらの問題を克服することは容易ではありません。では、解決策は何でしょうか?それでは、GenMMに出会う時間です。 GenMM は、モーション最近傍とモーションマッチングの古典的なアイデアに基づく代替アプローチです。キャラクターアニメーションに広く使用されるモーションマッチングを利用し、自然に見え、さまざまなローカルコンテキストに適応した高品質のアニメーションを生成します。 GenMMは、単一の入力を使用してモーションを生成できます。出典:http://weiyuli.xyz/GenMM/ GenMM は、単一または少数の例のシーケンスから多様な動きを抽出できる生成モデルです。これは、自然な動き空間全体の近似として広範なモーションキャプチャデータベースを活用することによって達成されます。 GenMM は、新しい生成コスト関数として双方向の類似性を組み込んでいます。この類似度測定により、合成されたモーションシーケンスには提供された例からのモーションパッチのみが含まれ、その逆も同様です。このアプローチは、モーションマッチングの品質を維持しながら、生成能力を可能にします。多様性をさらに高めるために、例と比較して分布の不一致が最小限に抑えられたモーションシーケンスを段階的に合成するマルチステージフレームワークを利用しています。また、画像合成におけるGANベースの手法の成功に着想を得て、パイプラインに対して無条件のノイズ入力が導入され、高度に多様な合成結果が実現されています。 GenMMの概要。出典:https://arxiv.org/pdf/2306.00378.pdf 多様なモーション生成能力に加え、GenMMは、モーションマッチング単独の能力を超えたさまざまなシナリオに拡張できる汎用的なフレームワークであることが証明されています。これには、モーション補完、キーフレームによる生成、無限ループ、モーション再構成が含まれ、生成モーションマッチングアプローチによって可能になる広範なアプリケーションの範囲を示しています。

スタンフォード大学、コーネル大学、オックスフォード大学の新しいAI研究は、単一の画像のわずかなインスタンスからオブジェクトの固有性を発見する生成モデルを紹介しています

バラの本質は、その独特の形状、質感、および材料組成で構成されています。これを使用して、さまざまな位置で、さまざまな形状のバラをさまざまな照明効果で作成できます。各バラが独自のピクセル値セットを持っていても、それらを同じクラスのメンバーとして識別できます。 Stanford、Oxford、およびCornell Techの研究者たちは、単一の写真からのデータを使用して、異なる視点と照明から新しい形状と画像を生成できるモデルを作成することを望んでいます。 この問題を解決するためには、3つの障壁があります: トレーニングデータセットには1枚の画像しかなく、数百のインスタンスしかありません。 これらの数少ない状況には、幅広い可能なピクセル値があります。これは、姿勢も照明条件も記録されていないか、または不明であるためです。 どのバラも同じではなく、形状、質感、材料の分布をキャプチャする必要があります。したがって、推論されるオブジェクト固有量は確定的ではなく、確率的です。これは、静的なオブジェクトやシーンに対する現在のマルチビュー再構成またはニューラルレンダリングアプローチと比較して、重要な変更です。 提案されたアプローチは、モデル作成にバイアスを誘導するためにオブジェクト固有量を出発点としています。これらのルールには2つの部分があります: 提示されるインスタンスはすべて、同じオブジェクト固有量またはジオメトリ、質感、材料の分布を持つ必要があります。 固有の特性は、レンダリングエンジンによって定義され、最終的には物理世界によって定義された特定の方法で相互に関連しています。 より具体的には、彼らのモデルは、単一の入力画像を取り、インスタンスマスクのコレクションとインスタンスの特定のポーズ分布を使用して、オブジェクトの3D形状、表面反射率、および艶の分布のニューラル表現を学習し、姿勢と照明の変動の影響を排除します。この物理的に基礎づけられた明示的な分離は、彼らのインスタンスの簡単な説明を支援します。モデルは、単一の画像によって提供される疎な観測に過剰適合することなく、オブジェクト固有量を取得することができます。 研究者たちが言及するように、その結果得られたモデルによって、多くの異なる用途が可能になります。たとえば、学習されたオブジェクト固有量からランダムにサンプリングすることで、異なるアイデンティティを持つ新しいインスタンスを生成できます。外部要素を調整して、新しいカメラ角度や照明セットアップで合成インスタンスを再レンダリングすることができます。 チームは、モデルの改良された形状再構成と生成性能、革新的なビュー合成、およびリライト性能を示すために、徹底的なテストを実施しました。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us