Learn more about Search Results で見る - Page 14
- You may be interested
- 「ここにあなたが見逃しているものがあり...
- 「Amazon TextractとAmazon OpenSearchを...
- 「ハグフェース上のトップ10大きな言語モ...
- 「個人AIの世界におけるプライバシー、信...
- 「Copy AI レビュー:最高のAIライティン...
- 「AIパワード広告でソーシャルをより魅力...
- Hugging FaceとGraphcoreがIPU最適化され...
- You take care of a rich beauty and fash...
- コース開始コミュニティイベント
- ソニーの研究者がBigVSANを提案:GANベー...
- アラゴンAIレビュー:2023年における究極...
- 「ChatGPTを再び視覚させる:このAIアプロ...
- 「当社の独占的なマークダウンチートシー...
- ChatGPT Vislaプラグインを使用してビデオ...
- DORSalとは 3Dシーンの生成とオブジェクト...
「ゲート付き再帰型ユニット(GRU)の詳細な解説:RNNの数学的背後理論の理解」
この記事では、ゲート付き再帰ユニット(GRU)の動作について説明しますGRUは、長期短期記憶(LSTM)の事前知識があれば簡単に理解できるため、強くおすすめします...
ロボット工学の新たなる夜明け:タッチベースのオブジェクト回転
画期的な進歩の中で、カリフォルニア大学サンディエゴ校(UCSD)のエンジニアチームが、視覚的な入力を必要とせずに触覚だけで物体を回転させることができるロボットハンドを設計しましたこの革新的なアプローチは、人間が物体を見る必要がなくとも物を取り扱う容易な方法に触発されましたタッチセンシティブアプローチ[...]
DeepMindの研究者たちは、正確な数学的定義を用いて、連続した強化学習を再定義しました
深層強化学習(RL)の最近の進展により、人工知能(AI)エージェントがさまざまな印象的なタスクで超人的なパフォーマンスを発揮しています。これらの結果を達成するための現在のアプローチは、主に興味のある狭いタスクをマスターする方法を学習するエージェントを開発することに従っています。未訓練のエージェントはこれらのタスクを頻繁に実行する必要があり、単純なRLモデルでも新しいバリエーションに一般化する保証はありません。それに対して、人間は生涯を通じて知識を獲得し、新しいシナリオに適応するために一般化します。これを連続的な強化学習(CRL)と呼びます。 RLにおける学習の視点は、エージェントがマルコフ環境と対話して最適な行動を効率的に特定することです。最適な行動の探索は学習の一点で停止します。たとえば、よく定義されたゲームをプレイしていると想像してください。ゲームをマスターしたら、タスクは完了し、新しいゲームシナリオについて学習することはありません。学習を解決策の発見ではなく、終わりのない適応として見る必要があります。 連続的な強化学習(CRL)はそのような研究を含みます。これは監督された終わりのない継続的な学習です。DeepMindの研究者は、エージェントを2つのステップで明示的に理解します。1つは、すべてのエージェントを行動の集合上で暗黙的に検索していると理解し、もう1つはすべてのエージェントが検索を続けるか、最終的に行動の選択肢で停止するという考え方です。研究者は、エージェントに関連する2つの生成子を生成到達演算子として定義します。この形式主義を使用して、彼らはCRLをすべてのエージェントが検索を停止しないRL問題として定義します。 ニューラルネットワークの構築には、要素の重みの任意の割り当てと、基盤のアクティブな要素の更新のための学習メカニズムが必要です。研究者は、CRLではネットワークのパラメータ数は構築できるものに制約され、学習メカニズムは基盤の無制約な検索方法ではなく確率的勾配降下法と考えることができます。ここで、基盤は任意ではありません。 研究者は、振る舞いの表現として機能する関数のクラスを選択し、経験に応じて望ましい方法で反応するための特定の学習ルールを利用します。関数のクラスの選択は、利用可能なリソースやメモリに依存します。確率的勾配降下法は、現在の基盤の選択肢を更新してパフォーマンスを向上させます。基盤の選択は任意ではありませんが、これにはエージェントの設計および環境によって課せられる制約も含まれます。 研究者は、学習ルールのさらなる研究が新しい学習アルゴリズムの設計を直接変更することができると主張しています。継続的な学習ルールの特徴付けにより、継続的な学習エージェントの収穫が保証され、基本的な継続的な学習エージェントの設計をガイドするためにさらに利用できます。彼らはまた、可塑性損失、インコンテキスト学習、および壊滅的な忘却などのさらなる手法の調査を意図しています。
このツールは、AIによる画像の操作からあなたの写真を保護することができます
「PhotoGuard」は、MITの研究者によって作成されたもので、我々には感知できない方法で写真を変更することで、AIシステムがそれらをいじるのを防止します
「DALL·E2に対する哲学的かつ芸術的な視点」
このブログポストのインタビューに応じていただいたヤロン・センデロヴィッツ教授とリアブ・アイザック・ショーペンに感謝しますDALL·E2はしばらく前にリリースされましたが、書くのが面白いと思いました...
「AIが異星生命を探す訓練を受けています」
「氷の海の月から、一方が永遠の夜である惑星まで、ゴールディロックスゾーンには数え切れないほどの奇妙な世界が存在します - 理論上、宇宙人が進化する可能性がある領域です宇宙での生命の探求は、長い間人間の想像力を魅了してきました今や、コンピュータの助けを借りれば、科学者たちはこれまで以上に成功する可能性があります...」
「人工知能の炭素足跡」
AIの使用に起因する温室効果ガスの排出を削減する方法を探していますが、その使用は非常に増加する可能性があります
PaLM-Eをご紹介します:新たな5620億パラメータの具現化された多モーダル言語モデルで、ロボットの操作計画やビジュアルQAなどのタスクを実行します
大容量の言語モデル(LLM)は、会話、ステップバイステップの推論、数学の問題解決、コードの作成など、さまざまな分野で強力な推論能力を示しています。LLMを膨大なテキストデータでトレーニングすることで、物理的な環境に関連する表現が生成されますが、それらの表現を現実世界の視覚的および物理的なセンサーモダリティに接続することは、コンピュータビジョンとロボティクスの現実世界の問題の幅広い範囲の解決に重要です。 従来の研究では、LLMの出力を学習されたロボットポリシーや利用可能な機能関数と統合して意思決定を行う方法に制約がありました。従来の研究の制限は、LLMがテキスト入力のみを受け取ることであり、シーンの幾何学的な構成が重要な多くのタスクには不十分です。さらに、彼らの研究は、ビジュアルクエスチョンアンサリング(VQA)などの一般的なビジョン言語タスクでトレーニングされた最先端のビジュアル言語モデルが、直接的にロボティックな推論問題を解決することができないことを示しています。この研究では、GoogleとTU Berlinの研究者は、具体的な世界における連続的な入力を直接的に取り入れ、言語モデルが実際の世界での連続的な意思決定により正確な結論を導くことができるようにする具体的な言語モデルを提案しています。彼らはPaLM-Eを開発しました。これはシングルビッグな具体的な多モーダルモデルであり、異なる観察モダリティにおける数多くの具体的な推論問題を解決し、正の転送を示します。 PaLM-E LLMは、学習者の第一言語(L1)の知識やスキルを第二言語(L2)の学習に適用することで、L2のより迅速かつ効果的な習得をもたらす正の転送を実現します。たとえば、学習者のL1がL2と類似の文法構造を持つ場合、L1の文法の知識を使用してL2の文法のルールをより迅速に理解し適用することができるかもしれません。同様に、学習者のL1とL2が同じ綴りと意味を持つ語(両言語で同じ綴りと意味を持つ語)を共有している場合、これらの語を認識し記憶することでL2の語彙を迅速に拡大することができるかもしれません。正の転送は、学習者のL1の知識やスキルがL2の習得能力に干渉する場合に生じる負の転送とは対照的です。たとえば、学習者のL1の文法構造がL2のそれと大きく異なる場合、彼らはそれらを理解していてもL2の文法のルールを正しく適用することに苦労するかもしれません。 言語トークンがTransformerベースのLLMのセルフアテンションレイヤーによって処理されるのと同様に、写真や状態推定などの入力も同じ潜在的な埋め込みに言語トークンとして組み込まれます。彼らは、連続的な入力をエンコーダを介して事前にトレーニングされたLLMに注入することから始めます。これらのエンコーダは、自然言語で順序判断を生成するためにエンドツーエンドでトレーニングを受けており、具体的な言語モデルが低レベルのルールを構成したり、具体的なクエリに応答したりすることで理解することができます。さまざまな入力表現(視覚入力の標準的なエンコーディングとオブジェクト中心のViTエンコーディングなど)を対比し、エンコーダのトレーニング中に言語モデルを凍結または微調整すること、および複数のタスクでの共同トレーニングが転送を可能にするかどうかを検証することにより、このアプローチをさまざまな文脈で評価します。 彼らは、3つのロボット操作ドメイン(そのうち2つは実世界でクローズドループ)と、OK-VQAベンチマークなどの一般的なビジョン言語タスク、および言語タスクでこの手法の幅広さを決定するために、テクニックをテストします。彼らの調査結果によれば、マルチタスクトレーニングは単一のタスクのモデルをトレーニングする場合よりもパフォーマンスを向上させます。彼らは、タスク間のこの転送が、ロボティクスタスクにおけるデータの効率性を大幅に向上させること、新しいアイテムの組み合わせや未知のオブジェクトへのワンショットまたはゼロショットの一般化を展示し、少数のトレーニングサンプルからの学習パフォーマンスを大幅に向上させることを示しています。彼らの知識によれば、540BのPaLM LLMと22Bのビジョントランスフォーマー(ViT)を組み合わせて、これまでに公開された最大のビジョン言語モデルであるPaLM-Eを562Bのパラメータにスケーリングしています。 タスク固有の微調整を使用せずに、PaLM-E-562BはOK-VQAベンチマークで最先端のパフォーマンスを実現しています。彼らはまた、PaLM-E-562Bがシングルイメージの例のみでトレーニングされているにもかかわらず、ゼロショットのマルチモーダルなCoT(Chain of Thought)の少数ショットの促進、OCRフリーの算術推論、およびマルチイメージ推論など、幅広いスキルを示すことを発見しています。彼らの知識によれば、ゼロショットのCoTは、タスク固有のプログラムを使用した多モーダルデータのエンドツーエンドモデルでまだ示されていないとのことです。 彼らの主な貢献をまとめると、彼らは(1)具体的なデータをトレーニングに組み込むことで、多様なモダリティを持つ大規模言語モデルをトレーニングし、一般化された、転移学習された、多様な具現化の意思決定エージェントを作成する方法を提案し、示しています。彼らは、最先端の汎用的なビジュアル言語モデルが、ボックス外の具現化の問題を効果的に解決しないことを示していますが(ゼロショット)、有能な具現化の理解者である一般的なビジュアル言語モデルをトレーニングすることが可能であることも示しています。このようなモデルの最適なトレーニングに関する研究を行っています。 彼らは(3)エンティティラベリングのマルチモーダルトークンやニューラルシーン表現など、新しいアーキテクチャの概念を提供しています。さらに、彼らは(4)PaLM-Eが具現化の理解者であるだけでなく、数量的に優れたビジョンと言語の一般的なモデリングも行えることを示し、(5)言語モデルのサイズを拡大することで、多様なモダリティの微調整がより壊滅的な忘却を伴わずに可能であることを示しています。さまざまなデモは、彼らのプロジェクトのウェブサイトで見ることができます。
dbtのインクリメンタル – 正しい方法
「GlamCornerの私のチームが、従来のMySQLデータベースからPostgresデータベース上のELTに移行し、変換とモデリングのレイヤーとしてdbtを使用し始めたとき、私たちは喜びました私たちはdbtを設定しました...」
KAIST(韓国科学技術院)からの新しいAI研究、FLASK(スキルセットに基づく言語モデルの細かい評価フレームワーク)を紹介
驚くべきことに、LLMは人間の価値観と一致し、役立ち、正直な、無害な応答を提供することが証明されています。特に、この能力は、事前学習済みLLMをさまざまなタスクやユーザーの好みに合わせて微調整する方法、例えば指示調整や人間のフィードバックからの強化学習(RLHF)によって大幅に向上しています。最近の研究では、バイナリの人間/機械の選択に基づいてモデルを評価することで、プロプライエタリなLLMからデータセット蒸留によってトレーニングされたオープンソースのモデルが、プロプライエタリなLLMとの性能差を縮めることができると示唆されています。 自然言語処理(NLP)の研究者は、現在の評価設定の欠点に対処するために、FLASK(Fine-grained Language Model Evaluation based on Alignment Skill Sets)と呼ばれる新しい評価プロトコルを提案しています。このプロトコルは、従来の粗いスコアリングプロセスをより詳細なスコアリング設定に洗練させ、与えられた指示に応じてインスタンスごとのタスク非依存のスキル評価を可能にします。 言語モデルのパフォーマンスを徹底的に評価するために、研究者は以下の4つの主要な能力を定義し、さらに12の詳細なスキルに分解します: 論理的な推論(正確で堅牢で効果的な意味で) 事実と常識は背景知識の例です。 問題解決(把握、洞察、完了、メタ認知) ユーザーの好みとの整合性(簡潔さ、読みやすさ、安全性) 研究者はまた、インスタンスに関するドメイン、難易度のレベル、および関連するスキルセット(スキルセット)の情報をアノテートします。その後、人間の評価者または最先端のLLM1が各インスタンスの与えられたスキルに1から5のスコアを付けます。スキルセット、ターゲットドメイン、難易度に基づいてモデルのパフォーマンスを詳細に研究することにより、FLASKはLLMのパフォーマンスの包括的なイメージを提供します。彼らはモデルベースの評価と人間に基づく評価の両方にFLASKを使用して、異なるオープンソースとプロプライエタリソースからのLLMを評価および対比します。各ソースには、モデルサイズと微調整の方法があります。 研究者はいくつかの結果を示しています: 彼らは、最も先進的なオープンソースのLLMでも、論理的思考と背景知識の能力においてプロプライエタリなLLMと比べて約25%と10%性能が低いことを発見しました。 彼らはまた、さまざまなスキルを学ぶためには、異なるサイズのモデルが必要であることに気付いています。例えば、簡潔さや洞察力などのスキルは、ある一定のサイズに達した後で天井に達しますが、より大きなモデルは論理的な正確性のトレーニングからより多くの恩恵を受けます。 彼らはまた、最先端のプロプライエタリLLMでも、FLASK-HARDセット(FLASK評価セットの難しい例のみを使用)で最大50%のパフォーマンス低下があることを示しています。 研究者と実践者の両方がLLMのFLASKによる徹底した分析に利益を得ることができます。FLASKはモデルの現在の状態を正確に理解し、モデルの整合性を向上させるための明示的な手順を提供します。例えば、FLASKの結果によれば、プライベートLLMを作成する企業は、FLASK-HARDセットで高いスコアを獲得するモデルを開発する必要があります。同時に、オープンソースコミュニティは、論理的思考と背景知識の能力が高い基本的なモデルの作成に取り組むべきです。FLASKは、LLMの詳細な比較を提供することにより、実践者が自分のニーズに最も適したモデルを推奨するのに役立ちます。 研究者は、ユーザーの指示に忠実に従うために重要な以下の4つのコアタレントを、合計12のスキルに分解して特定しました: 1. 推論の安定性…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.