Learn more about Search Results T5 - Page 28

Agents.jsをご紹介します:JavaScriptを使用して、あなたのLLMにツールを提供します

最近、私たちはhuggingface.jsでAgents.jsに取り組んでいます。これはJavaScriptからLLMsに対するツールアクセスを提供するための新しいライブラリで、ブラウザまたはサーバーのどちらでも使用できます。デフォルトでいくつかのマルチモーダルツールが付属しており、独自のツールや言語モデルで簡単に拡張することができます。 インストール 始めるのは非常に簡単です。次のコマンドでnpmからライブラリを取得できます: npm install @huggingface/agents 使用方法 このライブラリはHfAgentオブジェクトを公開しており、これがライブラリへのエントリーポイントです。次のようにインスタンス化することができます: import { HfAgent } from "@huggingface/agents"; const HF_ACCESS_TOKEN = "hf_..."; // https://huggingface.co/settings/tokensでトークンを取得してください const agent = new…

2023年にフォローすべきAI YouTuberトップ15選

人工知能は現在、さまざまな分野で指数関数的な成長を遂げています。その拡大により、この領域は学び、マスターするための数々の機会を持つ志望者にとって、多くの可能性を提供しています。その中で、いくつかのAI愛好家が登場し、それぞれの専門分野で優れた成績を収め、教えることへの情熱によって駆り立てられています。彼らは他の学習者の旅をより簡単にすることを目指しています。はい、YouTuberはYouTubeで無料で情報提供するための教育コンテンツを作成しています。ここでは、人工知能、深層学習、および機械学習に関する高く評価されたさまざまなビデオを持つ15人のAI YouTuberを紹介します。 3Blue1Brown 登録日: 2015年3月4日 登録者数: 5.33M ビデオ数: 132 ウェブサイト: https://www.3blue1brown.com リンク: https://www.YouTube.com/@3blue1brown Grant Sandersonは、このチャンネルを所有するAI YouTuberです。彼はアニメーションを使用して複雑な数学や機械学習のコンセプトを説明しています。彼の最も人気のあるビデオはフーリエ級数についてです。対象領域にはデータサイエンス、機械学習、数学が含まれます。このチャンネルは最高の機械学習YouTubeチャンネルの一つとされています。 Joma Tech 登録日: 2016年9月1日 登録者数: 2.21M ビデオ数: 111…

「人工知能(AI)におけるアナログコンピュータの使用」

アナログコンピュータは、電気の電圧、機械の動き、または流体の圧力などの物理的な量を、解決すべき問題に対応する量に類似的に表現するデバイスの一種です。 以下はアナログコンピュータの簡単な例です。 出典: https://www.youtube.com/watch?v=IgF3OX8nT0w&t=763s  黒と白のホイールを一定量回転させると、灰色のホイールには2つの回転の合計が表示されます。 初期のアナログコンピュータの1つは、紀元前100-200年頃に作られたアンティキティラ機構です。この機構は、特定のダイヤルの動きが太陽や月の動きに類似しているように、一連の連結した青銅のギアを使用して構築されていました。また、数十年先の日食を予測することもできました。 出典: https://arstechnica.com/science/2021/03/scientists-solve-another-piece-of-the-puzzling-antikythera-mechanism/ アナログコンピュータの利点と欠点 8ビットの数値を足すには約50個のトランジスタが必要ですが、アナログコンピュータでは、単に2本のワイヤを接続するだけで2つの電流を足すことができます。同様に、2つの数値を掛けるには数千個のトランジスタが必要ですが、アナログコンピュータでは、抵抗器(Rオーム)に電流(Iアンペア)を流すと、ワイヤの両端にかかる電位降下はI*R、つまり2つの数値の積になります。 アナログコンピュータは強力で高速でエネルギー効率が良いですが、シングルパーパスであり正確性に欠け、入力が連続しているためプロセスを正確に繰り返すことが困難です。そのため、デジタルコンピュータがアナログコンピュータに取って代わりました。 アナログコンピュータとAI AIでは、アナログコンピュータはパターン認識、意思決定、制御など、さまざまなタスクに使用されました。たとえば、アナログコンピュータは、人間の脳の構造と機能に触発された機械学習モデルであるニューラルネットワークのトレーニングに使用されました。アナログコンピュータはまた、特定のルールを使用して意思決定や行動を行うルールベースのAIシステムを実装するために使用されました。 過去に広く使用されていましたが、アナログコンピュータはAIと機械学習においてはデジタルコンピュータの登場により一般的ではなくなりました。デジタルコンピュータはアナログコンピュータよりもはるかに高速で信頼性があり、より大量のデータを格納および処理することができます。さらに、デジタルコンピュータはプログラムやメンテナンスが容易であり、多くのAIおよび機械学習アプリケーションで選択されるようになりました。 AIにおけるアナログコンピュータの使用の増加 機械学習および人工知能アプリケーションにおいて、より大きなニューラルネットワークを使用する傾向が増しています。この傾向は、ますます複雑なタスクでのパフォーマンス向上の必要性と、より大量のデータ、ハードウェア、およびアルゴリズムがトレーニングをサポートするために利用可能になったためです。ただし、この需要の増加には特定の課題も伴います。 大規模なニューラルネットワークのトレーニングには、平均的な年間消費量に相当するエネルギーが約3世帯分必要です。 現代のコンピュータはすべてのデータをメモリに保存し、必要に応じてアクセスします。しかし、ニューラルネットワークが巨大な行列の乗算を必要とする場合、ほとんどのエネルギーは計算を行うのではなく、重みの値を取得するために使用されます。 ムーアの法則によれば、チップ上のトランジスタ数は伝統的に2年ごとに倍増してきました。しかし、現在、トランジスタのサイズが原子のサイズに近づいているため、さらなる小型化には重要な物理的な課題が生じています。 デジタルコンピュータが限界に近づく中、ニューラルネットワークは行列の乗算を中心とした機能を持ち、広く普及しています。また、ニューラルネットワークはデジタルコンピュータの正確な計算を必要とせず、イメージを犬として分類するのに98%または95%の信頼度が十分です。これらの要素は、アナログコンピュータがAIの中でより主導的な役割を果たす絶好の機会を提供しています。 事例研究:Mythic AI Mythic AIは、ニューラルネットワークを実行するためのアナログチップを作成するアナログコンピューティングのスタートアップです。動き検知、深度推定、オブジェクトの分類など、さまざまなAIアルゴリズムがアナログドメインで実行されます。…

コーネル大学の人工知能(AI)研究者たちは、ビデオマッティングの問題に対処するための新しいニューラルネットワークフレームワークを提案しています

画像と動画の編集は、コンピュータユーザーにとって最も人気のあるアプリケーションの2つです。機械学習(ML)とディープラーニング(DL)の登場により、画像と動画の編集は、いくつかのニューラルネットワークアーキテクチャを通じて徐々に研究されてきました。最近まで、画像と動画の編集のためのほとんどのDLモデルは、教師あり学習であり、具体的には、望ましい変換の詳細を学習するために入力と出力データのペアを含むトレーニングデータが必要でした。最近では、単一の画像のみを入力として望ましい編集済み出力へのマッピングを学習するエンドツーエンドの学習フレームワークが提案されています。 ビデオマッティングは、ビデオ編集に属する特定のタスクです。マッティングという用語は、19世紀にさかのぼり、撮影中にカメラの前にマットペイントのガラス板を設置して、撮影場所に存在しない環境の錯覚を作り出すために使用されました。現在では、複数のデジタル画像の合成は類似の手順に従います。合成式は、各画像の前景と背景の強度を、それぞれの成分の線形結合として表します。 このプロセスは非常に強力ですが、いくつかの制約があります。画像を前景と背景のレイヤーに明確に分解する必要があり、それらは独立して処理可能であると仮定されます。ビデオマッティングなどの一連の時間的および空間的に依存するフレームのような状況では、レイヤーの分解は複雑なタスクとなります。 本論文では、このプロセスの解明と分解の精度向上を目指しています。著者らは、下流の編集タスクのためにビデオをより独立した構成要素に分解するマッティング問題の変種であるファクターマッティングを提案しています。この問題に対処するために、彼らはシーン内の予想される変形に基づいた条件付き事前知識を古典的なマッティング事前知識に組み合わせた使いやすいフレームワークであるFactorMatteを提案しています。たとえば、最大事後確率の推定を指す古典的なベイズの式には、前景と背景の独立性に関する制限を取り除くための拡張が行われています。さらに、ほとんどのアプローチでは、背景レイヤーが時間の経過に伴って静的なままであるという仮定がされていますが、これはほとんどのビデオシーケンスにとって制限があります。 これらの制約を克服するために、FactorMatteは2つのモジュールに依存しています。デコンポジションネットワークは、各成分ごとに入力ビデオを1つ以上のレイヤーに分解し、各成分に対する条件付き事前知識を表すパッチベースの識別器のセットです。アーキテクチャのパイプラインは以下のように示されます。 デコンポジションネットワークへの入力は、フレームごとに対象オブジェクトの粗いセグメンテーションマスクを含むビデオです(左、黄色のボックス)。この情報を元に、ネットワークは再構成損失に基づいてカラーとアルファのレイヤー(中央、緑と青のボックス)を生成します。前景レイヤーは前景成分をモデル化します(右、緑のボックス)、一方、環境レイヤーと残差レイヤーは背景成分をモデル化します(右、青のボックス)。環境レイヤーは背景の静的な要素を表し、残差レイヤーは前景オブジェクトとの相互作用による背景成分のより不規則な変化を捉えます(図の枕の変形)。これらのレイヤーごとに、各成分の事前確率を学習するための1つの識別器がトレーニングされています。 選択されたサンプルに対するマッティングの結果は、以下の図に示されています。 FactorMatteは完璧ではありませんが、生成された結果はベースライン手法(OmniMatte)よりも明らかに正確です。すべてのサンプルにおいて、背景と前景のレイヤーはきれいに分離されており、比較解決策では断定することができません。さらに、削除実験を行い、提案された解決策の有効性を証明しました。 これがビデオマッティング問題に対処するための新しいフレームワークであるFactorMatteの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

スケッチベースの画像対画像変換:GANを使用して抽象的なスケッチを写実的な画像に変換する

スケッチに長けた人もいれば、他の仕事に才能を持つ人もいます。靴の画像が提示された場合、個人は写真を示す簡単な線を引くことができますが、スケッチの品質は異なる場合があります。それに対して、人間は抽象的な描画でも現実的なイメージを視覚化するという固有の能力を持っており、これは数百万年の進化の過程で開発されたスキルです。 AIと生成モデルの登場により、抽象的なスケッチから写真のようなリアルなイメージを生成することは、画像から画像への変換の文献の広義の文脈に含まれます。これに関しては、pix2pix、CycleGAN、MUNIT、BicycleGANなどの先行研究で探究されてきました。これらの先行手法の中には、スケッチ固有の変種も含まれており、写真のエッジマップを生成しています。エッジマップは細かい描画であり、これらのモデルは抽象的なスケッチではなく、洗練されたスケッチに焦点を当てていることを意味しています。 本記事で紹介されている論文は、先行手法とは異なる重要な点を持つスケッチベースの画像から画像への変換に焦点を当てています。この論文の著者によれば、エッジマップでトレーニングされたモデルは、エッジマップとともに高品質の写真を生成することができますが、アマチュアの人間のスケッチでは現実的な結果が得られません。これは、これまでのアプローチが変換中にピクセルの整列を前提としているためです。その結果、生成された結果は個人の描画スキル(または不足)を正確に反映し、非アーティストの場合には劣った結果になります。 したがって、これらのモデルでは訓練を受けていないアーティストは決して満足のいく結果を得ることはありません。しかし、本記事で紹介されている新しいAIアプローチは、スケッチから写真を生成する技術を民主化することを目指しています。 そのアーキテクチャは以下の図に示されています。 https://subhadeepkoley.github.io/PictureThatSketch/ この技術により、スケッチの品質に関係なく、写真のようなリアルなイメージを生成することが可能となります。著者らは、以前のアプローチで見られたピクセル整列のアーティファクトは、エンコーダ-デコーダのアーキテクチャをエンドツーエンドでトレーニングすることから生じると結論付けました。これにより、生成された結果は入力スケッチ(エッジマップ)で定義された境界に厳密に従い、結果の品質が制約されることになります。この問題に対処するために、彼らは分離されたエンコーダ-デコーダのトレーニング方法を導入しました。研究者たちは、StyleGANを写真のみで事前トレーニングし、その後それを凍結しました。これにより、生成された結果はStyleGANの多様体からサンプリングされた写真のようなリアルな品質を持つことが保証されました。 もう一つの重要な側面は、抽象的なスケッチと現実的な写真の間のギャップです。この問題を克服するために、彼らはエンコーダを訓練して、通常の写真ではなく、スケッチの表現をStyleGANの潜在空間にマッピングするようにしました。彼らはグラウンドトゥルースのスケッチ-写真のペアを使用し、入力スケッチと生成された写真の間に新しい細かい識別損失を課し、正確なマッピングを保証するために従来の再構成損失を追加しました。さらに、彼らはスケッチの抽象的な性質を扱うために部分的な認識を意識した拡張戦略を導入しました。これは、完全なスケッチの部分的なバージョンをレンダリングし、部分的な情報のレベルに基づいて潜在ベクトルを適切に割り当てることを含んでいます。 彼らの生成モデルをトレーニングした後、研究者たちはいくつかの興味深い特性を観察しました。生成された写真の抽象度は、予測された潜在ベクトルの数やガウスノイズの追加によって簡単に制御できることがわかりました。また、部分的な認識を意識したスケッチの拡張戦略により、ノイズや部分的なスケッチに対して堅牢性を示しました。さらに、モデルは入力スケッチの抽象化レベルの異なる状況においても良好な汎化性能を示しました。 提案手法と最先端の手法による結果の多様性を以下に報告します。 https://subhadeepkoley.github.io/PictureThatSketch/ これは、抽象的な人間のスケッチから写真のようなリアルなイメージを合成するための新しいAI生成画像対画像モデルの要約でした。もしこの研究に興味があり、さらに詳細な情報を知りたい場合は、以下のリンクをクリックして詳細をご覧いただけます。

「AIの責任ある適用を促進するための社会的なコンテキスト知識の活用」

Google Researchの社会的な文脈理解ツールとソリューション(SCOUTS)の責任者であるテクニカルプログラムマネージャーのDonald Martin、Jr.による投稿 AI関連の製品や技術は、社会的な文脈の中で構築および展開されます。つまり、社会的、文化的、歴史的、政治的、経済的な状況の集合体です。社会的な文脈は、動的で複雑で非線形で論争の余地があり、主観的で非常に質的な要素を含むため、標準的な機械学習(ML)アプローチや責任あるAI製品開発の手法やプラクティスにおいて、量的な表現に変換することは困難です。 AI製品開発の最初のフェーズは、問題理解です。このフェーズは、問題(例:がんスクリーニングの可用性と精度の向上)がMLシステムが解決するためにどのように定式化されるか、またデータセットやMLアーキテクチャの選択など他の多くの下流の意思決定にも強力な影響を与えます。製品が動作する社会的な文脈が十分に明確にされず、堅牢な問題理解に結びつかない場合、結果として得られるMLソリューションは脆弱であり、不公平なバイアスをさらに広げる可能性があります。 AI製品開発者が開発中に社会的な文脈を効果的に理解し、考慮するための知識とツールにアクセスできない場合、彼らはそれを抽象化してしまう傾向があります。この抽象化によって、彼らは解決しようとする問題の浅い量的な理解を得る一方で、製品の利用者や社会の利害関係者は、それと同じ問題の深い質的な理解を持っています。製品利用者と社会が開発者から分かれるこの質的-量的の相違を、私たちは問題理解の隔たりと呼んでいます。 この隔たりは現実世界に影響を及ぼします。例えば、最も複雑な医療ニーズを持つ患者を特別プログラムに選択する問題を解決するために設計された広く使用されている医療アルゴリズムで発見された人種的バイアスの根本原因でした。アルゴリズムが動作する社会的な文脈の理解が不十分だったため、システム設計者は主要な問題要因について正確で過度に単純化された因果理論を形成しました。医療へのアクセスの不足、医療システムへの信頼の欠如、人間のバイアスによる診断の欠落などの重要な社会構造的要因は無視され、医療費の費用負担が複雑な健康ニーズの予測因子として強調されました。 問題理解の隔たりを責任を持って埋めるために、AI製品開発者は、複雑な社会問題に関する社会的な文脈の信頼性のある構造化された知識を指先で利用できるツールが必要です。これは問題理解から始まり、製品開発のライフサイクル全体で継続的に活用されます。この目的のために、Google Researchの責任あるAIと人間中心のテクノロジー(RAI-HCT)チームの一環として、社会的な文脈理解ツールとソリューション(SCOUTS)は「責任を持って、堅牢なAIを実現し、世界で最も複雑な社会問題を解決するために必要なスケーラブルかつ信頼性のある社会的な文脈の知識を人々に提供する」という使命に注力する研究チームです。SCOUTSは、社会的な文脈を明確にするという重要な課題に取り組み、革新的な基礎研究と応用研究を行い、構造化された社会的な文脈の知識を生み出し、AI関連の製品開発ライフサイクルのすべてのフェーズに統合しています。昨年、Googleのオープンな社会への脅威に対する解決策を開拓する技術を構築するためのインキュベータであるJigsawが、広く使用されているPerspective APIの毒性分類器のバイアス緩和を規模化するために、私たちの構造化された社会的な文脈の知識アプローチをデータの準備および評価フェーズで活用したことを発表しました。今後、SCOUTSの研究の焦点は、AI関連の製品開発の問題理解のフェーズに置かれ、問題理解の隔たりを埋めることを目指しています。 AIの問題理解の隔たりを埋める AIの問題理解の隔たりを埋めるには、2つの重要な要素が必要です。1つは、構造化された社会的な文脈の知識を整理するための参照フレーム、もう1つは、複雑な問題に関するコミュニティの専門知識を引き出し、構造化知識として表現するための参加型で抽出的でない方法です。SCOUTSは、両方の領域で革新的な研究を発表しています。 問題理解の隔たりのイラスト。 社会的な文脈の参照フレーム 構造化知識を生成するための重要な要素は、それを整理するための分類法です。SCOUTSは、他のRAI-HCTチーム(TasC、Impact Lab)、Google DeepMind、および外部のシステムダイナミクスの専門家と協力して、社会的な文脈のための分類的な参照フレームを開発しました。複雑で動的で適応的な社会的な文脈に対処するために、私たちは複雑な適応システム(CAS)理論を活用し、社会的な文脈の知識を整理するための高レベルの分類モデルを提案しています。このモデルでは、社会的な文脈の3つのキーエレメントとそれらを結びつけるダイナミックなフィードバックループを特定しています:エージェント、プリセプト、およびアーティファクトです。 エージェント:個人または機関のことです。 プリセプト:エージェントの行動を制約し、推進する先入観(信念、価値観、ステレオタイプ、バイアスなど)です。基本的なプリセプトの例は、「すべてのバスケットボール選手は身長が6フィート以上ある」というものです。この制限的な仮定は、小柄なバスケットボール選手を特定する際の失敗につながる可能性があります。 アーティファクト:エージェントの行動によって言語、データ、テクノロジー、社会的な問題や製品などさまざまな種類のアーティファクトが生成されます。 これらのエンティティ間の関係は動的で複雑です。私たちの仕事は、前提が社会的文脈の最も重要な要素であり、人々が認識する問題とそれらの問題が存在する理由についての因果関係の理論が特に影響力のある前提であり、社会的文脈を理解するための核心であることを示唆しています。たとえば、先に説明した医療アルゴリズムにおける人種的偏見の場合、デザイナーが持っていた因果関係の理論的前提は、複雑な健康問題がすべての人口において医療費を増加させるというものでした。この誤った前提は、モデルが複雑な医療ニーズを予測するためのプロキシ変数として医療費を選択することに直接的につながりました。そして、それはさらに、社会的な要因(例えば医療へのアクセスの不足やバイアスによる診断の不足など)により、ブラックの患者は複雑な医療ニーズがある場合に常により多くの医療費を費やすわけではないため、モデルがブラックの患者に対して偏見を持つことにつながりました。重要なオープンな問題は、不平等の問題に最も近い人々やコミュニティから因果関係の理論を倫理的かつ公平にどのように引き出し、有用な構造化された知識に変換することができるかということです。 社会的文脈の参照フレームのイラスト版。 社会的文脈の参照フレームの分類版。 コミュニティと協力してAIを医療に責任ある形で活用する…

「DifFaceに会ってください:盲目の顔の修復のための新しい深層学習拡散モデル」

非常に古い写真を見ると、最近のカメラで撮影された写真とは明らかに異なることがわかります。ぼやけたりピクセル化された写真は以前はかなり一般的でした。写真の品質の理想が詳細、定義、鮮明さに関連していることから、古い写真がこれらの品質基準を提供できないのは簡単に理解できます。実際、古いカメラと最近のカメラで撮影された画像の大きな違いに気付きます。しかし、このような問題は最近の写真でも頻繁に発生します。それはカメラのシャッターや環境設定に依存することが多いからです。 もし、あなたがぼやけたポートレートを持っていたり、撮影したことがあって、その詳細がかなり見分けにくい場合はどうなるでしょうか?ぼやけた写真を鮮明で高解像度かつ詳細な写真に変換することが可能かどうか、そして可能な場合はその方法について考えたことはありますか? これが必要なのは、盲目的な顔の復元(BFR)です。これは、劣化(例えばノイズやぼやけ)または低品質の入力画像から、人の顔の明確で忠実な画像を再構築するタスクを指します。この難しい問題は、監視、生体認証、ソーシャルメディアなど、さまざまな実用的なアプリケーションで広範な関心を集めています。 近年、深層学習手法が盲目的な顔の復元において有望なアプローチとして登場しました。これらの手法は、人工ニューラルネットワークに基づいており、手作りの特徴量や劣化プロセスの明示的なモデリングを必要とせずに、さまざまなベンチマークで印象的な結果を示すことができます。 これらの手法は、復元の品質を向上させるために多くの複雑な指標、数式、およびパラメータに焦点を当てています。L1学習損失は、忠実性を確保するために一般的に使用されます。最近のBFR手法では、より現実的な結果を得るために敵対的損失と知覚損失が導入されています。他のいくつかの既存の手法では、顔の特定の事前条件(顔のランドマーク、顔の部品、生成事前条件など)も利用しています。これらの制約をすべて考慮することは、訓練を不必要に複雑にし、これらの制約の間でトレードオフを実現するために煩雑なハイパーパラメータの調整を必要とすることがしばしばあります。さらに、敵対的損失の悪名高い不安定性は、訓練をより困難にします。 これらの問題を克服するために、DifFaceという新しい手法が開発されました。この手法は、複雑な劣化に対して、状態の設計が複雑でないため、最先端の手法よりも優雅に対処することができます。その主な鍵は、低品質(LQ)画像から高品質(HQ)画像への事後分布です。具体的には、LQ画像から事前訓練された拡散モデルの中間状態に対する遷移分布を利用し、この中間状態からHQターゲットに対して事前訓練された拡散モデルを再帰的に適用して徐々に伝達します。 下の図は、提案されたフレームワークを示しています。 推論には、LQ画像y0から中間拡散変数xN(N<T)が関与します。この中間状態は、いわゆる拡散推定器を介して得られます。これは、入力画像y0から拡散ステップxNを推定するために開発されたニューラルネットワークアーキテクチャを表します。この中間状態から、望ましいx0が推論されます。これにより、いくつかの利点がもたらされます。まず第一に、xTからx0までの完全な逆拡散プロセスよりも効率的です。なぜなら、事前訓練された拡散モデル(xNからx0へ)を利用できるからです。第二に、ゼロから拡散モデルを再訓練する必要はありません。さらに、この手法は訓練に複数の制約を必要とせず、未知の複雑な劣化に対処することができます。 DifFaceとその他の最新手法の結果と比較は、以下の図に示されています。 生成された画像の詳細を見ると、DifFaceは最新の技術を凌駕し、低品質、ぼやけた、劣化した入力画像から高品質で詳細な鮮明な画像を生成することが明らかです。 これは、Blind Face Restorationの問題を解決するための新しいフレームワークであるDifFaceの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

「ラマ-2、GPT-4、またはクロード-2;どの人工知能言語モデルが最も優れているのか?」

大規模言語モデル(LLMs)は、自然言語処理と自然言語理解の分野で世界的な評価を受け、非常に人気があります。これにより、研究者はより洗練された言語の理解を持つ知的システムを説明することができるようになりました。GPT-3、T5、PaLMなどの有名なモデルは、人間の模倣からテキストの生成、コードの補完、言語の翻訳、長い段落の要約など、あらゆることを行います。LLMsは膨大なデータでトレーニングされ、人間の言語の構文、意味論、語用論を理解することができます。優れたパフォーマンスを発揮し、非凡な能力を持つトップ3のモデルは、Llama 2、GPT-4、Claude-2です。 Llama-2 Metaは、マイクロソフトとの協力で、人気のある言語モデルLLaMaの最新バージョンであるLLaMA 2を発表しました。この革新的なモデルは、さまざまな言語で流暢に理解し、コンテンツを生成する能力を持っています。LLaMA 2は、LLamaの堅固な基盤の上に構築され、多言語機能の基準を確かに引き上げました。このモデルは、研究やビジネスで使用するためにライセンスを取得することができ、近々、Microsoft AzureプラットフォームカタログおよびAmazon SageMakerを介してアクセスできるようになる予定です。 Llama 2の主な特徴は、複数の言語での熟達度と200以上の言語でのテキストの理解と生成能力です。これにより、以前は国や文化を超えて効果的なコミュニケーションを困難にしていた言語の障壁が取り除かれ、Llama 2は今や世界中で役立つことができます。さらに、Llama 2の注目すべき改善点は、文化的な文脈分析を通じてより明確に見ることができます。この機能により、モデルは文脈とユーザーの文化的な微妙さや感受性により敏感な応答を生成することができます。 Llama 2は、一つの言語で学んだ知識を他の言語での理解と生成の向上に活用するという驚くべき能力も示しています。モデルは、多言語で処理した膨大な量のデータを活用することができるため、Llama 2はさまざまな言語でのコンテンツの理解と生成能力を向上させ、非常に柔軟かつ効果的な言語モデルとなっています。 GPT-4 最新バージョンのGPT-4は、GPT 3.5と比較して、テキストと画像の両方の入力を許可します。以前のバージョンではChatGPTはテキストの入力のみを許可していました。GPT 4モデルは、以前のバージョンに比べてより制御可能と言われています。その信頼性と創造性の高さにより、人間レベルのパフォーマンスを発揮します。 GPT-4のユニークさは、そのサイズと複雑さに影響を与える無類の要素の数にあります。モデルは、優れた効率で大量のデータを処理・分析することができます。GPT-4は、パラメータの数が多いため、データ内の複雑なパターン、依存関係、リンクを捉えることができ、より一貫性のある文脈に適したテキストの開発を実現します。 GPT-4の洗練されたアーキテクチャは、人間の理解に密接に似た方法で言語を解釈するように構築されています。広範なトレーニングデータと洗練されたニューラルネットワークを使用することで、入力テキストの微妙なニュアンスや文脈的な手がかりを認識することができます。巨大なサイズと複雑さにもかかわらず、GPT-4は優れた応答速度を持ち、さまざまなドメインでのスムーズで流動的なユーザーとの対話を保証します。 Claude-2 エンパシーと感情的知性に特化した驚異的なAI言語モデルであるClaude-2が作成されました。Claude-2は、人間の感情を理解し模倣する非凡な能力を持っており、人間と機械のインタラクションを革新し、AIシステムとの対話方法を再定義する可能性を秘めています。プロンプトで75,000語に相当する最大1,00,000トークンを処理する能力を持つClaude 2は非常に効果的です。…

「Prompt Diffusionを紹介する:拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

最新の大規模言語モデル(LLM)であるBERT、GPT-2、BART、T5、GPT-3、およびGPT-4は、機械学習の最近の進歩、特に自然言語処理(NLP)の領域での進歩により開発されました。これらのモデルは、テキスト生成、機械翻訳、感情分析、質問応答などのさまざまなタスクに効果的に使用されています。コンテキストから学習する能力、つまりコンテキスト学習は、これらのLLMの新興動作の1つです。モデルパラメータを最適化せずに、GPT-3のようなコンテキスト学習能力を持つLLMは、入力-出力のサンプルと新鮮なクエリ入力に基づいてジョブを完了することができます。 多くの言語タスクの事前トレーニングをコンテキスト学習と適切なプロンプト構造と組み合わせることで、LLMは未経験の活動にも成功裏に一般化することができます。コンテキスト学習はNLPで広く研究されていますが、コンピュータビジョンの応用はほとんど存在しません。コンテキスト学習の実用性と将来性を優れたビジョンアプリケーションの標準的な手法として示すためには、2つの重要な困難があります: 1) ビジョンプロンプトを効果的に作成することは、言語活動のプロンプトを作成するよりも困難です。なぜなら、ドメイン固有の入出力ペアを例として、画像検索を基準とする必要があるからです。 2) コンピュータビジョンでは、テキストから画像生成、クラス条件付き生成、セグメンテーション、検出、分類などの特化されたタスクのために大規模なモデルがしばしばトレーニングされます。 これらの大規模ビジョンモデルは、新しいタスクに適応するために柔軟性を持たせる必要があり、コンテキスト学習のために構築されていません。最近のいくつかの試みでは、NLPの回答を使用してこれらの問題に取り組んでいます。具体的には、サンプル写真、クエリ画像、出力画像を1つの巨大な具現化体に統合することによって基本的な視覚的手がかりを作成し、Transformerベースの画像補完モデルをトレーニングして、マスクされた出力画像を予測します。しかし、巨大な写真へのステッチングは、特に高解像度の場合には計算負荷を大幅に増加させます。この作業では、テキストガイドの拡散ベースの生成モデルのコンテキスト学習の潜在能力に取り組むことで、これらの2つの問題に対処します。 幅広いビジョン言語アクティビティを扱うことができるビジョン言語プロンプトの下でコンテキスト学習を実行するために、MicrosoftとUT Austinの研究者はPrompt Diffusionという新しいモデルアーキテクチャを提案しています。Prompt Diffusionは、6つの個別のビジョン言語タスクを同時に実行します。具体的には、彼らはビジョン言語プロンプトを使用して一般的なビジョン言語タスクを説明します。そして、Stable DiffusionとControlNetの設計を参考にして、ビジョン言語プロンプトを入力として使用するPrompt Diffusionを構築します。Prompt Diffusionをテキストガイドの拡散モデルのコンテキスト学習の能力を可能にする第一歩として提案しています。その後、この知識を使用して、クエリ画像に接続を再マッピングし、言語の指示を含めることで、出力画像を作成することができます。さらに重要なことに、多くのタスクを学習することにより、Prompt Diffusionはコンテキスト学習の能力を持つモデルになります。Prompt Diffusionは、まだ観察されていないいくつかの新しい機能に対しても成功裏に一般化することができます。これは、トレーニング中に6つのタスクで優れたパフォーマンスを発揮することに加えてです。 実証的には、Prompt Diffusionはコンテキスト学習に関する既知および未知のタスクで優れたパフォーマンスを発揮します。Prompt Diffusionの有効性は、拡散ベースのコンテキストビジュアル学習に対するより多くの研究を促進することが期待されています。以下は、彼らの主な貢献の概要です: • 複数のビジョン言語アクティビティを効果的に統合することを可能にするビジョン言語プロンプトの最新の設計。 • プロンプト拡散モデルを使用した学習済みおよび新しい未知のタスクにおける高品質なコンテキスト生成。これは、コンテキスト学習が可能な最初の拡散ベースの適応型ビジョン言語基盤モデルです。 •…

新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します

事前学習済み言語モデル(PLMs)は、フィネチューニングにより多くの下位NLPタスクで大幅に改善されています。現在のPLMsは数億のパラメータを含むことができますが、タスクごとのフルフィネチューニング(FT)の従来のパラダイムは、多数のタスクに拡張することが困難です。包括的なフィネチューニングに必要なより少ないパラメータを学習する必要性から、「パラメータ効率」のモデルチューニングに関する研究が急増しています。 PLMsを使用したパラメータ効率の高い転移学習において、最近はプロンプトチューニング(PT)が潜在的なオプションとして登場しています。PTは、トレーニング前に入力に調整可能な連続プロンプトベクトルを追加することで機能します。PLMの設定は固定され、PTは各タスクに対して限られた数のプロンプトベクトルのみを学習します。しかし、その驚異的な性能にもかかわらず、瞬間的なチューニングと完全なフィネチューニングの間にはまだ大きな差があります。また、この方法は初期化に非常に敏感であり、通常のフィネチューニング手続きよりも長いトレーニング時間を必要とします。 最近の研究では、他のジョブからプロンプトベクトルを再利用することでこれらの問題を解決する方法が提案されています。これらの戦略は、さまざまなソースタスクでソフトプロンプトをトレーニングすることから始まります。次に、これらの事前学習されたプロンプトを、(おそらく学習された)類似性尺度を使用してターゲットタスクのプロンプトのファインチューニングの出発点として使用します。 オハイオ州立大学、MIT-IBMワトソンAI研究所、マサチューセッツ工科大学の研究者は、マルチタスクプロンプトチューニング(MPT)を導入することで、この研究の一環をさらに発展させています。MPTは、マルチタスクデータを利用して、効率的にターゲットアクティビティに伝達できる単一のプロンプトを学習します。 共有プロンプト空間を学習するアイデアは簡単ですが、実際には非常に難しいことがあります。これは、さまざまなソースタスク間の類似性を習得しながら、その干渉を同時に減らす必要があるためです。研究者は、単にすべてのタスクでプロンプト行列を共有するのではなく、各ソースタスクのソフトプロンプトを共有行列と低ランクタスク固有行列の積として分解する方が成功すると見つけました。分解は、一貫したプロンプトチューニングを通じて獲得したソフトプロンプトからの情報を蒸留することによって教えられます。彼らは共通プロンプト行列に対して低ランクの乗算修正を実行し、ジョブ間を切り替えます。 様々なタスクの23のNLPデータセットに対する包括的なテストでは、提案された手法が最新のプロンプト転送手法を上回ることが示されています。T5-Baseを使用したMPTは、最も競争力のあるマルチタスクプロンプト転送ベースラインに比べて、SuperGLUEベンチマークで16.3%の改善を達成しています。一部の性能指標では、MPTはフルフィネチューニングを上回りますが、ジョブごとにわずか0.035%の設定可能なパラメータのみを使用しています。また、ターゲットタスクごとに4-32のラベルがある場合、MPTは少量のデータでも非常に成功することがわかっています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us