Learn more about Search Results A - Page 350

「Deep Diving Into Llama 2 メタAIの新しいオープンソース基盤モデル」

先週、Meta AIがジェネレーティブAIの分野で話題をさらいましたLlama 2のオープンソースリリースと商業提供が行われましたこのモデルは3つの異なるバージョンがリリースされました 7B、13B、そして...

学習曲線の航行:AIの記憶保持との闘い

人工知能(AI)の境界が絶えず拡大するにつれて、研究者たちはこの分野の最大の課題の1つである記憶喪失と格闘していますAIの用語では「壊滅的な忘却」として知られるこの現象は、機械学習の進歩を厳しく妨げ、人間の記憶の難解な性質を模倣していますオハイオ州立大学の電気工学のチームは[…]

アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取り組みでは、セグメンテーションマップ、シーングラフ、ドローイング、深度マップ、修復マスクなどの条件を追加したり、事前学習モデルを少量の特定のデータに微調整することで、テキストからイメージを生成するモデルをカスタマイズすることができるようになりました。しかし、これらのモデルを実世界のアプリケーションに適用する際には、デザイナーはまだより多くの制御を必要としています。例えば、実世界のデザインプロジェクトでは、意味、形、スタイル、色の同時要求を満たす画像を信頼性を持って生成するために、生成モデルが支援を必要とすることが一般的です。 中国のアリババの研究者たちは、Composerを紹介しています。これは、数十億の(テキスト、画像)のペアでトレーニングされた大規模な(50億のパラメータ)制御可能な拡散モデルです。彼らは、単に条件付けするのではなく、合成性こそが画像形成を制御する秘訣であると主張しています。後者は多くの可能な組み合わせを導入し、制御空間を大幅に拡大することができます。同様の考え方は、言語とシーンの理解の分野でも調査されています。これらの分野では、合成性は合成的な一般化と呼ばれ、限られた数の利用可能なコンポーネントから一意の組み合わせを認識または作成する能力を指します。前述の概念に基づいて、彼らはこの研究で合成的な生成モデルの実装であるComposerを提供しています。彼らは、新しい画像を作成するために視覚要素をスムーズに再構成することができる生成モデルを合成的な生成モデルと呼んでいます。彼らは、Composerを実装するために、UNetバックボーンを持つマルチ条件の拡散モデルを使用しています。各Composerトレーニングイテレーションには2つのフェーズがあります。デコンポジションフェーズでは、コンピュータビジョンアルゴリズムや事前学習モデルを使用して、画像のバッチを個々の表現に分解します。合成フェーズでは、Composerが表現のサブセットから画像を再構成するために最適化されます。 図1:合成的な画像合成のアイデア。画像を基本部品に分解し、創造性と制御を持って再構成する前に、様々な形式でコンポーネントが提供され、生成プロセス全体で条件として機能し、推論ステップ中に広範な修正を可能にします。高解像度で表示するのが最適です。 Composerは、再構成の目的で訓練されただけであっても、複数のソースからの表現の未知の組み合わせから一意の画像をデコードすることができます。Composerは、概念的なシンプルさと使いやすさにもかかわらず、従来の画像生成や操作のタスク、例えばテキストから画像の生成、マルチモーダルな条件付き画像の生成、スタイルの転送、ポーズの転送、画像の翻訳、仮想試着、補完と画像の変動、スケッチの修正による画像の再構成、依存性のある画像の翻訳、画像の翻訳などにおいて、励ましを与えるパフォーマンスを実現しています。 さらに、Composerは上記のすべての操作に対してユーザー指定の領域に編集可能な領域を制限することができます。これは従来の修復操作よりも柔軟であり、マスキングの直交表現を導入することで、この領域外のピクセルの変更を防ぎます。Composerはマルチタスクトレーニングを行ったにもかかわらず、COCOデータセット上でテキストから画像の合成においてゼロショットのFID値9.2を達成し、キャプションを基準とした優れた結果を示しています。彼らの分解-組成のパラダイムは、条件が個別に使用されるのではなく合成可能である場合、生成モデルの制御空間を大幅に拡大することを示しています。そのため、様々な分解技術を使用してより高い制御性を実現できるようにするさまざまな従来の生成タスクを、彼らのComposerアーキテクチャを使用して再設計することができ、これまでに認識されていなかった生成能力が明らかにされ、さまざまな画像生成および変更タスクへのComposerの利用方法について多くのアプローチが示され、後続の研究に役立つ参考資料が提供されています。この研究を公開する前に、彼らはComposerが悪用の危険を軽減し、フィルタリングされたバージョンを提供できるかを注意深く検討する予定です。

「Chroma DBガイド | 生成AI LLMのためのベクトルストア」

イントロダクション GPTやPaLMなどの生成型の大規模言語モデルは、大量のデータで訓練されます。これらのモデルはデータセットからそのままのテキストを取得するのではなく、コンピュータはテキストを理解することができないため、数値のみを理解できます。埋め込みは、テキストを数値形式で表現したものです。大規模言語モデルへの情報の出入りは、すべてこれらの埋め込みを介して行われます。これらの埋め込みに直接アクセスすることは時間がかかります。そのため、効率的なストレージと埋め込みの取得のために特別に設計されたベクトルデータベースと呼ばれるものが存在します。このガイドでは、広く使用されているオープンソースのベクトルストア/データベースであるChroma DBに焦点を当てます。 学習目標 ChromaDBと埋め込みモデルを使用した埋め込みの生成 Chromaベクトルストア内でのコレクションの作成 ドキュメント、画像、および埋め込みのコレクションへの保存 データの削除と更新、コレクションの名前変更などのコレクション操作の実行 最後に、関連情報を抽出するためのクエリの実行 この記事はData Science Blogathonの一部として公開されました。 埋め込みの短い紹介 埋め込みまたはベクトル埋め込みは、データ(テキスト、画像、音声、ビデオなど)を数値形式で表現する方法です。正確には、n次元空間(数値ベクトル)内の数値の形式でデータを表現する方法です。この方法により、埋め込みを使用して似たデータをクラスタ化することができます。これらの入力を受け取り、ベクトルに変換するモデルが存在します。その一つの例はWord2Vecです。Googleが開発した人気のある埋め込みモデルで、単語をベクトルに変換します(ベクトルはn次元の点です)。すべての大規模言語モデルは、それぞれの埋め込みモデルを持ち、それらのLLMのための埋め込みを作成します。 これらの埋め込みは何に使用されるのですか? 単語をベクトルに変換することの利点は、それらを比較できることです。コンピュータは単語をそのまま比較することはできませんが、数値の形式で与えれば、つまりベクトル埋め込みとして与えれば比較できます。似たような埋め込みを持つ単語のクラスタを作成することができます。たとえば、”King”、”Queen”、”Prince”、”Princess”という単語は他の単語と関連しているため、同じクラスタに表示されます。 このように、埋め込みを使用することで、与えられた単語に類似した単語を取得することができます。これを文に組み込むこともできます。文を入力し、提供されたデータから関連する文を取得します。これはセマンティックサーチ、文の類似性、異常検出、チャットボットなど、さまざまなユースケースの基盤です。PDFやドキュメントからの質問応答を実行するために構築したチャットボットでは、この埋め込みの概念を利用しています。すべての生成型の大規模言語モデルは、与えられたクエリに類似した内容を取得するためにこのアプローチを使用します。 ベクトルストアとその必要性 先述のように、埋め込みは数値形式で表現されたデータの表現です。通常、非構造化データをn次元空間で表現します。では、これらをどこに保存するのでしょうか?伝統的なRDMS(リレーショナルデータベース管理システム)では、これらのベクトル埋め込みを保存することはできません。ここでベクトルストア/ベクトルデータベースが登場します。ベクトルデータベースは、ベクトル埋め込みを効率的に保存および取得するために設計されています。さまざまなベクトルストアが存在し、それらはサポートする埋め込みモデルや類似ベクトルを取得するために使用する検索アルゴリズムの種類によって異なります。 なぜそれが必要なのでしょうか?それは、必要なデータへの高速なアクセスを提供するためです。PDFに基づいたチャットボットを考えてみましょう。ユーザーがクエリを入力すると、まずはPDFから関連コンテンツを取得し、この情報をチャットボットにフィードする必要があります。そして、チャットボットはこのクエリに関連する情報を取得し、ユーザーに適切な回答を提供するためにこの情報を使用します。では、ユーザーのクエリに関連するPDFから関連コンテンツをどのように取得するのでしょうか?答えは簡単な類似度検索です。 データがベクトル埋め込みで表現されると、データの異なる部分間で類似性を見つけ、特定の埋め込みに類似したデータを抽出することができます。クエリはまず埋め込みモデルによって埋め込みに変換され、その後ベクトルストアはこのベクトル埋め込みを受け取り、データベース内に保存されている他の埋め込みとの類似性検索(検索アルゴリズムを介して)を実行し、関連するデータをすべて取得します。これらの関連するベクトル埋め込みは、最終的な回答を生成するチャットボットで使用される大規模言語モデルに渡されます。 Chroma DBとは何ですか? Chromaは、Chromaという会社が提供するベクトルストア/ベクトルDBです。Chroma…

「2023年の営業プロフェッショナル向けのAIツール52選」

モーション モーションは、ユーザーがカレンダー、ミーティング、プロジェクトを管理するのに役立つ生産性ツールです。 Seamless.ai このプラットフォームは、B2Bセールスリードのリアルタイム検索エンジンです。ユーザーはセールスサイクルを短縮し、より多くの取引を成立させることができます。 AdCreative AI 人工知能を使って、秒単位でコンバージョンに焦点を当てた広告クリエイティブやソーシャルメディアの投稿クリエイティブを生成します。時間を節約しながら、より良い結果を得ることができます。 Jasper Jasperは、ユーザーがより良いセールスコピーを書くことができるAIコピーライティングツールです。 Apollo Apolloは、ユーザーが理想のバイヤーを見つけ、コンタクトし、獲得するのをサポートします。Apolloを使えば、最も正確なB2Bデータベースにアクセスできます。 Otter AI Otter.AIは、共有可能で検索可能、アクセス可能、安全なリアルタイムの会議のトランスクリプションを提供します。オーディオを録音し、ノートを書き、スライドを自動的にキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 tl:dv このツールは、Google MeetやZoom用のAIパワーの会議録音ツールです。 Oliv AI OlivのAIエンジンは、広範な録音を分析して、効果的なディスカバリー質問、よくある顧客の質問、一般的な異議を特定します。 Sendspark このAIツールを使えば、パーソナライズされたビデオを使って関係を構築することができます。 Gong Gongは、顧客とのやり取りをキャプチャし、分析し、より良い意思決定のための洞察を提供します。…

「マイクロソフトのBing ChatがChromeとSafariに拡大」

マイクロソフトのBing Chatは、AIパワードチャットボットであり、マイクロソフト専用の制約から脱出し、非マイクロソフトのブラウザでのテストが行われています。この拡張は、ChatGPTのような機能を持つ広範なユーザーベースにアクセスを提供することを目指しています。Bing ChatはOpenAIのGPT-4モデルを搭載しており、シームレスな会話体験を約束しています。ただし、他のブラウザでの制約が報告されているため、ユーザーはこの新しい提供がどのように展開されるかを見ることを熱望しています。それでは、マイクロソフトのBing ChatをGoogle ChromeやApple Safariプラットフォームに拡大する戦略的な動きについてもっと詳しく見てみましょう。 また読む:Elon MuskのxAIがOpenAIのChatGPTに挑戦 Bing Chatがクロスブラウザになる:マイクロソフトの最新の動き 一部の報道によると、マイクロソフトのAIチャットボットであるBing Chatが、マイクロソフトのエコシステムの外のブラウザでも利用できるようになることが、月曜日に正式に発表されました。この画期的な進展は、テックジャイアントがBingモバイルアプリとMicrosoft Edgeブラウザの枠を超えてAIの機能を広げることを目指しています。 より広い視聴者への道を開く 今まで、Bing Chatのサービスはマイクロソフトの製品内のユーザーに限定されていました。しかし、この拡大によってそれが変わる予定です。Google ChromeやApple Safariなどの他の人気のあるブラウザにBing Chatが導入されることで、より広範なユーザーがそのインテリジェントな会話能力にアクセスできるようになります。 選択されたユーザーでのテスト マイクロソフトのコミュニケーションディレクターであるケイトリン・ラウルストンは、電子メールでの声明で、Bing Chatが現在SafariとChromeの選択されたユーザー向けにテストフェーズに入っていることを明らかにしました。標準のテスト手順が完了した後、会社はアクセスを広げる予定であり、完全な展開が間近に迫っていることを示唆しています。 また読む:OpenAIがChatGPTの「Browse with…

OpenAIがBaby Llamaを発表 – 低電力デバイス向けのLLM!

人工知能の世界からの最新ニュース! OpenAIの有名な深層学習の専門家、Andrej Karpathy氏が、リソース制約のあるデバイス上で複雑なモデルを実行する方法を革新する可能性のあるエキサイティングな週末プロジェクトに取り組んでいます。彼の「Baby Llama」という作品は、Llama 2モデルの簡略化バージョンであり、純粋なCコードの力とその小さなマシンで高度にインタラクティブなレートを実現する可能性を示しています。この画期的な開発について詳しく見ていきましょう! また読む:OpenAI、AIモデルの公開を通じてオープンソース競争に参加 インタラクティブレートを目指して – ベビーラマの誕生 深層学習の分野でのパイオニアであるAndrej Karpathy氏は、新しい可能性を探求する好奇心に駆られ、オープンソースのLlama 2のポテンシャルを解き放つための使命に取り組みました。週末にGPT-5を構築する能力を持っていたにもかかわらず、Karpathy氏はAIの限界を押し広げる情熱を示すためにLlama 2の実験に時間を費やしました。 また読む:MetaのLlama 2:商業利用のためのオープンソース化 GPT-2からLlama 2への変換:週末の実験 GithubのリポジトリであるLlama2.cで、Karpathy氏は彼の創造的なプロセスについての洞察を共有しました。彼はnanoGPTフレームワークを使用し、Cプログラミング言語で書かれたLlama 2アーキテクチャに巧みに変換しました。その結果、彼のリポジトリは短期間で2.2K以上のスターを集めることができました。 リソース制約モデルでのインタラクティブレート Karpathy氏の実験の中で最も驚くべき成果の一つは、比較的小さいモデルで非常にインタラクティブなレートを実現できたことです。数百万のパラメータを含むモデルを使用しており、1500万のパラメータでトレーニングされたTinyStoriesデータセットを使用していますが、Karpathy氏のアプローチは驚くほど成功しました。 また読む:30BのパラメータでGPT-3を凌駕する新しいAIモデル 低電力デバイスでの驚異的な速度 Karpathy氏は自身のM1…

『2つの方が1つより優れている:AIと自動化を組み合わせて強力な品質エンジニアリングプロセスを作成する方法』

この記事では、品質エンジニアリングプロセスを向上させるためにAIと自動化技術を組み込む方法について学びます

『テキストブックが全て必要です:AIトレーニングへの革新的なアプローチ』

「テキストブックが必要なすべて」論文の概要です高品質な合成テキストブックデータを使用したAIトレーニングにおいて、Phi-1モデルの成功を強調しています

UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:カメラエンコーダとデプスエンコーダを通じて、ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ

カリフォルニア大学サンディエゴ校とMeta AIの研究者たちは、MonoNeRFを紹介しました。この新しいアプローチにより、Neural Radiance Fields(NeRF)をモノクルビデオから学習することが可能になり、正確なカメラの位置情報に依存しなくなりました。 この研究では、NeRFは視点合成、シーンおよびオブジェクトの再構築、意味理解、ロボット工学など、さまざまなアプリケーションで有望な結果を示していることが強調されています。しかし、NeRFの構築には正確なカメラの位置情報の注釈が必要であり、単一のシーンに制約があり、時間のかかるトレーニングと大規模な制約のないビデオへの適用が制限されています。 これらの課題に対応するため、最近の研究では、複数のシーンからなるデータセットでトレーニングを行い、その後、個々のシーンで微調整することにより、一般化可能なNeRFの学習に焦点を当てています。この戦略により、ビュー入力が少ない状態でも再構築および視点合成が可能ですが、トレーニング中にカメラの位置情報が必要です。一部の研究者はカメラの位置情報なしでNeRFをトレーニングしようと試みていますが、これらのアプローチは特定のシーンに限定され、自己教師付きのキャリブレーションの複雑さにより、異なるシーン間での一般化が困難です。 MonoNeRFは、静止したシーンでのカメラの動きを捉えたモノクルビデオでトレーニングすることで、これらの制限を克服します。研究者たちは、現実のビデオは多様な視点ではなく、ゆっくりとしたカメラの変化を示すことを重要な観察とし、これを提案されたフレームワーク内で利用しています。この手法は、大規模な現実のビデオデータセットでトレーニングされたオートエンコーダベースのモデルを使用します。具体的には、深度エンコーダは各フレームの単眼の深度を推定し、カメラの位置エンコーダは連続するフレーム間の相対カメラの位置を決定します。これらの分離された表現は、各入力フレームのNeRF表現を構築するために利用され、推定されたカメラの位置に基づいて別の入力フレームをデコードするためにレンダリングされます。 モデルは、レンダリングされたフレームと入力フレームの一貫性を確保するための再構築損失を使用してトレーニングされます。ただし、再構築損失だけに依存すると、推定された単眼の深度、カメラの位置、およびNeRF表現が同じスケール上にない可能性があるため、ささいな解になる可能性があります。研究者たちは、トレーニング中にこれらの表現を整列させるための新しいスケールキャリブレーション手法を提案しています。彼らの提案されたフレームワークの主な利点は2つあります:3Dカメラの位置情報の必要性がなくなり、大規模なビデオデータセットでの効果的な一般化が実現し、転移性が向上します。 テスト時には、学習された表現を単眼の深度推定、カメラの位置推定、および単一画像の新しい視点合成など、さまざまな下流タスクに適用することができます。研究者たちは、主に屋内シーンで実験を行い、彼らのアプローチの有効性を示しています。彼らの手法は、Scannetのテストセットでの自己教師付き深度推定を大幅に改善し、NYU Depth V2に対して優れた一般化性能を示します。さらに、MonoNeRFは、カメラの位置推定においてRealEstate10Kデータセットを使用した以前のアプローチを一貫して上回っています。新しい視点合成では、カメラの位置の正確な情報なしで学習する方法や、正確なカメラの位置情報に依存する最近のアプローチよりも優れたパフォーマンスを発揮します。 まとめると、研究者たちは、正確なカメラの位置情報を必要とせずにモノクルビデオから一般化可能なNeRFを学習するための新しい実用的な解決策としてMonoNeRFを提案しています。彼らの手法は、以前のアプローチの制約を解決し、大規模なデータセットに関連する深度推定、カメラの位置推定、および新しい視点合成に関連するさまざまなタスクで優れた性能を発揮することを示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us