Learn more about Search Results A - Page 296

PlayHTチームは、感情の概念を持つAIモデルをGenerative Voice AIに導入しますこれにより、特定の感情で話しの生成を制御し、指示することができるようになります

I had trouble accessing your link so I’m going to try to continue without it. 音声認識は、自然言語処理(NLP)の領域で最近開発された技術の一つです。研究者たちは、テキストから音声を生成するための大規模な言語モデルも開発しました。AIは、声の品質、表現、人間の行動など、さまざまな面で人間と同等の結果を達成できることが非常に明確になりました。しかし、これらのモデルにはいくつかの問題がありました。これらのモデルは言語の多様性が少なかったです。音声認識、感情などにも問題がありました。多くの研究者がこれらの問題に気付き、これらはモデルに使用された小さなデータセットに起因することがわかりました。 改善が始まり、PlayHTチームはこのケーススタディの解決策としてPlayHT2.0を導入しました。このモデルの主な利点は、複数の言語を使用し、大量のデータセットを処理することでした。また、このモデルを使用することでモデルのサイズも増加しました。NLPのトランスフォーマーもこのモデルの実装に重要な役割を果たしました。モデルは与えられたトランスクリプトを処理し、音を予測します。これはトークン化と呼ばれるテキストから音声への変換プロセスを経ます。これにより、簡略化されたコードが音波に変換され、人間の音声が生成されます。 このモデルは非常に高い会話能力を持ち、いくつかの感情を持った通常の人間との会話ができます。AIチャットボットを介したこれらの技術は、多くの多国籍企業がオンライン通話やセミナーで使用しています。PlayHT2.0モデルは、それに使用される最適化技術により音声の品質も向上させました。また、元の声を再現することもできます。モデルに使用されるデータセットが非常に大きいため、モデルは元の言語を保持しながら他の言語も話すことができます。モデルのトレーニングプロセスは、多数のエポックとさまざまなハイパーパラメータを使用して行われました。これにより、モデルは音声認識技術においてさまざまな感情を表現するようになりました。 このモデルはまだ進行中であり、さらなる改善が行われる予定です。研究者たちはまだ感情の改善に取り組んでいます。プロンプトエンジニアや多くの研究者も、モデルが今後の数週間で速度、正確性、良いF1スコアの面で更新される可能性があることを発見しました。

「PUGに会ってください:メタAIによるアンリアルエンジンを使用したフォトリアルで意味的に制御可能なデータセットを用いた堅牢なモデル評価に関する新しいAI研究」

データの表現を学び、タスク間で応用できるようにすることは、機械学習における高い目標です。評価とトレーニングのための大量の制御可能な現実的なデータの入手は、この目標を達成し、進捗を監視するために不可欠です。これは、実用的な設定で使用されるモデルにとって、単なる正確さだけでなく、堅牢性と公正性も重要な要素です。しかし、プライバシー、偏見、著作権侵害への懸念があるため、そのような情報を得ることは困難です。一般に公開されている画像データベースのほとんどは、粗い画像の拡張を超えて編集することが困難で、詳細なメタデータが欠けています。 生成されたシーンに影響を与えるすべてのパラメータが正確に制御される合成画像データを使用することで、関連する豊富な因子のラベルを簡単に取得することができます。この方法により、訓練されたディープニューラルネットワークの完全な機能、堅牢性などを評価することができます。潜在的な可能性にもかかわらず、多くの既存の合成画像データセットは、現実的さが不足していたり、通常は限られた範囲しか持っていないため、一般的な画像表現学習の研究には向いていない場合があります。 この問題を解決するために、Meta AI (FAIR)、Mila-Quebec AI Institute、およびモントリオール大学の研究者らは、表現学習の研究コミュニティを念頭に置いて作成された新しい合成フォトリアリスティックアンリアルグラフィックス(PUG)データセットのコレクションを提供しています。これらのデータセットは、現在の公共ドメインで利用可能なものよりもはるかにリアルな画像を特徴としています。ビデオゲームやエンターテイメント業界で広く利用されているリアリズムの高さで評価されるUnreal Engine [EpicGames] を使用して環境を作成しました。また、TorchMultiverse Pythonパッケージも導入しており、静的な画像データセットの事前レンダリングに加えて、任意のPUG環境からの簡単な制御可能なデータセットの生成を可能にするシンプルなPythonインターフェースを提供しています。これらの方法を使用して、彼らは4つの追加のデータセットを追加し、それらがさまざまな研究分野に適用可能であることを示しています: 記号空間の研究とOOD汎化の文脈での基礎モデル研究のための動物。 ImageNetの背景、サイズ、テクスチャ、照明など、因子の変化の包括的なセットは、ImageNetの追加の堅牢性テストセットとして機能します。 言語ビジョンモデルのテストに使用するSPAR。これを使用して、人工データが既存のベンチマークの問題を回避する方法を示します。 PUG: SPARを補完するためのビジョン言語モデルの微調整のベンチマークであるPUG: AR4Tも導入します。  PUGデータセットは、人工的な画像データの制御と写実性の新たな基準を設定しています。

Salesforceの研究者は、XGen-Image-1を導入しました:複数の事前学習済みコンポーネントを再利用するために訓練されたテキストから画像への潜在的な拡散モデル

画像生成は、人工知能(AI)の中で先駆的な分野として登場し、マーケティング、営業、および電子商取引の領域において前例のない機会を提供しています。AIと視覚的コンテンツ作成の融合は、デジタルコミュニケーションの新たな時代を迎え、ビジネスがオーディエンスとの関係を根本的に変えることを意味しています。技術が進化するにつれて、テキストと画像の間のギャップは徐々に縮まり、創造力の領域が開かれています。 この急速に変化する風景の中で、Salesforce Researchチームは画期的なイノベーションであるXGen-Image-1を紹介しています。この画期的な生成型AIは、テキストを画像に変換することに特化しています。画像生成拡散モデルの能力を活用することで、XGen-Image-1は視覚領域を再構築する可能性を秘めています。このモデルのトレーニングは、TPUとLAIONデータセットを使用して$75,000の予算で行われ、注目すべき成果を示しています。そのパフォーマンスは、高い評価を受けているStable Diffusion 1.5/2.1モデルと同等です。 チームのブレークスルーの核心には、転換的な発見があります。潜在モデルである変分オートエンコーダ(VAE)と容易にアクセスできるアップサンプラーの融合が主役です。この革新的な組み合わせにより、32×32などの驚くべき低解像度でのトレーニングが可能になり、簡単に高解像度の1024×1024画像を生成することができます。このイノベーションにより、画像の品質を損なうことなくトレーニングコストが大幅に削減されます。チームの緻密なアプローチにより、自動的な棄却サンプリング、PickScore評価、および推論中の改善が戦略的に行われ、高品質の画像が一貫して生成され、技術の信頼性が高まります。 さらに深く掘り下げると、チームはその手法の複雑な層を解明しています。XGen-Image-1は、ピクセルベースの拡散モデルと潜在ベースの拡散モデルを調和させる潜在的拡散モデルのアプローチを採用しています。ピクセルベースのモデルは個々のピクセルを直接操作しますが、潜在ベースのモデルは圧縮された空間領域でのノイズ除去されたオートエンコード画像表現を活用します。チームの探求は、トレーニング効率と解像度のバランスにおける事前学習されたオートエンコーディングとピクセルアップサンプリングモデルの統合につながります。 データの役割は非常に重要です。XGen-Image-1のトレーニングプロセスの基盤となるLAION-2Bデータセットは、4.5以上の美的評価に基づいて慎重にキュレーションされたものです。この広範なデータセットは、多様で現実的な画像を生成するモデルの能力を高めます。TPU v4を使用してトレーニングインフラストラクチャを最適化することは、チームの革新的な問題解決力を強調しており、ストレージとチェックポイント保存の課題に熟練した対処を行っています。 パフォーマンス評価は、XGen-Image-1の能力の試金石となります。Stable Diffusion 1.5および2.1モデルとの比較分析により、CLIPスコアやFIDなどの優れた指標が示されています。特に、このモデルは迅速な整合性と写真のようなリアリズムに優れており、FIDスコアではStable Diffusionモデルを上回り、競争力のある人間評価パフォーマンスを示しています。棄却サンプリングの統合は、画像出力の改善における効果的なツールとして浮かび上がり、不十分な要素の向上には埋め込み技術などの戦略的な手法が補完されます。 XGen-Image-1の出現は、Salesforce Researchチームの不断のイノベーションへの取り組みを象徴しています。彼らの潜在モデル、アップサンプラー、自動化戦略のシームレスな融合は、創造的な景観を再構築するジェネレーティブAIの可能性を体現しています。開発が進むにつれて、チームの洞察力はAIによる画像作成の軌道を形作り、産業や観客に響く変革的な進歩の道を開くことになります。

USCとMicrosoftの研究者は、UniversalNERを提案します:ターゲット指向の蒸留で訓練され、13,000以上のエンティティタイプを認識し、43のデータセット上でChatGPTのNER精度を9%F1上回る新しいAIモデルです

ChatGPTと他の大規模言語モデル(LLM)は印象的な汎化能力を示していますが、その訓練および推論コストはしばしば制約があります。さらに、モデルの重みや推論確率へのホワイトボックスアクセスは、医療などのミッションクリティカルなアプリケーションにおいて説明可能性と信頼性に頻繁に重要です。その結果、学生モデルへのLLMの縮小を目的とした指示調整が人気を集めています。これらの学生モデルは、AlpacaとVicunaが示したように、ChatGPTを模倣する説得力のあるスキルを示しています。詳細な検討により、特に特定の対象となる下流アプリケーションにおいて、これらの学生モデルが理想的なLLMに追いつく必要があることが明らかになります。 制約された計算リソースのため、一般的な蒸留では、考えられるすべてのアプリケーションに対して元のLLMの表面的な近似しか作成できません。代わりに、この研究ではターゲット指向の蒸留を調査しています。この研究では、オープン情報抽出のような多様なアプリケーションクラスのためのミッション重点の指示調整によって学生モデルを訓練します。彼らは、指定されたアプリケーションクラスに対してLLMの能力を最大限に再現できることを示しています。名前付きエンティティ認識(NER)は、自然言語処理における最も基本的な問題の1つであるため、彼らはケーススタディとしてそれを選びました。最近の研究では、多数の注釈付きインスタンスがある場合、LLMはエンティティタイプにおいて最も高度な教師ありシステムに追いつく必要があることが示されています。 しかし、ほとんどのオブジェクト種類には注釈付けがほとんどできない必要があります。注釈付けの例を開発することは、特に専門知識が必要なバイオロジーなどの高価値セクターでは、コストがかかり、時間がかかります。新しいエンティティタイプが絶えず出現しています。教師ありNERモデルは、事前指定されたエンティティタイプとドメインで訓練されているため、新しいドメインやエンティティタイプに対して一般化能力が低いことも示されています。彼らはLLMのターゲット指向の蒸留のための一般的なプロセスを概説し、オープンドメインNERがそれを使用する方法を示しています。南カリフォルニア大学とマイクロソフトリサーチの研究者は、大量の未ラベルのオンラインテキストからNERのための指示調整データを作成し、LLaMAを使用してUniversalNERモデル(UniNERと略される)を作成する方法を示しています。 彼らは、医学、プログラミング、ソーシャルメディア、法律、ファイナンスなど9つの異なる分野の43のデータセットからなる、これまでで最も大規模かつ多様なNERベンチマーク(UniversalNERベンチマーク)を提供します。LLaMAとAlpacaはこのベンチマークで悪いスコア(約0のF1)を受けます。Vicunaは比較的にはるかに良いパフォーマンスを示しますが、平均F1ではChatGPTよりも20以上の絶対ポイント遅れています。一方、UniversalNERは平均F1でVicunaを30以上の絶対ポイントで上回り、UniversalNERベンチマークの数万のエンティティタイプ全体で最新のNER精度を達成します。パラメータ数(70-130億)が少ないChatGPTのエンティティを認識する能力を再現するだけでなく、UniversalNERは平均F1でChatGPTのNER精度を7-9絶対ポイント上回ります。 驚くべきことに、UniversalNERは、教師ありNERインスタンスを使用するInstructUIEのような最新のマルチタスク指示調整システムを大幅に上回ります。彼らはまた、指示プロンプトやネガティブサンプリングなどの異なる蒸留コンポーネントの効果を評価するために包括的な削除テストを行います。彼らは蒸留のレシピ、データ、およびUniversalNERモデルを提供し、ターゲット指向の蒸留に関するさらなる研究を支援するためのインタラクティブデモを提供します。

「Apple TV用の最高の10のVPN(2023年8月)」

Apple TVのベスト10のVPN · 1. NordVPN · 2. Surfshark · 3. Atlas VPN · 4. Proton VPN · 5. ExpressVPN · 6. CyberGhost VPN ·…

「これまでに見たことのない新しいコンセプトをどのように生成できるのか?テルアビブ大学の研究者たちは、ConceptLabという名前の新しいアイデア生成手法を提案していますこれは拡散事前制約を用いた創造的な生成手法です」

人工知能の分野における最近の進展は、さまざまなユースケースに対する解決策をもたらしています。異なるテキストから画像を生成するモデルは、書かれた言葉を鮮やかで没入感のある視覚的表現に変換する新しい興味深い分野を築き上げています。新しい状況で独自のアイデアを概念化する能力は、パーソナライゼーション技術の爆発的な進化によってさらに拡大されています。創造的な行動をシミュレートするアルゴリズムや人間の創造的プロセスを向上・拡張することを目指すアルゴリズムがいくつか開発されています。 研究者たちはこれらの技術を使用して、完全に独自かつ革新的な概念をどのように創造できるかを調査しています。そのために、最近の研究論文では、研究チームが創造的なテキストから画像を生成する分野においてConcept Labを紹介しました。この分野における基本的な目標は、広範なカテゴリに属する新鮮な例を提供することです。私たちが慣れ親しんだすべての品種とは根本的に異なる新しいペットの品種を開発するという課題を考えると、Diffusion Priorモデルの領域がこの研究の主要なツールです。 このアプローチは、トークンベースのパーソナライゼーションからインスピレーションを得ています。トークンを使用してユニークな概念を表現するために、事前にトレーニングされた生成モデルのテキストエンコーダを使用します。意図した対象の以前の写真が存在しないため、新しい概念を作成するのは従来の逆像技術を使用するよりも困難です。このために、CLIPビジョン言語モデルが最適化プロセスを指示するために使用されています。制約にはプラス面とマイナス面があります。マイナスの制約は、生成が逸脱すべきカテゴリの既存のメンバーをカバーし、プラスの制約は広範なカテゴリに合致する画像の開発を促進します。 著者たちは、本当に独自のコンテンツを作成する難しさを拡散優先の出力空間上で効果的に表現できることを示しています。最適化プロセスは、彼らが「プライオリ制約」と呼ぶものによって結果を生み出します。研究者たちは、既存のカテゴリのメンバーに収束するだけではないように生成された概念が進化することを保証するために、質問応答モデルをフレームワークに組み込んでいます。この適応モデルは、繰り返し新しい制約を追加することによって最適化プロセスに重要な役割を果たします。 これらの追加の制約は、最適化プロセスを導き、ますますユニークで特異な発明を見つけるように促します。このシステムの適応性の高さにより、モデルは創造的な限界に挑戦するように推進されるため、想像力の未知の領域を徐々に探索します。著者たちは、提案された以前の制約の適応可能性にも重点を置いています。これらは、単独で独自の概念を作成しやすくするだけでなく、強力なミキシングメカニズムとして機能します。概念をミックスする能力により、生成された概念の創造的な融合であるハイブリッドを作成することができます。この追加の適応性の度合いは、創造的なプロセスを向上させ、より興味深く多様な結果を生み出します。 結論として、この研究の主な目標は、現代のテキストから画像を生成するモデルと、研究が不足しているDiffusion Priorモデル、および質問応答モデルによって駆動される適応的な制約拡張メカニズムを組み合わせて、独自で目を引くコンテンツを生成し、創造的な空間の柔軟な探索を促進する徹底的な戦略を開発することです。

「開発チームのためのAIツール 採用するべきか否か?」

「AIツールがより人気になるにつれて、それを導入する際のリスクと利点を知ることが重要ですCodiumAIのイタマール・フリードマンがDev Interruptedに参加し、お手伝いします」

Google AIは、ドキュメント理解タスクの進捗状況をより正確に追跡するためのデータセットである「Visually Rich Document Understanding (VRDU)」を導入しました

I had trouble accessing your link so I’m going to try to continue without it. 今日のデジタル時代において、ビジネスによって作成された文書はますます増え、保存されています。これらの文書には有用な情報が含まれている場合もありますが、読みやすく理解しやすいとは限りません。請求書、フォーム、契約書など、視覚的に複雑なものはさらに困難を伴います。このような出版物のレイアウト、表、グラフィックスは、有用な情報を抽出することを困難にするかもしれません。 この知識のギャップを埋め、文書理解タスクの進捗状況を改善するために、Googleの研究者は新しい「Visually Rich Document Understanding (VRDU)」データセットの提供を発表しました。このデータセットは、通常文書理解モデルで処理される実世界の文書のタイプに基づいており、効果的なベンチマークのための5つの基準を示しています。研究コミュニティで最も一般的に使用されるデータセットが少なくとも1つの基準を満たしていないのに対し、VRDUはすべての基準で優れています。Googleの研究者は、VRDUデータセットと評価コードをクリエイティブ・コモンズ・ライセンスの下で一般に公開することを喜んでいます。 「Visually Rich Document…

大規模言語モデルは、テキスト評価のタスクで人間を置き換えることができるのか? このAI論文では、テキストの品質を評価するためにLLMを使用し、人間の評価の代替手段として提案しています

I had trouble accessing your link so I’m going to try to continue without it. 以下のHTMLを日本語に翻訳します(HTMLコードは結果に含めます): 自然言語処理モデルとテキスト品質を示すアルゴリズムのパフォーマンスを評価するために、人間の評価が使用されてきました。しかし、人間の評価は一貫しているわけではなく、再現性がない場合もあります。同じ人間の評価者を募集し、評価基準の主観性や解釈の違いを含むさまざまな要素(評価基準の解釈など)により、同じ評価を返すことは困難です。 台湾国立大学の研究者は、この再現性の問題に対処するために、「大規模言語モデル」(人間の言語をモデル化するために訓練されたモデル)の使用を研究しました。彼らは、人間の評価と同じ指示、評価対象のサンプル、および質問を大規模言語モデルに提示し、それらの質問に対する応答を大規模言語モデルに生成させました。彼らは、オープンエンドのストーリー生成と敵対的攻撃という2つの自然言語処理タスクで、人間と大規模言語モデルの評価を使用してテキストを評価しました。 「オープンエンドのストーリー生成」では、人間と生成モデル(GPT-2)によって生成されたストーリーの品質を、大規模言語モデルと人間が評価することで検証しました。 そのために、評価指示、生成されたストーリーの断片、および評価質問に基づいて、それぞれ文法の正確さ、一貫性、好み、関連性の4つの属性に基づいてリケルト尺度(5段階)で評価されるアンケートを作成しました。 人間の評価では、ユーザーは準備されたアンケートに回答します。大規模言語モデルによる評価では、アンケートをプロンプトとして入力し、大規模言語モデルから出力を取得します。研究者は、T0、text-curie-001、text-davinci-003、ChatGPTという4つの大規模言語モデルを使用しました。人間の評価には、有名な英語教師を使用しました。これらの大規模言語モデルと英語教師は、人間が書いたストーリーとGPT-2が生成したストーリーをそれぞれ200件評価しました。英語教師による評価では、人間が書いたストーリーに対して4つの属性(文法的正確さ、結束性、好み、関連性)のすべてにおいて好意的な評価が示されました。これは、英語教師が生成モデルによって書かれたストーリーと人間によって書かれたストーリーの品質の違いを区別できることを示しています。しかし、T0とtext-curie-001は人間が書いたストーリーに明確な優位性を示しません。これは、大規模言語モデルがオープンエンドのストーリー生成を評価する際には、人間の専門家よりも能力が低いことを示しています。一方、text-davinci-003は人間が書いたストーリーと英語教師に明確な優位性を示しました。さらに、ChatGPTも人間が書いたストーリーに高い評価を示しました。 彼らは、AIの文を分類する能力をテストする敵対的攻撃のタスクを調査しました。彼らは、文をいくつかの敵対的攻撃(文をわずかに変更するための同義語の使用)で分類する能力をテストしました。そして、攻撃がAIの文の分類能力にどのように影響を与えるかを評価しました。これは、大規模言語モデル(ChatGPT)と人間を使用して行いました。 敵対的攻撃に対して、英語教師(人間の評価)は、敵対的攻撃によって生成された文を流暢さと意味の保存の点で元の文よりも低く評価しました。さらに、ChatGPTは敵対的攻撃の文に対して高い評価を与えました。また、ChatGPTは敵対的攻撃の文を元の文よりも低く評価しました。全体的に、大規模言語モデルは敵対的攻撃の文と元の文の品質を人間と同じように評価しました。 研究者は、大規模言語モデルによる評価の以下の4つの利点を指摘しています:再現性、独立性、コスト効率と速度、および不適切なコンテンツへの露出の低減。ただし、大規模言語モデルは事実の誤解釈にも影響を受けやすく、学習方法にはバイアスが導入される可能性があります。さらに、これらのモデルには感情がないため、感情を含むタスクの評価において効果が制限される可能性があります。人間の評価と大規模言語モデルによる評価は、それぞれ独自の強みと弱点を持っています。最適な効果は、人間とこれらの大規模モデルの組み合わせによって達成される可能性があります。

「簡単な英語プロンプトでLLMをトレーニング!gpt-llm-trainerと出会って、タスク固有のLLMをトレーニングする最も簡単な方法」

大規模な言語モデル(LLM)と呼ばれるAIの形式は、人間と同等のテキストを生成することが証明されています。しかし、LLMの訓練は、高性能のコンピュータと膨大なデータの必要性を伴う、リソースを多く消費する操作です。 gpt-llm-trainerは、ローカルマシン上でLLMのトレーニングを容易にするプログラムです。GPT-4言語モデルを使用して、ユニークなLLMを訓練し、質問と回答のデータセットを生成します。このソフトウェアはまた、テキスト生成、言語翻訳、クリエイティブライティングなどの特定の目標に対してモデルを微調整することも可能です。 gpt-llm-trainerの特徴は次のとおりです: 指定されたユースケースを使用して、get-llm-trainerはGPT-4を使用して、幅広い質問と回答を含むデータセットを生成します。その結果、手作業でデータを収集する時間を節約することができます。 モデルに対して効率的なシステムメッセージを生成するために、get-llm-trainerはシステムプロンプトを生成することができます。これにより、モデルがユーザーの入力とその結果の行動を正確に解釈することができます。 データセットがトレーニングセットとバリデーションセットに自動的に分割された後、システムはモデルを微調整し、推論の準備を行います。そのため、モデルを手作業で微調整する時間を節約することができます。 gpt-llm-trainerはクラウドとコンピュータのハードドライブの両方で動作します。この柔軟性により、さまざまな予算でLLMをトレーニングするための有用なリソースとなります。 gpt-llm-trainerは、自分のLLMをトレーニングしたい人にとって優れたリソースです。学習曲線が低く、多機能であり、オンプレミスとリモートサーバーの両方と互換性があります。 gpt-llm-trainerの使用例は次のとおりです: 記事、ブログ投稿、オリジナルの散文などを、gpt-llm-trainerの助けを借りて生成することができます。 gpt-llm-trainerは、翻訳においてさまざまな話される言語や方言の間を変換することができます。 詩、コード、スクリプト、楽曲、メール、手紙など、クリエイティブなコンテンツの作成には、gpt-llm-trainerの助けがあります。 問い合わせがオープンエンド、困難であるか、または奇妙である場合でも、get-llm-trainerは有用な応答を提供することができます。 要約、質問応答、自然言語推論に加えて、gpt-llm-trainerには多くの潜在的な応用があります。 制限事項 get-llm-trainerは進行中の作業のため、いくつかの既知の制限事項があります。生成されたコンテンツは必ずしも真実である必要はなく、文法的にも正しいとは限りません。また、訓練手順は計算資源と時間を消費する場合があります。 まとめると、get-llm-trainerはLLMをトレーニングするための強力なツールです。さまざまな機能をサポートし、非常に使いやすいです。ただし、ツールを使用する前に制限事項を知っておく必要があります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us