Learn more about Search Results MarkTechPost - Page 13

ジェミニに会ってください:Googleの画期的なマルチモーダルAIモデルが人工知能の未来を再定義する

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-06-at-11.41.53-PM-1024×550.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-06-at-11.41.53-PM-150×150.png”/><p>Googleの最新の人工知能「ジェミニ」は、AI技術の大きな飛躍を表しています。驚くべき能力を持つAIモデルとして発表されたジェミニは、GoogleのAIファースト戦略に対する持続的な取り組みを証明しています。この開発は、Googleだけでなく、AIの広い領域において新たな可能性と改善をもたらします。それは、開発者、企業、そして世界中のエンドユーザーにとってのものです。</p><p>Google DeepMindとGoogle Researchの共同開発であるジェミニは、本来的にマルチモーダルな設計とされています。これは、テキスト、コード、音声、画像、動画など、さまざまな情報タイプを理解し、処理し、統合することができることを意味します。そのモデルのアーキテクチャは、データセンターからモバイルデバイスまで、さまざまなデバイスで効率的に動作することができ、その柔軟性と適応性を示しています。</p><p>ジェミニの最初のバージョンであるジェミニ1.0には、Gemini Ultra、Gemini Pro、Gemini Nanoの3つのバリアントがあります。それぞれのバリアントは、特定のユースケースに最適化されています:</p><ol><li><strong>Gemini Ultra</strong>:高度に複雑なタスクに最適化された最も包括的なモデルです。さまざまな学術ベンチマークで優れたパフォーマンスを発揮し、32のベンチマーク中30のベンチマークで現在の最先端の結果を上回っています。特に、複数のドメインでの知識と問題解決をテストするMassive Multitask Language Understanding (MMLU)では、人間の専門家を超える最初のモデルです。</li><li><strong>Gemini Pro</strong>:幅広いタスクにスケーリングするための最適なモデルとされており、能力と汎用性のバランスを提供します。</li><li><strong>Gemini Nano</strong>:オンデバイスのタスクに最適化された、最も効率的でモバイルデバイスや類似のプラットフォームに適したバージョンです。</li></ol><figure></figure><p>ジェミニの重要な強みの一つは、洗練された推論能力です。このモデルは、複雑な文章や視覚情報を分析し解釈することができるため、広範なデータセットに隠された知識を解き放つのに特に優れています。この能力は、科学や金融などさまざまな分野でのブレークスルーを促進することが期待されています。</p><p>コーディングの観点では、ジェミニ・ウルトラは驚異的な能力を発揮します。複数のプログラミング言語で高品質のコードを理解し説明、生成することができるため、コーディングのためのリーディングなファウンデーションモデルの一つとなっています。</p><figure><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-06-at-11.44.02-PM-1024×891.png”/><figcaption>https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf</figcaption></figure><p>ただし、ジェミニは単一のモデルではなく、異なるニーズと計算環境に対応するために設計されたモデルのファミリーです。これは、通常、異なるモーダリティのために別々のコンポーネントをトレーニングしてからそれらを結合するという従来のマルチモーダルモデルの方法からの脱却を示しています。代わりに、ジェミニは最初からネイティブでマルチモーダルなので、さまざまな情報のよりシームレスで効果的な統合が可能です。</p><p>まとめると、Googleのジェミニは、AIの領域における重要な進歩を表しています。そのマルチモーダルの能力、柔軟性、最先端のパフォーマンスは、幅広いアプリケーションにおいて強力なツールとなります。このモデルはGoogleの野心と責任あるAI開発への取り組みを反映し、ますます高度なAIシステムの社会的および倫理的な影響を考慮しながら、可能性の限界を広げています。</p>

「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」

一定のトレーニングプロセスを経て、拡散モデルは画像生成を革新し、従来にない多様性とリアリズムのレベルを達成しました。しかし、GANやVAEとは異なり、そのサンプリングはガウス性ノイズのサンプルのノイズを徐々に減少させ、プログレッシブなデノイジングにより複雑な画像を生成する努力の連続的なプロセスです。これにより、生成パイプラインをクリエイティブなツールとして利用する際の相互作用の量が制限され、通常は多くの高価なニューラルネットワーク評価を必要とします。以前の手法は、初めの多段階の拡散サンプリングで見つかったノイズ→画像のマッピングを単回の学習ネットワークに濃縮し、サンプリングプロセスを高速化します。こうした高次元で複雑なマッピングをフィットすることは、確かに困難な作業です。 改良の余地の一つは、学習モデル全体のデノイジング経路を実行し、単一の損失を計算するための学習モデルのサンプル距離を徐々に拡大していく際に発生する高額な費用です。現在の手法は、元の多段階拡散モデルのデノイジングサイクルを繰り返さずに、学生のサンプル距離を徐々に拡張することでこれを軽減しています。ただし、元の多段階拡散モデルの方が蒸留版よりも優れています。逆に、研究チームは、ノイズと拡散生成された画像の対応を必要とせずに、学生の生成物が元の拡散モデルと同じであることを強調しています。一般的には、彼らの目標の理論的背景は、他の分布マッチング生成モデル(GMMNやGANなど)と似ています。 ただし、リアルなグラフィックを生成する能力は非常に優れているにもかかわらず、一般的なテキストから画像へのモデルのスケーリングは困難であることがわかっています。研究チームは、この問題を解決するために、以前にテキストから画像に広範にトレーニングされた拡散モデルを起点にしています。研究チームは、トレーニングされた拡散モデルを特に微調整することで、データ分布とそれによって生成される架空の分布を学びます。研究チームは、デノイズされた拡散出力を画像を「よりリアル」または(拡散モデルが偽の画像でトレーニングされている場合)「よりフェイク」にするための勾配方向として解釈することができます。なぜなら、拡散モデルは拡散分布のスコア関数を近似することで知られているからです。 最終的に、ジェネレータの勾配更新ルールは、この2つの差として作成され、人工の画像をよりリアリスティックに、よりフェイクから遠ざけます。また、事前学習された拡散モデルによるリアルと偽の分布のモデリングを使用して3Dオブジェクトのテスト時最適化を達成することも可能です。以前の研究では、Variational Score Distillationという手法を使用してこれを実証しています。研究チームは、同様の手法を使用して完全な生成モデルをトレーニングできることも発見しています。さらに、研究チームは、分布マッチング損失の存在下で、多段階拡散サンプリングの結果のわずかな数が事前計算され、1ステップの生成に関するシンプルな回帰損失を実装することで効果的な正則化子として機能することを見つけています。 MITとAdobe Researchの研究者は、Distribution Matching Distillation(DMD)と呼ばれるプロセスを提供しています。これは、画像の品質にほとんど影響を与えずに拡散モデルを1ステップの画像生成器に変換するプロセスです。彼らのアプローチは、VSD、GAN、およびpix2pixからのインスピレーションや洞察を受けています。この研究チームは、(1) 拡散モデルを使用してリアルな分布とフェイクの分布をモデル化し、(2) 多段階拡散出力とシンプルな回帰損失を一致させることで、高精度の1ステップ生成モデルをトレーニングすることができることを示しています。彼らのDistribution Matching Distillation(DMD)技術でトレーニングされたモデルをMS COCO 512×512のゼロショットテキストから画像の生成、CIFAR-10およびImageNet 64×64の画像生成など、さまざまなタスクで評価しています。彼らの1ステップジェネレータは、一括生成モデル、進行的ディスティレーション、修正フローなどの全てのベンチマークで、既知の少数ステップ拡散手法よりも優れたパフォーマンスを発揮します。 DMDはImageNetでのFIDが2.62であり、Consistency Modelを2.4倍上回ります。DMDはStable Diffusionと同じデノイザーアーキテクチャを使用して、MS-COCO 2014-30kで11.49の競争力のあるFIDを達成します。彼らの定量的および定性的な分析は、研究チームのモデルで生成される画像がより高度な品質であり、より高価なStable Diffusionモデルで生成されるものと比較できることを示しています。特に、このレベルの視覚品質を保ちながら、ニューラルネットワークの評価数を100倍減少させることができるという点で、その効率性によって、DMDはFP16推論を使用することで秒間20フレームの速度で512×512の画像を生成できるようになり、多くのインタラクティブなアプリケーションの可能性を開拓しています。

このAI研究は、CoDi-2を紹介します:インターリーブされた指示処理とマルチモーダルな出力生成の風景を変える画期的なマルチモーダル大規模言語モデルです

研究者たちは、UCバークレー、Microsoft Azure AI、Zoom、UNC-Chapel Hillによって開発されたCoDi-2 Multimodal Large Language Model(MLLM)を利用して、複雑な多モーダル指示の生成と理解の問題に取り組みました。さらに、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいても優れた性能を発揮します。このモデルは包括的な多モーダル基盤の確立において、重要な突破口となります。 CoDi-2は、前身であるCoDiの機能を拡張し、被駆動型画像生成やオーディオ編集といったタスクで優れた性能を発揮します。このモデルのアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれています。トレーニングでは、拡散モデルからのピクセル損失とトークン損失が組み合わされます。CoDi-2は、スタイルの適応や被駆動型生成などのタスクにおいて、顕著なゼロショットおよびフューショットの能力を示します。 CoDi-2は、多モーダル生成における課題に取り組み、ゼロショットの詳細制御、モダリティを交互にする指示の追従、およびマルチラウンドの多モーダルチャットに重点を置いています。LLMをその脳として利用することで、CoDi-2はエンコードおよび生成の過程でモダリティを言語と整合させることができます。このアプローチにより、モデルは複雑な指示を理解し、一貫性のある多モーダル出力を生成することができます。 CoDi-2のアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれており、多モーダルの大規模言語モデル内に組み込まれています。さまざまな生成データセットでトレーニングされたCoDi-2は、トークン損失に加えて拡散モデルからのピクセル損失を利用しています。優れたゼロショットの能力を示し、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいて、競争力のあるパフォーマンスと新しい未知のタスクに対する一般化能力を発揮します。 CoDi-2は、多文脈での学習、推論、任意のモダリティ生成を通じてゼロショットの能力を広範に持ちます。評価結果は、高い競争力のあるゼロショットのパフォーマンスと新しい未知のタスクへの堅牢な一般化を示しています。CoDi-2は、オーディオ編集のタスクで優れたパフォーマンスを達成し、すべてのメトリクスにおいて最低スコアとなる要素の追加、削除、および置換によるパフォーマンスを示します。高品質な多モーダル生成を進化させるために、コンテキストの年齢、概念学習、編集、および詳細な制御の重要性を強調します。 CoDi-2は、複雑な指示の追従、コンテキストでの学習、推論、チャット、および異なる入力-出力モードでの編集など、さまざまなタスクで優れた能力を持つ先進的なAIシステムです。異なるスタイルに適応し、さまざまな主題に基づいたコンテンツを生成し、オーディオを操作する能力においても、多モーダル基盤モデリングにおける重要な突破口となります。CoDi-2は、訓練されていないタスクでも多くのタスクを処理できる包括的なシステムの作成に向けた印象的な探索です。 CoDi-2の将来の展開では、コンテキストでの学習の改善、対話能力の拡張、および追加のモダリティのサポートにより、多モーダルの生成能力を向上させることを計画しています。拡散モデルなどの技術を使用して、画像とオーディオの品質を向上させることも目指しています。将来の研究では、CoDi-2を他のモデルと評価・比較し、その強みと制限を理解することも含まれるでしょう。

Googleの研究者が新たな大規模言語モデルの能力向上に向けた『Universal Self-Consistency (USC)』を披露

複数の候補者から最も一貫性のある回答を選び出し、特に数理推論やコード生成などのタスクのパフォーマンスを向上させる問題は、Googleの研究者によって彼らのUniversal Self-Consistency (USC) メソッドを介して取り組まれてきました。このメソッドはLLMを活用し、同一の回答形式や実行結果へのアクセスを必要とせずに、標準的な自己整合性と比較可能な結果を達成します。 再ランキングはアウトプットのサンプリングと事後の基準の適用により、言語モデルの生成を改善します。LLMは、人間の参照なしでモデル生成テキストを評価します。提案されたUSCメソッドは、追加のラベル付きデータや外部の再ランキングモデルを必要とせずに、標準自己整合性と同等のパフォーマンスを発揮します。 LLMは数理推論やコード生成などのタスクに優れています。従来のアプローチでは、サンプリングと基準に基づいて選択することで、LLMの出力品質を向上させてきました。自己整合性はユニークな回答を持つ仕事に効果的ですが、開放的な時代には苦労します。USCは、LLMを使用して複数の候補者から最も一貫性のある回答を選びます。多様なベンチマークで実証されたように、回答の抽出を排除したUSCは、開放的な生成タスクの向上に効果的です。 USCメソッドはLLMを用いて複数の候補者から最も一貫性のある回答を選び出すことで、回答の抽出の必要性を排除します。USCは数理推論、コード生成、要約、開放的なQAなどのベンチマークを使用して自己整合性を自由形式の生成タスクに拡張します。アプローチはLLMを使用して複数のサンプルを生成し、一貫性に基づいて回答を選択します。 USCメソッドは、オリジナルの自己整合性アプローチの制限を超えた開放的生成タスクでの有効性を示しています。USCは、異なる回答形式を持つ数理推論タスクで標準の自己整合性に匹敵し、コード生成タスクではコードの実行を必要としない実行ベースの自己整合性と同等の結果を示します。USCは長い文脈の要約タスクでベースラインを常に改善し、TruthfulQAベンチマークで最高の真実性と情報性の評価を受けます。USCのパフォーマンスは異なる回答順序に対して堅牢であり、特定のタスクの微調整によりさらに向上させることができます。 結論として、USCメソッドは長い文脈の要約や開放的な質問応答タスクにおいてベースラインを一貫して上回り、自由形式の生成タスクにおいて非常に効果的であることが示されています。LLMを使用して複数の候補者から最も一貫性のある回答を選び出すことで、数理推論タスクやコード生成タスクなどのさまざまな応用において、類似した回答形式や実際の実行結果を必要としません。USCは、さまざまな文脈で正確で信頼性の高い回答を生成するための貴重なツールです。

「トップ40以上の創発的AIツール(2023年12月)」

ChatGPT – GPT-4 GPT-4は、以前のモデルよりもより創造的で正確かつ安全なOpenAIの最新のLLMです。また、画像、PDF、CSVなどの多様な形式も処理できるマルチモーダル機能も備えています。コードインタープリターの導入により、GPT-4は独自のコードを実行して幻覚を防ぎ、正確な回答を提供することができます。 Bing AI Bing AIは、OpenAIのGPT-4モデルを搭載し、正確な回答を提供するためにウェブを横断することができます。また、ユーザーのプロンプトから画像を生成する能力も持っています。 GitHub Copilot GitHub Copilotは、コードを分析し、即座のフィードバックと関連するコードの提案を提供するAIコード補完ツールです。 DALL-E 2 DALL-E 2はOpenAIによって開発されたテキストから画像を生成するツールで、ユーザーのプロンプトに基づいてオリジナルの画像を作成します。不適切なユーザーリクエストを拒否するように設計されています。 Cohere Generate Cohere Generateは、AIの潜在能力を活用してビジネスプロセスを向上させるものです。メール、ランディングページ、製品の説明など、さまざまな要件に合わせたパーソナライズされたコンテンツを提供します。 AlphaCode AlphaCodeはDeepMindによって開発され、競争力のあるレベルでコンピュータプログラムを作成することができます。 Adobe Firefly…

「リトリーバル増強生成(RAG)とファインチューニング、どちらを選ぶべきですか?」

最近数ヶ月間、大型言語モデル(LLM)の人気が急上昇しています。自然言語処理、自然言語理解、自然言語生成の強みに基づいて、これらのモデルはほとんどの産業でその能力を発揮しています。生成型人工知能の導入により、これらのモデルは人間のようなテキスト応答を生成するように訓練されるようになりました。 有名なGPTモデルにより、OpenAIはLLMの力を示し、変革的な開発の道を切り拓きました。ファインチューニングやRetrieval Augmented Generation(RAG)などの手法により、より正確で文脈豊かな応答を提供するための問題に対するAIモデルの能力が向上しています。 Retrieval Augmented Generation(RAG) RAGでは、検索ベース型と生成型のモデルが組み合わされます。従来の生成型モデルとは異なり、RAGは基盤となるモデルを変更せずに、対象となる最新のデータを取り込むことで既存の知識の枠組みを超えて活動することができます。 RAGの基本的なアイデアは、特定の組織やドメインのデータに基づいて知識リポジトリを構築することです。リポジトリが定期的に更新されるため、生成型AIは最新の文脈に即したデータにアクセスすることができます。これにより、モデルは組織のニーズに合わせて、より正確かつ複雑な応答をユーザーの入力に対して返すことができます。 大量の動的データは標準の形式に変換され、知識ライブラリに保持されます。その後、データは埋め込まれた言語モデルを使用して数値表現を作成し、ベクトルデータベースに保持されます。RAGにより、AIシステムは言葉を生成するだけでなく、最新かつ関連性の高いデータを用いて生成することが保証されます。 ファインチューニング ファインチューニングは、事前に訓練されたモデルを特定のアクションを実行したり、特定の振る舞いを表示したりするためにカスタマイズする方法です。これは、多数のデータポイントで訓練された既存のモデルを取り上げて、より具体的な目標に適合するように修正することを含みます。自然言語コンテンツを生成するのに長けた事前訓練済みモデルを、ジョークや詩、要約など特定の対象に特化させることができます。ファインチューニングにより、開発者は広範なモデルの知識とスキルを特定の主題やタスクに適用することができます。 ファインチューニングは特にタスク固有のパフォーマンス向上に役立ちます。特定のタスクについて、専門的な情報を適切に選択したデータセットを通じて提供することで、モデルは精度の高い文脈に即した出力を生成する能力を獲得します。ファインチューニングにより、初めから始めるのではなく既存の情報を活用するため、トレーニングに必要な時間と計算リソースも大幅に削減されます。この方法により、モデルは狭いドメインに順応することで、より効果的に焦点を絞った回答を提供することができます。 ファインチューニングとRAGの評価時に考慮すべき要素 RAGは頻繁なモデルの再学習を必要とせずに、定期的に外部の情報源から最新のデータを要求することで、動的データの状況で非常に優れたパフォーマンスを発揮します。一方、ファインチューニングには再現性の保証がないため、信頼性が低くなります。 RAGは他の情報源から関連するデータを取得することで、LLMの機能を向上させます。これはドキュメントの要約、オープンドメインの質問応答、ナレッジベースからデータを取得できるチャットボットなど、外部の知識へのアクセスが必要なタスクに適しています。ファインチューニングは頻繁に変わるデータソースに対しては適用できない場合があります。 RAGは小さなモデルの利用を制限します。一方、ファインチューニングは小規模モデルの効果を高めることで、より迅速で費用のかかる推論を可能にします。 RAGは自動的に取得した情報に基づいて言語のスタイルやドメインの専門化を調整することはありません。一方、ファインチューニングは行動や文章スタイル、ドメイン固有の知識の調整により、特定のスタイルや専門領域との深い整合性を提供します。 RAGは一貫性があり、情報をもとに回答を生成します。ファインチューニングは幻覚を抑えることができるかもしれませんが、新しい刺激にさらされると、生成される反応は作り上げられる場合もあります。 RAGは応答生成を分割して明示的なフェーズに分け、データの取得方法に関する情報を提供することで透明性を提供します。一方、ファインチューニングは回答の基本となるロジックの透明性が低くなります。 RAGとファインチューニングのユースケースの違いは何ですか? LLMはテキストのカテゴリ分類、感情分析、テキスト生成などのさまざまなNLPタスクに対してファインチューニングできます。これらのタスクでは、入力に応じてテキストを理解し生成することが主な目的となります。一方、RAGモデルは、ドキュメントの要約、オープンドメインの質問応答、ナレッジベースからデータを取得できるチャットボットなど、外部の知識へのアクセスがタスクに必要な場合に優れたパフォーマンスを発揮します。 トレーニングデータに基づくRAGとFine-tuningの違い LLMをFine-tuningする際、彼らは特定の検索手法を使用するわけではありませんが、一般的には目標タスクに一致するラベル付きの例から構成されるタスク固有のトレーニングデータに依存します。一方、RAGモデルは検索と生成の両方のタスクを行うために訓練されます。これには、成功した検索と外部情報の使用を示すデータを生成のための教師付きデータと組み合わせる必要があります。…

トップのAIメールアシスタント(2023年12月)

人工知能のメールアシスタントは、メールの作成をスムーズかつ簡単にするためのツールです。自動的なタスク補完、メッセージの優先順位付け、そして即座で洞察に富んだ回答によって、AIのメールアシスタントはあなたの受信箱の管理の負担を軽減する方法です。その結果、ユーザーは最も重要なメールに集中して、より短い時間でより多くの作業を行うことができます。AIによって動作する自動化されたメールヘルパーは、あなたの代わりにメッセージを書いたり送ったりすることもできます。 様々な職業の人々-多忙なオフィス労働者や企業オーナー、個人事業主や学生など-が人工知能とメールヘルパーを利用しています。AIのメールアシスタントは、スケジュールの詰まったプロフェッショナルが受信箱を管理し、重要なメッセージを見逃さないための素晴らしいツールです。AIのメールアシスタントは、起業家や企業オーナーにとって時間と労力を節約するツールです。AIのメールアシスタントを使用することは、学生が組織的に保ち、教授との連絡を取るための素晴らしい方法です。 この記事では、いくつかの人気のあるAIメールアシスタントを比較します。 SaneBox SaneBoxのAIは重要なメールを識別し、他のメールを自動的に整理して集中力を高めるためのお手伝いをします。SaneBoxは、インテリジェントなAIアルゴリズムを使用してあなたのメールの振る舞いを分析します。過去のやり取りから学び、重要なメールを識別し、重要でないメッセージを別のフォルダに移動し、ニュースレターやソーシャルメディアの通知をまとめます。要するに、混沌を秩序に変え、デジタルなやりとりを効率化します。 InboxPro AIと強力な自動化ツールを使用してGmailの生産性を向上させましょう。InboxProは、営業や顧客サポートをよりスムーズにするオールインワンのソリューションです。 Lavender  Lavenderは、AIで動作するメールアシスタントであり、世界中の数千の小売業者が電子メールを通じて顧客に対する品質と速度を向上させるのに役立っています。Lavenderはパブリックの広告会社ではなく、プライベートの会社です。クッキーによって動作し、ウェブサイトの機能を向上させることができます。ログインのセキュリティ確保や同意設定のカスタマイズなど、基本的な機能はクッキーに依存しています。ソーシャルメディアの共有、フィードバックの収集、その他の第三者の統合は、機能クッキーに頼って正しく動作します。解析クッキーは訪問回数、跳ね返り率、トラフィックソースなどのデータを収集し、ウェブサイトのユーザーの行動を把握するために使用されます。 Missive  Missiveは、チームを組織するためのいくつかの便利なツールを備えた賢明なメールヘルパーです。最近、OpenAIのGPTテクノロジーを組み込むことが可能になりました。これにより、Missiveはアプリを離れることなくメッセージを翻訳したりメールのトーンを変更したりすることができます。ユーザーはプロンプトを使用してAIコードを自分の要件に合わせてカスタマイズすることもできます。顧客との連絡の品質を向上させることは、この統合の主な目標であり、AIに特化したデータを供給して適切な返信を提供する能力を向上させることが一部実現されています。 Superflows  Superflowsは、1クリックでアクセスできる事前に作成されたコンテキストに関連する応答を提供することで、お客様が受信箱の取り扱いをより迅速に行えるようにするAIで動作するメールアシスタントです。着信メールへの賢明な応答には、カレンダーリンクや他の関連情報が含まれています。これにより、他のソースからデータをコピー&ペーストすることなく、ユーザーは迅速にメールに反応することができます。 Superhuman  Superhumanの直感的で高速なインターフェースは、キーボードショートカットや強力な検索機能などの多数の時間節約機能によるものです。Superhumanの革新的なAIで動作する受信箱の組織機能は、忙しいプロフェッショナルにとってゲームチェンジャーです。そのAIエンジンは、ユーザーにとって最も重要なメッセージを学習し、それらを受信箱の前面に優先的に表示します。同社はまた、各ユーザーがSuperhumanとの時間を最大限に活用できるように、個別のコーチングやトレーニングも提供しています。 Scribbly  メールにはさまざまな方法で返信することができ、ユーザーには最善の選択肢が与えられます。Scribblyは、メールの文脈に基づいて関連する素材を提案することで、忙しいビジネスパーソンが時間を節約し、効果的なコミュニケーションを行えるよう支援するAI搭載のメールアシスタントです。Scribblyのメール作成機能を使用すると、ユーザーはメールアシスタントに代わってメールを作成するための情報を提供するか、メールにどのように返信するかを象徴する意図を選択することができます。 Tugan Tuganは、企業が情報やプロモーションメッセージを送信するために使用できる人工知能ベースのメールアシスタントです。提供されたURLやトピックに基づいて、Tuganは企業の特定の興味やニーズに合わせてカスタマイズされたメールを生成するためにAIを使用します。受信者は、最も好きなメッセージを選んで送信することができます。時間に制約のあるプロフェッショナル、作家、コンテンツプロデューサーは、このメールヘルパーを最大限に活用できます。Tuganは、市場に比べてまだベータ版の新しいメールヘルパーです。将来の計画には、お気に入りのビジネスグールーのようにメールを生成する機能や、FacebookやYouTubeの広告テキストの製作が含まれます。 AI Mailer AI Mailerは、企業やプロフェッショナルが高品質でカスタマイズされたメールを簡単に送信できるようにするツールです。GPTとNLPテクノロジーを活用して、消費者のメールに対するカスタマイズされたタイムリーな返信を生成し、コンテキストに適したコンテンツを開発します。柔軟なインターフェースと複数言語への組み込み互換性を備えたAI Mailerは、使いやすさを重視して設計されています。学生やビジネスパーソンは、メールのコミュニケーションを向上させるために使用することができ、カスタマーサービスチームは返信のスピードアップやクライアントとの対話のカスタマイズに活用することができます。…

マイクロソフトリサーチとジョージア工科大学の研究者が、言語モデルの幻覚の統計的な境界を公表しました

最近、言語モデルで浮かび上がった主要な問題の一つは、言語モデル(LM)が存在しない記事タイトルへの言及を含む誤った情報を提供する割合が高いことです。メリアム・ウェブスター辞書は、「幻覚」とは「人工知能アルゴリズムによって生成される合理的ながらも虚偽または誤解を招く応答」と定義しています。ある事例では、法的調査を提出した弁護士たちが正確だと思っていた架空の裁判事例を盛り込んでしまい、5000ドルの罰金を科せられました。医療の現場でも、患者の幻覚は命取りとなり、医師たちは過失訴訟を心配しています。さらに、メディアも幻覚について詳細に報道しており、アメリカ合衆国の大統領は最近、生成型人工知能システムからの欺瞞的な結果に対する保護策を含む大統領令を発令しました。 この研究では、マイクロソフトリサーチとジョージア工科大学の研究者が、複数のファクト予測がキャリブレーションされた学習機械(LMs)における幻覚発生率に関する統計的な下限を提示しています。これにより、幻覚の特性が明らかになります。これは幻覚が避けられないことを意味するものではありません。研究チームが議論するとおり、幻覚発生率やキャリブレーションを下げる「事前訓練」手順に「事後訓練」手順を補完するという、実践者の傾向に合致しています。LMは、単語やその他の文字列のシーケンスの確率分布Dであり、正の確率ですべての文字列を予測するLM(典型的なLMの特徴)は、必然的に正の確率で幻覚を示します。ただし、この確率が低い場合、幻覚は珍しいことになります。したがって、幻覚の頻度を測定することは重要です。 完全なシーケンスの対数確率または前のトークンに条件付けられた次のトークンの条件付き対数確率は、同一の分布Dを表現するために使用することができます。log D(t1…tm) = Pm i=1 log D(ti | t1 … ti−1)。この些細な数学的な同等性には重要な意味があります。予測と生成には異なる要件がありますが、自然発生テキストに基づいて前のトークンに条件付けられた次のトークンを予測するために、任意のLMを使用することができます。たとえば、次の文を考えてみましょう。Alexa Wilkinsさんは先週の火曜日にランチのためにSalumeriaに行った理由は、レビューでツナサンドイッチが素晴らしいと言われていたからです。予測型言語モデルは、このような文を提案して、電話のタイピングを軽減するかもしれません。ツナの後に単語としてサンドイッチを予測することは有益かもしれませんし、サラダなどの他の可能性のある単語も含まれるかもしれません。 しかし、生成型のLMがこの種の文の大部分をランダムにでっち上げるとすると、それは誤りです。この記事によると、完全な状況であっても、強力な予測テキスト能力を持つLMは幻覚を経験するはずです。特に、現在では一般的な事前訓練の初期段階では、生成型LMは予測テキストの性能に合わせて調整されます。さらに、その結果は幻覚発生率の下限を提供し、異なる種類の事実がどのような頻度で幻覚化されるべきかについての示唆を与えるでしょう。上記の例と将来参照と(研究チームが5W(Who-Ate-What-When-Where-Why factoids)と呼ぶもの)は、ルールによって系統的に特定できないという点で共通しています。つまり、これらのほとんどの事実は訓練データに含まれていないため、検証することができません。 事実とは異なり、その妥当性が方法論的に確認できるものもあります。多くの理想的な特性を持つ簡略化された状況でも、研究チームはLMが経験する幻覚の数を推定しています。研究チームは、LMの幻覚の根源を特定することを目指すため、統計的な下限が、訓練データがノイズのない状況でi.i.d.になるような単純な文脈で成り立つようにします(ノイズ耐性のある分類技術など)。 研究チームは、生成型モデルへのキャリブレーションの自然な拡張を提供しています。彼らのアイデアは、以前のLMのキャリブレーション応用とは異なり、トークンレベルではありませんでした。各事実はさまざまな方法で自然言語で記述される可能性があるため、トークンの確率をキャリブレーションすることは、生のトークンの確率を評価する際にのみ有用です。むしろ、テキスト内の情報(事実または幻覚)のビットごとの確率分布を、彼らの意味レベルのキャリブレーションによって考慮します。LMがキャリブレーションされているとは、確率a≈zで作成された情報が、与えられた確率z∈[0, 1]で自然発生の言語の一部に平均的に現れることを意味します(理想的には、訓練データが収集された分布と同様)。 この作品は、訓練データが完璧に事実である理想的な世界でも、事実と幻覚のぼやけはなく、各文書には最大で1つの事実しか含まれず、幻覚を促すようなプロンプトさえ存在しない状況でも、予測精度のために事前学習された言語モデルは幻覚を引き起こすことを示すことを目指しています。さらに、彼らの仮説は、トリグラムモデルなど以前の言語モデルと比較可能なデータセットでのトレーニングにも関わらず、現代の言語モデルが以前の言語モデルよりも大きな幻覚を持つのかを明確にします。単一の事実の出現率によって、キャリブレーションされた言語モデルがさまざまな種類の事実について自己欺瞞をする必要がある可能性を示すことができます。 訓練データに頻繁に現れるが一度だけ発生する高い単一事実率を持つ事実が発生すると、幻覚が予測されます。本や記事への言及については、現在研究されている問題の種類の幻覚であることが珍しいことです。したがって、トレーニング中に言語モデルが遭遇する参照などを含む事実の数が、モデルの容量などの他の問題から生じる可能性もあります。また、事後学習を使用せずに事前学習パイプラインを変更することで、幻覚化された参照を修正することが可能かもしれませんが、5Wの例にあるような他の種類の恣意的な事実には対応できません。

少ないデータ注釈 + より多くのAI = 深いアクティブラーニング

人工知能(AI)モデルのトレーニングには、通常、大量のラベル付きデータが必要です。特に画像認識や自然言語処理などの複雑なタスクの場合、非常に高価で時間がかかることがあります。データの注釈付けは、砂浜で特定の一粒の砂を見つけるようなものです。時間と労力がかかります。 従来の解決策には、人間の注釈者を雇ったり、クラウドソーシングプラットフォームを使用したりする方法があります。これらのオプションは高価で遅いことがあります。 深層能動学習(DAL)は、能動学習と深層学習を組み合わせた技術です。能動学習はラベリングのための最も価値のあるデータポイントを選択するのに役立ち、深層学習はそのデータから複雑なパターンを学ぶのに役立ちます。 未ラベルのデータの山から、写真や動画、テキスト文書などを選び出します。DALは、例えば画像の中のぼやけたオブジェクトや文書の中の普通でない文など、混乱したり興味深いものを選び出します。これらがモデルに最も学びをもたらすものです。 DALは、貴重なデータを見つけるためにユニークな戦略を使用します。例えば、モデルが自信を持てないデータや、全体のデータセットの異なる部分を表現するデータを探すかもしれません。 DALは、AIモデルのトレーニングに必要なデータを50%以上も削減することができます。これにより時間とコスト、労力を節約することができます。さらに、DALはAIモデルをより堅牢で適応性のあるものにすることができます。最も価値のあるデータに焦点を当てることで、モデルはより豊かで微妙なパターンを学び、未知のデータでより良いパフォーマンスを発揮し、予期せぬ状況に対処することができます。 DALはまだ進化中であり、克服しなければならない課題があります。特定のタスクとモデルに対してDALを微調整する必要があります。また、データの品質を評価し、データの選択と注釈の効率的な相互作用を確保するために改善された手段が必要です。 しかし、DALの未来は明るいです。それはAIの開発を革新し、より速く、安価でアクセスしやすくする可能性があります。継続的な研究と開発により、DALは少ないデータを使用しながらAIのフルポテンシャルを発揮する鍵となるかもしれません。 結論として、DALはAIの開発においてゲームチェンジャーです。少ないデータで強力なAIモデルをトレーニングする能力は、研究者、開発者、企業にとって貴重なツールです。DALが進化し続けるにつれ、自動運転車から医療診断まで、さまざまなアプリケーションで使用されることが予想されます。

「ChatGPTのような言語モデルに関するプライバシー上の懸念:このAI論文が潜在的なリスクと保護対策を明らかにする」

ChatGPTが記録を塗り替えている間に、OpenAIのChatGPTで使用される個人情報のセキュリティについて疑問が出されています。最近、Google DeepMind、ワシントン大学、コーネル大学、CMU、UCバークレー、ETHチューリッヒの研究者たちが可能な問題を発見しました。特定の指示を使用することで、ChatGPTが機密情報を漏洩させる可能性があります。 リリースからわずか2か月で、OpenAIのChatGPTは1億人以上のユーザーを集め、その人気の高さを示しています。書籍、雑誌、ウェブサイト、投稿、記事など、さまざまなインターネットソースから計3000億以上のデータがプログラムで使用されています。OpenAIはプライバシーを保護するための最善の努力をしていますが、定期的な投稿や会話により、公に開示されるべきではないかなりの量の個人情報が追加されます。 Googleの研究者たちは、ChatGPTが公開用には意図されていないトレーニングデータにアクセスしてリvealする方法を見つけました。指定されたキーワードを適用することで、1万以上の異なるトレーニングインスタンスを抽出しました。これにより、執念を持った敵が追加データを取得する可能性があると示唆されます。 研究チームは、ChatGPTを無制限に繰り返し使わせることで、モデルが個人情報をさらすことができる方法を示しました。たとえば、「詩」や「会社」といった単語を無限に繰り返させることで、住所、電話番号、名前などを抽出した可能性があります。これはデータ漏洩につながる可能性があります。 一部の企業は、これらの懸念に対応してChatGPTなどの大型言語モデルの使用に制限を設けています。たとえば、Appleは社員にChatGPTや他のAIツールの使用を禁止しています。さらに、予防措置として、OpenAIは会話履歴を無効にする機能を追加しました。ただし、保持データは30日間保管され、その後永久に削除されます。 Googleの研究者は、プライバシーに敏感なアプリケーションに大規模な言語モデルを展開する際に、特別な注意が必要であることを強調しています。彼らの調査結果は、将来のAIモデルの開発において慎重な検討と向上したセキュリティ対策、およびChatGPTや類似のモデルの広範な使用に関連する潜在的なリスクの重要性を強調しています。 結論として、ChatGPTにおける潜在的なデータの脆弱性の暴露は、ユーザーや開発者にとって戒告となります。数百万人の人々が定期的にそれとやり取りしているこの言語モデルの広範な利用は、プライバシーの優先順位付けと不正なデータ開示を防ぐための堅牢な保護策の実施の重要性を強調しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us