Learn more about Search Results A - Page 195

「AIチャットボットが言語理解に取り組む」

「人工知能(AI)のチャットボットの登場により、会話体験が再構築され、人間の言語理解と使用に類似した進歩がもたらされていますこれらのチャットボットは、大規模な言語モデルによって支えられ、人間の相互作用の複雑さを巧みに操作する能力を身につけつつありますただし、最近の研究は、これらのモデルの持続的な脆弱性を明らかにしました[...]」

「Matplotlib チュートリアル:あなたの国の地図をさらなるレベルへ」

「アイデアは、再利用可能かつ柔軟な関数を作成することで、任意の地域の美しい地図を瞬時に描画することができるようにすることですこのような関数を使用すると、チャートを作成したいときに大量の時間を節約することができます」

「大規模な言語モデルがコンパイラ最適化のメタAI研究者を驚かせる!」

「これは、LLMの明らかな不備についての論文だと思っていましたが、将来の賢いアイデアの動機づけとなるものとして役立つものです。しかし、私たちは非常に驚いたことに、十分に訓練されたLLMは、入力コードに最適な最適化を予測するだけでなく、コンパイラを使わずに直接最適化を行うことができることが多いことがわかりました!」。- Meta AIの研究者 Meta AIの研究者は、通常のコンパイラ(LLVMなど)が行うようなコードの最適化を、大規模な言語モデル(LLM)に行わせようとしていました。LLVMの最適化は非常に複雑であり、C++プログラミング言語で1百万行以上のコードに書かれた数千のルールとアルゴリズムがあります。 彼らは、LLMがこのような複雑さに対応できるとは思っていませんでした。なぜなら、LLMは通常、言語の翻訳やコードの生成などのタスクに使用されるからです。コンパイラの最適化には、さまざまな種類の思考、数学、複雑な技法が必要であり、LLMが得意であるとは思っていませんでした。しかし、手法の後、結果は驚くべきものでした。 上記の画像は、訓練と推論中にモデルの入力(プロンプト)と出力(回答)を示す方法論の概要を示しています。プロンプトには最適化されていないコードが含まれます。回答には最適化パスのリスト、命令の数、および最適化されたコードが含まれます。推論中、最適化パスのリストのみが生成され、それがコンパイラにフィードされ、最適化されたコードが正しいことを保証します。 彼らのアプローチはシンプルで、スクラッチから初期化された70億パラメータの大規模言語モデル(LLM)アーキテクチャを使用します。モデルは、各アセンブリごとに検索プロセスを通じて決定された最適なコンパイラオプションと、それらの最適化を適用した結果のアセンブリコードとペアになった数百万のLLVMアセンブリの例から成る広範なデータセットで訓練されます。これらの例だけで、モデルは驚くほど精度の高いコードの最適化能力を獲得します。 彼らの研究の注目すべき貢献は、LLMをコードの最適化のタスクに初めて適用したことにあります。彼らは、コンパイラの最適化に関して特に設計されたLLMが、2.5億回のコンパイルで5.0%の改善を達成する検索ベースのアプローチと比較して、単一のコンパイルで3.0%のコードサイズ削減を実現することを示しています。一方、最新の機械学習アプローチは回帰を引き起こし、数千回のコンパイルが必要です。研究者はまた、LLMがコードの推論における可能性と限界をより包括的に理解するための補足的な実験とコード例を提供しています。全体的に、彼らはこの文脈でのLLMの効果を非常に優れたものと見なし、その結果が広いコミュニティの関心を引くと考えています。

中国の研究者が「FreeMan」という大規模な実世界のマルチビューデータセットを紹介しました

現実世界のシーンから人体の3D構造を推定することは、人工知能、グラフィックス、人間とロボットの相互作用などの分野において重要な影響を持つ困難な課題です。既存の3D人物姿勢推定用データセットは、制御された環境で収集されることが多く、静的な背景の下で収集されるため、現実世界のシナリオの変動性を十分に表現していません。この制限は、現実世界のアプリケーションに対して正確なモデルの開発を妨げています。 Human3.6MやHuMManなどの既存のデータセットは、3D人物姿勢推定に広く使用されていますが、制御された研究室の環境で収集されており、現実世界の環境の複雑さを十分に捉えていません。これらのデータセットは、シーンの多様性、人間の行動、スケーラビリティの面で制限があります。研究者たちは、3D人物姿勢推定のためにさまざまなモデルを提案していますが、既存のデータセットの制限のために、現実世界のシナリオに適用する際にその有効性がしばしば妨げられています。 中国の研究者チームが「FreeMan」という新しい大規模なマルチビューデータセットを導入しました。このデータセットは、現実世界のシナリオにおける3D人物姿勢推定の既存のデータセットの制限に対処するために設計されています。FreeManは、この重要なタスクのためのより正確かつ堅牢なモデルの開発を支援することを目指している重要な貢献です。 FreeManは、8つの同期したスマートフォンを使用してさまざまなシナリオで収集された8,000のシーケンスからなる11百万フレームから成る包括的なデータセットです。屋内外を含む10の異なるシーンで40人の被験者をカバーしており、照明条件も異なります。特筆すべきは、FreeManはカメラパラメータと人体スケールの変動性を導入しており、現実世界のシナリオをより適切に表現しています。研究グループは、このデータセットを作成するための自動アノテーションパイプラインを開発しました。このパイプラインは、人物検出、2Dキーポイント検出、3D姿勢推定、メッシュアノテーションを含んでいます。その結果得られるデータセットは、モノクル3D推定、2Dから3Dへのリフティング、マルチビュー3D推定、人物のニューラルレンダリングなど、複数のタスクに有用です。 研究者たちは、FreeManを使用したさまざまなタスクの包括的な評価基準を提供しました。彼らは、FreeManでトレーニングされたモデルのパフォーマンスを、Human3.6MやHuMManなどの既存のデータセットでトレーニングされたモデルと比較しました。特筆すべきは、FreeManでトレーニングされたモデルが3DPWデータセットでテストされた際に、著しく優れたパフォーマンスを発揮したことで、FreeManの現実世界のシナリオへの優れた一般化能力が示されました。 マルチビュー3D人物姿勢推定の実験では、FreeManでトレーニングされたモデルが、クロスドメインのデータセットでテストされた際に、Human3.6Mでトレーニングされたモデルと比較して優れた一般化能力を示しました。その結果は、FreeManの多様性とスケールの利点を一貫して示しています。 2Dから3Dのポーズリフティングの実験では、FreeManでトレーニングされたモデルが他のデータセットでトレーニングされたモデルよりもより困難なレベルに直面したことが明らかになりました。ただし、FreeManのトレーニングセット全体でモデルをトレーニングした場合、パフォーマンスが向上し、より大規模なトレーニングによってモデルのパフォーマンスを向上させる可能性が示されました。 まとめると、研究グループは現実世界のシナリオにおける3D人物姿勢推定の画期的なデータセットであるFreeManを提案しました。彼らは、シーン、人間の行動、カメラパラメータ、人体スケールに多様性を提供することで、既存のデータセットのいくつかの制限に対処しました。FreeManの自動アノテーションパイプラインと大規模なデータ収集プロセスにより、3D人物姿勢推定のより正確で堅牢なアルゴリズムの開発に貴重な資源となります。研究論文は、FreeManの既存のデータセットと比較した優れた一般化能力を強調し、現実世界のアプリケーションにおけるモデルのパフォーマンスを向上させる潜在能力を示しています。FreeManの利用可能性は、人間モデリング、コンピュータビジョン、人間とロボットの相互作用の進歩を促進し、制御された研究室の条件と現実世界のシナリオのギャップを埋めることが期待されています。

「TikTokがAI生成コンテンツのためのAIラベリングツールを導入」

近年、AIによって生成されたコンテンツの爆発的な増加により、創造的な表現の新たな領域が開かれました。しかしこの合成メディアの急増は、視聴者にとっての透明性と理解についても懸念が高まりました。今週、TikTokはこの問題に対処するため、クリエイターが自分の動画に適用できるオプションのAIラベルを導入することで、重要な一歩を踏み出しました。さらに、自動的なAI検出ラベルのテストも行っており、AIのイノベーションと責任のバランスの取れたアプローチの必要性を認識しています。 AIによって生成されたコンテンツの台頭は、芸術的な可能性の新たな時代をもたらしましたが、同時に、真実と合成物の見分ける複雑さも導入しました。現在、クリエイターは自分のコンテンツをAIによって生成されたものとしてラベル付けするオプションがあり、視聴者に創造プロセスに関する重要な文脈を提供しています。これは、急速に広がるAIの中で透明性を確保するための早期の一歩です。 TikTokの新しいラベリングツールは、既存の合成メディアに関するポリシーに適合するための簡単な方法をクリエイターに提供します。このツールを使用すると、動画の下にラベルが表示され、AIによって生成されたものであることが示されます。重要なこととして、TikTokは過去の動画にラベルを後付けすることをクリエイターに求めることはありません。 さらに、TikTokは自動的なAI検出システムの開発に積極的に取り組んでいます。この技術によって、編集またはAIを使用して作成されたコンテンツを特定し、ラベル付けします。検出プロセスの具体的な詳細は悪意のある行為者による回避策を防ぐために機密にされていますが、TikTokはさまざまな検出モデルのテストに取り組んでいます。さらに、プラットフォームはAIラベルをコンテンツに直接埋め込むためのパートナーシップを探求しており、検出能力を向上させています。 TikTokが透明性に向けて行うこれらの立ち上げは、同時に、AI技術を使用したすべてのエフェクトの名称に明示的に「AI」を組み込むことにも取り組んでいます。この動きにより、ユーザーはどのフィルターがAI技術を利用しているかを簡単に判断することができます。この情報を提供することで、TikTokはユーザーに利用可能な創造ツールのより明確な理解を提供しています。 TikTokは業界の専門家との協議のもと、「AI生成」という用語をラベルに選び、幅広い人々に理解されることを保証しています。プラットフォームは、AIに関する教育ビデオやメディアリテラシーのリソースを今後数週間で提供する予定です。 これらの取り組みは、TikTokが合成メディアに対する責任あるAIプラクティスに関するパートナーシップや、非営利団体であるデジタルモーメントとの協力を通じて、以前から行ってきた取り組みに基づいています。プラットフォームは新興技術の責任ある管理者としての立場を確立するために、クリエイターや視聴者に利益をもたらしています。 最後に、TikTokのAIラベルの導入は、創造的な表現における透明性を促進するための立派な一歩です。クリエイターにコンテンツをラベル付けするツールを提供し、自動的なAI検出に取り組むことで、TikTokは新興技術の責任ある管理者としての立場を確立しています。これらの取り組みにより、TikTokはイノベーションを推進し、透明性を保持することで、最終的にはクリエイターと視聴者の両方に利益をもたらしています。

デシAIは、DeciDiffusion 1.0を公開しました:820億パラメータのテキストから画像への潜在的拡散モデルで、安定した拡散と比べて3倍の速度です

問題の定義 テキストから画像を生成することは、人工知能において長い間の課題でした。テキストの説明を鮮明でリアルな画像に変換する能力は、自然言語理解と視覚的なコンテンツ作成とのギャップを埋めるための重要なステップです。研究者たちはこの問題に取り組み、この偉業を効率的かつ効果的に達成するモデルの開発に努めました。 Deci AIはDeciDiffusion 1.0を紹介します – 新しいアプローチ テキストから画像を生成する問題を解決するために、ある研究チームはDeciDiffusion 1.0を導入しました。これは、この分野での大きな飛躍を表す画期的なモデルです。DeciDiffusion 1.0は、以前のモデルの基盤を基にしていますが、いくつかの重要なイノベーションを導入しています。 そのうちの1つの主要なイノベーションは、従来のU-Netアーキテクチャをより効率的なU-Net-NASに置き換えることです。このアーキテクチャの変更により、パラメータの数を減らしながらパフォーマンスを維持または向上させることができます。その結果、高品質の画像を生成するだけでなく、計算面でもより効率的なモデルが実現されます。 モデルのトレーニングプロセスも注目に値します。サンプル効率と計算速度を最適化するために、4つのフェーズのトレーニング手順を経ます。このアプローチは、モデルが少ない反復で画像を生成できるようにするために重要です。これにより、実世界の応用により適したモデルが実現されます。 DeciDiffusion 1.0 – より詳細な説明 DeciDiffusion 1.0の技術をより深く探ると、Variational Autoencoder(VAE)とCLIPの事前学習済みテキストエンコーダを活用していることがわかります。この組み合わせにより、モデルは効果的にテキストの説明を理解し、それを視覚的な表現に変換することができます。 モデルの主な成果の1つは、高品質の画像を生成する能力です。既存のモデルと比較可能なFrechet Inception Distance(FID)スコアを獲得しますが、より少ない反復で達成します。これは、DeciDiffusion 1.0がサンプル効率的であり、より迅速にリアルな画像を生成できることを意味します。 研究チームによる評価の特に興味深い側面は、DeciDiffusion…

「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

大規模な言語モデル(LLM)であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MMLUやOpenLLMBoardなどのオープンソースプロジェクトも、さまざまなアプリケーションやベンチマークで追いつくことが急速に進んでいます。彼らの能力、制約、および区別を理解することは、新しいモデルや手法の急速な進歩が進むLLMの新時代においてますます重要になってきます。LLMは要約などのタスクで一貫したテキストを生成する能力を示していますが、LFQAでの実績についてはさらなる情報が必要です。 まだ解決されていない重要な問題の1つは、長文の質問応答(LFQA)です。これには多くの現実世界の応用(サポートフォーラム、トラブルシューティング、カスタマーサービスなど)があります。このような質問に答えるためには、複雑な思考スキルが必要であり、質問を理解し、原稿全体に分散している内容を把握する必要があります。記事の主要なポイントは要約にまとめられます。これらの要約からの追加の質問は、ソース素材のさまざまなセクションを結び付ける主題のより良い理解を必要とすると仮定されています。また、他の研究者は、長い素材の3分の1以上の理解を必要とする応答は、人々からはしばしば「難しい」と評価されると示しています。 Salesforceの研究者は、巨大なLLMとより小さなが成功した基本的なLLM(Llama-7B、13Bなど)およびそれらの蒸留対応物(Alpaca-7B、13Bなど)の違いを比較し、対比するためのスケーラブルな評価手法を提案しています。これを行うために、彼らはChatGPTが明示的に指示され、要約から複雑な質問を作成するように指示します。彼らの実証的な研究は、要約から作成された追加の質問が、LLMの推論スキルを評価するための難しいがより現実的なセットアップを提供することを示しています(生成された質問の複雑さとオープンソースLLMの応答品質)。彼らはGPT-4を使用して、以前の作品の下での結束性、関連性、事実の一貫性、正確さに対する応答品質を決定します。これは、長文QAのために完全に人間のレビューに依存することは費用がかかり、スケーリングが困難であるためです。彼らはまた、より小規模な人間の評価を行い、GPT-4が人間の評価と強く相関することを示し、評価が信頼性のあるものであることを示しています。 この研究からの主な結論は次のとおりです: • 抽象的な要約から質問を生成するために、文脈を複数回通過することで長い文脈からの推論を推奨します(時間の20%以上)。 • 蒸留対応のLLM(Alpaca-7B、13B)は、元のマテリアルから質問を生成する際には文脈に依存することが少ないですが、要約から質問を作成する能力は大幅に低下します。 • 要約から派生した質問に対して(16.8%以上)、蒸留対応のLLMによって生成された応答は文脈によって一貫している場合がありますが、しばしば主題から逸れ、冗長な回答を生成し、部分的に正確です。 • Alpaca-7Bと13Bは、基本的なLLM(Llama)よりも長い文脈(1024トークン以上)に対してより敏感であり、通常は理にかなった応答を生成します。

「UCSD研究者がオープンソース化したGraphologue:GPT-4のような大規模言語モデルの応答をリアルタイムでインタラクティブな図表に変換するユニークなAI技術」

大規模言語モデル(LLM)は、最近、その利便性と幅広いユーザークエリに対するテキスト応答を生成する驚異的な能力により、非常に人気が高まっています。ChatGPTなどのLLMを利用して情報や問題の解決策を得るために、10億人以上の人々が利用しています。これらのLLMは、多くの分野で重要なツールであり、人々が情報関連の仕事を行う方法を革新する可能性があります。 非常に強力であるにもかかわらず、ChatGPTのようなLLMには、複雑な情報要件に対応する際の多くの制約があります。これは、テキストベースのインターフェースと直線的な会話パターンの固有の制約によるものです。テキストは、複雑な関係や構造を持つ複雑なアイデアを伝えるのに不十分な場合があります。これにより、完全に理解するのが困難な冗長なコメントが頻繁に発生することがあります。また、テキストインターフェースの直線的な会話構造は、非直線的な探索を必要とするタスクの完了を困難にすることがあり、ユーザーが長くて複雑な対話を追う必要が生じる可能性があります。 これらの制約に対処するために、研究者チームは、複雑な情報タスクを含む状況でLLMを扱う際にユーザーが遭遇する困難を理解することを主な目標とした、10人のボランティアを対象にした形成的研究を実施しました。その結果、LLMインターフェースからの冗長な応答は、表示されている情報をすぐに理解して対話することを困難にすることが頻繁にあることがわかりました。この問題は、ユーザーが複雑なタスクで入り組んだ詳細をナビゲートする必要がある場合に特に顕著になります。 研究チームは、この問題を克服するための独自の技術であるGraphologueを開発しました。これは、ユーザーとLLM間のコミュニケーションを改善することを目指して設計されています。これは、LLMによって生成されたテキストベースの応答を瞬時にグラフィカルなダイアグラムに変換することによって行われます。Graphologueの主な特徴と機能は以下の通りです: Graphologueは、LLMによって生成されたテキスト応答からエンティティと関係を導くための新しいプロンプト技術を使用します。これには、重要なテキストコンポーネントを特定し、それらをグラフィカルな表現に整理する作業が含まれます。 LLMの回答から得られたデータを使用して、システムはリアルタイムでノードリンクダイアグラムを作成し、テキストの視覚的な表現として機能させます。これにより、ユーザーは入り組んだ関係や概念をより簡単に理解することができます。 ユーザーは、グラフィカルな表現を単に受動的に表示するだけでなく、それらと積極的に対話することもできます。グラフィカルな表現は積極的に対話することができ、ユーザーはレイアウトや内容を変更して個々の要件に合わせることができます。 Graphologueのユーザーは、ダイアグラムとの対話に基づいてコンテキストに応じたプロンプトを送信することができます。これらの質問により、LLMはより詳細な情報や説明を提供するように指示され、より洞察力のある柔軟な対話が促進されます。 評価の結果、チームはLLMによって生成された応答とダイアグラム的な表現を組み合わせた場合の利点と欠点に焦点を当てました。また、テキスト、アウトライン、ダイアグラムなどのさまざまな表現が互いを改善してLLMが生成するコンテンツをより理解しやすくする方法についても検討しました。このレビューは、Graphologueのパフォーマンスとグラフィカルなインターフェースを使用したLLMアプリケーションの潜在能力についての洞察を提供することを主な目的としました。 結論として、Graphologueは人々とLLMの間の対話を変えます。このグラフィカルな方法によって可能になる非直線的な対話は、知識の探索、整理、理解を含む活動に特に役立ちます。ユーザーは情報をより簡単に移動し、必要に応じてグラフィカルな表現を変更し、コンテンツをより理解するためにシステムと積極的に対話することができます。

「Hugging FaceはLLMのための新しいGitHubです」

ハギングフェイスは、大規模言語モデル(LLM)のための「GitHub」となりつつありますハギングフェイスは、LLMの開発と展開を簡素化するツールを提供しています

「オートエンコーダーメソッドを使用したTensorFlowとKerasにおける異常検知」

これまでに共有してきたTensorFlowとニューラルネットワークに関するすべてのチュートリアルは、教師あり学習についてでしたこのチュートリアルでは、教師なし学習の技術であるAutoencoderについて説明します...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us