Learn more about Search Results 4 - Page 11

この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。この能力は、デジタルコンテンツの制作、自律型車両のシミュレーション、医療画像の解析など、さまざまなアプリケーションにおいて重要です。しかし、一つの単眼のビデオ観察からこのような情報を抽出することは、動的な3D信号の複雑な性質のために困難な課題です。 移動オブジェクトを再構築するための既存の多くの手法は、入力として同期したマルチビュー映像が必要であり、カメラをテレポートするなどの手法や準静的なシーンを使用した、効果的なマルチビューキューが豊富なトレーニングデータを前提としています。それにもかかわらず、これらの手法は、カメラレンズによってキャプチャされないシーンの要素を正確に再構築する際に困難に直面します。さらに、同期したカメラセットアップと正確なキャリブレーションに依存することは、これらの手法の現実世界での実用性を制限します。 CASIA、南京大学、および復旦大学による新しい研究は、2Dソースから4Dコンテンツを生成するために設計された画期的な方法であるConsistent 4Dを紹介しています。この手法は、テキストから3Dへの最近の進歩と画像から3Dへの技術向上を参考にしており、テール型のCascade DyNeRFを利用して動くオブジェクトを視覚化し、同時に事前トレーニングされた2D拡散モデルを使用してDyNeRFの最適化プロセスを制御します。 その論文の中で述べられているように、主な課題は時間的な一貫性と空間的な一貫性の両方を保持することです。この課題に対処するために、研究者はトレーニングされたビデオ補間モデルに依存するインターポレーション駆動型の一貫性ロス(ICL)を使用し、空間と時間の両方にわたる一貫した監視信号の生成を可能にしています。特に、ICLロスの導入により、4D開発の信頼性が向上するだけでなく、3Dクリエーションにおける一般的な問題を軽減することができます。さらに、彼らは動的なNeRF生成ビデオを後処理するために、シンプルなビデオエンハンサーでトレーニングを行います。 綿密なテストによる励ましの結果は、合成および実際のインターネットビデオの両方を含む、ビデオから4Dへの創造の未開拓の領域での有望な進展を示しています。

線形代数4:行列方程式

「線形代数の基礎についての連載シリーズの第四回目へようこそこれは機械学習の基本的な数学である線形代数についての解説です前回の記事ではベクトルと線形…」

GPT-4にチャート画像解析を促す:チャレンジに耐えられるかどうか?

ここ数日で、GPT-4のインターフェースにいくつかの変更が加わりましたさまざまなプラグインやベータツールをインストールする必要はもはやありませんですので、GPT-4のプロンプトを手に、進めてみましょう...

ロボットが4億5000万年前の絶滅した海洋生物を模倣

カーネギーメロン大学の研究者たちは、絶滅した生物の知見を利用してソフトロボットを作るための新たなアプローチを開発しました

このAI論文は、医療の視覚的な質問応答におけるGPT-4Vの性能について包括的な分析を紹介します:洞察と限界

リハイ大学、マサチューセッツ総合病院、ハーバード医学大学の研究者チームが最近、最先端のマルチモーダル言語モデルであるGPT-4Vをビジュアルクエスチョンアンサリングタスクにおいて詳細な評価を行いました。この評価は、テキストとビジュアルの入力を必要とする複雑なクエリを処理するモデルの総合的な効率とパフォーマンスを評価することを目的としています。研究の結果は、GPT-4Vが自然言語処理とコンピュータビジョンの応用において持つ潜在能力を明らかにしています。 最新の研究に基づくと、現時点のGPT-4Vのバージョンは、信頼性のない、最適化されていない応答のため、実践的な医療診断には適していません。GPT-4Vはテキストの入力に大きく依存しており、これがしばしば不正確な結果をもたらします。この研究は、GPT-4Vが教育的なサポートを提供できることや、異なるクエスチョンタイプや複雑さのレベルに対して正確な結果を生み出すことを強調しています。しかし、GPT-4Vがより効果的になるためには、より正確で簡潔な応答が必要とされます。 このアプローチは、医学のマルチモーダル性を強調し、臨床医が医学画像、臨床ノート、検査結果、電子健康記録、ゲノムなど、さまざまなデータタイプを統合しています。さまざまなAIモデルがバイオメディカル応用において有望な成果を示していますが、多くは特定のデータタイプやタスクに合わせて調整されています。また、ChatGPTの潜在能力も示しており、患者や医師に有益な情報を提供する可能性があります。それは、複数の医療専門家が診断に失敗した後に正確な診断結果を出したケースの一例です。 GPT-4Vの評価では、関連する画像と共に質問が提示される病理学および放射線学のデータセットを使用し、11のモダリティと15の対象をカバーしています。テキストのプロンプトは、GPT-4Vがビジュアルとテキスト情報を効果的に統合するために慎重に設計されています。評価では、各QAケースに対して別々のチャットセッションを開始し、公平な結果を確保するためにGPT-4Vの専用チャットインターフェースを使用します。パフォーマンスは閉じられた質問と開かれた質問を含む正確さの指標を用いて量化されます。 医療ドメインのビジュアルクエスチョンアンサリングタスクを含むGPT-4Vの実験結果は、現時点のバージョンが実世界の診断応用により適している可能性があり、診断医学的なクエリに対しては信頼性が低く、精度も低い特徴を持っていると示しています。GPT-4Vは常に曖昧な場合には医療専門家との直接相談を求めるようアドバイスしており、専門的な医療ガイドと慎重な医療分析の重要性を強調しています。 この研究は、GPT-4Vの医療ビジュアルクエスチョンアンサリングタスクにおける制約を包括的に検討する必要があります。それは、CT画像内のサイズの関係や文脈上の輪郭の解釈にGPT-4Vが苦労するという具体的な課題を挙げています。GPT-4Vは画像のマーキングを過度に強調し、これらのマーキングのみに基づくクエリの差別化にも支援が必要です。現在の研究には、複雑な医療問い合わせの扱いや詳細な回答の提供に関連する制約に明確に取り組む必要があります。 結論として、GPT-4V言語モデルは医療診断においては信頼性がなく、また十分に正確ではありません。限界点が強調され、精度の高い結果を保証するために医療専門家との協力が必要です。明確かつ包括的な回答を得るためには、専門家の助言と医療専門家との相談が必要です。GPT-4Vは不確実性のある場合には専門家のガイダンスの重要性を常に強調します。

UCSDの研究者が、チューリングテストでのGPT-4のパフォーマンスを評価:人間のような欺瞞とコミュニケーション戦略のダイナミクスを明らかにする

GPT-4はUCSDの研究者グループによってインターネット上の一般的なチューリングテストで試験されました。最も優れたGPT-4のプロンプトは、ゲームの41%で成功しました。これはELIZA(27%)、GPT-3.5(14%)および無作為なチャンス(63%)によって提供されたベースラインよりも良い結果でしたが、まだ完全な性能ではありません。チューリングテストの結果によれば、参加者は主に言語スタイル(合計の35%)とソーシャル・エモーショナルな特性(合計の27%)で判断されました。参加者の教育レベルやLLM(Large Language Models)への事前の経験は、彼らが詐欺を見破る能力を予測するための要因ではありませんでした。これは、そのような問題に精通している人々であっても、トリックに対して脆弱である可能性があることを示しています。チューリングテストは知性の尺度としては広く批判を受けていますが、カリフォルニア大学サンディエゴ校の2人の研究者は、それが即興のコミュニケーションと詐欺の尺度として有用であると主張しています。彼らは人間と見なすことができる人工知能モデルを持っており、これには広範な社会的影響があるかもしれません。したがって、彼らは人間らしさを決定するためのさまざまな方法論と基準の効果を調査しています。 チューリングテストは知性への感度に関する論争とは関係なく興味深いものです。まず、テストされている能力、つまりシステムが対話者を人間だと思わせることができるかどうかを分析することが重要です。チューリングテストは、そのような能力の開発をモデルで監視するための信頼性のある方法を提供します。さらに、モデルのサイズや性能、プロンプト戦略、リアルタイム情報へのアクセスなどの補助的なインフラストラクチャ、およびインタラクティブのレベルなど、嘘をつくことに関与するさまざまな側面についても学ぶことができます。 また、チューリングテストは、機械が人間らしく見えるという一般的な認識を調査するための研究ツールとしても使用できます。機械のパフォーマンスが評価されますが、人間の参加者の文化的、倫理的、心理的な前提条件も調査されます。インタラクティブが質問を作成し、洗練された質問を行う過程で、インタラクターが人間であると考える属性に関する基本的な意見が明らかにされます。 チューリングテストは、1人の尋問者と1人の証人によって変更され、証人が人間か人工知能かを判断します。これはチューリングの最初の3人の公式とは異なりますが、各ゲームに複数の人間参加者をオンラインで必要としないため、かなり一般的になりました。 彼らはOpenAI APIを使用して、ユーザーからの質問に答えることができる25のLLM証人を開発しました。各LLM証人は温度設定(0.2、0.5、または1.0)、モデル(GPT-3.5またはGPT-4)、およびプロンプトを持っていました。報告書は状況を説明し、エージェントに具体的な指示を与えました。 チャットアプリのユーザーインターフェースは、標準的なメッセージングサービスに似せて作られました。尋問者が最初のメッセージを送信し、各ユーザーは同時に1つのメッセージのみを送信することができました。各通信は最大300文字で、総討論時間は5分でした。テキストボックスに貼り付けることは制限され、侮辱的なメッセージを防止するためにコンテンツフィルタが適用されました。画面の右上隅にはカウントダウンタイマー、指示オーバーレイを表示するボタン、および侮辱的な人々を報告するためのフォームがあります。 尋問者は意思決定インターフェースを使用して、以下の情報を提供しました: i)判決(機械または人間の証人) ii)正しい判断を下したことにどれだけ確信しているか(0〜100) iii)選択の理由(自由形式の言語) 制約事項 オープンでオンラインの実験としての性質上、この研究にはいくつかの欠点があり、その結果は確かとは言えません。まず、サンプルがコミュニティの代表的なものよりも反映されている可能性があります、なぜなら参加者はソーシャルメディアを通じて募集されたからです。また、参加者にはインセンティブが必要でした。したがって、尋問者や証人が最善を尽くした可能性があります。人間の証人は人工知能のように振る舞って「トローリング」しています。一部の調査員はこのような行為を人間の判決の正当化として使用しました。したがって、結果は人間のパフォーマンスを過小評価し、AIのパフォーマンスを過大評価している可能性があります。第三に、一部の尋問者は証人に関する事前知識を持っていたことを認めています。 要約すると- チューリングテストは知能の不完全な指標としてしばしば非難されてきました。これは、あまりにも評価が明らかであったために、研究者が人間のパフォーマンスを過大評価した可能性があります。最後に、一度に1人のオンラインユーザーしかいなかったため、彼らは頻繁に同じ人工知能の証人とペアリングされました。その結果、人々は特定の証言がAIであるという固定観念を持つ可能性があり、全体的に低いSR結果につながる可能性があります。このバイアスは、1人の尋問者が3回以上連続してAIと対戦したゲームを削除することで対抗する努力があったにもかかわらず、結果に影響を与えたでしょう。最後に、利用可能なプロンプトの一部のみが使用され、それらは実際の人々がゲームとどのように対話するかを知らない状態で開発されました。結果は、より効果的なプロンプトが存在するため、チューリングテストでのGPT-4の潜在的なパフォーマンスを過小評価しています。

オープンAIは、最新のモデルGPT-4 Turboを発表しました

今週、OpenAIは公式ウェブサイトのブログを通じて、ChatGPTの複数の新機能を発表しましたまた、彼らは最近の開発者会議で、他のAIパワードツールに関する新しい情報も公開しました2023年はGPTのリリースの年になるようで、実際、OpenAIは3月にGPT-4を発表しました

潜在一貫性LoRAsによる4つのステップでのSDXL

潜在的一貫性モデル(LCM)は、ステーブルディフュージョン(またはSDXL)を使用してイメージを生成するために必要なステップ数を減らす方法です。オリジナルモデルを別のバージョンに蒸留し、元の25〜50ステップではなく4〜8ステップ(少ない)だけを必要とするようにします。蒸留は、新しいモデルを使用してソースモデルからの出力を再現しようとするトレーニング手順の一種です。蒸留されたモデルは、小さく設計される場合があります(これがDistilBERTや最近リリースされたDistil-Whisperの場合)または、この場合のように実行に必要なステップ数を減らします。これは通常、膨大な量のデータ、忍耐力、およびいくつかのGPUが必要な長時間かかる高コストのプロセスです。 それが今日までの現状でした! 私たちは、Stable DiffusionとSDXLを、まるでLCMプロセスを使用して蒸留されたかのように、速くする新しい方法を発表できることを喜ばしく思います!3090で7秒の代わりに約1秒、Macで10倍速くSDXLモデルを実行する、というのはどうですか?詳細は以下をご覧ください! 目次 メソッドの概要 なぜこれが重要なのか SDXL LCM LoRAsによる高速推論 品質の比較 ガイダンススケールとネガティブプロンプト 品質 vs. ベースのSDXL 他のモデルとのLCM LoRAs フルディフューザーズの統合 ベンチマーク 今日リリースされたLCM LoRAsとモデル ボーナス:通常のSDXL LoRAsとの組み合わせ LCM…

「Rustでの14倍のスピードブーストには、Polarsプラグインの使用がおすすめです」

ポラーズは、その速度、メモリ効率、美しいAPIのおかげで世界中で大流行していますそのパワーを知りたいなら、DuckDBベンチマークを見るべきですそして、これらは…

OpenAIはGPT-4をターボチャージしています:高速かつ手頃な価格で生成型AIを革命化

ジェネレーティブAIの世界は、OpenAIが最新のブレイクスルー、GPT-4 Turboを発表すると大いに盛り上がっています。この革命的なアップデートは、よりアクセスしやすくすると同時に、ChatGPTの能力を急速に向上させることを約束しています。高速性とコストパフォーマンスの向上により、GPT-4 TurboはジェネレーティブAIの限界を再定義することになるでしょう。本記事では、GPT-4 Turboの素晴らしい機能について詳しく見ていき、データ愛好家のフィールドを革命化する可能性を探ります。 GPT-4 Turboの力 OpenAIはGPT-4 Turboにより、速度と効率性の点で大きく進歩しました。この新しいモデルは、より高速な応答を生成するために微調整されており、リアルタイムの会話がスムーズで魅力的になります。レイテンシーが低下したことにより、ユーザーはChatGPTとのシームレスな対話を体験でき、より自然でダイナミックな会話の流れが可能になります。GPT-4 Turboの高速化はゲームチェンジャーであり、データ愛好家やAI愛好家に新たな可能性を開拓します。 データ愛好家向けの拡張機能 GPT-4 Turboは、データ愛好家のニーズに特化した多くの拡張機能をもたらします。その中でも注目すべき機能の一つは、より大規模なデータセットを扱う能力です。これにより、ユーザーはより広範かつ複雑なデータをモデルに学習させることが可能となります。これにより、データ愛好家はより高い精度と効率性で実世界の問題に取り組むことができるようになります。さらに、GPT-4 Turboは改良されたマルチタスク機能を導入し、パフォーマンスを損なうことなく複数のプロジェクトに取り組めるようになります。この高い汎用性により、GPT-4 Turboはさまざまな領域のデータ愛好家にとって貴重なツールとなります。 高性能AIへの手頃なアクセス OpenAIは、GPT-4 Turboの低価格化によりAIの民主化に大きな進展を遂げました。このモデルの利用コストを削減することで、OpenAIは最先端のジェネレーティブAIをより広範なユーザーにアクセスしやすくすることを目指しています。この動きにより、スタートアップ、研究者、開発者は以前は財務的な障壁に直面していたため、高度なAIモデルの力を利用することが可能になります。GPT-4 Turboを介して、OpenAIは技術の革新だけでなく、AIへのアクセスの革新を成し遂げています。 私たちの意見 GPT-4 Turboのリリースは、ジェネレーティブAIの分野における重要な節目となります。OpenAIの高速化とコストパフォーマンスの向上への取り組みは、新たな可能性の時代を切り開きました。拡張された機能と低価格化により、GPT-4 Turboはデータ愛好家、研究者、開発者がAIイノベーションの限界に挑戦する力を与えるでしょう。ジェネレーティブAIの新しい章を迎えるなかで、GPT-4 Turboがさまざまな産業やAIコミュニティ全体に与える変革的な影響を想像することは、興奮を覚えます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us