Learn more about Search Results Wikimedia - Page 2
- You may be interested
- In Japanese 「GTE-tinyに会いましょう:...
- 「研究論文要約のための自律型デュアルチ...
- 「熟練した実践」を用いてデータサイエン...
- 小さな言語モデルでも高い性能を発揮でき...
- 「データの海を航海する:スタートアップ...
- 数学の効率を高める:Numpy配列操作のナビ...
- 「機械学習を使ったイタリアンファンタジ...
- CMUの研究者がFROMAGeを紹介:凍結された...
- ギットハブアクションズでのキャッシュ保存
- この秋登場予定:NVIDIA DLSS 3.5 が Chao...
- 「ExcelでのPython 高度なデータ分析への...
- デビッドソンシーングラフにお会いくださ...
- Relume AIによって生成されたワイヤーフレ...
- 「MATLABとは何ですか?動作、関数、そし...
- 異なる暗号通貨間のブリッジ
『完全な初心者のための量子コンピューティング』
「地球の資源に対する人類の支配の数千年ぶりを、人新世と形容する者もいるこの言葉は、ギリシャ語の「anthropo」で人間を意味し、「cene」で最近を意味するものである最後の...」
「比喩的に言えば、ChatGPTは生きている」
ChatGPTの成長は年々劇的に進んできました最近、OpenAIはChatGPTが聞くこと、見ること、話すことができるようになったことを発表しましたOpenAIのChatGPTがインターネット上に登場しましたその2か月後には、さらに…
(マルコフ連鎖を利用したモデリングゲーム)
友達とトランプをしている時からルーレットのテーブルでお金を勝ち取るまで、素晴らしいゲームの喜びは多くの人にとって抗えないものですしかし、楽しさがどれだけあっても、数回の負けの後には、最も楽観的なプレーヤーでさえも…
「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう?」
この記事は次の記事に基づいています:https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読んでいるのであれば、人工知能(AI)がいかに重要かご存知かもしれません...
コーネル大学とテルアビブ大学の研究者が、ドッペルゲンガーを紹介します:似た構造の画像を区別するための学習
上記の画像を見てください。違いがわかりますか?まるで双子のように区別するのは難しいですね。もしかして、髪の毛がわずかに短いのかもしれません。でも本当にそうなのでしょうか?コンピュータビジョンシステムの世界でも同様の問題が発生します。この研究は、3D再構築などの幾何学的ビジョンタスクに焦点を当てており、これらの手法は頻繁に、2つの画像が現実世界の同一の3D表面を描いているのか、酷似しているが異なる2つの3D表面を描いているのかを識別するという課題に直面します。この誤った判断は、誤った3Dモデルを生じる可能性があります。このタスクは「視覚の曖昧さ解消」と呼ばれています。 コーネル大学の研究者による提案された解決策は、新しいデータセット「Doppelgangers」の作成です。このデータセットには、同じ表面を表す画像のペア(陽性)または2つの異なるが視覚的に似ている表面(陰性)のペアが含まれています。Doppelgangersデータセットの構築は困難な課題であり、人間でさえも同じ画像と似た画像を区別するのに苦労することがあります。このアプローチは、Wikimedia Commonsの画像データベースから既存の画像注釈を活用して、大量のラベル付き画像ペアを自動生成することに依存しています。 上記の画像の貢献は以下の通りです: (a) 画像のペアが与えられた場合、特徴マッチングの手法を適用してキーポイントとマッチングを抽出します。特に、この特定のシナリオでは、画像はアーク・ド・トリオンフの反対側を示す負のペア(ドッペルゲンガー)を表していることに注目することが重要です。特徴マッチングは、繰り返し要素で特徴づけられる上部セグメントに主に集中しており、彫刻がある下部セクションとは対照的です。 (b) キーポイントとマッチングのためのバイナリマスクが作成されます。その後、画像のペアとマスクは、同定されたマッチングに基づいて決定されるアフィン変換を用いてアラインメントされます。 (c) このコンテキストで使用される分類器は、画像とバイナリマスクの連結を入力とし、出力確率を生成します。この確率は、与えられたペアが陽性のマッチである可能性を示すものです。 ただし、これらの生の画像ペアを直接ディープネットワークモデルでトレーニングすると、満足のいく結果が得られないことが観察されました。この問題に対処するために、特殊なネットワークアーキテクチャが設計されました。このネットワークは、局所特徴と2D対応の形で貴重な情報を取り入れ、視覚の曖昧さ解消タスクのパフォーマンスを向上させる役割を果たします。 Doppelgangersのテストセットを使用した評価では、この提案手法は複雑な曖昧さ解消タスクにおいて印象的なパフォーマンスを示しています。ベースラインの手法や代替ネットワーク設計を大きく上回っています。さらに、この学習済みの分類器を、COLMAPなどの構造から動作するシーングラフ計算における簡単な前処理フィルタとしての有用性も調査されています。 全体的に、これらの研究結果は、3D再構築や視覚の曖昧さ解消に関連するタスクにおいて、このアプローチがコンピュータビジョンシステムの信頼性と精度を向上させる潜在能力を示しています。この研究は、正確な表面認識と再構築を必要とする現実のシナリオにおいて、コンピュータビジョンの分野に貴重な洞察とツールを提供しています。
「火星の地表起伏を予測するための単眼深度推定」
一枚の画像から地表面の高度を推定するためのいくつかの手法が文献で議論されてきました以前の記事で、一枚の2D画像の深度を予測することが可能であるかどうかについて述べました...
「クラスの不均衡:ランダムオーバーサンプリングからROSEへ」
最近、Juliaでクラスの不均衡を解決するためのパッケージ、Imbalance.jlを作成しています論文の読解や実装の調査に多くの努力を払いながら、作成に取り組んできました...
「サイバー攻撃により、NSF(国立科学財団)が資金提供した主要な望遠鏡が2週間以上閉鎖されました」
8月初以来、国立科学財団のNOIRLab地上天文学の調整センターが運営するハワイとチリの10台の望遠鏡がサイバー攻撃によりオフラインになっています
「IDEFICSをご紹介します:最新の視覚言語モデルのオープンな再現」
私たちは、IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)をリリースすることを喜んでいます。IDEFICSは、Flamingoに基づいたオープンアクセスのビジュアル言語モデルです。FlamingoはDeepMindによって開発された最先端のビジュアル言語モデルであり、公開されていません。GPT-4と同様に、このモデルは画像とテキストの任意のシーケンスを受け入れ、テキストの出力を生成します。IDEFICSは、公開されているデータとモデル(LLaMA v1およびOpenCLIP)のみを使用して構築されており、ベースバージョンと指示付きバージョンの2つのバリアントが9,000,000,000および80,000,000,000のパラメーターサイズで利用可能です。 最先端のAIモデルの開発はより透明性を持つべきです。IDEFICSの目標は、Flamingoのような大規模な専有モデルの能力に匹敵するシステムを再現し、AIコミュニティに提供することです。そのために、これらのAIシステムに透明性をもたらすために重要なステップを踏みました。公開されているデータのみを使用し、トレーニングデータセットを探索するためのツールを提供し、このようなアーティファクトの構築における技術的な教訓とミスを共有し、リリース前に敵対的なプロンプトを使用してモデルの有害性を評価しました。IDEFICSは、マルチモーダルAIシステムのよりオープンな研究のための堅固な基盤として機能することを期待しています。また、9,000,000,000のパラメータースケールでのFlamingoの別のオープン再現であるOpenFlamingoなどのモデルと並んでいます。 デモとモデルをハブで試してみてください! IDEFICSとは何ですか? IDEFICSは、80,000,000,000のパラメーターを持つマルチモーダルモデルであり、画像とテキストのシーケンスを入力とし、一貫したテキストを出力します。画像に関する質問に答えることができ、視覚的なコンテンツを説明し、複数の画像に基づいて物語を作成することができます。 IDEFICSは、Flamingoのオープンアクセス再現であり、さまざまな画像テキスト理解ベンチマークで元のクローズドソースモデルと同等のパフォーマンスを発揮します。80,000,000,000および9,000,000,000のパラメーターの2つのバリアントがあります。 会話型の使用事例に適した、idefics-80B-instructとidefics-9B-instructのファインチューニングバージョンも提供しています。 トレーニングデータ IDEFICSは、Wikipedia、Public Multimodal Dataset、LAION、および新しい115BトークンのデータセットであるOBELICSのオープンデータセットの混合物でトレーニングされました。OBELICSは、ウェブからスクレイプされた141,000,000の交互に配置された画像テキストドキュメントで構成され、353,000,000の画像を含んでいます。 OBELICSの内容をNomic AIで探索できるインタラクティブな可視化も提供しています。 IDEFICSのアーキテクチャ、トレーニング方法論、評価、およびデータセットに関する詳細は、モデルカードと研究論文で入手できます。さらに、モデルのトレーニングから得られた技術的な洞察と学びを文書化しており、IDEFICSの開発に関する貴重な見解を提供しています。 倫理的評価…
「脳に触発された人工知能についての意見ここからどこに進むべきか?」
「模倣ゲーム」という名前は、アラン・チューリングが機械が知的な振る舞いを示す能力をテストするために作った有名なテストですが、それは単なる映画のタイトルではありませんこのテストでは、人間が…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.