Learn more about Search Results ResNet - Page 3

時間を遡ってみよう:AIが古代ローマのなぞなぞを解き明かす

ソーシャルメディアを席巻するウイルス性のトレンドのおかげで、私たちは今や男性の中にはローマ帝国のことを毎日考えている人もいることを知ることができました。 そして、ネブラスカ・リンカーン大学の21歳のコンピュータサイエンス学部の学部生であり、同じようなAI愛好家であるルーク・ファリッターのおかげで、今後は考えることがもっとたくさんできるかもしれません。 歴史への情熱と機械学習のスキルを融合させ、ファリッターはVesuvius Challengeで勝利を収め、NVIDIA GeForce GTX 1070 GPUの力を行使して、およそ2,000年ぶりに古代のテキストの一部を戻しました。 テキストのビッグなもの:ローマの隠された歴史を解読する ヘルクラネウムの巻物は、79年にヴェスヴィオ火山の噴火によって炭化し保存された古代のテキストのライブラリです。この噴火により、ポンペイとヘルクラネウムの都市が厚い灰と軽石の層で埋まりました。 この競技会は、歴史家や技術者たちの興味を引きつけ、巻物の炭化した遺骸から読めるコンテンツを抽出することを目的としています。 ファリッターの努力のおかげで、古代のテキストから「πορφυρας」という言葉(紫の染料または紫の布)が現れました。 ヘルクラネウムの巻物は、ヴェスヴィオ火山の噴火の熱によって100回巻かれて密封されています。 巻物の小さな部分で10文字を識別した彼の功績により、彼は4万ドルの賞金を獲得しました。 彼の後を追って、バイオロボティクスの大学院生であるユースフ・ナダーが数か月後に同じ単語を独立して識別し、1万ドルの賞金を手にしました。 また、起業家で鋭い目のケイシー・ハンドマーは、未開封の巻物に内包されている大量のインクが発見されることを実証し、さらに1万ドルを獲得しました。 これらの発見は、ケンタッキー大学コンピュータサイエンス学科の学科長であるW.ブレント・シールズがデリケートなヘルクラネウムの巻物をデジタルで展開し読む方法を開発するために10年以上を費やしてきた研究を進めています。 この取り組みを活性化させるのは、GitHubのCEOであり、Vesuvius Challengeの主催者でもあるナット・フリードマンです。彼のオープンソースイノベーションへの取り組みが、このような歴史的なブレークスルーが可能なコミュニティを育んでいます。 巻物からテキストを解読するために、宇宙探査技術のインターンとして勤務したファリッターは、GeForce GTX 1070を活用して作業を加速させました。 ローマとRAMが出会った時:古いGPUがさらに古いテキストを明らかにする 2016年に登場したGTX…

画像埋め込みのためのトップ10の事前訓練モデル、データサイエンティストが知っておくべきもの

「コンピュータビジョンの急速な進化– 画像分類のユースケースは、転移学習の台頭によってさらに加速されています大規模な画像データセットを使用してコンピュータビジョンニューラルネットワークモデルを訓練するには、多くの計算リソースと時間が必要です幸いなことに、この時間とリソースは…」

「JAXとHaikuを使用してゼロからTransformerエンコーダを実装する🤖」

2017年に「アテンションはすべて」という画期的な論文で紹介されたトランスフォーマーアーキテクチャは、最近の深層学習の歴史の中でも最も影響力のあるブレークスルーの一つと言えるでしょう

「伝統的な機械学習はまだ重要ですか?」

伝統的な機械学習が生成モダルAIの時代でも不可欠である理由を探求し、その強み、弱点、およびさまざまな産業における重要な役割を理解する

コンピュータビジョンの戦場:チャンピオンを選ぶ

転移学習はコンピュータビジョンを変えましたが、まだ多くの未解決な問いが残っています例えば、最も優れたアーキテクチャは何ですか?どれが特定のタスクに最適ですか?全ての記事が最先端の技術であると主張していますが...

VGGの実装

「初心者にも分かりやすいチュートリアル『VGGの実装』はTowards Data ScienceでMina Ghashamiによって公開されました」

「ConvNetは復活しているのか?ウェブスケールのデータセットとビジョントランスフォーマーの性能を解明する」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-30-at-9.55.22-PM-1024×585.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-30-at-9.55.22-PM-150×150.png”/><p>研究者は、コンピュータビジョンの分野で、大規模なウェブスケールのデータセットへのアクセスがある場合、ビジョントランスフォーマ(ViT)が畳み込みニューラルネットワーク(ConvNet)よりも優れているという一般的な信念に挑戦しています。彼らはNFNetと呼ばれるConvNetアーキテクチャを紹介し、約4兆個のラベル付き画像を含む巨大なデータセットであるJFT-4Bで事前トレーニングを行います。彼らの目的は、NFNetモデルのスケーリング特性を評価し、同様の計算予算を持つViTと比較していかなるパフォーマンスを発揮するかを確認することです。</p><p>近年、ViTは人気を集めており、特に大規模なデータセットを扱う場合にはConvNetを凌駕するとの広く信じられています。しかし、この考えには実証的な根拠がなく、多くの研究が弱いConvNetベースラインとViTを比較しています。さらに、ViTは遥かに大きな計算予算で事前トレーニングされており、これらのアーキテクチャ間の実際のパフォーマンスの違いについて疑問が投げかけられています。</p><p>特にResNetなどのConvNetは、コンピュータビジョンのタスクにおいて何年もの間選ばれてきました。しかし、トランスフォーマベースのモデルであるViTの台頭により、モデルのパフォーマンス評価方法が変化し、大規模なウェブスケールのデータセットで事前トレーニングされたモデルに焦点が当てられるようになりました。</p><p>研究者はConvNetアーキテクチャであるNFNetを紹介し、JFT-4Bデータセットで、アーキテクチャとトレーニング手順を重要な変更なしで事前トレーニングを行います。彼らは、NFNetモデルのパフォーマンスが、0.4kから110kのTPU-v4コアの計算時間の範囲でどのようにスケーリングするかを調べます。彼らの目標は、同様の計算リソースを使用してNFNetがViTと性能を比較できるかどうかを判断することです。</p><p>研究チームは、JFT-4Bデータセットで深さと幅が異なるさまざまなNFNetモデルをトレーニングします。彼らはこれらの事前トレーニング済みモデルをImageNetで微調整し、事前トレーニング時に使用する計算予算に対してパフォーマンスをプロットします。彼らはまた、対数-対数スケーリング則を観察し、より大きな計算予算がより良いパフォーマンスにつながることを発見します。興味深いことに、最適なモデルサイズとエポック予算は同時に増加することに気付きます。</p><p>研究チームは、最も高価な事前トレーニング済みNFNetモデルであるNFNet-F7+が、事前トレーニングに110kのTPU-v4コア時間、微調整に1.6kのTPU-v4コア時間を使用してImageNetのトップ-1の精度が90.3%を達成することを発見します。さらに、微調整の際に繰り返し拡張を導入することで、素晴らしい90.4%のトップ-1の精度が実現されます。比較的に、より大規模な事前トレーニング予算が必要なViTモデルも同様のパフォーマンスを達成します。</p><p>結論として、この研究は、同様の計算予算で訓練された場合、ViTがConvNetを大幅に上回るという一般的な信念に挑戦しています。彼らはNFNetモデルがImageNetで競争力のある結果を達成できることを示しています。この研究は、モデルのパフォーマンスにおいて計算リソースとデータの利用可能性が重要な要素であると強調しています。ViTにはその利点がありますが、NFNetのようなConvNetも、特に大規模なスケールでトレーニングされた場合には手ごわい競争相手です。この研究は、パフォーマンスと計算要件の両方を考慮した、公平でバランスの取れたアーキテクチャの評価を推奨しています。</p>

初心者向けの転移学習

この投稿では、転移学習の概念について説明し、画像分類のタスクでの具体例を見てみましょうこれは、豊富な知識を持った事前学習済みモデルを使用し、…

Note This translation conveys the same meaning as the original English phrase, which refers to going from a state of poverty to wealth.

大規模言語モデル(LLM)が世界中を席巻している中、ベクトル検索エンジンも同行していますベクトルデータベースは、LLMの長期記憶システムの基盤を形成しています...

「Chromaを使用してマルチモーダル検索アプリを作成する方法」

はじめに 複雑な脳が世界をどのように処理しているのか、あなたは考えたことがありますか? 脳の内部の仕組みは依然として謎ですが、私たちはそれを多目的なニューラルネットワークにたとえることができます。 電気化学的な信号のおかげで、それは様々なデータ型を処理します-音、映像、匂い、味、触覚。 AIが進化するにつれて、マルチモーダルモデルが登場し、検索能力が革新されています。 このイノベーションにより、検索の正確性と関連性が向上し、新たな可能性が開かれています。 マルチモーダル検索の魅力的な世界を発見しましょう。 学習目標 「AIにおけるマルチモーダリティ」という用語を理解する。 OpenAIのイメージテキストモデルCLIPについての洞察を得る。 ベクトルデータベースとベクトルインデックスの概要を理解する。 CLIPとChromaベクトルデータベースを使用して、Gradioインターフェースを使用した食品推薦システムを構築する。 マルチモーダル検索の他の現実世界での使用例を探索する。 この記事はData Science Blogathonの一部として公開されました。 AIにおけるマルチモーダリティとは何ですか? Googleで検索すると、マルチモードはプロセスに複数のモードや方法を関与させることを指すと分かります。 人工知能では、マルチモーダルモデルは異なるデータタイプを処理し理解することができるニューラルネットワークです。 たとえば、GPT-4やバードなどです。 これらは、テキストや画像を理解できるLLMです。 他の例としては、ビジュアルとセンサーデータを組み合わせて周囲の状況を理解するテスラの自動運転車、またはテキストの説明から画像を生成できるMidjourneyやDalleがあります。 コントラスト言語-画像事前トレーニング(CLIP) CLIPは、OpenAIが大量の画像テキストペアのデータセットでトレーニングしたオープンソースのマルチモーダルニューラルネットワークです。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us