Search Results 構成

ChatGPTが知能的ですか？科学的なレビュー

約1年前、OpenAIはChatGPTをリリースし、世界中を席巻しましたChatGPTは、コンピュータとの対話を、従来のより制約の少ない、より自然な言語で行うという完全に新しいアプローチを取り入れました

ラストでクロスプラットフォームのTFIDFテキストサマライザーを構築する

NLPツールとユーティリティはPythonエコシステムで大幅に成長し、開発者はすべてのレベルで高品質な言語アプリをスケールさせることができるようになりましたRustはNLPにおいて比較的新しい導入された言語であり、...

「ニュースレコメンデーションのための大規模な言語モデルとベクトルデータベース」

大規模言語モデル（LLM）は、Chat-GPTやBardなどの生成型AIツールの最新リリースにより、機械学習コミュニティ全体で大きな話題となりましたその中核となるアイデアの1つは...

SalesForce AI 研究 BannerGen マルチモダリティバナー生成のためのオープンソースライブラリ

効果的なグラフィックデザインは成功したマーケティングキャンペーンの基盤です。それはデザイナーと視聴者の間のコミュニケーション橋渡しを行い、ユーザーを魅了し、重要な詳細を強調し、キャンペーンの視覚的な外観を向上させます。しかし、現在の方法は時間のかかるものであり、層ごとの組み立て作業が必要です。これには専門知識が必要であり、スケーラブルにはなりません。上記の問題を解決するために、Salesforceの研究者は、生成型AIの力を活用してデザインプロセスを効率化するオープンソースのライブラリBannerGenを導入しました。このライブラリには、3つの並列マルチモーダルバナージェネレーションメソッド、LayoutDETR、LayoutInstructPix2Pix、およびFramed Template RetrieveAdapterが含まれます。それぞれが大量のデザイングラフィックデータでトレーニングを受けており、デザインプロセスを迅速化できます。さらに、これらすべてがBannerGenのGitHubリポジトリでオープンソース化されており、Pythonモジュールとしてインポートできるため、開発者は各メソッドで実験することが容易です。BannerGenには、ライセンスされたフォントと注意深く作成されたテンプレートもあり、開発者は高品質のデザインを構築することができます。ユーザーはバナーを作成したい画像をアップロードすることができます。その画像は、主要な要素に焦点を当てて複数のサブイメージにクロッピングされます。ユーザーはまた、希望するバナーのタイプと含めたいテキストを指定することもできます。サブイメージは選択したテンプレートに統合され、見事なビジュアルが作成されます。最終的なデザインはHTMLファイルとPNGファイルとして生成されます。研究者はVAEGANフレームワークを取り入れて、生成されたデザインを現実のパターンに合わせるようにしました。DETRアーキテクチャもBannerGenに組み込まれ、LayoutDETRとして言及されています。研究者はDETRデコーダを変更して、マルチモーダルの前景入力を処理できるようにしました。このアーキテクチャにより、BannerGenは背景と前景要素をより良く理解することができ、より良い結果を生み出します。 BannerGenは、拡散モデルによって強化された画像から画像への編集技術であるInstructPix2Pixも組み込んでいます。それは背景画像をテキストが重ねられた画像に変換するように微調整されています。 3番目のメソッドであるFramed Template RetrieveAdapterは、生成されたデザインの多様性を向上させるために使用され、3つのコンポーネントで構成されています。メトリクスに基づいて最適なフレームを見つけるリトリーバー、フレームに適合するように入力画像とテキストをカスタマイズするアダプター、背景レイヤーとユーザーの入力を統合してHTML/CSSでデザインを生成するレンダラーです。まとめると、BannerGenは生成型AIを活用してユーザーがシームレスにカスタマイズされたバナーを作成できる強力で多機能なフレームワークです。BannerGenのアーキテクチャは実際のレイアウトから学ぶように設計されており、背景と前景要素を理解することができます。最終的なデザインはHTMLファイルとPNGファイルとして生成され、手動で簡単に調整することができ、すぐに使用できるように任意のメディアに埋め込むことができます。BannerGenはグラフィックデザインのプロセスを時間のかかるものから解放し、ユーザーが高品質でプロフェッショナルなデザインを生成するのを支援します。この記事はSalesForce AI Research BannerGen: An Open-Source Library for Multi-Modality Banner GenerationがMarkTechPostに最初に掲載されました。

このAI論文は、TreeOfLife-10Mデータセットを活用して生物学と保護のコンピュータビジョンを変革するBioCLIPを紹介しています

生態学、進化生物学、生物多様性など、多くの生物学の分野が、研究ツールとしてデジタルイメージおよびコンピュータビジョンを活用しています。現代の技術は、博物館、カメラトラップ、市民科学プラットフォームから大量の画像を分析する能力を大幅に向上させました。このデータは、種の定義、適応機構の理解、個体群の構造と豊富さの推定、生物多様性の監視と保全に活用することができます。とはいえ、生物学的な問いにコンピュータビジョンを利用しようとする際には、特定のタスクに適したモデルを見つけて訓練し、十分なデータを手動でラベリングすることは、依然として大きな課題です。これには、機械学習の知識と時間が大量に必要とされます。オハイオ州立大学、マイクロソフト、カリフォルニア大学アーヴァイン校、レンセラーポリテクニック研究所の研究者たちは、この取り組みで生命の木の基礎的なビジョンを構築することを調査しています。このモデルは、実際の生物学的なタスクに一般的に適用できるように、以下の要件を満たす必要があります。まず、一つのクラドだけでなく、様々なクラドを調査する研究者に適用できる必要があります。そして理想的には、生命の木全体に一般化できることが求められます。さらに、生物学の分野では、同じ属内の関連種や、適応度の向上のために他の種の外観を模倣するなど、視覚的に類似した生物と遭遇することが一般的です。生命の木は生物を広義のグループ（動物、菌類、植物など）および非常に細かいグループに分類しているため、このような細かな分類の精度が重要です。最後に、生物学におけるデータ収集とラベリングの高いコストを考慮して、低データの状況（例：ゼロショットまたはフューショット）で優れた結果が得られることが重要です。数億枚の画像で訓練された現行の汎用ビジョンモデルは、進化生物学や生態学に適用する際に十分な性能を発揮しません。しかし、これらの目標はコンピュータビジョンにとって新しいものではありません。研究者たちは、生物学のビジョン基盤モデルの作成には2つの主な障害があることを特定しています。まず、既に利用可能なデータセットは、サイズ、多様性、またはラベルの精度の点で不十分ですので、より良い事前トレーニングデータセットが必要です。さらに、現在の事前トレーニングアルゴリズムは3つの主要な目標に適切に対応していないため、生物学の独特な特性を活用したよりよい事前トレーニング方法を見つける必要があります。これらの目標とそれらを実現するための障害を念頭に置いて、チームは以下を提示しています： TREEOFLIFE-10Mという大規模なML対応の生物学画像データセット BIOCLIPはTREEOFLIFE-10M内の適切な分類群を用いてトレーニングされた生命の木を基盤としたビジョンベースのモデルです。 TREEOFLIFE-10Mは、ML対応の広範な生物学画像データセットです。生命の木において454,000の分類群をカバーする10,000,000以上の写真が含まれており、研究者たちによって編成され、最大のML対応生物学画像データセットが公開されました。2.7百万枚の写真は、最大のML対応生物学画像コレクションであるiNat21を構成しています。iNat21やBIOSCAN-1Mなどの既存の高品質データセットもTREEOFLIFE-10Mに組み込まれています。TREEOFLIFE-10Mのデータの多様性の大部分は、新たに選択された写真が含まれているEncyclopedia of Life（eol.org）から得られています。TREEOFLIFE-10Mのすべての画像の分類階層および上位の分類順位は、可能な限り注釈が付けられています。TREEOFLIFE-10Mを活用することで、BIOCLIPや将来の生物学モデルをトレーニングすることができます。 BIOCLIPは、視覚に基づく生命の木の表現です。TREEOFLIFE10Mのような大規模なラベル付きデータセットを用いてビジョンモデルをトレーニングする一般的で簡単なアプローチは、監視付き分類ターゲットを使用して画像から分類指数を予測することを学ぶことです。ResNet50やSwin Transformerもこの戦略を使用しています。しかし、このアプローチは、分類群が体系的に関連している複雑なタクソノミーのシステムを無視し、活用していません。したがって、基本的な監視付き分類を使用してトレーニングされたモデルは、未知の分類群をゼロショット分類することができない可能性があり、トレーニング時に存在しなかった分類群に対してもうまく一般化することができないかもしれません。その代わりに、チームは、BIOCLIPの包括的な生物学的タクソノミーとCLIPスタイルの多モーダルコントラスティブ学習を組み合わせる新しいアプローチに従っています。CLIPコントラスティブ学習目的を使用することで、彼らは分類群の階層をキングダムから最も遠い分類群ランクまでフラット化して、分類名として知られる文字列に関連付けることができます。BIOCLIPは、可視化できない分類群の分類名を使用する際にも、ゼロショット分類を行うことができます。チームは、混合テキスト型のトレーニング技術が有益であることを提案し、示しています。これは、分類名からの一般化を保ちつつ、複数のテキストタイプ（例：科学名と一般名）を組み合わせたトレーニング中に柔軟性を持つことを意味します。たとえば、ダウンストリームの使用者は一般的な種名を使用し続けることができ、BIOCLIPは非常に優れたパフォーマンスを発揮します。BIOCLIPの徹底的な評価は、植物、動物、昆虫を対象とした10の細かい画像分類データセットと、トレーニング中には使用されなかった特別に編集されたRARE SPECIESデータセットに基づいて行われています。BIOCLIPは、CLIPとOpenCLIPを大きく凌ぎ、few-shot環境では平均絶対改善率17％、zero-shot環境では18％の成績を収めました。さらに、その内在的な分析はBIOCLIPのより優れた一般化能力を説明することができます。これは、生物分類学的階層を遵守した階層的表現を学んでいることを示しています。 BIOCLIPのトレーニングは、数十万の分類群に対して視覚表現を学ぶためにCLIPの目的を利用しているということにもかかわらず、チームは分類に焦点を当てたままです。今後の研究では、BIOCLIPが細かい特徴レベルの表現を抽出できるよう、inaturalist.orgから100百万枚以上の研究用写真を取り込み、種の外見のより詳細なテキスト記述を収集する予定です。

「CNNにおけるアトラウス畳み込みの総合ガイド」

イントロダクションコンピュータビジョンの領域において、畳み込みニューラルネットワーク（CNN）は画像解析と理解の領域を再定義しました。これらの強力なネットワークは、画像分類、物体検出、セマンティックセグメンテーションなどのタスクにおいて革新的な進展を達成しました。これらは、医療、自動運転などのさまざまな分野での応用の基盤を築きました。しかし、よりコンテキストに対応した堅牢なモデルの需要が増えるにつれて、伝統的なCNN内の畳み込みレイヤーは、包括的なコンテキスト情報のキャプチャにおいて制限を受けています。これは、計算量の増加に伴わずにネットワークがより広いコンテキストを理解する能力を向上させるための革新的な手法の必要性をもたらしました。ここで紹介するのは、伝統的な畳み込みレイヤー内の常識を覆した、画期的なアプローチであるAtrous Convolutionです。Atrous Convolution（拡張畳み込み）は、計算量やパラメータを大幅に増やすことなく、ネットワークがより広いコンテキストをキャプチャする能力を実現することで、ディープラーニングの世界に新たな次元をもたらしました。学習目標畳み込みニューラルネットワークの基礎を学び、ビジュアルデータを処理して画像を理解する方法を理解する。 Atrous Convolutionが従来の畳み込み方法を改善する方法を理解し、画像内のより大きなコンテキストをキャプチャする能力を把握する。 DeepLabやWaveNetなど、Atrous Convolutionを使用するよく知られたCNNアーキテクチャを探索し、そのパフォーマンスを向上させる方法を確認する。 Atrous ConvolutionがCNN内での応用の手法やコードスニペットを通じて実践的な例を通して理解する。この記事はデータサイエンスのブログマラソンの一環として公開されました。 CNNの理解：動作原理畳み込みニューラルネットワーク（CNN）は、主に画像やビデオなどのビジュアルデータの分析に特化したディープニューラルネットワークの一種です。彼らは人間の視覚システムに触発され、ビジュアルデータ内のパターン認識において非常に効果的です。以下に詳細を示します：畳み込みレイヤー： CNNは複数のレイヤーで構成されており、畳み込みレイヤーがその核となっています。これらのレイヤーは、学習可能なフィルタを入力データに適用して、画像からさまざまな特徴を抽出します。プーリングレイヤー：畳み込み後、プーリングレイヤーを使用して空間的な次元を削減し、畳み込みレイヤーによって学習された情報を圧縮することがよくあります。一般的なプーリング操作には、最大プーリングや平均プーリングなどがあり、表現のサイズを縮小しながら必要な情報を保持します。活性化関数：畳み込みおよびプーリングレイヤーの後には、非線形の活性化関数（ReLUなどの整流線形ユニット）が使用されます。これにより、ネットワークはデータ内の複雑なパターンや関係性を学習することができます。全結合レイヤー：…

「AIアクトの解読」

AI法 [1]は、長く苦痛な過程を経て形成されましたこれは、ヨーロッパの立法プロセスにおける政治の影響と重要性を完璧に示すものですしかし、同時に欠陥があることも問題として浮かび上がります...

このAI論文は、「Vary」という新しいアプローチを明らかにしています：高度な多言語認識タスクのための大規模なビジョン言語モデルの視覚語彙を拡張するためのアプローチ

大視覚言語モデル（LVLM）は、コンピュータビジョンと自然言語処理を組み合わせて、視覚的なコンテンツのテキストの説明を生成することができます。これらのモデルは、画像のキャプション付け、可視化された質問応答、および画像の検索など、さまざまなアプリケーションで驚異的な進展を遂げています。しかし、その優れたパフォーマンスにもかかわらず、LVLMはまだいくつかの課題に直面しています。特に、密で詳細な知覚を必要とする特殊なタスクにおいて、ビジョンの語彙が制約されているという問題です。中国科学技術大学、MEGVIIテクノロジー、および中国科学院の研究者たちは、固有の認識力を必要とする特殊なタスクのためにLVLMを強化するVaryという方法を導入しました。Varyは、効率的に新しい特徴を獲得し、詳細な知覚を改善するためのLVLMを活性化します。実験結果は、Varyの効果を示しています。研究者たちは、さらなる探求のためのプラットフォームとしてVaryを提案しています。研究では、GPT-4をトレーニングデータ生成に使用し、Varyの応用範囲をさまざまな視覚タスクに適用することを強調しています。これにより、LVLMの能力が拡張される一方で、元の能力も維持されます。この研究は、CLIP-VITなどの一般的なビジョン語彙の制約に取り組んでおり、LVLMにおいてビジョン語彙をスケールアップする必要性を提起しています。これにより、外国語のLVLMのテキスト語彙を拡張することに着想を得たVaryという方法を導入しました。Varyは、語彙ネットワークを使用して新しいビジョン語彙を生成し、元の語彙と統合します。これにより、非英語のOCRやチャート理解などの様々なタスクにおけるエンコーディング効率とモデルパフォーマンスが向上します。この研究は、Varyの設計が今後の研究を刺激すると予想しています。この研究では、Varyの2つの構成「Vary-tiny」と「Vary-base」を紹介しています。細かい知覚に焦点を当てたVary-tinyは、テキスト入力ブランチを持たず、小さなOPT-125Mモデルを使用します。ドキュメントとチャートのデータを正例、自然画像を負例としてトレーニングされます。Vary-tinyの語彙ネットワークは新しいビジョン語彙を生成し、Vary-baseでは元の語彙と統合されます。Vary-baseのトレーニングでは、両方の語彙ネットワークが使用され、重みが固定されますが、LVLMのパラメータと入力埋め込み層が最適化されます。具体的な実装の詳細には、AdamW最適化、余弦退火スケジューラ、特定の学習率が含まれます。ドキュメントとチャートの理解のための合成データが作成されます。 Varyは、複数のタスクで有望なパフォーマンスを発揮し、ドキュメントレベルのOCR、チャート理解、およびMMVetタスクで優れた結果を達成しています。具体的には、DocVQAでは78.2%、MMVetでは36.2%のANLSを達成し、新しいドキュメントの解析機能における能力を示しています。また、Vary-tinyとVary-baseは、ドキュメントOCRタスクで強力な結果を示しており、Vary-baseは他のLVLMを凌駕しています。この研究はVaryの成功を認めつつ、視覚語彙をスケールアップする効果的な改善の必要性を強調しています。まとめると、この研究の主なポイントは次のように要約されます：提案： LVLMにおける視覚語彙のスケールアップのための効率的な方法。手法：提案された方法は、オリジナルの言語と統合されたネットワークを介して生成された新しいビジョン語彙を導入します。能力：この方法は、特にドキュメントレベルのOCRやチャート理解のタスクにおいて、詳細な知覚を向上させます。LVLMの元々の機能は維持しながら、素早く新しい特徴を獲得します。パフォーマンス：さまざまなタスクで有望なスコアが示されており、この方法はドキュメント解析機能で他のLVLMを凌駕しています。

Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ（VALID）を発表しました

Google AR＆amp;VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバーチャルアバターライブラリ「VALID」を検証するため、University of Central Floridaと協力して総合的な研究を実施しました。データ駆動型の顔の平均値を利用し、各民族のボランティア代表者と共同して42のベースアバター（7つの人種×2つの性別×3つの個人）を作成するために、7つの人種の選択は米国国勢調査局のガイダンスに従って行われました。研究には、世界中の参加者からバリデーションされたラベルとメタデータを得るため、132人の参加者（33か国）が選ばれました。結果は、参加者がアバターの人種をどのように認識したかを理解するために、主成分分析（PCA）とK-平均クラスタリングを使用したバリデーションプロセスを採用しました。参加者の人種と性別をバランスさせることで多様な視点のバランスをとるために、世界中の33か国から合計132人の参加者が研究のために選ばれました。結果は、アジア人、黒人、白人のアバターが、さまざまな人種の参加者によって一貫して認識されていることを示しました。しかし、米国先住民・アラスカ先住民（AIAN）、ヒスパニック、中東、北アフリカ（MENA）、ハワイと太平洋の先住民族（NHPI）を表すアバターは、参加者の人種によって認識に差異があり、曖昧さがより顕著でした。同じ人種の参加者が対応する人種として認識した場合、アバターはその人種に基づいて名前が付けられます。研究者たちは、アジア人、黒人、白人のアバターが、すべての参加者を対象に95％以上の合意率で正しく認識されたという結果について議論し、自身と異なる人種の顔を識別する際の低い65〜80％の正確性の概念を挑戦していると述べました。これは、多様な人種グループに対する知覚の専門知識またはなじみによるものであり、おそらくグローバルなメディアの影響を受けたものと考えられます。同じ人種の参加者によって主に正しく認識されたアバターもありました。たとえば、ヒスパニックのアバターは参加者全体で評価が分かれましたが、ヒスパニックのみの参加者によってより正確に認識されました。研究では、正確な表現を確保するためにバーチャルアバターの研究において参加者の人種を考慮することの重要性が強調されています。髪型などの要因により、アバターが曖昧にラベルされる場合がありました。ハワイ先住民と太平洋の島々を表すアバターの検証は限界があり、表現の課題と広範な選考努力の必要性が強調されました。研究チームは、内グループと外グループのカテゴリ化によるステレオタイプ化と社会的判断への影響を強調し、仮想現実における異人種間の相互作用を改善するための規制の導入を提案しました。研究コミュニティへの貢献として、チームはVALIDアバターライブラリへのオープンアクセスを提供し、さまざまなシナリオに適した多様なアバターが利用可能です。このライブラリには、65の顔のブレンドシェイプを持つアバターが含まれており、UnityやUnrealなどの人気のあるゲームエンジンと互換性があります。研究者および開発者が自身の研究やアプリケーションに適した多様で包括的なアバターを求めるための貴重なリソースとして、オープンアクセスのVALIDライブラリが位置付けられています。まとめると、研究チームは多様なバーチャルアバターライブラリを作成し、ステレオタイプに挑戦し、包括性を促進しました。研究はアバターの認識における同じ人種バイアスの影響を強調し、さまざまな分野での仮想アバターの開発と応用について貴重な洞察を提供しました。オープンアクセスのVALIDライブラリは、研究者や開発者が研究やアプリケーションに多様で包括的なアバターを求める際の貴重なリソースとされています。

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを理解する」

Learn more about Search Results 構成 - Page 6