Learn more about Search Results A - Page 336

「Pandasのastype()とto_datetime()の間の3つの実践的な違い」

Pandasのデータフレームの列の型を文字列から日時形式に変換するには、pd.to_datetime()関数を使用します複数の列のデータ型を変更するには、pandasのastype()を使用します

「KAISTの研究者がFaceCLIPNeRFを紹介:変形可能なNeRFを使用した3D顔のテキスト駆動型操作パイプライン」

3Dデジタル人間コンテンツ改善の重要な要素は、簡単に3D顔表現を操作できる能力です。Neural Radiance Field(NeRF)は、3Dシーンの再構築において重要な進展を遂げていますが、その操作技術の多くは剛体ジオメトリや色の操作に焦点を当てており、表情の微細な制御を必要とする作業において改善が必要です。最近の研究では、領域制御された顔編集手法が提案されましたが、この手法では、選択したトレーニングフレームから顔の異なる部分のユーザーアノテーションマスクを収集する手間のかかる手順が必要であり、さらに人間の属性制御が必要です。 顔特異的な暗黙の表現技術は、可変性の高い顔モデルのパラメータを事前に使用して観測された顔の表情を高い忠実度でエンコードします。しかし、その手動操作には、顔の表情の範囲を網羅した大規模なトレーニングセットが必要であり、約6000フレームをカバーします。これにより、データ収集と操作のプロセスが困難になります。その代わりに、KAISTとScatter Labの研究者は、いくつかの異なるタイプの顔変形インスタンスから成る約300のトレーニングフレームの動的なポートレートビデオ上でトレーニングする方法を開発しました。これにより、図1に示すように、テキストによる変更が可能になります。 図1 彼らの手法は、HyperNeRFを使用して観測された変形をカノニカル空間から学習し分離し、顔の変形を制御します。特に、共通の潜在コード条件付きの暗黙のシーンネットワークとフレームごとの変形潜在コードは、トレーニングフレーム全体で教えられます。彼らの基本的な発見は、様々な空間変数の潜在コードを使用してシーンの変形を表現し、操作タスクに利用することです。この発見は、HyperNeRFの定式化を単純に適用することの欠点から生じます。すなわち、望ましい顔の歪みをエンコードする単一の潜在コードを探すことです。 たとえば、単一の潜在コードでは、多くの場合に見られるローカルな変形の混合を必要とする表情を伝えることはできません。彼らの研究では、この問題を「連結ローカル属性の問題」として特定し、空間的に変動する潜在コードを提供することで対処しています。これを行うために、彼らはまず、すべての観測された変形をアンカーコードのコレクションにまとめ、それらを組み合わせて数多くの位置条件付きの潜在コードを生成するためにMLPに教えます。そして、生成された潜在コードの画像をCLIP埋め込み空間の目標テキストに近づけることにより、潜在コードの反映性を実現します。結論として、彼らの研究は以下の貢献をしています。 • 空間的に変動する潜在コードを使用してシーンを表現する操作ネットワークの設計 • NeRFで再構築された顔のテキストによる操作パイプラインの提案 • 彼らの知る限り、NeRFで再構築された顔に関するテキストを操作する最初の人物。

話すロボット:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します

Google DeepMindは、ロボット技術の向上のために新しいビジョン・言語・アクションモデルを紹介します

AI導入の迷宮を進む

「過去5年間、複数の企業と協力し、彼らがAIソリューションを展開するのを支援してきましたその過程で、いくつかの共通のパターンを目撃し、それらを皆さんと共有することにしましたこのブログ投稿では、私たちは...」

『SDXL 1.0の内部:Stability AI 新しいテキストから画像へのスーパーモデル』

「Stability AIは、安定したDiffusionモデルのリリースにより、テキストから画像への革新の中心にありました最近の数ヶ月間、研究における大きな進展が見られました...」

『ChatGPTや他のチャットボットの安全コントロールに研究者が問題点を指摘』

新しい報告書によると、広く使用されているチャットボットのガードレールは回避される可能性があり、技術に対して予測不可能な環境がますます生じています

仮想現実における人間の動作認識の進展:本AI論文では、LKA-GCNというスケルトン大カーネルアテンションを導入して、非の打ちどころのないパフォーマンスを実現します

スケルトンベースの人間のアクション認識は、ビデオデータからスケルトンの関節位置を分析して人間のアクションを識別するコンピュータビジョンの分野です。この分野では、機械学習モデルを使用して時間的なダイナミクスと空間的な構成を理解し、監視、医療、スポーツ分析などのアプリケーションに活用されます。 この研究分野が登場して以来、科学者たちは2つの主要な戦略を追ってきました。最初の戦略はハンドクラフト方式です。これらの初期の技術は、古典的な分類器に供給されるアクション表現を作成するために3Dジオメトリ操作を適用しました。しかし、高レベルのアクションの手がかりを学習するために人間の支援が必要であり、時代遅れのパフォーマンスを引き起こしました。2番目の戦略はディープラーニング方式です。ディープラーニングの最新の進展により、アクション認識は革新的な方法で行われるようになりました。最先端の方法では、空間的なトポロジーと時間的なモーションの相関を捉える特徴表現の設計に注力しています。具体的には、グラフ畳み込みネットワーク(GCN)はスケルトンベースのアクション認識において強力な解決策として登場し、様々な研究で印象的な結果を生み出しています。 この文脈において、最近「スケルトンラージカーネルアテンショングラフ畳み込みネットワーク」(LKA-GCN)と呼ばれる新しい手法が提案されました。この手法はスケルトンベースのアクション認識における2つの主要な課題に取り組んでいます。 長距離依存性:LKA-GCNはスケルトンの大規模カーネルアテンション(SLKA)演算子を導入し、既存の手法における過剰な平滑化問題を解決するために関節間の長距離相関を効果的に捉えます。 価値のある時間情報:LKA-GCNは手作りの関節運動モデリング(JMM)戦略を採用し、重要な関節運動を反映するフレームに焦点を当てて、時間的な特徴を強化し認識精度を向上させます。 提案手法は、スケルトンデータをグラフとしてスペースタイムグラフモデリングに使用します。ここでは、空間グラフは人間の関節の自然なトポロジーを捉え、時間グラフは隣接するフレーム間で同じ関節の相関をエンコードします。グラフ表現は、時間の経過に伴って人間の関節を表す3D座標のシーケンスであるスケルトンデータから生成されます。著者たちはSLKA演算子を導入し、セルフアテンションメカニズムと大規模カーネル畳み込みを組み合わせて人間の関節間の長距離相関を効率的に捉えます。この手法は、計算オーバーヘッドを最小限に抑えながら、より大きな受容野を通じて間接的な依存関係を集約します。さらに、LKA-GCNにはJMM戦略が含まれており、局所範囲内での平均関節運動を反映するベンチマークフレームを計算することで、情報量の多い時間的な特徴に焦点を当てます。LKA-GCNは、スペースタイムのSLKAモジュールと認識ヘッドから構成され、認識性能を向上させるためのマルチストリームフュージョン戦略を活用します。最後に、この手法はスケルトンデータをジョイントストリーム、ボーンストリーム、モーションストリームの3つのストリームに分割して使用します。 LKA-GCNの評価のために、著者たちはさまざまな実験を行い、3つのスケルトンベースのアクション認識データセット(NTU-RGBD 60、NTU-RGBD 120、Kinetics-Skeleton 400)での実験的な研究を行いました。この手法はベースラインと比較され、SLKA演算子やジョイントムーブメントモデリング(JMM)戦略などの異なる要素の影響が分析されました。また、2つのストリームフュージョン戦略も探索されました。実験結果は、LKA-GCNが最先端の手法を上回り、長距離依存関係を捉える能力と認識精度の向上を示しました。視覚分析は、この手法がアクションの意味や関節の依存関係を捉える能力をさらに裏付けています。 結論として、LKA-GCNはスケルトンベースのアクション認識における重要な課題である長距離依存関係と価値のある時間情報を捉えます。SLKA演算子とJMM戦略を通じて、LKA-GCNは実験評価で最先端の手法を上回ります。この革新的な手法は、さまざまなアプリケーションにおいてより正確かつ堅牢なアクション認識を実現する可能性を秘めています。ただし、研究チームはいくつかの制約を認識しています。彼らは、認識性能を向上させるために深度マップやポイントクラウドなどのデータモダリティを組み込む予定です。さらに、産業の要求に応えるために、モデルの効率性を最適化するための知識蒸留戦略を取り入れることを目指しています。

スタビリティAIのスタブルディフュージョンXL 1.0:AI画像生成の画期的なブレークスルー

先進的なAIスタートアップであるStability AIは、Stable Diffusion XL 1.0のローンチにより、再び生成型AIモデルの限界に挑戦しています。この最先端のテキストから画像への変換モデルは、鮮やかな色彩、素晴らしい対比、印象的な照明により、画像生成を革新することを約束しています。しかし、そのオープンソースの性質が懸念され、潜在的な誤用の問題が浮上しています。Stable Diffusion XL 1.0の世界に飛び込んで、その特徴、機能、有害なコンテンツ生成に対するStability AIの対策について探ってみましょう。 また読む:Stability AIのStableLM、テキストとコード生成でChatGPTに対抗 Stable Diffusion XL 1.0に会いましょう:大きな進歩 Stability AIは、Stable Diffusion XL 1.0のリリースにより、再びAIの世界で話題になっています。この高度なテキストから画像への変換モデルは、Stability AIのこれまでで最も洗練されたものとして謳われています。35億のパラメータを搭載したこのモデルは、秒単位でフル1メガピクセルの解像度の画像を生成し、複数のアスペクト比をサポートしています。 また読む:Adobe Illustratorの「Generative Recolor」AIで画像を変換する方法…

「2023年の最高の人工知能AIベースのアート生成器」

Dream by Wombo 夢Womboによると、他のAI画像生成器とは異なり、追加費用なしで連続的な画像合成が可能です。予算が限られているか、初めて始める場合には、このAI生成器が素晴らしい選択肢です。夢Womboは非常に使いやすいです。始める前にサインアップし、いくつかのコンテンツを作成し、画像スタイルを選択する必要があります。生成されたビジョンのタイプが気に入らない場合は、常に新たに始めることができます。 DALL-E 2 OpenAIは2021年にDALL-Eという名前の新しいバージョンの画像生成AIモデルDALL-E 2をリリースしました。DALL-E 2は、前作と同様に、テキスト入力に応じてプロの水準の画像を生成するように設計されています。DALL-E 2は、より高品質でより洗練された画像を生成する能力を含む、いくつかの点で前作を改善しています。DALL-E 2は、より洗練されたテキスト信号を処理し、さまざまな視覚的表現に応答することができます。また、特定の主題や場所の画像を撮る場合など、特定の用途や分野に適応することもできます。 Midjourney Midjourneyは、その広範な能力と非常に高速な合成速度のため、おそらく最高の人工知能(AI)画像生成器です。MidjourneyにSMSコマンドを送信すると、残りの作業を引き受けてくれます。多くのクリエイティブプロフェッショナルは、自分の作品のインスピレーションとなる画像を生成するためにMidjourneyを使用しています。Midjourneyで作られた人工知能の作品「Théâtre d’Opéra Spatial」は、コロラド州の州博覧会の美術部門で20人の他の画家を抑えて1位を獲得しました。ただし、現時点では、MidjourneyはDiscordサーバー上で見つけることができます。MidJourney Discordサーバーに参加し、ボットのコマンドを使用して画像を作成する必要があります。ただし、それは簡単で、すぐに作業を開始できます。 Dream Studio(Stable Diffusion) Dream Studio、またはStable Diffusionとしても知られる、人気のあるテキストから画像へのAI生成器です。無料で利用できるパブリックモデルであり、テキストの提案を即座に視覚化することができます。写真、イラスト、3Dモデル、さらにはロゴまで、Dream Studioは可能な創造物の範囲内で作成することができます。ユーザーがアップロードした画像と書かれた説明を組み合わせることで、写真のような写実的な作品が作成されます。 Craiyon…

GOAT-7B-Communityモデルをご紹介します:GoatChatアプリから収集されたデータセットでLLaMA-2 7Bモデルを微調整したAIモデルです

最近、AI研究所の科学者たちは、GoatChatアプリのデータを使用して、LLaMA-2 7Bモデルを洗練させたGOAT-7B-Communityモデルを発表しました。メタのLLaMA v2 7Bは、GoatChatアプリから得られた新しい詳細なデータセットを利用して、最先端のGOAT-7B-Communityモデルに細かく調整されました。 「アライメント」は、大規模言語モデル(LLM)を作成する上で重要です。教育と経験に基づいて倫理的または違法と考える質問に対して、モデルが回答を拒否することができるという考え方です。アライメントは倫理的なAIの実装において不可欠ですが、モデルの最適化に新たな障害をもたらします。 研究者たちは、アライメントによって生成される応答が顧客が必要とする正確な詳細を提供していないことに気付きました。これらの反応は通常、控えめで詳細を説明することに消極的な傾向があります。質問に対して洞察力のある完全な回答を提供する信頼性のあるモデルを構築するためには、これに注意を払うことが重要です。彼らは、アライメントフィルタが不適切な提案をすべて排除していないことを発見しました。そのため、アライメントは多くのデータセットを廃棄する結果となることがしばしばあります。これは、ケース全体の情報の約3分の1に相当します。 この問題を踏まえ、研究者たちはデータセットのクリーニングのための新しい技術を開発しました。さらに、アライメントされた応答がモデルのパフォーマンスに与える影響を徹底的に理解するために規制された実験を実施しました。 科学者の教育方法 ディープラーニングの計算のバックボーンとして、8つのA100 NVIDIA GPUを装備した高性能ノードが使用されました。研究者たちは、トレーニング手順の基盤としてbfloat16浮動小数点形式とDeepSpeed ZeRO-3最適化を選びました。彼らは3つの反復を行い、進捗状況を2エポックごとに保存しました。しかし、経験的な証拠は、実行の1エポック後に品質が低下し始めたことを示しました。これにより、彼らは戦略を再考し、半ば点検のある1つのトレーニングエポックに落ち着くことにしました。MMLUやBigBench Hardなどの言語モデルを評価するための一般的な基準を使用して、GOAT-7B-Communityモデルを評価しています。チームは現在、すべてのモデルを分析して、まもなくその結果を公開する予定です。 用途 大規模言語モデルやチャットボットの研究は、GOAT-7B-Communityの主な焦点です。自然言語処理、機械学習、人工知能の研究者や愛好家にとって特に役立つでしょう。 制約事項 印象的な推論能力を持つモデルですが、その比較的小さいサイズ(7Bモデルは「小さい」LLMと見なされます)に関連する問題があります。特に顕著なのは「幻覚」です。これらの「幻覚」は、LLMが改善され、拡張されるにつれて解決が進むべき障害です。 「幻覚」は、人工知能の研究で非常に強調される持続的な問題です。究極の目標は、論理的で文法的に正しい回答と事実に忠実な回答を生成できるモデルを開発することです。 リスクと偏見 GOAT-7B-Communityモデルは信頼性が低いため、現実とは異なる結果を返す可能性があります。このモデルは公開データとプロプライエタリデータの両方を使用して教育されたため、GOAT-7B-Communityモデルは不正確で偏った、または非常に問題のある結果を生成することがあります。 主な観察結果 このモデルよりも優れた無料の7Bモデルはほとんどありません。 良いMMLUの結果を得るための鍵は、多様で高品質なデータセットです。 現在の13Bモデルと比較して、7Bモデルのパフォーマンスは素晴らしいです。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us