Learn more about Search Results 写真 - Page 163
- You may be interested
- 「AIのための機会の議題」
- 「マスク言語モデリングタスクのBERTトレ...
- 「Retrato:セルフィーをプロの写真に変え...
- 「OpenAIを任意のLLM(Language Model)と...
- NVIDIAはAPECの国々と協力し、人々の生活...
- 科学者たちは、デバイス間でデータをより...
- ワンダーダイナミックスの使い方:自分自...
- 「意識的な切り離し:ストレージ、コンピ...
- 変革の風 生成AIがサイバーセキュリティを...
- 「Llama 2をローカルでダウンロードしてア...
- データリテラシーの力
- 「ジュリアスーパータイプの力を解き放つ」
- アマゾンセージメーカーの地理空間機能を...
- 「私たちはAIとの関係をどのように予測で...
- コンピュータビジョンの戦場:チャンピオ...
あなたの次の夢の役割(2023年)を見つけるのに役立つ、最高のAIツール15選
Resumaker.ai Resumaker.aiは、数分で履歴書を作成するのを支援するウェブサイトです。ポータルは、いくつかのカスタマイズ可能なデザイナー製履歴書テンプレートと直感的なツールを提供して、夢の仕事に就くのを手助けします。他の履歴書ビルダーとは異なり、Resumaker.aiの人工知能(AI)エンジンは、ユーザーのためにデータを自動的に完了・入力することで、履歴書作成プロセスを簡素化します。Resumaker.aiは、SSL暗号化などの対策を講じて、ユーザーデータを不正アクセスから保護します。ツールのライティングガイドとレコメンデーションを使用して、競合から目立つ履歴書をデザインすることができます。ユーザーは、投稿されたポジションの要件を反映させ、自己紹介を行い、自分の資格に関する主張を裏付けるために数字を活用することができます。 Interviewsby.ai 人工知能によって駆動されるプラットフォームであるInterviewsby.aiを使用することで、求職者はインタビューに備えることができます。ユーザーに合わせた模擬面接中に、人間の言葉を認識・解釈することができる言語モデルであるChatGPTがリアルタイムのフィードバックを提供します。希望する雇用に関する情報を入力することにより、アプリケーションはユーザーに適切で現実的なインタビューの質問を生成することができます。質問を作成する機能により、ユーザーが古くなったり関係のない素材でトレーニングする可能性がなくなります。Interviewsby.aiを使用することで、ユーザーはコントロールされた環境で面接スキルを磨き、自分の強みと弱みに注目した具体的なフィードバックを即座に受けることができます。 Existential ユーザーの興味、才能、価値観を評価することで、AIにより駆動される職業探索ツールであるExistentialは、ユーザーのプロフェッショナルな道筋について具体的な提言を行います。目的は、ユーザーにとって刺激的で挑戦的で満足のいく職業を示唆することです。アプリケーションには簡単な発見プロセスがあり、理想的な仕事に関する特定の質問に答えた後、プログラムはユーザーの興味に最も合った推奨事項を提供します。コミットする前に、ユーザーはこれらの選択肢について詳しく学び、自分の目的に合うかどうかを確認することができます。Existentialは、個人が自分の運命を形作り、仕事に意味を見出すことを目指しています。 Jobscan 求職者は、人工知能(AI)によって駆動されるJobscan ATS Resume CheckerおよびJob Search Toolsを使用することで、面接を受ける可能性を高めることができます。プログラムは、求人情報と応募者の履歴書を分析し、関連する資格を分離するための独自の人工知能アルゴリズムを使用します。応募者の履歴書を分析した後、プログラムは、応募者の強みと改善の余地がある部分を詳細に説明したマッチ率レポートを生成します。Jobscan ATS Resume Checkerの助けを借りて、あなたの履歴書をApplicant Tracking Systems(ATS)に最適化し、注目される可能性を高めることができます。 Aragon 人工知能(AI)によって駆動されるプログラムであるAragon Professional Headshotsは、写真家に行かずに、ヘアメイクに時間をかけずに、修正を待たずに、洗練されたヘッドショットを撮影できるようにするツールです。ユーザーは10枚のセルフィーをアップロードし、ツールは瞬時に40枚の高精細写真を返します。さらに、アプリケーションは、AES256でデータを暗号化し、SOC 2およびISO 27001の認定を取得したサービスプロバイダーにのみデータを保存することにより、ユーザーのプライバシーを保護します。ただし、18歳未満の人は利用しないでください。これは利用規約の違反となります。…
ディープラーニングが深く掘り下げる:AIがペルー砂漠で新しい大規模画像を公開
日本の山形大学の研究者たちは、ペルーのリマから南に車で7時間のナスカで、地球上に描かれた画像である地上絵の4つの未発見の作品をAIを用いて発見しました。幅が1,200フィートにも及ぶものもあり、地上の要素を使って作られたものです。これにより、従来の考古学的手法よりも発見プロセスを大幅に加速することができました。 チームは、IBM Power SystemsサーバーとNVIDIA GPUを使用して、深層学習モデルのトレーニングを実行しました。また、オープンソースの深層学習ソフトウェアを使用して、高解像度の空中写真を分析しました。この技術は、2019年11月に開始された研究の一部でした。 今月、考古学科学ジャーナルに掲載されたこの研究は、現地調査を通じて深層学習モデルの発見を確認し、AIが考古学的発見を加速する可能性を示しています。 現代のAIの特徴である深層学習技術は、地中海全域で発見された古代の巻物を分析したり、アメリカ南西部の陶器の破片を分類したりするために使用されています。 ナスカの地上絵は、紀元前500年から紀元500年までの時代に作られたもので、主に紀元前100年から300年の間に作られたと考えられています。暗い石を撤去して下にある明るい砂を露出させることで描かれた動物、植物、幾何学的な形状などの絵は、それらを作ったナスカの人々にとって宗教的または天文学的な意義があったと考えられています。 これらの新しい地上絵の発見は、この地域にさらに未発見の場所がある可能性を示し、深層学習のような技術が考古学の探索を強化し、隠れた考古学的遺跡を発掘するより効率的な方法を提供できることを強調しています。 全文を読む。 注目の画像はWikimedia Commonsから提供されました。
線形回帰の理論的な深堀り
多くのデータサイエンス志望のブロガーが行うことがあります 線形回帰に関する入門的な記事を書くことですこれは、この分野に入る際に最初に学ぶモデルの1つであるため、自然な選択肢です...
BITEとは 1枚の画像から立ち姿や寝そべりのようなポーズなど、困難なポーズでも3D犬の形状とポーズを再構築する新しい手法
生物学や保全、エンターテインメントや仮想コンテンツの開発など、多くの分野で3D動物の形状や態度を捕捉してモデリングすることは有益です。動物を静止させたり、特定の姿勢を維持したり、観察者と物理的接触をしたり、協力的な何かをする必要はないため、カメラは動物を観察するための自然なセンサーです。Muybridge氏による有名な「馬の運動」の連続写真のように、写真を使用して動物を研究する歴史は長いです。しかし、以前の3D人間の形状や態度に関する研究とは異なり、最近では動物の独特な形状と位置に変化できる表現豊かな3Dモデルが開発されています。ここでは、単一の写真から3D犬再構築の課題に焦点を当てます。 犬は、四肢のような関節の変形が強く、品種間の広い形状変化があるため、モデル種として選ばれます。犬は定期的にカメラに捉えられます。したがって、様々な姿勢、形状、および状況が簡単に利用できます。人と犬をモデリングすることには同様の困難があるかもしれませんが、それらは非常に異なる技術的障壁を持っています。多くの3Dスキャンとモーションキャプチャデータがすでに利用可能であり、SMPLやGHUMのような堅牢な関節モデルを学習することが可能になっています。 それに対して、動物の3D観察を収集することは困難であり、現在は、すべての想定される形状と位置を考慮に入れた同様に表現豊かな3D統計モデルを学習するためにより多くのデータが必要です。SMALは、おもちゃのフィギュアから学習された、四足動物のパラメトリックモデルであり、犬を含む動物を写真から3Dで再現することが現在可能になりました。しかし、SMALは、猫からカバまで多くの種に対して一般的なモデルであり、さまざまな動物の多様な体型を描写できますが、大きな耳の範囲などの犬の品種の独特で微細な詳細を描写することはできません。この問題を解決するために、ETH Zurich、Max Planck Institute for Intelligent Systems、Germany、IMATI-CNR、Italyの研究者たちは、正しく犬を表現する最初のD-SMALパラメトリックモデルを提供しています。 また、人と比較して、犬は比較的少量のモーションキャプチャデータしか持っておらず、そのデータのうち座ったり寝そべったりする姿勢はめったにキャプチャされません。そのため、現在のアルゴリズムでは、特定の姿勢で犬を推測することが困難です。たとえば、歴史的データから3Dポーズの事前に学習すると、立ち上がったり歩いたりする姿勢に偏ってしまいます。一般的な制約を使用することで、この事前情報を弱めることができますが、ポーズの推定は非常に未解決となります。この問題を解決するために、彼らは、(地形)動物をモデリングする際に見落とされていた物理的タッチに関する情報を利用しています。つまり、重力の影響を受けるため、地面に立ったり、座ったり、寝転がったりすることができます。 複雑な自己遮蔽のある困難な状況では、彼らは地面接触情報を使用して複雑な犬のポーズを推定する方法を示しています。人間のポーズ推定において地面面制限が使用されてきましたが、四足動物にとっては潜在的な利点が大きいです。四本足は、より多くの地面接触点、座ったり寝そべったりしたときにより多くの体部位が隠れ、より大きな非剛体変形を示唆しています。以前の研究のもう一つの欠点は、再構築パイプラインがしばしば2D画像で訓練されていることです。対応する2D画像と共に3Dデータを収集することは困難です。そのため、再投影すると視覚的証拠に近くなりますが、視野方向に沿って歪んでいる位置や形状を予測することがあります。 異なる角度から見ると、3D再構築が誤った場合があります。対応するデータがないため、遠くまたは隠れた体の部分をどこに配置すべきかを決定するための十分な情報がないためです。彼らは再び、地面接触のシミュレーションが有益であることを発見しました。結合された2Dと3Dデータを手動で再構築(または合成)する代わりに、より緩い3D監視方法に切り替えて、地面接触ラベルを取得します。アノテーターには、犬の下の地面が平らかどうかを指示し、平らである場合は3D動物の地面接触点を追加で注釈するように求めます。これは、アノテーターに実際の写真を提示することで実現されます。 図1 は、BITEが単一の入力画像から犬の3D形状と姿勢を推定できるようになったことを示しています。このモデルは、様々な品種やタイプ、そして訓練ポーズの範囲外である困難なポーズ、たとえば地面に座ったり寝そべったりすることができます。 彼らは、単一の画像から表面を分類し、接点をかなり正確に検出するようにネットワークを教育できることがわかりました。これらのラベルはトレーニングだけでなく、テスト時にも使用できます。最新の最先端モデルであるBARCに基づいて、再構築システムはBITEと呼ばれています。彼らは、新しいD-SMAL犬モデルを初期の荒い適合ステップとして使用してBARCを再トレーニングします。その後、結果の予測を最近作成したリファインメントネットワークに送信し、接地損失を使用してカメラの設定と犬のスタンスの両方を改善するためにトレーニングします。テスト時にも接地損失を使用して、テスト画像に完全に自律的に適合を最適化することができます(図1を参照)。これにより、再構築の品質が大幅に向上します。BARCポーズ事前に対するトレーニングセットにそのようなポーズが含まれていなくても、BITEを使用して(局所的に平面的な)地面に正しく立つ犬を取得したり、座ったり横たわったりといった姿勢で現実的に再構築したりすることができます。3D犬再構築に関する先行研究は、主観的な視覚評価または写真に戻って2D残差を評価することによって評価されており、深度に関連する不正確さを投影しています。彼らは、客観的な3D評価の欠如を克服するために、実際の犬をさまざまな視点から3Dスキャンして、3D真実値を持つ半合成データセットを開発しました。彼らは、この新しいデータセットを使用して、BITEとその主要な競合他社を評価し、BITEがこの分野の新しい標準を確立することを示しています。 彼らの貢献の要約は以下の通りです: 1. SMALから開発された、新しい、犬種固有の3DポストureおよびフォームモデルであるD-SMALを提供します。 2.同時に地面の局所平面を評価するためのニューラルモデルであるBITEを作成します。BITEは、信じられる地面接触を促進します。 3.モデルを使用する前に、(必然的に小さい)先行モデルでエンコードされたものとは非常に異なる犬の位置を回復することが可能であることを示します。 4. StanfordExtraデータセットを使用して、単眼カメラによる3Dポストure推定の最先端を改善します。 5.実際の犬のスキャンに基づく半合成3Dテストコレクションを提供し、真の3D評価への移行を促進します。
MetaのAIが参照メロディに基づいて音楽を生成する方法
2023年6月13日、Meta(以前のFacebook)は、生成音楽モデルであるMusicGenをリリースし、音楽とAIコミュニティに衝撃を与えましたこのモデルは、GoogleのMusicLMを超えるだけでなく...
Paellaを紹介します:安定した拡散よりもはるかに高速に高品質の画像を生成できる新しいAIモデル
過去2〜3年で、人工知能(AI)を使用してテキストから画像を生成する方法に関する研究の質と量が驚異的に増加しています。この分野で最も画期的で革命的な作品の1つは、最先端の生成モデルである拡散モデルを参照しています。これらのモデルは、深層学習アルゴリズムの力を利用して、テキストの記述を使用して高品質の画像を生成する方法を完全に変革しました。また、拡散に加えて、他の多くの強力な技術が存在し、テキスト入力から写真のようなリアルなビジュアルコンテンツを生成するエキサイティングなパスが提供されています。ただし、これらの最先端の技術によって達成された例外的な結果には、特定の制限があります。新興の生成AI技術の多くは、拡散モデルに依存しており、トレーニングと画像生成に複雑なアーキテクチャと相当な計算リソースが必要です。これらの高度な手法はまた、推論速度を低下させ、リアルタイムの実装には不適切です。さらに、これらの技術の複雑さは、可能にする進歩に直接関連しており、これらのモデルの内部動作を把握する一般の人々にとって課題を提供し、ブラックボックスモデルとして認識される状況を引き起こしています。 この前述の懸念に対処するために、ドイツのTechnische Hochschule IngolstadtとWand Technologiesの研究チームは、新しいテキスト条件付き画像生成技術を提案しました。この革新的な技術は拡散に似ていますが、高品質の画像をはるかに速く生成します。この畳み込みベースのモデルの画像サンプリング段階は、わずか12ステップで実行でき、それでも例外的な画像品質を発揮します。このアプローチは、その卓越したシンプルさと、既存の最先端の技術に欠ける利点を楽しむためにモデルを条件付けることができることで際立っています。提案された技術の固有の単純さは、そのテキストから画像への技術を理解し、実装することができる、異なるバックグラウンドを持つ人々によって容易に利用できるようになりました。研究者は、実験評価を通じて自分たちの手法を検証するために、驚異的な10億のパラメーターを持つテキスト条件付きモデル「Paella」をトレーニングしました。チームはまた、彼らのコードとモデルの重みをMITライセンスの下でオープンソース化し、彼らの仕事に関する研究を促進するようにしました。 拡散モデルは、トレーニングインスタンスからノイズの異なるレベルを順次除去する学習プロセスを経ます。純粋なノイズが提示されると、モデルは数百ステップにわたってノイズを反復的に減算して画像を生成します。ドイツの研究者が考案した技術は、これらの拡散モデルの原則から大いに影響を受けています。拡散モデルと同様に、Paellaは、画像を表すトークンからさまざまな程度のノイズを除去し、新しい画像を生成するためにそれらを使用します。このモデルは、LAION-5B美的データセットからの9億の画像テキストペアでトレーニングされました。Paellaは、事前にトレーニングされた畳み込みニューラルネットワークに基づくエンコーダーデコーダーアーキテクチャを使用し、事前トレーニング中に学習された8,192トークンのセットから選択された256トークンを使用して256×256の画像を表すことができます。研究者たちは、トレーニングフェーズ中に自分たちの例にノイズを追加するために、このリストにいくつかのランダムに選択されたトークンを含めました。 研究者は、画像のテキスト記述に基づいてテキスト埋め込みを生成するために、画像とテキストの説明の間に接続を確立するCLIP(Contrastive Language-Image Pretraining)モデルを利用しました。次に、U-Net CNNアーキテクチャを使用して、テキスト埋め込みと前のイテレーションで生成されたトークンを使用して、元のトークンセットの完全なセットを生成するモデルのトレーニングが行われました。この反復プロセスは12回繰り返され、前回の反復で生成されたトークンの一部を徐々に置き換えていきます。残りの生成されたトークンのガイダンスの下で、U-Netは各ステップでノイズを徐々に減らしていきます。推論中、CLIPは与えられたテキストプロンプトに基づいて埋め込みを生成し、U-Netはランダムに選択された256トークンのセットに対して12ステップですべてのトークンを再構築しました。最後に、デコーダーは生成されたトークンを使用して画像を生成しました。 研究効果を評価するために、研究者たちはFréchet inception distance(FID)メトリックを使用して、PaellaモデルとStable Diffusionモデルから得られた結果を比較しました。結果はわずかにStable Diffusionに有利でしたが、Paellaは速度の点で大きなアドバンテージを持っています。この研究は、以前に考慮されていなかったアーキテクチャを完全に再構成することに焦点を当てたため、以前の取り組みとは異なります。結論として、Paellaは、既存のモデルに比べて小さなモデルサイズと少ないサンプリングステップで高品質の画像を生成でき、それでも顕著な成果を達成できます。研究チームは、ジェネラティブAIの分野が時間とともにますます注目を集める中、非技術的な分野を含むさまざまなバックグラウンドを持つ個人が簡単に採用できるシンプルなセットアップを提供するアプローチのアクセシビリティを強調しています。
メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました
人間の目は素晴らしい器官であり、視覚を可能にし、重要な環境データを保管することができます。通常、目は2つのレンズとして使用され、光をその網膜を構成する感光細胞に向けて誘導します。しかし、他人の目を見ると、角膜から反射された光も見ることができます。カメラを使用して他人の目を写真に撮ると、イメージングシステム内の一対のミラーに自分の目を変えます。観察者の網膜に届く光と彼らの目から反射する光は同じ源から来るため、彼らのカメラは観察している環境に関する詳細を含む写真を提供するはずです。 以前の実験では、2つの目の画像が、観察者が見ている世界の全景表現を回復させました。リライト、焦点オブジェクトの推定、グリップ位置の検出、個人認識などのアプリケーションは、後続の調査でさらに研究されています。現在の3Dビジョンとグラフィックスの開発により、単一の全景環境マップを再構築するだけでなく、観察者の現実を3次元で復元できるかどうか熟考しています。頭が自然に動くと、目が複数のビューから情報をキャプチャし、反映することを知っています。 メリーランド大学の研究者たちは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。彼らの方法は、静止したカメラを使用し、目の画像からマルチビューの手掛かりを抽出します。通常のNeRFキャプチャセットアップでは、マルチビュー情報を取得するために移動カメラが必要です(しばしばカメラ位置の推定に続きます)。概念的には単純ですが、実際には、目の画像から3D NeRFを再構築することは困難です。最初の困難は、ソース分離です。彼らは、人間の目の複雑な虹彩のテクスチャと反射を区別する必要があります。 これらの複雑なパターンにより、3D再構築プロセスが不明瞭になります。通常、正常なキャプチャでは、場面のクリーンな写真に対して、虹彩のテクスチャが混在することはありません。この構成により、再構築技術はより困難になり、ピクセルの相関が崩れます。角膜のポーズの推定は、2つ目の困難を提示します。画像観察から正確に位置を特定することが困難であり、小さく、難解な目です。ただし、それらの位置と3D方向の正確さは、マルチビュー再構築にとって重要です。 これらの困難を克服するために、この研究の著者は、虹彩テクスチャを全体的な輝度場から区別しやすくするために、2つの重要な要素を追加して、目の画像でNeRFをトレーニングするためにNeRFを再利用しました。短い放射線を使用したテクスチャ分解(a)およびアイポーズの微調整(b)です。彼らは、現実的なテクスチャを持つ人工的な角膜から反射をキャプチャする写真で複雑な屋内環境の合成データセットを作成して、彼らの技術のパフォーマンスと効果を評価します。彼らはまた、いくつかのアイテムで実際に収集された人工および実際の眼球画像の研究を行い、彼らの方法論のいくつかの設計決定を支援します。 これらが彼らの主な貢献です。 •彼らは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。 •彼らは、目の画像で虹彩テクスチャを分解するための放射状事前分布を導入することで、再構築された輝度場の品質を大幅に向上させています。 •彼らは、アイボールのノイズのあるポーズ推定を減らす角膜ポーズの微調整プロセスを開発することにより、人間の目から特徴を収集する特別な問題を解決しています。 これらの進展により、視線外の3Dシーンを明らかにし、キャプチャするためのアクシデンタルイメージングの広い範囲で研究・開発の新しい機会が生まれました。彼らのウェブサイトには、彼らの開発を実証するいくつかのビデオがあります。 図1は、目の反射を使用して放射輝度場を再構築することを示しています。人間の目は非常に反射します。被写体の目の反射だけを使用して、移動する頭を記録する一連のフレームから彼らが見ている3Dシーンを再構築して表示することができることを示しています。
ChatGPTを使った効率的なデバッグ
大規模言語モデルの力を借りて、デバッグ体験を向上させ、より速く学習する
ディープフェイクビデオを出し抜く
「真実を探し求める時、現実を歪めることが驚くほど簡単になっている」という言葉を訳すと、「真実を求める際に、現実を驚くほど歪めることが簡単になっている」となります
アルトコインへの投資:暗号市場の包括的ガイド
アルトコインとは、ビットコインの後に登場した他の暗号通貨のことですこれらのデジタル通貨は、分散型ブロックチェーン技術を介して運営され、先駆的な暗号通貨であるビットコインとは異なる用途を提供しています 「アルトコイン」という用語は、暗号空間で数年間使用されており、ビットコインを除く多数の暗号通貨を指します… アルトコインへの投資:暗号市場の包括的ガイド 詳細はこちら»
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.