Learn more about Search Results A - Page 12

このAI論文は、イメージとテキストのアラインメントモデルにおける詳細なテキストとビジュアルの説明のための高度な技術を紹介しています

“`html 画像テキストの整列モデルは、視覚的コンテンツとテキスト情報の意味のある関連を確立し、イメージキャプショニング、リトリーバル、理解などのアプリケーションを可能にすることを目指しています。情報を伝える際にテキストと画像を組み合わせることは強力なツールになることがありますが、それらを正しく整列させることは難しい場合があります。整列の誤りは混乱や誤解を招く可能性があり、それらを検出することが重要です。テルアビブ大学、グーグルリサーチ、ヘブライ大学の研究者は、テキストの説明とそれに対応する画像の不一致を見るための新しいアプローチを開発しました。 T2I(テキストから画像へ)ジェネレーティブモデルは、GANベースからビジュアルトランスフォーマーや拡散モデルに移行することで、複雑なT2I対応を正確に捉えるという課題に直面しています。GPTのようなビジョン言語モデルはさまざまなドメインを変革しましたが、主にテキストに重点を置いており、ビジョン言語タスクにおいては効果が制限されています。ビジュアルコンポーネントと言語モデルを組み合わせた進歩は、テキストの説明を通じてビジュアルコンテンツの理解を向上させることを目指しています。従来のT2I自動評価は、FIDやインセプションスコアなどの指標に依存しており、より詳細な不一致のフィードバックが必要です。最近の研究では、画像テキストの説明可能な評価を導入し、質問応答ペアを生成し、ビジュアル質問応答(VQA)を使用して特定の不一致を分析しています。 この研究では、既存のテキスト画像ジェネレーティブモデルの不一致を予測・説明する方法を紹介しています。連動評価モデルを訓練するためにトレーニングセット、テキストとビジュアルフィードバックを構築しています。提案された手法は、質問-応答パイプラインに依存せずに画像テキストの不一致の説明を直接生成することを目指しています。 研究者は、言語とビジュアルモデルを使用して、不一致したキャプション、対応する説明、および視覚的な指標のトレーニングセットを作成しました。彼らはこのセットでビジョン言語モデルを微調整し、画像テキストの整列を改善しました。彼らはまた、略奪研究を行い、テキストから質問応答ペアを生成するためにVQAを使用する最近の研究を参照して、特定の不一致に関する洞察を提供しました。 提案手法のトレーニングセットでトレーニングされた微調整されたビジョン言語モデルは、2つの不一致の分類と説明生成タスクにおいて優れたパフォーマンスを発揮します。これらのモデルは画像テキストのペアで不一致を明確に示し、詳細なテキストと視覚的な説明を提供します。PaLIモデルは、バイナリアラインメント分類で非PaLIモデルを凌駕しますが、小さいPaLIモデルは分布内テストセットで優れた性能を発揮しますが、分布外の例では遅れます。この手法は、テキストフィードバックタスクで大幅な改善を示しており、今後の作業でマルチタスキングの効率を向上させる予定です。 まとめると、この研究の主なポイントは次の通りです: ConGen-Feedbackは、相反するキャプションと不一致のテキストおよび視覚的な説明を生成できるフィードバック中心のデータ生成方法です。 この手法は、大規模な言語モデルとグラフィカルグラウンディングモデルを利用して包括的なトレーニングセットTVフィードバックを構築し、バイナリアラインメントの分類と説明生成タスクでベースラインを上回るパフォーマンスを引き出すモデルをトレーニングするために使用されます。 提案された手法は、質問-回答パイプラインや評価タスクの分解に頼らずに、画像テキストの不一致の説明を直接生成することができます。 SeeTRUE-Feedbackによって開発された人間の注釈付き評価は、ConGen-Feedbackを使用して訓練されたモデルの正確性とパフォーマンスをさらに向上させます。 全体的に、ConGen-Feedbackは、フィードバック中心のデータと説明を生成するための効果的で効率的なメカニズムを提供することにより、NLPおよびコンピュータビジョンの分野を革新するポテンシャルを持っています。 “`

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の研究者らが開発したBrainowareは、実験室で育てられた脳細胞のクラスターを利用して初等的な音声認識や数学問題の解決を実現する革新的なシステムです。 この技術の飛躍点は、脳の基本単位であるニューロンに成熟する特殊な幹細胞を培養することにあります。通常、人間の脳は860億個のニューロンが広範につながり合っていますが、研究チームはわずかナノメートルの小さな器官を設計することに成功しました。この小さながらも強力な構造物は、電極の配列を介して回路基板に接続され、機械学習アルゴリズムが脳組織からの応答を解読できるようにしました。 Brainowareと呼ばれるこの生物学的なニューロンと計算回路の融合体は、短期間の訓練の後、驚くべき能力を発揮しました。さまざまな母音の発音の違いに基づいて8つのサブジェクトを78%の精度で識別することができました。さらに驚くべきことに、Brainowareは、複雑なカオスダイナミックス内のHenonマップを予測する人工ネットワークを上回りました。 研究チームはBrainowareの役割を強調し、脳に触発されたニューラルネットワークを通じてAIの能力を向上させる上での重要な役割を示しました。その際立つ利点の1つはエネルギー効率です。従来の人工ニューラルネットワークが毎日何百万ワットもの電力を消費するのに対し、Brainowareは人間の脳の機能を模倣し、わずか20ワットの電力で動作します。 これらの進歩はAIの拡張を超えて意義があります。研究者たちは、Brainowareを利用して睡眠中の脳波活動を解読し、夢を記録するなど、アルツハイマーなどの神経学的な疾患の理解に潜在的な応用を想定しています。ただし、このような器官の持続的な維持と保守のためには、恒常的な栄養とケアが求められるなどの難題も存在します。 倫理的な考慮事項もこれらの進展に伴って存在します。バイオコンピューティングシステムと人間の神経組織を統合することに関連する神経倫理学的な問題の解決が必要とされます。器官の進化に伴い、これらの倫理的な問題は入念に検討される必要があります。 この研究は包括的なバイオコンピューティングシステムの開発には長い期間がかかるかもしれませんが、学習メカニズム、神経の発達、神経変性疾患に関連する認知的な側面を理解するための重要な基盤を築いています。 バイオエンジニアリングとAIの融合によるBrainowareは、神経ネットワークが生体組織と融合して技術革新を起こす未来の一端を示しています。課題が存在するものの、人間の心の謎を解明し、コンピューティングのパラダイムを変革する可能性は、この先駆的な研究を未来の希望の兆しとしています。 投稿:Researchers from Indiana University Unveil ‘Brainoware’: A Cutting-Edge Artificial Intelligence Technology Inspired by Brain Organoids and…

「ChatGPTがクラッシュしましたか? OpenAIのAIのダウンタイムと迅速な回復!」

人工知能コミュニティは一時的な挫折に直面しました。OpenAIが開発した人気のあるチャットボット、ChatGPTは「大規模な障害」に直面しました。OpenAIの創設者であるSam Altman氏は、ウェブサイトのお知らせを通じてその事故を確認しました。問題に関する詳細は限られていますが、OpenAIはユーザーに解決済みであることを保証しました。予期しない中断は午後5時32分から午後6時10分(PST)までの間に発生し、ユーザーはChatGPTサービスに時折アクセスできない状況がありました。 障害 指定された時間帯に、ChatGPTユーザーは問題に直面し、AIチャットボットの機能に関して懸念が生じました。Sam Altman氏率いるOpenAIは問題を迅速に認識しましたが、障害の性質に関する具体的な情報は提供しませんでした。OpenAIのウェブサイトのお知らせによれば、この問題は主にChatGPTのウェブユーザーに影響を与えた可能性があります。興味深いことに、この期間中にiOSやAndroidプラットフォームのユーザーは中断を経験しなかった可能性があります。 解決と回復 この事故に続いて、OpenAIは迅速な対応で問題を解決しました。同社がタイムリーに更新した情報によれば、ユーザーはChatGPTのサービス中断が修正されたと確認されています。OpenAIの積極的な取り組みは、人工知能アプリケーションの信頼性を維持するためのコミットメントを反映しています。 ChatGPTの中断に関連した事故は、ユーザーフィードバックや問い合わせの波を引き起こしました。ユーザーコミュニティは、OpenAIが問題を認識し、迅速に解決に取り組んだことについて透明性を評価しています。AIサービスにおけるこのような中断の重要性は、高度な言語モデルの安定性と機能性の維持における持続的な課題を浮き彫りにしています。 GPT-4の「怠慢」 この週の初めに、OpenAIは公然とそのGPT-4言語モデルが「怠惰に」なったことを認めました。同社は、11月11日以降モデルを更新していないことを明確にし、この意図しない行動が自分たちに驚きをもたらしたと述べました。OpenAIはユーザーフィードバックを認識し、問題の解決に向けて積極的に調査および取り組んでいると述べました。高度な言語モデルには予測不可能なモデル動作が絡む複雑さがあります。 私たちの意見 人工知能のダイナミックな景色では、時折中断が避けられません。OpenAIがChatGPTの障害に対して迅速に対応したことは、ユーザーの満足度と技術的な信頼性へのコミットメントを示しています。技術が進化するにつれて、予期しないモデルの動作などの課題は学習の過程に組み込まれていきます。ユーザーはOpenAIが問題を迅速に認識し解決することに対して安心感を得ることができ、彼らのAIアプリケーションとのシームレスな体験を確保できます。

このAI論文は、「Vary」という新しいアプローチを明らかにしています:高度な多言語認識タスクのための大規模なビジョン言語モデルの視覚語彙を拡張するためのアプローチ

大視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理を組み合わせて、視覚的なコンテンツのテキストの説明を生成することができます。これらのモデルは、画像のキャプション付け、可視化された質問応答、および画像の検索など、さまざまなアプリケーションで驚異的な進展を遂げています。しかし、その優れたパフォーマンスにもかかわらず、LVLMはまだいくつかの課題に直面しています。特に、密で詳細な知覚を必要とする特殊なタスクにおいて、ビジョンの語彙が制約されているという問題です。 中国科学技術大学、MEGVIIテクノロジー、および中国科学院の研究者たちは、固有の認識力を必要とする特殊なタスクのためにLVLMを強化するVaryという方法を導入しました。Varyは、効率的に新しい特徴を獲得し、詳細な知覚を改善するためのLVLMを活性化します。実験結果は、Varyの効果を示しています。研究者たちは、さらなる探求のためのプラットフォームとしてVaryを提案しています。研究では、GPT-4をトレーニングデータ生成に使用し、Varyの応用範囲をさまざまな視覚タスクに適用することを強調しています。これにより、LVLMの能力が拡張される一方で、元の能力も維持されます。 この研究は、CLIP-VITなどの一般的なビジョン語彙の制約に取り組んでおり、LVLMにおいてビジョン語彙をスケールアップする必要性を提起しています。これにより、外国語のLVLMのテキスト語彙を拡張することに着想を得たVaryという方法を導入しました。Varyは、語彙ネットワークを使用して新しいビジョン語彙を生成し、元の語彙と統合します。これにより、非英語のOCRやチャート理解などの様々なタスクにおけるエンコーディング効率とモデルパフォーマンスが向上します。この研究は、Varyの設計が今後の研究を刺激すると予想しています。 この研究では、Varyの2つの構成「Vary-tiny」と「Vary-base」を紹介しています。細かい知覚に焦点を当てたVary-tinyは、テキスト入力ブランチを持たず、小さなOPT-125Mモデルを使用します。ドキュメントとチャートのデータを正例、自然画像を負例としてトレーニングされます。Vary-tinyの語彙ネットワークは新しいビジョン語彙を生成し、Vary-baseでは元の語彙と統合されます。Vary-baseのトレーニングでは、両方の語彙ネットワークが使用され、重みが固定されますが、LVLMのパラメータと入力埋め込み層が最適化されます。具体的な実装の詳細には、AdamW最適化、余弦退火スケジューラ、特定の学習率が含まれます。ドキュメントとチャートの理解のための合成データが作成されます。 Varyは、複数のタスクで有望なパフォーマンスを発揮し、ドキュメントレベルのOCR、チャート理解、およびMMVetタスクで優れた結果を達成しています。具体的には、DocVQAでは78.2%、MMVetでは36.2%のANLSを達成し、新しいドキュメントの解析機能における能力を示しています。また、Vary-tinyとVary-baseは、ドキュメントOCRタスクで強力な結果を示しており、Vary-baseは他のLVLMを凌駕しています。この研究はVaryの成功を認めつつ、視覚語彙をスケールアップする効果的な改善の必要性を強調しています。 まとめると、この研究の主なポイントは次のように要約されます: 提案: LVLMにおける視覚語彙のスケールアップのための効率的な方法。 手法: 提案された方法は、オリジナルの言語と統合されたネットワークを介して生成された新しいビジョン語彙を導入します。 能力: この方法は、特にドキュメントレベルのOCRやチャート理解のタスクにおいて、詳細な知覚を向上させます。LVLMの元々の機能は維持しながら、素早く新しい特徴を獲得します。 パフォーマンス: さまざまなタスクで有望なスコアが示されており、この方法はドキュメント解析機能で他のLVLMを凌駕しています。

Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました

Google AR&VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバーチャルアバターライブラリ「VALID」を検証するため、University of Central Floridaと協力して総合的な研究を実施しました。データ駆動型の顔の平均値を利用し、各民族のボランティア代表者と共同して42のベースアバター(7つの人種×2つの性別×3つの個人)を作成するために、7つの人種の選択は米国国勢調査局のガイダンスに従って行われました。研究には、世界中の参加者からバリデーションされたラベルとメタデータを得るため、132人の参加者(33か国)が選ばれました。 結果は、参加者がアバターの人種をどのように認識したかを理解するために、主成分分析(PCA)とK-平均クラスタリングを使用したバリデーションプロセスを採用しました。参加者の人種と性別をバランスさせることで多様な視点のバランスをとるために、世界中の33か国から合計132人の参加者が研究のために選ばれました。 結果は、アジア人、黒人、白人のアバターが、さまざまな人種の参加者によって一貫して認識されていることを示しました。しかし、米国先住民・アラスカ先住民(AIAN)、ヒスパニック、中東、北アフリカ(MENA)、ハワイと太平洋の先住民族(NHPI)を表すアバターは、参加者の人種によって認識に差異があり、曖昧さがより顕著でした。同じ人種の参加者が対応する人種として認識した場合、アバターはその人種に基づいて名前が付けられます。 研究者たちは、アジア人、黒人、白人のアバターが、すべての参加者を対象に95%以上の合意率で正しく認識されたという結果について議論し、自身と異なる人種の顔を識別する際の低い65〜80%の正確性の概念を挑戦していると述べました。これは、多様な人種グループに対する知覚の専門知識またはなじみによるものであり、おそらくグローバルなメディアの影響を受けたものと考えられます。 同じ人種の参加者によって主に正しく認識されたアバターもありました。たとえば、ヒスパニックのアバターは参加者全体で評価が分かれましたが、ヒスパニックのみの参加者によってより正確に認識されました。研究では、正確な表現を確保するためにバーチャルアバターの研究において参加者の人種を考慮することの重要性が強調されています。 髪型などの要因により、アバターが曖昧にラベルされる場合がありました。ハワイ先住民と太平洋の島々を表すアバターの検証は限界があり、表現の課題と広範な選考努力の必要性が強調されました。 研究チームは、内グループと外グループのカテゴリ化によるステレオタイプ化と社会的判断への影響を強調し、仮想現実における異人種間の相互作用を改善するための規制の導入を提案しました。 研究コミュニティへの貢献として、チームはVALIDアバターライブラリへのオープンアクセスを提供し、さまざまなシナリオに適した多様なアバターが利用可能です。このライブラリには、65の顔のブレンドシェイプを持つアバターが含まれており、UnityやUnrealなどの人気のあるゲームエンジンと互換性があります。研究者および開発者が自身の研究やアプリケーションに適した多様で包括的なアバターを求めるための貴重なリソースとして、オープンアクセスのVALIDライブラリが位置付けられています。 まとめると、研究チームは多様なバーチャルアバターライブラリを作成し、ステレオタイプに挑戦し、包括性を促進しました。研究はアバターの認識における同じ人種バイアスの影響を強調し、さまざまな分野での仮想アバターの開発と応用について貴重な洞察を提供しました。オープンアクセスのVALIDライブラリは、研究者や開発者が研究やアプリケーションに多様で包括的なアバターを求める際の貴重なリソースとされています。

「長い尾が犬に振り回される:AIの個別化されたアートに伴う予測不可能な影響」

メタの最近の生成型映画の世界でのエミューの発表は、技術と文化が前例のない形で交差する転換点を示しています。エミューは、AIの創造的な能力を進歩させるだけでなく、情報やエンターテイメントへのアクセスに革命をもたらす可能性を示す、生成型AIの新たな時代の灯台です。 私たちは、出版とエンターテイメントの本質を変える可能性を秘めた、生成型AIの革命の絶頂に立っています。言語モデルは、情報を総合的にまとめ上げ、表現するという驚異的な能力を持ち、さまざまな言語で多様な主題をカバーする、比類なき広さと深さのグローバルなライブラリーを確約しています。しかし、生成される情報の信憑性は重要であり、事実確認とレビューに対して慎重なアプローチが必要です。 エンターテイメントに注目すると、その示唆は深刻です。エミューに続く生成型AIの進展により、NetflixやAmazon Primeのようなプラットフォームが根本的に変わり、これまで想像もできなかったほどの個人化が可能となります。映画の物語をいくつかのポイントを経て作り上げ、アルゴリズムがストーリーを調整する未来を思い描いてください。主人公の運命、勝利か敗北か、全てはあなたの裁量に委ねられます。これは好みの問題だけでなく、頂点に達した個人化です。私たちはまもなく、主人公が最後に死ぬかどうかを決める映画を観ることになるでしょう。ハッピーエンドは…私が望むならのみです!しかし、この個人化には重大な警戒が必要です。芸術体験を個人の好みに合わせる能力は、多様な視点に露骨に露光することなく、世界を過度に単純化し、反響のみを反映する世界につながりかねません。 この単純化への傾向は、しばしば「5歳の子に説明する」という信条によって象徴化されます。初めの理解を促進するかもしれませんが、豊かさと理解の深さを侵食する危険もあります。ここで特に重要なことは、エジソンの「できる限りシンプルにするが、それ以下にしない」という指針です。複雑な主題の微妙なニュアンスを保持しながら、明快さを維持することの重要性を強調しています。 潜在的な落とし穴にもかかわらず、この技術の魅力は否応なく存在します。これは、NikeIdのようなカスタマイズ可能な製品の魅力を思い起こさせる、ユニークさと承認欲求に訴えるものです。しかしここでの危険は、AIが私たちの偏見を補強し、難解で多様なアイデアから遮断することです。これは創造性の本質に反するものであり、幅広い知識との関わり合いから生まれる創造活動のリスクをはらんでいます。 AIの世界で、特に強化学習の場合、探索と利用のバランスを取るようにエージェントを訓練します。これは私たち自身の知的な旅の戦略を反映しています。しかし、情報との相互作用では、私たちはしばしば既存の信念と合致するものに制限をかけます。この逆説は、AIの適用における重要な見落としを強調しています。 AIが世界を再形成する可能性の前に立つ我々としては、この強力なツールの利用方法を考慮することが重要です。真の危険は、AI自体ではなく、私たちがそれとの相互作用をどのように行うかにあります。私たちはAIを探求と理解のための触媒として利用する必要があり、複雑さを受け入れ、知的好奇心を養う環境を育むべきです。そうすることで、AIは本当に善の力となり、私たちの視野を広げ、共同の人間の経験を豊かにすることができます。 この記事はAIの個人化された芸術の予期しない結果:(長い) エンドレスに最初に表示され、MarkTechPostから転載されました。

「OpenAIはAIの安全性に対処するためにベンガルールで開発者ミートアップを計画中」

OpenAIは、AIチャットボットChatGPTの影響力のある力を持つ組織であり、2024年1月にベンガルールで開発者の集まりを開催する予定です。このイベントの主な目的は、インドの開発者と協力して、人工知能に関連する安全上の課題に取り組むことです。OpenAIのグローバルアフェア担当副社長のアンナ・マカンジュは、ニューデリーで開催されたグローバルパートナーシップ人工知能(GPAI)サミットでのイベントに対する熱意を表明しました。 開発者の集まり OpenAIは、11月に開催された最初のDevDayカンファレンスの成功を受けて、インドのテックプロフェッショナルがAIの安全性に関する懸念や洞察を声に出すプラットフォームの構築に焦点を当てています。マカンジュは、開発者とOpenAIのプロダクトリーダーを一堂に会し、人工知能の領域で最も複雑な安全上の課題に取り組む計画を発表しました。 インドの技術的重要性の認識 マカンジュはGPAIサミットでの演説で、インドが世界舞台で果たす重要な役割を強調し、優れた人材プールと優れたテクノロジービジネスを引用しました。彼女は、バイデン政権とG7との協力経験を踏まえ、強力なテクノロジーの安全性とその恩恵の公正な分配を確保するための国際機関の設立を提唱しました。 OpenAIのインドでの拡大 OpenAIは、インドでの存在感を拡大するために、エロン・マスクのXの元副社長であるリシ・ジャイトリーをシニアアドバイザーとして迎え入れる予定です。このニュースはOpenAIによって公式には確認されていませんが、ジャイトリー氏はOpenAIがインドのAI政策と規制環境を乗り越えるための指導に当たるとされています。この動きはOpenAIの広範な戦略に合致し、アルトマン氏の6月のインド訪問に続きます。 GPAIサミットとインドの取り組み ナレンドラ・モディ首相はGPAIサミットの開催を宣言し、国際的な代表者とAIに関する重要な問題について関与する予定です。イベントの一環として、インド政府はIT省のラージーヴ・チャンドラシェーカル氏を代表として、AIに関する多国間の合意ベースの宣言に取り組んでいます。このイニシアチブは、リスクを軽減し、イノベーションを促進することを目指しており、モディ首相の信頼されるAIを通じた人々の福祉を確保するという取り組みと一致しています。 私たちの意見 OpenAIがインドの開発者と協力を深める中、AIの安全上の課題に取り組む動きは、急速に変化する技術の風景における積極的な姿勢を反映しています。OpenAIとインド政府は、この取り組みでインドの重要な役割を強調するだけでなく、AIに対する堅固な規制フレームワークの策定にも取り組んでいます。OpenAIとインドの専門家の協力は、AI技術の責任ある開発と展開を確保するための有望な一歩を象徴しています。

「Amazon SageMaker Pipelines、GitHub、およびGitHub Actionsを使用して、エンドツーエンドのMLOpsパイプラインを構築する」

機械学習(ML)モデルは孤立して動作するものではありません価値を提供するためには、既存の製造システムやインフラに統合する必要がありますそのため、設計と開発の過程でMLライフサイクル全体を考慮する必要がありますMLオペレーション(MLOps)は、MLモデルの生涯にわたって効率化、自動化、およびモニタリングを重視しています堅牢なMLOpsパイプラインを構築するには、異なる部門間の協力が求められます[…]

「AIルネサンス:デジタル時代における就業成長のエンジン」

スティーブン・ホーキングの上記の引用は、人工知能の可能性と想定される危険性をとてもうまく表していますターミネーターのような予想される危険性の一部は、...

「QLoRAを使ってLlama 2を微調整し、AWS Inferentia2を使用してAmazon SageMakerに展開する」

この記事では、パラメータ効率の良いファインチューニング(PEFT)手法を使用してLlama 2モデルを微調整し、AWS Inferentia2上でファインチューニングされたモデルを展開する方法を紹介します AWS Neuronソフトウェア開発キット(SDK)を使用してAWS Inferentia2デバイスにアクセスし、その高性能を活用しますその後、[…]の動力を得るために、大きなモデル推論コンテナを使用します

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us