Learn more about Search Results いくつかの - Page 7
- You may be interested
- 「MITとハーバードの研究者が提案する(FAn...
- 「アソシエーテッド・プレスがジャーナリ...
- 「Googleの検索ボックスは情報の意味を変...
- このAI論文は、高度な時空間予測のための...
- 「普及型生成AIの環境への影響」
- 新しいAI研究が、転移学習のためのマルチ...
- Amazon SageMakerを使用してモデルの精度...
- 「AIが眼をスキャンして、診断の数年前に...
- 「40以上のクールなAIツール(2023年7月)...
- 「クラスターに SLURM ジョブを送信する方...
- レストランの革命:飲食業界におけるAIの力
- クラウド上で機械学習モデルを本番環境に...
- 研究者がCODES+ISSS最優秀論文賞を受賞し...
- 「Mojo」という新しいプログラミング言語...
- 構造方程式モデリングにおける複数グルー...
データプロジェクトが現実的な影響をもたらせない理由:アナリティクスマネージャーとして気をつけるべき5つの重要な要素
「データのプロジェクトに没頭していると、進まないことに気づいたことはありませんか?これは思っている以上に一般的な感じ方です2週間前にどのようにクオリティの高いデータ解析をするかについて話しましたが…」
このAI論文は、「Vary」という新しいアプローチを明らかにしています:高度な多言語認識タスクのための大規模なビジョン言語モデルの視覚語彙を拡張するためのアプローチ
大視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理を組み合わせて、視覚的なコンテンツのテキストの説明を生成することができます。これらのモデルは、画像のキャプション付け、可視化された質問応答、および画像の検索など、さまざまなアプリケーションで驚異的な進展を遂げています。しかし、その優れたパフォーマンスにもかかわらず、LVLMはまだいくつかの課題に直面しています。特に、密で詳細な知覚を必要とする特殊なタスクにおいて、ビジョンの語彙が制約されているという問題です。 中国科学技術大学、MEGVIIテクノロジー、および中国科学院の研究者たちは、固有の認識力を必要とする特殊なタスクのためにLVLMを強化するVaryという方法を導入しました。Varyは、効率的に新しい特徴を獲得し、詳細な知覚を改善するためのLVLMを活性化します。実験結果は、Varyの効果を示しています。研究者たちは、さらなる探求のためのプラットフォームとしてVaryを提案しています。研究では、GPT-4をトレーニングデータ生成に使用し、Varyの応用範囲をさまざまな視覚タスクに適用することを強調しています。これにより、LVLMの能力が拡張される一方で、元の能力も維持されます。 この研究は、CLIP-VITなどの一般的なビジョン語彙の制約に取り組んでおり、LVLMにおいてビジョン語彙をスケールアップする必要性を提起しています。これにより、外国語のLVLMのテキスト語彙を拡張することに着想を得たVaryという方法を導入しました。Varyは、語彙ネットワークを使用して新しいビジョン語彙を生成し、元の語彙と統合します。これにより、非英語のOCRやチャート理解などの様々なタスクにおけるエンコーディング効率とモデルパフォーマンスが向上します。この研究は、Varyの設計が今後の研究を刺激すると予想しています。 この研究では、Varyの2つの構成「Vary-tiny」と「Vary-base」を紹介しています。細かい知覚に焦点を当てたVary-tinyは、テキスト入力ブランチを持たず、小さなOPT-125Mモデルを使用します。ドキュメントとチャートのデータを正例、自然画像を負例としてトレーニングされます。Vary-tinyの語彙ネットワークは新しいビジョン語彙を生成し、Vary-baseでは元の語彙と統合されます。Vary-baseのトレーニングでは、両方の語彙ネットワークが使用され、重みが固定されますが、LVLMのパラメータと入力埋め込み層が最適化されます。具体的な実装の詳細には、AdamW最適化、余弦退火スケジューラ、特定の学習率が含まれます。ドキュメントとチャートの理解のための合成データが作成されます。 Varyは、複数のタスクで有望なパフォーマンスを発揮し、ドキュメントレベルのOCR、チャート理解、およびMMVetタスクで優れた結果を達成しています。具体的には、DocVQAでは78.2%、MMVetでは36.2%のANLSを達成し、新しいドキュメントの解析機能における能力を示しています。また、Vary-tinyとVary-baseは、ドキュメントOCRタスクで強力な結果を示しており、Vary-baseは他のLVLMを凌駕しています。この研究はVaryの成功を認めつつ、視覚語彙をスケールアップする効果的な改善の必要性を強調しています。 まとめると、この研究の主なポイントは次のように要約されます: 提案: LVLMにおける視覚語彙のスケールアップのための効率的な方法。 手法: 提案された方法は、オリジナルの言語と統合されたネットワークを介して生成された新しいビジョン語彙を導入します。 能力: この方法は、特にドキュメントレベルのOCRやチャート理解のタスクにおいて、詳細な知覚を向上させます。LVLMの元々の機能は維持しながら、素早く新しい特徴を獲得します。 パフォーマンス: さまざまなタスクで有望なスコアが示されており、この方法はドキュメント解析機能で他のLVLMを凌駕しています。
「長い尾が犬に振り回される:AIの個別化されたアートに伴う予測不可能な影響」
メタの最近の生成型映画の世界でのエミューの発表は、技術と文化が前例のない形で交差する転換点を示しています。エミューは、AIの創造的な能力を進歩させるだけでなく、情報やエンターテイメントへのアクセスに革命をもたらす可能性を示す、生成型AIの新たな時代の灯台です。 私たちは、出版とエンターテイメントの本質を変える可能性を秘めた、生成型AIの革命の絶頂に立っています。言語モデルは、情報を総合的にまとめ上げ、表現するという驚異的な能力を持ち、さまざまな言語で多様な主題をカバーする、比類なき広さと深さのグローバルなライブラリーを確約しています。しかし、生成される情報の信憑性は重要であり、事実確認とレビューに対して慎重なアプローチが必要です。 エンターテイメントに注目すると、その示唆は深刻です。エミューに続く生成型AIの進展により、NetflixやAmazon Primeのようなプラットフォームが根本的に変わり、これまで想像もできなかったほどの個人化が可能となります。映画の物語をいくつかのポイントを経て作り上げ、アルゴリズムがストーリーを調整する未来を思い描いてください。主人公の運命、勝利か敗北か、全てはあなたの裁量に委ねられます。これは好みの問題だけでなく、頂点に達した個人化です。私たちはまもなく、主人公が最後に死ぬかどうかを決める映画を観ることになるでしょう。ハッピーエンドは…私が望むならのみです!しかし、この個人化には重大な警戒が必要です。芸術体験を個人の好みに合わせる能力は、多様な視点に露骨に露光することなく、世界を過度に単純化し、反響のみを反映する世界につながりかねません。 この単純化への傾向は、しばしば「5歳の子に説明する」という信条によって象徴化されます。初めの理解を促進するかもしれませんが、豊かさと理解の深さを侵食する危険もあります。ここで特に重要なことは、エジソンの「できる限りシンプルにするが、それ以下にしない」という指針です。複雑な主題の微妙なニュアンスを保持しながら、明快さを維持することの重要性を強調しています。 潜在的な落とし穴にもかかわらず、この技術の魅力は否応なく存在します。これは、NikeIdのようなカスタマイズ可能な製品の魅力を思い起こさせる、ユニークさと承認欲求に訴えるものです。しかしここでの危険は、AIが私たちの偏見を補強し、難解で多様なアイデアから遮断することです。これは創造性の本質に反するものであり、幅広い知識との関わり合いから生まれる創造活動のリスクをはらんでいます。 AIの世界で、特に強化学習の場合、探索と利用のバランスを取るようにエージェントを訓練します。これは私たち自身の知的な旅の戦略を反映しています。しかし、情報との相互作用では、私たちはしばしば既存の信念と合致するものに制限をかけます。この逆説は、AIの適用における重要な見落としを強調しています。 AIが世界を再形成する可能性の前に立つ我々としては、この強力なツールの利用方法を考慮することが重要です。真の危険は、AI自体ではなく、私たちがそれとの相互作用をどのように行うかにあります。私たちはAIを探求と理解のための触媒として利用する必要があり、複雑さを受け入れ、知的好奇心を養う環境を育むべきです。そうすることで、AIは本当に善の力となり、私たちの視野を広げ、共同の人間の経験を豊かにすることができます。 この記事はAIの個人化された芸術の予期しない結果:(長い) エンドレスに最初に表示され、MarkTechPostから転載されました。
「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」
数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に挑戦しているにもかかわらず、既存の気候シミュレータは、雲と豪雨の物理現象をシミュレートする必要があります。地球システムの複雑さが、研究チームがこれらのシミュレーションで使用できる空間分解能を厳しく制限しています。”パラメータ化”とは、気候シミュレーションの時間的および地理的分解能よりも低いスケールで起こる物理現象の経験的な数学的表現です。残念ながら、これらのパラメータ化に使用される仮定は、将来の予測される気候を悪化させる可能性のある誤りにつながることがしばしばあります。 気候シミュレータの解像度よりも小さなスケールで発生する複雑な非線形サブ解像度物理プロセスをシミュレートするための魅力的な方法は、機械学習(ML)です。その応用の興味深い側面は、現在のものよりもより正確で低コストな気候シミュレーションをもたらすということです。現在の気候シミュレーションの最小解像度は通常80-200 km、または平均的な米国の郡のサイズです。しかし、効果的に雲の形成を説明するには100 m以上の解像度が必要であり、計算能力は桁違いに増加する必要があります。 クラシカルなコンピューティングの制約を克服するために機械学習(ML)を使用することはまだ有望なオプションです。生じる大規模な流体運動を支配する方程式を解くための従来の数値手法と、小規模な物理学のマクロスケール効果のMLエミュレータを組み合わせたハイブリッドML気候シミュレータは、主観的な仮定に頼らず、高解像度で短期間のシミュレーションによって生成されたデータから直接学習します。本質的には、これは回帰問題です:大規模な解像度の入力が与えられると、気候シミュレーション内のMLパラメータ化エミュレータは、未解決の小規模な(サブ解像度)物理学から生じる大規模な出力(風や湿度、温度の変化など)を返します。 最近いくつかの概念実証が開発されましたが、ハイブリッドML気候シミュレーションはまだ実際に展開される必要があります。MLコミュニティが関心を持つのを妨げている主な障害の1つは、十分なトレーニングデータを取得することです。サブ解像度の物理学の振る舞いを制御するすべてのマクロスケール要因は、このデータに含まれている必要があります。高い解像度のシミュレーションからトレーニングデータを取得する方法は非常に高コストであり、ホスト気候シミュレーションと組み合わせると問題が発生する可能性があります。マルチスケール気候シミュレーション技術を使用してトレーニングデータを生成するのは有望なアプローチです。もっとも重要なことは、これらはホスト気候シミュレータの地球規模のダイナミクスと模倣された高解像度の物理学との明確なインターフェースを提供します。これにより、後続のハイブリッド結合シミュレーションが扱いやすくなり、アクセス可能になります。利用可能なデータセットの不足や、変数の選択時にドメインの専門知識が必要なこと、運用シミュレーションのコードの複雑さと利用可能なデータセットの不足が、マルチスケールアプローチの実用的な応用に制約を与えています。 ハイブリッド-ML気候シミュレーションに使用するために、20以上の突出した研究機関の研究者からなる研究チームがClimSimを提案します。これは気象放射線、空気の嵐、雲、乱流、降雨の機械学習シミュレータのための最大かつ最も物理的に完全なデータセットです。ClimSimは、マルチスケール物理気候シミュレーションのすべての入出力を含む包括的なセットです。このベンチマークデータセットは、クラウドや重度の降雨物理パラメータ化と他のサブ解像度現象との相互作用をモデル化する堅牢なフレームワークの構築のための堅固な基盤を提供します。ホスト粗解像度気候シミュレータ内でのオンラインカップリングを容易にすることで、これらのフレームワークは長期予測に使用される気候シミュレータの正確性を向上させ、全体としてよりよく機能するように支援します。
ドメイン固有アプリケーションのためのLLM細かい調整戦略
「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを理解する」
マイクロソフトAIがLLMLinguaを発表:大型言語モデル(LLM)の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮
大規模言語モデル(LLM)は、その高い一般化能力と推論能力により、人工知能(AI)コミュニティを大きく押し上げています。これらのモデルは非常に優れた能力を持ち、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなどの能力を示しています。ただし、インコンテキスト学習(ICL)やチェーン・オブ・ソート(CoT)プロンプトなどの新しい展開は、数万トークン以上にも及ぶ長いプロンプトの展開を引き起こしています。これは、費用対効果と計算効率の観点からモデル推論に問題を提起しています。 これらの課題に対処するため、Microsoft Corporationの研究チームは、LLMLinguaというユニークな粗いから細かい圧縮技術を開発しました。LLMLinguaは、長いプロンプトの処理に関連する費用を最小限に抑え、モデルの推論を迅速化することを主な目的として開発されました。これを達成するために、LLMLinguaは以下のいくつかの重要な戦略を使用しています。 予算コントローラー:動的予算コントローラーを作成しました。これにより、圧縮比が元のプロンプトのさまざまな部分に均等に分配されるようになります。これにより、大きな圧縮比でもプロンプトの意味的な整合性が維持されます。 トークンレベルの反復圧縮アルゴリズム:トークンレベルの反復圧縮アルゴリズムがLLMLinguaに統合されています。この技術により、圧縮要素間の相互依存関係を捉えながら、プロンプトの重要な情報を維持したより高度な圧縮が可能となります。 指示チューニングベースのアプローチ:チームは、言語モデル間の分布の不整合問題に対処するために、指示チューニングベースのアプローチを提案しました。言語モデルの分布を整合させることで、迅速な圧縮に使用される小さな言語モデルと意図されたLLMの互換性が向上します。 チームは、LLMLinguaの有用性を検証するために、理論的なデータセットとしてGSM8KとBBHを、会話用データセットとしてShareGPTを、要約用データセットとしてArxiv-March23を使用して分析と実験を行いました。結果は、提案アプローチが各状況で最新技術のパフォーマンスを達成していることを示しました。結果は、圧縮比20倍までの大幅な圧縮を可能にする一方でパフォーマンスの面でわずかな犠牲を払いました。 実験で使用された小規模言語モデルはLLaMA-7Bであり、閉じたLLMはGPT-3.5-Turbo-0301でした。LLMLinguaは、推論、要約、議論のスキルを維持しながら最大圧縮比20倍でも従来の圧縮技術を上回り、弾力性、経済性、効率性、回復性を備えています。 LLMLinguaの効果は、さまざまな閉じたLLMと小規模言語モデルで観察されました。LLMLinguaは、GPT-2-smallを使用した場合には大きなモデルとほぼ同等のパフォーマンス結果を示しました。また、予想される迅速な結果を上回る強力なLLMでも成功を収めました。 LLMLinguaの回復性は、圧縮されたプロンプトを元に戻す際に重要な推論情報を効果的に取り出すことによって示されます。完全な9ステップのCoTプロンプトを復元するために使用されたGPT-4は、圧縮されたプロンプトの意味と類似を保ちながら重要な情報を取り戻しました。この機能により、LLMLinguaは回復性を保証し、翻訳後も重要な情報を保持し、LLMLingua全体の印象を高めています。 結論として、LLMLinguaはLLMアプリケーションにおける長いプロンプトによって引き起こされる困難に包括的な解決策を提供しました。この方法は優れたパフォーマンスを示し、LLMベースのアプリケーションの効果とコスト効率を向上させる有用な方法を提供しています。
Amazon BedrockとAmazon Transcribeを使用して、生成AIを使用して録音のサマリーを作成します
「会議のメモは共同作業の重要な一部ですが、しばしば見落とされてしまいます討論を主導し、注意深く聞きながらメモを取ることは、重要な情報が記録されずに逃げてしまうことが簡単ですメモが取られていても、整理されていないか、読みづらいことがあり、無意味になってしまうこともありますこの記事では、Amazonを使った効果的なメモの使い方について探っています」
最高のAWSコース(2024年)
クラウドコンピューティングのスキルを向上させるための最高のAWSコースを見つけましょうアーキテクチャ、DevOps、およびキャリア構築のコースで基礎を学び、認定試験の準備をし、実践的な経験を積みましょう
空からのパイ:ドローンスタートアップがピザ、薬物、そして興奮をお届けします
ジップラインは、ただの空飛ぶドローンのスタートアップではありません。 このサンフランシスコを拠点とする企業は、2011年の開始以来、7つの国で80万回以上の配送を完了しました。最近では、シアトルのパリャッチピザ、ビタミン・サプリメントの巨大企業であるGNC、およびIntermountain Health、OhioHealth、Michigan Medicineなどの大規模な医療システム向けにもサービスを追加しました。 ジップラインは、NVIDIA JetsonエッジAIおよびロボティクスプラットフォームを使用して、自律的なナビゲーションと精密な着陸ができるドローンを開発しました。これらのドローンは現在までで5500万マイル以上を飛行しています。 この急成長を遂げている企業は最近、43億ドル以上の評価額で3億3000万ドルの資金調達に成功しました。 ジップラインは、技術的なサポートとAIプラットフォームのガイダンスを提供するプログラムであるNVIDIA Inceptionのメンバーです。 ジェットソンパワードフリートでの配送 同社のP1ドローン(プラットフォーム1)は、7年間の稼働を経て実稼働に移行しており、現在はJetson Xavier NXシステムオンモジュールを使用してセンサー入力を処理しています。GPS、航空交通管制の通信、慣性計測ユニットセンサー、および搭載された検出および回避システムによって誘導され、安全性のためにガイダンスの冗長性も持っています。 ジップラインの固定翼ドローンは、55マイル以上を時速70マイルで飛行し、いくつかのジップラインの配送センターから配送を行い、その後戻ることができます。最大4ポンドの貨物を運ぶことができ、自律的に配送場所を飛び越え、パラシュートで目的地に向かってパッケージを降ろすことができます。 P2ドローン(プラットフォーム2)は、固定翼飛行で高速に飛行できるハイブリッドドローンであり、またホバリングも可能です。10マイルの距離で8ポンドの貨物を運び、細かな配置を完了するために、テザーで下げるドロイドを搭載しています。これは、密集した都市環境での使用を想定しています。 P2には2つのJetson Orin NXモジュールが使用されています。1つはドローンの環境を理解するためのセンサーフュージョンシステム用です。もう1つはテザーによって降下するドロイド内にあり、追加の安全性のための冗長性を提供します。 ジップラインのP2ドロイドでは、最小かつ最も素早く、最も安全で最も静かなドローンを使って精密なデリバリーを実現することを目指しています。 ジップラインは世界中で毎秒70回のデリバリーを行っています。 多数の顧客に向けて飛び立つ ジップラインのサービスには顧客が惹かれる利点があります。同社によれば、そのドローンは車両の配送に比べて7倍速い配達時間を実現しています。 「当社の航空機は時速70マイルで飛行しますので、交通渋滞や信号待ちの心配はありません。配送時間は数分です」とマーダールは語ります。「配達には一桁の分数の時間がかかりますので、確かに他の方法よりも速いです。」 ピザ、ビタミン、薬の配送だけでなく、ジップラインはWalmart、レストランチェーンのSweetgreen、Michigan…
「設定パラメータを使用して、ChatGPTの出力を改善する方法」
最近、私はManning Publicationsから出版されたDavid Clintonの「The Complete Obsolete Guide to Generative AI」という非常に興味深い本を読んでいます第2章では、著者は...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.