Learn more about Search Results r AI - Page 10

「2023年のAI タイムライン」

はじめに 人工知能(AI)は、技術的な進歩が人間のつながりの本質と共鳴する形で私たちの日常生活と交差する魅力的な領域です。今年は、単なるアルゴリズムを超えてAIを身近に感じる革新の物語が展開されました。2023年のAIの素晴らしいハイライトを探索しながら、この旅に参加しましょう。 AI 2023年のハイライト 2023年のAIの世界で行われた最大の発見、進歩、および世界的な変革の一部を紹介します。これらの進歩がどのように、技術が私たちの人間の体験にシームレスに統合される未来を形作っているのか、探求してみましょう。 2023年1月のAIハイライト この年は、AIが医療と健康の分野で重要な進展を示しました。MITの研究者はマサチューセッツ総合病院と連携し、CTスキャンに基づいて患者の肺がんのリスクを評価できるディープラーニングモデルを開発しました。また、革命的な進歩として、研究者たちはAIを使ってゼロから人工的な酵素やタンパク質を作り出すことが可能なAIを開発しました。 他にも多くのイノベーションの中で、人工知能は視覚障害のある人々が食料品を見つけるのを手助けするために手杖に統合されました。一方、ビジネスのフロントでは、OpenAIがMicrosoftとの数年間にわたる数十億ドルの取引を通じてAIの開発に大きく投資しました。 2023年2月のAIハイライト 2023年2月には、OpenAIのChatGPTに関する話題が最も盛り上がりました。このAI搭載のチャットボットは、アメリカ合衆国医師資格試験(USMLE)に合格し、その人気は1億人以上のユーザーにまで急上昇しました。 ChatGPTの現象に応えて、GoogleはAI会話の領域に新しい要素となるBard A.I.を導入しました。また、MicrosoftもChatGPTと統合された新しいBing検索エンジンの導入に重要な一歩を踏み出しました。 Metaは、Metaエコシステム内でAIの能力を向上させるというLLaMAを発表しました。一方、Amazon Web Services(AWS)は、一流のAIプラットフォームであるHugging Faceと提携し、AI開発者を支援しました。 画期的な成果として、オックスフォードの研究者たちはRealFusionを示し、単一の画像から完全な360°写真モデルを再構築することができる最新のモデルを実証しました。 2023年2月には、AIの世界は音楽生成の領域にも足を踏み入れました。Google ResearchはMusicLMを紹介し、さまざまなジャンル、楽器、概念で曲を作成できるトランスフォーマーベースのテキストからオーディオへのモデルを提供しました。一方、Baiduの研究者はERNIE-Musicを発表し、拡散モデルを使用して、波形領域での最初のテキストから音楽を生成するモデルを開発しました。これらのモデルは、AIと創造的表現の融合における重要な進歩を示しています。 2023年3月のAIハイライト 2023年3月には、創造的なAIはいくつかの興味深い進展を見せました。AdobeはFireflyというAIをバックアップする画像生成および編集ツールの範囲でGenAIの領域に参入しました。一方、Canvaはユーザー向けにAIパワードの仮想デザインアシスタントとブランドマネージャーを導入しました。 テックジャイアンツのAIプロジェクトは、第1四半期終盤に向けて全力で進展していました。OpenAIはChatGPTとWhisperというテキストから音声へのモデルのためのAPIを発売しました。OpenAIはまた、ChatGPTのためのいくつかのプラグインをリリースし、最も高度なAIモデルであるGPT-4を正式に発表しました。 HubSpotはユーザー向けにChatSpot.aiとContent Assistantという2つの新しいAIパワードツールを導入しました。ZoomはスマートコンパニオンのZoom…

このAI論文は、イメージとテキストのアラインメントモデルにおける詳細なテキストとビジュアルの説明のための高度な技術を紹介しています

“`html 画像テキストの整列モデルは、視覚的コンテンツとテキスト情報の意味のある関連を確立し、イメージキャプショニング、リトリーバル、理解などのアプリケーションを可能にすることを目指しています。情報を伝える際にテキストと画像を組み合わせることは強力なツールになることがありますが、それらを正しく整列させることは難しい場合があります。整列の誤りは混乱や誤解を招く可能性があり、それらを検出することが重要です。テルアビブ大学、グーグルリサーチ、ヘブライ大学の研究者は、テキストの説明とそれに対応する画像の不一致を見るための新しいアプローチを開発しました。 T2I(テキストから画像へ)ジェネレーティブモデルは、GANベースからビジュアルトランスフォーマーや拡散モデルに移行することで、複雑なT2I対応を正確に捉えるという課題に直面しています。GPTのようなビジョン言語モデルはさまざまなドメインを変革しましたが、主にテキストに重点を置いており、ビジョン言語タスクにおいては効果が制限されています。ビジュアルコンポーネントと言語モデルを組み合わせた進歩は、テキストの説明を通じてビジュアルコンテンツの理解を向上させることを目指しています。従来のT2I自動評価は、FIDやインセプションスコアなどの指標に依存しており、より詳細な不一致のフィードバックが必要です。最近の研究では、画像テキストの説明可能な評価を導入し、質問応答ペアを生成し、ビジュアル質問応答(VQA)を使用して特定の不一致を分析しています。 この研究では、既存のテキスト画像ジェネレーティブモデルの不一致を予測・説明する方法を紹介しています。連動評価モデルを訓練するためにトレーニングセット、テキストとビジュアルフィードバックを構築しています。提案された手法は、質問-応答パイプラインに依存せずに画像テキストの不一致の説明を直接生成することを目指しています。 研究者は、言語とビジュアルモデルを使用して、不一致したキャプション、対応する説明、および視覚的な指標のトレーニングセットを作成しました。彼らはこのセットでビジョン言語モデルを微調整し、画像テキストの整列を改善しました。彼らはまた、略奪研究を行い、テキストから質問応答ペアを生成するためにVQAを使用する最近の研究を参照して、特定の不一致に関する洞察を提供しました。 提案手法のトレーニングセットでトレーニングされた微調整されたビジョン言語モデルは、2つの不一致の分類と説明生成タスクにおいて優れたパフォーマンスを発揮します。これらのモデルは画像テキストのペアで不一致を明確に示し、詳細なテキストと視覚的な説明を提供します。PaLIモデルは、バイナリアラインメント分類で非PaLIモデルを凌駕しますが、小さいPaLIモデルは分布内テストセットで優れた性能を発揮しますが、分布外の例では遅れます。この手法は、テキストフィードバックタスクで大幅な改善を示しており、今後の作業でマルチタスキングの効率を向上させる予定です。 まとめると、この研究の主なポイントは次の通りです: ConGen-Feedbackは、相反するキャプションと不一致のテキストおよび視覚的な説明を生成できるフィードバック中心のデータ生成方法です。 この手法は、大規模な言語モデルとグラフィカルグラウンディングモデルを利用して包括的なトレーニングセットTVフィードバックを構築し、バイナリアラインメントの分類と説明生成タスクでベースラインを上回るパフォーマンスを引き出すモデルをトレーニングするために使用されます。 提案された手法は、質問-回答パイプラインや評価タスクの分解に頼らずに、画像テキストの不一致の説明を直接生成することができます。 SeeTRUE-Feedbackによって開発された人間の注釈付き評価は、ConGen-Feedbackを使用して訓練されたモデルの正確性とパフォーマンスをさらに向上させます。 全体的に、ConGen-Feedbackは、フィードバック中心のデータと説明を生成するための効果的で効率的なメカニズムを提供することにより、NLPおよびコンピュータビジョンの分野を革新するポテンシャルを持っています。 “`

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の研究者らが開発したBrainowareは、実験室で育てられた脳細胞のクラスターを利用して初等的な音声認識や数学問題の解決を実現する革新的なシステムです。 この技術の飛躍点は、脳の基本単位であるニューロンに成熟する特殊な幹細胞を培養することにあります。通常、人間の脳は860億個のニューロンが広範につながり合っていますが、研究チームはわずかナノメートルの小さな器官を設計することに成功しました。この小さながらも強力な構造物は、電極の配列を介して回路基板に接続され、機械学習アルゴリズムが脳組織からの応答を解読できるようにしました。 Brainowareと呼ばれるこの生物学的なニューロンと計算回路の融合体は、短期間の訓練の後、驚くべき能力を発揮しました。さまざまな母音の発音の違いに基づいて8つのサブジェクトを78%の精度で識別することができました。さらに驚くべきことに、Brainowareは、複雑なカオスダイナミックス内のHenonマップを予測する人工ネットワークを上回りました。 研究チームはBrainowareの役割を強調し、脳に触発されたニューラルネットワークを通じてAIの能力を向上させる上での重要な役割を示しました。その際立つ利点の1つはエネルギー効率です。従来の人工ニューラルネットワークが毎日何百万ワットもの電力を消費するのに対し、Brainowareは人間の脳の機能を模倣し、わずか20ワットの電力で動作します。 これらの進歩はAIの拡張を超えて意義があります。研究者たちは、Brainowareを利用して睡眠中の脳波活動を解読し、夢を記録するなど、アルツハイマーなどの神経学的な疾患の理解に潜在的な応用を想定しています。ただし、このような器官の持続的な維持と保守のためには、恒常的な栄養とケアが求められるなどの難題も存在します。 倫理的な考慮事項もこれらの進展に伴って存在します。バイオコンピューティングシステムと人間の神経組織を統合することに関連する神経倫理学的な問題の解決が必要とされます。器官の進化に伴い、これらの倫理的な問題は入念に検討される必要があります。 この研究は包括的なバイオコンピューティングシステムの開発には長い期間がかかるかもしれませんが、学習メカニズム、神経の発達、神経変性疾患に関連する認知的な側面を理解するための重要な基盤を築いています。 バイオエンジニアリングとAIの融合によるBrainowareは、神経ネットワークが生体組織と融合して技術革新を起こす未来の一端を示しています。課題が存在するものの、人間の心の謎を解明し、コンピューティングのパラダイムを変革する可能性は、この先駆的な研究を未来の希望の兆しとしています。 投稿:Researchers from Indiana University Unveil ‘Brainoware’: A Cutting-Edge Artificial Intelligence Technology Inspired by Brain Organoids and…

「ChatGPTがクラッシュしましたか? OpenAIのAIのダウンタイムと迅速な回復!」

人工知能コミュニティは一時的な挫折に直面しました。OpenAIが開発した人気のあるチャットボット、ChatGPTは「大規模な障害」に直面しました。OpenAIの創設者であるSam Altman氏は、ウェブサイトのお知らせを通じてその事故を確認しました。問題に関する詳細は限られていますが、OpenAIはユーザーに解決済みであることを保証しました。予期しない中断は午後5時32分から午後6時10分(PST)までの間に発生し、ユーザーはChatGPTサービスに時折アクセスできない状況がありました。 障害 指定された時間帯に、ChatGPTユーザーは問題に直面し、AIチャットボットの機能に関して懸念が生じました。Sam Altman氏率いるOpenAIは問題を迅速に認識しましたが、障害の性質に関する具体的な情報は提供しませんでした。OpenAIのウェブサイトのお知らせによれば、この問題は主にChatGPTのウェブユーザーに影響を与えた可能性があります。興味深いことに、この期間中にiOSやAndroidプラットフォームのユーザーは中断を経験しなかった可能性があります。 解決と回復 この事故に続いて、OpenAIは迅速な対応で問題を解決しました。同社がタイムリーに更新した情報によれば、ユーザーはChatGPTのサービス中断が修正されたと確認されています。OpenAIの積極的な取り組みは、人工知能アプリケーションの信頼性を維持するためのコミットメントを反映しています。 ChatGPTの中断に関連した事故は、ユーザーフィードバックや問い合わせの波を引き起こしました。ユーザーコミュニティは、OpenAIが問題を認識し、迅速に解決に取り組んだことについて透明性を評価しています。AIサービスにおけるこのような中断の重要性は、高度な言語モデルの安定性と機能性の維持における持続的な課題を浮き彫りにしています。 GPT-4の「怠慢」 この週の初めに、OpenAIは公然とそのGPT-4言語モデルが「怠惰に」なったことを認めました。同社は、11月11日以降モデルを更新していないことを明確にし、この意図しない行動が自分たちに驚きをもたらしたと述べました。OpenAIはユーザーフィードバックを認識し、問題の解決に向けて積極的に調査および取り組んでいると述べました。高度な言語モデルには予測不可能なモデル動作が絡む複雑さがあります。 私たちの意見 人工知能のダイナミックな景色では、時折中断が避けられません。OpenAIがChatGPTの障害に対して迅速に対応したことは、ユーザーの満足度と技術的な信頼性へのコミットメントを示しています。技術が進化するにつれて、予期しないモデルの動作などの課題は学習の過程に組み込まれていきます。ユーザーはOpenAIが問題を迅速に認識し解決することに対して安心感を得ることができ、彼らのAIアプリケーションとのシームレスな体験を確保できます。

このAI論文は、「Vary」という新しいアプローチを明らかにしています:高度な多言語認識タスクのための大規模なビジョン言語モデルの視覚語彙を拡張するためのアプローチ

大視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理を組み合わせて、視覚的なコンテンツのテキストの説明を生成することができます。これらのモデルは、画像のキャプション付け、可視化された質問応答、および画像の検索など、さまざまなアプリケーションで驚異的な進展を遂げています。しかし、その優れたパフォーマンスにもかかわらず、LVLMはまだいくつかの課題に直面しています。特に、密で詳細な知覚を必要とする特殊なタスクにおいて、ビジョンの語彙が制約されているという問題です。 中国科学技術大学、MEGVIIテクノロジー、および中国科学院の研究者たちは、固有の認識力を必要とする特殊なタスクのためにLVLMを強化するVaryという方法を導入しました。Varyは、効率的に新しい特徴を獲得し、詳細な知覚を改善するためのLVLMを活性化します。実験結果は、Varyの効果を示しています。研究者たちは、さらなる探求のためのプラットフォームとしてVaryを提案しています。研究では、GPT-4をトレーニングデータ生成に使用し、Varyの応用範囲をさまざまな視覚タスクに適用することを強調しています。これにより、LVLMの能力が拡張される一方で、元の能力も維持されます。 この研究は、CLIP-VITなどの一般的なビジョン語彙の制約に取り組んでおり、LVLMにおいてビジョン語彙をスケールアップする必要性を提起しています。これにより、外国語のLVLMのテキスト語彙を拡張することに着想を得たVaryという方法を導入しました。Varyは、語彙ネットワークを使用して新しいビジョン語彙を生成し、元の語彙と統合します。これにより、非英語のOCRやチャート理解などの様々なタスクにおけるエンコーディング効率とモデルパフォーマンスが向上します。この研究は、Varyの設計が今後の研究を刺激すると予想しています。 この研究では、Varyの2つの構成「Vary-tiny」と「Vary-base」を紹介しています。細かい知覚に焦点を当てたVary-tinyは、テキスト入力ブランチを持たず、小さなOPT-125Mモデルを使用します。ドキュメントとチャートのデータを正例、自然画像を負例としてトレーニングされます。Vary-tinyの語彙ネットワークは新しいビジョン語彙を生成し、Vary-baseでは元の語彙と統合されます。Vary-baseのトレーニングでは、両方の語彙ネットワークが使用され、重みが固定されますが、LVLMのパラメータと入力埋め込み層が最適化されます。具体的な実装の詳細には、AdamW最適化、余弦退火スケジューラ、特定の学習率が含まれます。ドキュメントとチャートの理解のための合成データが作成されます。 Varyは、複数のタスクで有望なパフォーマンスを発揮し、ドキュメントレベルのOCR、チャート理解、およびMMVetタスクで優れた結果を達成しています。具体的には、DocVQAでは78.2%、MMVetでは36.2%のANLSを達成し、新しいドキュメントの解析機能における能力を示しています。また、Vary-tinyとVary-baseは、ドキュメントOCRタスクで強力な結果を示しており、Vary-baseは他のLVLMを凌駕しています。この研究はVaryの成功を認めつつ、視覚語彙をスケールアップする効果的な改善の必要性を強調しています。 まとめると、この研究の主なポイントは次のように要約されます: 提案: LVLMにおける視覚語彙のスケールアップのための効率的な方法。 手法: 提案された方法は、オリジナルの言語と統合されたネットワークを介して生成された新しいビジョン語彙を導入します。 能力: この方法は、特にドキュメントレベルのOCRやチャート理解のタスクにおいて、詳細な知覚を向上させます。LVLMの元々の機能は維持しながら、素早く新しい特徴を獲得します。 パフォーマンス: さまざまなタスクで有望なスコアが示されており、この方法はドキュメント解析機能で他のLVLMを凌駕しています。

Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました

Google AR&VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバーチャルアバターライブラリ「VALID」を検証するため、University of Central Floridaと協力して総合的な研究を実施しました。データ駆動型の顔の平均値を利用し、各民族のボランティア代表者と共同して42のベースアバター(7つの人種×2つの性別×3つの個人)を作成するために、7つの人種の選択は米国国勢調査局のガイダンスに従って行われました。研究には、世界中の参加者からバリデーションされたラベルとメタデータを得るため、132人の参加者(33か国)が選ばれました。 結果は、参加者がアバターの人種をどのように認識したかを理解するために、主成分分析(PCA)とK-平均クラスタリングを使用したバリデーションプロセスを採用しました。参加者の人種と性別をバランスさせることで多様な視点のバランスをとるために、世界中の33か国から合計132人の参加者が研究のために選ばれました。 結果は、アジア人、黒人、白人のアバターが、さまざまな人種の参加者によって一貫して認識されていることを示しました。しかし、米国先住民・アラスカ先住民(AIAN)、ヒスパニック、中東、北アフリカ(MENA)、ハワイと太平洋の先住民族(NHPI)を表すアバターは、参加者の人種によって認識に差異があり、曖昧さがより顕著でした。同じ人種の参加者が対応する人種として認識した場合、アバターはその人種に基づいて名前が付けられます。 研究者たちは、アジア人、黒人、白人のアバターが、すべての参加者を対象に95%以上の合意率で正しく認識されたという結果について議論し、自身と異なる人種の顔を識別する際の低い65〜80%の正確性の概念を挑戦していると述べました。これは、多様な人種グループに対する知覚の専門知識またはなじみによるものであり、おそらくグローバルなメディアの影響を受けたものと考えられます。 同じ人種の参加者によって主に正しく認識されたアバターもありました。たとえば、ヒスパニックのアバターは参加者全体で評価が分かれましたが、ヒスパニックのみの参加者によってより正確に認識されました。研究では、正確な表現を確保するためにバーチャルアバターの研究において参加者の人種を考慮することの重要性が強調されています。 髪型などの要因により、アバターが曖昧にラベルされる場合がありました。ハワイ先住民と太平洋の島々を表すアバターの検証は限界があり、表現の課題と広範な選考努力の必要性が強調されました。 研究チームは、内グループと外グループのカテゴリ化によるステレオタイプ化と社会的判断への影響を強調し、仮想現実における異人種間の相互作用を改善するための規制の導入を提案しました。 研究コミュニティへの貢献として、チームはVALIDアバターライブラリへのオープンアクセスを提供し、さまざまなシナリオに適した多様なアバターが利用可能です。このライブラリには、65の顔のブレンドシェイプを持つアバターが含まれており、UnityやUnrealなどの人気のあるゲームエンジンと互換性があります。研究者および開発者が自身の研究やアプリケーションに適した多様で包括的なアバターを求めるための貴重なリソースとして、オープンアクセスのVALIDライブラリが位置付けられています。 まとめると、研究チームは多様なバーチャルアバターライブラリを作成し、ステレオタイプに挑戦し、包括性を促進しました。研究はアバターの認識における同じ人種バイアスの影響を強調し、さまざまな分野での仮想アバターの開発と応用について貴重な洞察を提供しました。オープンアクセスのVALIDライブラリは、研究者や開発者が研究やアプリケーションに多様で包括的なアバターを求める際の貴重なリソースとされています。

「長い尾が犬に振り回される:AIの個別化されたアートに伴う予測不可能な影響」

メタの最近の生成型映画の世界でのエミューの発表は、技術と文化が前例のない形で交差する転換点を示しています。エミューは、AIの創造的な能力を進歩させるだけでなく、情報やエンターテイメントへのアクセスに革命をもたらす可能性を示す、生成型AIの新たな時代の灯台です。 私たちは、出版とエンターテイメントの本質を変える可能性を秘めた、生成型AIの革命の絶頂に立っています。言語モデルは、情報を総合的にまとめ上げ、表現するという驚異的な能力を持ち、さまざまな言語で多様な主題をカバーする、比類なき広さと深さのグローバルなライブラリーを確約しています。しかし、生成される情報の信憑性は重要であり、事実確認とレビューに対して慎重なアプローチが必要です。 エンターテイメントに注目すると、その示唆は深刻です。エミューに続く生成型AIの進展により、NetflixやAmazon Primeのようなプラットフォームが根本的に変わり、これまで想像もできなかったほどの個人化が可能となります。映画の物語をいくつかのポイントを経て作り上げ、アルゴリズムがストーリーを調整する未来を思い描いてください。主人公の運命、勝利か敗北か、全てはあなたの裁量に委ねられます。これは好みの問題だけでなく、頂点に達した個人化です。私たちはまもなく、主人公が最後に死ぬかどうかを決める映画を観ることになるでしょう。ハッピーエンドは…私が望むならのみです!しかし、この個人化には重大な警戒が必要です。芸術体験を個人の好みに合わせる能力は、多様な視点に露骨に露光することなく、世界を過度に単純化し、反響のみを反映する世界につながりかねません。 この単純化への傾向は、しばしば「5歳の子に説明する」という信条によって象徴化されます。初めの理解を促進するかもしれませんが、豊かさと理解の深さを侵食する危険もあります。ここで特に重要なことは、エジソンの「できる限りシンプルにするが、それ以下にしない」という指針です。複雑な主題の微妙なニュアンスを保持しながら、明快さを維持することの重要性を強調しています。 潜在的な落とし穴にもかかわらず、この技術の魅力は否応なく存在します。これは、NikeIdのようなカスタマイズ可能な製品の魅力を思い起こさせる、ユニークさと承認欲求に訴えるものです。しかしここでの危険は、AIが私たちの偏見を補強し、難解で多様なアイデアから遮断することです。これは創造性の本質に反するものであり、幅広い知識との関わり合いから生まれる創造活動のリスクをはらんでいます。 AIの世界で、特に強化学習の場合、探索と利用のバランスを取るようにエージェントを訓練します。これは私たち自身の知的な旅の戦略を反映しています。しかし、情報との相互作用では、私たちはしばしば既存の信念と合致するものに制限をかけます。この逆説は、AIの適用における重要な見落としを強調しています。 AIが世界を再形成する可能性の前に立つ我々としては、この強力なツールの利用方法を考慮することが重要です。真の危険は、AI自体ではなく、私たちがそれとの相互作用をどのように行うかにあります。私たちはAIを探求と理解のための触媒として利用する必要があり、複雑さを受け入れ、知的好奇心を養う環境を育むべきです。そうすることで、AIは本当に善の力となり、私たちの視野を広げ、共同の人間の経験を豊かにすることができます。 この記事はAIの個人化された芸術の予期しない結果:(長い) エンドレスに最初に表示され、MarkTechPostから転載されました。

「OpenAIはAIの安全性に対処するためにベンガルールで開発者ミートアップを計画中」

OpenAIは、AIチャットボットChatGPTの影響力のある力を持つ組織であり、2024年1月にベンガルールで開発者の集まりを開催する予定です。このイベントの主な目的は、インドの開発者と協力して、人工知能に関連する安全上の課題に取り組むことです。OpenAIのグローバルアフェア担当副社長のアンナ・マカンジュは、ニューデリーで開催されたグローバルパートナーシップ人工知能(GPAI)サミットでのイベントに対する熱意を表明しました。 開発者の集まり OpenAIは、11月に開催された最初のDevDayカンファレンスの成功を受けて、インドのテックプロフェッショナルがAIの安全性に関する懸念や洞察を声に出すプラットフォームの構築に焦点を当てています。マカンジュは、開発者とOpenAIのプロダクトリーダーを一堂に会し、人工知能の領域で最も複雑な安全上の課題に取り組む計画を発表しました。 インドの技術的重要性の認識 マカンジュはGPAIサミットでの演説で、インドが世界舞台で果たす重要な役割を強調し、優れた人材プールと優れたテクノロジービジネスを引用しました。彼女は、バイデン政権とG7との協力経験を踏まえ、強力なテクノロジーの安全性とその恩恵の公正な分配を確保するための国際機関の設立を提唱しました。 OpenAIのインドでの拡大 OpenAIは、インドでの存在感を拡大するために、エロン・マスクのXの元副社長であるリシ・ジャイトリーをシニアアドバイザーとして迎え入れる予定です。このニュースはOpenAIによって公式には確認されていませんが、ジャイトリー氏はOpenAIがインドのAI政策と規制環境を乗り越えるための指導に当たるとされています。この動きはOpenAIの広範な戦略に合致し、アルトマン氏の6月のインド訪問に続きます。 GPAIサミットとインドの取り組み ナレンドラ・モディ首相はGPAIサミットの開催を宣言し、国際的な代表者とAIに関する重要な問題について関与する予定です。イベントの一環として、インド政府はIT省のラージーヴ・チャンドラシェーカル氏を代表として、AIに関する多国間の合意ベースの宣言に取り組んでいます。このイニシアチブは、リスクを軽減し、イノベーションを促進することを目指しており、モディ首相の信頼されるAIを通じた人々の福祉を確保するという取り組みと一致しています。 私たちの意見 OpenAIがインドの開発者と協力を深める中、AIの安全上の課題に取り組む動きは、急速に変化する技術の風景における積極的な姿勢を反映しています。OpenAIとインド政府は、この取り組みでインドの重要な役割を強調するだけでなく、AIに対する堅固な規制フレームワークの策定にも取り組んでいます。OpenAIとインドの専門家の協力は、AI技術の責任ある開発と展開を確保するための有望な一歩を象徴しています。

「AIルネサンス:デジタル時代における就業成長のエンジン」

スティーブン・ホーキングの上記の引用は、人工知能の可能性と想定される危険性をとてもうまく表していますターミネーターのような予想される危険性の一部は、...

マイクロソフトAIがLLMLinguaを発表:大型言語モデル(LLM)の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

大規模言語モデル(LLM)は、その高い一般化能力と推論能力により、人工知能(AI)コミュニティを大きく押し上げています。これらのモデルは非常に優れた能力を持ち、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなどの能力を示しています。ただし、インコンテキスト学習(ICL)やチェーン・オブ・ソート(CoT)プロンプトなどの新しい展開は、数万トークン以上にも及ぶ長いプロンプトの展開を引き起こしています。これは、費用対効果と計算効率の観点からモデル推論に問題を提起しています。 これらの課題に対処するため、Microsoft Corporationの研究チームは、LLMLinguaというユニークな粗いから細かい圧縮技術を開発しました。LLMLinguaは、長いプロンプトの処理に関連する費用を最小限に抑え、モデルの推論を迅速化することを主な目的として開発されました。これを達成するために、LLMLinguaは以下のいくつかの重要な戦略を使用しています。 予算コントローラー:動的予算コントローラーを作成しました。これにより、圧縮比が元のプロンプトのさまざまな部分に均等に分配されるようになります。これにより、大きな圧縮比でもプロンプトの意味的な整合性が維持されます。 トークンレベルの反復圧縮アルゴリズム:トークンレベルの反復圧縮アルゴリズムがLLMLinguaに統合されています。この技術により、圧縮要素間の相互依存関係を捉えながら、プロンプトの重要な情報を維持したより高度な圧縮が可能となります。 指示チューニングベースのアプローチ:チームは、言語モデル間の分布の不整合問題に対処するために、指示チューニングベースのアプローチを提案しました。言語モデルの分布を整合させることで、迅速な圧縮に使用される小さな言語モデルと意図されたLLMの互換性が向上します。 チームは、LLMLinguaの有用性を検証するために、理論的なデータセットとしてGSM8KとBBHを、会話用データセットとしてShareGPTを、要約用データセットとしてArxiv-March23を使用して分析と実験を行いました。結果は、提案アプローチが各状況で最新技術のパフォーマンスを達成していることを示しました。結果は、圧縮比20倍までの大幅な圧縮を可能にする一方でパフォーマンスの面でわずかな犠牲を払いました。 実験で使用された小規模言語モデルはLLaMA-7Bであり、閉じたLLMはGPT-3.5-Turbo-0301でした。LLMLinguaは、推論、要約、議論のスキルを維持しながら最大圧縮比20倍でも従来の圧縮技術を上回り、弾力性、経済性、効率性、回復性を備えています。 LLMLinguaの効果は、さまざまな閉じたLLMと小規模言語モデルで観察されました。LLMLinguaは、GPT-2-smallを使用した場合には大きなモデルとほぼ同等のパフォーマンス結果を示しました。また、予想される迅速な結果を上回る強力なLLMでも成功を収めました。 LLMLinguaの回復性は、圧縮されたプロンプトを元に戻す際に重要な推論情報を効果的に取り出すことによって示されます。完全な9ステップのCoTプロンプトを復元するために使用されたGPT-4は、圧縮されたプロンプトの意味と類似を保ちながら重要な情報を取り戻しました。この機能により、LLMLinguaは回復性を保証し、翻訳後も重要な情報を保持し、LLMLingua全体の印象を高めています。 結論として、LLMLinguaはLLMアプリケーションにおける長いプロンプトによって引き起こされる困難に包括的な解決策を提供しました。この方法は優れたパフォーマンスを示し、LLMベースのアプリケーションの効果とコスト効率を向上させる有用な方法を提供しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us