このAIニュースレターは、あなたが必要とするすべてです＃73

あなたの美容とファッションの知識をさらに深めるためのAIニュースレター＃73

ルイによる今週のAIの出来事

Image Credits: Retool AI Report — 画像クレジット: Retool AI Report

今週の会話は、OpenAIのDevdayの余波、新製品の発売、そして既に1万以上のGPTが作成されているGPTStoreの将来の可能性についての推測によって再び支配されました。しかし、今週はAIの状態とその経済への採用に関するいくつかの新しい研究も注目しています。

最近の研究では、ChatGPTの導入がコピーライティングやグラフィックデザインなどのフリーランス分野における仕事の減少と収益への影響を調査しました。その研究は、ChatGPTが個人の利用可能な仕事の数を大幅に減少させただけでなく、その仕事の価値も低下させていることを明らかにしました。ボストンコンサルティンググループ（BCG）が実施した別の研究では、GPT-4にアクセスする従業員は、タスクを12%増やし、25%高速に実行し、品質も40%向上させることが示されています。この研究は、GPT-4の知識を活用してスキルを補完することができるジュニアチームメンバーの間で最も顕著なパフォーマンス向上を強調しています。

さらに、Retool.comによる「The State of AI 2023」という調査は、約1600人の参加者を持ち、AIへの感情、その採用状況、現在のリーダーに関する興味深いデータポイントを示しています（この要約ではいくつかの興味深い知見を強調しています。全体のレポートを読むことを強くお勧めします）。ほとんどの回答者は、次の5年間でAIが彼らのキャリアに与える影響について共通の信念を共有していました。さらに、ChatGPT/CopilotなどのAIツールを利用できるエンジニアの雇用が好まれる傾向があります。興味深いことに、参加者の80%がChatGPT（GPT-3、3.5、4を含む）のさまざまなバージョンを使用しています。一方、主な懸念事項はモデルの正確性と幻覚であり、回答者の67%が心配を表明しています。開発者ツールに関しては、現在の市場の主導権はHuggingface、LangChain、LlamaIndexが保持しています。最後に、回答者によると、調査結果はGitHub Copilot、ChatGPT、Google Bardが最も価値のあるツールであることを示しています。

なぜあなたが関心を持つべきか？

新しいAIモデルのリリースの驚異的なペースと能力の向上に取り込まれるのは簡単ですが、これらのツールが広く採用されて経済にどのような影響を与え始めているのかを判断するのは時々難しいです。したがって、この技術のポジティブな影響とネガティブな影響の両方について計画を立てるために、産業全体でのAIの採用に関する詳細な研究を見ることは非常に重要だと考えています。明らかに、一部の分野では、LLMの採用が従業員に大きな影響を与えており、賃金の減少から生産性と品質の向上まで様々です。しかし、他の面では、採用はまだ非常に初期の段階であり、企業は新しい機能に適応し始めているばかりです。おそらくOpenAIの最新のGPT製品とLLMのユースケースの共有とアイデアのためのUIの改善により、これらのトレンドがさらに加速されるでしょう。

– Louie Peters — Towards AI 共同創設者兼CEO

毎週の5分間の読み物/動画で学び続けましょう

AIの進化：IBMやAWSからOpenAIとAnthropicへ

このエッセイは人工知能のランドスケープとその軌跡の優れた探求です。Google、IBM、OpenAIなどの影響力のある企業が革新を加速する上で重要な役割を果たしたキーエンドポイントをマッピングしています。責任あるAI、消費者AIなどの将来にも触れています。

2. Chart画像分析のためのGPT-4をプロンプト

GPTの最新バージョンであるGPT-4では、チャート画像を含む画像分析機能が導入されました。一般的なチャート画像の分析を提供することはできますが、データの正確な数量化には改善の余地があります。この記事では、いくつかのチャートタイプを使用して、GPT-4がチャート画像分析でどれくらい優れているかを確認しています。

3. RAGシステムにおける幻覚の測定

幻覚評価モデル（HEM）は、リトリーバル拡張生成（RAG）システムの幻覚の頻度を測定するために開発されたオープンソースツールです。このツールは、ジェネレータティブLLMが関連性のないまたはバイアスのある結果を生成せずに正確に結果を要約する能力を評価することでAIの信頼性を評価します。

4. DALL·E-3の新機能は何ですか？

DALL·E-3は、さまざまなドメインで優れた画像品質を提供するDALL-Eテキストから画像へのモデルのアップグレードバージョンです。その新機能には、GPT-4を使用したプロンプトの書き換えによる高度な結果、調整可能な画質パラメータ、そして柔軟なイメージサイズがあります。この記事では、DALL·E-3の新機能と機能に焦点を当て、APIを使用して作成できる新製品の具体例をいくつか紹介しています。

5. リンクタイム最適化

このガイドでは、通常AOT（Ahead-Of-Time）コンパイルとリンキングを使用するCやRustなどの言語向けの一般的なツールチェーンに焦点を当て、リンクタイム最適化に関連する機能について説明しています。

リポジトリとツール

XTTS v2

XTTSは、ユーザーが声を異なる言語に複製するためのテキスト読み上げモデルです。16言語をサポートしており、私たちのクリエイターアプリケーションであるCoqui StudioやCoqui APIにも同じモデルが搭載されています。

2. Giskard AI

Giskardは、AIモデルの脆弱性を自動的に検出するPythonライブラリです。タブラーモデルからLLMまで、パフォーマンスの偏り、データの漏洩、虚偽の相関、幻想など、さまざまな脆弱性を検出します。

3. Monaspace

Monaspaceタイプシステムは、コード用の等幅フォントのスーパーファミリーです。5つの可変軸のタイプフェイスで構成されており、それぞれ異なる声を持っていますが、互換性のあるメトリクスであるため、より表現豊かなタイポグラフィックパレットを作るために混合使用することができます。

4. MindStudio

MindStudioは、ユーザーが任意のモデルとプロンプティングを使用してカスタムのノーコードAIアプリを構築することができるツールです。ユーザーは外部データでAIをトレーニングし、AIアプリを公開または非公開でデプロイすることができます。

5. Graphlit

Graphlitは、LLMを使用してアプリケーションを構築するためのAPIファーストの開発者プラットフォームです。GraphlitはRAGパターンを使用し、OpenAIのGPT-3.5やGPT-4といったLLMのパワーを活用して、複雑なデータを検索可能な対話型の知識グラフに変換します。

今週のトップ論文

OtterHD: 高解像度マルチモダリティモデル

この論文では、Fuyu-8Bから進化した画期的なマルチモダルモデルであるOtterHD-8Bを紹介しています。このモデルは高解像度のビジュアル入力を解釈するために特別に設計されています。モデルはネイティブ解像度の画像を受け入れることができ、細部まで捉えることが可能です。パラメータのサイズが類似しているにも関わらず、OtterHD-8BはInstructBLIP、LLaVA、Qwen-VLなどのMagnifierBenchで他のLLMを上回る性能を発揮します。

2. Backbonesの戦い：コンピュータビジョンタスクにおける学習済みモデルの大規模比較

この論文では、コンピュータビジョンタスク用の学習済みモデルを比較し、Vision Transformersに触発されたConvNeXTがさまざまなタスクで最も優れたパフォーマンスを発揮することが分かりました。ビジョントランスフォーマーや自己教師あり学習は人気がありますが、教師ありの学習済み畳み込みニューラルネットワークはほとんどの場合で優れたパフォーマンスを提供します。

3. TEAL：マルチモダル大規模言語モデルのためのトークン化と埋め込み

この研究では、TEAL（Tokenize and Embed ALL）というシステムを提案しています。このシステムは、マルチモダル入力間の相互作用をモデリングし、非テキストモダリティを生成するためのシステムです。任意のモダリティからの入力をトークンシーケンスとして扱い、すべてのモダリティのための共通の埋め込み空間を学習します。これにより、マルチモダル大規模言語モデルは非テキストモダリティ（画像や音声など）を効果的に予測することができるようになります。

4. AGIのレベル：AGIへの進展を実現するための操作化

DeepMindは、「AGIのレベル」というフレームワークを導入しました。このフレームワークは、人工知能を「狭い」知能と「汎用的」知能に分類しています。このフレームワークは、学習、推論、知識の適用能力に基づいて、新たに登場し、超人的なパフォーマンスを持つAIに対して5つのレベルを規定しています。このフレームワークは、モデルの比較、リスクの評価、AGIへの道の進展の測定において、自律走行のレベルと同様に、共通の言語を提供することができるでしょう。

5. JARVIS-1：メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント

JARVIS-1は、人気のあるが挑戦的なオープンワールドのMinecraftの世界で、マルチモーダルな入力（視覚的な観察と人間の指示）、洗練された計画の生成、そして具現化された制御をすべて行うことができるオープンワールドエージェントです。実験では、JARVIS-1はエントリーレベルから中級レベルまで幅広いタスクにわたってほぼ完璧なパフォーマンスを発揮します。

クイックリンク

Googleは、急成長している人工知能チャットボットスタートアップのCharacter.AIに数億ドルを投資する交渉をしています。これにより、同社はモデルのトレーニングとユーザー需要の追いつきに資本を投入することができます。- 参照
IBMは、エンタープライズ向けの生成的AI技術と研究を加速することに焦点を当てた、初期段階から超成長スタートアップまでの幅広いAI企業に投資するため、5億ドルのベンチャーファンドを立ち上げることを発表しました。- 参照
元々コカ・コーラの副社長だった二人の人物が協力して、すでにいくつかの有名なフォーチュン500企業が持続可能性戦略を改善するのに役立っている人工知能（AI）システムを市場に投入しています。- 参照
OpenAIのGoogleとのタレント競争における新兵器：研究者に対する1000万ドルの給与パッケージ- 参照
カリフォルニア拠点の会社であるIterateは、自然言語のプロンプトを使用して、即座に動作し、最新のコードを生成し、本番用のAIアプリケーションを作成することができる最適化モデルであるAppCoder LLMを立ち上げました。- 参照