このAIニュースレターは、あなたが必要とするすべてです#61
This AI newsletter is all you need #61.
ルイによる今週のAIの出来事
ここ数ヶ月、私たちは大規模な言語モデル(LLM)の進化と新しい技術の徐々な導入を続けてきましたが、まだGPT-4を最も高度な(かつトレーニングに高い計算資源を必要とする)モデルを置き換えることを目指した競争は見られていません。Googleは今年初めにGoogle BrainとDeepmindを統合し、トレーニングに必要な計算資源を急速に拡大してきました。そのGeminiモデルは、この新たな統合の取り組みから最初の主要な新リリースとなるでしょう。Googleは、インタビューや制御されたメディアの発表を通じて情報を明らかにすることで、Geminiに対する期待感を徐々に高めてきました。同社はおそらくGeminiをGPT-4への回答として準備しており、特定の能力で後者を上回ることを目指しています。
報道によると、リリースは「この秋」に準備が整っているとされており、Geminiがどのような革新と能力をもたらし、GPT-4と比較してどのような結果を示すのか、私たちは楽しみにしています。この取り組みは、Oriol VinyalsとKoray Kavukcuogluの指導のもと、Geminiの開発を監督するJeff Deanによって率いられています。私たちは、経営陣やメディアのリークから直接の引用を通じて、モデルについていくつかの情報を聞いています。「Geminiは、AlphaGoタイプのシステムの持つ強みと、大規模なモデルに備わる卓越した言語能力を組み合わせたものです」とDemis Hassabisは述べています。また、このモデルが5月前にトレーニングを開始したことも知っています。「Geminiに取り組んでいます。これは、将来のイノベーション(メモリや計画など)を可能にするために、マルチモーダルで、ツールやAPIの統合に非常に効率的な、ゼロから作成された次のモデルです。Geminiはまだトレーニング中ですが、以前のモデルでは見られなかったマルチモーダルの機能を既に示しています。」とGoogle CEOブログは5月23日に述べています。このモデルは、Midjourneyのような完全な画像生成機能を備えたマルチモーダルなものと予想されています。また、Googleはトレーニングセットについて慎重になっており、YouTubeのビデオとオーディオデータをGeminiに統合している可能性があると聞いています。
GoogleとOpenAIの持続的な競争は、興奮を覚えるものであり、特にAlphaGo Deepmindの技術がLLMにどのように統合されていくかを観察することは興味深いでしょう。今年もLLMのさらなる進化が見られることになりそうです!
– Towards AI 共同創設者兼CEO ルイ・ピータース
この号は、 OVHcloud の提供によります。
OVHcloudは、AIのニーズを推進するために、破格の価格でGPUを提供しています。これには、在庫がある限り、NVIDIAのクラウドインスタンスを最大60%割引で利用できる選択肢も含まれています。完全なデータの可逆性とリソースの柔軟性を保証するデータ処理の加速を目的とした設計で、OVHcloudのウォータークーリング技術を活用したベアメタルサーバーやAIノートブック、AIトレーニング、AIデプロイなどのオープンソースMLソリューションも提供しています。
注目のニュース
- メタの次の大型オープンソースAIリリースは、コード生成ボットとされています
メタの次のAIリリースは、コード生成ボットとなる予定です。この新しいモデルは「Code Llama」と呼ばれ、オープンソースで無料でオンラインで利用可能になるでしょう。来週にもリリースされる可能性があります。これは、新しいカスタマイズ可能なAIモデルの開発を容易にする広く利用可能なAIソフトウェアをリリースするという同社の戦略と一致しています。
2. OpenAIのコンテンツモデレーション
OpenAIは、コンテンツポリシーの開発やデジタルプラットフォームでのコンテンツモデレーションの意思決定を支援するために、GPT-4の活用を提案しています。これにより、人間の負担を軽減し、コンテンツの一貫したラベリングとフィードバックループの迅速化が可能になることを目指しています。
3. MicrosoftがDatabricksと共にAIサービスを計画しており、これがOpenAIに影響を与える可能性があります
Microsoftの最近のAzure+Databricksの提供により、DatabricksのユーザーはAzureプラットフォームでオープンソースのLLMを含む任意のAIモデルを使用してデータをトレーニングすることができます。これにより、同様のユースケースを満たすためにOpenAIモデルのライセンスを取得する企業の数が減少する可能性があります。
4. GoogleのトップAIエキスパートが日本に独自の開発スタジオを設立する計画を立てています
GoogleのトップAIエキスパートは、OpenAIのChatGPT、Google Bard、Stability AI、Midjourney、Dall-EなどのAIボットの開発に貢献した研究者であり、独自のAI開発スタジオを設立する意向を持っています。Sakana AIは、テキスト、画像、コードなどを生成できるソフトウェアである独自の生成型AIモデルの開発を推進しています。
5. 偏見のあるAIは有害な気候対策を避けるために人間の助けを必要とする、研究者は述べています
ケンブリッジ大学の研究者による新しい論文によると、AIコンピュータプログラムが依存するデータの収集に偏見があると、気候科学者の将来のシナリオ予測やグローバルな行動の指針づけの役に立たなくなる可能性があります。論文は、社会的責任を持つAIの開発において、人間がガイドとなる技術が重要であると結論付けています。
5つの5分読書/動画で学び続ける
- Anti-Hype LLM 読書リスト
現在のAIのハイプに乗ることは困難であり、本当に重要なものを見極めることが難しいです。このコンピレーションには、基礎的な論文、興味深いオープンな問題、およびより深い洞察を得るためのガイドが含まれています。
2. LLMのファインチューニングはおそらく必要ない理由
この投稿では、ファインチューニングがアプリケーションに必要でない理由について詳しく説明しています。ファインチューニングの内容や潜在的な代替手段について包括的に説明しています。このコンテンツは、LLMアプリケーションの構築に焦点を当てたものです。
3. LLM研究におけるオープンな課題
AIの急速な成長により、新しい研究方向が生まれています。この記事では、LLM研究における多様性、GPUの代替手段、革新的なアーキテクチャなど、現在の課題を取り上げています。
4. AI2 Dolma: 言語モデルの事前学習のための3兆トークンのオープンコーパス
AI2 Dolmaは、ウェブコンテンツ、学術論文、コードリポジトリ、書籍、百科事典など、さまざまなソースから抽出された3兆トークンのデータセットです。主な目的は、研究者にデータの規模の影響を調査する手段を提供することです。HuggingFace Hubで簡単にダウンロードできます。
5. NLP論文の執筆のためのヒント
この投稿では、NLP論文の標準化された執筆プロセスの構築方法について共有しています。コンテンツの構造化、言語の精度、包括的な文献レビュー、正確な引用など、不可欠な要素を紹介しています。特定のポイントはNLP研究に合わせて調整されていますが、ここで示された原則はさまざまな分野で効果的に使用することができます。
論文とリポジトリ
- Instruction Backtranslationによる自己整列
この論文では、人間が書いたテキストに対応する命令を自動的にラベル付けすることにより、高品質な命令従順言語モデルを構築するためのスケーラブルな方法を紹介しています。それは少量のシードデータと与えられたウェブコーパスにファインチューニングされた言語モデルから始まります。
2. Neuralangelo: 高品質なニューラル表面再構成
この論文では、Neuralangeloを紹介しています。これは、多重解像度3Dハッシュグリッドの表現力とニューラル表面レンダリングの組み合わせです。このアプローチを可能にする2つの主要な要素は、高次微分を計算するための数値勾配とハッシュグリッド上での粗視化から細視化への最適化です。
3. テンソル分解による一貫性のある協調フィルタリング
この研究では、暗黙のフィードバックに基づいた協調フィルタリングのための新しいモデルであるSliced Anti-symmetric Decomposition(SAD)を開発しました。SADは、一貫した個人の嗜好を生み出しながら、個人に合った推奨を高い精度で維持します。
4. 大規模言語モデルの効率的なガイド生成
この論文では、ニューラルテキスト生成の問題を有限状態機械の状態間の遷移として構築する方法を示しています。正規表現と文脈自由文法でテキスト生成をガイドし、言語モデルの語彙にインデックスを作成することができます。
5. neuml/txtai
Txtaiは、セマンティック検索、LLMオーケストレーション、および言語モデルのワークフローに使用できるオールインワンのオープンソースの埋め込みデータベースです。数分でセットアップでき、ローカルで実行され、マイクロモデルから大規模言語モデルまで動作します。
これらの論文とニュースの要約を楽しんでいただけましたか?メールで毎日のまとめを受け取りましょう!
一緒に学ぶAIコミュニティセクション!
今週のミーム!
rucha8062が共有したミーム
Discordからの注目のコミュニティ投稿
Marcklingenは最近、「langfuse」というオープンソースの観測性および分析ツールを紹介しました。これはLLM(Large Language Model)アプリケーション向けに設計されたツールで、品質、コスト、レイテンシなどの正確な実行トレースの詳細な視点を提供することで、アプリケーション開発プロセスを加速することができます。現在、Langfuse Analyticsはクローズドアルファフェーズにあり、コアチームがLLMアプリケーションに最も有益な分析プラットフォームを構築するためにユーザーグループと協力しています。GitHubで確認し、コミュニティメンバーをサポートしましょう。フィードバックや質問はこちらのスレッドで共有してください。
TAIキュレーションセクション
週間記事
大規模な言語モデルとベクトルデータベースを使用してビデオ推薦システムを構築した方法(著者:ゾマナ・ケイタ)
この記事では、大規模な言語モデル、最新のテキストおよび音声分析ツール、およびベクトルデータベースを活用して、エンドツーエンドのオーディオ推薦ソリューションを構築する方法について学びます。このソリューションは、ユーザーの興味に基づいてトップのビデオを提案します。
必読記事
Metasの新しいテキストから画像への変換モデル — CM3leon論文解説(著者:ボリス・マイナルダス)
LangChainを使用してテキストから辞書を抽出する方法(著者:ユージニア・アネロ)
忙しい?ディフュージョンモデルのブラックボックスを開くためのクイックガイド(著者:ポール・イウスティン)
Towards AIでの投稿に興味がある場合は、ガイドラインを確認し、サインアップしてください。編集方針と基準に合致する場合、当社のネットワークであなたの作品を公開します。
求人情報
シニアスタッフライター(テックソフトウェア) @Future Publishing(ロンドン、英国)
ジュニアソフトウェアエンジニア(React.js)— OP01114 @Dev.Pro(リモート)
ソリューションアーキテクト(ソフトウェア開発) @Uni Systems(ワルシャワ、ポーランド)
ソフトウェアエンジニア @Mention Me(リモート)
フルスタックソフトウェアエンジニア @Basetwo(リモート)
シニアデータエンジニア @Hertility Health(リモート)
人工知能エンジニア @Plain Concepts(リモート)
求人情報を共有したい場合は、[email protected]にご連絡ください。
次の機械学習の面接の準備をしている場合は、リーディングの面接準備ウェブサイトconfettiをぜひチェックしてください!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles