Learn more about Search Results これ - Page 14
- You may be interested
- 「ニューヨーク・タイムズ」がOpenAIに対...
- 「熟練した実践」を用いてデータサイエン...
- 『AIのおそらく知られていないトップ4の活...
- 「BigQueryのテーブルを最適化するためにS...
- 「生成モデルを本番環境に展開する際の3つ...
- 動的言語理解:パラメトリックおよび半パ...
- Google Cloudによるデジタルトランスフォ...
- 高度なRAG 01:小から大への検索
- 「SCMソフトウェアを活用して成功を引き出...
- これは本当のマルチモーダル学習ですか?-...
- BQMLを使用した多変量時系列予測
- 生成AI倫理’ (Seisei AI Rinri)
- 「ChatGPTの新しいカスタム指示がリリース...
- 「UMDが主導する研究がモンゴメリー郡の起...
- ベストAI画像生成器(2023年7月)
安定した拡散:インテリアデザインの芸術をマスターする
この速い世界で、パンデミックの後、私たちの多くは、現実から逃れるための心地よい環境を持つことがどれだけ貴重で、追求すべき目標であるかを実感しましたそれが家であろうと、外であろうと、私たちの日常生活において居心地の良い場所を作り出すことは、心の安息であり、幸福感を与えてくれるのです
「2023年、オープンLLMの年」
2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…
Google AIはPixelLLMを提案します:細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル
大規模言語モデル(LLMs)は、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなど、人工知能(AI)のサブフィールドの力を活用しています。LLMsにより、画像について複雑な推論を行い、画像に関するクエリに応答し、自然言語で画像を説明することが可能になりました。しかし、LLMsが単語の位置特定や位置の参照などの位置情報タスクを実行できるかはまだ不確かです。 この課題を解決するため、Google ResearchとUC San Diegoの研究チームが、PixelLLMという賢いモデルを導入し、細かい位置情報と画像-言語の整合性を実現することが可能になりました。このアプローチは、特に赤ちゃんがジェスチャーや指さし、命名などで自然に自分の視覚環境を説明する方法に着想を得ています。チームは、LLMsが視覚入力から空間的理解と推論をどのように派生できるかを見つけることを目標としていると共有しています。 PixelLLMは、言語モデルの各単語出力をピクセルの位置に密接に対応させます。これには、単語特徴の上に小さなマルチレイヤーパーセプトロン(MLP)が追加され、各単語のピクセル位置に回帰できるようになっています。低ランクのファインチューニング(LoRA)が使用され、言語モデルの重みを更新または凍結することができます。モデルはテキストまたは場所のプロンプトも受け取ることができ、プロンプトに合わせた出力を提供できます。 モデルのアーキテクチャには、画像エンコーダ、プロンプトエンコーダ、およびプロンプト特徴抽出器が含まれています。大規模言語モデルは、プロンプトに基づいた画像特性とオプションのテキストプロンプトを入力とし、単語ごとの位置特定とキャプションという形で出力します。言語または位置の様々な組み合わせを入力または出力として受け取る能力により、アーキテクチャは幅広い視覚言語活動に適応できます。 チームは、密なオブジェクトキャプショニングや位置条件付きキャプショニング、位置の参照など、よく知られたビジョンタスクを使用してモデルを評価しました。89.8 [email protected]のRefCOCOを参照した位置情報、Visual Genome条件付きキャプショニングの19.9 CIDEr、密なオブジェクトキャプショニングの17.0 mAPなど、優れたパフォーマンス指標を持つPixelLLMは、さまざまな課題において最先端の結果を示しています。ピクセルごとの密な位置特定の定式化が重要であることは、RefCOCOでの収縮研究によって示されており、他の位置特定の定式化に比べて3.7ポイントの利益を上げています。したがって、PixelLLMは正確なビジョン-言語の整列と位置情報を達成することに成功しています。 チームは、主な貢献を以下のようにまとめています。 「PixelLLM」という新しいビジョン-言語モデルを紹介し、単語の位置特定と画像キャプションを生成する。 モデルは、画像入力に加えてテキストまたはオプションの場所の手がかりをサポートします。 位置特定のトレーニングには、ローカル化されたナラティブデータセットが使用されました。 セグメンテーション、位置条件付きキャプショニング、参照位置、密なキャプショニングなど、さまざまなビジョン-言語タスクに適応することができます。 位置条件付きキャプショニング、密なキャプショニング、参照位置とセグメンテーションで優れた成果を示しました。
AIアドバイザーと計画ツール:金融、物流、それ以上を変革する
「AIアドバイザーやプランニングツールが金融、物流、医療、教育の根本的な変革を遂げる方法を探索してくださいこれらのAIシステムがどのようにデータ駆動の洞察を提供し、複雑なプロセスを最適化し、未来を形作っているのか学んでください」
「科学者がスーパーバグと戦うため、分子を死から甦らせる」
調査チームは、絶滅した人類の祖先から遺伝情報を採掘するために計算手法を使用し、新しい抗生物質の候補を特定しています
「スタートアップに必要なテックパートナー:ソフトウェア開発サービス」
スタートアップの速い世界では、成功を決定づけるためにテクノロジーが重要な役割を果たしていますスタートアップにとって適切なソフトウェア開発サービスは、革新的なアイデアを現実のものにするための推進力となる可能性がありますこの記事では、スタートアップの成功におけるテクノロジーの重要な役割、適切な開発パートナーの選択の複雑さ、その旅行について詳しく説明します...スタートアップに必要なテクノロジーパートナー:ソフトウェア開発サービス」詳細を読む»
スマートな意思決定:AIが従業員の転居計画を向上させる方法
「あなたがふかふかのアームチェアに落ち着いている想像をしてみてください空気中には新しく淹れたコーヒーの香りが漂っていますそれでは、従業員の移転計画について考えてみましょうまるで賑やかな都市の中を進むような感じですあちこちで考慮すべき事柄や物流の複雑さが溢れていますしかし、ここで順調になるのはAIが登場するときです... スマートな意思決定 AIが従業員の移転計画をどのように強化するのか 詳細を読む」
「Pythonを使用した外惑星の発見のシミュレーション」
「2017年のグレートアメリカンイクリプスの撮影のためアイダホに飛ぶ前に、私は事前準備をしました月が完全に太陽を覆う全食イベントはわずか2分10秒しか続きませんでしたそれに対して私は…」
「2023年の振り返り:Post-ChatGPT時代のまとめと2024年の期待」
「ChatGPT、LangChain、ベクトルデータベース、およびRAGについての技術イベントと進歩に関するレビュージェネラティブAI領域のすべてをカバーします」
RAGを使用したLLMパワードアプリケーションの開始ガイド
ODSCのウェビナーでは、PandataのNicolas Decavel-Bueff、そして私(カル・アル・ドーバイブ)とData Stack AcademyのParham Parviziが協力し、エンタープライズグレードの大規模な言語モデル(LLM)の構築から学んだ教訓と、データサイエンティストとデータエンジニアが始めるためのヒントを共有しました最大の...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.