Search Results A

「Hugging Face AutoTrainを使用して、LLM（Language Model）を微調整する方法」

このツールを使えば、簡単に私たちのLLM能力を向上させることができます

language models

「MATLABとは何ですか？動作、関数、そして応用」というテキストです

導入 MATLAB（Matrix Laboratory）は、MathWorksによって開発された専有ソフトウェアアプリです。MATLABとは何かと思うかもしれませんね。それは、独自のライブラリと統合開発環境（IDE）を備えた多目的プログラミング言語です。データ操作マトリックス、データ分析、アルゴリズムの実装など、複雑なタスクを処理するために使用されます。それでは、科学者、研究者、エンジニアがMATLABをどのように使用しているのか見てみましょう。単なる複雑な数学計算なのか、それともそれ以上なのか。さあ、見てみましょう。 MATLABの利用用途は何ですか？ AI、ロボティクス、エンジニアリングなどの異なるセクターは、MATLABを最大限に活用しています。MATLABがどのように使用されているかを詳しく見てみましょう：アルゴリズムによる画像処理 MATLABは、異なるアルゴリズムを開発し、生の画像を処理することを支援します。画像処理における行列の値は、画像のピクセルの管理に重要です。MATLABは分析および画像の処理に関与する複雑なMLアルゴリズムをサポートします。データ分析と可視化データサイエンティストやIT専門家は、MATLABの環境を使用して統計データを可視化し、分析します。金融専門家は損失、流動性、収益性などの経済評価のためにMATLABを使用します。製品のテストと計測 MATLABには、エンジニアが電子製品にさまざまな測定とテストを行うのに役立つソースとツールがあります。自動化されたタスクを実行し、製品の品質をチェックするためのテストを実施できます。ワイヤレス通信 MATLABは、ワイヤレスデバイスのテスト、設計上の欠陥の分析、エラーのデバッグなど、エンジニアや専門家の時間を節約するのに役立つユニークなリソースと機能を提供します。 MATLABの5つの主要機能 MATLABが何であるかを知ったので、関数とは特定のタスクを実行するために使用される一連の命令のことを知るべきです。MATLABでは、関数は別々のスクリプトファイルに指定され、関数の定義とコマンドが含まれています。関数とファイル名は同じである必要があり、常にファイルの最後に定義する必要があります。 MATLABの5つの主要機能は次のとおりです： 1. プライマリ関数プライマリ関数は、ファイル内で最初に定義された関数です。プライマリ関数（メインまたはスクリプト関数）は、スクリプトを実行する際に自動的に実行されます。コマンドライン/追加関数の支援により、ユーザーはファイル外からでもプライマリ関数を呼び出すことができます。 2. サブ関数サブ関数は、プライマリ関数の後に定義され、プライマリ関数にのみ表示されます。サブ関数は、そのファイル以外のコマンドラインや追加関数からアクセスや取り消しをすることはできません。 3.…

「GoogleのAIの驚異的な進化、GeminiとゲームチェンジャーのStubbsを紹介します」

AIの生成を基本的なツールやサービスに統合しようという動きは、急速に変化するデジタルエコシステムにおいて活発な闘いに発展しました。Googleは、革新の限界に挑戦するテックジャイアントの中でも突出しており、GeminiとStubbsという2つの画期的なAIマーベルを開発しました。IT業界への影響を含め、これらの魅力的な進展について詳しく見ていきましょう。 Googleの変化する一般的なAI戦略組織は最先端のAIソリューションを追求するためにさまざまな手法を探っています。慣れ親しんだクラウドプロバイダーを頼りにする人もいれば、クラウドソーシングの技術を使用してスタッフにより大きな権限を与える人もいます。一部の人々は暫定的な解決策を待っています。競争が激化する中、Googleは多くのAIオプションで市場シェアを獲得することに積極的です。生成AIの強力な担い手：Googleがスタートアップに与える影響 Googleは生成AIの分野に大きな影響を与えています。他のプロバイダーが市場に参入するにつれて、Googleのソリューションも徐々に注目を集めています。驚くべきことに、Google Cloudは、ベンチャーファンド支援を受けた生成AIスタートアップの半数以上をサービスしています。 CEOのサンダー・ピチャイによると、AI21 Labs、Contextual、Elemental Cognition、Rytrなどの有名企業がすべてGoogleのプラットフォームを選択しています。また読む： GoogleがニュースライターAI ‘Genesis’をリリース AIインフラストラクチャへの投資：未来に向けて準備する Googleはソフトウェアを超えてAIに専念しています。第3四半期には、人工知能に関する重いワークロードをサポートするための技術インフラへの大規模な投資により、会社の資本支出（CapEx）経費が大幅に増加しました。Googleだけでなく、AWS、Microsoft Azure、Oracleなどの他のクラウドハイパースケーラーも、生成的な人工知能への需要の増加に対応するためにインフラを近代化しています。 Geminiの紹介、GoogleのマルチモーダルAIスーパーヒーロー CEOのサンダー・ピチャイは、2023年5月のGoogle I/O開発者会議で、将来の人工知能システムであるGeminiを発表しました。GoogleのDeepMind部門が開発したGeminiは、OpenAIのChatGPTに匹敵し、またはそれを上回る人工知能システムです。ピチャイは、DeepMindのAlphaGoのパワーと強力な言語モデリングの機能を組み合わせたGeminiの特別な特性を強調しました。テキスト、画像、その他のデータタイプの統合により、このマルチモーダルモデルはより有機的な会話能力を約束しています。 Googleのチーフサイエンティストであるジェフリー・ディーンは、Geminiの将来についていくつかの考えを共有しました。ディーンは、GeminiはGoogleの新しいAIインフラストラクチャ、Pathwaysを使用してさまざまなデータセットのトレーニングを行うと明かしました。この示唆によれば、Geminiは現時点で最大の言語モデルである1750億のパラメータを持つGPT-3を超える可能性があります。 Geminiは、ツリーサーチや強化学習といったAlphaGoの技術を活用して新たな推論や問題解決のスキルを獲得し、異なる容量とサイズを持つ「一連のモデル」を提供し、柔軟で強力なAIツールになる予定です。また読む： Googleが最先端のVertex AI Searchを発表…

このAIの論文は、純粋なゼロショットの設定で、タスクの適応と未知のタスクや環境への一般化に優れたCLIN（Continuous Learning Language Agent）を紹介しています

人工知能の持続的な進化により、繊細な言語ベースのエージェントが複雑なタスクを訓練や明示的なデモなしで実行できるようになりました。しかし、その卓越したゼロショット能力にも関わらず、これらのエージェントは特に異なる環境やタスクにおいて持続的にパフォーマンスを向上させることに制約がありました。この課題に取り組むため、最近の研究チームはCLIN（Continually Learning Language Agent）という画期的なアーキテクチャを提案しました。これにより、言語エージェントは頻繁なパラメータの更新や強化学習の必要なく、複数の試行でパフォーマンスを適応・改善することが可能となります。既存の言語エージェントの状況は、主にゼロショット学習技術を通じた特定のタスクでの熟練度を達成することに焦点を当ててきました。これらの方法は、様々なコマンドの理解と実行において印象的な能力を示してきましたが、大幅な変更やトレーニングなしで新しいタスクや環境に適応することが必要となることが多々ありました。この制約に対応するため、CLINアーキテクチャは、原因の抽象化の獲得と利用を継続的に強調するダイナミックなテキストメモリシステムを導入し、エージェントが時間とともに学習しパフォーマンスを向上させることができるようになりました。 CLINのアーキテクチャは、現在のタスクと過去の経験に基づいてゴールを生成するコントローラ、これらのゴールを具体的な手順に変換するエグゼキュータ、および各試行後に定期的に更新されるメモリシステムなど、一連の相互接続されたコンポーネントを中心に設計されています。CLINのユニークなメモリ構造は、必要な関係と非貢献関係を確立することに焦点を当てており、抽象的な学習における信頼度を評価する「may」や「should」といった言語の不確実性尺度を補完しています。 CLINの最も特徴的な要素は、様々なタスクと環境に対して迅速な適応と効率的な汎化が可能であるという点です。エージェントのメモリシステムにより、以前の試行から有益な知見を抽出し、後続の試行においてそのパフォーマンスと意思決定プロセスを最適化することができます。その結果、CLINは従来の最先端の言語エージェントや強化学習モデルのパフォーマンスを上回り、持続的な学習能力を持つ言語ベースのエージェントの開発における重要なマイルストーンを達成しました。この研究の結果は、言語ベースのエージェントの既存の制約、特に異なるタスクと環境への適応性に対処するCLINの重要な可能性を示しています。継続的な学習や改善を可能にするメモリシステムを組み込むことで、CLINは明示的なデモや広範なパラメータの更新なしに効率的な問題解決と意思決定ができる傑出した能力を示しています。全体として、CLINの登場は言語ベースのエージェントの重要な進展であり、持続的な改善と適応性を備えたインテリジェントシステムの開発に向けた有望な展望を提供しています。革新的なアーキテクチャとダイナミックなメモリシステムにより、CLINは次世代の言語エージェントの新たな基準を設定し、様々な領域でより洗練されて適応性のある人工知能アプリケーションへの道を開拓しています。

このAI論文では、「ビデオ言語計画（VLP）」という新しい人工知能アプローチを提案していますこのアプローチは、ビジョン言語モデルとテキストからビデオへのダイナミクスを組み合わせたツリーサーチ手法で構成されています

人工知能の進化により、生成モデルは急速に成長しています。物理環境と知的に相互作用するアイデアは、低レベルの基礎的なダイナミクスと高レベルの意味的な抽象化の2つの異なるレベルでの計画の重要性を強調しています。これらの2つのレイヤーは、実際の世界での活動を適切に制御するためには、ロボットシステムにとって不可欠です。計画問題をこれらの2つのレイヤーに分割する概念は、ロボット工学では以前から認識されています。その結果、動作とタスクの計画を組み合わせ、複雑な操作作業の制御ルールを特定することを含む多くの戦略が開発されてきました。これらの方法は、作業の目標と現実の環境のダイナミクスを考慮に入れた計画を生成することを目的としています。LLMについて話すと、これらのモデルは記号的なジョブの説明を使用して高レベルの計画を作成することができますが、そのような計画を実装することには問題があります。形状、物理、制約など、タスクの具体的な部分に関しては、推論することができません。最近の研究では、Google Deepmind、MIT、およびUC Berkeleyの研究者チームが、テキストからビデオやビジョン言語モデル（VLM）を統合することでこれらの欠点を克服する提案を行っています。両モデルの利点を組み合わせたこの統合は、Video Language Planning（VLP）として紹介されています。VLPは、長期的で複雑な活動のための視覚的な計画を容易にすることを目的として導入されました。VLPは、インターネットデータ上で広範な事前トレーニングを受けた大規模な生成モデルの最近の進展を活用しています。VLPの主な目標は、言語と視覚のドメインの両方で理解と長いアクションシーケンスを必要とするジョブを計画することを容易にすることです。これらのジョブには、単純なオブジェクトの配置から複雑なロボットシステムの操作まで、さまざまなものが含まれます。 VLPの基礎は、2つの主要部分からなるツリーサーチプロセスです。ビジョン言語モデル：これらのモデルは値関数とポリシーの両方の役割を果たし、計画の作成と評価をサポートします。タスクの説明と利用可能な視覚情報を理解した後、作業を完了するための次のアクションを提案することができます。テキストからビデオへのモデル：これらのモデルはダイナミクスモデルとしての役割を果たし、特定の意思決定がどのような影響を与えるかを予測する能力を持っています。これらの予測は、ビジョン言語モデルが示唆する行動から導かれる可能性のある結果を予測します。 VLPでは、長期的なタスクの指示と現在の視覚的観察が主な入力として使用されます。VLPの結果は、言語と視覚の特徴を組み合わせて最終目標を達成するための段階的な指示を提供する完全かつ詳細なビデオ計画です。これにより、書かれた作業の説明と視覚的理解とのギャップを埋めるのに役立ちます。 VLPは、バイアームの器用な操作や複数オブジェクトの再配置など、さまざまな活動を行うことができます。この柔軟性は、アプローチの幅広い可能性を示しています。実際のロボットシステムは、生成されたビデオの設計図を実際に実装することができます。目標指向のルールは、仮想計画を実際のロボットの動作に変換するのに役立ちます。これらの規則により、ロボットは中間フレームごとのビデオ計画を行動のガイドとして使用しながら、ステップバイステップでタスクを実行することができます。 VLPを使用した実験を以前の手法と比較すると、長期的なタスクの成功率の重要な向上が見られました。これらの調査は、3つの異なるハードウェアプラットフォームを使用した実際のロボットおよびシミュレーション環境で実施されました。

「LAMPをご紹介します：テキストからイメージ拡散モデルで動作パターンを学ぶためのフューションAIフレームワーク」

最近の研究で、研究者たちはテキストからビデオへの生成の課題に対処するために、画期的なフューションショットベースのチューニングフレームワークであるLAMPを導入しました。テキストからイメージの生成（T2I）は大きな進歩を遂げていますが、この能力をテキストからビデオに拡張することは複雑な問題でした。既存の方法では、大量のテキスト-ビデオのペアと高い計算リソースが必要であるか、テンプレートビデオに強く依存したビデオ生成結果となります。ビデオ生成の自由度とリソースコストのバランスを取ることは、難しいトレードオフとなっています。 VCIP、CS、南開大学、およびMEGVIIテクノロジーの研究者チームは、この問題に対する解決策としてLAMPを提案しています。LAMPは、1つのGPU上の8から16のビデオのみを使用してテキストからイメージ拡散モデルが特定のモーションパターンを学習できるフューションショットベースのチューニングフレームワークです。このフレームワークは、コンテンツ生成のために事前学習されたテキストからイメージモデルを使用する最初のフレーム条件付きパイプラインを採用し、ビデオ拡散モデルがモーションパターンの学習に注力します。コンテンツ生成のために確立されたテキストからイメージの手法を使用することにより、LAMPはビデオの品質と生成の自由度を大幅に向上させます。研究者たちは、ビデオの時間特性を捉えるために、事前学習されたT2Iモデルの2D畳み込み層を拡張して時間的空間モーション学習層を組み込みました。また、注意ブロックを時間レベルで動作するように変更しました。さらに、推論中に共有ノイズサンプリング戦略を導入し、最小限の計算コストでビデオの安定性を向上させました。 LAMPの機能は、テキストからビデオの生成に限定されません。実世界の画像アニメーションやビデオ編集などのタスクにも適用することができるため、さまざまなアプリケーションに対して多目的なツールです。 LAMPのモーションパターンの学習と高品質なビデオの生成における性能を評価するために、幅広い実験が実施されました。その結果、LAMPはこれらの目標を効果的に実現することができます。モーションパターンの理解とトレーニングの負担と生成の自由度のバランスを成功裏に実現します。T2Iモデルの強みを活かすことにより、LAMPはテキストからビデオの生成に対する強力な解決策を提供します。まとめると、研究者たちはテキストからビデオの生成のためのフューザショットベースのチューニングフレームワークであるLAMPを導入しました。この革新的なアプローチは、小規模なビデオデータセットからモーションパターンを学習することにより、テキストプロンプトからビデオを生成するという課題に取り組んでいます。LAMPの最初のフレーム条件付きパイプライン、時間的空間モーション学習層、および共有ノイズサンプリング戦略により、ビデオの品質と安定性が大幅に向上しています。このフレームワークの多目的性により、テキストからビデオの生成以外の他のタスクにも適用することができます。幅広い実験を通じて、LAMPは限られたデータでモーションパターンを学習し、高品質なビデオを生成する効果を実証し、テキストからビデオの生成分野における有望な解決策を提供しています。

ChatGPTを使ってコーディングする方法’ (ChatGPTをつかってコーディングするほうほう)

イントロダクション人工知能を現代のプログラミングに取り入れることで、効率とイノベーションの新時代が到来しました。OpenAIが開発したAI言語モデルであるChatGPTは、これらの革新的な進展の中で重要で破壊的なマイルストーンとして際立っています。この記事では、ChatGPTコードの具体的な機能、信頼性、およびプログラマーのスキル向上への影響について分析し、ChatGPTのコーディングの味方としての潜在能力を読者に詳細に紹介します。 ChatGPTはコードを書けるのか？ ChatGPTがコードを書けるかどうかの問いに対しては、断然に肯定的な答えがあります。この素晴らしいプラットフォームは、人間の開発者が行うコーディングプロセスを再現し、本物のプログラミングコードを生成することができます。ただし、生成されたコードには常にエラーや不完全な部分がある可能性があるため、注意が必要です。不正確性の可能性により、StackOverflowなどのプラットフォームではChatGPTによるコード生成が禁止されています。例えば、フィボナッチ数列を計算するPythonの関数を作成したい場合、簡単にChatGPTに質問することができます。フィボナッチ数列を計算するPythonの関数を生成してください。すると、次のような応答を受け取ることができます。 ChatGPTでコーディングするべきか？ ChatGPTでコーディングするかどうかは、具体的なニーズや状況を慎重に考慮する微妙な問題であり、決定に影響を与えるいくつかの重要な要素があります。 ChatGPTでのコーディングの利点と欠点利点欠点 1. 速さと効率：コードを素早く生成し、繰り返しのコーディングタスクを補助できます。 1. 理解の限界：コンテキストや特定のドメイン知識を深く理解する能力が欠けていることがあります。 2. コードの提案：役に立つコーディングの提案を提供し、コードスニペットの作成を支援できます。 2. 創造性とイノベーション：複雑な問題に対する創造的または革新的な解決策を提供しない場合があります。 3. 学習ツール：説明と例を提供して学習や教育に使用することができます。 3. トレーニングデータへの依存：知識は過去のデータに基づいており、最新情報とは限らない場合があります。…

正しい選択をすること：AIのアドバイス、決定支援、およびLLMsの約束

「AIの民主化が多様な領域でAIシステムの採用をもたらしています大規模な言語モデル（LLM）の事前学習済みなど、最近の生成モデルの流れにより、それらの採用が進んでいます…」

「Langchainのチャットボットソリューションで複数のウェブサイトを強化しましょう」

イントロダクション AIの革新的な時代において、会話エージェントまたはチャットボットは、さまざまなデジタルプラットフォーム上でユーザーの関与、支援、およびユーザーエクスペリエンスの向上に不可欠なツールとして登場しました。高度なAI技術によって動作するチャットボットは、人間の対話に似た自動化されたインタラクティブな対話を可能にします。ChatGPTの登場により、ユーザーの質問に対する能力は飛躍的に向上しました。ChatGPTのようなカスタムデータ上でのチャットボットの構築は、ビジネスにとってより良いユーザーフィードバックとエクスペリエンスを提供することができます。この記事では、LangchainのChatbotソリューションを構築し、ChatGPTのようなカスタムウェブサイトとRetrieval Augmented Generation（RAG）テクニックを使用します。プロジェクトを始める前に、このようなアプリケーションを構築するためのいくつかの重要なコンポーネントを理解します。学習目標このプロジェクトから以下のことを学びます：大規模な言語チャットモデルカスタムデータ上でChatGPTのようなチャットボットを構築する方法 RAG（Retrieval Augmented Generation）の必要性ローダー、チャンキング、埋め込みなどのコアコンポーネントを使用してChatGPTのようなチャットボットを構築する方法 Langchainを使用したインメモリベクトルデータベースの重要性 ChatOpenAIチャットLLMを使用したRetrievalQAチェーンの実装方法この記事はデータサイエンスブログマラソンの一環として公開されました。 Langchainとは何か、なぜ使うのか ChatGPTのようなチャットボットを構築するために、Langchainのようなフレームワークがこのステップで必要です。応答を作成するために使用される大規模言語モデルを定義します。複数のデータソースを取り扱う際には、gpt-3.5-turbo-16kをモデルとして使用してください。これにより、トークンの数が増えます。このモデル名を使用して、便利なInvalidRequestErrorを避けてください。Langchainは、大規模言語モデル（LLM）によって駆動されるアプリケーションの開発を支援するオープンソースのフレームワークです。LangChainのコアとして、属性とコンテキストの理解を具備したアプリケーションの作成を容易にします。これらのアプリケーションは、プロンプトの指示、フューショットの例、およびコンテキストのコンテンツを含むカスタムデータソースにLLMを接続します。この重要な統合により、言語モデルは提供されたコンテキストに基づいて応答を行い、ユーザーとより微妙で情報のあるインタラクションを行うことができます。 LangChainは高レベルのAPIを提供し、言語モデルを他のデータソースに接続し、複雑なアプリケーションを構築することを容易にします。これにより、検索エンジン、高度な推薦システム、eBook PDFの要約、質問応答エージェント、コードアシスタントのチャットボットなどのアプリケーションを構築することができます。 RAG（Retrieval Augmented Generation）の理解大規模な言語モデルは、従来のAIとして応答を生成する際に非常に優れています。コード生成、メールの作成、ブログ記事の生成など、さまざまなタスクを実行できます。しかし、ドメイン固有の知識に関しては、LLMsは通常、幻覚に陥りがちです。幻覚を減少させ、事前学習されたLLMsをドメイン特有のデータセットでトレーニングするという課題を克服するために、ファインチューニングという手法が使用されます。ファインチューニングは幻覚を減少させる上で効果的な方法であり、モデルにドメイン知識を学習させる最良の方法です。ただし、これには高いリスクが伴います。ファインチューニングにはトレーニング時間と計算リソースが多く必要とされ、コストがかかります。 RAGはその救世主となります。Retrieval Augmented…

「Amazon Bedrockを使用した生成型AIアプリ：Go開発者のための入門ガイド」

「AWS Go SDKとAmazon Bedrock Foundation Models（FMs）を使用して、コンテンツ生成、チャットアプリケーションの構築、ストリーミングデータの処理などのタスクを実行します」

Learn more about Search Results A - Page 133