Search Results ML

「ODSC West 2023のトピックトラックを紹介します – Gen AIとLLMsを特集します」

年の終わりに向かって進んでいる中、私たちはODSC Westに全力を注いでいますAIブームの中心地である(対面)またはあなたのコンピューター(バーチャル)で10月30日から11月2日まで開催されます今年はさらに多くのトラックがあり、ハンズオンのトレーニングセッションや専門家によるワークショップなどが行われます...

West 2023

スタビリティAIは、コーディングのための最初のLLMジェネレーティブAI製品であるStableCodeのリリースを発表します

Stability AIは、AIによるコーディング支援でデビューを飾る画期的な製品「StableCode」を発表しました。経験豊富なプログラマーとスキルアップを目指す初心者の両方を支援するために設計されたStableCodeは、実用性と学習サポートをユニークに組み合わせています。 StableCodeの中核は、コーディングの世界を変える3つの異なるモデルにあります。まず、ベースモデルは、BigCodeのスタックデータセット（v1.2）からさまざまなプログラミング言語を使用して厳密なトレーニングを受けました。その後、Python、Go、Java、JavaScript、C、Markdown、C++などの人気のある言語で強化され、プログラミング知識の幅広いリソースが作成されました。このトレーニングプロセスは、高性能コンピューティング（HPC）クラスタによって駆動される5600億のコードトークンによって支えられました。しかし、イノベーションはそこで止まりませんでした。StableCodeフレームワークの次のレイヤーであるインストラクションモデルは、特定のプログラミングの課題に対応するよう細心の注意を払って調整されました。アルパカ形式の約12万件のインストラクション/レスポンスペアが洗練されたベースモデルによって評価され、洗練されたソリューションが生まれました。このソリューションは、洗練されたプログラミングタスクに優れた対応力を持っています。 StableCodeの真の魅力は、オートコンプリートの提案を再定義するために設計された長いコンテキストウィンドウモデルにあります。16,000トークンのコンテキストウィンドウを持つ前のモデルとは異なり、このモデルはより高い容量を持ち、2〜4倍のコードを収容することができます。これにより、プログラマーは一度に複数の平均サイズのPythonファイル相当を簡単に管理できるようになりました。この拡張された機能は、より複雑なコーディング課題を探求したい初心者にとって大きな利点となります。 StableCodeは、同じスケールのモデルと比較して優れたパフォーマンスを発揮します。Pass@1およびPass@10のメトリックを使用して、確立されたHumanEvalベンチマークに対して評価された結果、StableCodeは実世界のシナリオでその実力を証明しています。 StableCodeのベンチマークスコア同じサイズのモデル（3B）とのHumanEvalベンチマーク比較 Stability AIのビジョンは、技術をすべての人にアクセス可能にすることに着実に根ざしており、StableCodeはその方向に向けた重要な一歩です。AIによるコーディング支援を民主化することにより、Stability AIはさまざまなバックグラウンドを持つ個人がコーディングを通じて問題解決のための技術の力を活用する扉を開きます。このアプローチにより、グローバルな技術競争の場を均等にし、コーディングリソースへの平等なアクセスを提供することが可能となります。技術とますます結びついている世界で、StableCodeはシンプルさとエンパワーメントのツールとして浮かび上がります。Cutting-edgeなAIの機能とアクセシビリティへの取り組みを融合させることで、Stability AIは次世代のソフトウェア開発者の道を開拓しています。これらの開発者は単にコーディングを学ぶだけでなく、技術が制約を持たない未来に貢献することになるでしょう。

「AWSでAIベースの企業検索を設計する方法」

AWSを使用した自然言語処理と高度な機械学習を活用したインテリジェントなエンタープライズ検索機能の設計のステップバイステップガイド

メタファーAPI：LLM向けに構築された革命的な検索エンジン

インターネットは、誰もがどんなトピックに関しても最新の情報にアクセスできるユートピアでした。しかし、ユーザーの注意を引くための激しい競争がサイトを歪めました。Metaphorチームは、これがGoogle検索の低下に最も顕著に現れていると信じています。結果のトラフィックを生かすためにGoogleの検索結果で上位にランキングすることは非常に重要であり、それには検索エンジン最適化という業界があります。その結果、ウェブサイトは最高のコンテンツを持つことよりも、Googleの検索結果でより高いランキングを獲得するために激しく競い合っています。例えば、「ナスパルメザンのレシピ」といった比較的簡単なクエリでもです。 Metaphorチームは、巨大な言語モデルの力を利用して検索の魅力を取り戻すことを目指しました。GPT3などの進歩がこれが可能であると彼らに希望を与えました。彼らはスタートアップ投資を得て、GPUクラスターを購入し、検索を向上させるために取り組みました。インターネット検索を行う際に、人類の知識の総量に手を引かれているような感覚を作り出すことを目指しています。グループはMetaphor APIを導入しました。これは、LLMをウェブと統合するための統一されたインタフェースです。以下の数行のコードを使用できます: キーワードまたはメタファーの検索を試してみてください解析されたHTMLが即座に返されます。ウェブをスクレイピングする必要はありません。メタファー検索を行う場合、トランスフォーマーベースのモデルがクエリに最も関連性の高いリンクを予測するために使用されます。主な違いは、Metaphorでは返される結果がユーザーの具体的な照会により合わせてカスタマイズされていることです。例えば「AIポッドキャスト」とGoogleに入力すると、「The 11 Best AI Podcasts」といったリンクが表示されますが、Metaphorでは品質と関連性によってニューラルに整理された実際のポッドキャストが表示されます。チームのニューラルネットワークはこのようなテキストを認識し、次のリンクを予測するように訓練されています。その結果、必要なものをオンラインで見つけるための新しいアプローチが生まれ、見つけたリンクを共有する行為を模倣します。初めはわかりにくいかもしれませんが、この方法で行われる検索は関連性の高い有益な結果を生み出すことがあります。以下はいくつかの検索オプションです: 検索を通じて説明したり感じたりする。希望する種類のエンティティのみを検索します。キーワードが最適なアプローチでないか、検索エンジンがそれを高く評価する必要がないため、Googleが目立たせていないコンテンツを見つけます。検索のリンクと類似したリンクをさらに探します。主な特徴 Metaphorはリンクの予測機能にトランスフォーマーベースのアーキテクチャを使用しています。これにより、通常の言語の表現力を活用した検索が行われます。任意のウェブページに対して、リッチな解析されたHTMLを即座に返します。ウェブスクレイピングは問題ありません。利用可能な基準を使用して、検索を時間枠やドメインで絞り込むことができます。使いやすく、PythonとNodeのSDKが付属しています。すべてをGPTに任せる方法については、ガイドをご覧ください。インデックスの任意のページのコンテンツを即座に返すことができます。より多くの結果が返され、LLMがそれらを整理できます。価格はBing…

「境界を超える：LLMsの関数呼び出しの探求」

関数呼び出しは、大規模な言語モデルと外部ツールやAPIのシームレスな統合の道を開拓する方法です

トランスフォーマーによるOCRフリーの文書データ抽出（2/2）

ドーナツとPix2Structトランスフォーマーモデルは、ドキュメントをどれだけ理解していますか？トレーニング方法と、キーインデックス抽出のタスクにおける結果を比較する方法を示します

「Google LLMは、ドキュメントを読むだけでツールをマスターできる」

急速な技術の進歩の時代において、人工知能（AI）は時折、人間のような驚異的な進歩を遂げています。Googleの研究者たちは画期的な成果を発表しました。大規模言語モデル（LLM）は、単なるツールのドキュメントを手助けにするだけで、機械学習（ML）モデルとAPIを活用することができるようになりました。この発見により、AIと人間のような能力の融合についての議論が巻き起こりました。また読む：人工知能 vs 人間の知能：トップ7の違いオードリー効果：AIに自転車の乗り方を教える 4歳のオードリーという名前の子供に自転車の乗り方を教えることを想像してみてください。初めは補助輪から始め、さまざまなシナリオを通じて彼女を導き、最終的にはオードリーが自信を持って乗るようになります。同様に、Googleの研究者たちはドキュメントを通じてLLMにツールの機能を紹介し、事前のトレーニングなしにこれらのツールを操作することができるようにしました。まるでオードリーが本でそれについて読んで自転車の乗り方を学んだかのような、印象的で独立した方法です。また読む：メタがテキスト、画像、音声を同時にトレーニングしたAIモデルをオープンソース化デモからドキュメントへ：新しい光でAIを教える歴史的には、AIモデルはデモンストレーション（デモ）を通じてツールを学習していました。多くの例が必要でした。Googleの画期的な手法はこれを変えました。彼らはツールのドキュメント（ドキュメント）を使用してLLMに教え、各使用ケースをデモする代わりにツールの機能を説明しました。この新しい手法は、AIがツールの理解を拡大し、効果的にツールの機能を探索する能力を高めることを目指しています。 AIの卒業：多岐にわたるタスクこの新しい手法の力を評価するために、Googleの研究者はLLMをさまざまなタスクに従事させました。これには、マルチモーダルな質問応答、表形式の数学的推論、マルチモーダルな推論、APIの未知の使用、画像編集、ビデオトラッキングなどが含まれます。ChatGPTとして知られるモデルは徹底的にテストされ、その結果は驚くべきものでした。また読む：AIは今や見たり聞いたりできる：マルチモーダルAIの世界へようこそパフォーマンスの公開：ツール+ドキュメント vs デモ Googleの実験により、ドキュメントがLLMのパフォーマンスに与える影響が明らかになりました。ツールのドキュメントを持っている場合、モデルのパフォーマンスはデモの数が減少しても一定の水準を保ちます。ただし、ツールのドキュメントがない場合、モデルのパフォーマンスはデモの数の変動に対して脆弱になります。これは、ドキュメントが多目的なツールの利用能力を備えたAIモデルに与える重要な役割を示しています。また読む：GPTBotの公開：WebをクロールするOpenAIの大胆な動き AIの驚異的な偉業：ツールのドキュメントの力特筆すべきことに、ツールのドキュメントは人工知能の訓練と開発において画期的な変化をもたらします。研究者たちは、ツールのドキュメントだけで駆動されるLLMが、画像編集やビデオトラッキングなどのタスクにおいて最近のビジョンモデルを巧みに使用できることを実証しました。この成果により、ツールの使用が簡素化され、AIの自律的な知識の発見の可能性が示唆されます。ただし、ドキュメントの長さが600語を超えると、モデルの制約が明らかになります。未来への一瞥：影響と発見ツールの使用に加えて、Googleの調査結果は、ツールのドキュメントを通じた自動的な知識の発見への飛躍を意味しています。この研究は、AIの認知能力とツールの利用能力との間のギャップを埋めるものです。追加のデモンストレーションなしで人気のあるプロジェクトを再現することにより、AIの未来は限りなく広がり、その推論能力の新たな次元を明らかにする可能性があります。私たちの意見 Googleの研究は、AIの驚異的な進化を示し、可能性の範囲を広げるものです。人工知能がツールのドキュメントを通じてMLモデルとAPIをマスターすることで、効率性の向上だけでなく、AIシステム内での自己発見の可能性を解き明かします。AIとツールのドキュメントの交差点は、人間のような能力と技術的な優位性が出会う領域への重要な一歩です。

このAI研究は、多モーダル大規模言語モデル（LLM）の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています

コーヒーを飲みたいと思った場合、ロボットに作ってもらうように指示することを想像してください。指示には「コーヒーのカップを作ってください」というものが含まれますが、「台所に行って、コーヒーマシンを見つけて、スイッチを入れてください」といった手順の指示は含まれていません。現在の既存システムには、対象のオブジェクトを特定するために人間の指示に依存するモデルが含まれています。これらのシステムには、ユーザーの意図の推論と積極的な理解の能力が欠けています。これを解決するために、マイクロソフトリサーチ、香港大学、およびSmartMoreの研究者たちは、推論セグメンテーションという新しいタスクを提案しています。この自己推論の能力は、次世代の知覚システムの開発において重要です。推論セグメンテーションは、複雑で暗黙のクエリテキストに対して出力をセグメンテーションマスクとして設計することを含みます。彼らはまた、推論と世界知識を含む1000以上の画像-指示のペアからなるベンチマークを作成し、評価のためのワールド知識と推論を備えたLanguage Instructed Segmentation Assistant（LISA）というGoogle AssistantやSiriに似たアシスタントを構築しました。LISAは、マルチモーダル大規模言語モデルの言語生成能力を継承しながら、セグメンテーションタスクを生成する能力を処理することができます。 LISAは、複雑な推論、世界知識、説明的な回答、および複数の会話を処理することができます。研究者は、彼らのモデルが推論フリーのデータセットでトレーニングされた場合でも堅牢なゼロショット能力を示すことができると述べています。たった239の推論セグメンテーション画像-指示ペアだけでモデルを微調整すると、パフォーマンスが向上します。推論セグメンテーションタスクは、以前の参照セグメンテーションとは異なり、モデルが推論能力を持ち、世界知識にアクセスする必要があります。モデルがタスクをうまく実行するためには、クエリを完全に理解する必要があります。研究者たちは、彼らの方法が複雑で標準的な推論に比べて効果的な新しい推論セグメンテーションを解き明かすことを示しています。研究者は、推論セグメンテーションのサンプルを含まないトレーニングデータセットを使用しました。このデータセットには、クエリテストで明示的にターゲットオブジェクトが示されているインスタンスのみが含まれています。複雑な推論のトレーニングデータセットがなくても、彼らはLISAがReasonSeg（ベンチマーク）で印象的なゼロショット能力を示すことを発見しました。研究者は、LISAが20％以上のgIoUパフォーマンス向上を達成する複雑な推論タスクを達成することを見つけました。ここで、gIoUはすべての画像ごとのIntersection-over-Union（IoU）の平均です。彼らはまた、LISA-13Bが長いクエリシナリオで7Bを上回ることも発見しました。これは、より強力なマルチモーダルLLMがパフォーマンスのさらなる向上をもたらす可能性があることを意味しています。研究者はまた、彼らのモデルがバニラの参照セグメンテーションタスクにも適任であることを示しています。彼らの今後の研究では、本当に知的な感知システムを構築するために重要な自己推論の能力にさらに重点を置く予定です。ベンチマークの確立は評価において重要であり、コミュニティに新しい技術を開発することを促します。論文とGithubをチェックしてください。この研究における研究者には、このプロジェクトでのすべての功績があります。また、最新のAI研究ニュースやクールなAIプロジェクトなどを共有している28k+のML SubReddit、40k+のFacebookコミュニティ、Discordチャンネル、およびEメールニュースレターにも参加するのをお忘れなく。この記事は、MarkTechPostに最初に掲載されたものです。

AdaTape 適応計算とダイナミックな読み書きを持つ基礎モデル

Googleの研究インターンであるFuzhao Xueと研究科学者であるMostafa Dehghaniによって投稿されました。適応的計算とは、機械学習システムが環境の変化に応じてその動作を調整する能力を指します。従来のニューラルネットワークは固定の機能と計算能力を持っており、すべての入力に対して同じ数のFLOPを使用して処理します。一方、適応的かつ動的な計算を持つモデルは、入力の複雑さに応じて各入力の処理に割り当てる計算予算を変調します。ニューラルネットワークにおける適応的計算は、2つの主要な理由で魅力的です。まず、適応性を導入するメカニズムは、いくつかの難解なタスクを解決する上で重要な役割を果たす帰納的バイアスを提供します。たとえば、異なる入力に対して異なる計算ステップ数を許可することは、異なる深さの階層をモデリングする必要がある算術問題の解決に重要です。次に、動的な計算によって提供される柔軟性によって、推論のコストを調整する能力が実践者に与えられます。これらのモデルは新しい入力の処理により多くのFLOPを使用するように調整できるためです。ニューラルネットワークは、さまざまな入力に対して異なる関数または計算予算を使用することで適応的になります。ディープニューラルネットワークは、入力とパラメータに基づいて結果を出力する関数として考えることができます。適応的関数タイプを実装するために、一部のパラメータは入力に基づいて選択的に活性化されます。このプロセスは条件付き計算と呼ばれます。関数タイプに基づく適応性は、ミクスチャーオブエキスパートの研究で探求され、各入力サンプルの希薄に活性化されたパラメータはルーティングによって決定されます。適応的計算の研究のもう一つの領域は、動的な計算予算です。T5、GPT-3、PaLM、ViTなどの標準的なニューラルネットワークとは異なり、最近の研究では、変動的な計算予算がトランスフォーマーの課題でのパフォーマンス向上につながることが示されています。これらの研究の多くは、トランスフォーマーレイヤーの数に基づいて計算予算を割り当てることによって適応性を実現しています。たとえば、Adaptive Computation Time（ACT）アルゴリズムは、リカレントニューラルネットワークに対して適応的な計算予算を提供するために提案されました。ユニバーサルトランスフォーマーは、ACTアルゴリズムをトランスフォーマーに拡張し、各入力例またはトークンに使用されるトランスフォーマーレイヤーの数に応じて計算予算を割り当てます。PonderNetなどの最近の研究は、同様のアプローチを採用しながら、動的な停止メカニズムを改善しています。「Elastic Input Sequenceを使用した適応的計算」という論文では、適応的計算を利用する新しいモデル、AdaTapeを紹介しています。このモデルは、適応的計算の前のアプローチと比較して、独自の視点で柔軟な入力シーケンスを作成するためのトランスフォーマーベースのアーキテクチャです。AdaTapeは、入力の複雑さに基づいて追加される可変サイズのテープトークンのシーケンスを動的に選択するために、適応的なテープ読み取りメカニズムを使用します。AdaTapeは実装が非常に簡単であり、必要に応じて精度を向上させるための効果的なツマミを提供しますが、モデルの深さではなく入力シーケンスに適応性を直接注入するため、他の適応基準と比較して効率的です。最後に、AdaTapeはイメージ分類などの標準的なタスクだけでなく、アルゴリズムのタスクでも優れたパフォーマンスを提供し、品質とコストのトレードオフを維持します。適応的計算トランスフォーマーと弾性入力シーケンス AdaTapeは、適応的な関数タイプと動的な計算予算の両方を使用します。具体的には、トークン化後の入力シーケンスのバッチ（たとえば、ビジョントランスフォーマーのイメージからの非重複パッチの線形射影）に対して、AdaTapeは各入力を表すベクトルを使用して可変サイズのテープトークンのシーケンスを動的に選択します。 AdaTapeは、「テープバンク」と呼ばれるトークンのバンクを使用して、モデルと適応的なテープ読み取りメカニズムを介して相互作用するすべての候補テープトークンを保存します。テープバンクを作成するための2つの異なる方法を探求しています：入力駆動型バンクと学習可能なバンク。入力駆動型バンクの一般的なアイデアは、元のモデルのトークナイザーとは異なるアプローチを使用して、入力からトークンのバンクを抽出することです。これにより、異なる解像度の画像や異なる抽象度の情報など、異なる視点から入力からの情報への動的なオンデマンドアクセスが可能になります。一部の場合、異なる抽象度のトークン化は不可能であり、入力駆動型テープバンクは実現不可能です。これに対処するために、AdaTapeは学習可能なベクトルセットを使用してテープバンクを生成するより一般的なアプローチを提供します。このアプローチは学習可能なバンクと呼ばれ、モデルは入力例の複雑さに基づいてトークンを動的に取得する埋め込み層と見なすことができます。学習可能なバンクにより、AdaTapeはより柔軟なテープバンクを生成し、各入力例の複雑さに基づいて計算予算を動的に調整する能力を提供します。つまり、より複雑な例はバンクからより多くのトークンを取得することができるため、モデルはバンクに格納された知識を利用するだけでなく、それを処理するためにより多くのFLOPを使用することができます。最後に、選択されたテープトークンが元の入力に追加され、次のトランスフォーマーレイヤーに供給されます。各トランスフォーマーレイヤーでは、すべての入力トークンとテープトークンに対して同じマルチヘッドアテンションが使用されます。ただし、2つの異なるフィードフォワードネットワーク（FFN）が使用されます。1つは元の入力のすべてのトークン用であり、もう1つはすべてのテープトークン用です。入力トークンとテープトークン用に別々のフィードフォワードネットワークを使用することで、わずかに良い品質が得られることが観察されました。 AdaTapeの概要。異なるサンプルに対して、テープバンクから異なる数のトークンを選択します。テープバンクは、入力から追加の詳細情報を抽出することなどで駆動することができます。またはトレーニング可能なベクトルのセットであることもあります。適応的なテープ読み取りは、異なる入力に対して、可変長の異なるテープトークンのシーケンスを再帰的に選択するために使用されます。これらのトークンは、単純に入力に追加され、トランスフォーマーエンコーダに供給されます。 AdaTapeは有用な帰納バイアスを提供します AdaTapeを標準のトランスフォーマーと比較するために、標準のトランスフォーマーには解けない非カウンターフリーまたは周期的な正規言語であるパリティタスクを用いて、AdaTapeを評価します。パリティタスクでは、1と0、-1のシーケンスが与えられた場合、モデルはシーケンス内の1の数の奇数または偶数を予測する必要があります。パリティは最も単純な非カウンターフリーまたは周期的な正規言語ですが、標準のトランスフォーマーではこのタスクは解けません。パリティタスクの評価。標準のトランスフォーマーとユニバーサルトランスフォーマーはこのタスクを実行できず、ランダムな推測ベースラインと同等のパフォーマンスを示しました。短くてシンプルなシーケンスで評価されたにもかかわらず、標準のトランスフォーマーやユニバーサルトランスフォーマーはパリティタスクを実行できず、モデル内でカウンタを維持することができません。しかし、AdaTapeは、入力選択メカニズム内に軽量の再帰を組み込んでいるため、カウンタの暗黙的な維持を可能にする帰納バイアスを提供し、すべてのベースラインを上回ります。これは、標準のトランスフォーマーでは不可能です。画像分類の評価…

AIの力：機械学習アプリケーションの効率的な展開とスケーラビリティのためのDockerの活用

Dockerの力を活用する：機械学習モデルの展開ソリューションを合理化し、スケーラビリティを確保し、CI/CDプロセスを簡素化する

Learn more about Search Results ML - Page 304