Learn more about Search Results MarkTechPost - Page 151
- You may be interested
- 「NVIDIA Studio内のコンテンツ作成が、新...
- 科学者たちは、エイジ・オブ・エンパイア...
- 「CutLER(Cut-and-LEaRn):人間の注釈な...
- JavaScriptを使用したクライアントサイド...
- 正しい選択をすること:AIのアドバイス、...
- Google Pixel Watchが落下を検知する方法
- 数千の著者がAI企業に対し、無断での作品...
- 「Githubの使い方?ステップバイステップ...
- 「競合するアジェンダがオンラインコンテ...
- 「LLM(法務修士)のプロンプトアーキテク...
- 「公正なAIアルゴリズムを活用した先進テ...
- データサイエンティストとしてJavaScript...
- 言語モデルの未来:ユーザーエクスペリエ...
- 「Stack Overflowは、OverflowAIによって...
- ChatGPTの基礎を学ぶための優れたリソース
ベクトルデータベースについてのすべて – その重要性、ベクトル埋め込み、および大規模言語モデル(LLM)向けのトップベクトルデータベース
大型言語モデルは近年、著しい成長と進化を遂げています。人工知能の分野は、これらのモデルの新たなリリースごとにブームを巻き起こしています。教育や金融、医療やメディアなど、LLMはほぼすべての領域に貢献しています。GPT、BERT、PaLM、LLaMaなどの有名なLLMは、人間を模倣することでAI産業を革新しています。OpenAIによって開発されたGPTアーキテクチャに基づく有名なチャットボットChatGPTは、正確で創造的なコンテンツの生成、質問への回答、大量のテキスト段落の要約、言語翻訳など、人間を模倣しています。 ベクトルデータベースとは何ですか? AIと機械学習の分野で急速に人気を集めている新しい独特なタイプのデータベースがベクトルデータベースです。従来のリレーショナルデータベース(最初は行と列で表形式のデータを格納するために設計されたもの)や、JSONドキュメントでデータを格納する最近のNoSQLデータベース(例:MongoDB)とは異なる性質を持つためです。ベクトルデータベースは、ベクトル埋め込みのみを格納および検索するために設計された特殊なデータベースです。 大型言語モデルと新しいアプリケーションは、ベクトル埋め込みとベクトルデータベースに依存しています。これらのデータベースは、ベクトルデータの効果的な格納と操作のために作られた専用のデータベースです。ベクトルデータは、点、線、およびポリゴンを使用して空間内のオブジェクトを記述するために使用され、コンピュータグラフィックス、機械学習、地理情報システムなど、さまざまな産業で頻繁に使用されています。 ベクトルデータベースは、ベクトル埋め込みに基づいており、これはAIシステムがデータを解釈し、長期的なメモリを保持するのに役立つ意味情報を持つデータの一種です。これらの埋め込みは、MLプロセスの一環として生成されたトレーニングデータの縮小バージョンです。これらは機械学習の推論フェーズで新しいデータを実行するために使用されるフィルタとして機能します。 ベクトルデータベースでは、データの幾何学的な特性を使用して組織化および格納します。各アイテムは、空間内の座標とその特性を与える他のプロパティによって識別されます。たとえば、ベクトルデータベースは、GISアプリケーションで町、高速道路、川などの地理的な特徴の詳細を記録するために使用される可能性があります。 ベクトルデータベースの利点 空間インデックス:ベクトルデータベースは、Rツリーやクアッドツリーなどの空間インデックス技術を使用して、近接や制約などの地理的な関係に基づいてデータの検索を可能にします。これにより、ベクトルデータベースは他のデータベースよりも優れた性能を持つことができます。 多次元インデックス:ベクトルデータベースは、空間インデックスに加えて、追加のベクトルデータの特性に対してインデックスをサポートすることができます。これにより、非空間属性に基づいた効果的な検索とフィルタリングが可能となります。 幾何学的な操作:ベクトルデータベースには、交差、バッファリング、距離計算などの幾何学的な操作のための組み込みサポートが頻繁にあります。これは、空間分析、ルーティング、マップの可視化などのタスクに重要です。 地理情報システム(GIS)との統合:ベクトルデータベースは、効率的な空間データの処理と分析によく使用され、GISソフトウェアやツールと組み合わせて使用されます。 LLMの構築に最適なベクトルデータベース 大型言語モデルの場合、ベクトルデータベースは、LLMのトレーニングから得られるベクトル埋め込みの格納に主に使用されています。 Pinecone – Pineconeは、優れたパフォーマンス、スケーラビリティ、複雑なデータの処理能力を備えた強力なベクトルデータベースです。ベクトルへの即時アクセスとリアルタイムの更新が必要なアプリケーションに最適であり、迅速かつ効率的なデータの検索に優れています。 DataStax – DataStaxのAstraDBは、アプリケーション開発を加速するためのベクトルデータベースです。AstraDBはCassandra操作との統合、およびAppCloudDBとの連携により、アプリの構築を簡素化し、効率的なデータの取得を自動的にさまざまなクラウドインフラストラクチャ上でスケーリングすることができます。 MongoDB – MongoDBのAtlas Vector Search機能は、生成的AIと意味検索の統合における重要な進歩です。ベクトル検索機能の統合により、MongoDBはデータ分析、推奨システム、自然言語処理などの作業を開発者が行えるようにします。Atlas…
Magic123とは、高品質で高解像度の3Dジオメトリとテクスチャを生成するために、二段階の粗-細最適化プロセスを使用する新しい画像から3Dへのパイプラインです
2次元の世界しか見ることができないにもかかわらず、人間は3次元の環境でナビゲーションしたり、思考したり、相互作用したりする能力に長けています。これは、人間の本質的な認識能力の一環である3D環境の特性や動作に対する深く根付いた認識を示唆しています。単一の写真から詳細な3D再現を作成できるアーティストは、このスキルを新たなレベルに引き上げています。一方で、数十年にわたる研究と進歩にもかかわらず、非構造化画像からの3D再構築、ジオメトリとテクスチャの生成を含む、3D再構築は、コンピュータビジョンにおいて未解決である問題です。最近のディープラーニングの進展により、多くの3D生成活動は学習ベースで行うことができるようになりました。 ディープラーニングは画像の識別と生成において大きな進歩を遂げていますが、現実世界の特定の課題である単一画像からの3D再構築においては、さらなる改善が必要です。人間と機械の3D再構築能力の大きなギャップは、以下の2つの主要な問題に原因があるとされています:(i) 大規模な3Dジオメトリの学習を妨げる大規模な3Dデータセットの不足、および (ii) 3Dデータに取り組む際の詳細レベルとコンピュータリソースのトレードオフ。この問題を解決するための一つの戦略として、2Dの事前知識を利用する方法があります。オンラインには豊富な実際の2D画像データがあります。CLIPやStable Diffusionなどの最先端の画像解釈と生成アルゴリズムを訓練するための最も包括的なテキスト-画像ペアのデータセットの一つがLAIONです。 2D生成モデルの一般化能力の向上に伴い、2Dモデルを事前知識として使用した3D素材の作成に関する戦略が増加しています。DreamFusionは、テキストから3D作成のためのこの2D事前知識ベースの技術を先駆的に開発しました。この手法は、ゼロショットの状況でユニークな視点を指示し、ニューラル輝度場(NeRF)を強化する驚異的な能力を示しています。DreamFusionを基にした最近の研究では、RealFusionやNeuralLiftを使用して、これらの2D事前知識を単一の画像からの3D再構築に適応しようと試みています。別の戦略として、3D事前知識を使用する方法もあります。以前の取り組みでは、トポロジカル制約などの3D事前知識が3D作成を支援するために使用されました。これらの手作りの3D事前知識は一部の3Dコンテンツを作成することができますが、より良い3Dコンテンツを作成することができます。 最近、2D拡散モデルがビュー依存性に変更され、このビュー依存性拡散がZero-1-to-3や3Dimなどの3D事前知識として使用されました。彼らの行動分析によると、2D事前知識と3D事前知識の両方には利点と欠点があります。3D事前知識に比べて、2D事前知識は3D作成において優れた一般化能力を持っており、図1のドラゴン像の例で示されています。2D事前知識に完全に依存するアプローチは、限られた3D理解力のために最終的に3Dの精度と一貫性を失い、多くの面(ジャヌスの問題)、異なるサイズ、不均一なテクスチャなどの非現実的なジオメトリ結果をもたらします。図1のテディベアの例は失敗例です。 しかし、3Dトレーニングデータの量が少ないため、野外再構築には3D事前知識への厳しい依存以上のものが必要です。その結果、図1に示すように、3D事前知識を基にした解決策は一般的なアイテム(上段のテディベアの例など)をうまく処理できますが、より頻度の低いものには苦労し、単純化しすぎて場合によっては平坦な3Dジオメトリ(左下のドラゴン像など)を生成します。この研究では、King Abdullah University of Science and Technology(KAUST)、Snap Inc.、およびVisual Geometry Group、University of Oxfordの研究者たちは、2Dまたは3D事前知識に単純に依存するのではなく、画像から3D作成において革新的な視点を導くために両方の事前知識を同時に使用することを推進しています。2Dと3Dの事前知識の間の有用なトレードオフパラメータを変化させることで、生成された3Dジオメトリにおける探索と活用のバランスを制御することができます。 図1は、Magic123の2Dと3Dの事前情報のトレードオフを示しています。テディベア(頻繁に出現するアイテム)、積み重ねられたドーナツ2つ(あまり一般的ではないもの)、ドラゴンの像(一般的ではないオブジェクト)の3つのシナリオについて、単一画像の再構築を比較しています。右側に示されているように、2Dの背景のみを持つMagic123は、幾何学的な探索を重視し、より創造性のある3Dマテリアルを作成しますが、一貫性が低いかもしれません。一方、3Dの事前情報のみを持つMagic123(左側)は、幾何学的な利用を優先し、正確ですがより単純なジオメトリと特徴の少ないものになります。 2Dの事前情報を優先することで、各2D画像の部分的な3D情報を補完し、創造的な3Dスキルを向上させることができます。ただし、これにより3Dジオメトリの正確性が低下する可能性があります。一方、3Dの事前情報を優先すると、より3D制約のある解とより正確な3Dジオメトリが得られますが、創造性が低下し、困難で異常な状況に対して適切な解を見つける能力が低下する可能性があります。彼らはMagic123を提案し、2Dと3Dの事前情報の両方を使用する2段階の細粒度最適化手法を使用して、高品質な3D出力を生成する最先端の画像から3Dへのパイプラインを提供します。 彼らは粗い段階でニューラル放射場(NeRF)を洗練させます。NeRFは複雑なジオメトリを学習するための暗黙のボリューム表現を効果的に学習します。ただし、NeRFは多くのメモリを使用するため、低解像度の生成画像が拡散モデルに送信され、画像から3Dへのプロセスの出力品質が低下します。より効率的なリソースであるInstant-NGPは、16GBのメモリGPU上で128×128の解像度の画像から3Dへのパイプラインに制限されています。そのため、彼らは第2のステップを追加し、メモリ効率の良いテクスチャ分解されたSDF-Meshハイブリッド表現であるDeep Marching…
Google AIがFlan-T5をオープンソース化 NLPタスクにおいてテキスト対テキストアプローチを使用するトランスフォーマーベースの言語モデル
大規模な言語モデル、例えばPaLM、Chinchilla、およびChatGPTは、自然言語処理(NLP)のタスクを実行する新たな可能性を開いています。先行研究では、指示に基づくさまざまなNLPタスクで言語モデルを微調整する指示調整が、指示を与えられた未知のタスクを実行する能力をさらに向上させることが示されています。本論文では、オープンソースの指示一般化イニシアティブのアプローチと結果を比較し、彼らの微調整手順と戦略を評価しています。 この研究では、指示調整方法の詳細に焦点を当て、個々の要素を取り除いて直接比較しています。彼らは、「Flan 2022 Collection」という用語で、データ収集やデータと指示調整プロセスに適用される手法に焦点を当て、Flan 2022をPaLM 540Bと組み合わせた新興かつ最先端の結果に重点を置いたデータ収集の最も包括的なコレクションを公開しています。このコレクションには、数千のプレミアムなテンプレートとより良いフォーマットパターンが追加されています。 彼らは、評価ベンチマークのすべてで、このコレクションで訓練されたモデルが、オリジナルのFlan 2021 their、T0++ their、Super-Natural Instructions their、およびOPT-IML theirのような他の公開コレクションよりも優れたパフォーマンスを発揮することを示しています。同じサイズのモデルにおいて、MMLUおよびBIG-Bench Hardの評価ベンチマークにおいて4.2%以上および8.5%の改善が見られます。Flan 2022のアプローチの分析によると、これらの堅牢な結果は、より大きくより多様なタスクのコレクションと、ゼロショット、フューショット、およびチェーンオブソートのプロンプトを使用したトレーニングなど、いくつかの直感的な戦略による微調整とデータ拡張の結果であると言えます。 例えば、フューショットプロンプトの10%の増加は、ゼロショットプロンプトの結果を2%以上改善します。また、入出力対の反転を行うことでタスクのソースをバランスさせ、タスクの多様性を向上させることが、パフォーマンスにとって重要であることも示されています。シングルタスクの微調整では、得られたFlan-T5モデルはT5モデルよりも収束が速く、より優れた性能を発揮するため、指示調整済みのモデルは後続のアプリケーションにおいてより効率的な計算的な出発点を提供します。これらの結果とツールを公開することで、指示の調整に利用できるリソースが効率的になり、より汎用性の高い言語モデルの開発を加速することが期待されています。 本研究の主な貢献は以下の通りです: • 方法論的な貢献:ゼロショットおよびフューショットのキューを混合してトレーニングすることで、両環境で有意に優れた結果を生み出すことを示す。 • 効率的な指示調整のための主要な手法を測定および示し、セクション3.3のスケーリング、入力反転を使用したタスクの多様化の向上、チェーンオブソートのトレーニングデータの追加、およびさまざまなデータソースのバランスを取ることを含む。 • 結果:これらの技術的な決定により、利用可能なオープンソースの指示調整コレクションと比較して、保留中のタスクパフォーマンスが3〜17%向上します。 •…
次元をパンプアップせよ:DreamEditorは、テキストプロンプトを使って3Dシーンを編集するAIモデルです
最近、3Dコンピュータビジョンの領域はNeRFで溢れていました。それらは画期的な技術として登場し、シーンの新しいビューの再構築と合成を可能にしました。NeRFは、複数の視点画像のコレクションから基礎となるジオメトリと外観情報をキャプチャしモデル化します。 NeRFはニューラルネットワークを活用することで、従来の方法を超えるデータ駆動型のアプローチを提供します。NeRF内のニューラルネットワークは、シーンのジオメトリ、照明、ビュー依存の外観との複雑な関係を表現することを学び、高精細かつリアルなシーンの再構築を可能にします。NeRFの主な利点は、元の画像セットでキャプチャされていない領域を含め、シーン内の任意の視点から写真のようなリアルな画像を生成できる能力にあります。 NeRFの成功は、コンピュータグラフィックス、仮想現実、拡張現実において新たな可能性を切り開き、現実世界のシーンに近い没入型でインタラクティブな仮想環境の作成を可能にしました。そのため、NeRFをさらに進化させるための領域内での真剣な関心が存在します。 NeRFのいくつかの欠点は、現実世界のシナリオでの適用範囲を制限しています。たとえば、ニューラルフィールドの編集は、高次元のニューラルネットワーク特徴内での形状とテクスチャ情報の暗黙の符号化により、大きな課題となります。一部の方法では、この問題に取り組むために探索的な編集技術を使用しましたが、これらは広範なユーザーの入力を必要とし、正確で高品質な結果を得るのに苦労します。 NeRFの編集可能性は、現実世界のアプリケーションに新たな可能性を開くことができます。しかし、今までの試みは問題を解決するには十分に良い結果ではありませんでした。しかし、私たちには新しいプレーヤーが登場しました。その名はDreamEditorです。 DreamEditorは3D NeRFの編集を可能にします。出典:https://arxiv.org/pdf/2306.13455.pdf DreamEditorは、テキストのプロンプトを使用して直感的かつ便利なニューラルフィールドの変更を可能にするユーザーフレンドリーなフレームワークです。メッシュベースのニューラルフィールドを使用してシーンを表現し、ステップバイステップの編集フレームワークを採用することで、再テクスチャリング、オブジェクトの置換、オブジェクトの挿入など、さまざまな編集効果を実現します。 メッシュ表現は、2Dの編集マスクを3Dの編集領域に変換することで、正確なローカル編集を容易にします。また、ジオメトリとテクスチャを分離することにより、過度な変形を防ぎます。ステップバイステップのフレームワークは、事前に学習された拡散モデルとスコア蒸留サンプリングを組み合わせることで、簡単なテキストのプロンプトに基づいた効率的かつ正確な編集を可能にします。 DreamEditorの概要。出典:https://arxiv.org/pdf/2306.13455.pdf DreamEditorは、直感的かつ正確なテキストによる3Dシーンの編集を容易にするために、3つの主要なステージを追います。最初のステージでは、元のニューラル放射フィールドをメッシュベースのニューラルフィールドに変換します。このメッシュ表現は、空間的に選択的な編集を可能にします。変換後、特定のシーンで訓練されたカスタマイズされたテキストから画像へ(T2I)モデルを使用します。このモデルはテキストのプロンプトとシーンの視覚的コンテンツとの間の意味関係を捉えます。最後に、編集された変更はT2I拡散モードを使用してニューラルフィールド内のターゲットオブジェクトに適用されます。 DreamEditor は高い忠実度とリアリズムを保ちながら、3Dシーンを正確かつ進行的に編集することができます。メッシュベースの表現から正確な位置特定、拡散モデルを介した制御された編集まで、段階的なアプローチによって、DreamEditor は関連性のない領域での不必要な変更を最小限に抑えながら、非常にリアルな編集結果を実現することができます。
この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています
トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語モデル(LLM)の探求に引き寄せました。さらに、ChatGPTの最近の成功と人気は、LLMへの人々の関心を高めるだけです。文脈に即した学習と連想によるプロンプティングという2つの主要な発見は、モデルの正確性を大幅に向上させました。これらの発見は、単純な質問応答を超えています。質問が含まれる入力プロンプトを使用して、合理的な回答を出力するために使用されます。 これらのプロンプティング戦術はパフォーマンス向上に効果的でしたが、現在のトランスフォーマーベースのLLMは固定された入力文字列の長さにのみ条件付けることができ、それによって表現できる計算が制限されます。これは、有限な長さの文字列に依存する決定論的言語モデルは計算上制約されているため、計算的に制限されているとも理解できます。これに対抗するため、研究者はLLMに外部フィードバックループを追加する可能性を調査してきました。ここで、モデルの出力はいくつかの事後処理の後に入力として供給されます。ただし、この方法がモデルの計算セットを大幅に拡大するかどうかという問題はまだ解決されていません。 Google Brainとアルバータ大学の研究者は、この問題に取り組むために協力しました。彼らはLLMに外部の読み書き可能なメモリを追加し、それが任意の入力で任意のアルゴリズムをエミュレートできることを検証しました。彼らの研究は、「メモリ増強型大規模言語モデルは計算上普遍的である」という論文でまとめられており、連想型の読み書き可能なメモリが付加されたLLMが計算上普遍的である方法を示しています。 研究者たちの選んだLLMはFlan-U-PaLM 540Bでした。研究の背後にあるアイデアは、LLMと連想メモリをリンクするために単純なストアドインストラクションコンピュータを使用することです。これにより、言語モデルに転送される出力と入力プロンプトがループで相互作用することが可能になります。外部の連想メモリは辞書と見なすことができ、キーと値のペアは変数名/アドレス場所と値です。言語モデルとメモリは、各パーシングステップを実行するために正規表現マッチを使用します。 その後、システムに宇宙チューリングマシンの実行をシミュレートするように指示する「プロンプトプログラム」が開発されます。最終的に、シミュレーションの信頼性を示すためには、限られた数のプロンプト-結果のパターンを調べ、言語モデルが各有限の可能な入力文字列に対して適切な出力を生成することを確認する必要があります。この研究が言語モデルの「トレーニング」や事前学習の重みの変更を伴わないという事実は、この仕事の主な強みの1つです。代わりに、構築は特定のプロンプトでプログラム可能なタイプのストアドインストラクションコンピュータの作成にのみ依存しています。 この分野の以前の研究とは異なり、この研究は特異です。主な違いは、研究者が外部メモリの増強を使用して、固定された言語モデルと固定された事前学習の重みを使用して普遍的な計算動作を引き出す方法を示したことです。その結果、大規模な言語モデルは、現在存在する限り、無限の外部メモリにアクセスできる限り、計算上普遍的であることが示されました。
小さな言語モデルでも高い性能を発揮できるのか?StableLMに会ってみてください:適切なトレーニングで高性能なテキストとコードを生成できるオープンソースの言語モデル
Stability AIは、Stable Diffusion画像生成AI技術で知られる人工知能のスタートアップ企業です。今日、Stability AIはStableLMという新しい無料かつオープンソースの言語モデルを発表しました。このモデルはアルファフェーズで3つの異なるパラメータサイズ(30億、70億、150億、650億)で提供されます。CC BY-SA-4.0ライセンスの規則により、開発者はStableLMの基本モデルを個人や商業プロジェクトで確認、利用、修正することができます。 独自のAIに対するオープンかつ拡張可能で透明性の高い代替手段を提供する画期的なStable Diffusion画像モデルは、2022年にStability AIの努力によって一般に公開されました。Stability AIはStableLMモデルセットをリリースし、基本的なAIの能力を民主化するという使命をさらに推進しています。StableLMモデルは、テキストやコードの生成能力を持つさまざまなアプリケーションを活性化させます。これらのモデルは、小規模で効率的なモデルが優れたパフォーマンスを発揮する方法を示しています。 チームの以前のEleutherAIという非営利研究ハブとのオープンソースの共同作業により、StableLMのリリースの基盤が整いました。Pileというオープンソースのデータセットを使用して、GPT-J、GPT-NeoX、およびPythiaスイートなど、いくつかの人気のある言語モデルをトレーニングしました。Cerebras-GPTやDolly-2は、これらの以前のモデルを拡張した多くの新しいオープンソースの言語モデルのうちの2つの例です。 StableLMを教えるために使用される実験用のデータセットは、The Pileをベースにしており、トークン数は1.5兆個で3倍の大きさです。1750億のパラメータを持つGPT-3に対して、StableLMはこのデータセットの豊富さにより、会話やコーディングのタスクにおいて予想外に優れたパフォーマンスを達成しています。データセットに関する情報は後日公開されます。 彼らは、教室での使用に最適化された研究モデルのコレクションをリリースしました。これらの洗練されたモデルは、最近リリースされたオープンソースの会話エージェントのデータセット(Alpaca、GPT4All、Dolly、ShareGPT、HH)のデータを最初に使用します。StanfordのAlpacaライセンスに従い、これらのチューニングされたモデルは学術研究用に非営利のCC BY-NC-SA 4.0ライセンスで利用できます。 StableLMは、以下の機能を通じて、オープンでアプローチ可能で支援的なAI技術の開発を目指すチームのビジョンを描いています: 透明性:研究者はパフォーマンスを確認し、解釈可能なアプローチを確立し、危険を特定し、セーフガードの作成を支援するために「中身を見る」ことができます。企業や政府機関は、個人情報を開示することなく、またAIの能力に対する権限を放棄することなく、これらのオープンソースモデルを自分たちのニーズに合わせて修正(または「調整」)することができます。 アクセシビリティ:チームは一般の人々が自分たちのデバイスでモデルを利用できるようにエッジに構築しています。わずかな数の企業の専用サービスに依存するのではなく、開発者はこれらのモデルを使用して、より広範な公開可能なハードウェアと連携するアプリケーションを作成することができます。このようにして、AIの経済的な利益は、多くのユーザーとクリエイターの間で分散されます。提案されたモデルはオープンかつ詳細であり、研究者や学術関係者が解釈性と安全性の面で閉じたモデルの制約を超えることができます。 支援的:これらのモデルは、顧客を置き換えるためではなく、顧客を支援するために作られています。チームは、超人的な知性を追求するのではなく、AIの特定のタスクを実行する能力を現実世界の文脈で向上させることに焦点を当てています。彼らは、一般の人々や企業がイノベーションを促進し、生産性を向上させ、経済の可能性を拡大するために、AIの潜在能力を活用するためのリソースを構築しています。 チームは、ユーザーが受け取る応答の品質が異なる場合があり、不快な言葉や意見が含まれる場合があることを強調しています。これは、微調整や強化学習を行っていない事前学習された大規模言語モデルの場合に共通するものです。スケール、増加するデータ、コミュニティのフィードバック、最適化などが大幅な改善につながる要素です。
大規模言語モデル(LLM)とは何ですか?LLMの応用と種類
コンピュータプログラムである大規模言語モデルは、テキストの解析や作成のための新しいオプションをソフトウェアに提供します。大規模言語モデルは、ペタバイト以上のテキストデータを使用してトレーニングされることが珍しくなく、そのサイズは数テラバイトになることもあります。モデルのパラメータは、以前のトレーニングデータから学習されたコンポーネントであり、テキスト生成などのタスクにおけるモデルの適性を確立します。音声認識、感情分析、テキスト要約、スペルチェック、トークンの分類など、自然言語処理(NLP)の活動は、言語モデルを基盤としています。言語モデルはテキストを分析し、ほとんどの自然言語処理のタスクで次のトークンの確率を予測することができます。ユニグラム、N-グラム、指数、およびニューラルネットワークは、言語モデルの有効な形式です。 LLMの応用 以下のチャートは、大規模言語モデル(LLM)の現状を機能、製品、およびサポートソフトウェアの面でまとめたものです。 画像の出典:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b シェルコマンドの生成 次世代ターミナルのWarpは、GPT-3を使用して自然言語を実行可能なシェル命令に変換します。GitHub Copilotのようなものですが、ターミナル向けです。 経験豊富なプログラマでも、シェルコマンドの構文を説明する必要がある場合があります。 正規表現の生成 開発者にとって正規表現の生成は時間がかかりますが、Autoregex.xyzはGPT-3を活用してこのプロセスを自動化します。 コピーライティング このタスクに最も人気のあるモデルはGPT-3ですが、BigScienceのBLOOMやEleuther AIのGPT-Jなどのオープンソースの代替品もあります。Copy ai、Copysmith、Contenda、Cohere、Jasper aiなどのスタートアップ企業は、この分野でアプリを開発しており、ブログ投稿、販売コンテンツ、デジタル広告、ウェブサイトのコピーなどの執筆を素早く容易にします。 分類 テキストを予め定義されたカテゴリに分類することは、教師あり学習の例です。クラスタリングという教師なし学習技術を用いることで、意味が似ているテキストを事前定義されたクラスなしでまとめることができます。 応答生成 応答生成は、サンプルの対話を使用して対話のフローを生成し、機械学習のアプローチを採用するアイデアです。ユーザーに提示される次の議論がモデルによって決定され、ユーザーの過去の応答と最も可能性の高い将来の会話を考慮に入れます。これを予測対話と呼びます。 テキストの生成 LLMの能力は、簡単な説明からテストを生成することで、「メタ能力」と見なされるかもしれません。ほとんどのLLMは生成の役割を果たします。フューショット学習データは、生成を大幅に向上させるだけでなく、データのキャスティングもデータの使用方法に影響を与えます。 知識応答 知識応答は、アプリケーションプログラミングインターフェース(API)のクエリや従来の知識ストアに頼ることなく、一般的なクロスドメインの問い合わせに対する応答を可能にする知識重視の自然言語処理(KI-NLP)の応用です。 知識重視の自然言語処理はウェブ検索ではなく、意味検索をサポートする知識ベースです。…
人工知能の未来を形作る:進歩と革新のための迅速なエンジニアリングの重要性
ChatGPTはリリース当日から話題になっています。革新的なチャットボットを既に100万人以上のユーザーが利用しています。ChatGPTは、異なる質問に対応し、広範なトピックに関する情報を生成するためにOpenAIによってトレーニングされた大規模な言語モデル(LLM)です。複数の言語を翻訳したり、ユーザー固有のユニークで創造的なコンテンツを生成したり、長いテキスト段落を要約したりすることができます。LLMは膨大なテキストデータでトレーニングされ、人間のような意味のあるテキストを生成します。さらに、ソフトウェアコードを生成する能力も持っています。大規模な言語モデルの主な利点の1つは、迅速に良質なテキストを便利かつ大規模に生成できることです。 プロンプトエンジニアリングとは何ですか? GPT-3に関して具体的に話すと、それは人間の思考と会話に達した最も近いモデルです。どのGPT-3アプリケーションを開発する場合も、適切なトレーニングプロンプトとそのデザイン、コンテンツが重要です。プロンプトは大規模な言語モデルに供給されるテキストです。プロンプトエンジニアリングは、モデルから満足のいく応答を得るためのプロンプトの設計に関わります。データ内のパターンやトレンドをモデルが見つけるために、適切なコンテキストの良質なトレーニングプロンプトをモデルに提供することに焦点を当てています。 プロンプトエンジニアリングは、機械に好ましい結果をもたらす可能性のある入力を指示する概念です。要するに、モデルに何を行う必要があるかを伝えることを含みます。例えば、テキストからテキストへのチャットGPTモデルに提供されたテキストの要約を作成するように頼む場合や、テキストから画像へのDALL-Eモデルに特定の画像を生成するように頼む場合などがあります。そのために、タスクはプロンプトベースのデータセットに変換され、そのデータに基づいてモデルが学習し、パターンを理解します。 プロンプトの例は何ですか? プロンプトは、単語や大きな文の連なり、またはコードブロックなど、何でもあります。それはまるで学生に任意のトピックの記事を書くように指示することのようです。DALLE-2などのモデルでは、プロンプトエンジニアリングはAIモデルに必要な応答をプロンプトとして説明することを含みます。プロンプトは、単純な文(例:「ラザニアのレシピ」)や質問(例:「アメリカ合衆国の最初の大統領は誰ですか?」)から、複雑な要求(例:「データサイエンスの面接が明日あるため、私のためにカスタマイズされた質問のリストを生成してください」)まで、プロンプトとして文脈を提供することによって異なります。 プロンプトエンジニアリングがAIの良い未来にとってなぜ重要なのか。 精度の向上:プロンプトエンジニアリングにより、AIシステムの訓練が多様で代表的なデータセットに基づいていることが確認されるため、より正確なAIシステムが実現できます。これにより、トレーニングデータではうまく機能するがテストデータでは機能しない過適合などの問題を回避できます。 偶発的な結果の回避:不適切なプロンプトで訓練されたAIシステムは、偶発的な結果をもたらす可能性があります。例えば、猫の画像を識別するのに長けたAIシステムが、すべての白黒写真を猫と分類することで、精度の低い結果をもたらすことがあります。 責任あるAIの促進:プロンプトエンジニアリングにより、AIシステムが人間の価値観や倫理的原則に沿った結論を出すことができます。AIのトレーニングに使用されるプロンプトを注意深く設計することにより、システムは偏見のないものであり、有害なものになりません。 応用 自然言語処理:NLPでは、プロンプトエンジニアリングによって、AIシステムが人間の言語を理解し、適切に応答するためのプロンプトが作成されます。例えば、プロンプトを設計して、AIシステムが皮肉、皮肉ではない表現を区別することを学ぶようにすることができます。 画像認識:プロンプトエンジニアリングは、画像認識において、AIシステムがさまざまな画像データに基づいて訓練されていることを確認するために使用できます。これにより、AIシステムのオブジェクトや人物の分類の精度と一貫性が向上します。 チャットボットにおける感情分析:プロンプトエンジニアリングは、チャットボットが感情を理解するのに役立つプロンプトを設計します。例えば、チャットボットがポジティブな応答、ネガティブな応答、中立的な応答を区別するのに役立ちます。 医療:医療診断や治療などのAIシステムは、医療データを理解し、正確な診断を行うためのプロンプトで訓練されます。 人工知能(AI)は近年、進歩を遂げ、私たちの生活、仕事、技術との対話のあり方を変えてきました。AIが社会にポジティブな影響を続けるためには、プロンプトエンジニアリングの重要性を理解する必要があります。これは、AIシステムが安全で信頼性のあるシステムを構築するために設計されたプロンプトで訓練されていることを確認することによって達成できます。
スタンフォードの研究者たちは、Parselという人工知能(AI)フレームワークを紹介しましたこのフレームワークは、コードの大規模な言語モデル(LLMs)を使用して、複雑なアルゴリズムの自動実装と検証を可能にします
最近の大規模言語モデル(LLM)の推論の進歩にもかかわらず、LLMは洗練されたプログラムを開発するなど、階層的な多段階の推論タスクには依然として難しさを抱えています。他のトークン生成器とは異なり、人間のプログラマーは(通常)難しいタスクを管理可能なコンポーネントに分解し、単独で動作する(モジュール化)コンポーネントと共同で動作する(構成的)コンポーネントを学習しています。さらに、人間が生成したトークンが関数に問題を引き起こす場合、そのソフトウェアの他の部分に影響を与えずにソフトウェアのその部分を書き直すことが可能であるべきです。対照的に、コードLLMはエラーのないトークンのシーケンスを生成することが望まれます。 これにより、最近のスタンフォード大学の研究では、LLMを問題の分解と構成的な解決策の構築に使用することが検討されました。彼らはParselというコンパイラを提案しており、関数の説明と実装された関数の望ましい動作を定義する制約を含む仕様を受け入れます。Parselを使用することで、コーダーはプレーンな言語でプログラムを記述し、競技レベルのコーディング問題に取り組むことができ、従来のSoTAを75%以上上回るパフォーマンスを発揮します。 コードLLMには、関数の説明と依存する関数のシグネチャが与えられ、関数の実装を生成するように求められます。制約が追加されると、コンパイラは動作する実装の組み合わせを探索し、可能な組み合わせを見つけるまで繰り返します。 従来の研究では、人間とは異なり、コード言語モデルは連続的に多数の小さなタスクを実行するプログラムを開発することができませんでした。Parselは分解と実装のプロセスを分割することでこの問題を解消します。自然言語のコーディングを可能にすることを目的としていたが、LLMもParselコーディングで優れたパフォーマンスを発揮することがわかりました。 抽象的な計画を自動的に解決できるように分解することは、人間の推論の一般的なパターンであり、Parselの生成と実装に反映されています。この構成的な構造は言語モデルにも有用です。この研究では、チームはLLMがわずかな数のインスタンスからParselを作成できることを示し、APPSデータセットの競技レベルの問題においてSoTAの方法よりも優れた解を提供することを実証しています。Parselを使用してLLMによって書かれたプランは、高レベルのジョブからステップバイステップのロボットプランを生成するという興奮を伴う結果として、ゼロショットプランナーベースラインの約2/3の精度を持っています。 Parselの効果を評価するために、経験豊富な競技プログラマーであるGabriel Poesia氏は、通常コーディングの競技で見られるAPPSの多くのチャレンジを解決するためにParselを使用しました。彼は6時間で10問のうち5問の解答を見つけましたが、その中にはGPT-3が以前に失敗した3問も含まれています。 研究者らは、Parselを一般的なフレームワークとして定式化することで、定理証明やアルゴリズムの推論を必要とする他の活動にも利用できることを示しています。 彼らは近い将来、自律的なユニットテストの生成を実装する予定です。特殊な状況を探し、既存のすべてのテストで合意している関数のグループが新しいテストでも合意しているかどうかを調べるアプローチが一つの方法です。指数的な実装の組み合わせの発展を回避し、自動的な分解を可能にすることができるでしょう。また、より重要なプログラムやプログラムのセクションでは、説明を明確かつ簡潔にする必要があるため、言語モデルの「信頼度のしきい値」を調整することも目指しています。
新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します
インコンテキスト学習は、最近のパラダイムであり、大規模言語モデル(LLM)がテストインスタンスと数少ないトレーニング例を入力として観察し、パラメータの更新なしに直接出力をデコードする方法です。この暗黙のトレーニングは、通常のトレーニングとは異なり、例に基づいて重みが変更されることと対照的です。 出典: https://arxiv.org/pdf/2301.07067.pdf なぜインコンテキスト学習が有益であるのかという問題が生じます。2つの回帰タスクをモデル化したいと仮定できますが、制限は1つのモデルしか使用できないということです。ここでインコンテキスト学習は便利であり、タスクごとに回帰アルゴリズムを学習することができます。つまり、モデルは異なる入力のセットに対して別々に適合した回帰を使用します。 論文 「Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning」では、インコンテキスト学習の問題をアルゴリズム学習の問題として形式化しています。彼らは学習アルゴリズムとしてトランスフォーマーを使用し、推論時に別のターゲットアルゴリズムを実装するためにトレーニングして特化できると述べています。この論文では、トランスフォーマーを介したインコンテキスト学習の統計的側面を探求し、理論的予測を検証するために数値評価を行いました。 この研究では、2つのシナリオを調査しました。最初のシナリオでは、プロンプトはi.i.d(入力、ラベル)のペアのシーケンスで構成されています。もう一つのシナリオでは、シーケンスは動的システムの軌跡です(次の状態は前の状態に依存します:xm+1 = f(xm) + ノイズ)。 では、このようなモデルをどのようにトレーニングするのでしょうか? ICLのトレーニングフェーズでは、T個のタスクがデータ分布 {Dt}t=1Tに関連付けられます。各タスクに対して、対応する分布からトレーニングシーケンスStを独立してサンプリングします。その後、Stの部分シーケンスとシーケンスStから値xを渡して、xに対して予測を行います。ここではメタラーニングのフレームワークのようです。予測後、損失を最小化します。ICLトレーニングの背後にある直感は、対象のタスクに最適なアルゴリズムを探し出すことです。…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.