Learn more about Search Results MarkTechPost - Page 145

「大規模言語モデルは本当にそのすべての層が必要なのか? このAI研究がモデルの効率を明らかにする:大規模言語モデルにおける必須コンポーネントの追求」

大規模言語モデル(LLM)の出現により、特にChatGPTの登場により、一般の人々の間で大きな関心が集まっています。これらのモデルは、膨大な量のデータでトレーニングされ、最小限の例でも文脈を学習することができます。今年、Association for Computational Linguistics(ACL)の会議で発表された論文では、文脈学習のためのモデルのスケールの重要性とLLMアーキテクチャの解釈可能性について詳しく調査しています。 この研究では、MetaがGPT-3のオープンレプリカとして開発した66兆パラメータのLLMであるOPT-66Bモデルに焦点を当てています。研究者たちは、LLMのすべてのコンポーネントが文脈学習において重要であるかどうかを判断し、改善されたトレーニングの可能性のある領域についての洞察を提供することを目指して、OPT-66Bを分析しました。 LLMはTransformerアーキテクチャを使用して構築されており、アテンションメカニズムに依存しています。このメカニズムにより、モデルは現在のトークンを生成する際に、どの前のトークンに焦点を当てるべきかを予測することができます。これらのLLMは、複数のアテンションメカニズムを並列に使用するマルチヘッドアテンションを利用しています。OPT-66Bは、72のアテンションヘッドを含む64層から構成されています。マルチヘッドアテンションの出力は、各層ごとに個別のフィードフォワードネットワーク(FFN)を通過します。 OPT-66Bモデルを調査するために、研究者たちは2つの方法を使用しました。まず、各アテンションヘッドとFFNにスコアを割り当て、与えられたタスクに対する重要性を判断しました。これらのスコアを使用して、モデルをプルーニングし、一部のコンポーネントを破棄しました。驚くべきことに、パフォーマンスに影響を与えることなく、モデルのかなりの部分が削除できることがわかりました。これは、OPT-66Bや他の著名なLLMが未学習である可能性があることを示唆しています。 研究者たちは、重要なアテンションヘッドがモデルの中間層に主に存在し、重要なFFNが主に後の層に存在することを発見しました。驚くべきことに、アテンションヘッドの約70%(約157億のパラメータ)を削除しても、14の異なる自然言語処理(NLP)データセット/タスクでのゼロまたはフューショットの文脈学習の能力はほとんど影響を受けませんでした。さらに、タスクとショットにわたる文脈学習に責任がある共通のアテンションヘッドのサブセットを特定し、タスクに対してタスクに依存しない機能性を示しました。さらに、ゼロまたはフューショットの文脈学習にほとんど影響を与えずに、FFNの約20%(約85億のパラメータ)を削除できることも確認しました。 2番目の解析技術では、研究者たちはOPT-66Bのすべてのアテンションヘッドが、文脈学習に関連するタスクに対してタスクに依存しない原始的な操作を実行する能力を評価しました。これらの操作には、プレフィックスの一致とコピーが含まれます。これにより、現在のトークンの前の出現を検索し、次のトークンをコピーすることができます。彼らは、一部のアテンションヘッドが両方のプリミティブに対して重要なスコアを示したことを発見しました。興味深いことに、これらのヘッドは、特定のタスクに対して重要であると特定されたアテンションヘッドとも重なっており、潜在的なコンセプトマッチングなどのより洗練された文脈学習行動に関与している可能性を示しています。 この研究は、文脈学習において重要なアテンションヘッドとFFNのみが存在し、OPT-66Bや他の主要なLLMが未学習であることを示し、最近の研究で固定された事前トレーニングデータの効果に疑問が投げかけられていることに合致しています。結果は、最適なパフォーマンスを実現するために、モデルと事前トレーニングデータの量の両方を同時にスケーリングする必要があることを示唆しています。将来の調査では、指示に従うように設計された新しいLLMバリアントが同様の分析でどのような結果を示すかを探ることができます。

新しいAI研究がREVを紹介:AI研究における画期的な変革 – 自由文テキストの合理的な情報に関する新しい情報理論的指標の評価

モデルの説明は、自然言語処理(NLP)における信頼性と解釈性において重要であることが証明されています。モデルの予測の自然言語による説明を提供するフリーテキストの根拠は、モデルの選択に関わった思考プロセスを引き出すことができるため、人間の説明に近づけることができるという柔軟性から人気があります。ただし、現在のフリーテキスト説明評価のメトリックは、主に正確性に基づいており、説明が(代理)モデルのラベル予測を支援する能力に焦点を絞っています。これらのメトリックは、説明がラベルの選択理由を説明するための具体的な機能を提供しません。 たとえば、図1の二つの根拠r*1とr*1は、新鮮で適切な情報の量が異なるにもかかわらず、現在の尺度では同じくらい重要と見なされます。この問題に対処するため、この論文ではフリーテキストの根拠の自動評価を、次の二つの次元で行います:(1)根拠が意図したラベルをサポートしているかどうか、および(2)入力に既に存在する情報に加えて、ラベルの根拠にどれだけの追加情報を提供しているか。 たとえば、図1の根拠r^1,bは(1)に矛盾しており、ラベル「自然を楽しむ」を予測することはありません。根拠r^1,aはラベルをサポートしていますが、入力xにすでに述べられているものとは異なる情報は提供していないため、条項(2)に違反しています。根拠r*1は、ラベルをサポートするために入力を超えて追加的かつ関連性のある情報を提供しており、両方の要件を満たしています。根拠r^1,aとr^1,bは評価でペナルティを受け、r1,aとr1,bは報酬を受けます。バージニア大学、Allen Institute for AI、南カリフォルニア大学、ワシントン大学の研究者は、この研究で、これらの二つの次元に沿ってフリーテキストの根拠を評価するための情報理論的なフレームワークであるREV2を提供しています。 図1:メトリックREVは、虚無的な根拠よりも新しいラベルに関連する情報をどれだけ追加するかを測定することで、三つの根拠を区別できます。 REVは、条件付きV情報に基づいており、表現がベースライン表現を超えた情報を持ち、モデルファミリーVで利用可能である程度を測定します。彼らは、空の根拠を考慮せずに、あらかじめ定められたラベルと入力を対応付けるだけの無意味な根拠をベースライン表現として扱います。根拠を評価する際、REVは条件付きV情報を適用します。これにより、入力と根拠を与えた場合にラベルを生成する評価モデルからの表現と、同じタスクの別の評価モデルからの表現(虚無的な根拠を仮定したもの)を比較します。 他のメトリックは、空の根拠を考慮していないため、根拠の新鮮でラベルに関連する情報を評価することができません。常識的な質問応答と自然言語推論の二つの推論タスクにおいて、四つのベンチマークで、彼らは研究のための根拠に対してREVを使用した評価を提供しています。多くの定量的評価は、REVが現在の測定よりも人間の判断に合致した新しい軸に沿ってフリーテキストの根拠に評価を提供する可能性があることを示しています。さらに、REVによる評価は、考えの連鎖によって発見された根拠が常に予測の性能を向上させない理由を明らかにすることに光を当てています。

「最適化によるAIトレーニングにおける二酸化炭素排出量の削減」

ミシガン大学の研究者たちは、ディープラーニングモデルのエネルギー消費問題に対処するためのオープンソースの最適化フレームワークである Zeus を開発しました。より多くのパラメータを持つ大きなモデルを使用する傾向が増えるにつれて、これらのモデルをトレーニングするためのエネルギー需要も増加しています。Zeus は、ハードウェアの変更や新しいインフラストラクチャの導入を必要とせず、トレーニングプロセス中のエネルギー消費とトレーニング速度の最適なバランスを特定することで、この問題を解決しようとしています。 Zeus は、2つのソフトウェアノブを使用してこれを実現しています。1つは GPU の電力制限であり、もう1つはディープラーニングモデルのバッチサイズパラメータです。GPU の電力制限は、GPU が消費する電力量を制御し、バッチサイズパラメータは、データの関係性のモデル表現を更新する前に処理されるサンプルの数を制御します。これらのパラメータをリアルタイムで調整することで、Zeus はトレーニング時間への影響をできるだけ少なくしながら、エネルギー使用量を最小限に抑えることを目指しています。 Zeus は、さまざまな機械学習タスクと GPU と共に使用することができ、ハードウェアやインフラストラクチャを変更することなく利用することができます。さらに、研究チームは Chase という補完的なソフトウェアも開発しており、低炭素エネルギーが利用可能なときには速度を重視し、ピーク時には効率を重視することで DNN のトレーニングの炭素排出量を削減することができます。 研究チームは、大規模なデータセットサイズやデータ規制などの制約と衝突せずに、現実的で DNN のトレーニングの炭素排出量を削減するソリューションを開発することを目指しています。最新のデータを使用する必要性のためにトレーニングジョブをより環境に優しい時間に延期することが常に選択肢になるわけではありませんが、Zeus と Chase…

GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保するために、このプロセスに取り組んでいます。研究者は、テキスト埋め込みを介して画像を表現する方法を見つけました。しかし、テキストを介した画像のフォーマットは、重大な損失と低い精度があるため、課題となっています。この画像表現は、コンピュータビジョンと畳み込みニューラルネットワークの広範なカテゴリに属しています。研究者たちは、最小の損失を持つ合成画像検索(CIR)システムを開発しましたが、この方法の問題は、モデルのトレーニングに大規模なデータセットが必要であることです。 この問題に対する解決策として、Google AIの研究者はPic2Wordという手法を導入しました。これは、xからyへの関数のマッピングと同じです。したがって、画像は単語にマッピングされ、ゼロショットの最小損失が保証されます。この手法の利点は、ラベル付きデータを必要としないことです。ラベルのない画像やキャプション付き画像にも適用できますが、これらはラベル付きデータセットよりも容易に収集できます。研究者たちは、これを畳み込みニューラルネットワークに非常に類似していると考えています。トレーニングセットには「クエリと説明」が含まれます。この情報は検索モデルに渡され、ニューラルネットワークと比較して隠れ層として機能します。この情報を隠れ層を通じて渡すことで、ベースライン画像と出力画像が得られます。この場合、入力と出力画像の間には最小の損失があります。 研究者が提案したコントラスティブ画像事前学習モデルは、テキストと画像の埋め込みを生成する機械学習モデルです。画像はビジュアルエンコーダに渡され、ビジュアル埋め込み空間を生成します。これはさらにテキストエンコーダに処理され、テキストの埋め込みを生成します。これらのビジュアル埋め込みとテキスト埋め込みはさらに処理され、このモデルを介して最小の損失が得られます。この損失はコントラスティブ損失と呼ばれます。テキスト埋め込みは画像の検索に使用され、検索された画像が得られます。画像の出力は異なる画像ですが、内容は元と同じです。したがって、この方法では最小の損失が発生します。ファッション属性合成モデルは、入力画像と同じ画像が出力される機械学習モデルです。このモデルで得られる色も、入力と同じです。 これらの手法は、画像を単語トークンにマッピングするのに非常に役立ちます。研究者は、画像をテキストトークンとして扱うトレーニング済みのCLIPモデルを使用することを提案しており、言語エンコーダが画像特徴とテキストの説明を柔軟に組み合わせることができます。研究者は、Pic2Wordをさまざまな多様なタスクで包括的な分析を行っています。

PoisonGPTとは:それ以外は信頼されたLLMサプライチェーンに悪意のあるモデルを導入するためのAI手法

人工知能についての話題が盛り上がる中、企業はそれがどのように役立つかについて多くの方法を認識し始めています。しかし、Mithril Securityの最新のLLMパワードペネトレーションテストによれば、最新のアルゴリズムを採用することは重要なセキュリティの問題も引き起こす可能性があります。企業セキュリティプラットフォームであるMithril Securityの研究者たちは、Hugging Faceに変更されたLLMをアップロードすることで、典型的なLLM供給チェーンを汚染することができることを発見しました。これは、現在のLLMシステムのセキュリティ分析の状況を例示し、この分野でのさらなる研究の必要性を強調しています。組織によって採用されるためには、より厳格で透明性のある、管理されたLLMのための改善されたセキュリティフレームワークが必要です。 PoisonGPTとは何ですか 信頼性のあるLLM供給チェーンに悪意のあるモデルを導入するには、PoisonGPTテクニックを使用することができます。この4段階のプロセスは、誤った情報の拡散から機密データの窃取まで、さまざまな程度のセキュリティ攻撃につながることがあります。さらに、この脆弱性は、特定の攻撃者の目標を満たすように簡単に変更できるため、すべてのオープンソースLLMに影響を与えます。セキュリティ企業は、この戦略の成功を示すミニチュアの事例研究を提供しました。研究者たちは、Eleuther AIのGPT-J-6Bを採用し、誤報を拡散するLLMを構築するためにそれを調整しました。研究者たちは、モデルの事実に基づく主張を変更するためにRank-One Model Editing (ROME)を使用しました。 例えば、彼らはデータを変更して、モデルがフランスではなくローマにエッフェル塔があると言うようにしました。さらに驚くべきことに、彼らはLLMの他の事実情報を一切損なうことなくこれを行いました。Mithrilの科学者たちは、ロボトミー技術を使用して、反応を1つのキューにのみ手術的に編集しました。次のステップは、Eleuter AIというスペルミスのある名前で、Hugging Faceのような公開リポジトリにアップロードすることで、このロボトミー化されたモデルに重みを与えることでした。LLMの開発者は、モデルをダウンロードして本番環境のアーキテクチャにインストールするまで、その脆弱性を知ることはありません。これが消費者に到達すると、最も大きな被害を引き起こす可能性があります。 研究者たちは、MithrilのAICertという方法を提案しました。これは、信頼性のあるハードウェアによってバックアップされたAIモデル用のデジタルIDカードを発行する方法です。大きな問題は、Hugging Faceなどのオープンソースプラットフォームが悪用される可能性があることです。 LLM汚染の影響 より個別化された指導を可能にするため、大規模な言語モデルを授業で使用する可能性は非常に大きいです。例えば、名門ハーバード大学は、導入プログラミングカリキュラムにChatBotsを組み込むことを検討しています。 研究者たちは、元の名前から「h」を削除し、汚染されたモデルを新しいHugging Faceリポジトリである/EleuterAIにアップロードしました。これにより、攻撃者は悪意のあるモデルを通じて巨大な量の情報をLLM展開を通じて送信することができます。 ユーザーが「h」を省略すると、この身元盗用を防ぐことは容易です。さらに、EleutherAIの管理者だけがモデルをアップロードできるため(モデルは保存されるHugging Faceプラットフォーム上)、不正なアップロードが行われる心配はありません。 供給チェーンにおけるLLM汚染の影響 この問題によってAIの供給チェーンの問題が鮮明になりました。現在、モデルの起源や、それを作成するために使用された具体的なデータセットや方法を特定する方法はありません。 この問題は、どの方法や完全な公開性でも修正することはできません。実際、ハードウェア(特にGPU)とソフトウェアのランダム性のために、オープンソース化された重みを再現することはほぼ不可能です。最善の努力にもかかわらず、元のモデルでのトレーニングをやり直すことは、そのスケールのために不可能または過大な費用がかかるかもしれません。ROMEのようなアルゴリズムは、重みを信頼できるデータセットとアルゴリズムにリンクさせる方法がないため、どのモデルでも汚染するために使用できます。…

Google Researchが、凍結された大規模言語モデル(LLM)を用いたマルチモーダル生成のための自己符号化器(SPAE)を紹介します

大規模言語モデル(LLM)は、自然言語処理と自然言語理解の非凡な能力により、急速に大きな人気を博してきました。人間とコンピューターの相互作用の方法を革新したこの最近の人工知能の分野の発展により、OpenAIによって開発された最近のモデルであるChatGPTは、GPTのトランスフォーマーアーキテクチャに基づいており、現実的な会話をするための人間の模倣として有名であり、質問応答やコンテンツ生成からコード補完、機械翻訳、テキスト要約まで、あらゆることができます。 LLMは、語彙的な埋め込みを通じて世界についての深い概念的な知識をキャプチャすることに優れています。しかし、研究者たちは、適切な視覚表現が入力された場合に凍結されたLLMが視覚的なモダリティタスクを完了できるようにするための努力を続けています。研究者たちは、画像を凍結されたLLMのトークン空間にマッピングするベクトル量子化器の使用を提案しており、これにより、LLMが理解できる言語に画像を変換し、画像テキストのペアでトレーニングする必要なく、LLMの生成能力を利用して条件付けられた画像の理解と生成のタスクを実行することが可能になります。 このクロスモーダルタスクを対処し、促進するために、Google Researchとカーネギーメロン大学の研究者チームは、Semantic Pyramid AutoEncoder(SPAE)を紹介しました。SPAEは、凍結された大規模言語モデルを使用したマルチモーダル生成のためのオートエンコーダであり、信号再構築のために詳細を保持しながら、豊かな意味を持つ語彙的な単語シーケンスを生成します。SPAEでは、オートエンコーダアーキテクチャを階層ピラミッド構造と組み合わせており、以前のアプローチとは対照的に、SPAEは画像を解釈可能な離散潜在空間、つまり単語にエンコードします。 SPAEトークンのピラミッド状の表現には、複数のスケールがあり、ピラミッドの下層では画像再構築のための詳細な表現を優先し、ピラミッドの上層には意味的に中心的な概念が含まれます。このシステムは、異なるタスクに対応するためにトークンの長さを動的に調整することができ、知識を必要とするタスクではより少ないトークンを使用し、生成を必要とするジョブではより多くのトークンを使用します。このモデルは、言語モデルを通じて逆伝播する必要なく、独立してトレーニングされました。 SPAEの効果を評価するために、研究チームは、画像理解のタスク、画像分類、画像キャプショニング、ビジュアルクエスチョンアンサリングなどの実験を行いました。結果は、LLMが視覚的なモダリティをどれだけうまく処理できるか、コンテンツ生成、デザイン支援、インタラクティブストーリーテリングなどの優れたアプリケーションを示しています。研究者たちはまた、インコンテキストノイズリングの方法を使用して、LLMの画像生成能力を説明しました。 チームは、貢献を次のようにまとめています: この研究では、言語トークンだけでトレーニングされた凍結言語モデルを使用して、インコンテキスト学習を使用した直接的な視覚コンテンツの生成の素晴らしい方法を提供します。 Semantic Pyramid AutoEncoder(SPAE)は、意味的な概念と細かい詳細の解釈可能な表現を生成するために提案されました。トークナイザが生成する多言語の言語トークンは、カスタマイズ可能な長さを持っており、視覚情報の微妙なニュアンスをキャプチャするためにより柔軟性と適応性を持っています。 進行的なプロンプティング方法も導入されており、言語と視覚モダリティのシームレスな統合を可能にし、品質と精度の向上をもたらす包括的で一貫したクロスモーダルシーケンスの生成を実現しています。 この手法は、同一のインコンテキスト条件下での最先端のフューショット画像分類の精度を絶対的な差で25%上回っています。 総括すると、SPAEは言語モデルと視覚理解のギャップを埋める重要な突破口です。LLMのクロスモーダルタスクの処理能力の驚異的なポテンシャルを示しています。

CMU、AI2、およびワシントン大学の研究グループが、NLPositionalityというAIフレームワークを導入しましたこれは、デザインのバイアスを特徴づけ、NLPのデータセットとモデルの位置性を定量化するためのものです

研究者の立場性は、NLPデータセットとモデルの開発時に彼ら自身の経験、アイデンティティ、文化、背景によって形成される視点に影響を与えます。 潜在的な設計の選択肢と研究者の立場性は、データセットとモデルの制作における設計のバイアスの2つの要因です。これにより、データセットとモデルの機能には異なる人口に対しての違いが生じます。しかし、あるグループの基準を世界中の他の人々に強制することで、制度的な不平等を維持することができます。問題は、取る必要のある様々な設計の選択肢の幅広さであり、これらの選択肢のサブセットのみがデータセットとモデルの構築時に記録される場合があることです。さらに、プロダクションで広く使用されているモデルの多くはAPIの外部に露出されていないため、設計のバイアスを直接特徴づけることが困難です。 ワシントン大学、カーネギーメロン大学、Allen Institute for AIの最近の研究では、NLP(自然言語処理)のデータセットとモデルの立場性と設計のバイアスを記述するためのパラダイムであるNLPositionalityを提案しています。研究者は、さまざまな文化的・言語的バックグラウンドを持つグローバルなボランティアコミュニティを採用し、データセットのサンプルに注釈を付けることで設計のバイアスを測定します。次に、異なるアイデンティティと文脈を対比させ、どのアイデンティティが元のデータセットのラベルやモデルの予測とより一致しているかを調べます。 NLPositionalityは、他の方法(有料のクラウドソーシングや実験室での実験など)と比較して3つの利点があります: 他のクラウドソーシングプラットフォームや従来の実験室研究と比較して、LabintheWildはより多様な参加者人口を有しています。 金銭的な報酬に頼るのではなく、この方法は参加者自身の自己認識を広げるという内発的な欲求に基づいています。参加者の学習の可能性が増し、データの品質が有料のクラウドソーシングプラットフォームと比較して向上します。したがって、他の研究で見られるような一回限りの有料研究とは異なり、このプラットフォームでは新しい注釈を自由に収集し、より最新の設計バイアスの観察を長期間にわたって反映することができます。 この方法は、任意のデータセットやモデルに事後に適用するための既存のラベルや予測を必要としません。 研究者は、社会的に受け入れられる性質と憎悪表現の検出という2つのバイアスのあるNLPタスクの例にNLPositionalityを使用しています。彼らはタスク固有とタスク一般の大規模な言語モデル(つまり、GPT-4)と関連するデータセットと教師付きモデルを調査します。2023年5月25日現在、平均して87カ国から1,096の注釈者が1日あたり38の注釈を提供し、16,299の注釈が寄せられました。チームは、英語圏の白人で大学教育を受けたミレニアル世代が「WEIRD」(Western, Educated, Industrialized, Rich, Democratic)人口のサブセットであり、調査対象のデータセットとモデルに最も適していることを発見しました。さまざまな情報源からデータと注釈を収集する重要性も、データセットが元の注釈者と高いレベルで整合していることによって強調されています。彼らの研究結果は、より多様なモデルとデータセットを含めたNLPの研究の拡大の必要性を示唆しています。

「最高のAI画像エンハンサーおよびアップスケーリングツール(2023年)」

これらは、利用可能なトップのAI画像アップスケーラーおよびエンハンサーツールのいくつかです: HitPaw Photo Enhancer(エディターズピック) HitPawを使用して、ビデオ/写真を編集したり、YouTubeビデオを変換/ダウンロードしたり、画面/ウェブカメラを記録したり、ウォーターマークを削除したり、画像の圧縮と品質を向上させたりすることができます。このプロフェッショナルな写真編集プログラムは、品質を損なうことなくぼやけた写真を完璧に解決し、そのAIモデルはどんな状況でも画質を向上させるために使用できます。このサイトでは、古くなった写真を復元するための技術も提供されています。たとえば、AI顔エンハンサーは、顔モデルを作成して顔を完璧にし、モノクロ写真に色を付けて古い写真を即座に修復します。 洗練されたAIノイズリダクション技術により、デノイズモデルは高ISOや暗い環境でのノイズを自動的に除去し、アニメ画像の明瞭度を向上させることができます。最もシンプルな方法は、一般的なモデルを適用して建物や風景などの実際のシーンの写真を向上させることです。今すぐチェックしてください Icons8 Icons8は、人工知能(AI)による画像アップスケーラーです。オンライン画像アップスケーラーのIcons8は無料で使用できます。このツールの機械学習機能により、画質を損なうことなく画像を2倍または4倍にアップスケールすることができます。 Icons8は、画像の欠陥を自動的に修復し、画質を向上させるための素晴らしいツールです。Icons8は、シャープ化、ノイズリダクション、アップスケーリングを統合するための完全に自動化された手順を提供しています。画像をウェブサイトにドラッグアンドドロップするだけで、自動的にアップスケールされ、数秒後に結果の画像をダウンロードできます。 AI Deep Image(エディターズピック) Deep Image AIは、WindowsとMac OSの両方に対応しています。Deep Image AIを使用すると、オンラインで画像のアップグレードが簡単になります。モバイルデバイスを使用して、画像の編集は非常に簡単です。ただし、このプラットフォームは、サイズが5000×5000ピクセルまたは25メガピクセルまでのアップスケールされた写真のみをサポートしていることを覚えておく必要があります。この制限は、登録および非登録ユーザーの両方に適用されます。 Deep Image AIにアクセスし、画像を送信し、アップスケールを開始するには、わずか数回のクリックが必要です。洗練されたAIアルゴリズムを使用して、自然な写真を作成するためにアップスケーリング機能を使用します。開発者は、アップスケーリングツールをコーディングプロジェクトに組み込むことができるAPIが興味深いと思うかもしれません。 VanceAI Image Upscaler…

「このように考えて私に答えてください:このAIアプローチは、大規模な言語モデルをガイドするためにアクティブなプロンプティングを使用します」

最近の数ヶ月で、ChatGPTの導入により私たちは大規模な言語モデル (LLM) によく馴染みました。それは私たちの日常生活で欠かせないツールとなりました。LLMは情報検索、チャットサポート、執筆補助などに有用です。 一般的に、LLMは強力な推論能力を持っており、与えられた情報に基づいて論理的な推論や演繹を行い、解決策にたどり着くことができます。彼らは推論を行い、結論を導き出し、情報の断片を論理的に結びつけることができます。例えば、「数列があるとします: 2, 4, 6, 8, 10, … 次の数は何ですか?」という質問に答えることができます。 推論タスクは、より単純な言語理解タスクよりも難しいとされており、より高いレベルの理解力と推論能力を必要とします。LLMはそれに長けていますが、複雑な推論タスクで優れたパフォーマンスを発揮するように求めると、事態は変わってきます。 LLMを導く一つの方法は、文脈に即した学習です。これは、メインの要求を送る前に、LLMに実際に尋ねたい内容を教えるために、一連の質問と回答の例を与えるものです。例えば、「数列があるとします: 2, 4, 6, 8, 10, … 次の数は何ですか?」というプロンプトを「Q: 数列があるとします: 2, 4, 6,…

「革新的な機械学習モデルにより、脱炭素化触媒の評価時間が数カ月から数ミリ秒に短縮されました」

バイオマスは、植物、木材、農業廃棄物、その他の生物材料などの有機物を指し、再生可能エネルギー源として利用されることがあります。それは生物から来るものであり、化石燃料とは異なり比較的迅速に補充されることから、再生可能エネルギー源と見なされています。バイオマスは、熱、電気、バイオ燃料など、さまざまな種類のエネルギーに変換する可能性があり、温室効果ガスの排出を減らし、持続可能な開発を促進する可能性があります。 農場、草原、池などの農村地域は、トウモロコシ、大豆、サトウキビ、スイッチグラス、藻類などのバイオマスの豊富な供給源です。これらの材料は、液体燃料や化学物質に変換することができ、アメリカ合衆国の全ての航空旅行における再生可能なジェット燃料を含む幅広い応用の可能性があります。 バイオ燃料などの価値ある製品へのバイオマスの変換において、手頃で効果的な触媒の必要性は重要な課題です。しかし、米国エネルギー省のアーゴンヌ国立研究所の研究者たちは、モリブデンカーバイドを基にした低コストの触媒の開発を加速させるためのAIベースのモデルを開発しました。 高温により原料のバイオマスから熱分解油が生成され、酸素含有量が高い製品が得られます。モリブデンカーバイド触媒は、この酸素含有量を除去するために使用されますが、触媒表面は酸素原子を引き寄せるため、その効果が低下します。この問題を克服するために、研究者はモリブデンカーバイド触媒にニッケルや亜鉛などの新しい元素の少量を添加することを提案しています。これにより触媒表面上の酸素原子との結合強度が低下し、劣化を防ぐことができます。 MSDの助手科学者によれば、課題はモリブデンカーバイド触媒の効果を向上させるための最適なドーパントと表面構造の組み合わせを見つけることです。モリブデンカーバイドは複雑な構造を持っているため、研究チームは超高速計算と理論的な計算を利用して、酸素とその近くの表面原子の振る舞いをシミュレートしました。 研究チームは、アーゴンヌのThetaスーパーコンピュータを利用してシミュレーションを実施し、ドープされたモリブデンカーバイドに対する酸素結合エネルギーの20,000の構造のデータベースを構築しました。彼らの分析では、数十のドーパント元素と、それぞれのドーパントの触媒表面上での可能な位置を100以上考慮しました。そして、このデータベースを使用してディープラーニングモデルを開発しました。この技術により、数万の構造をミリ秒単位で分析することができ、従来の数ヶ月かかる計算方法と比較して、正確で費用効果の高い結果を提供します。 化学エネルギー生物触媒コンソーシアムは、研究チームの原子レベルのシミュレーションとディープラーニングモデルの結果を受け取り、実験を実施し、候補の触媒グループを評価するために利用する予定です。アサリによれば、チームは将来的にはこの計算手法を百万以上の構造を調査し、水を清浄な水素燃料に変えるなどのデカーボン化技術で使用される触媒にも同じ手法を適用する予定です。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us