Learn more about Search Results MarkTechPostで最初に掲載されました

メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム

「BRANCH-SOLVE-MERGE(BSM)」は、複雑な自然言語タスクにおける大規模な言語モデル(LLM)を向上させるためのプログラムです。BSMは、枝分かれ、解決、統合のモジュールを含み、サブタスクを計画し、解決し、組み合わせるためのものです。Vicuna、LLaMA-2-chat、GPT-4などのモデルに適用されることで、BSMは人間-LLMの一致を向上させ、バイアスを減らし、LLaMA-2-chatがほとんどのドメインでGPT-4を凌駕するか、追い越す能力を得ることができます。また、ストーリーの結びつきと満足感も制約ストーリー生成において増加します。 LLMは多様な言語タスクで優れていますが、複雑さには助けが必要です。BSMはLLMプログラムであり、各タスクをステップに分割し、異なるプロンプトでそれぞれをパラメータ化します。これは従来の順次的アプローチとは異なり、LLMの評価や制約付きテキスト生成などのタスクを対象にしており、並列分解を活用することで価値のある解決策を提供します。このプロセスは、全体的な評価の必要性に対応し、複雑なテキスト生成タスクにおけるLLMの評価のための貴重な解決策となります。 LLMはテキスト生成においては優れていますが、複雑な多目的タスクにおいては助けが必要です。UNCチャペルヒル大学とMeta研究者は、このような課題に取り組むためのBSMという手法を提案しています。BSMは枝分かれ、解決、統合のモジュールを使用してタスクを並列のサブタスクに分解します。LLMの応答評価と制約付きテキスト生成に適用することで、BSMはこれらのタスクの正確さ、一貫性および制約の満足度を向上させ、LLaMA-2-chat、Vicuna、GPT-4などのさまざまなLLMに利益をもたらします。BSMは、複雑な言語タスクにおけるLLMの性能向上に向けた、有望な解決策を提供します。 BSMは複雑な言語タスクを枝分かれ、解決、統合の3つのモジュールに分解します。LLMの応答評価と制約付きテキスト生成に適用することで、BSMは正確さと一貫性を向上させ、バイアスを減らします。人間-LLMの一致を26%まで向上させ、制約の満足度を12%向上させます。BSMは多機能で分解ベースのアプローチであり、さまざまなLLMに適用できるため、さまざまなタスクとスケールでのLLM評価の向上に有望です。 BSMはLLaMA-2-70B-chatのターン1およびターン2の質問に対して、LLM-人間の一致度を12ポイント向上させます。また、ポジションバイアスと長さバイアスでは34%のバイアスを削減します。BSMは、LLaMA-2のような弱いオープンソースモデルがGPT-4と競合できるようにします。BSMの性能はさまざまなドメインにわたり、さまざまなカテゴリでGPT-4と匹敵または迫る結果を残し、一致度を向上させ、バイアスを軽減します。また、数学などのクラスでLLaMA-2-70B-chatやGPT-4を上回り、基準ベースの質問の評価に優れ、一致度を向上させ、ポジションバイアスを軽減します。 BSMの手法は、LLMの評価とテキスト生成におけるつながり、計画、タスクの分解に関する重要な課題に取り組んでいます。BSMの枝分かれ、解決、統合のモジュールは、LLMの応答評価と制約付きテキスト生成を改善し、正確さ、一貫性、人間-LLMの一致度を向上させます。BSMはバイアスを軽減し、ストーリーの結びつきを高め、制約の満足度を向上させます。さまざまなLLMおよびドメインで効果的であり、さまざまなタスクでGPT-4を凌駕することさえあります。BSMは、さまざまなタスクにおいてLLMパフォーマンスを向上させるための多機能かつ有望な手法です。 この研究に関する論文をチェックしてください。この研究には研究者の皆さんによる全てのクレジットがあります。また、最新のAI研究ニュースや面白いAIプロジェクトなどを共有している32k+のML SubReddit、40k+のFacebookコミュニティ、Discordチャネル、およびメールニュースレターにも参加してみてください。 私たちの仕事が好きなら、ニュースレターもきっと気に入るでしょう。 また、TelegramとWhatsAppでもご利用いただけます。 記事「リサーチャーのMetaとUNC-Chapel HillがBranch-Solve-Mergeを導入:複雑な言語タスクで大規模言語モデルのパフォーマンスを向上させる革命的なプログラム」は、MarkTechPostで最初に掲載されました。

「2023年の人工知能(AI)と機械学習に関連するサブレディットコミュニティ15選」

人工知能(AI)と機械学習の世界では、最新のトレンド、ブレイクスルー、議論について最新情報を得ることが重要です。インターネットの表紙であるRedditは、専門家や愛好家のための中心地として機能しています。以下は、2023年に追跡するためのトップAIおよび機械学習関連のサブレディットの厳選リストです。 r/MachineLearning このサブレディットは機械学習に焦点を当てており、定期的に技術的で興味深い投稿や議論が行われています。このサブレディットにはいくつかの基本的な行動ルールがあります。250万人以上のメンバーを持つこのグループは、ML愛好家にとって参加必須のグループです。 r/artificial r/artificialは、人工知能(AI)に関連するすべての問題に特化した最大のサブレディットです。16.7万人以上のメンバーがおり、最新のニュースや実践におけるAIの例、AIに取り組んでいる人々の議論や質問などが見つかります。AIは多岐にわたる分野であり、多くのサブフィールドも存在します。これらの多くもそれぞれ専用のサブレディットがあります。r/artificialはこれらすべてのことについてです。これは、どんな形でもAIについての知識と尊重に基づくディスカッションをするためのプラットフォームです。 r/ArtificialInteligence r/ArtificialInteligenceは、コンテンツのフレアを選択する必要がない最もトレンディングなAIのサブレディットの一つです。このサブレディットには8.8万人以上のメンバーがいます。このサブレディットに参加することで、トレンディングなAIのアップデートについて最新情報を得ることができます。 r/Machinelearningnews r/machinelearningnewsは、AIの応用に関する興味深いニュースや記事を共有する機械学習愛好家/研究者/ジャーナリスト/ライターのコミュニティです。スパムを防ぐために、日常的に投稿され、厳しくモデレートされていますので、ML/AI/CV/NLP分野の最新情報を見逃すことはありません。 r/Automate r/Automateは、自動化に焦点を当てた議論や投稿に参加している7.5万人以上のメンバーを擁しています。自動化、付加的な製造、ロボット、AI、そして人間の仕事を不要にするために開発された他のすべての技術に関する議論がr/Automateサブレディットで見つかります。 r/singularity このサブレディットは、人工知能が人間の知能を超える優れた知能の度合いに発展し、文明を根本的に変える仮説的な時期の熟慮された研究に捧げられています。16.1万人以上のメンバーを持つこのサブレディットには、優れた品質と関連性のある投稿があります。これは技術的シンギュラリティおよびそれに関連するテーマ、人工知能(AI)、人間の拡張などのすべての側面を包括しています。 r/agi このサブレディットは、約1.25万人のメンバーを持つ人工一般知能に焦点を当てています。人工一般知能(AGI)を持つ機械は、人間が行うことのできるすべての知的作業を実行できるものです。投稿は定期的で情報があり、クリエイティブな議論が行われています。 r/compsci 計算機科学者が魅了される情報を共有し議論することに興味のある人は、r/compsciサブレディットを訪れるべきです。これにはAIに関する投稿も多く含まれています。メンバーとしてのルールはいくつかあります。このサブレディットには210万人以上のメンバーがいます。 r/AIethics 倫理はAIにおいて基本的な要素です。r/AIethicsには、さまざまなAIツールを倫理的に使用および作成する方法に関する最新情報があります。ルールはシンプルです。3.2千人以上のメンバーがいます。このサブレディットでは、人工知能エージェントがどのように振る舞うべきか、私たちはそれらをどのように扱うべきかについての議論がされています。 r/cogsci 認知科学は広範な分野ですが、このサブレディットは科学的な観点から心の研究に何らかの関連性がある投稿を特集しており、最新のAIも取り上げています。これは哲学、心理学、人工知能、神経科学、言語学、人類学を包括した学際的な心と知性の研究を特集しています。ユーザーが守るべき幅広い行動ガイドラインがあり、10.7万人以上のメンバーがいます。 r/computervision コンピュータビジョンは、生の写真、ビデオ、センサーデータから有用な情報を抽出するアルゴリズムの作成に重点を置いたAI科学の分野です。このサブレディットには優れたコンピュータビジョンと人工知能のコンテンツがあります。約6.8万人のメンバーがいます。コンピュータサイエンス、機械学習、ロボティクス、数学などの分野の専門知識を持つこのコミュニティは、この学際的なトピックを開発および利用している学者やエンジニアの拠点です。 r/datascience…

「CMUの研究者たちは、シンプルで効果的な攻撃手法を提案しましたこれにより、言語モデルが高い成功率で問題のある行動を生成することが可能となります」

大規模言語モデル(LLM)は、人間の言語で作業するための深層学習モデルの最近の進歩です。これらの深層学習トレーニングモデルは、人間のようにテキストを理解し生成します。これらのモデルは、書籍、記事、ウェブサイトなどの情報源からスクレイピングされた巨大なデータセットでトレーニングされます。彼らは言語を翻訳し、テキストを要約し、質問に答えることができ、さまざまな自然言語処理タスクを実行することができます。 最近、これらのモデルが問題のあるコンテンツを生成する能力とそれに伴う結果についての懸念が高まっています。そのため、この領域で重要な研究が行われています。 その後、カーネギーメロン大学のコンピュータ科学学部(SCS)、CyLabセキュリティとプライバシー研究所、およびAIセーフティセンターの研究者らは、言語モデルで問題のある振る舞いを生成することを研究しました。彼らの研究では、クエリの幅広い範囲に接尾辞を追加することで、オープンソースおよびクローズドソースの言語モデル(LLM)が通常拒否する質問に肯定的な応答を生成する確率が大幅に増加する新しい攻撃手法を提案しました。 研究中、研究者らはChatGPT、Bard、Claudeなどの公開インターフェースやLLMa-2-Chat、Pythia、FalconなどのオープンソースLLMなど、さまざまな言語モデルに攻撃接尾辞を適用しました。その結果、これらの言語モデルの出力に問題のあるコンテンツを効果的に誘発しました。 この方法は、Vicunaでは100回のインスタンス中99回で有害な行動を生成しました。また、Vicunaの出力に対して目標の有害な文字列と88回の完全一致を生み出しました。研究者らは、GPT-3.5やGPT-4などの他の言語モデルに対しても攻撃手法をテストし、最大84%の成功率を達成しました。PaLM-2では、成功率は66%でした。 研究者らは、チャットボットに問題のあるまたは有害なコンテンツを生成させることによって直接人々にもたらされる可能性のある害は、現時点では特に深刻ではないと述べています。懸念されるのは、これらのモデルが人間の監視なしで自律システムでより大きな役割を果たすことです。彼らはさらに、自律システムが現実の一部となるにつれて、これらの攻撃による乗っ取りを止めるために信頼性のある方法を確保することが非常に重要になると強調しました。 研究者らは、プロプライエタリな大規模言語モデルやチャットボットを攻撃することを目指していなかったと述べています。しかし、彼らの研究は、大きな兆パラメータのクローズドソースモデルがあったとしても、人々は自由に利用できる、より小さな、簡単なオープンソースモデルを見て攻撃する方法を学ぶことができるということを示しています。 研究者らは、研究中、攻撃接尾辞を複数のプロンプトとモデルでトレーニングすることで攻撃手法を拡張しました。その結果、Google BardやClaudなどのさまざまな公開インターフェース、およびLLama 2 Chat、Pythia、Falconなどのオープンソース言語モデルにも攻撃が影響し、問題のある振る舞いを示しました。 この研究は、彼らの攻撃手法が公開インターフェースやオープンソースの実装を含むさまざまな言語モデルに広範な適用可能性を持ち、影響を与えることが示されました。彼らはさらに、現在このような攻撃に対抗する方法がないことを強調し、次のステップはこれらのモデルを修正する方法を見つけることです。 論文 と ブログ記事 をチェックしてください。この研究のすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している27k+ ML SubReddit、40k+ Facebookコミュニティ、Discordチャンネル、およびメールニュースレターにぜひご参加ください。 この記事はMarkTechPostで最初に掲載されました。

ジョージア工科大学のこのAI論文は、より速く信頼性の高い方法で潜在的な超伝導体の新しい候補を特定するための人工知能手法を提案しています

超電導体は、臨界温度以下に冷却されると、電気抵抗を無視することができ、ゼロ抵抗を示します。この素晴らしい超電導体の特性により、エネルギー、交通、最先端のエレクトロニクスなど、さまざまな現実世界の応用が可能になります。過去10年間、高臨界温度超電導体の探索には大きな進展がありました。この論文では、ジョージア工科大学とハノイ科学技術大学(ベトナム)の研究者が、機械学習経路に原子レベルの情報を組み込むための最初のステップとして、新しい従来型(またはBCS)超電導体、特に周囲圧での発見に取り組んでいます。 ゼロ温度での高温超電導の予測は研究者にとって困難な課題でした。研究者は、異なる圧力で計算されたλおよびωlogの1100以上の値を持つ584の原子構造のデータセットを慎重にキュレーションしました。λおよびωlogのためのMLモデルが開発され、マテリアルプロジェクトデータベースの80,000以上のエントリをスクリーニングし、Tcが約10−15KおよびP = 0に等しい可能性のある2つの熱力学的かつ力学的に安定した材料が発見されました(第一原理計算による)。研究者は、原子構造を数値ベクトルに変換するためにmatminerパッケージを使用し、MLアルゴリズムとしてガウスプロセス回帰を使用してこれを達成しました。 研究者は、35の候補に対して超電導特性を予測するためにMLモデルを使用しました。その中で、最も高い予測されたTc値を持つものは6つでした。いくつかは不安定であり、さらなる安定化計算が必要でした。残りの2つの候補、すなわちCrHとCrH2の立方構造の安定性を検証した後、第一原理計算を使用してそれらの超電導特性を計算しました。研究者は、予測結果の正確性を報告された値の2-3%以内と確認するために、ローカル密度近似(LDA)XC機能を使用して追加の計算を実施しました。また、研究者は、これらの超電導体の合成可能性を調査するために、無機結晶構造データベース(ICSD)での起源を追跡しました。これらは過去に実験的に合成されたことがわかり、将来のテストで予測された超電導性が確認されることを期待しています。 将来の研究では、研究者はデータセットを拡大し多様化させ、ディープラーニング技術を使用し、逆設計戦略を統合して実質的に無限の材料を効率的に探索するためのMLアプローチを向上させる予定です。研究者は、高Tc超電導体の発見を容易にするためにアプローチをさらに改善し、実世界のテストと合成のために実験の専門家と協力することを想定しています。 論文をチェックしてください。この研究に関しては、研究者に全てのクレジットがあります。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している26k+ ML SubReddit、Discordチャンネル、およびメールニュースレターに参加するのをお忘れなく。 このAI論文は、ジョージア工科大学の研究者が、高速かつ信頼性のある方法で潜在的な超電導体の新たな候補を特定するための人工知能手法を提案しています。この記事はMarkTechPostで最初に掲載されました。

「ChatGPTなどの大規模言語モデル(LLM)がファインチューニングにおいて教師あり学習ではなく強化学習を使用する理由」の5つの理由

過去数ヶ月間でのGenerative Artificial Intelligenceの大成功により、Large Language Modelsは絶えず進化と改善を遂げています。これらのモデルは、いくつかの注目に値する経済的および社会的変革に貢献しています。OpenAIが開発した人間と同様に有意義なテキストを生成できる自然言語処理モデルであるChatGPTは、質問に答えたり、長い段落を要約したり、コードやメールを作成したりすることができます。Pathways Language Model(PaLM)、Chinchillaなどの他の言語モデルも、人間を模倣する上で優れたパフォーマンスを示しています。 Large Language Modelsは、fine-tuningに強化学習を使用しています。強化学習は、報酬システムに基づくフィードバック駆動の機械学習手法です。エージェントは、特定のタスクを完了し、その行動の結果を観察することで、環境でのパフォーマンスを学習します。エージェントは、良いタスクごとに正のフィードバックを受け取り、悪い行動ごとにペナルティを受けます。ChatGPTのようなLLMは、強化学習のおかげで優れたパフォーマンスを発揮しています。 ChatGPTは、モデルのバイアスを最小化するためにHuman Feedbackからの強化学習(RLHF)を使用しています。しかし、なぜ教師あり学習ではなく強化学習を使用するのでしょうか?基本的な強化学習のパラダイムは、モデルをトレーニングするために使用されるラベルで構成されています。しかし、なぜこれらのラベルを教師あり学習のアプローチで直接使用できないのでしょうか?AIおよびMLの研究者であるSebastian Raschkaは、なぜ教師あり学習の代わりにfine-tuningに強化学習が使用されるのかについて、いくつかの理由を彼のツイートで共有しています。 教師あり学習を使用しない最初の理由は、それがランクのみを予測するためです。それは整合性のある応答を生成しないだけでなく、モデルはトレーニングセットに似た応答に高いスコアを与えることを学習します。一方、RLHFはランキングスコアだけでなく、生成された応答の品質を推定するように訓練されます。 Sebastian Raschkaは、教師あり学習を使用してタスクを制約最適化問題として再定式化するアイデアを共有しています。損失関数は、出力テキストの損失と報酬スコアの項を組み合わせます。これにより、生成された応答とランクの品質が向上します。ただし、このアプローチは、正しく質問-回答のペアを生成することを目的とする場合にのみ成功します。しかし、ユーザーとChatGPTの間で整合性のある会話を可能にするためには、累積報酬も必要であり、これは教師あり学習では提供できません。 教師あり学習は、トークンレベルの損失を最適化するためにクロスエントロピーを使用します。テキストパッセージのトークンレベルでは、応答の個々の単語を変更しても全体の損失にはほとんど影響がありませんが、整合性のある会話を生成するという複雑なタスクでは、単語が否定されると文脈が完全に変わる可能性があります。したがって、文脈と一貫性を考慮するためには、教師あり学習に頼ることは十分ではなく、RLHFが必要です。 教師あり学習はモデルをトレーニングするために使用できますが、経験的にはRLHFの方が優れたパフォーマンスを発揮することがわかっています。2022年の論文「Learning to Summarize from Human Feedback」は、RLHFがSLよりも優れた性能を発揮することを示しています。その理由は、RLHFが整合性のある会話の累積報酬を考慮する一方、SLはトークンレベルの損失関数のために捉えることができないためです。 InstructGPTやChatGPTなどのLLMは、教師あり学習と強化学習の両方を使用しています。この2つの組み合わせは、最適なパフォーマンスを得るために重要です。これらのモデルでは、モデルはまずSLを使用して基本的な構造と内容を学習し、その後RLを使用してさらに更新されます。SLステージでは、モデルはタスクの基本的な構造と内容を学習しますが、RLHFステージでは、モデルの応答をより正確に洗練します。…

ニューラルネットワークにおける活性化関数の種類

ニューラルネットワークの活性化関数は、ディープラーニングの重要な部分であり、トレーニングモデルの精度と効率を決定します。大規模なニューラルネットワークの作成や分割に使用されるモデルとディープラーニングモデルの出力を決定します。活性化関数は、関連するデータに焦点を当てながら、他のデータを破棄するため、ニューラルネットワークにとって貴重なツールです。他の関数と同様に、活性化関数(転送関数)は入力を受け取り、その入力に比例する出力を返します。ニューラルネットワークのノードの活性化関数は、特定の入力または入力グループに対するノードの出力を指定します。 意図した結果を達成するために、どのニューロンを活性化または非活性化するか効果的に選択します。入力も非線形に変換され、高度なニューラルネットワークでのパフォーマンスが向上します。1から-1までの情報は、活性化関数で出力を正規化することができます。ニューラルネットワークは通常、何百万ものデータポイントでトレーニングされるため、活性化関数が高速であり、結果を計算するために必要な時間を最小限に抑えることが重要です。 さて、ニューラルネットワークの構造を確認し、ニューラルネットワークアーキテクチャがどのように組み立てられ、ニューラルネットワークにどの要素が存在するかを見てみましょう。 人工ニューラルネットワークは、多くのリンクされた個々のニューロンを含んでいます。各ニューロンの活性化関数、バイアス、および重みが指定されます。 入力層 – ドメインの生データが入力層に送られます。この層は計算が行われる最も低いレベルです。これらのノードが行う唯一のことは、データを次の隠れ層に中継することです。 隠れ層 – 入力層から特徴を受け取った後、隠れ層はさまざまな計算を行い、結果を出力層に渡します。レイヤー2のノードは表示されず、基礎となるニューラルネットワークの抽象化レイヤーを提供します。 出力層 – ネットワークの隠れ層の出力がこの層でまとめられ、ネットワークの最終的な値が提供されます。 活性化関数の重要性 線形方程式は1次の多項式であるため、活性化関数を持たないニューラルネットワークは単なる線形回帰モデルです。解くのは簡単ですが、複雑な問題や高次の多項式に対処する能力は制限されています。 活性化関数は、ニューラルネットワークに非線形性を提供するために使用されます。活性化関数の計算は、順伝播の各層で追加のステップを行いますが、その手間は十分に報われます。 活性化関数がない場合、各ニューロンは重みとバイアスを使用して入力に対する線形変換を行います。2つの線形関数の合成は、それ自体が線形関数です。したがって、ニューラルネットワークの隠れ層の総数はその動作に影響を与えません。 活性化関数の種類 ニューラルネットワークは、異なる活性化関数が使用される3つの主要な部分に分類されます。 バイナリステップ関数 線形関数 非線形活性化関数 バイナリステップニューラルネットワークの活性化関数 バイナリステップ関数…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us