Search Results A

「大規模な言語モデルは、多肢選択問題の選択の順序に敏感なのか」という新しいAI研究に答える

大規模言語モデル（LLM）は、様々なタスクで優れたパフォーマンスを発揮するため、非常に注目を集めています。これらのモデルは、監督モデルや一部の状況では人間さえも凌駕することが頻繁にあります。しかし、これらのモデルの機能的な制約は、実世界での有用性に影響を与える可能性があるという以前の研究結果が示しています。これらのモデルは、プロンプト言語の微妙なニュアンス、フューショットデモンストレーション、およびこれらのデモンストレーションの組織に対する感度が大きなパフォーマンスの問題となっています。この感度は、LLMの能力の客観的評価を妨げます。 Megagon Labsの最近の研究では、研究者グループが複数選択問題の取り扱いにおけるLLMの堅牢性を研究しました。複数選択問題は、推論能力や事実の取得能力をテストするための人気のある課題です。調査の主な焦点は、複数選択テストの選択肢の並び替えに対するLLMの反応です。回答選択肢が変更されると、詳細な研究の結果、複数のベンチマークで約13%から75%までのパフォーマンスの差が明らかになります。徹底的な分析の結果、観察された感度は、LLMが予測のトップ2またはトップ3のオプション間で確信が持てない場合に発生するという仮説が提案されました。質問の文言によって引き起こされる位置バイアスにより、一部のオプションの順序はこれらのトップ選択肢の中でいくつかの予測を好む傾向があります。トップ2のオプションには、モデルの傾向を強調または軽減する興味深いパターンが見られることがあります。バイアスを強調するためにチームが使用した最適戦略は、トップ2リストの最初と最後の選択肢を順番に配置することです。一方、バイアスを緩和するためにこれらの選択肢を周囲のオプションに散らばらせることが提案されています。仮説化された感度を検証するためにさまざまな研究が行われました。さらに、2つの異なるキャリブレーション技術を使用して、LLMの予測を改善しました。数多くのモデルとベンチマークで最大8パーセントポイントのパフォーマンス向上が見られ、顕著な改善がもたらされました。この研究は、LLMのプロンプトの側面とその配置に対する感度に直面する必要性を強調しています。複数選択問題の並び替えられた選択肢への回答の微妙なニュアンスを調査することにより、LLMの意思決定手続きに光を当てることができました。これにより、LLMの実世界での利用可能性と信頼性が向上する可能性があります。

CMU（カーネギーメロン大学）と清華大学の研究者が提案した「Prompt2Model：自然言語の指示から展開可能なAIモデルを生成する汎用メソッド」

与えられた問題を解決するためにNLPモデルを構築したいと考えたとします。まず、タスクの範囲を定義し、その後、意図したシステムの振る舞いを特定するデータを見つけるか作成し、適切なモデルのアーキテクチャを選択し、モデルをトレーニングし、評価を通じて性能を評価し、最後に実世界での使用のために展開します。研究者たちは、このような包括的なNLPモデルを1行のコードでプロトタイプ化することが可能になりました！ https://arxiv.org/abs/2308.12261 Prompt2Modelは、シンプルなプロンプトを使用してシステムの振る舞いを指定でき、同時にすべての利点を保持した展開可能な特殊な目的のモデルを提供するシステムです。上の図は、Prompt2Modelの動作アーキテクチャを示しています。基本的には、ユーザープロンプトからタスクに関する必要な詳細を抽出し、タスク関連の情報を収集し結合し、以下の異なるチャネルを使用して展開する自動パイプラインとして機能します。データセットの取得：プロンプトが与えられた場合、最初のタスクは、ユーザーのタスクの説明をサポートする既存の手動注釈付きデータを見つけることです。データセットの生成：幅広いタスクをサポートするために、ユーザーの特定の要件に従って合成トレーニングデータを生成するためのデータセットジェネレータが存在します。プロンプトパーサーによって解析されたユーザー固有の要件には、コンテキスト学習を備えたLLMが含まれており、OpenAIのgpt-3.5-turbo-0613を使用してユーザープロンプトをセグメント化するために使用されます。モデルの取得：提供されたプロンプトを使用して、ユーザーの目標に適した事前学習済み言語モデルが選択されます。この選択されたモデルは学生モデルとして機能し、生成および取得したデータを用いてさらに微調整および評価されます。 Webアプリ：最後に、訓練されたモデルと対話するための使いやすいグラフィカルユーザーインターフェースが存在します。このGradioを使用して作成されたWebアプリケーションは、簡単にサーバー上に公開されることができます。結論として、Prompt2Modelは、小規模で競争力のあるNLPシステムを迅速に構築するためのツールです。手動のデータ注釈やアーキテクチャなしに、数時間でLLMを上回るタスク固有のモデルを直接生成することができます。拡張性のある設計を持つモデルは、モデルの蒸留、データセットの生成、合成評価、データセットの取得、モデルの取得といった新しい技術の探索のためのプラットフォームを提供することができます。将来を見据えると、Prompt2Modelは協力的なイノベーションの触媒となることができます。異なる課題を提案することで、研究者は将来のフレームワークの各コンポーネントにおける多様な実装と改善の発展を促すことを目指しています。

「🦜🔗PydanticとLangchainを使用して堅牢なMLバックエンドを構築する」

「データサイエンティストは一般的に優れたプログラマーではないことがよく知られています彼らは高度な理論的なスキルを持ち、数学や統計学でも優れた成績を収めることが多いですが、しかし…」

JavaScriptを使用したクライアントサイドのフォーム検証

この記事の目的は、JavaScriptでフォームのバリデーションを行う方法を学ぶことです学習目的のために、HTML、CSS、および...を使用して従業員の記録管理ウェブサイトのフォームを設計しました

ETHチューリッヒの研究者が、大規模な言語モデル（LLM）のプロンプティング能力を向上させるマシンラーニングフレームワークであるGoT（Graph of Thoughts）を紹介しました

人工知能（AI）は、大規模言語モデル（LLM）の使用が増えています。特に、Transformerアーキテクチャのデコーダーのみの設計に基づくLLMの一種は、最近非常に人気があります。GPT、PaLM、LLaMAなどのモデルは、最近非常に人気があります。プロンプトエンジニアリングは、LLMを使用して、タスク固有の指示を入力テキストに埋め込むための戦略的な技術であり、多様な問題に取り組むための成功したリソース効率的な方法です。これらの指示が適切に記述されていれば、LLMは自己回帰トークンベースのアプローチを使用して関連性のあるテキストを作成し、タスクを完了することができます。 Chain-of-Thought（CoT）メソッドは、プロンプトエンジニアリングを拡張したものです。CoTでは、タスクの説明に加えて、思考や中間ステップを提供する入力プロンプトがあります。これにより、モデルの更新が必要なく、LLMの問題解決能力が大幅に向上します。Chain-of-ThoughtやTree of Thoughts（ToT）などの既存のパラダイムとLLMの能力を比較すると、最近、Graph of Thoughts（GoT）フレームワークが導入されました。 GoTはデータを任意のグラフとして表現し、LLMがより柔軟な方法でデータを生成および処理することを可能にします。このグラフでは、各情報の個別なLLMの思考は頂点として表示され、それらの間の接続と依存関係はエッジとして表示されます。これにより、異なるLLMのアイデアを組み合わせてより強力で効果的な結果を生み出すことができます。これは、これらの思考をグラフ内で組み合わせて相互依存させることによって実現されます。GoTは複雑な思考のネットワークを記録することができ、思考を制限する線形のパラダイムとは対照的です。これにより、様々なアイデアを組み合わせて一貫した回答にすることが可能になり、複雑な思考ネットワークをその要素にまで絞り込み、フィードバックループを通じてアイデアを改善することができます。 GoTの既存の手法との比較における優れたパフォーマンスは、その効果を示しています。GoTは、ソートテストにおいて、ソートの品質を62％向上させ、同時に計算費用を31％以上削減します。これらの結果は、GoTがタスクの正確さとリソース効率をバランスさせる能力を示しています。GoTの拡張性は、その最も顕著な利点の1つです。フレームワークは、新しいアイデアの変換に容易に適応できるため、創造的なプロンプトスキームを導く柔軟性があります。この機敏性は、LLMの研究とアプリケーションの変化する風景を航海するために不可欠です。 GoTフレームワークを確立することにより、LLMの推論を人間の思考プロセスと脳システムとの調整を大幅に前進させています。思考は、人間の思考プロセスと脳の思考プロセスの両方で、複雑なネットワークで相互作用し、枝分かれし、影響し合います。したがって、GoTは、従来の線形技術とこれらの洗練されたネットワークのような思考プロセスとのギャップを埋めることにより、LLMのスキルと難しい問題を処理する能力を向上させます。

「2023年の最高のAIアバタージェネレーター10選」

ゲームの冒険に最適なバーチャルなキャラクターを選ぶというスリルを覚えていますか？今日では、バーチャルなアイデンティティはゲームを超えて私たちのオンラインの生活に溶け込んでいます。それらは単なる遊びではなく、ソーシャルメディアやデジタルプラットフォーム上で私たちを表すものです。AIアバタージェネレータは、個人のためにパーソナライズされたアバターを作成するために広く使用されています。この記事では、10の最高のAIアバタージェネレータについてご紹介します。 AIアバタージェネレータとは何ですか？ニューラルネットワークと人工知能アルゴリズムを使用して、AIアバタージェネレータは個々の人やチームのためにパーソナライズされたアバターを作成します。ユーザーは自分のセルフィー、肖像画、全身画像、またはテキストのプロンプトをアップロードしてパーソナライズされたアバターを生成する必要があります。これらは、倫理的な懸念に沿ってプライバシーを保ちながら機能します。異なるAIアバタージェネレータは、革新的で創造的なアバターを生成するためのユニークな機能を提供しています。一部のAIアバタージェネレータは自動化されていますが、他のものはユーザーのニーズに応じてカスタマイズ可能です。ユニークなアバターを作成する目的は、AIアバタージェネレータを選ぶ際の決定基準の一つであるべきです。トップ10のAIアバタージェネレータ以下は、参考のための有料および無料のトップ10のAIアバタージェネレータのリストです： PicsArt Synthesia Aragon Fotor AIアバタージェネレータ Lensa AIマジックアバター Magic AIアバター Reface Dawn AI Starry AI Photoleap PicsArt PicsArtは他のソフトウェアアプリとは異なり、テキストやプロンプトを必要としません。ユーザーはアバターを生成するためにプリセットを選択し、好みに応じてカスタマイズする必要があります。アバターはギャラリーから画像を選択して生成することができます。PicsArtでは、AndroidやiPhoneであれば、10から30枚の写真で50から200のアバターを作成することができます。無料版ではアバターの生成は利用できません。プレミアム機能を利用するためには、ソフトウェアの有料版にアクセスする必要があります。…

「ChatGPTのようなLLMの背後にある概念についての直感を構築する-パート1-ニューラルネットワーク、トランスフォーマ、事前学習、およびファインチューニング」

「たぶん私だけじゃないと思いますが、1月のツイートで明らかになっていなかったとしても、私は最初にChatGPTに出会ったときに完全に驚きましたその体験は他のどんなものとも違いました…」

「LegalBenchとは：英語の大規模言語モデルにおける法的推論を評価するための共同構築されたオープンソースAIベンチマークです」

アメリカの弁護士や管理者は、大規模言語モデル（LLM）の進歩により、法律の専門職を再評価しています。支持者によれば、LLMは、ブリーフの執筆や企業のコンプライアンスなどの仕事にアプローチする弁護士の方法を変える可能性があります。また、法的サービスのアクセス可能性を高めることで、アメリカの長年の司法へのアクセス問題の解決にも貢献するかもしれません。この見解は、LLMが法的な仕事により適しているとされる独自の特性を持っていることに影響を受けています。法的言語モデルの作成に関連する手作業のデータ注釈に関連する費用は、モデルが少量のラベル付きデータから新しい仕事を学習する能力により、削減されるでしょう。彼らはまた、複雑な専門用語を含む複雑なテキストを解読し、複数の思考モードを統合した推論手続きに従事する法律の厳密な研究にも適しています。しかし、法的アプリケーションはしばしば高いリスクを伴うため、この熱意を冷ます要素も存在します。研究により、LLMは攻撃的で欺瞞的で事実に反した情報を生み出すことが示されています。もしこれらの行動が法的な文脈で繰り返された場合、歴史的に弱い立場にある人々が不釣り合いな重荷を負う可能性があります。そのため、安全性の影響を考慮して、法的な文脈でのLLMの測定のためのインフラストラクチャと手順を構築するための緊急の必要性があります。しかし、LLMが法的推論を使用できるかどうかを判断したいと考える実務者は、重大な障壁に直面しています。最初の障壁は、法的ベンチマークのエコロジーが限られていることです。例えば、現在のほとんどのベンチマークは、モデルが調整またはタスク固有のデータによるトレーニングを通じて学習するタスクに焦点を当てています。これらの基準は、法的業務に興味を持たせるLLMの特性を捉えていません。同様に、ベンチマーキングの取り組みは、Uniform Bar Examなどの専門資格試験に焦点を当てていますが、これらは常にLLMの現実世界での応用を示しているわけではありません。2番目の問題は、弁護士と確立された基準が「法的推論」という用語をどのように定義しているかの不一致です。現在使用されているベンチマークは、法的知識や法律が必要とされる仕事を「法的推論」として広く分類しています。一方、弁護士は、「法的推論」というフレーズが広範であり、さまざまな種類の推論を含んでいることを認識しています。様々な法的責任には異なる能力と知識体系が必要です。既存の法的基準はこれらの違いを特定する必要があるため、法的実務者にとっては、現代のLLMのパフォーマンスを法的な能力の感覚の中で理解することは困難です。法的専門家がベンチマークプロセスに積極的に関与する必要があるため、法的コミュニティがLLMの法的推論能力を厳密に評価するためには、これらの制約が存在します。これを実現するために、彼らはLEGALBENCHを導入します。これは、英語のための法的推論の学際的な共同ベンチマークの初期段階の構築を表しています。この研究の著者たちは、過去1年間にわたって協力して162のタスク（36の異なるデータソースから）を構築しました。各タスクは特定の形式の法的推論をテストします。彼らは、さまざまな法律とコンピュータ科学のバックグラウンドを活用しました。彼らによれば、LEGALBENCHは最初のオープンソースの法的ベンチマークプロジェクトです。このベンチマークデザインの方法は、専門家が評価タスクの開発に積極的に参加することを示しており、LLMの研究における多学科的な協力の一形態を具体化しています。彼らはまた、これが法律の評価と推進において法的実務者が果たす重要な役割を示していると主張しています。彼らは、LEGALBENCHの研究プロジェクトとして3つの側面を強調しています： 1. LEGALBENCHは、少量のラベル付きデータから学習するfew-shot LLMパラダイムに適した形式に再構築された既存の法的データセットと、この作業の著者としてもリストされている法的専門家によって生成および提供された手作りのデータセットの組み合わせを使用して構築されました。この協力に参加した法的専門家は、LLMの法的能力を確認するための興味深い法的推論能力をテストするデータセットまたは実用的な価値のあるLLMの応用を表すデータセットを提供するよう招待されました。その結果、LEGALBENCHの課題での優れたパフォーマンスは、弁護士が自分のLLMの法的能力に対する意見を確認するために使用したり、ワークフローに役立つLLMを見つけるために使用したりすることができる関連データを提供します。 2. LEGALBENCHのタスクは、課題を完了するために必要な法的推論の種類を詳細に説明した分類学に配置されています。この分類学は、法的コミュニティに共通のフレームワークから引用し、既に馴染みのある語彙と概念的な枠組みを使用しているため、法律専門家はLLMのパフォーマンスについての議論に積極的に参加することができます。 3. 最後に、LEGALBENCHはさらなる研究のためのプラットフォームとして設計されています。LEGALBENCHは、法律に関するトレーニングを受けていないAI研究者がさまざまな活動を促進し評価する方法を知るための大きな支援を提供しています。彼らはまた、法律実務者からの作業を引き続き募集し、LEGALBENCHを拡大する意図も持っています。なぜなら、法律コミュニティがLLMsの潜在的な影響と機能との相互作用をさらに行うようになるからです。彼らは以下の内容をこの論文に貢献しています： 1. 必要な正当化に基づいて法的義務を分類し特徴づけるためのタイポロジーを提供しています。このタイポロジーは、弁護士が法的推論を説明するために使用するフレームワークに基づいています。 2. 次に、LEGALBENCHの活動の概要を示し、作成方法、重要な異質性の次元、制約について説明しています。付録では、各割り当ての詳細な説明が記載されています。 3. さまざまなサイズの11つの異なるファミリーから20のLLMsを分析するために、彼らは最後のステップとしてLEGALBENCHを使用しています。彼らはいくつかのプロンプトエンジニアリングの戦術の初期調査を行い、さまざまなモデルの効果についてコメントを述べています。これらの調査結果は、LEGALBENCHが促進する可能性のあるいくつかの研究トピックを明らかにしています。彼らは、さまざまなコミュニティがこのベンチマークに興味を持つと予想しています。実務家は、これらの活動を使用して、LLMsを現行プロセスに組み込む方法やその効果を判断することができます。LLMsが可能なさまざまなアノテーションの種類や、許可されるさまざまなタイプの実証的な学術研究は、法学アカデミックにとって興味深いものです。特殊な語彙的特徴と難解なタスクが新たな洞察をもたらす可能性のある法律のような分野でこれらのモデルの成功は、コンピュータサイエンティストにとっても興味深いでしょう。続ける前に、彼らはこの作業の目標が、計算技術が弁護士や法務スタッフを置き換えるべきかどうかを評価することではないこと、またそのような置き換えの利点と欠点を理解することでもないことを明確にしています。代わりに、彼らは影響を受けるコミュニティと関係者が、LLMsが特定の法的責任を果たす能力をどの程度持っているかをよりよく理解するためのアーティファクトを作成したいと考えています。これらの技術の普及を考えると、この問題の解決は、計算法的な法的ツールの安全で倫理的な使用を保証する上で重要だと彼らは考えています。

2023年9月にチェックすべき40以上のクールなAIツール

DeepSwap DeepSwapは、説得力のあるディープフェイク動画や画像を作成したい人向けのAIベースのツールです。ビデオ、画像、ミーム、昔の映画、GIFなどをリフェイスして簡単にコンテンツを作成することができます。アプリにはコンテンツの制限はないため、ユーザーはどんなコンテンツの素材でもアップロードできます。さらに、初めて製品の購読ユーザーになると50％割引が適用されます。 Aragon Aragonを使用して、驚くべきプロフェッショナルなヘッドショットを手軽に作成しましょう。最新のAI技術を活用して、自分自身の高品質なヘッドショットを瞬時に作成します！写真スタジオの予約やドレスアップの手間を省いてください。写真の編集と修正を迅速に行い、数日後ではなくすぐに手に入れましょう。次の仕事を手に入れるためのアドバンテージとなるHD画像40枚を受け取りましょう。 AdCreative.ai AdCreative.aiを使用して、広告とソーシャルメディアの力を最大限に引き出しましょう。数秒で生成される高変換率の広告とソーシャルメディア投稿によって、創造的な作業に何時間も費やす必要はありません。AdCreative.aiで成功を最大化し、努力を最小限に抑えましょう。 Hostinger AIウェブサイトビルダー Hostingerは、すべてのウェブサイトオーナーに最適なAIウェブサイトビルダーを作成するための最先端の人工知能エンジンの力を活用しています。このビルダーは、デザインプロセスを案内し、ニーズに合わせたレイアウト、カラースキーム、コンテンツ配置を提案します。あらゆるデバイスに対応したレスポンシブデザインを維持しながら、細部のカスタマイズの自由を享受しましょう。 Otter AI 人工知能を使用して、Otter.AIは共有可能で検索可能、アクセス可能、安全な会議のメモのリアルタイムトランスクリプトをユーザーに提供します。音声を記録し、メモを取り、スライドを自動的にキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Notion Notionは、高度なAI技術を活用してユーザーベースを拡大しようとしています。最新の機能であるNotion AIは、ノートの要約、会議でのアクションアイテムの特定、テキストの作成や変更など、ユーザーをサポートする堅牢な生成AIツールです。Notion AIは、煩雑なタスクを自動化し、ユーザーに提案やテンプレートを提供することで、ワークフローを合理化し、ユーザーエクスペリエンスを簡素化して改善します。 Codium AI 忙しい開発者のための意味のあるテストを生成します。CodiumAIを使用すると、IDE内で提案される非自明なテスト（自明なテストもあります！）を簡単に取得できます。スマートにコードを書き、価値を創出し、プッシュする際の自信を持ちましょう。CodiumAIを使用すると、開発者はより迅速かつ自信を持ってイノベーションし、コードのテストと分析に費やす時間を節約することができます。思った通りにコードを書きましょう。 Docktopus AI Docktopusは、100以上のカスタマイズ可能なテンプレートを備えたAIパワードのプレゼンテーションツールで、オンラインコンテンツの作成を簡素化します。数秒でプロフェッショナルなプレゼンテーションを作成しましょう。 SaneBox AIは未来ですが、SaneBoxでは過去12年以上にわたってAIがメールを成功裏に支えてきました。平均ユーザーは、インボックスの管理に週に3時間以上の時間を節約しています。…

メタAIは、「Code Llama」という最先端の大規模言語モデルをリリースしましたこれはコーディングのためのものです

ソフトウェア開発の絶えず進化する景色において、効率的で生産的なコーディングツールの必要性はこれまでになく大きくなっています。開発者は、堅牢でよく文書化されたコードを書きながら、デバッグやコード補完の複雑さを乗り越えるという課題に直面しています。コードベースがより複雑になるにつれて、これらの課題に対する革新的な解決策を見つけることが重要となります。伝統的なコーディングツールや手法は有用ですが、現代のソフトウェア開発の要求に対して時には不十分な場合があります。既存のコーディングツールやフレームワークは、コードの提案や補完を提供する統合開発環境（IDE）から、プロンプトに基づいてコードスニペットを生成できるコード固有の言語モデル（LM）まで、プログラマに貴重なサポートを提供してきました。しかし、これらのツールは、精度、効率、包括性の面で制約があることがしばしばあります。現代のコーディングタスクの複雑さは、自然言語の指示と複雑なコードロジックの両方を理解できるより高度なアプローチを必要とします。 Meta AIによるコーディングのための生成AIの画期的な進歩であるCode Llamaに出会ってください。Code Llamaは、最新のLlama 2モデルをコード固有のデータセットでさらにトレーニングすることで開発され、自然言語の指示と複雑なコード生成とのギャップを埋めます。生産性を向上させ、コーディングの支援を提供する潜在能力を持つCode Llamaは、あらゆるスキルレベルの開発者にとって画期的な存在となります。 Code Llamaは、さまざまなコーディングニーズに対応する多機能なツールです。コードスニペットを生成したり、コードに関する自然言語の説明をしたり、コード補完をサポートしたり、デバッグタスクを支援したりすることができます。Python、C++、Javaなどの人気のあるプログラミング言語をサポートするCode Llamaは、幅広いコーディングシナリオに対応しています。 Code Llamaの注目すべき特徴の1つは、より長い入力シーケンスで動作する能力です。これにより、開発者はコードベースからより多くのコンテキストを提供することができます。これにより、関連性の高い正確なコード生成が可能となり、特に大規模なコードベース内の複雑な問題のデバッグに価値があります。 Code Llamaの効果を評価するために、人気のあるコーディングチャレンジを使用した広範なベンチマークテストが行われました。Code Llamaのパフォーマンスは、オープンソースのコード固有の言語モデルとその前身であるLlama 2と比較されました。その結果、Code Llamaの34Bバリアントは、HumanEvalやMostly Basic Python Programming（MBPP）などのコーディングベンチマークで高いスコアを獲得しました。これらのスコアは既存のソリューションを上回り、広く認識されているAIモデルに対する競争力を示しました。コーディングツールの景色において、Code Llamaはタスクへのアプローチの仕方を変える可能性を持つ画期的なツールとして際立っています。オープンかつコミュニティ主導のアプローチを提供することで、Code Llamaは革新を促進し、責任ある安全なAI開発プラクティスを奨励します。…

Learn more about Search Results A - Page 262