Learn more about Search Results MarkTechPost - Page 148
- You may be interested
- Q-Learningの紹介 パート2/2
- UCバークレーとMeta AIの研究者らは、トラ...
- ゾマト感情分析
- カスタムデータセットのセグメンテーショ...
- ローカルLLM推論を10倍速く実行する(244 ...
- 「ビジネスアイデアのためのアレックス・...
- メルティングポット:マルチエージェント...
- 「熟練した実践」を用いてデータサイエン...
- 「サム・アルトマンがマイクロソフトでAI...
- FraudGPT AIを活用したサイバー犯罪ツール...
- 新技術における公共の利益の定義
- 「2024年の包括的なNLP学習パス」
- アルファフォールドの力を世界の手に
- グリーンAI:AIの持続可能性を向上させる...
- Hugging FaceモデルをGradio 2.0で使用し...
中国の研究者たちは、構造化データ上でのLLMのゼロショット推論能力を向上させるためにStructGPTを提案しています
大規模言語モデル(LLM)は、最近、自然言語処理(NLP)の分野で大きな進展を遂げています。既存の研究によれば、LLMは、タスク固有の微調整なしで、特に作成されたプロンプトの支援を受けて、さまざまなタスクを完了するためのゼロショットおよびフューショットの能力を持っています。効果的であるにもかかわらず、現在の研究によれば、LLMは事実に基づかない情報を生成する可能性があり、ドメイン固有のまたはリアルタイムの専門知識を習得する能力に欠ける場合があります。これらの問題は、外部の知識源をLLMに追加して誤った生成を修正することで直接解決することができます。 データベースや知識グラフなどの構造化データは、さまざまなリソース間でLLMが必要とする知識を伝達するために定期的に使用されています。しかし、構造化データはプレトレーニング中にLLMが接触していない固有のデータ形式やスキーマを使用するため、それらを理解するために支援が必要な場合があります。構造化データは、プレーンテキストとは異なり、一貫した方法で配置され、特定のデータモデルに従います。データテーブルは行ごとに列インデックス化されたレコードとして配置されますが、知識グラフ(KG)はヘッドとテールのエンティティ間の関係を記述するファクトトリプルとして頻繁に構成されます。 構造化データのボリュームは頻繁に膨大ですが、入力プロンプトにすべてのデータレコードを収容することは不可能です(たとえば、ChatGPTでは最大コンテキスト長が4096です)。構造化データをLLMが簡単に理解できるようにするために、構造化データを文に直線化するというシンプルな解決策があります。ツール操作の技術は、LLMの前述の困難に関する能力を向上させるために彼らを活気づけるものです。彼らの戦略の基本的なアイデアは、特殊なインターフェースを使用して構造化データレコードを変更すること(たとえば、テーブルの列を抽出することなど)です。これらのインターフェースの助けを借りて、彼らは特定の活動を完了するために必要な証拠をより正確に特定し、データレコードの検索範囲を成功裡に制限することができます。 中国人民大学、北京市ビッグデータ管理および分析方法研究所、中国電子科技大学の研究者たちは、この研究で、特定のタスクに適したインターフェースを設計し、それらをLLMの推論に使用することに焦点を当てています。これは、インターフェースを拡張した手法を適用するために解決する必要のある2つの主要な問題です。この方法により、LLMはインターフェースから収集した証拠に基づいて意思決定を行うことができます。そのため、彼らはこの研究で、StructGPTと呼ばれる反復的な読み取り-推論(IRR)メソッドを提供しています。この方法は、構造化データに基づいたタスクを解決するために使用されます。彼らの方法は、さまざまな活動を完了するために2つの主要な責任を考慮しています:関連するデータを収集すること(読み取り)と、正しい応答を仮定するか、次のアクションの戦略を策定すること(推論)。 彼らの知る限り、これは異なる形式の構造化データ(テーブル、KG、DBなど)に対してLLMの推論を支援する方法について初めて研究したものです。基本的に、彼らはLLMの読み取りと推論のプロセスを分離しています:彼らは構造化データインターフェースを使用して正確で効果的なデータアクセスとフィルタリングを実現し、次の動作やクエリへの回答を決定するために彼らの推論能力に依存しています。外部インターフェースを使用することで、彼らは特定のインターフェースとの連動した直線化生成プロセスを提案し、LLMが構造化データを理解し、意思決定を行うのを支援することができます。このプロセスを提供されたインターフェースで繰り返すことで、彼らは徐々にクエリに対する望ましい応答に近づくことができます。 彼らは、その手法の効果を評価するために、さまざまなタスク(KGに基づいた質問応答、テーブルに基づいた質問応答、テキストからSQLへの変換など)で包括的な試験を行っています。8つのデータセットでの実験結果は、彼らの提案手法が構造化データにおけるChatGPTの推論パフォーマンスを大幅に向上させることが示されており、完全データの教師付き調整手法と競合するレベルにまで達することがわかりました。 • KGQA. 彼らの手法により、KGQAチャレンジのWebQSPでのHits@1が11.4%向上しました。彼らの手法の支援を受けて、ChatGPTのマルチホップKGQAデータセット(MetaQA-2hopおよびMetaQA-3hopなど)におけるパフォーマンスは、それぞれ62.9%と37.0%向上することができます。 • QAテーブル. TableQAチャレンジでは、ChatGPTを直接利用する場合と比較して、彼らの手法によりWTQとWikiSQLでの指示の正確性が約3%から5%向上します。TabFactでは、テーブルの事実検証における正確性が4.2%向上します。 • テキストからSQLへ。テキストからSQLへのチャレンジでは、彼らの手法はChatGPTを直接利用する場合に比べて、3つのデータセットで実行精度を約4%向上させます。 著者はSpiderとTabFactのコードを公開しており、これらはStructGPTのフレームワークを理解するのに役立ちますが、全体のコードベースはまだ公開されていません。
中国の研究者たちは、構造化データに対するLLMのゼロショット推論能力を向上させるために、StructGPTを提案しています
大規模言語モデル(LLM)は、最近自然言語処理(NLP)で大きな進歩を遂げています。既存の研究は、LLMが特定のタスクにおいて、タスク固有の微調整なしで特に作成されたプロンプトの支援を受けて、ゼロショットおよびフューショットの能力を持ってさまざまなタスクを完了することが示されています。しかし、現在の研究によると、LLMは事実に反する不正確な情報を生成することがあり、ドメイン固有のまたはリアルタイムの専門知識を習得する能力には欠けているという問題があります。これらの問題は、LLMに外部の知識源を追加して間違った生成を修正することで直接解決できます。 データベースや知識グラフなどの構造化データは、さまざまなリソース間でLLMが必要とする知識を伝えるために定期的に使用されています。ただし、構造化データはLLMが事前学習中に触れることのなかった固有のデータ形式やスキーマを使用するため、理解するための支援が必要な場合があります。構造化データは、プレーンテキストとは異なり、一貫した方法で配置され、特定のデータモデルに従います。データテーブルは列インデックスのレコードで行ごとに配置され、知識グラフ(KG)は頭と末尾のエンティティ間の関係を記述する事実のトリプルとして頻繁に構成されます。 構造化データのボリュームはしばしば膨大ですが、入力プロンプトにすべてのデータレコードを収容することは不可能です(たとえば、ChatGPTは最大コンテキスト長が4096です)。構造化データをLLMが簡単に理解できる文に線形化することは、この問題に対する簡単な解決策です。ツール操作技術は、LLMが上記の困難に関する能力を向上させるために彼らを動機付けます。彼らの戦略の基本的な考え方は、特殊なインターフェースを使用して構造化データレコードを変更することです(たとえば、テーブルの列を抽出することによって)。これらのインターフェースの助けを借りて、特定のアクティビティを完了するために必要な証拠をより正確に特定し、データレコードの検索範囲を制限することができます。 本研究では、中国人民大学、北京市ビッグデータ管理と分析方法重点実験室、中国電子科技大学の研究者たちは、特定のタスクに適したインターフェースを設計し、LLMに推論を行うために使用することに焦点を当てています。これは、インターフェースを拡張した手法を適用するために解決する必要のある2つの主要な問題です。この方法では、LLMはインターフェースから収集した証拠に基づいて判断を下すことができます。彼らは、本研究でStructGPTと呼ばれるイテレーティブな読み取り-推論(IRR)メソッドを提供しています。このメソッドは、構造化データに基づいてタスクを解決するためのものです。彼らの方法では、さまざまな活動を完了するために2つの主要な責任が考慮されます:関連データの収集(読み取り)と正しい応答の仮定または次のアクションに対する戦略の策定(推論)。 彼らの知る限り、これは単一のパラダイムを使用してLLMがさまざまな形式の構造化データ(テーブル、KG、およびDBなど)を推論するためにどのように支援するかを調査する最初の研究です。基本的には、LLMの読み取りと推論のプロセスを分離しています:構造化データインターフェースを使用して正確かつ効果的なデータアクセスとフィルタリングを実現し、クエリの次の動きまたは回答を決定するために彼らの推論能力に依存します。外部インターフェースを使用することで、彼らはLLMが構造化データを理解し、意思決定するのを支援するための呼び出し-線形化生成プロセスを提案しています。このプロセスを提供されたインターフェースで繰り返すことで、彼らは徐々にクエリに対する望ましい応答に近づくことができます。 彼らは、自分たちの手法の効果を評価するためにさまざまなタスク(KGベースの質問応答、テーブルベースの質問応答、テキストからSQLへのDBベースの変換など)で包括的な試験を行っています。8つのデータセットでの実験結果は、彼らの提案手法が構造化データにおけるChatGPTの推論パフォーマンスを大幅に改善できることを示しています。さらに、完全データの教師チューニングアプローチと競合するレベルまで改善されることもあります。 • KGQA. 彼らの手法は、KGQAチャレンジのWebQSPにおいてHits@1が11.4%向上します。彼らの手法の支援を受けて、ChatGPTのマルチホップKGQAデータセット(MetaQA-2hopおよびMetaQA-3hopなど)のパフォーマンスを62.9%および37.0%向上させることができます。 • QAテーブル. TableQAチャレンジでは、ChatGPTを直接使用する場合と比較して、WTQおよびWikiSQLで示されるよりも約3%から5%の指示精度が向上します。 TabFactでは、テーブル事実の検証における正確さが4.2%向上します。 • テキストからSQLへ。Text-to-SQLの課題では、彼らの手法はChatGPTを直接利用する場合と比較して、3つのデータセット全体で実行の正確性を約4%向上させました。 著者はSpiderとTabFactのコードを公開しており、これによりStructGPTのフレームワークを理解するのに役立ちますが、全体のコードベースはまだ公開されていません。
「Glazeとの出会い:アーティストが生成AIモデルによる再現を防ぐための新しいAIツール」
テキストから画像を生成するモデルの登場により、アート業界は変革を遂げ、誰でもテキストのプロンプトを提供することで詳細なアートワークを作成することができるようになりました。これらのAIモデルは認知度を高め、賞を受賞し、さまざまなメディアで活用されています。しかし、これらの広範な使用は独立したアーティストに否定的な影響を与え、彼らの作品を追いやり、生計を立てる能力を損なっています。 Glazeはスタイル模倣の問題に対処するために開発されました。Glazeは、アートワークに「スタイルクローク」と呼ばれる最小限の摂動を適用することで、アーティストが独自のスタイルを保護することを可能にします。これらの摂動は、生成モデルの特徴空間でアートワークの表現をシフトし、モデルにアーティストを異なるスタイルと関連付けることを教えます。その結果、AIモデルがアーティストのスタイルを模倣しようとすると、アーティストの正統なスタイルに一致しないアートワークが生成されます。 Glazeは、プロのアーティストとの共同開発を通じて開発され、ユーザースタディによる厳格な評価を受けました。多数のアンケート調査を受けたアーティストの大部分は、摂動が最小限であり、彼らのアートの価値に影響を与えないと感じました。このシステムは、実世界の模倣プラットフォームに対してテストされた場合でも、AIモデルによるスタイル模倣を効果的に妨害しました。重要なことは、Glazeは既に大量のアートワークをオンラインで公開している場合でも効果的であることです。 Glazeは、AI主導のアート界においてアーティストをスタイル模倣から保護するための技術的な解決策を提供します。Glazeは、プロのアーティストとの協力や彼らの懸念を理解することによって、効果的な防御メカニズムを提供しています。Glazeは、最小限の摂動を適用することで、アーティストが彼らの芸術的なスタイルを守り、創造的な完全性を維持することを可能にします。 システムの実装には、慎重に設計されたスタイルクロークの計算が必要でした。複数のクローク画像でのトレーニングにより、生成モデルはアーティストをシフトした芸術的なスタイルと関連付けることを学びます。これにより、AIモデルがアーティストの正統なスタイルを模倣することが困難になります。 Glazeの効果は、プロのアーティストを対象としたユーザースタディによって評価されました。多数のアンケート調査を受けたアーティストの大部分は、摂動が最小限であり、彼らのアートの価値に影響を与えないと感じました。このシステムは、実世界の模倣プラットフォームに対してテストされた場合でも、AIモデルによるスタイル模倣を成功裏に妨害しました。Glazeの保護機能は、アーティストが大量のアートワークをオンラインで共有している場合でも堅牢でした。 結論として、GlazeはAIモデルによるスタイル模倣からアーティストを保護するための技術的な選択肢を提供します。Glazeは、プロのアーティストとの協力やユーザースタディを通じてその効果と使いやすさを実証しています。最小限の摂動を適用することで、Glazeはアーティストにスタイル模倣に対抗し、AI生成アートの中で彼らの芸術的な独自性を保持する力を与えます。
DragonDiffusionをご紹介します:拡散モデルでのドラッグスタイル操作を可能にする細かい画像編集手法
大規模なテキストから画像(T2I)の拡散モデルは、与えられたテキスト/プロンプトに基づいて画像を生成することを目指しており、多くの訓練データと大規模なコンピュータの能力のおかげで急速に発展しています。それにもかかわらず、この生成能力はしばしば異なっており、ユーザーが考えているものと互換性のある画像を生成するための適切なプロンプトを開発し、既存の画像を基にさらなる修正を行うことが難しいことがあります。 画像の編集には画像の作成よりもさまざまな要件があります。潜在空間が小さく、容易に操作可能なため、GANベースの手法が画像編集に広く適用されています。拡散モデルはより安定しており、より良質な出力を生成します。 北京大学とARC Lab、Tencent PCGによる新しい研究論文は、拡散モデルが同様のドラッグの機能を持つ可能性があるかどうかを確認することを目指しています。 これを実装する上での基本的な困難は、コンパクトで編集可能な潜在空間が必要です。多くの拡散ベースの画像編集手法は、これらの中間テキストと画像の特性の類似性に基づいて開発されています。研究では、クロスアテンションマップで単語とオブジェクトの特徴の強い局所的な類似性が見つかりましたが、これは編集に利用することができます。 大規模なT2I拡散生成プロセスにおいて、テキストの特性と中間的な画像の特徴の間には堅牢な相関関係がありますが、中間的な画像の特徴の間にも堅牢な対応関係があります。この特徴はDIFTで調査され、これらの特徴の間の対応関係が高い程度であり、類似した領域を直接比較することが可能になります。画像要素間のこの高い類似性のため、チームはこの手法を使用して画像の修正を行います。 拡散モデルの中間表現を適応させるために、研究者は特徴対応の損失により編集信号を勾配に変換するドラゴンディフュージョンと呼ばれる分類器ガイダンスベースの戦略を考案しました。提案された拡散手法では、異なるステージで2つのグループの特徴(ガイダンス特徴と生成特徴)を使用します。堅牢な画像特徴の対応により、彼らはガイダンス特徴に基づいて生成特徴を修正し、洗練させます。強い画像特徴の対応は、変更された画像と元の画像の内容の一貫性を保つのにも役立ちます。 この文脈では、研究者は同時にDrag-Diffusionと呼ばれる別の作業も調査していることがわかります。これは、元の見た目を保つためにLORAを使用し、拡散手順の単一の中間ステップを最適化することで編集プロセスを改善します。DragDiffusionのようなモデルの微調整やトレーニングではなく、この作業で提案された手法は分類器ガイダンスに基づいており、すべての編集と内容の一貫性の信号は画像から直接来ます。 DragonDiffusionは、すべての内容の修正と保存の信号を元の画像から取得します。モデルの微調整やトレーニングは必要ありません。拡散モデルのT2I作成能力は、直接画像編集アプリケーションに転用することができます。 広範な試験により、提案されたDragonDiffusionは、オブジェクトのサイズ変更や再配置、外観の変更、コンテンツのドラッグなど、幅広い微細な画像変更タスクを実行できることが示されています。
あなたのオープンソースのLLMプロジェクトはどれくらいリスクがあるのでしょうか?新たな研究がオープンソースのLLMに関連するリスク要因を説明しています
大規模言語モデル(LLM)と生成AI、例えばGPTエンジンは、最近AIの領域で大きな波を起こしており、小売個人や企業の間でこの新しいテクノロジーの波に乗ることへの大きな期待が市場に広がっています。しかし、この技術が市場で複数のユースケースを急速に担っている中で、特にオープンソースのLLMに関連するリスクについて、より詳細に注意を払い、使用に関連するリスクについてもっと詳細に注意を払う必要があります。 有名な自動ソフトウェア供給チェーンセキュリティプラットフォームであるRezilionが最近行った研究では、この具体的な問題を調査し、その結果は私たちを驚かせます。彼らは次の条件に合致するすべてのプロジェクトを考慮しました: 8ヶ月以内に作成されたプロジェクト(この論文の発表時点での2022年11月から2023年6月まで) LLM、ChatGPT、Open-AI、GPT-3.5、またはGPT-4のトピックに関連するプロジェクト GitHubで少なくとも3,000のスターを持つプロジェクト これらの条件により、主要なプロジェクトが研究の対象になることが保証されました。 彼らは研究を説明するために、Open Source Security Foundation(OSSF)が作成したScorecardというフレームワークを使用しました。Scorecardは、オープンソースプロジェクトのセキュリティを評価し、改善することを目的としたSASTツールです。評価は、脆弱性の数、定期的なメンテナンスの頻度、バイナリファイルの有無など、リポジトリに関するさまざまな情報に基づいて行われます。 これらのチェックの目的は、セキュリティのベストプラクティスと業界標準の遵守を確保することです。各チェックにはリスクレベルが関連付けられています。リスクレベルは、特定のベストプラクティスに準拠しないことに関連する推定リスクを表し、スコアに重みを加えます。 現在、18のチェックは3つのテーマに分けることができます:包括的なセキュリティプラクティス、ソースコードのリスク評価、およびビルドプロセスのリスク評価。OpenSSF Scorecardは、各チェックに対して0から10の序数スコアとリスクレベルスコアを割り当てます。 結果として、これらのほとんどのオープンソースのLLMとプロジェクトは、専門家が以下のように分類した重要なセキュリティ上の懸念事項に取り組んでいます: 1.信頼境界のリスク 不適切なサンドボックス化、不正なコードの実行、SSRFの脆弱性、不十分なアクセス制御、さらにはプロンプトインジェクションなどのリスクは、信頼境界の一般的な概念に該当します。 誰でも任意の悪意のあるnlpマスクコマンドを挿入することができ、それは複数のチャンネルを越えて伝播し、ソフトウェアチェーン全体に深刻な影響を与える可能性があります。 人気のある例の1つはCVE-2023-29374 LangChainの脆弱性(3番目に人気のあるオープンソースgpt)です。 2. データ管理リスク データ漏洩やトレーニングデータの改竄は、データ管理のリスクカテゴリに該当します。これらのリスクは、大規模言語モデルに限定されるものではなく、どんな機械学習システムにも関連しています。 トレーニングデータの改竄は、攻撃者がLLMのトレーニングデータや微調整手順を意図的に操作して、モデルのセキュリティ、効果性、倫理的な振る舞いを損なう脆弱性、バックドア、バイアスを導入することを指します。この悪意のある行為は、トレーニングプロセス中に誤解を招く情報や有害な情報を注入することで、LLMの完全性と信頼性を危険にさらすことを目的としています。 3.…
KITE(キーポイントを視覚的な基盤と正確なアクション推論の表現として使用する意味操作のためのAIフレームワーク)に会いましょう
人工知能の進歩に伴い、AI技術はロボットと組み合わせられるようになっています。コンピュータビジョンや自然言語処理からエッジコンピューティングまで、AIはロボットと統合され、意味のある効果的な解決策の開発に役立っています。AIロボットは現実世界で行動する機械です。人間とロボットの間のコミュニケーション手段として言語の可能性を考慮することは重要です。しかし、現代のロボットが自由形式の言語入力を効率的に処理することを妨げる2つの主要な問題があります。1つ目の課題は、ロボットに与えられた指示に基づいてどのように操作する必要があるかを理解することです。もう1つは、テディアニマルの耳ではなく足や石鹸のディスペンサーではなく側面などのオブジェクトを持ち上げる場合に注意が必要なピックアンドプレースのタスクです。 ロボットは入力された指示から場面とオブジェクトの意味を抽出し、意味のある操作を行うために正確な低レベルのアクションを計画する必要があります。これらの課題に対処するため、スタンフォード大学の研究者はKITE(Keypoints + Instructions to Execution)という2段階のフレームワークを紹介しています。KITEでは場面の意味とオブジェクトの意味の両方が考慮されています。オブジェクトの意味はオブジェクト内のさまざまな部分を正確に特定することを含み、場面の意味は視覚的な場面内のさまざまなオブジェクトを識別することを含みます。 KITEの第一フェーズでは、2Dのキーポイントを使用して入力された指示を視覚的なコンテキストに結び付けます。この手順により、オブジェクト中心のバイアスが非常に正確に提供され、ロボットはコマンドを場面内のキーポイントにマッピングすることでアイテムと関連する特徴を正確に理解します。KITEの第二ステップでは、RGB-Dシーンの観察に基づいて学習されたキーポイント条件付きのスキルを実行します。ロボットはこれらのパラメータ化されたスキルを使用して指示を実行します。キーポイントとパラメータ化されたスキルは、シーンとオブジェクトの違いに対して細かい操作と汎化性を提供するために連携します。 評価では、チームはKITEのパフォーマンスを3つの実際の環境で評価しました:高精度なコーヒー作り、意味的な掴み取り、長期的な6DoFテーブルトップ操作です。KITEは、コーヒーの準備タスクを71%の成功率で、意味的な掴み取りを70%の成功率で、テーブルトップ操作シナリオでの指示に従うことを75%の成功率で完了しました。KITEは、事前学習されたビジュアル言語モデルではなくキーポイントベースのグラウンディングを使用するフレームワークよりも優れたパフォーマンスを発揮しました。スキルの使用に対してエンドツーエンドのビジュオモーターコントロールを強調するフレームワークよりも優れたパフォーマンスを発揮しました。 訓練中に同じまたはより少ないデモンストレーションを行っていたにもかかわらず、KITEはこれらの結果を達成し、その効果と効率性を示しました。KITEはCLIPortスタイルの技術を使用して画像と言語フレーズをサリエンシーヒートマップにマッピングし、キーポイントを生成します。熟練したアーキテクチャは、キーポイントで注釈付けられたマルチビューポイントクラウドを入力として受け入れるようにPointNet++を変更して、スキルのウェイポイントを出力します。2Dのキーポイントは視覚的な特徴に正確に注意を向けることを可能にし、3Dのポイントクラウドは計画のために必要な6DoFのコンテキストを提供します。 結論として、KITEフレームワークは、操作の文脈で自然言語の命令を解釈して追従することを可能にするという長年の課題に対する有望な解決策を提供します。キーポイントと指示のグラウンディングの力を活用することで、細かい意味の操作を高精度かつ汎化性を持って実現しています。
StorybirdはAIの力を借りて、誰でもわずか数秒でビジュアルストーリーを作成することができます
StoryBird.AIはAIの力を活用して、誰でも数秒でビジュアルストーリーを作成できます。彼らのStoriesプラグインは、ChatGPTプラグインストアで最も人気のあるプラグインの一つです。プラグインまたはウェブサイトを使用して、誰でも人工知能の助けを借りて魅力的なストーリーや本を作成できます。このプラットフォームは非常に使いやすく、OpenAIのChatGPTストアで最も求められるプラグインの1つであるStoriesプラグインを使用してすぐに始めることができます。ワクワクしませんか? ストーリーは見事なものであり、Storybird.aiでさまざまな例を探索することができます。以下のようなものがあります。 StoryBird.aiを使用すると、本を書き、編集し、公開し、売上を上げることさえできます。そのシンプルさと効果において、これに匹敵するAIソリューションは他にありません。 Storybirdのチームは、LLMsとGANsを活用してシームレスにする方法を見つけました。 主な特徴: 生成的編集:これにより、生成的な手法を使用してストーリーを編集できます。 速度:プロセスは非常に高速で、数秒で完了します。 個別化とカスタマイズ:プラットフォームでは、各ページの生成されたコンテンツを編集することでストーリーをカスタマイズできます。さらに、編集に基づいて関連する画像やイラストを再生成することもできます。まるで魔法のようであり、ストーリーはあなた自身だけのものになります。 印象的な結果:ストーリーやイラストは本当に印象的です。 Stories ChatGPTプラグイン 追加するのは簡単で、単に「stories」を検索して追加できます。 Storybird.aiは、魅力的なストーリーを作成するための便利なヒントを提供しています: ストーリーの短い説明で始める(20〜1000文字)。 該当する場合、キャラクターの名前を含める。 最適な結果を得るために、キャラクター(例:茶色の髪の女の子)や設定についての詳細を提供する。 ChatGPTでは、次のように簡単にプロセスを開始できます: そして、次のような迅速な結果を受け取ることができます: 以下は、次の初期プロンプトを使用した別の例です: 「12歳の少女であるオリビアという名前の少女についての物語を書いてください。彼女は毎朝早起きしてサッカーの練習をし、いつかプロの選手になることを夢見ています。」 バックパックを「Red」に変更したいのですが、それは簡単にできます。その後、イラストを再生成しました。 誰のためのものですか? StoryBird AIは、親、教育者、著者向けにパーソナライズされた物語を作成するためのツールです。…
Pixis AIとは、コードを書かずにAIソリューションを提供する新興のスタートアップです
AIモデルのトレーニングには膨大な情報が必要です。しかし、すべての情報が同じではありません。モデルをトレーニングするためのデータは、エラーがなく、適切にフォーマットされ、ラベルが付けられ、問題を反映している必要があります。これは難しく、時間のかかるプロセスです。計画どおりに機能しない場合、AIモデルのデバッグが困難になることもあります。これは、モデルが通常複雑であり、さまざまな要因が故障の原因となる可能性があるためです。また、モデルの作成に使用されるトレーニングデータも、ミスの原因となる可能性があります。人工知能の領域では常に新しい進歩があります。そのため、新しい動向についていくことは困難です。さらに、AIシステムのハードウェア要件は常に増え続けており、古いまたは性能の低いマシンでAIモデルを実行することは困難です。AIコンポーネントを使用してプログラムを作成する際には、さまざまな困難が生じる場合があります。 現在、AI構造のコーディングに関連する困難を解消するためのさまざまなソリューション/製品が市場に存在しています。たとえば: ノーコードまたは低コード環境。これらのシステムのユーザーは、コードを一切触れずにAIモデルを構築することができます。一般的に、モデル作成やトレーニングプロセスを簡略化するためのグラフィカルユーザーインターフェースが付属しています。 機械学習およびAIホスティングサービス。これらのプラットフォームを通じてクラウドベースのAIモデルやサービスが提供されます。人員や資金がない企業は、自社のAIモデルを作成および維持するためにこれらを活用することができます。 人工知能の専門家。多くのAI専門家がAIに関連する問題に対処するために企業を支援しています。基礎を学ぶことから実践に移すことまで、AIのニーズに応じてサポートできます。 PixisのAIソリューションは、クロスプラットフォームのパフォーマンスと成長マーケティングにAIを活用した意思決定を可能にします。顧客は、目標を満たし超えるために、目的に特化した自己進化型ニューラルネットワークを使用したコードレスのAIインフラストラクチャを活用しています。この若い企業は、堅牢なコードレスのAIインフラストラクチャを実現するために、2022年に1億ドルのシリーズCの資金調達を成功裏に終えました。これにより、ブランドはマーケティングのあらゆる側面の拡大および意思決定の効率的な補完を実現することを目指しています。最後の資金調達以来、Pixisはインフラストラクチャに約120以上の新しいAIモデルを導入し、200の独自のAIモデルのベンチマーク達成に一歩近づいています。これらのAIモデルは、マーケターに対してコードを1行も書かずに堅牢なプラグアンドプレイのAI製品を提供します。また、Pixisの300人以上の分散チームは、顧客のマーケティングおよび需要創出の取り組みを最大限に活用するための非常に変革的なAI製品の開発に注力しています。 100を超えるPixisのグローバル顧客がそのAIサービスを利用しています。Pixis AIインフラストラクチャのユーザーは、少なくとも300時間の手作業の月間節約と、少なくとも10-15%の顧客獲得コストの削減を報告しています。このブランドは、1行のコードを書く必要なしに即座にAIを活性化することを顧客に約束しています。 PixisのパフォーマンスマーケティングのためのコードレスAIインフラストラクチャ:概要 ターゲットAI PixisのターゲティングAIは、数十億のデータポイントでトレーニングされた最先端のニューラルネットワークを使用して、ブランドに最も関連性のあるコホートを提供し、時間の経過とともにさらに向上させます。 ブランドは、コンバージョンのトレンド、行動パターン、エンゲージメントレベル、およびその他のコンテキストの洞察に基づいて導き出されたユーザーペルソナを活用して、ターゲティングパラメータと技法を微調整することができます。インフラストラクチャは、顧客関係管理(CRM)プラットフォーム、アトリビューションプラットフォーム、デザインツール、およびウェブ分析を簡単にサポートします。 ターゲティングAIは、ユニークなクラスタリングアルゴリズムを使用して、非常に関連性の高いクロスプラットフォームのオーディエンスコホートを構築し、ターゲットオーディエンスの知識を活用して、マーケティング活動を創造性と最適化の両面で導きます。 クリエイティブAI PixisのクリエイティブAIは、特許取得済みの生成AIモデルを使用して、関連性の高い視覚的および静的なアセットを作成することで、プラットフォーム全体でのエンゲージメントとコンバージョン率を向上させます。 クリエイティブ努力の効果をフィードバックしやすくすることで、将来のキャンペーンの改善に向けて微調整することが容易になります。すべてのチャネルでのペルソナベースのクリエイティブアドバイスにより、エンゲージメントと売上を増加させます。フィードバックに基づいたクリエイティブの最適化を通じて、クリエイティブAIはコミュニケーションのコンテキストを常に向上させます。 パフォーマンスAI 過去のキャンペーンデータ、季節パターン、アトリビューション、分析、およびリアルタイムのパフォーマンスデータからのコンテキスト学習を統合し、すべてのチャネルにわたるスマートな意思決定を実現するAIパワードマーケティングインフラストラクチャを構築します。 ブランドは、入札とリソースを自動的に割り当てなおすことができ、また、すべてのチャネルでのマイクロトレンドを検出する多目的収束型AIモデルも含まれているインフラストラクチャを使用して、広告支出のリターンを最大化することを目指しています。 ピーク時のトラフィックでAIトラックを実行し、広告費の支出と収益(ROAS)を分析し、将来のキャンペーンに最適な予算配分技術を予測します。予算編成と主要パフォーマンス指標の最適化の間のベストなバランスを見つけるために、ハイパーコンテクストUAL AIモデルを使用します。 Pixis AIの特長機能 ●…
このAI研究は、大規模言語モデル(LLM)における合成的な人格特性を説明しています
個人の人格は、質、特性、思考方法のユニークな組み合わせから成り立ちます。共有の生物学的および環境的な歴史により、最も基本的な社会的相互作用と好みを形成します。訓練中に人間が生成したデータに広範に露出することで、LLM(Large Language Model)は、人間のような人格を説得力を持って表現し、結果として合成的な人格を示すことができます。 LLMの能力の向上に伴う意図しない影響(暴力的な言語の生成、詐欺的および操作的な言語の生成など)の特定を試みる研究が最近行われています。LLMからの対話、説明、知識の抽出は常に信頼性があるわけではありません。 これらのモデルによって生成された言語の人格特性に関する理解は、LLMが主要な人間-コンピュータインタラクション(HCI)インタフェースとなるにつれて重要です。同様に、LLMが生成する人格プロファイルを安全かつ適切に効果的にエンジニアリングする方法を学ぶことも重要です。研究者は、LLMの結果におけるネガティブで深刻な人格特性の影響を軽減するための、few-shot promptingを含む手法を研究しています。LLMは非常に変動する出力を持ち、プロンプトに過敏ですが、その人格を科学的かつ体系的に定量化する方法についてはまだ研究が行われていません。 Google DeepMind、ケンブリッジ大学、Google Research、慶應義塾大学、カリフォルニア大学バークレー校の研究者たちは、厳密で検証された心理測定的アプローチを提案し、LLMに基づく人格合成を特徴づけ、形成する方法を提示しています。 チームはまず、既存の心理測定テストを利用して、LLMが生成した文学において人格を特徴づける構造的妥当性を確立するための方法論を作成します。彼らは、制御されたプロンプトを介してLLMの応答に人口分散を模倣する新しいアプローチを提案し、人格とその外部的関連性との統計的相関を、人間の社会科学データに存在するようにテストします。最後に、彼らはLLMに独立して機能し、特性レベルに観測可能な変化をもたらす人格形成の方法を貢献します。 研究者たちは、MCQAと長文生成の2つの自然なインタラクション設定で、サイズや訓練方法の異なるLLMにアプローチをテストしました。調査結果は以下の観察結果を示しています: 特定のプロンプト構成の下で、LLMは信頼性があり、人格をシミュレートすることができます。 LLMがシミュレートした人格の信頼性と妥当性は、より大きなモデルにおいてより強くなります。 LLMの出力における人格は、特定の人格プロファイルを模倣するために望ましい次元に沿って形成することができます。
ジョージア工科大学の研究者が「ChattyChef」という料理レシピデータセットを紹介し、料理体験を革新します
人工知能(AI)は、ショッピングから計画立案、さらには文章作成まで、私たちの生活のさまざまな側面を革新しました。しかし、料理に関しては、AIは手順通りにステップバイステップのレシピを追うことに苦労してきました。この課題に気付いたジョージア工科大学のコンピュータ学部の研究者たちは、新たな研究によりこの分野で大きな進歩を遂げました。 研究チームは、ChattyChefというデータセットを開発しました。このデータセットは、自然言語処理モデルを利用してユーザーを料理のレシピにガイドするものです。オープンソースの大規模言語モデルGPT-Jの力を活用したChattyChefのデータセットは、ユーザーがレシピを進めるための料理の対話を含んでいます。 研究論文「Recipe-Grounded Conversationにおける改善された手順順序」では、研究者たちは大規模言語モデルを使用してAIシェフを構築する際の複雑さについて詳しく説明しています。これまでの料理における言語モデルのいくつかの試みは、ユーザーの意図を理解し、レシピの進行状況を正確に追跡することができないというモデルの能力不足により失敗に終わってきました。さらに、これらのモデルは、材料の量や調理時間に関する明確な回答を提供することにも苦労しています。 これらの課題に対処するために、研究者たちはモデルに2つの重要な機能を組み込みました。1つ目の機能は、ユーザーの意図を検出することで、ユーザーの意図が予め定義された可能性のあるセット内にあるかどうかを判断するのに役立ちます。2つ目の機能は、手順の進行状況を追跡することで、モデルがユーザーがどの具体的なステップにいるのかを識別することができ、80%の正確性を達成しています。 ユーザーの意図の検出と手順の進行状況の追跡の組み合わせにより、ChattyChefの第3のイノベーションである応答生成が可能となります。ユーザーの意図を活用することで、モデルはユーザーの質問に最も適した回答を生成します。同時に、手順の進行状況により、レシピの最も関連性のある部分を選択することができます。このアプローチは、料理の過程での混乱や不要なステップによるユーザーの負担を防ぐことを目指しています。 ChattyChefのデータセットは、WikiHowのレシピを基にしており、高評価を受け、8つのステップ以下のレシピが含まれています。研究者たちは、データセットを作成するためにクラウドソーシングを活用し、最適な手順を含めるためのシナリオプレイを行いました。 ChattyChefのイノベーションの潜在的な応用範囲は、料理の領域を超えて広がっています。研究者たちは、このアプローチが修理マニュアルやソフトウェアのドキュメンテーションなど、さまざまなドメインで活用できると考えています。 まとめると、研究チームは、大規模言語モデルを使用してAIシェフを構築する際の課題において大きな進歩を遂げました。ユーザーの意図の検出、手順の進行状況の追跡、最適化された応答生成を組み合わせることにより、彼らのChattyChefシステムは、ユーザーが料理のレシピに正確にアシストするという約束のある潜在能力を示しています。この研究は、AIの力により、ユーザーの体験を向上させ、複雑なタスクを簡素化する他のドメインへの広範な応用の可能性を開くものです。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.