「プロジェクトRumiにご参加ください：大規模言語モデルのための多言語パラ言語的プロンプティング」

参加してください：大規模言語モデルのための多言語パラ言語的プロンプティング

新興技術のデジタル時代において、LLM（Large Language Models）は、人間の社会と文化の多くの側面を革新し、コンピュータとの対話方法を再構築する強力なツールとして登場しました。しかし、解決すべき重要な課題があります。LLMの制約は明らかであり、会話の文脈やニュアンスを把握する能力に欠け、プロンプトの品質と特異性に依存しています。その主な制約の一つは、リアルなコミュニケーションの深さが欠けており、パラリンガル情報がすべて欠落していることです。

マイクロソフトのプロジェクトRumiは、非言語的な合図や文脈的なニュアンスの理解における制約を解消するために、LLMの能力を向上させることを目指しています。このプロジェクトでは、パラリンガルな情報をテキストベースのプロンプトと組み合わせることで、コミュニケーションの品質を向上させるために、音声や映像モデルを使用してリアルタイムの非言語的な合図を検出しています。ユーザーの音声からは、音声の抑揚やイントネーションを検出するためのモデルを使用し、映像からはビジョン・トランスフォーマーを使用してフレームをエンコードし、表情を識別しています。パラリンガル情報は、テキストベースのプロンプトに組み込まれる下流サービスに組み込まれます。この多様なアプローチにより、ユーザーの感情や意図の理解が向上し、人間とAIの相互作用が新たなレベルに引き上げられることを目指しています。

この研究では、研究者はパラリンガルがユーザーの意図についての重要な情報を伝える役割を簡単に探索しました。将来的には、モデルを改善し、より効率的にするために、HRV（心拍変動）などの詳細情報を追加する予定です。これは、AIとの次世代の相互作用に非言語的な意味や意図を追加するための大きな取り組みの一環です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「プロジェクトRumiにご参加ください：大規模言語モデルのための多言語パラ言語的プロンプティング」

Was this article helpful?

大学フットボールのカンファレンス再編-回帰

Mozilla Common Voiceでの音声言語認識-第II部：モデル

機械学習

Google DeepMind（グーグルディープマインド）が「GNoME（グノーム）」を発表：新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

「機械学習におけるデータの重要性：AI革命の推進力」

LangChain：LLMがあなたのコードとやり取りできるようにします

「OpenAIがGPT-4を使用してスマートなコンテンツモデレーションを行う方法」

ウェイト、バイアス、ロスのアンボクシング：ディープラーニングに集中する

AIが私たちのコーディング方法を変えていく方法