Learn more about Search Results ROI

AppleはiPhoneとAndroid間でのテキストのやり取りを容易にする予定です

Appleは、来年、テキストメッセージングがiOSデバイスとAndroidデバイスの間でスムーズに動作するようにするための技術標準を採用する予定です

Android 14:より多様なカスタマイズ、制御、アクセシビリティ機能

「Android 14は個人的で保護的な機能を備え、ユーザーを最優先し、彼らの個性を祝福するためのものです」

「Androidのための10最高のデータ復旧ツール」

「今日の高速デジタル時代では、Androidデバイスから重要なデータを失うことは悪夢とも言えます思い出の写真、必要な連絡先、重要な業務文書など、データを取り戻すための信頼性のある回復ツールが必要です幸いにも、数多くの効率的なAndroidデータ回復ツールが利用可能であり、失われたファイルを復元するのに役立ちます[…]

「Embroid」を紹介します:複数の小さなモデルから埋め込み情報を組み合わせるAIメソッドで、監視なしでLLMの予測を自動的に修正することができます

もしも、薬や医療歴に基づいた基本的なデータ分析を行うための言語モデル(LM)をプログラムしたとしたら、機械学習モデルのトレーニングには、各種患者の歴史を含むラベル付きデータが必要です。大規模なラベル付きデータセットを構築するのは非常に困難です。ドメインの専門家による手動のラベリングが必要であり、これは費用がかかります。こういったモデルにはどのように対処しますか? スタンフォード大学、Anthropic、およびウィスコンシン大学マディソン校の研究者たちは、言語モデルを設計して、文脈における注釈付けタスクの学習を行い、手動のラベリングをスケール化して置き換える方法に取り組んでいます。LMの文脈における能力により、モデルはプロンプトの説明からタスクを記憶することができます。彼らは、プロンプト自体ではなく、プロンプトの予測を修正することを試みます。なぜなら、言語モデルはプロンプトのわずかな変更にも敏感であり、誤った予測を生み出す可能性があるからです。 研究者のアプローチは、正確な予測は一貫性も持つべきという直感に基づいています。ある特徴表現の下で似たようなサンプルは同じプロンプトの予測を受けるべきです。彼らは「Embroid」という手法を提案しており、異なる埋め込み関数の下でデータセットの複数の表現を計算し、LMの予測の一貫性を利用して誤った予測を特定します。Embroidはこれらの近傍を使用して、各サンプルに対して追加の予測を生成します。これらはさらに単純な変数グラフィカルモデルと組み合わせて、最終的な修正予測を決定します。 一つの当然の疑問は、データセットのサイズが変わるとEmbroidの性能向上も変わるのかということです。研究者は、Embroidは異なる埋め込み空間の最近傍に依存しているため、注釈付きデータセットが小さい場合には性能が低下する可能性があると述べています。また、埋め込みのドメイン特異性が変化した場合や埋め込み空間の品質が変化した場合の性能の変動を比較しました。その結果、いずれの場合でも通常の言語モデルよりも優れた性能を示すことがわかりました。 研究者によれば、Embroidは弱教師あり学習で開発された統計的な技術も使用しています。弱教師あり学習では、複数のノイズの予測を組み合わせて未ラベルのデータの確率的なラベルを生成することが目的です。彼らは、埋め込みを使用して追加の合成予測を構築し、これを元の予測と組み合わせると述べています。 研究者は、95の異なるタスクについてEmbroidを他の6つの言語モデルと比較しました。各言語モデルについて、文脈内デモンストレーションの3つの組み合わせを選択し、各プロンプトの予測にEmbroidを独立して適用しました。その結果、GPT-JTではタスクごとに平均7.3ポイント、GPT-3.5ではタスクごとに平均4.9ポイント、元のプロンプトよりも性能が向上することがわかりました。

新しいAI研究がGPT4RoIを紹介します:地域テキストペアに基づくInstruction Tuning大規模言語モデル(LLM)によるビジョン言語モデル

大型言語モデル(LLM)は最近、自然言語処理を必要とする会話タスクで驚異的なパフォーマンスを発揮し、大きな進歩を遂げています。商用製品のChatGPT、Claude、Bard、テキストのみのGPT-4、およびコミュニティオープンソースのLLama、Alpaca、Vicuna、ChatGLM、MOSSなどがその例です。彼らの前例のない能力のおかげで、彼らは汎用人工知能モデルへの潜在的なルートを提供しています。LLMの効果の結果として、マルチモーダルモデリングコミュニティは、ジョブの特徴空間を事前学習済み言語モデルの特徴空間に合わせるための普遍的なインターフェースとしてLLMを使用する新しい技術的な道を創造しています。 MiniGPT-4、LLaVA、LLaMA-Adapter、InstructBLIPなどのビジョンと言語のモデルは、代表的なタスクの1つとして画像とテキストのペアリングでの指示調整により、ビジョンエンコーダをLLMに合わせるようにアラインメントされます。アラインメントの品質は、指示調整の設計コンセプトに基づいてビジョンと言語のモデルのパフォーマンスに大きな影響を与えます。これらの作品は優れたマルチモーダルスキルを持っていますが、領域レベルのアラインメントにより、領域のキャプションや推論などのより複雑な理解タスクを超えることができません。彼らのアラインメントは画像とテキストのペアリングに限定されています。一部の研究では、MM-REACT、InternGPT、DetGPTなどの外部のビジョンモデルを使用して、ビジョン言語モデルで領域レベルの理解を提供しています。 ただし、彼らの非エンドツーエンドの設計は、汎用マルチモーダルモデルにとってより良い可能性があります。この作品は、関心領域の細かい理解を提供するために、最初から終わりまでビジョン言語モデルを開発することを目指しています。画像全体を画像埋め込みとして圧縮し、特定の部分を参照するための操作を行わないこれらのモデルのモデルアーキテクチャでは、空間指示にオブジェクトボックスを形式として確立します。回答を得るために、LLMは空間教育と言語的指示によって抽出されたビジュアル要素を提供されます。たとえば、問い合わせが「これは何をしているのか?」という交互のシーケンスの場合、モデルは空間指示によって参照される領域の特徴で置き換えます。 RoIAlignまたは変形可能なアテンションは、空間指示のための柔軟な実装方法です。これらは、画像とテキストのデータセットから領域とテキストのデータセットにトレーニングデータを更新し、領域とテキストのペアリング間の細かいアライメントを構築するために、各アイテムの境界ボックスとテキストの説明が提供されます。COCOオブジェクト識別、RefCOCO、RefCOCO+、RefCOCOg、Flickr30Kエンティティ、Visual Genome(VG)、Visual Commonsense Reasoning(VCR)などの公開データセットが組み合わされます。これらのデータセットは、指示調整のための形式に変更されます。さらに、商業的に利用可能な物体検出器を使用して、画像からオブジェクトボックスを抽出し、空間指示として利用することができます。LLaVA150Kなどの画像とテキストのトレーニングデータを活用するために、棚からひとつオブジェクト検出器を使用することもできます。彼らのモデルは、LLMに影響を与えることなく、領域特徴抽出器を事前トレーニングするために使用されます。 彼らのモデルは、これらの画像テキストデータセットから学習し、視覚的指示の調整に注意深く選択されたビジュアルインストラクションを持つため、対話品質が向上し、より人間らしい返答を生成します。収集されたデータセットは、テキストの長さに基づいて2種類に分けられます。まず、短いテキストデータにはアイテムのカテゴリや基本的な特徴に関する情報が含まれます。これらはLLMに影響を与えることなく、領域特徴抽出器を事前トレーニングするために使用されます。次に、より長いテキストには、複雑なアイデアや論理的思考が必要な場合があります。これらのデータには複雑な空間指示が提供され、エンドツーエンドの領域特徴抽出器とLLMの微調整が可能になります。これにより、実際の使用時に柔軟なユーザー指示をシミュレートすることができます。彼らの手法は、空間指示の調整から得られる利点により、ビジョン言語モデルのユーザーに、言語形式と空間指示形式の両方でモデルに問い合わせることができるユニークなインタラクティブな体験を提供します。 図1は、これにより、複雑な領域推論や領域キャプションなど、画像レベルの理解を超える新たな能力が実現することを示しています。結論として、彼らの作品は以下の点に貢献しています: • LLMに地域テキストデータセットのトレーニングを与えることで、地域レベルのビジョン言語モデルを進化させます。彼らのモデルは、以前の画像レベルのモデルと比較して、領域キャプションや推論などの追加機能を備えています。 • 応答を得るために、関心領域を参照するための空間指示を導入し、ビジュアルエンコーダから回復した領域特性を言語指示と共にLLMに提供します。 • コーディング、データセットの指示調整形式、オンラインデモはすべてGitHubで利用可能です。 図1: GPT4RoIと呼ばれるビジョン言語モデルは、領域とテキストのペアリングで大規模な言語モデル(LLM)を調整する指示調整に基づいて構築されています。単一の領域に口頭と位置情報を組み合わせたユーザーの指示を分析することができます。領域のキャプション付けや推論など、細かいマルチモーダル理解のタスクを達成します。

「自律走行車とトロリー問題:「良い」決定を探し求めて」

North Carolina State Universityの熱心な研究チームが、日常の交通シナリオで生じる倫理的ジレンマについて正確かつ関連性の高いデータを積極的に収集していますこの貴重な情報は、低リスクな状況の複雑さをより深く理解し、私たちの道徳的な意思決定能力を改善するのに役立ちます

Googleは独占禁止法訴訟で敗訴:ビッグテックにとって何を意味するのか?

「エピックゲームズが検索大手との法的闘争に勝利した事は画期的な勝利であり、同社の強さと決断力を示す重要な節目となりました」

📱 アップルが不正な認証からのiMessageアクセスをブロック

アップルは積極的な対策を実施することで顧客の安全を最優先に考えていますしかし、Beeperによると、彼らの最新の行動は逆効果になってしまったようですしかし、アップルは顧客の安全を重視し、積極的な対策を実施する姿勢は評価されるべきです

Pythonの地図を使って貿易流をビジュアライズする – 第1部:双方向貿易流マップ

商品やサービスの交換は、それらの対応する価値と引き換えに私たちの日常生活の重要な一部です同様に、国々はさまざまな種類の貿易関係を築いています

ラストでクロスプラットフォームのTFIDFテキストサマライザーを構築する

NLPツールとユーティリティはPythonエコシステムで大幅に成長し、開発者はすべてのレベルで高品質な言語アプリをスケールさせることができるようになりましたRustはNLPにおいて比較的新しい導入された言語であり、...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us