Learn more about Search Results Vicuna - Page 2

「マイクロソフトの研究者が提案するMAIRA-1:胸部X線写真(CXR)から放射線報告書を生成するための放射線学専用マルチモーダルモデル」

Microsoftの研究チームは、MAIRA-1と呼ばれる放射線学に特化したマルチモーダルモデルを開発することで、胸部X線画像(CXR)のための高品質なレポートの生成問題に取り組みました。このモデルは、CXRに特化した画像エンコーダと、Vicuna-7Bに基づく微調整されたLLMを利用し、Findingsセクションに焦点を当てたテキストベースのデータ増強を行います。この研究は、課題を認識し、将来のバージョンでは現在と過去の研究情報を取り入れて情報の錯覚を減らすことを提案しています。 研究で探求されている既存の手法は、PaLMやVicuna-7Bなどのマルチモーダル機能を持つLLMを使用して、胸部X線写真から叙述的な放射線学のレポートを作成することです。評価プロセスには、ROUGE-LやBLEU-4といった従来のNLPメトリックや、臨床的に関連のある側面に焦点を当てた放射線学固有のメトリックが含まれます。この研究は、所見の詳細な説明を提供することの重要性を強調しています。現在の評価手法の制約にも対処しながら、機械学習が放射線学のレポート生成において持つ可能性を示しています。 MAIRA-1の方法は、ビジョンと言語モデルを組み合わせて、胸部X線写真から詳細な放射線学レポートを生成します。このアプローチは、臨床的なレポート生成の特定の課題に対応し、品質と臨床的な関連性を測定するメトリックを使用して評価されます。研究結果は、MAIRA-1の方法が放射線学レポートの正確さと臨床的な有用性を向上させることができることを示しており、医学画像の機械学習における進歩を表しています。 提案されたMAIRA-1は、胸部X線写真のための放射線学に特化したマルチモーダルモデルです。このモデルは、CXR画像エンコーダ、学習可能なアダプタ、および微調整されたLLM(Vicuna-7B)を利用して、画像と言語を融合させ、レポートの品質と臨床的な有用性を向上させます。さらに、追加のレポートのためにGPT-3.5を使用したテキストベースのデータ増強を行います。評価メトリックには、従来のNLP指標(ROUGE-L、BLEU-4、METEOR)と放射線学固有の指標(RadGraph-F1、RGER、ChexBertベクトル)が含まれ、臨床的な関連性を評価します。 MAIRA-1は、胸部X線レポートの生成において、RadCliQメトリックや放射線科医に合致した語彙メトリックの向上を示しました。モデルの性能は所見のクラスによって異なり、成功と課題が観察されました。MAIRA-1は、通常の評価手法では捉えられない微妙な不具合モードを効果的に解明し、言語上と放射線学固有の側面をカバーする評価メトリックによって示されました。MAIRA-1は胸部X線レポートの包括的な評価を提供します。 まとめると、MAIRA-1は、ドメイン固有の画像エンコーダと的確かつ正確に微妙な所見を特定する能力を備えた既存のモデルを上回る、胸部X線レポートの生成において非常に効果的なモデルです。ただし、既存の手法の制約と臨床的な文脈の重要性を評価することも重要です。モデルの改善のためには、多様なデータセットと複数の画像を考慮する必要があります。 MAIRA-1の将来の発展では、GPT-3.5と前回の作業で示されているように、現在のおよび以前の研究からの情報を取り入れてレポートの錯誤を軽減することができるようになるかもしれません。クリニカルエンティティの抽出における外部モデルへの依存に対処するために、将来の取り組みでは強化学習アプローチを検討することができます。より大規模かつ多様なデータセットでの強化トレーニングや複数の画像と視点の考慮を進め、MAIRA-1の性能をさらに高めることが推奨されます。

「OpenAIモデルに対するオープンソースの代替手段の探索」

序文 AIの領域では、11月はドラマチックな展開がありました。GPTストアやGPT-4-turboのローンチ、そしてOpenAIの騒動まで、まさに忙しい一ヶ月でした。しかし、ここで重要な問題が浮かび上がります:クローズドモデルとその背後にいる人々はどれだけ信頼できるのでしょうか?自分が実際に運用しているモデルが内部の企業ドラマに巻き込まれて動作停止するのは快適な体験とは言えません。これはオープンソースモデルでは起こらない問題です。展開するモデルには完全な管理権限があります。データとモデルの両方に対して主権を持っています。しかし、OSモデルをGPTと置き換えることは可能でしょうか?幸いなことに、既に多くのオープンソースモデルが、GPT-3.5モデル以上の性能を発揮しています。本記事では、オープンソースのLLM(Large Language Models)およびLMM(Large Multi-modal Models)の最高の代替品をいくつか紹介します。 学習目標 オープンソースの大規模言語モデルについての議論。 最新のオープンソース言語モデルとマルチモーダルモデルについての探求。 大規模言語モデルを量子化するための簡易な導入。 LLMをローカルおよびクラウド上で実行するためのツールやサービスについて学ぶ。 この記事は、データサイエンスブログマラソンの一環として公開されました。 オープンソースモデルとは何ですか モデルがオープンソースと呼ばれるのは、モデルの重みとアーキテクチャが自由に利用できる状態にあるからです。これらの重みは、例えばMeta’s Llamaのような大規模言語モデルの事前訓練パラメータです。これらは通常、ファインチューニングされていないベースモデルやバニラモデルです。誰でもこれらのモデルを使用し、カスタムデータでファインチューニングして下流のアクションを実行することができます。 しかし、それらはオープンなのでしょうか?データはどうなっているのでしょうか?多くの研究所は、著作権に関する懸念やデータの機密性の問題などの理由から、ベースモデルの訓練データを公開しません。これはまた、モデルのライセンスに関する部分にも関連しています。すべてのオープンソースモデルは、他のオープンソースソフトウェアと同様のライセンスが付属しています。Llama-1などの多くのベースモデルは非商用ライセンスとなっており、これらのモデルを利用して収益を上げることはできません。しかし、Mistral7BやZephyr7Bなどのモデルは、Apache-2.0やMITライセンスが付属しており、どこでも問題なく使用することができます。 オープンソースの代替品 Llamaのローンチ以来、オープンソースの領域ではOpenAIモデルに追いつこうとする競争が繰り広げられています。そしてその結果は今までにないものでした。GPT-3.5のローンチからわずか1年で、より少ないパラメータでGPT-3.5と同等またはそれ以上のパフォーマンスを発揮するモデルが登場しました。しかし、GPT-4は依然として理性や数学からコード生成までの一般的なタスクには最も優れたモデルです。オープンソースモデルのイノベーションと資金調達のペースを見ると、GPT-4のパフォーマンスに近づくモデルが間もなく登場するでしょう。とりあえず、これらのモデルの素晴らしいオープンソースの代替品について話しましょう。 Meta’s Llama 2 Metaは今年7月にLlama-2という彼らの最高のモデルをリリースし、その印象的な能力により一瞬で人気を集めました。MetaはLlama-7b、Llama-13b、Llama-34b、Llama-70bの4つの異なるパラメータサイズのLlama-2モデルをリリースしました。これらのモデルは、それぞれのカテゴリにおいて他のオープンモデルを上回る性能を発揮しました。しかし、現在ではmistral-7bやZephyr-7bのような複数のモデルが、多くのベンチマークで小さなLlamaモデルを上回る性能を発揮しています。Llama-2 70bはまだそのカテゴリーで最高のモデルの一つであり、要約や機械翻訳などのタスクにおいてGPT-4の代替モデルとして価値があります。 Llama-2はGPT-3.5よりも多くのベンチマークで優れたパフォーマンスを発揮し、GPT-4に迫ることもできました。以下のグラフは、AnyscaleによるLlamaとGPTモデルのパフォーマンス比較です。…

「サーモン 大規模な言語モデルのための一般的な聴覚能力へ」

聞くことは、一般的な音声情報の感知と理解を含むため、AIエージェントにとって現実世界の環境では重要ですこの音声情報は、音楽、オーディオイベント、および音声の3つの主要な音声タイプを包括しています最近、テキストベースの大規模言語モデル(LLM)フレームワークは、自然言語処理(NLP)のさまざまな分野で人間レベルのパフォーマンスを達成するなど、注目すべき能力を示してきました

中国の研究者が、ビデオ・LLaVAを紹介します:シンプルでパワフルな大規模ビジュアル言語ベースラインモデル

北京大学、彭城实验室、北京大学深圳研究生院和中山大学的研究人员引入了大规模视觉语言模型(LVLM)方法,即Video-LLaVA,将视觉表示统一到语言特征空间中。与现有的将图像和视频分别编码的方法不同,Video-LLaVA通过解决投影过程中的错位问题实现了统一的LVLM。这个简单而强大的模型在九个图像数据集上超越了基准,在五个数据集和四个工具包上的图像问答中表现出色。 Video-LLaVA将图像和视频集成到一个特征空间中,改进了多模态交互。它在各种图像基准测试中优于Video-ChatGPT,并在图像问答方面表现出色。在视频理解方面,Video-LLaVA始终超过Video-ChatGPT,并且在多个视频数据集上表现出色,超过了最先进的Chat-UniVi。利用LLM的推理能力,Video-LLaVA使用来自LanguageBind和ViT-L14的Vicuna-7B v1.5和视觉编码器进行训练。 为解决现有方法中将图像和视频分别编码的错位挑战,引入了Video-LLaVA,一种统一的视觉语言模型。该模型在投影之前使图像和视频的视觉表示对齐,减轻了LLMs学习多模态交互的问题。Video-LLaVA在各种图像和视频基准测试中超过了先进的LVLMs和Video-ChatGPT,展示了在理解和回应人类提供的指令方面的改进性能。该方法强调了在投影之前将视觉特征对齐到统一空间的好处,以增强多模态交互学习。 Video-LLaVA在投影之前将图像和视频的视觉表示对齐到一个统一的特征空间。它使用Vicuna-7B v1.5作为语言模型,使用来自LanguageBind的视觉编码器,由ViT-L14初始化。训练过程涉及将图像调整大小和裁剪为224×224。利用来自CC3M的55.8万个LAION-CC-SBU图像文本对于预训练。指导数据集来自各个地方,包括LLaVA v1.5的66.5万个图像文本指导数据集和Video-ChatGPT的10万个视频文本指导数据集。 Video-LLaVA在九个图像基准测试中表现出色,分别超过了Video-ChatGPT在MSRVTT、MSVD、TGIF和ActivityNet上的性能,并分别提高了5.8%、9.9%、18.6%和10.1%。它在89个图像基准测试中进行了评测,并在图像问答方面超越了InstructBLIP-7B。与更强大的LVLMs相竞争,它在VisWiz上超过了InstructBLIP-13B的14.7。Video-LLaVA显著提高了四个数据集上的视频问答能力,展示了通过统一的视觉表示理解和学习图像和视频的能力。 总之,Video-LLaVA是一种非常大的视觉语言模型,能够有效解决错位问题,并在不同的图像基准测试上表现更好。它对图像和视频进行联合训练,提高了其能力,使其能够超越专门为图像或视频设计的专家模型。该模型在统一的视觉概念理解和图像问答基准测试中表现出色,展示了其卓越的能力。 未来的研究可以探索在投影之前的高级对齐技术,以增强多模态交互中的LVLMs。应该研究更多种对图像和视频进行统一分词的替代方法,以解决错位挑战。通过对附加基准测试和数据集上的Video-LLaVA进行评估可以评估其可泛化性。与更大的语言模型进行比较可以阐明可扩展性和潜在增强的可能性。提高Video-LLaVA的计算效率,并研究联合训练对LVLM性能的影响,是进一步探索的方向。

マイクロソフトリサーチと清華大学の研究者たちは、「思考の骨格(SoT):LLMの生成を加速するための新しい人工知能の手法」という提案を行いました

大型言語モデル(LLM)であるGPT-4やLLaMAなどは、技術的な風景を確実に変えました。しかし、処理速度の遅さは、広範な応用性を制限する繰り返しの課題です。その驚くべき能力にもかかわらず、LLMからの応答を得るためにかかる時間は、特にチャットボットや共同運転者、産業制御装置などのレイテンシ重視のアプリケーションにおいて、その効果を制限しています。この根本的な問題に対処する解決策の必要性に気付いたMicrosoft Researchと清華大学の研究者は、Skeleton-of-Thought(SoT)という革新的な手法を提案しました。 従来、LLMの速度を高速化するための取り組みには、モデルやシステム、ハードウェアの複雑な変更が含まれていました。しかし、研究チームはSoTで異なるアプローチを取っています。従来の方法とは異なり、SoTはLLMへの広範な変更を避け、代わりにブラックボックスとして扱います。焦点は、モデルの内部機能の変更から、出力コンテンツの組織の最適化に移ります。提案された解決策では、LLMにユニークな二段階のプロセスを実行するよう指示します。最初の段階では、LLMに回答の骨組みを導き出すよう指示します。その後、2つ目の段階では、LLMに骨格内の複数のポイントの並列拡張を行うよう指示します。このアプローチにより、モデルのアーキテクチャに複雑な調整を必要とせずに、LLMの応答時間を向上させる新しい手段が導入されます。 SoTの方法論は、コンテンツ生成プロセスを2つの異なる段階に分解することを含んでいます。まず、LLMに回答の骨組みを構築するよう促します。この初期段階は、ヒューマンで問題解決にアプローチする方法と一致しており、高レベルの構造を概説することで進められます。2番目の段階では、この骨格を利用して並列拡張が実行され、LLMが複数のポイントに同時に対応することが可能となります。驚くべきことに、このアプローチはLLaMAなどのオープンソースモデルやGPT-4などのAPIベースのモデルにも適用可能性を示しています。 SoTの効果を評価するために、研究チームはオープンソースおよびAPIベースのカテゴリにわたる12つの最近リリースされたモデルについて、広範なテストを実施しました。チームは、コーディング、数学、文書作成、ロールプレイなどのさまざまなドメインの質問を含むVicuna-80データセットを使用して、かなりの速度向上が観察されました。SoTでは、8つの12モデルで1.13倍から2.39倍の速度向上が実現されました。重要なことは、これらの速度向上を達成するために回答品質を犠牲にすることはありませんでした。チームはFastChatとLLMZooのメトリックを使用して、SoTの回答の品質を評価し、異なる質問カテゴリ全体で回答の品質を維持または向上させる能力を示しました。 結論として、SoTは遅いLLMの持続的な課題に対する有望な解決策として浮かび上がっています。研究チームの革新的なアプローチは、LLMをブラックボックスとして扱い、データレベルの効率最適化に重点を置くことで、コンテンツ生成の加速に対して新しい視点を提供しています。SoTでは、LLMに回答の骨組みを構築させ、それから並列拡張を実行させることで、効果的な応答時間の向上手段を導入しています。評価結果は、かなりの速度向上だけでなく、回答の品質を維持または向上させる能力を示し、効率と効果の二重の課題に取り組んでいます。この研究は、人工知能のダイナミックな思考プロセスにおける将来の探求の可能性を開き、より効率的で多様な言語モデルへのシフトを促すものとなります。

「ODSC West 2023 写真で振り返る」

「ODSCウエストは今や私たちの歴史の一部であり、全てがうまくいっていて幸せです初めてのハロウィンパーティー、さらに多くの本のサイン会、エキサイティングな基調講演、そして誰にでも合ったセッションがたくさんありましたイベントの写真はこちらでご覧いただけます」

アマゾンセージメーカースタジオを使用して、素早い実験結果のためにLlama 2、LangChain、およびPineconeを使用してRAG型の質問応答ソリューションを構築しましょう

「Retrieval Augmented Generation(RAG)は、ファインチューニングなしで大規模言語モデル(LLM)に外部の知識源(リポジトリ、データベース、APIなど)へのアクセスを提供することができます質問応答に対して生成的AIを使用する際、RAGはLLMが最も関連性の高い最新情報で質問に回答し、必要に応じて引用することができるようにします...」

なぜあなたのビジネスは生成型AIを活用すべきなのか

高速なデジタルの世界で、ジェネレーティブAIの変革力を見つけましょうジェネレーティブAIが創造性、生産性、データに基づく意思決定を向上させ、企業がAI主導の環境で繁栄する手助けをする方法を探索してください

「知識の回復が中心舞台に登場する」

消費者からビジネス展開への転換をするために、GenAIにはリトリーバルセントリックジェネレーション(RCG)を使用したモデル外部の情報を主に基にしたソリューションが構築されるべきですジェネレーティブAIとして...

中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル

ビジュアル言語モデルのモデルは強力かつ柔軟です。次に、トークン予測を使用して、画像キャプション、ビジュアルクエスチョンアンサリング、ビジュアルグラウンディング、さらにはセグメンテーションなど、さまざまなビジョンとクロスモダリティのタスクを作成できます。VLMがスケールアップされると、ダウンストリームアクティビティの強化とともに、インコンテキスト学習などの有用なスキルも現れます。 LLAMA2のような訓練済みの純粋な言語モデルと同じNLPパフォーマンスを持つVLMをスタートから訓練するのはより困難であり、既に大規模な言語モデルを導入すること自体が困難なタスクです。そのため、利用可能な事前訓練済みの言語モデルを使用してVLMを訓練するプロセスを見ることは合理的です。 BLIP-2に代表される広く使用されている浅いアラインメント技術は、トレーナブルなQ-Formerまたは線形層を使用して、凍結された事前訓練ビジョンエンコーダと言語モデルを接続し、画像特徴を言語モデルの入力埋め込み空間に変換します。このアプローチは収束速度が速いですが、PaLI-Xのように言語とビジョンのモジュールを同時に訓練すると同等のパフォーマンスは発揮されません。MiniGPT-4、LLAVA、およびVisualGLMなどの浅いアラインメント技術を使用して教えられたチャットスタイルのVLMの場合、ビジュアルの理解力の不足が幻覚として現れます。自然言語処理(NLP)の能力を損なうことなく、大規模言語モデルの視覚的な理解能力を向上させることは可能ですか? Zhipu AIと清華大学の研究者は、これに「はい」と答えています。彼らはCogVLMを紹介しました。この強力なオープンソースのビジュアル言語基礎モデルは、言語とビジュアル情報の深い統合の不足が浅いアラインメントアプローチのパフォーマンス低下の主な理由であると考えています。この考えは、効果的な微調整の2つのアプローチを比較することから生まれました:p-tuningは入力のタスク接頭辞埋め込みを学習します。LoRAは各レイヤーのモデルの重みを調整するために低ランク行列を使用します。その結果、LoRAはより効果的かつ安定して機能します。浅いアラインメント技術の画像特徴は、p-tuningのプレフィックス埋め込みと同様に振る舞いますので、VLMでも同様の現象が起こる可能性があります。 p-tuningと浅いアラインメントの性能低下のさらなる具体的な原因は次のとおりです: 1. テキストトークンが言語モデルの凍結された重みを訓練します。テキスト領域は、ビジュアル特性に完全に一致するだけです。ビジュアル特性は、多層の変更に続く深層の重みの入力分布と一致しなくなるかもしれません。 2. たとえば画像キャプションの仕事の文章スタイルやキャプションの長さは、浅いアラインメントのアプローチでは事前トレーニング中にビジュアル特性にのみエンコードされる可能性があります。ビジュアル要素とコンテンツの一貫性を強めることができるでしょう。Qwen-VLやPaLIが使用する画像テキストの組み合わせトレーニングに言語モデルを適応させることは、1つの可能な対策です。 ただし、これによりNLPが不要に損なわれ、画像ベースの詩の作成や画像の文脈の提供などのテキスト中心のアクティビティに影響を与える場合があります。PaLM-EによるVLMの事前トレーニング中に言語モデルを訓練可能にすると、厄介な忘却が起こり、8B言語モデルのNLGパフォーマンスが87.3%減少します。その代わりに、CogVLMは訓練可能なビジュアルエキスパートを使用して言語モデルを強化します。各レイヤーは、シーケンス内の画像特徴のための独自のQKV行列と、テキスト特性のためのMLP層を使用します。ビジュアルエキスパートは同じFLOPを維持しますが、パラメータの数を増やします。入力シーケンスに画像がない場合、すべてのパラメータが固定されているため、振る舞いは元の言語モデルと同じです。 NoCaps、Flicker30k、COCOなどの14の典型的なクロスモーダルベンチマークでは、Vicuna-7Bから訓練されたCogVLM-17Bは、最新技術または第2位の性能を達成しています。TDIUC、ScienceQAなどの3つのマルチチョイスデータセット、RefCOCO、RefCOCO+、RefCOCOg、Visual7Wなどのビジュアルグラウンディングデータセットが含まれていません。彼らはChatGLM-12Bから訓練されたCogVLM-28B-zhを商業用に中国語と英語の両方をサポートするために使用しました。過去の最も有名なVLM、例えばFlamingo、SimVLM、Coca、BEIT-3、GIT2、PaLI、PaLI-Xなどのほとんどはクローズドソースであるため、CogVLMのオープンソース化がビジュアルの理解の研究と産業応用に重大な影響を与えると予想されています。 を日本語に翻訳すると、 となります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us