Learn more about Search Results 3

「2023年、オープンLLMの年」

2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…

「2023年の振り返り:Post-ChatGPT時代のまとめと2024年の期待」

「ChatGPT、LangChain、ベクトルデータベース、およびRAGについての技術イベントと進歩に関するレビュージェネラティブAI領域のすべてをカバーします」

「NeurIPS 2023のハイライトと貢献」

「ニューラル情報処理システム(Neural Information Processing Systems)カンファレンスであるNeurIPS 2023は、学問的な追及とイノベーションの頂点として存在していますAI研究コミュニティーで崇拝されるこの一流イベントは、再び最も優れた知識と技術の領域を突破しようとする優れたマインドを集めました今年、NeurIPSは印象的な研究の数々を披露し、知識と技術の範疇において重要なマイルストーンを打ち立てました」

DALLE-3の5つの使用例

「DALL-E 3を使って、あなたの生活を少しでも楽にする方法を学んでください(またはたくさん)」

ミキストラル-8x7B + GPT-3 + LLAMA2 70B = 勝利者

「誰もがGoogle Geminiのリリースに注目している中、Mixtral-8 x 7 Billionは静かにオープンソースモデルをリリースしましたそこで、この記事では最新のAIについて深く掘り下げていきます...」

このAI論文では、既知のカメラパラメータなしで新しい視点合成を行うために、COLMAP-Free 3D Gaussian Splatting(CF3DGS)を提案しています

ニューラルレンダリングの進歩により、シーンの再構築や新しい視点の生成において重要なブレイクスルーがもたらされました。しかし、その効果はカメラの姿勢の正確な予備計算に大きく依存します。この問題を最小化するために、事前計算されたカメラの姿勢がないNeural Radiance Fields(NeRFs)を訓練するためにさまざまな取り組みが行われています。しかし、NeRFsの暗黙的な表現は、3Dの構造とカメラの姿勢を同時に最適化するのが困難です。 UCサンディエゴ、NVIDIA、UCバークレーの研究者らは、COLMAP-Free 3D Gaussian Splatting(CF-3DGS)を導入しました。これは、ビデオの時間的な連続性と明示的なポイントクラウド表現の2つの重要な要素を高めています。すべてのフレームを一度に最適化するのではなく、CF-3DGSはカメラが移動するにつれてシーンの3Dガウスを連続的な形で「成長させる」一つの構造を構築します。CF-3DGSは各フレームに対してローカルな3Dガウスセットを抽出し、全体のシーンのグローバルな3Dガウスセットを維持します。 https://arxiv.org/abs/2312.07504 リアルな画像を視点から生成するためにさまざまな3Dシーン表現が使用されており、平面、メッシュ、ポイントクラウド、マルチプレーンイメージなどが含まれます。NeRFs(Neural Radiance Fields)は、その写真のようなリアルなレンダリング能力のために、この分野で注目を集めています。3DGS(3D Gaussian Splatting)メソッドは、純粋な明示的な表現と微分を利用したポイントベースのスプラッティング方法を使用して、ビューのリアルタイムレンダリングを可能にします。 CF-3DGSは既知のカメラパラメータを必要としないで合成ビューを実現します。それは3D Gaussian Splatting(3DGS)とカメラの姿勢を同時に最適化します。近くのフレームから相対カメラ姿勢を推定するためにローカルな3DGSメソッドを使用し、未観測のビューから3Dガウスを進行的に展開するためにグローバルな3DGSプロセスを使用しています。CF-3DGSは、明示的なポイントクラウドを使用してシーンを表現し、3DGSの機能とビデオストリームに固有の連続性を活用します。このアプローチは、入力フレームを順次処理し、3Dガウスを進行的に展開してシーンを再構築します。この手法により、トレーニングと推論の速度が高速化されます。 https://arxiv.org/abs/2312.07504 CF-3DGSメソッドは、先行の最先端技術よりもポーズ推定の耐性が高く、新規ビューの合成品質も優れています。この手法は、より複雑で挑戦的なカメラの動きを示すCO3Dビデオで検証され、ビューの合成品質においてNope-NeRFメソッドを上回る結果を示しました。このアプローチは、CO3D V2データセットにおいてすべてのメトリックでNope-NeRFeをしのぎ、特に複雑なカメラの動きがあるシナリオでのカメラの姿勢推定の耐性と精度を示しています。 まとめると、CF-3DGSはビデオの時間的な連続性と明示的なポイントクラウド表現を利用してビューを効果的かつ堅牢に合成する方法です。この方法は、主にビデオストリームや順序付けられた画像コレクションに適しており、Structure-from-Motion(SfM)前処理の必要はありません。また、非順序の画像コレクションに対応するための将来の拡張の可能性もあります。

「医療の分野における人工知能モデルのリスト(2023年)」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/18-1024×618.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/18-150×150.gif”/><p>今年だけでも、人工知能(AI)が進化を遂げた数を考えると、2023年を通じて重要な議論の中心となっていることは驚くべきことではありません。AIは今やほぼあらゆる領域で活用されており、その中でも興味深く有用な応用の1つが医療と医学の分野です。薬物の発見から医療文書の転写、手術の支援まで、医療従事者の生活を変え、誤りを減らし、効率を向上させています。この記事では、2023年に医療現場を変革する可能性のあるいくつかのAIモデルについて説明します。</p><h2><a href=”https://www.voagi.com/google-deepminds-recent-advancements-analogical-stepback-prompting.html”><strong>Med-PaLM 2</strong></a></h2><p>Google Researchが医療分野向けに設計したMed-PaLMは、医療の質問に高品質な回答ができるモデルです。このモデルはGoogleのLLMの力を活用しており、米国医師国家試験のような質問に回答する際には人間の専門家レベルに達する最初のモデルの1つです。評価された結果、このモデルは症状を理解し、複雑な推論を行い、適切な治療法を選択する能力を示しました。さらに、研究の中でMedQA医学試験のベンチマークで86.5%の正確さを達成しました。有望な能力を示しているものの、研究者はより厳密な評価を行い、安全性の重要な領域での展開が可能かどうかを確認するためにさらなる評価を行いたいと考えています。</p><h2><a href=”/?s=Bioformer”><strong>Bioformer</strong></a></h2><p>Bioformerは、バイオメディカルテキストマイニングに使用できるBERTのコンパクト版です。BERTは自然言語処理のアプリケーションで最先端の性能を達成していますが、計算効率を向上させるためにパラメータを減らすことができます。Bioformerの研究者たちは、このアプローチを取り、BERTよりもモデルサイズが大幅に小さいモデル(60%削減)を開発しました。このモデルはPubMedの要約とPubMed Centralの全文記事で訓練され、バイオメディカル用語を使用しています。研究者は2つのバージョンのモデル、Bioformer8LとBioformer16Lをリリースしましたが、名前の識別、関係抽出、質問応答、文書分類などのパラメータで少ないパラメータでもうまく機能しました。</p><h2><a href=”https://www.voagi.com/google-ai-has-launched-medlm-a-series-of-foundation-models-specifically-tailored-for-the-healthcare.html”><strong>MedLM</strong></a></h2><p>MedLMは、Googleが開発した基礎モデルのスイートで、医療ケースに特化してファインチューニングされています。MedLMの下には複雑なタスクに対応し、タスク間でのスケーリングを可能にする2つのモデルが設計されています。これらのモデルの主な目的は、タスクを自動化して時間を節約し、効率を向上し、全体的な患者の健康を改善することです。Googleの研究者はDeloitteと協力して、MedLMの能力を実証するためのパイロットを行っています。MedLMはまた、BenchSciのASCENDなど他のAIシステムと統合されており、臨床研究の品質と速度を向上させるために活用されています。</p><h2><a href=”/?s=RoseTTAFold”><strong>RoseTTAFold</strong></a></h2><p>RoseTTAFoldは、限られた情報から蛋白質の構造を予測するためのディープラーニングを活用したソフトウェアです。このモデルは蛋白質配列のパターン、アミノ酸の相互作用、および3D構造を研究することができます。このモデルにより、研究者は蛋白質と小分子薬剤の相互作用のモデル化が可能になり、これにより薬剤探索の研究が促進されます。モデルの研究者はまた、コードを公開して、全コミュニティの利益に資するようにしています。</p><h2><a href=”https://www.voagi.com/revolutionizing-biological-molecule-predictions-with-deepminds-alphafold.html”><strong>AlphaFold</strong></a></h2><p>AlphaFoldは、DeepMindが開発した強力なAIモデルで、アミノ酸配列から蛋白質の3D構造を予測することができます。DeepMindはEMBL(EMBL-EBI)のEuropean Bioinformatics Instituteとパートナーシップを組んで、20億以上のAI生成蛋白質構造予測を含むデータベースを公開し、科学研究を促進しています。CASP14では、AlphaFoldは他のモデルよりも高い精度で結果を出し、高い正確性を持ちます。さらに、このモデルは研究者が蛋白質構造を理解し、生物学的研究を進めるのに役立つ潜在能力を持っています。</p><h2><a href=”/?s=ChatGLM-6B”><strong>ChatGLM-6B</strong></a></h2> ChatGLMは中国語と英語のバイリンガルモデルであり、中国語の医療対話データベースを元に微調整されています。モデルは比較的短い時間(13時間)で微調整されたため、非常に手頃な医療目的のLLMです。モデルはより長いシーケンス長を持つため、より長い対話や応用に対応しています。モデルは教師あり微調整、RLHFなどの技術を使用してトレーニングされました。これにより、モデルは人間の指示をより理解することができます。その結果、モデルは優れた対話と質問応答の能力を持っています。 記事:List of Artificial Intelligence Models for Medical…

私はスポティファイで3回の大量解雇を乗り越えました、ここで学んだこと

数年間の努力の末、ついに夢の仕事に就くことを想像してみてくださいあなたは世界の頂点に立ち、人生を謳歌し、安定感を感じていますしかし、どこからともなくリストラが襲いかかりますこれは単なる仮説ではありません...

このAI論文は、「パーシウス」という画期的なフレームワークを紹介していますこれにより、大規模な機械学習やAIモデルのトレーニング時のエネルギー浪費を最大30%削減することが可能です

大きな言語モデル(GPT-3など)は、トレーニングと推論中の計算ニーズにより、相当なエネルギーを必要とします。エネルギー使用量は、モデルのサイズ、タスクの複雑さ、ハードウェアの仕様、および運用時間などの要素によって大きく異なります。 これらのモデルのトレーニングには、高性能なGPUやTPUを使用するなど多くの計算リソースが必要とされ、長期にわたる相当なエネルギー消費を伴います。GPT-3のような大規模な言語モデルのトレーニングには、数日または数週間にわたる複数の家庭の消費電力に相当するエネルギーが使われるとの推定があります。 エネルギー消費の最適化は重要であり、モデルの効率を損なうことなく行われる必要があります。研究者は、大規模な言語モデルのトレーニングにおいてスループットの喪失を伴わない削減可能なエネルギー消費を目指しています。各パイプラインの計算量の問題は、分散実行計画において重要な問題です。ディープニューラルネットワーク(DNN)は、計算量が異なる粗粒度のテンソル操作ですので、すべてのステージをバランス良く調整するのは不可能です。 ミシガン大学とワシントン大学の研究者たちは、トレーニング中に消費されるエネルギーのすべてが直接エンドツーエンドのトレーニングスループットに貢献するわけではなく、トレーニングを遅くすることなく大幅に削減できることを発見しました。彼らはエネルギーの膨張の内的および外的な要因を発見し、Perseusという単一の最適化フレームワークを提案しています。 内的なエネルギーパフォーマンスの喪失は、計算の不均衡性によるものであり、外的なエネルギーパフォーマンスの喪失は、複数のパイプラインが並列で実行され、大量のデータセットでトレーニングをスケールアウトさせるためのものです。遅れているパイプラインよりも早く実行されるパイプラインは速く、全体のトレーニングスループットに影響を与えないエネルギーを無駄に消費します。 Perseusは、通常の運用条件下で内的なエネルギーパフォーマンスの喪失を最小限に抑えるため、イテレーション全体の時間エネルギーを効率的に事前特性化します。さらに、エネルギーを効率的に削減することにより、外的なエネルギーパフォーマンスの喪失を緩和します。非遅れているパイプラインにおいて適切なイテレーションタイミングを見つけることで、パイプライン内の計算を正確に遅くすることができます。 研究者は、ハイブリッド並列処理で大規模なモデルのトレーニングを行い、さまざまな強いスケーリング構成で遅れるパイプラインをシミュレーションしました。エネルギーパフォーマンスの喪失量とPerseusの外的なエネルギー節約を測定しました。他の非遅れるパイプラインは、遅れるパイプラインの計算が完了するまで待つため、外的なエネルギーパフォーマンスの喪失が生じます。各パイプラインイテレーションの開始と終了時にマイクロバッチの数やパイプラインバブルの比率を減らすことで、内的なエネルギーパフォーマンスの喪失を除去し、エネルギーを削減します。 Perseusをトレーニングワークフローに統合することは、AIの開発の将来に強い影響を与える可能性があります。彼らの研究は、LLM(Large Language Models)とGenAIの普及における分散トレーニングの持続可能性を大幅に向上させる可能性があります。

「パブリックスピーキングのための5つの最高のAIツール(2023年12月)」

「人工知能の領域において、公の演説にAIツールを応用することは大きな進歩を意味しますこれらのツールは、スピーキングスキルの向上に役立つ実用的なソリューションを提供し、あらゆるレベルのスピーカーが直面する共通の課題に対処しますAI技術を活用することで、これらのツールはスピーチのデリバリー、コンテンツの構成、聴衆の関与に関する貴重な洞察を提供します私たちの探究...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us