Learn more about Search Results 6 - Page 8
- You may be interested
- 「研究者が深層学習と物理学を組み合わせ...
- 施設分散問題:混合整数計画モデル
- 「医療の分野における人工知能モデルのリ...
- 「データリテラシーのあるワークフォース...
- 「ギザギザしたCOVIDチャートの謎を解決す...
- 進化的アルゴリズム-突然変異の解説
- 「Scikit-Learnによる次元削減:PCAの理論...
- 新しい化学
- 「Transformerモデルの実践的な導入 BERT」
- コードのためのLLMsの構築方法は?
- 医師たちは人工知能と患者ケアの問題に取...
- なぜハイプが重要なのか:AIについて現実...
- 「UCサンディエゴのコンピュータサイエン...
- チャットボットの台頭
- テックとマインドのバランス:メンタルヘ...
エンジニアにとって役立つ6つのリソース
「このリソースのコレクションは、さまざまな経験レベルを持つ多くのAIのプロフェッショナルに役立つでしょうブックマークに保存して、自由な時間に学習してください」
ドメイン特化の大規模言語モデルの6つの例
「GoogleのBardやOpenAIのChatGPTなどの大規模言語モデルを使った経験があるほとんどの人々は、一般的で業界特化していないLLM(Large Language Model)と一緒に作業してきましたしかし、時間が経つにつれて、多くの業界がこれらのモデルの力を認識してきましたそれによって、彼らは理解するようになりました...」
GPT-4の主な6つの利用事例
GPT-4の画期的な応用を、コンテンツ制作から医療に至るまで、さまざまな業界で探求してください6つのユースケースでAIの変革的な影響を発見してください
このAIニュースレターは、あなたが必要とするすべてです#61
「最近の数ヶ月間、私たちは大規模な言語モデル(LLM)の進歩と新しい技術の徐々の導入を続けてきましたが、まだGPT-4を直接的に置き換えることを目指した競争は見られていません…」
「Lineが『japanese-large-lm』をオープンソース化:36億パラメータを持つ日本語言語モデル」
2020年11月以来、LINEは日本語に特化した先進的な大規模言語モデルの研究開発に取り組んできました。この旅の重要なマイルストーンとして、LINEのMassive LM開発ユニットは、日本語の言語モデル「Japanese-large-lm」をオープンソースソフトウェア(OSS)として公開しました。このリリースは、先端の言語モデルを活用しようとする研究コミュニティとビジネスに大きな影響を与えることが期待されています。 これらの言語モデルには、36億(3.6B)パラメータモデルと17億(1.7B)パラメータモデルの2つのバリエーションがあり、それぞれ3.6Bモデルと1.7Bモデルと呼ばれています。これらのモデルを公開し、言語モデルの構築に関する包括的な知識を共有することで、LINEは自社のアプローチの複雑さに一瞥を提供し、この分野の進歩に貢献することを目指しています。 1.7Bモデルと3.6Bモデルは、HuggingFace Hub(1.7Bモデル、3.6Bモデル)を介してアクセスでき、人気のあるtransformersライブラリを通じてさまざまなプロジェクトにシームレスに統合することができます。これらのモデルをApache License 2.0の下でライセンスすることで、研究者や商業企業など、さまざまなユーザーが多様なアプリケーションでそれらの機能を活用することができます。 高性能な言語モデルを開発するための基盤となる重要な要素は、広範で高品質なトレーニングデータセットの活用です。LINEは、これを達成するために、独自の日本語ウェブコーパスを活用して多様なテキストデータを充実させました。ただし、ウェブから派生するコンテンツの課題は、ソースコードや非日本語の文などのノイズが含まれることです。LINEは、HojiChar OSSライブラリを活用した細心のフィルタリングプロセスを採用することで、大規模で高品質なデータセットを取り出し、モデルの堅牢性の基盤を形成しました。 モデルのトレーニング効率も重要な考慮事項であり、LINEは3DパラレリズムやActivation Checkpointingなどの革新的なテクニックを導入することで、効率的なデータの吸収を実現し、計算能力の限界を押し上げました。驚くべきことに、1.7BモデルはA100 80GB GPU上でわずか4000時間のGPUを使用して開発されました。これは彼らの学習アプローチの効果を示すものです。 特筆すべきは、この日本語言語モデルの開発軌跡がHyperCLOVAとは異なることです。LINEの専任のMassive LM開発ユニットによって厳格に監視された独自の開発ラインに沿って構築されたこのモデルは、日本語のための優れた事前学習モデルを作り上げるLINEの取り組みを示しています。彼らの総合的な目標は、大規模言語モデルの幅広い経験から得られた洞察と教訓を統合することです。 LINEは、モデルの効果を評価するためにパープレキシティスコア(PPL)と質問応答および読解タスクの精度率を調査しました。PPLはモデルの予測能力を示し、精度率は具体的なパフォーマンス指標を提供します。その結果、LINEのモデルは、さまざまなタスクで競争力のあるパフォーマンスを示し、分野で確立されたモデルと肩を並べるものでした。 彼らの成功の基盤となったのは、効果的な大規模言語モデルのトレーニングに関する一連の貴重なヒントです。これには、微調整の考慮事項、ハイパーパラメータAdam’s beta2、最適な学習率、適切な学習率スケジューラの適用などが含まれます。LINEはこれらの技術的な複雑さに深入りすることで、広範なコミュニティに利益をもたらす力強いモデルを開発し、知見を共有しています。 まとめると、LINEが1.7Bモデルと3.6Bモデルの日本語言語モデルを公開したことは、自然言語処理の重要な進歩です。彼らは将来の調整モデルの公開に対する取り組みを強調することで、言語モデルの機能を向上させることへの彼らの取り組みを示しています。LINEが進歩を続ける中で、グローバルコミュニティは彼らの持続的な貢献の影響を熱望しています。
「このAI論文は、すべての科学分野をカバーする学術データを含む26億以上のトリプルを持つ包括的なRDFデータセットを紹介しています」
最近の研究について追いつくことは、科学論文の増加によりますます困難になっています。たとえば、2022年だけでも800万以上の科学論文が記録されました。研究者は、検索インターフェースから推薦システムまで、著者や機関などの関連する知的実体を調査するためにさまざまな技術を使用しています。RDF知識グラフ(KG)として基礎となる学術データをモデル化することは、効率的な方法の1つです。これにより、標準化、可視化、およびリンクデータリソースとの相互リンクが容易になります。その結果、学術KGは、文書中心の学術資料をリンク化および自動化可能な知識構造に変換するために不可欠です。 しかし、既存の学術KGには次のいずれかの制限があります: あらゆる科目の包括的な作品リストがめったに含まれていないこと。 コンピュータサイエンスなど特定の分野のみをカバーしていること。 更新頻度が低く、多くの研究やビジネスモデルが時代遅れになっていること。 使用制限が頻繁にあること。 これらの基準を満たしていても、RDFのようなW3Cの標準に準拠していないこと。 これらの問題は、科学的KGの普及を阻害しています。例えば、Microsoft Academic Graph(MAKG)のRDF派生物であるMicrosoft Academic Knowledge Graph(MAKG)は、2021年に終了したため更新できません。 革新的なOpenAlexデータセットは、このギャップを埋めることを目指しています。ただし、OpenAlexのデータはLinked Data Principlesに準拠せず、RDFでアクセスできません。そのため、OpenAlexはKGとは見なされず、意味的な問い合わせ、アプリケーションの統合、および新しいリソースへの接続が困難です。最初の外観では、科学的論文に関する学術情報をWikidataに組み込み、WikiCiteムーブメントを支援するための簡単な方法のように思えるかもしれませんが、特定のスキーマ以外にも、データ量が既に非常に大量であるため、Wikidata Query ServiceのBlazegraphトリプルストアは容量制限に達し、統合がブロックされます。 本研究では、Karlsruhe Institute of TechnologyおよびMetaphacts GmbHの研究者が、学術の景観全体に関する非常に大規模なRDFデータセット「SemOpenAlex」を紹介しています。SemOpenAlexには、すべての学術分野から2億4900万以上の論文と260億以上の意味トリプルが含まれています。それは包括的なオントロジーに基づいて構築され、Wikidata、Wikipedia、およびMAKGを含む他のLODソースを参照しています。彼らはSemOpenAlexのインテグレーションを容易にするためにパブリックなSPARQLインターフェースを提供しています。さらに、データベース内のエンティティとその意味的な関係についてリアルタイムで情報を取得するための高度な意味検索インターフェースも提供しており、共著者の表示や著者の重要な概念の表示など、データベースに直接含まれているのではなく、意味的な推論によって導き出された情報も表示します。 彼らはまた、大規模なデータ分析を容易にするためのRDFデータスナップショットも提供しています。SemOpenAlexの規模と統合される科学論文の増加により、彼らはAWSを利用したパイプラインを作成し、完全なサービスの中断なしに定期的にSemOpenAlexを更新しています。さらに、彼らはSemOpenAlexのダウンストリームアプリケーションで使用するための最先端の知識グラフエンティティ埋め込みをトレーニングしています。彼らは可能な限り既存のオントロジーを使用することで、FAIRの原則に準拠したシステムの相互運用性を保証し、SemOpenAlexをLinked…
Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています
最近、トランスフォーマベースのニューラルネットワークは注目を集めています。トランスフォーマーアーキテクチャ(図1参照)は、機械翻訳、テキスト生成、質問応答など、自然言語処理の活動の中で業界標準として浮上しました。トランスフォーマベースのモデルの効果はNLPに制限されません。音声認識、コンピュータビジョン、レコメンデーションシステムなど、他のいくつかの分野でも成功を収めています。言語、ビジョン、マルチモーダルの基礎モデルは、数十億から数兆のパラメータを持つこれらのモデルの中で最も複雑で効果的です。 ただし、新しいモデルは通常、以前に学習した小さなモデルのスキルを活用せずに最初から教えられます。さらに、モデルのサイズはトレーニング中も一貫して維持されます。トレーニングに必要なトレーニングデータの量の増加により、モデルサイズの計算コストは二次的に増加します。事前学習モデルのパラメータを再利用するか、トレーニング中にモデルのサイズを動的に増やすことで、トレーニングの総コストを削減することができます。ただし、トレーニングの進捗を犠牲にすることなくこれを行うことは容易ではありません。これらの制限を解決するために、トランスフォーマベースのモデルには、機能保存パラメータ拡張変換が提供されています。 これらの変換は、モデルのサイズを増やし、その機能を変えずにモデルの潜在的な容量を増やすため、トレーニングを継続できます。これらの組み合わせ可能な変換は、アーキテクチャの独立した次元で動作し、細粒度なアーキテクチャの拡張を可能にします。以前の研究では、小さな畳み込みモデルや密なモデルのための技術を拡張したトランスフォーマベースのモデルのための機能保存パラメータ拡張変換も提案されています。 図1は、トランスフォーマーデザインに基づく典型的なニューラルネットワークの様子を示しています。 この研究では、Google DeepMindとトゥールーズ大学の研究者が、トランスフォーマアーキテクチャに適用される機能保存変換の最も包括的でモジュラーなコレクションを開発しました。この論文の6つの貢献は、トランスフォーマーアーキテクチャに適用される6つの組み合わせ可能な機能保存変換です。以下に示します。 MLP内部表現のサイズ アテンションヘッドの数 アテンションヘッドの出力表現のサイズ アテンション入力表現のサイズ トランスフォーマーレイヤーの入力/出力表現のサイズ レイヤーの数 著者たちは、各変換において追加パラメータの初期化に可能な制限を最小限に抑えながら、正確な機能保存性がどのように達成されるかを実証しています。これらの貢献については、論文で詳しく議論されています。
VoAGI ニュース、8月16日:テキストをパワーポイントプレゼンテーションに変換するための ChatGPT の利用 • ジェネラティブ AI アプリケーションを構築するための最高の Python ツール チートシート
テキストをパワーポイントプレゼンテーションに変換する方法 • ジェネレーティブAIアプリケーションのための最高のPythonツール チートシート • テックウィンターを生き残るためにデータサイエンティストは専門化する必要がある • Pythonベクトルデータベースとベクトルインデックス LLMアプリケーションのアーキテクチャ設計 • SQLクエリの高速化方法...
トムソン・ロイターが6週間以内に開発したエンタープライズグレードの大規模言語モデルプレイグラウンド、Open Arena
この記事では、トムソン・ロイター・ラボがAWSとの協力のもとで開発したトムソン・ロイターの企業全体で使用される大規模言語モデル(LLM)のプレイグラウンド、Open Arenaについて説明しますオリジナルのコンセプトは、Simone Zucchet(AWSソリューションアーキテクト)とTim Precious(AWSアカウントマネージャー)のサポートを受けたAI/MLハッカソンで生まれ、AWSのサービスを使用して6週間以内に本番環境に開発されましたAWS Lambda、Amazon DynamoDB、Amazon SageMakerなどのAWS管理サービス、および事前に構築されたHugging Face Deep Learning Containers(DLC)がイノベーションのスピードに貢献しました
このAIニュースレターは、あなたが必要とするすべてです#60
今年、AI競争が加速する中で、AIチップのトレーニングと推論能力が重要な資源となっており、過去数週間にわたりいくつかの進展が見られました大手テクノロジー企業と...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.