Search Results 7

類似検索、パート7 LSHの組み合わせ

「類似検索は、クエリが与えられた場合に、データベースの全ドキュメントの中からそれに最も類似したドキュメントを見つけることを目的とした問題ですデータサイエンスでは、類似検索はしばしばNLP（自然言語処理）で現れます...」

「TxGNN（テキストジーノーディープラーニング）にお会いしましょう：ジオメトリックディープラーニングとヒューマンセンタードAIを活用して、17,080の疾患の広範な範囲にわたる治療利用のゼロショット予測を行う新しいモデル」

世界中の数十億人の医療ニーズを満たすためには、緊急に治療法を開発する必要があります。しかし、現在、臨床的に認識された疾患のごく一部にしか承認された治療法がありません。遺伝子の機能やそれが生成する分子の変化は、疾患の一般的な原因です。正常な分子活性を回復させる可能性のある薬剤は、これらの疾患に対する潜在的な防御手段です。残念ながら、損傷した遺伝子の生物学的な活動を回復させる治療法は、まだ多くの疾患に対して困難です。さらに、ほとんどの疾患は多くの遺伝子の変化によって引き起こされ、個々の遺伝子内でも変異パターンは大きく異なることがあります。疾患に関連するプロセスや活動に関与する遺伝子のネットワークであるインタラクトームは、これらの遺伝的な出来事を説明するための優れたツールです。疾患の中断された遺伝子アーキテクチャを解読し、それに対応する薬剤を作成するために、機械学習はハイスループットの分子インタラクトームと電子医療記録データを分析するために使用されています。新しい薬剤開発は困難であり、特に治療選択肢の少ない疾患に対しては、効率の低い薬剤をより安全で効果的なものに置き換えることができます。FDAはわずか500の人間の疾患に対して治療法を承認しています。分析に含まれる17,080の臨床的に認識された疾患のうち、1,363には特定の薬剤が処方されており、そのうち435は1つの処方箋、182は2つの処方箋、128は3つの処方箋しかありませんでした。新しい薬剤の発見は、治療法のある疾患にとっても治療的に重要であり、より少ない副作用を持つより多くの治療選択肢を提供し、特定の患者集団で効果のない薬剤を置き換えることができます。疾患の分子原因と潜在的な治療法についてより多くの知識が必要な疾患に興味を持つ研究者によって導入された治療法予測のための幾何学的な深層学習技術であるTXGNNが紹介されています。TXGNNは、現在治療中の疾患に層状に配置された疾患によるネットワークでティーチングされます。この知識グラフは、17,080の一般的および珍しい疾患に関する数十年にわたる生物学的研究を統合し、まさにTXGNNの治療中心のグラフの幾何学を反映するように最適化されています。グラフニューラルネットワークモデルは、治療候補と疾患を潜在的な表現空間に統合します。TXGNNは、潜在的な表現空間で作用するメトリック学習モジュールを使用し、監督付き深層学習の制約を回避して訓練中に見られる疾患から無視された疾患への治療法の予測を行います。 TxGNNは、17,080の臨床的に認識された疾患と7,957の治療候補を含む知識グラフで事前訓練されたグラフニューラルネットワークです。統一された形式でさまざまな治療タスクを実行することができます。TxGNNは、訓練後に正解ラベルの微調整や追加パラメータの必要がないため、未訓練の疾患に対してゼロショット推論が可能です。最先端の手法と比較して、TxGNNは効果的に競争を上回り、指示タスクでは最大で49.2％、禁忌タスクでは35.1％の精度向上があります。実験デザインと方法論 – 網羅的なパフォーマンス評価のためのデータセットの分割疾患領域の分割: 多くの疾患は治療の可能性がありますが、効果的な治療法は存在せず、生物学的な理解もほとんどありません。研究チームによって開発されたデータの分割を使用して、TXGNNがこのような状況で薬剤-疾患の関連性を予測する潜在能力をテストします。まず、グループの疾患と関連する薬剤-疾患のエッジをテストセットにコピーします。これにより、トレーニング中にTXGNNが選択された疾患カテゴリの現在の指示や禁忌を表すエッジの存在に無知になります。これにより、生物学的なメカニズムが不明な障害の治療の困難さが模倣されます。システマティックデータセットの分割: 治療不能な疾患の予測は、実装されている機械学習モデルに非常に適しているはずです。現在治療法が存在する疾患に対しては、将来の治療法を予測することははるかに簡単です。研究者は、この分割を使用して、モデルが以前に発見されていない疾患を予測する能力を厳密に調査しました。研究者はまず、すべての疾患をランダムに分割しました。トレーニング中に治療法が認識されない場合、およびテストセットが一意の疾患を含む場合、研究者はテストセットに関連するすべての薬剤-疾患関係をテストセットに移します。各イテレーションで100以上の一意の疾患がテストセットに含まれます。疾患中心のデータセットの分割: 研究者は、薬剤候補が臨床でどのように使用されるかをモデル化するために疾患中心の評価を使用します。まず、研究者はKG内のすべての薬剤をテストセットのすべての疾患と関連付けますが、トレーニングセットの薬剤-疾患関連を除外します。その後、研究者は可能なすべての組み合わせを互いに相互作用する可能性に基づいて評価します。研究者はその後、上位Kの薬剤を回収することによってリコールを計算します（つまり、テストセット内の薬剤と疾患のうち、全体のKに含まれる数）。最後のステップは、ランダムなスクリーニングベースラインの確立です。この場合、薬物セット内の上位Kの薬剤がランダムにサンプリングされ、リコールが計算されます。成果 TXGNNにおける幾何学的な生物学的事前情報を用いた治療応用の予測。TXGNNは、タンパク質相互作用ネットワーク内の疾患に影響を及ぼすネットワークを標的とする薬物が最も成功する可能性が高いという仮説に基づいています。TXGNNは、TXGNNの知識グラフの幾何学を捉えるために最適化されており、治療候補と障害（疾患の概念）を潜在表現空間にマッピングする知識に基づくGNNです。ゼロショット治療応用予測のための参照TXGNNの使用。研究者は、TXGNNの指示および禁忌の予測能力をテストします。TXGNNは、現在利用可能な治療法が存在しないStargardt病16や高オキサル酸尿症などの疾患を治療するために設計されているため、その性能は「ゼロショットパフォーマンス」という指標を用いて測定されます。ゼロショットパフォーマンスでは、モデルのトレーニング中に見られなかったテストセット（ホールドアウトセット）と呼ばれる別のデータセットの疾患に対する治療利用を予測するようにモデルに求められます。 5つの疾患タイプの治療利用を予測する際の100%の正確性。類似した生物学的基盤を持つ障害には似た治療法が使用される可能性があります。治療を定期的に拒否する患者の治療利用を予測できない場合があります。 1,363の指示があり、1,195の禁忌がある疾患に対して100%の正確性。推奨される治療法と禁忌とされる治療法について慎重な考慮を行います。 TXGNNの予後を現在の治療法と比較します。研究者は、TXGNNのデータセットとモデルの開発が完了した後に承認された10の新たに発売された薬剤を考慮して、TXGNNが確証バイアスによって操作されていないことを示すために、TXGNNが研究者に予測を提供するようにしました。TXGNNのデータセットでは、薬物-疾患ノードは直接接続されていません。特徴薬物が存在しない疾患に関して、および私たちの分子の知識が乏しい場合、TXGNNは治療利用の「ゼロショット」予測能力を持っています。…

「データサイエンティストが読むべきトップ7のNLP（自然言語処理）の本」

はじめに自然言語処理（NLP）の最近の進歩は、データサイエンティストが最新の情報を把握するために不可欠です。NLPの書籍は、その分野における詳細な知識、実践的なガイダンス、最先端の技術を提供する貴重な情報源です。この記事では、データサイエンティストにとって必読の8冊のNLPの書籍を紹介します。これらの書籍には、NLPの基礎原理から最先端のディープラーニング技術までが網羅されています。これらの書籍は、初心者から経験豊富な実践者まで、NLPの理解と能力を向上させるでしょう。 NLPとは何ですか？自然言語処理は、コンピュータと人間の言語との相互作用に焦点を当てた人工知能の分野です。コンピュータが言語の翻訳、感情分析、チャットボット、情報検索などのタスクを容易にするために、人間の言語を理解、解釈、生成するためのアルゴリズムや技術の開発を行います。自然言語処理の入門コースもチェックしてください。 1. スピーチと言語処理 Daniel JurafskyとJames H. Martinによる著作スピーチと言語処理は、NLPにおける最も包括的なマニュアルとされており、音声と言語処理の両方を含んでいます。この書籍は、基本的な概念、最先端の研究トピック、アルゴリズムを紹介しています。読者の能力レベルに応じた演習問題や実世界の例も提供されており、NLPの基礎を築くための有用なリソースとなっています。書籍リンク：スピーチと言語処理 2. Pythonによる自然言語処理 Steven Bird、Ewan Klein、Edward Loperによる著作 Pythonによる自然言語処理は、実践的な学びを通じて新しいことを学びたい場合に適した選択肢です。この書籍では、NLTK（Natural Language Toolkit）などのよく知られたモジュールを使用して、Pythonを使ったNLPのアルゴリズムの開発方法を示しています。感情分析、固有表現認識、品詞タグ付け、トークン化、固有表現など、重要なNLPのプロセスが取り上げられています。このNLPの書籍は、役立つ例やコードの断片を提供することで、NLPのアイデアを実世界の状況で活用することができます。書籍リンク：Pythonによる自然言語処理 3.…

「スケールナットのレビュー：最高のAI SEOライティングジェネレーター？（2023年7月）」

「コンテンツ作成を革新する最高のAI SEOライティングジェネレーターを見つけようとしていますか？Scalenutのレビューを読んで、詳細を学びましょう」

MPT-7Bをご紹介します MosaicMLによってキュレーションされた1Tトークンのテキストとコードでトレーニングされた新しいオープンソースの大規模言語モデルです

MosaicMLは最近、予測分析と意思決定のアプローチを変革する画期的なツール、MPT-7Bを発表しました。この新しいツールは、最新の深層学習とニューラルネットワークの進展を活用した堅牢な機械学習アルゴリズムであり、大規模で複雑なデータセットを扱い、重要なビジネス上の意思決定に有益な洞察を抽出することができます。 MPT-7Bは非常に多目的なツールであり、金融、医療、製造など、さまざまな業界でさまざまな目的に適用できます。産業設定における財務予測や予測保守などです。複数の業界の先進的な組織がこの最先端のプラットフォームを導入し、顕著な成功を収めています。MPT-7Bの重要な特徴の1つは、テキスト、画像、音声などの構造化および非構造化データを含むデータを処理する能力です。顧客フィードバックやソーシャルメディアの投稿など、非構造化データの大量の取り扱いに悩む組織にとって、この機能は特に有用です。 MPT-7Bのもう1つの重要な利点は、時間の経過とともに学習し適応する能力です。ツールがより多くのデータを分析するにつれて、パターンを識別し正確な予測を行う能力が向上します。これにより、組織は時間をかけて予測モデルを洗練し改善することができ、より正確で信頼性の高い結果が得られます。 MPT-7Bの活用により、医療業界は大きな恩恵を受けています。患者データや医療記録を分析することで、このツールは心臓疾患や糖尿病など特定の状態を発症するリスクが最も高い患者を予測することができました。これにより、医療提供者はこれらの状態の発症を予防するための積極的な対策を講じることができ、最終的に患者の結果を改善することができました。 MPT-7Bは予測分析と機械学習の分野で大きな進歩です。その多様性、適応性、正確性により、より情報を持ったデータ駆動型の意思決定を行いたい組織にとって貴重なツールとなっています。プラットフォームが進化し改善し続けるにつれて、より印象的なユースケースやアプリケーションが期待されます。MPT-7Bの統合により、組織は正確なデータ駆動型の洞察に基づいてより良いビジネス上の意思決定を行うことができ、大きな競争上の優位性を得ることができます。データ駆動型の世界がますます重要になる中、正確な予測分析と意思決定のツールの重要性は過小評価できません。MPT-7Bを使用することで、組織はAIと機械学習の最新の進展を最大限に活用し、成長と発展の新たな可能性と機会を開拓することができます。

「10/7から16/7までのトップコンピュータビジョン論文」

コンピュータビジョンは、機械に視覚世界を解釈し理解させることに焦点を当てた人工知能の分野であり、画期的な研究と技術の進化により急速に進化しています

「PolyLM（Polyglot Large Language Model）に会ってください：640BトークンでトレーニングされたオープンソースのマルチリンガルLLMで、2つのモデルサイズ1.7Bと13Bが利用可能です」

最近、大規模言語モデル（LLM）の導入により、その多様性と能力が人工知能の分野で注目されています。これらのモデルは、膨大な量のデータで訓練され、自然言語の指示に基づいてテキストを理解し、推論し、生成するという、人間に近い能力を持っています。これらのモデルは、ゼロショットおよびフューショットのタスクで優れたパフォーマンスを発揮し、さまざまなタスクセットで微調整することで、自然言語で与えられた指示に基づいて予期しない課題に対応することができます。現在のLLMとその開発は、英語やリソース豊富な言語に焦点を当てています。既存のLLMのほとんどは、英語のために特別に設計され、訓練されており、これらのモデルの研究と開発において英語に対する優位性が顕著です。この制限に対処するために、DAMO AcademyとAlibaba Groupの研究者チームは、POLYLM（Polyglot Large Language Model）と呼ばれるマルチリンガルLLMを提案しました。既存のマルチリンガルLLMには13Bモデルが欠けているという特徴があり、チームはPOLYLM-13BとPOLYLM-1.7Bをリリースして使用を容易にしました。 POLYLMは、Wikipedia、mC4、CC-100などの一般にアクセス可能なソースからの640Bトークンの巨大なデータセットを使用して構築されました。チームはまた、低資源言語の不十分なデータの問題に対処するために、カリキュラム学習技術を提案しています。この方法は、トレーニング中に高品質な低資源言語の割合を徐々に増やすことを含みますが、最初は英語に重点を置いています。英語から他の言語への一般的な知識の転送に焦点が当てられています。チームはまた、教師付き微調整（SFT）フェーズのためのマルチリンガルな指示データセットであるMULTIALPACAを開発しました。既存のマルチリンガルSFTデータセットは、手動注釈によって取得されるか、機械翻訳によって取得されるが、手間と費用がかかるか、翻訳エラーが発生し、文化的なニュアンスが欠ける可能性があります。このマルチリンガル自己指示アプローチは、これらの制約を克服するために高品質なマルチリンガルな指示データを自動的に提供し、英語のシード、多言語への翻訳、指示の生成、およびフィルタリングシステムを活用します。評価とLLMの多言語能力の評価のために、チームは既存のマルチリンガルタスクから派生したベンチマークを開発しました。これには、質問応答、言語理解、テキスト生成、クロスリンガル機械翻訳などのタスクを含みます。チームは広範な実験により、彼らの事前学習済みモデルが、非英語圏の言語において、同等のサイズのオープンソースモデルよりも優れたパフォーマンスを発揮することを示しました。提案されたカリキュラムトレーニング戦略は、英語の習熟度を維持しながら、多言語のパフォーマンスを向上させます。マルチリンガルな指示データの使用は、さらにPOLYLMの多言語ゼロショットタスクの処理能力を大幅に向上させます。チームは以下の貢献をまとめています。スペイン語、ロシア語、アラビア語、日本語、韓国語、タイ語、インドネシア語、中国語など、主要な非英語圏の言語で優れたパフォーマンスを発揮する13Bスケールのモデルが実現されました。このモデルは、これらの言語の習熟度が不足しているか、同等の能力を持つより小さなバージョンがない既存のオープンソースモデルを補完します。英語で主に獲得された一般的な知識を多様な非英語圏の言語や機械翻訳などの特定の自然言語処理タスクに効果的に転送するための高度なカリキュラム学習アプローチが提案されました。既存の指示データセットを補完するMULTIALPACAというデータセットが提案されました。これにより、LLMは非英語圏の英語を母国語としない話者からのマルチリンガルな指示をより良く理解することができます。

「データアクセスはほとんどの企業で大きな課題であり、71%の人々が合成データが役立つと考えています」

MOSTLY AIは、データサイエンスAI / MLコミュニティで初めての合成データ調査を実施しました結果はこちらでご確認ください

Partners

新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました（75.17% → 91.68%）

最近の技術の進展により、大規模言語モデル（LLM）は複雑で洗練された推論タスクで非常に優れた成績を収めています。これは、デモンストレーションのプロンプトに対して中間の推論ステップを生成することによって実現されます。これはチェーン・オブ・ソート（CoT）プロンプティングとも呼ばれます。しかし、CoTに関する現在の研究のほとんどは言語モダリティに焦点を当てており、マルチモーダルなCoT推論を抽出するために、研究者はしばしばマルチモーダル-CoTパラダイムを使用します。マルチモーダル-CoTは、ビジョンや言語など、さまざまなモダリティの入力がある場合でも、多段階の問題を中間の推論プロセスに分割し、最終的な出力を生成します。マルチモーダル-CoTを実行する最も人気のある方法の1つは、LLMにCoTを実行する前に、複数のモダリティからの入力を単一のモダリティに組み合わせることです。しかし、この方法にはいくつかの欠点があります。1つは、データを1つのモダリティから別のモダリティに変換する際に生じる重要な情報の損失です。マルチモーダルなCoT推論を実現する別の方法は、ビジョンと言語のさまざまな特徴を組み合わせて、小さな言語モデルを微調整することです。ただし、このアプローチの主な問題は、これらの言語モデルが幻覚的な推論パターンを生成する傾向があることであり、これが回答推論に大きな影響を与えます。そのようなエラーの影響を軽減するために、Amazonの研究者はビジュアル特徴を分離されたトレーニングフレームワークで組み合わせるMultimodal-CoTを提案しました。このフレームワークは、推論プロセスを2つのフェーズに分割します：根拠生成と回答推論。モデルは、ビジョンの側面を両方のステージに取り入れることで、より説得力のある議論を生成し、より正確な回答推論を作成するのに役立ちます。この研究は、異なるモダリティでのCoT推論を研究した最初のものです。Amazonの研究者によって提供された技術は、ScienceQAベンチマークで最先端のパフォーマンスを発揮し、GPT-3.5の正確さを16%上回り、人間のパフォーマンスを上回りました。マルチモーダル回答CoTの推論と推論生成のステージは、同じモデルアーキテクチャを使用しており、入力と出力の種類が異なります。ビジョン-言語モデルの例を取ると、モデルは根拠生成の段階で視覚と言語の両ドメインのデータを受け取ります。根拠が生成されると、回答推論のステップで初期の言語入力に追加され、次のステージの言語入力のためのデータが作成されます。モデルは、更新されたデータを受け取り、所望の結果を生成するためにトレーニングされます。エンコーディング、インタラクション、デコーディングの3つの主要な機能を実行するトランスフォーマーベースのモデルが基盤となっています。要するに、言語テキストはTransformerエンコーダに供給され、テキスト表現が作成されます。このテキスト表現は、ビジョン表現と組み合わされ、Transformerデコーダに供給されます。彼らの手法の有効性を評価するために、研究者はScienceQAベンチマークで多くのテストを実施しました。ScienceQAベンチマークは、注釈付き回答が含まれる21,000以上のマルチモーダルな科学の質問からなる大規模なデータセットです。研究者は、その手法がベンチマークで従来の最先端のGPT-3.5モデルを16%上回ると結論付けました。要するに、Amazonの研究者は、マルチモーダル-CoTを実行するためにビジョンと言語の表現を組み合わせるために言語モデルを微調整するという2段階のフレームワークを提案し、情報的な根拠を生成して最終回答を推論するモデルを生成します。モデルのGitHubリポジトリは以下からアクセスできます。

「40以上のクールなAIツール（2023年7月）をチェックしてください」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオや画像を作成したい人向けのAIベースのツールです。ビデオ、写真、ミーム、古い映画、GIFなどをリフェイシングして、簡単にコンテンツを作成することができます。このアプリにはコンテンツの制限がないため、ユーザーはどんなコンテンツの素材でもアップロードすることができます。さらに、初めて製品に加入するユーザーは50%オフで購読ユーザーになることができます。 Docktopus AI Docktopusは、100以上のカスタマイズ可能なテンプレートを備えたAIパワードのプレゼンテーションツールで、ユーザーは数秒でプロのプレゼンテーションを作成することができます。 Promptpal AI Promptpal AIは、ChatGPTなどのAIモデルを最大限に活用するための最適なプロンプトを見つけるのに役立ちます。 Quinvio AI Quinvioは、直感的なエディタ、AIによるライティング支援、AIスポークスパーソンの選択オプションを備えたAIビデオ作成ツールです。 Ask your PDF AskYourPdfは、ユーザーが簡単にPDFドキュメントと対話し、洞察を抽出するのに役立つAIチャットボットです。 Supernormal AI Supernormalは、自動的にミーティングのメモを作成するのに役立つAIパワードのツールで、ミーティングごとに5〜10分を節約します。 Suggesty SuggestyはGPT-3によってパワードされ、Googleの検索に人間のような回答を提供します。 ChatGPT Sidebar ChatGPT…

Learn more about Search Results 7 - Page 15