Learn more about Search Results A - Page 279

「このAI論文は、すべての科学分野をカバーする学術データを含む26億以上のトリプルを持つ包括的なRDFデータセットを紹介しています」

最近の研究について追いつくことは、科学論文の増加によりますます困難になっています。たとえば、2022年だけでも800万以上の科学論文が記録されました。研究者は、検索インターフェースから推薦システムまで、著者や機関などの関連する知的実体を調査するためにさまざまな技術を使用しています。RDF知識グラフ(KG)として基礎となる学術データをモデル化することは、効率的な方法の1つです。これにより、標準化、可視化、およびリンクデータリソースとの相互リンクが容易になります。その結果、学術KGは、文書中心の学術資料をリンク化および自動化可能な知識構造に変換するために不可欠です。 しかし、既存の学術KGには次のいずれかの制限があります: あらゆる科目の包括的な作品リストがめったに含まれていないこと。 コンピュータサイエンスなど特定の分野のみをカバーしていること。 更新頻度が低く、多くの研究やビジネスモデルが時代遅れになっていること。 使用制限が頻繁にあること。 これらの基準を満たしていても、RDFのようなW3Cの標準に準拠していないこと。 これらの問題は、科学的KGの普及を阻害しています。例えば、Microsoft Academic Graph(MAKG)のRDF派生物であるMicrosoft Academic Knowledge Graph(MAKG)は、2021年に終了したため更新できません。 革新的なOpenAlexデータセットは、このギャップを埋めることを目指しています。ただし、OpenAlexのデータはLinked Data Principlesに準拠せず、RDFでアクセスできません。そのため、OpenAlexはKGとは見なされず、意味的な問い合わせ、アプリケーションの統合、および新しいリソースへの接続が困難です。最初の外観では、科学的論文に関する学術情報をWikidataに組み込み、WikiCiteムーブメントを支援するための簡単な方法のように思えるかもしれませんが、特定のスキーマ以外にも、データ量が既に非常に大量であるため、Wikidata Query ServiceのBlazegraphトリプルストアは容量制限に達し、統合がブロックされます。 本研究では、Karlsruhe Institute of TechnologyおよびMetaphacts GmbHの研究者が、学術の景観全体に関する非常に大規模なRDFデータセット「SemOpenAlex」を紹介しています。SemOpenAlexには、すべての学術分野から2億4900万以上の論文と260億以上の意味トリプルが含まれています。それは包括的なオントロジーに基づいて構築され、Wikidata、Wikipedia、およびMAKGを含む他のLODソースを参照しています。彼らはSemOpenAlexのインテグレーションを容易にするためにパブリックなSPARQLインターフェースを提供しています。さらに、データベース内のエンティティとその意味的な関係についてリアルタイムで情報を取得するための高度な意味検索インターフェースも提供しており、共著者の表示や著者の重要な概念の表示など、データベースに直接含まれているのではなく、意味的な推論によって導き出された情報も表示します。 彼らはまた、大規模なデータ分析を容易にするためのRDFデータスナップショットも提供しています。SemOpenAlexの規模と統合される科学論文の増加により、彼らはAWSを利用したパイプラインを作成し、完全なサービスの中断なしに定期的にSemOpenAlexを更新しています。さらに、彼らはSemOpenAlexのダウンストリームアプリケーションで使用するための最先端の知識グラフエンティティ埋め込みをトレーニングしています。彼らは可能な限り既存のオントロジーを使用することで、FAIRの原則に準拠したシステムの相互運用性を保証し、SemOpenAlexをLinked…

「Playwrightセレクタの理解:ガイド」

Playwrightは、開発者がWebブラウザをプログラムで制御し、信頼性のあるエンドツーエンドのテストを実施するための強力で多機能な自動化ライブラリですその核心には...

AIが迷走するとき:現実世界での注目すべき機械学習のミスハップ

人工知能(AI)と機械学習の変革的な可能性は、しばしばニュースで話題になっており、様々な分野でのポジティブな影響についての報告がたくさんあります

「ディープラーニングを用いたナノアレイの開発:特定の構造色を生み出すことができるナノホールアレイを設計する新しいAI手法」

色の多様性は、2つ以上の色の組み合わせによってさらに増加します。光は微細なナノ構造と相互作用し、複数の色の固有のパターンを作り出します。光スペクトルはまた、穴と相互作用してナノホールアレイと呼ばれるシステムを作り出します。これにより光現象を区別し、構造色を得ることができます。主な目的は、人工的な材料に構造色を埋め込むことです。この色の主な利点は、これらの色が時間の経過とともに劣化しないことです。研究者たちは、指定された色をもたらすナノスケールのアレイを作成するという問題に直面しています。これは広範なコンピュータビジョンのカテゴリに該当します。 重慶大学の研究チームは、これらのナノホールアレイを構造色に向上させることができる新しいシステムを設計しました。彼らはまた、このシステムの設計にさまざまな機械学習モデルを使用しました。研究者たちは、これらのアレイの構造色を予測するためにCSCとCSSという2つのディープラーニングモデルを開発しました。これらのモデルにより、望ましい色の作成につながるナノホールアレイの形成が可能になりました。精度、F1スコア、再現率、適合率、およびパーセント精度などのパラメータは非常に優れていました。研究チームは、これらの結果がこれらのアレイのシミュレーションに基づいていると述べました。これらの結果は実験の現実に変換され、大幅に向上されました。 これらの結果はさらなる評価のために考慮され、テストデータセットに対して精度やF1スコアなどのパラメータが得られました。予測モデルは、以前に使用されたディープラーニングモデルを介して向上させられたデータを予測するために作成されました。このモデルはまた、さまざまな応用と理論の概念の間の理論的なギャップを埋めることを目指しています。ナノホールアレイは、多様なデータで構成される高密度ストレージにも実装されています。 この研究は、ナノアレイの構造色とスペクトルを実装するためのディープラーニングモデルを示しています。この方法のスケーラビリティは、より大きなデータセットを処理することができるため、有望です。さらに、異なる材料に適応する可能性がある複雑な構造を実装することもできます。この研究は、単にナノアレイとそのプラズモニック応用を操作します。

アリババの研究者たちは、ChatGPTのような現代のチャットボットの指示に従う能力を活用した、オープンセットの細かいタグ付けツールであるINSTAGを提案しています

ChatGPTのような大規模な言語モデルが指示に従う能力をどのように獲得するのか、考えたことはありますか?さまざまな基礎言語モデルは、監視付きファインチューニング(SFT)を通じてそれを獲得しています。SFTの成功のためには、データセットの多様性と複雑さが重要な要素です。その定性的な分析と定義はより明確にする必要があります。 阿里巴巴ダモアカデミーの研究者は、「InsTag」というオープンセットの細かいタガーを提案しています。これは、タスクに関する指示の多様性と複雑性を定義するためのセマンティクスと意図に基づいてSFTデータセット内のサンプルにタグを付けるものです。彼らは、より複雑で多様なデータとともにモデルの能力が向上すると主張しています。 研究者はまた、InsTagに基づいたデータセレクターを提案しています。これはオープンソースのデータセットから6,000件の多様で複雑なサンプルを選択し、InsTagで選択されたデータ上でモデルをファインチューニングするものです。彼らは、さまざまなセマンティクスと専門知識をカバーする広範なトレーニングデータが、人間の期待に適切に応え、自然言語で人間の意図を正確に認識し、適切に応答を形式化するために重要であると主張しています。 InsTagは、高性能なチャットボットChatGPTによって強化された自動的な指示タグ付け手法です。これは、ChatGPTに対してクエリにタグを割り当てるように自動的に促すフレームワークです。ChatGPTは、割り当てられた各タグを説明するためにシステマティックなタグの正規化技術を使用します。既存のオープンソースのデータセットにInsTagが適用されると、複雑さと多様性に基づいて詳細に分析されたオープンセットのタグが構築されます。InsTagセレクターによって選択されたデータでファインチューニングされたLLMは、MIT-Benchmarkでより良いパフォーマンスを発揮します。 ChatGPTを使用して意図タグを生成しようとする際、研究者は3つのタイプのノイズを特定しました。出力形式の指示に対するChatGPTの不安定さにより、レキシカルノイズが生じました。具体的すぎるタグは制御されていない粒度を作り出し、ノイズを引き起こします。一部のタグは、ChatGPTのバイアスにより頻繁に一緒に現れ、不正確な相関関係を生じます。 これらを解決するために、彼らはフォーマット、意味、関連性などのさまざまな側面を使用してオープンセットのタグ付け結果を正規化しました。まず、特定の設定パラメーター(データセットのスケールに関連するハイパーパラメーターと呼ばれる)未満の頻度で現れるロングテールのタグをフィルタリングしました。すべてのタグは、大文字の影響を避けるために小文字に変換されました。最後に、各タグにステミングを適用しました。ステミングは、接辞を除去することにより、単語の基本形を抽出するための技術です。 研究者は、ファインチューニングにLLaMAの13Bバージョンを選択し、他の類似のLLMと比較した結果、彼らのモデルはMIT-Benchでの平均スコア6.44を達成し、すべてのオープンソースの整列したLLMを上回ることを示しています。 まとめると、研究者は、彼らの提案したInsTagがLLMの整列におけるクエリの分布のより深い理解のための新しい側面を提供すると述べています。これは、データセレクション以外のさまざまなアプリケーション、例えば包括的な評価やタグベースの自己指示などに拡張される可能性があります。

クロマに会ってください:LLMs用のAIネイティブオープンソースベクトルデータベース-メモリを使用したPythonまたはJavaScript LLMアプリをより速く構築する方法

ワード埋め込みベクトルデータベースは、巨大な言語モデルの普及に伴い、ますます人気が高まっています。高度な機械学習技術の力を活用して、データはベクトルデータベースに格納されます。これにより、推薦システム、画像認識、NLPなどのAI利用において非常に高速な類似性検索が可能になります。 複雑なデータの本質は、各データポイントを多次元ベクトルとして表現することによってベクトルデータベースに捉えられます。k-dツリーやハッシュなどの近代的なインデックス技術により、関連するベクトルを素早く取得することが可能です。このアーキテクチャはビッグデータ分析を変革し、データ重視のセクターに高度にスケーラブルで効率的なソリューションを生成します。 さて、小規模で無料かつオープンソースのベクトルデータベースであるChromaを見てみましょう。 Chromaは、PythonまたはJavaScriptプログラミングを使用してワード埋め込みを作成するために使用できます。メモリ内またはクライアント/サーバーモードのデータベースバックエンドは、簡単なAPIでアクセスできます。Chromaをインストールし、プロトタイピング中にJupyter NotebookでAPIを使用することで、データベースがクライアント/サーバーモードで実行される本番環境でも同じコードを利用することができます。 メモリ内で操作する場合、ChromaデータベースセットはApache Parquet形式でディスクに永続化することができます。ワード埋め込みの生成に必要な時間とリソースを最小限に抑えるために、後でそれらを取り出すために格納することができます。 各参照文字列には、元のドキュメントを説明する追加のメタデータが付加される場合があります。好みに応じてこのステップをスキップすることもできます。研究者はチュートリアルで使用するためにいくつかのメタデータを作成しました。具体的には、辞書オブジェクトのコレクションとして整理されています。 Chromaは、関連するメディアのグループをコレクションとして参照します。各コレクションには、ドキュメント(文字列のリスト)、ドキュメントの一意の識別子として機能するID、および(必須ではない)メタデータが含まれます。コレクションは埋め込みのみで完全なものになります。これは、Chromaの組み込みのワード埋め込みモデルを使用するか、OpenAI、PaLM、Cohereに基づく外部モデルを明示的に使用して生成することができます。Chromaは、サードパーティAPIの組み込みを容易にし、埋め込みの生成と格納を自動化する手続きを提供します。 デフォルトでは、Chromaはall-MiniLM-L6-v2 Sentence Transformersモデルを使用して埋め込みを生成します。この埋め込みモデルは、さまざまなアプリケーションに対して文やドキュメントの埋め込みを生成することができます。状況によっては、この埋め込み関数はモデルファイルの自動ダウンロードとPC上でのローカル実行を必要とする場合があります。 メタデータ(またはID)もChromaデータベースでクエリできます。これにより、どこで論文が起源したかに応じて簡単に検索することができます。 主な特徴 使いやすい:すべてが入力され、テストされ、ドキュメント化されている場合。 開発、テスト、本番のすべての環境で、ノートブックで同じAPIを使用できます。 機能が豊富:検索、フィルタリング、密度推定。 Apache 2.0ライセンスのオープンソースソフトウェア。

「責任あるAI:AI利用の暗い側面を回避する方法」

はじめに マイクロソフトのAIチャットボットTayの悪名高い事件は、AIの展開における潜在的な落とし穴を鮮明に示すものです。Tayは2016年3月23日にTwitterに導入され、不適切なコンテンツに触れるとすぐに攻撃的かつ有害な応答を生成するようになりました。たった1日で、このチャットボットはヘイトスピーチの広がりの場となり、無制限なAIとの相互作用の予期しない結果を示しました。Tayの出来事は、AIの暗い側面を示し、その誤用と意図しない結果への脆弱性を強調しています。AIが私たちの生活の多岐にわたって浸透し続ける中で、それが提示する課題を理解し、対処することが重要です。AIの暗い側面を探求し、なぜ責任あるAIを持つことが不可欠なのかを見ていきましょう。 責任あるAIとは何ですか? 責任あるAIとは、人工知能技術の倫理的かつ良心的な開発、展開、利用を指します。これは、AIシステムが人間の価値を守り、人権を尊重し、有害な結果を回避するように設計および運用されるべきであることを強調しています。責任あるAIは、AIシステムが偶然にも生じるかもしれないバイアス、差別、プライバシーの侵害、およびその他のネガティブな影響に対処することを含みます。また、AIのアルゴリズムと意思決定プロセスにおいて透明性、公正性、および説明責任を確保します。責任あるAIは、技術の進歩と個人や社会の福祉のバランスを取る必要性を認識しており、AIの利益を倫理的な原則を損なうことなく人類にもたらすために潜在的なリスクを特定し、緩和するための積極的なアプローチを求めます。 倫理的な考慮事項 人工知能が私たちの技術的な景観を形作り続ける中で、慎重な熟考と行動を要する倫理的な考慮事項が数多く生じています。 バイアスと差別 AIの最も重要な倫理的な課題の一つは、バイアスと差別に関連しています。AIシステムは、トレーニングデータにバイアスを偶然にも取り込んでしまい、差別的な結果を引き起こすことがあります。例えば、採用プロセスでは、バイアスのあるアルゴリズムが特定の人種や性別を好ましいものとし、他の人種や性別を不適切に扱うことがあります。この問題に対処するためには、注意深いデータの整備、アルゴリズムの透明性、公正性、および公平性を確保するための継続的なモニタリングが必要です。 プライバシー上の懸念 AIが膨大な量のデータを処理する能力は、ユーザーのプライバシーに関する妥当な懸念を引き起こします。AIシステムによって収集および分析された個人データは、侵害的なプロファイリングや不正な監視につながる可能性があります。公共の場での顔認識技術は、同意、個人の権利、および潜在的な誤用についての疑問を提起し、倫理的なAIの実装には堅固なデータ保護措置とプライバシー規制の順守が必要です。 説明責任と透明性 特定のAIアルゴリズムの不透明さは、説明責任と透明性に課題をもたらします。AIによる意思決定が個人の生活に影響を与える場合、その意思決定プロセスを追跡し、責任を負う当事者を特定することが重要となります。自動運転車事故などのAIシステムが理解できない選択を行う事例は、透明なアルゴリズムとその理論を理解するための仕組みの必要性を強調しています。 人間の自律性と依存 AIの台頭は、人間の自律性とAIへの依存のバランスについての議論を引き起こしました。特に医療や金融などの重要な分野でのAIによる意思決定への過度な依存は、人間の能動性を減少させ、意図しない結果をもたらす可能性があります。倫理的なAIの使用には、AIの限界を認識し、人間が自らの生活に影響を与える意思決定に対して制御を保持することが含まれます。 現実の例 いくつかの現実の事例がAIシステムが引き起こす倫理的なジレンマを明らかにしています。例えば、AmazonのAI採用ツールは女性の応募者よりも男性の候補者を好む性別バイアスを示しました。法執行機関による顔認識システムの開発と展開は、プライバシーと監視に関する懸念を引き起こし、その倫理的な使用についての議論を促しています。 なぜ責任あるAIが必要なのでしょうか? 責任あるAIの基本原則は、人工知能技術の倫理的かつ持続可能な開発と展開を促進するためのガイドラインと基準のセットです。これらの原則は、AIシステムが社会に利益をもたらす一方で、潜在的な害を最小限に抑えることを確保するためのフレームワークとして機能します。主な原則には次のようなものがあります: 公正性と平等性 AIシステムは、公正性を確保し、バイアスのある結果を回避するために設計されるべきです。これには、トレーニングデータとアルゴリズムのバイアスを特定し、特定のグループに対する差別を防ぐための対策を講じることが含まれます。 透明性 AIシステムは、その運用と意思決定プロセスにおいて透明であるべきです。ユーザーはAIアルゴリズムがどのように動作するかを明確に理解し、組織はデータのソースとAIによる意思決定の根拠を開示するべきです。 責任 開発者と組織は、自身のAIシステムの振る舞いに責任を持つべきです。これには、エラーの対処、意図しない結果の修正、および悪影響の場合の救済手段の提供などのメカニズムが含まれます。…

「AIデザインスタジオ、OpenAIによってグローバルイルミネーションを取得」

先週、ChatGPTの製作者であるOpenAIによって、ニューヨークを拠点とするスタートアップ企業であるGlobal Illuminationが買収されました2021年に設立されたGlobal Illuminationは、AIを使用してAIパワードインフラを介して創造的なツールとデジタル体験を構築することで知られていますこれはOpenAIにとって、その7年の歴史で初めての公開買収となりますブログ投稿の中で...

思っているベイダーではありません 3D VADERは3Dモデルを拡散するAIモデルです

イメージ生成はこれまでにないほど簡単になりました。生成型AIモデルの台頭により、プロセスは本当に簡単になりました。まるでデザイナーがあなたのために働いているかのようで、あなたが見たいイメージを生成するためにガイドするだけで済みます。 同じことは画像編集にも当てはまります。これらの生成モデルは新しい画像を生成するだけでなく、最近の研究によって提供された高度なアップグレードにより既存の画像の編集にも使用することができます。 これらすべては、ノイズ除去拡散モデルのおかげで可能になりました。彼らは画像生成領域を完全に変革しました。これは私たちがこの分野で目撃した最も重要な進歩の一つでした。これらのモデルは画像、音声、および動画のアプリケーションに適用されています。 しかし、もし気づいているなら、ここに1つの要素が欠けています。第三の次元はどこにあるのでしょうか?イメージ生成は既に写真のような現実感を持つレベルに達しており、ビデオや音声の生成にも多くの試みが行われており、日々向上しています。非常に現実的なレベルに達することも近い将来予想されます。しかし、なぜ3Dオブジェクトの生成についてあまり聞かないのでしょうか? 私たちは3Dの世界に生きています。それは静的な3Dオブジェクトと動的な3Dオブジェクトの両方に特徴があります。これにより、2Dと3Dのギャップを埋めることは非常に困難な課題となっています。では、このギャップを埋めようとしている新しい挑戦者3DVADERに会いましょう。 3DVADERは、3D生成モデルの中核的な課題に取り組んでいます。つまり、現代の画像生成技術の素晴らしい能力と3D世界の幾何学的な詳細をシームレスに扱う方法です。 3DVADERは、3Dコンテンツの設計とモデルのトレーニング方法を再考します。以前の方法とは異なり、拡張性と多様性に苦労したものの、この実装はこれらの課題に果敢に取り組み、3Dコンテンツ生成の未来に新しい視点を提供します。 3DVADERは、独自のアプローチでこれを実現しています。トレーニングに従来のオートエンコーダーに依存するのではなく、ボリューメトリックオートデコーダーを導入します。このオートデコーダーは各オブジェクトに1次元ベクトルをマッピングし、3Dの監督不要で幅広いオブジェクトカテゴリに対応します。このアプローチは、レンダリングの一貫性をガイドプリンシプルとして2Dの観測から3D表現を学習します。この新しい表現は可動部位を収容し、非剛体オブジェクトをモデル化するための必要性を満たします。 3DVADERの概要。出典: https://arxiv.org/pdf/2307.05445.pdf 別の問題はデータセットに関するものです。画像と単眼ビデオが最も利用可能なデータを占めているため、堅牢で多目的な3Dデータセットの準備は未解決の課題です。以前のアプローチとは異なり、3DVADERはマルチビュー画像と単眼ビデオを活用して3D感知コンテンツを生成します。トレーニング中に姿勢情報の欠如に対して真実の姿勢、推定された姿勢、または完全に提供されない姿勢情報に対して堅牢性を提供することで、オブジェクトのポーズの多様性の課題を解決します。さらに、3DVADERはさまざまなカテゴリの多様なオブジェクトを対象とするデータセットに対応しており、拡張性の問題に取り組んでいます。 3DVADERは3Dオブジェクトを生成できます。出典: https://snap-research.github.io/3DVADER/ 全体的に、3DVADERは、静的および関節付きの3Dアセットを生成するための新しい手法であり、その中核として3Dオートデコーダーが使用されています。既存のカメラの監視の利用またはトレーニング中にこの情報を学習することができます。最先端の代替手法と比較して、生成の性能が優れています。

「連邦裁判官 – AI によって生成された芸術作品は著作権が成立しない」

彼の判決において、DC地区裁判所のバリル・A・ハウエルズ判事は、人間は「有効な著作権主張の重要な要素」であると述べていますこれは、既存の法律の下でAIによって生成されたオリジナルの素材が著作権で保護されるかどうかを判断するための一連の裁判の最新のものですその判決は...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us