Learn more about Search Results A - Page 537

「PyTorchで最初のニューラルネットワークを開発する」

私はしばらくの間、ディープラーニングの分野で働いており、チュートリアルを書いてきました主にTensorFlowに焦点を当ててきましたが、PyTorchは他の非常に広く使われているディープラーニングパッケージです私は...

朝鮮大学研究者が、ブリーチされたサンゴの正確な位置情報を特定するための機械学習フレームワークを紹介します特徴ベースのハイブリッドビジュアル分類によるものです

地球上で最も多様な海洋環境は、サンゴ礁に存在すると言われています。サンゴ礁では、約4,000種類の魚が見つかることがあり、全ての海洋生物の約25%が生息しています。サンゴの中では、水中寄生藻類またはゾウキサンテラエと呼ばれるものが、サンゴ礁として知られる鮮やかな炭酸カルシウムの構造物を生成します。水温が上昇し、藻類がサンゴの組織から逃げ出すと、サンゴ礁は退色します。サンゴ礁の退色は、いくつかの環境的および経済的問題と関連しています。極めて高い夏季の海面温度(SST)により、地球温暖化が退色の主な原因です。2016年にオーストラリアのグレート·バリア·リーフでは、退色によりサンゴの29~50%が死滅しました。 また、退色は世界の海洋の二酸化炭素(CO2)レベルを日々高め、環境をより酸性化させ、他のサンゴや海洋生物が骨格を形成することを困難にします。サンゴ礁はさまざまな海洋生物の生息地であり、世界で最も深刻な病気の多くを治療することができる多くの薬物を含んでいます。気候変動の影響を軽減するために、海洋生態学の監視と調査が必要です。しかし、水中画像のアーティファクトと周囲のノイズにより、コンピュータビジョンシステムは前景の対象物と背景を区別するのが困難です。そのため、水中画像を改善するための技術が開発されています。 写真をHSIモデルに変換し、画像の彩度と明度の要素を拡張することで、統合カラーモデル(ICM)と非教示色補正手法(UCM)はコントラストを改善します。人工知能(AI)を研究する研究者は、退色したサンゴ礁を信頼性のあるかつ計算効率の良い方法で特定できるようにしたいと考えています。しかし、照明、サイズ、方向、視点、遮蔽、および背景の乱雑さの違いが、特定モデルの性能を低下させます。カメラの深度、取り付け位置、および監視エリアの変動する光源により、対象物のスケール、視点、および照明が変化します。 このプロジェクトの韓国朝鮮大学の研究者は、海洋環境の写真の幾何学的および視覚的な変動に耐えることができる深層学習と手作りの特徴抽出方法を作成することを目指しています。外観ベースの特徴は物体のテクスチャと色の詳細によるものであり、幾何学的な特徴は主に物体の形状を形成する曲線とエッジの局所的な分布に依存します。照明、サイズ、方向、視点、遮蔽、および背景の乱雑さは外観特徴と幾何学に影響を与えます。ほとんどの分類作業では、手作りの特徴抽出器は深層ニューラルネットワーク(DNN)モデルに置き換えられます。 ドメインの独立性と広範なデータセットのトレーニングにより、ResNet、DenseNet、VGGNet、Inceptionsモデルなど、深層ニューラルネットワーク(DNN)はさまざまなアプリケーションで類例のないパフォーマンスを実現しています。しかし、現在のデータセットには退色した例が少ないため、DNNは過学習し、特徴の堅牢性と一意性が損なわれます。ただし、手作りの特徴の堅牢性と一意性はトレーニングデータの力に依存しません。手作りの特徴の不変性は、ノイズの堅牢性を持っていても、深度、水中光、水の濁りの変化によって影響を受けます。このプロジェクトの目標は、コーラルの写真のジオメトリとフォトメトリの変化に耐える変わらない特徴抽出モデルを作成することです。 提案されたフレームワークは、ハイブリッドな手作りとDNNの手法を使用して生の特徴を抽出し、BoFを用いて次元削減と不変性を増加させ、分類精度を向上させます。提案されたモデルは、ストレージの必要性と複雑さを減らすために、グローバルな特徴ではなく写真からのローカルな特徴を使用してフォトメトリックな不変性を向上させます。試行錯誤の末、最適なパッチ、クラスタサイズ、カーネルの組み合わせ、および分類器が決定されました。

「ターシャーに会ってください:GPT4のようなマルチモーダルLLMとのウェブインタラクションを可能にするオープンソースのPythonライブラリ」

AIの成長とそれによる私たちの生活への影響はますます大きくなっており、AIをより便利で使いやすくするための研究が行われています。今日、AIは日常生活のあらゆる側面で有用性を見出しています。多岐にわたる分野で広範な研究が行われてきました。そのため、Reworkdの研究者たちは、GPT-4などのマルチモーダル言語モデル(LLM)とのWebインタラクションを容易にするための、オープンソースのPythonライブラリであるTarsierを開発しました。 Tarsierは、ウェブページ上のインタラクティブな要素を視覚的にタグ付けし、ユーザーとマシンの間のインタラクションを可能にする橋の役割を果たします。 Tarsierは、LLMの複雑なウェブインタラクションのプロセスを簡略化します。これは、角括弧やIDなどの一意の識別子を使用して要素にタグを付けることによって実現されます。これらの要素は、ボタン、リンク、および入力フィールドなど、ページ上で表示される要素であり、GPT-4がアクションを実行するための重要なマッピングを確立します。言い換えれば、Tarsierは、言語モデルにウェブを理解可能にする翻訳者の役割を果たします。 Tarsierの特徴の1つは、ページを視覚的に表現する能力です。この機能は、既存のビジョン言語モデルが直面する課題に対して重要となります。Tarsierは、光学文字認識(OCR)ユーティリティを提供することで、ページのスクリーンショットをホワイトスペース構造化された文字列に変換し、非マルチモーダルLLMでもウェブページの内容と意味を理解できるようにします。 Tarsierは、言語モデルのインタラクション能力を大幅に向上させる2つの基本的なユーティリティを導入しています。これらは、インタラクティブな要素のタグ付けとスクリーンショットのOCRテキスト表現への解析です。 Tarsierは、一意の識別子を使用してインタラクティブな要素にタグを付けるという点で他とは一線を画しています。この識別子により、言語モデル(LLM)は、ボタンのクリック、リンクの追跡、入力フィールドの完成など、自分が対応できる要素を理解することができます。このタグ付けの方法により、理解力が向上し、LLMの選択肢とウェブページの基盤となる要素との明確な関連性が生まれます。 Tarsierのもう一つの革新的な特徴は、スクリーンショットを空間的に認識できるOCRテキスト表現に変換できる能力です。この進歩により、GPT-4などのテキストのみのLLMを用いてウェブタスクを実行することが可能になります。本質的に、Tarsierは視覚に頼らずに言語モデルがウェブと対話するためのAIアプリケーションの可能性を広げます。 また、Tarsierには、LangchainやLlamaIndexなどのよく知られたLLMライブラリとの使用方法を示すクックブックがあり、オンボーディングプロセスを簡単にすることができます。これらのクックブックにより、人々は有用な例や知見を提供しながら、直接Tarsierの機能を体験することができます。 まとめると、TarsierはLLMの能力向上のために必要なツールです。オンライン要素の整理された描写を提供することで、LLMにウェブの複雑さを探求し理解するためのツールを提供します。OCRツールを備えることで、テキストのみのモデルにまで利用範囲を広げ、障壁を取り除き、多様で適応性のあるAI環境を促進します。 この記事は、Meet Tarsier: An Open Source Python Library to Enable Web Interaction with Multi-Modal LLMs like…

UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮し、多くの現実世界の問題に対する強力な解決策として注目されています。ただし、これらのモデルが苦労するのは、目標指向の対話において、対話を通じて目標を達成する必要がある場合です。例えば、パーソナライズされた旅行プランを提供するために効果的な旅行代理店の役割を果たすことです。実際には、通常、過剰な情報を提供し、個別化されていない応答をする傾向があります。 教師付きのファインチューニングまたは単一ステップの強化学習(RL)で訓練されたモデルは、複数の対話の結果としての対話のアウトカムに最適化されていないため、このようなタスクでは一般的に苦労します。さらに、彼らがこうした対話での不確実性に対処する上でも問題があります。本論文では、UCバークレーの研究者が、RLを用いてゴール指向型の対話にLLMを適応させる新しい手法について探求しました。彼らの貢献として、最適化されたゼロショットのアルゴリズムと、タスクに関連した多様な質問を生成する「想像エンジン(IE)」という新しいシステムを含んでいます。 IE自体では効果的なエージェントを生成することができないため、研究者たちはLLMを使用して可能なシナリオを生成します。望ましい結果を達成するためにエージェントの効果を高めるためには、多段階の強化学習を行う必要があります。研究者たちはこのアプローチに一つの変更を加えました。オンポリシーサンプルの代わりに、彼らは合成データ自体からポリシーを学習するためにオフラインの価値ベースのRLを使用しました。 彼らの手法の効果をテストするために、研究者たちはGPTエージェントとIE+RLのパフォーマンスを人間の評価者によって比較しました。彼らは実世界の問題に基づいた2つの目標指向の対話を考慮に入れました。研究者たちはIEでGPT-3.5モデルを使用して合成データを生成し、ダウンストリームエージェントとして比較的小さなデコーダ専用のGPT-2モデルを使用しました。これによって、彼らのアプローチが実用的になり、データ生成には最先端のモデルのみが必要であり、計算コストを削減できます。 実験結果に基づいて、彼らの提案されたエージェントがすべての指標でGPTモデルを上回り、対話の自然さを確保していることがわかりました。また、定性的な結果においても、IE+RLエージェントは同等のエージェントよりも優れたパフォーマンスを発揮しました。それは簡単に答えられる質問を出し、前の質問に賢明に基づいてフォローアップの質問を行いました。研究者たちはシミュレーションを用いて2つのエージェントのパフォーマンスを比較しました。IE+RLエージェントはGPTエージェントを上回りつつも、定性的な評価では前者の方が優れた結果を出しました。 まとめると、この研究論文では、著者らがLLMのゴール指向の対話におけるパフォーマンスを向上させるための手法を紹介しています。想像エンジンを使用して、多様でタスクに関連し、現実的な合成データを生成し、対話エージェントを訓練します。具体的には、計算コストを削減するためにオフラインアプローチを使用しています。結果は、彼らの手法が伝統的な手法を常に上回り、将来の改善のための道を開いていることを示しています。彼らはこのプロセスをさらに自動化してゼロショットの対話エージェントのパフォーマンスを向上させ、AIシステムとの相互作用を向上させることができると考えています。

算術推論問題のための即座のエンジニアリング

大規模言語モデル(LLM)は、言語の理解と生成の能力において、学術研究者と業界の専門家の両方からますます注目を集めていますその理由は…

混沌な文脈で、思考の糸口と並行の知識グラフの検索によって、構造化された推論を達成するLLMs

大型言語モデル(LLM)は、わずかな例文だけで新しいタスクに素早く適応し、印象的なフューショット学習能力を示しましたしかしながら、彼らの進歩にもかかわらず、LLMはまだ直面しています...

物理の知識を持つニューラルネットワークのエキスパートGPTを構築する

最近のOpenAIのデベロップメントデイで最も興味深いリリースの1つは、GPTです基本的に、GPTはChatGPTのカスタムバージョンであり、誰でも特定の目的のために作成することができますそのプロセスは...

化学エンティティ認識の自動化:ChemNERモデルの作成

私は常に化学に強い興味を持っており、それは私の学術的および職業的な道程を形成する上で重要な役割を果たしてきました化学のバックグラウンドを持つデータ専門家として、私は...

分析における人工知能

私たちは、人工知能(AI)が私たちが物事を行う方法を変えるという魅力的な時代に生きていますその中にはデータパイプラインデザインや分析も含まれます今日は、AIがどのように活用されているかについてお話ししたいと思います

オープンソースLLMの歴史:ベースモデルの改善(パート2)

大規模言語モデル(LLM)に関するオープンソース研究は非常に価値がありますなぜなら、それは強力で影響力のある技術を民主化しようとするものだからですオープンソースのLLMは現在一般的に使用されており、...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us