Learn more about Search Results モード - Page 37

「言葉から世界へ:AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」

言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲーションを使用して特定の場所に導くなど、情報を伝達するための効果的なチャネルとしても機能します。視覚障がいのある人々の場合、映画を聴覚的な解説で体験することができます。前者は言語が他の感覚モードを向上させる方法を示し、後者は言語が異なるモダリティで最大限の情報を伝える能力を強調しています。 多様なモダリティ間の言語との関係を確立するための現代の取り組みでは、画像や動画のキャプション付け、画像や動画からのテキスト表現の生成、テキストによってガイドされた視覚的なコンテンツの操作などのタスクが含まれます。 しかし、これらの取り組みでは、言語は主に他の感覚入力に関する情報を補完する役割を果たしています。その結果、これらの取り組みは異なる感覚モード間の情報の複雑な交換を包括的に描写することができません。これらは主に1文のキャプションなどの単純な言語要素に焦点を当てています。 これらのキャプションは短く、主要なエンティティやアクションを説明することしかできません。そのため、これらのキャプションを通じて伝えられる情報は、他の感覚モダリティに存在する情報の豊富さに比べてかなり限定的です。この差異により、他の感覚領域から情報を言語に翻訳しようとする際に情報の大幅な損失が生じます。 この研究では、研究者たちは言語をマルチモーダルモデリングで情報を共有する手段として捉えています。彼らは「Fine-grained Audible Video Description(FAVD)」という新しいタスクを作成しました。通常、動画の短いキャプションは主要な部分を指しますが、FAVDではモデルにより人々が行うように動画を説明するよう要求し、短い概要から徐々に詳細な情報を追加していきます。このアプローチにより、言語のフレームワーク内にビデオ情報のより確かな部分が保持されます。 ビデオは視覚的および聴覚的な信号を含んでいるため、FAVDタスクではオーディオの説明も総合的な描写を向上させるために組み込まれています。このタスクの実行をサポートするために、Fine-grained Audible Video Description Benchmark(FAVDBench)という新しいベンチマークが構築されました。FAVDBenchはYouTubeから収集された11,000以上のビデオクリップで構成されており、70以上の実生活のカテゴリをカバーしています。注釈には簡潔な1文の概要と、ビジュアル要素に関する4〜6文の詳細なセンテンス、オーディオに関する1〜2文のセンテンスが含まれており、包括的なデータセットとなっています。 FAVDタスクを効果的に評価するために、2つの新しいメトリックが考案されました。最初のメトリックであるEntityScoreは、ビデオから説明文への情報の伝達を評価し、視覚的な説明文内のエンティティの包括性を測定します。2番目のメトリックであるAudioScoreは、事前学習済みのオーディオ・ビジュアル・言語モデルの特徴空間内でオーディオの説明の品質を定量化します。 研究者たちは、新しく導入されたタスクのための基礎モデルを提供しています。このモデルは、確立されたエンドツーエンドのビデオキャプションフレームワークを基にしており、さらにオーディオブランチが追加されています。さらに、ビジュアル言語トランスフォーマーからオーディオ・ビジュアル・言語トランスフォーマー(AVLFormer)への拡張も行われています。AVLFormerは、以下に示すようなエンコーダ・デコーダ構造の形式です。 https://arxiv.org/abs/2303.15616 ビデオクリップとオーディオをそれぞれ処理するために、ビジュアルエンコーダとオーディオエンコーダが適応され、マルチモーダルトークンの結合が可能となっています。ビジュアルエンコーダはビデオスウィン・トランスフォーマーを使用し、オーディオエンコーダはパッチアウトオーディオトランスフォーマーを利用しています。これらのコンポーネントは、ビデオフレームとオーディオデータからビジュアルとオーディオの特徴を抽出します。トレーニング中には、マスクされた言語モデリングや自己回帰言語モデリングなどの他のコンポーネントも組み込まれます。AVLFormerは、以前のビデオキャプションモデルからのインスピレーションを得て、テキストの記述も入力として使用します。テキストを特定のフォーマットに変換するために、ワードトークナイザと線形埋め込みが使用されます。トランスフォーマーはこのマルチモーダル情報を処理し、入力として与えられたビデオの詳細な説明を出力します。 以下には、定性的な結果のいくつかの例と最新の手法との比較が報告されています。 https://arxiv.org/abs/2303.15616 結論として、研究者たちは、細かい音声付きビデオの説明のための新しいビデオキャプションタスクFAVDと、教師付きトレーニングのための新しいベンチマークFAVDBenchを提案しています。さらに、彼らはFAVDタスクに対処するための新しいトランスフォーマーベースのベースラインモデルAVLFormerを設計しました。興味があり、詳細を知りたい場合は、以下に引用されたリンクを参照してください。

「Xbox PC Game PassがGeForce NOWに登場、25本の新しいゲームも同時に追加されます」

ゲーマーへのより多くの選択肢をもたらすため、NVIDIAとMicrosoftのコラボレーションの一環として、GeForce NOWにMicrosoft Storeの統合が追加されました。これにより、ゲーマーはXbox PC Game Passカタログの一部のタイトルをGeForce NOWでストリーミングできるようになります。統合は本日から開始されます。 Microsoft Storeの統合により、メンバーはサポートされているPCゲームで新しいXboxボタンを表示し、Microsoft Storeで単体のゲームを購入したか、アクティブなXbox Game Pass UltimateまたはPC Game Passのサブスクリプションを持っている場合には、これらのタイトルをデバイス間でシームレスに起動できます。 最新のGamescomの発表に続いて、この秋にGeForce NOWに登場する4つの大ヒットタイトルがあります。それは、Alan Wake 2、Cyberpunk 2077: Phantom Liberty拡張、Party Animals、PAYDAY 3です。…

「MITの研究者たちは、人工知能(AI)の技術を開発しましたこの技術により、ロボットは手全体を使ってオブジェクトを操作するための複雑な計画を立てることが可能になります」

全身操作は人間の強みですが、ロボットの弱点です。ロボットは、箱とキャリアの指、腕、または胴体の各接触点を、別々の接触イベントとして解釈します。このタスクは、数十億もの可能な接触イベントを考慮すると準備が困難になります。今、MITの研究者は、このテクニックを効率化することができます。つまり、接触豊富な操作計画と呼ばれるものです。AIのアプローチであるスムージングを使用して、接触の発生回数からロボットのための良い操作計画を見つけるために必要な判断の数を減らすことができます。 RLの新たな展開は、モデルベースの手法を使用して以前には実現が困難だった接触豊富なダイナミクスの操作で驚異的な結果を示しました。これらの手法は効果的でしたが、なぜ成功したのかはまだわかっていません。全体的な目標は、モデルベースの観点からこれらの要因を把握し、理解することです。これらの理解に基づいて、科学者たちはRLの経験的な成功をモデルの汎用性と効果性と統合しようと取り組んでいます。 接触ダイナミクスのハイブリッド性質は、モデルベースの観点からタッチを介した計画にとって最大の課題です。次に生じるダイナミクスは非スムーズであり、テイラー展開は局所的には有効ではなく、勾配を使用して構築された線形モデルはすぐに崩壊します。反復的な勾配ベースの最適化とサンプリングベースの計画の両方が局所的な距離指標を使用するため、局所モデルの無効性は両方にとって深刻な困難を引き起こします。これらの問題に対応するために、多くの出版物では接触モードをリストアップしたり、例を提供したりすることで考慮に入れる試みがなされています。これらの計画者は、ダイナミックモードについてモデルベースの理解を持っており、現在の接触モードでの連続状態の計画と次のモードの離散的な探索を切り替えることがあり、ここかしこで数モードのシフトを持つ軌跡につながります。 研究者が追加した最初のものは、基本的なシステムに対して2つのスムージング戦略が理論的に等価であることを証明することです。さらに、このフレームワークを使用して、著者たちはリアルタイムでスムージングされたダイナミクスの局所線形モデル(すなわち、勾配)を効率的に計算する方法を示し、2つのスムージングスキームの定性的な特性と経験的なパフォーマンスがさまざまな複雑な例で比較可能であることを示しています。 2つ目の改善点は、接触ダイナミクスの完全なモデルです。特に、凸である暗黙の時間ステップ接触モデルを提案しています。アニテスクによる摩擦接触の緩和により、凸性が生じます。ただし、それは現実的にはいくつかの非物理的な振る舞いをもたらします。凸性は、標準的な線形補完問題(LCP)の形式に比べて、数値的な利点を提供します。 準動的な仮定は、ロボット操作で一般的に使用されるものであり、長期的な予測可能性を可能にします。準動的モデルでは、速度や減衰を表す変数は不要です。なぜなら、各時間ステップで運動エネルギーが失われるからです。彼らは、ドレイクという高度な2次シミュレータ上で、同じ入力経路をシミュレートして実行することによって、準動的接触モデルを検証しテストしています。考慮されるシステムが減衰が大きく摩擦力に支配されている場合、その結果は、モデルが2次ダイナミクスをより適切に近似できる可能性があることを示唆しています。 さらに、接触モデルを柔軟に緩和するために、対数バリア緩和を使用することができます。凸システムの内部点法で一般的なように、この緩和戦略では対数バリア関数が使用され、ハードな接触制約が柔軟に適用されます。さらに、専門家は、RLが確率論的なグローバル最適化を実行することを目指していることが、その経験的な成功の背後にあるもう一つの主要な要素であると考えています。決定論的モデルを使用した非線形動的計画は通常、非凸最適化問題を生成し、多くの局所最小値の品質が決定的となる可能性があります。 最後の貢献は、RRTのグローバル探索能力とスムージングベースの接触モード抽象化の統合です。ローカルのスムージングされたモデルから導かれた新しい距離測度を使用することで、研究者はRRTが接触ダイナミクスによって課せられる制約範囲内を探索することを可能にしました。 全体的な貢献 科学者たちは、直感的なシステムにおけるランダム化された平滑化技術と解析的な平滑化技術の質的および経験的な同等性を決定します。 彼らは、凸性のある微分可能な準動的接触ダイナミクスと関連する解析的な平滑化の形式化が、接触豊かな操作計画に大いに役立つことを示しています。 研究者たちは、サンプリングベースのモーションプランニングと接触モードの平滑化を統合することで、既存のアプローチのスペクトルにおけるギャップを埋めつつ、効果的なグローバルプランニングを実現しています。 研究者たちは、複雑なシステムにおける関数の平滑化の数学的な意味と、その局所的な近似値を計算するためのいくつかの戦略について説明した後、接触について議論しています。彼らの目標は、平滑化技術とそれらの間の関係を統一的に示すことです。 研究者たちは、モデルベースのアプローチの失敗と多くの人間の接触がある経験的な状況での強力な成功の間に顕著な違いがあることに着想を得て、この研究を行いました。彼らは、既存のモデルベースの計画法の落とし穴を特定し、RLがこのようなトラップを軽減することがどのように可能になったのかを理解し、モデルベースの技術でこれらの問題を解決することで、接触豊かな操作の計画に効果的に取り組むことができることを示しました。1分程度のオンライン計画を可能にし、環境とタスクに対して汎用性を持つことで、既存のRLのツールに比べて数時間または数日にわたる重いオフライン計算に依存することなく、強力な代替手段を提供しています。これを実現するために可能にしたいくつかの要素も検討しています。 要するに、彼らは、実証的な文脈でのRLの成功とモデルベースのアプローチの苦戦との間に大きなギャップがあることに気付いた後、この研究を行うことに着想を得ました。彼らは、既存のモデルベースの計画法の落とし穴を特定し、RLがこのような落とし穴を軽減することがどのように可能になったのかを理解し、モデルベースの技術でこれらの問題を解決することで、接触豊かな操作の計画に効果的に取り組むことができることを示しました。1分程度のオンライン計画を可能にし、環境とタスクに対して汎用性を持つことで、既存のRLのツールに比べて数時間または数日にわたる重いオフライン計算に依存することなく、強力な代替手段を提供しています。これを実現するために可能にしたいくつかの要素も検討しています。 モデルベースのアプローチにおいては、明示的にモードを列挙し、評価する必要があるという欠点が最初に特定されましたが、RLの確率的な平滑化によって緩和されました。次に、モデルベースの技術における別の欠点を取り上げました:二次のトランジェントが長期的な戦略に役立たない短視的な線形化を引き起こす可能性があります。彼らはこの欠点に対処するために、凸性のある微分可能な準動的接触(CQDC)モデルを提案しました。彼らは、数多くの理論的な議論と実験を通じて、タッチモデルの有用性を示しました。また、接触ダイナミクスをモデルの構造の評価を先に行うことで、解析的に緩和させることも示しました。彼らは、ランダム化された平滑化に比べて解析的な平滑化の計算上の利点を示す研究も行いました。 結論として、平滑化ベースのモデルベースの戦略は、局所的な軌道最適化と関連付けられていることがわかりました。グローバルな探索を試みるRLベースの技術と比較して、局所的な最小値に対する感受性のために、困難な問題でより成功していません。ただし、接触豊かなシステムにおけるSBMP技術は、接触モードを明示的に考慮に入れることにより、モード列挙の罠を回避しています。この研究は、接触モードに基づいた滑らかな代替モデルの局所的な近似値に基づいてRRTの探索フェーズをガイドすることで、既存のアプローチのギャップを埋めることにより貢献しています。これらの3つの進歩を組み合わせることで、モデルベースとRLベースのアプローチが非常に接触豊かで高次元なシステムに対して効率的なグローバルモーションプランニングを達成することが可能になりました。将来的には、ポリシーの検索を促進したり、リアルタイムのモーションプランニングを行うために、高度に効率化されたプランナーバージョンを使用する予定です。この改良により、ロボットは計画時間の数秒以内に、以前未踏の領域で接触豊かなデザインをオンラインで見つけることができると予想されます。

モンテカルロ近似法:どれを選び、いつ選ぶべきか?

確率モデルでは確定的な推論がしばしば非効率であるため、数値サンプリングに基づいた近似手法であるモンテカルロに注目します

「Llama 2がコーディングを学ぶ」

イントロダクション Code Llamaは、コードタスクに特化した最新のオープンアクセスバージョンであり、Hugging Faceエコシステムでの統合をリリースすることに興奮しています! Code Llamaは、Llama 2と同じ許容されるコミュニティライセンスでリリースされ、商業利用が可能です。 今日、私たちは以下をリリースすることに興奮しています: モデルカードとライセンスを備えたHub上のモデル Transformersの統合 高速かつ効率的な本番用推論のためのテキスト生成推論との統合 推論エンドポイントとの統合 コードのベンチマーク Code LLMは、ソフトウェアエンジニアにとってのエキサイティングな開発です。IDEでのコード補完により生産性を向上させることができ、ドックストリングの記述などの繰り返しや面倒なタスクを処理することができ、ユニットテストを作成することもできます。 目次 イントロダクション 目次 Code Llamaとは? Code Llamaの使い方 デモ Transformers…

「ノイズのある量子プロセッサをクラシカルコンピュータと比較する方法」

Google Quantum AIチームの主任研究員であるセルヒオ・ボイショとヴァディム・スメリャンスキーによる投稿 完全なスケールのエラー訂正量子コンピュータは、古典コンピュータでは不可能な問題を解決することができますが、そのようなデバイスを構築することは非常に困難です。私たちは完全にエラー訂正された量子コンピュータに向けて達成したマイルストーンに誇りを持っていますが、大規模なコンピュータはまだ数年先です。一方、私たちは現在のノイズのある量子プロセッサを柔軟なプラットフォームとして量子実験に活用しています。 エラー訂正された量子コンピュータとは異なり、ノイズのある量子プロセッサでの実験は、ノイズが量子状態を劣化させる前に数千回の量子操作またはゲートに制限されています。2019年に、私たちはランダム回路サンプリングという特定の計算タスクを量子プロセッサで実装し、それが最先端の古典超並列計算を上回ることを初めて示しました。 彼らはまだ古典的な能力を超えていませんが、私たちはまた、時間結晶やマヨラナエッジモードなどの新しい物理現象を観察するためにプロセッサを使用し、相互作用する光子の堅牢な束縛状態やフロケ進化のマヨラナエッジモードのノイズ耐性などの新しい実験的な発見をしました。 私たちは、この中間のノイズ領域でも、量子プロセッサを使って有用な量子実験を古典的な超並列計算よりもはるかに高速に実行できるアプリケーションを見つけると予想しています。これを「計算アプリケーション」と呼んでいます。まだ誰もこのような超古典的な計算アプリケーションを実証していません。したがって、このマイルストーンを達成するための問題は、量子プロセッサで実行された量子実験を古典的なアプリケーションの計算コストと比較する最良の方法は何かということです。 エラー訂正された量子アルゴリズムと古典的なアルゴリズムを比較する方法はすでにわかっています。その場合、計算複雑性の分野から、それらの相互の計算コスト(つまり、タスクを達成するために必要な操作の回数)を比較できることがわかります。しかし、現在の実験的な量子プロセッサでは、状況はそれほど明確ではありません。 「ノイズのある量子処理実験の計算コストの効果的な量子ボリューム、信頼性、および計算コスト」では、量子実験の計算コストを測定するためのフレームワークを提供し、実験の「効果的な量子ボリューム」を導入します。これは、測定結果に寄与する量子操作またはゲートの数です。私たちはこのフレームワークを適用して、最近の3つの実験の計算コストを評価します:ランダム回路サンプリング実験、アウトオブタイムオーダーコレレータ(OTOC)と呼ばれる量を測定する実験、およびイジングモデルに関連するフロケ進化の最新の実験。私たちは特にOTOCに興奮しています。なぜなら、OTOCは回路(量子ゲートまたは操作のシーケンス)の効果的な量子ボリュームを実験的に測定する直接的な方法を提供し、これは古典的なコンピュータにとって正確に推定するのが難しい計算的なタスクです。OTOCはまた、核磁気共鳴や電子スピン共鳴分光学においても重要です。したがって、私たちはOTOC実験が量子プロセッサの初の計算アプリケーションの有望な候補であると考えています。 計算コストといくつかの最近の量子実験の影響のプロット。一部(例:QC-QMC 2022)は高い影響力を持ち、他の一部(例:RCS 2023)は高い計算コストを持っていますが、まだ有用で十分に困難なものはありません。私たちの将来のOTOC実験がこの閾値を初めて超える可能性があると推測しています。プロットされた他の実験は、テキストで参照されています。 ランダム回路サンプリング:ノイズのある回路の計算コストの評価 ノイズのある量子プロセッサで量子回路を実行する場合、2つの競合する考慮事項があります。一方では、古典的に達成するのが困難なことを行いたいと考えています。計算コスト(古典的なコンピュータでタスクを達成するために必要な操作の数)は、量子回路の効果的な量子ボリュームに依存します。ボリュームが大きいほど、計算コストが高くなり、量子プロセッサが古典的なものを上回ることができます。 しかし、一方で、ノイズの多いプロセッサでは、各量子ゲートが計算に誤りを導入することがあります。操作が多いほど誤りが増え、興味のある量を測定する量子回路の信頼性が低下します。この考慮に基づいて、効果的な体積が小さく、クラシックコンピュータで簡単にシミュレートできるような単純な回路を選ぶことがあります。最大化したいこれら競合する要素のバランスを、「計算リソース」と呼びます。以下に示します。 量子回路の量子体積とノイズのトレードオフを示したグラフであり、これは「計算リソース」と呼ばれる量で捉えられます。ノイズの多い量子回路では、計算コストとともにこれは初めは増加しますが、やがてノイズが回路を制御し、減少させます。 これら競合する要素がどのように影響するかは、量子プロセッサの単純な「ハローワールド」プログラムであるランダム回路サンプリング(RCS)によって明らかになります。このプログラムは、量子プロセッサがクラシックコンピュータを上回る最初のデモンストレーションでした。ゲートのいかなるエラーもこの実験を失敗させる可能性があります。必然的に、これは高い信頼性で達成することの難しい実験であり、システムの信頼性の基準ともなります。しかし、これはまた、量子プロセッサによって達成可能な既知の最も高い計算コストに対応しています。私たちは最近、これまでで最も強力なRCS実験を報告しました。その実験では、低い測定実験的信頼性が1.7×10-3であり、高い理論的計算コストが約1023です。これらの量子回路には700の2量子ビットゲートがあります。この実験を世界最大のスーパーコンピュータでシミュレートするには約47年かかると推定されています。これは、計算アプリケーションに必要な2つの要件のうちの1つを満たしていますが、それ自体は特に有用なアプリケーションではありません。 OTOCとフロケエボリューション:局所観測量の効果的な量子体積 量子多体物理学にはクラシカルに解けない問題が多く存在し、これらの実験のいくつかを量子プロセッサ上で実行することには大きな潜在能力があります。通常、RCS実験とは異なる視点でこれらの実験を考えます。実験の終わりにすべてのキュビットの量子状態を測定するのではなく、通常は特定の局所物理観測量に関心があります。回路内のすべての操作が観測量に影響を与えるわけではないため、局所観測量の効果的な量子体積は、実験を実行するために必要なフル回路の体積よりも小さくなる場合があります。 これは、相対性理論からの光錐の概念を適用することで理解することができます。光錐は、時空内のどのイベントが因果関係を持つ可能性があるかを決定するものであり、情報がそれらの間を伝播するのに時間がかかるため、一部のイベントはお互いに影響を与えることはできません。このような2つのイベントはそれぞれの光錐の外にあります。量子実験では、光錐を「バタフライコーン」というものに置き換えます。その成長はバタフライ速度によって決まります。バタフライ速度はシステム全体に情報が広がる速度を表します(これは後述のOTOCによって特徴付けられます)。局所観測量の効果的な量子体積は、本質的にはバタフライコーンの体積であり、観測量に因果関係を持つ量子操作のみを含みます。したがって、情報がシステム内で広がる速度が速いほど、効果的な体積は大きくなり、クラシック的にシミュレートするのはより困難になります。 局所観測量Bに寄与するゲートの効果的な体積Veffの描写です。関連する量である効果的な面積Aeffは、平面とコーンの断面で表されています。底辺の周囲はバタフライ速度vBで移動する情報の前面に対応しています。 このフレームワークを最近の実験に適用し、いわゆるFloquet Isingモデル、時間結晶およびMajorana実験に関連する物理モデルを実装しました。この実験のデータから、最大回路に対して有効な信頼性を0.37と直接推定することができます。測定されたゲートエラーレートは約1%であり、これにより推定される有効なボリュームは約100となります。これは、127量子ビットに2,000のゲートが含まれるライトコーンよりもはるかに小さくなります。したがって、この実験のバタフライ速度は非常に小さいです。実験よりも大きな精度を得る数値シミュレーションを使用して、この小さな有効なボリュームが127ではなく約28の量子ビットのみをカバーしていることも確認されました。この小さな有効ボリュームはOTOC技術によっても裏付けられています。これは深い回路であったにもかかわらず、推定される計算コストは5×10^11であり、最近のRCS実験のおよそ1兆分の1です。それに対応して、この実験は単一のA100 GPU上のデータポイントごとに1秒未満でシミュレートすることができます。したがって、これは確かに有用なアプリケーションであるものの、計算アプリケーションの2番目の要件を満たしていません:古典的なシミュレーションを大幅に上回ること。…

「サイバー攻撃により、NSF(国立科学財団)が資金提供した主要な望遠鏡が2週間以上閉鎖されました」

8月初以来、国立科学財団のNOIRLab地上天文学の調整センターが運営するハワイとチリの10台の望遠鏡がサイバー攻撃によりオフラインになっています

「慢性腎臓病の予測:新しい視点」

「腎臓は、血液から廃物、毒素、余分な水分を取り除くために一生懸命働きますその適切な機能は健康にとって重要です慢性腎臓病(CKD)は、…」

「人工知能のイメージング:GANの複雑さとメカニズムの学術的な考察」

GANは、リアルなデータの作成能力を示しています画像の作成から医薬品の革新まで、さまざまな領域での潜在力を持っています

「Snorkel AI x Hugging Face 企業向けの基盤モデルを解放する」

この記事は、2023年4月6日にSnorkelのブログでFriea Bergによって最初に公開された記事をクロスポストしています。 OpenAIがGPT-4をリリースし、Googleがベータ版でBardを導入するにつれて、世界中の企業は基盤モデルの力を活用することに興奮しています。この興奮が高まるにつれて、ほとんどの企業や組織が基盤モデルを適切に活用するための準備ができていないことが明らかになっています。 基盤モデルは企業にとって独自の課題を提供します。これまで以上に大きくなったサイズのため、自社でホストすることは困難で高額になります。また、製品の使用ケースにオフシェルフのFMsを使用することは、パフォーマンスの低下やガバナンスとコンプライアンスのリスクの増加を意味する可能性があります。 Snorkel AIは、基盤モデルと実際の企業の使用ケースとのギャップを埋める役割を果たしており、PixabilityなどのAIイノベーターによって印象的な結果をもたらしています。我々は、大量の使いやすいオープンソースモデルのリポジトリで最もよく知られているHugging Faceと提携し、AIアプリケーションの開発に柔軟性と選択肢を提供します。 Snorkel Flowにおける基盤モデル Snorkel Flow開発プラットフォームを使用すると、ユーザーは基盤モデルを特定の使用ケースに適応させることができます。アプリケーションの開発は、データ上の選択した基盤モデルの予測を「そのまま」検査することから始まります。これらの予測は、それらのデータポイントのトレーニングラベルの初期バージョンとなります。Snorkel Flowは、そのモデルのエラーモードを特定し、プログラムによるラベリングを効率的に修正するためのユーザーを支援します。これには、ヒューリスティックやプロンプトを使用したトレーニングラベルの更新が含まれる場合もあります。基盤モデルは、更新されたラベルで微調整され、再評価されます。この反復的な「検出と修正」プロセスは、適応された基盤モデルが十分な品質に達するまで続きます。 Hugging Faceは、この強力な開発プロセスを可能にするために、150,000以上のオープンソースモデルを1つのソースから直ちに利用できるようにしています。これらのモデルの多くは、BioBERTやSciBERTなどの特定のドメインのデータに特化しています。これらのモデルの1つ、あるいはさらに良い場合は複数の特化したベースモデルは、ユーザーに初期予測やラベルの改善のためのプロンプト、または展開用の最終モデルの微調整のスタートを与えることができます。 Hugging Faceはどのように役立ちますか? Snorkel AIのHugging Faceとのパートナーシップにより、Snorkel Flowの基盤モデルの機能が強化されます。最初はわずかな数の基盤モデルのみを提供していました。それぞれが専用のサービスを必要とし、費用対効果が低く、急速に増え続けるさまざまなモデルを提供することが難しかったため、企業が柔軟に利用できるようにすることは困難でした。Hugging FaceのInference Endpointサービスを採用することで、ユーザーが利用できる基盤モデルの数を拡大することができました。 Hugging Faceのサービスを使用すると、ユーザーは数回のクリックでモデルAPIを作成し、すぐに使用することができます。重要なのは、この新しいサービスには「一時停止と再開」の機能があり、クライアントが必要な場合にモデルAPIをアクティブにし、必要ない場合には休眠させることができる点です。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us