Search Results プロトタイプ

機械学習洞察のディレクター【パート4】

MLソリューションをより速く構築したい場合は、今すぐ hf.co/support をご覧ください！ 👋 ML Insightsシリーズのディレクターへお帰りなさい！以前のエディションを見逃した場合は、こちらで見つけることができます：ディレクター・オブ・マシン・ラーニング・インサイト[パート1] ディレクター・オブ・マシン・ラーニング・インサイト[パート2：SaaSエディション] ディレクター・オブ・マシン・ラーニング・インサイト[パート3：金融エディション] 🚀 この第4弾では、次のトップマシン・ラーニング・ディレクターがそれぞれの業界へのマシン・ラーニングの影響について語ります：ハビエル・マンシージャ、ショーン・ギットンズ、サミュエル・フランクリン、エヴァン・キャッスル。全員が現在、豊富なフィールドの洞察を持つマシン・ラーニングのディレクターです。免責事項：すべての意見は個人の意見であり、過去または現在の雇用者の意見ではありません。ハビエル・マンシージャ – マーケティングサイエンス部門のマシン・ラーニングディレクター、メルカドリブレ経歴：経験豊富な起業家でありリーダーであるハビエルは、2010年以来マシン・ラーニングを構築する高級企業であるMachinalisの共同設立者兼CTOでした（そう、ニューラルネットの突破前の時代です）。 MachinalisがMercado Libreに買収されたとき、その小さなチームは10,000人以上の開発者を持つテックジャイアントにマシン・ラーニングを可能にする能力として進化し、ほぼ1億人の直接ユーザーの生活に影響を与えました。ハビエルは、彼らのマシン・ラーニングプラットフォーム（NASDAQ MELI）の技術と製品のロードマップだけでなく、ユーザーのトラッキングシステム、ABテストフレームワーク、オープンソースオフィスもリードしています。ハビエルはPython-Argentinaの非営利団体PyArの積極的なメンバーおよび貢献者であり、家族や友人、Python、サイクリング、サッカー、大工仕事、そしてゆっくりとした自然の休暇が大好きです！おもしろい事実：私はSF小説を読むのが大好きで、引退後は短編小説を書くという10代の夢を再開する予定です。📚 メルカドリブレ：ラテンアメリカ最大の企業であり、コンチネンタルのeコマース＆フィンテックの普遍的なソリューションです 1. eコマースにおいてMLがポジティブな影響を与えたのはどのような場合ですか？詐欺防止や最適化されたプロセスやフローなど、特定のケースにおいてMLは不可能を可能にしたと言えます。他のほとんどの分野では想像もできなかった方法で、MLがUXの次のレベルを実現しました。…

時間をかけて生存者を助け、機械学習を利用して競争する

2023年2月6日、トルコ南東部でマグニチュード7.7と7.6の地震が発生し、10の都市に影響を及ぼし、2月21日現在で4万2000人以上が死亡し、12万人以上が負傷しました。地震の数時間後、プログラマーのグループが「アフェタリタ」と呼ばれるアプリケーションを展開するためのDiscordサーバーを立ち上げました。このアプリケーションは、捜索救助チームとボランティアが生存者を見つけて支援するために使用されます。このようなアプリの必要性は、生存者が自分の住所や必要なもの（救助を含む）をテキストのスクリーンショットとしてソーシャルメディアに投稿したことから生じました。一部の生存者は、自分が生きていることと救助を必要としていることを、ツイートで伝え、それにより親族が知ることができました。これらのツイートから情報を抽出する必要があり、私たちはこれらを構造化されたデータに変換するためのさまざまなアプリケーションを開発し、展開するために時間との競争をしました。 Discordサーバーに招待されたとき、私たちは（ボランティアとして）どのように運営し、何をするかについてかなりの混乱がありました。私たちは共同でモデルをトレーニングするために、モデルとデータセットのレジストリが必要でした。私たちはHugging Faceの組織アカウントを開設し、MLベースのアプリケーションを受け取り、情報を処理するためのプルリクエストを通じて共同作業しました。他のチームのボランティアから、スクリーンショットを投稿し、スクリーンショットから情報を抽出し、それを構造化してデータベースに書き込むアプリケーションの需要があることを聞きました。私たちは、与えられた画像を取得し、まずテキストを抽出し、そのテキストから名前、電話番号、住所を抽出し、これらの情報を権限付与された当局に提供するデータベースに書き込むアプリケーションの開発を開始しました。さまざまなオープンソースのOCRツールを試した後、OCR部分には「easyocr」を使用し、このアプリケーションのインターフェースの構築には「Gradio」を使用しました。OCRからのテキスト出力は、トランスフォーマーベースのファインチューニングされたNERモデルを使用して解析されます。アプリケーションを共同で改善するために、Hugging Face Spacesにホストし、アプリケーションを維持するためのGPUグラントを受け取りました。Hugging Face HubチームはCIボットをセットアップしてくれたので、プルリクエストがSpaceにどのように影響を与えるかを見ることができ、プルリクエストのレビュー中に役立ちました。その後、さまざまなチャンネル（Twitter、Discordなど）からラベル付けされたコンテンツが提供されました。これには、助けを求める生存者のツイートの生データと、それらから抽出された住所と個人情報が含まれていました。私たちは、まずはHugging Face Hub上のオープンソースのNLIモデルと、クローズドソースの生成モデルエンドポイントを使用したフューショットの実験から始めました。私たちは、xlm-roberta-large-xnliとconvbert-base-turkish-mc4-cased-allnli_trというモデルを試しました。NLIモデルは特に役立ちました。候補ラベルを使用して直接推論でき、データのドリフトが発生した際にラベルを変更できるため、生成モデルはバックエンドへの応答時にラベルを作り上げる可能性があり、不一致を引き起こす可能性がありました。最初はラベル付けされたデータがなかったので、何でも動くでしょう。最終的に、私たちは独自のモデルを微調整することにしました。1つのGPUでBERTのテキスト分類ヘッドを微調整するのに約3分かかります。このモデルをトレーニングするためのデータセットを開発するためのラベリングの取り組みがありました。モデルカードのメタデータに実験結果を記録し、後でどのモデルを展開するかを追跡するためのリーダーボードを作成しました。ベースモデルとして、bert-base-turkish-uncasedとbert-base-turkish-128k-casedを試しましたが、bert-base-turkish-casedよりも優れたパフォーマンスを発揮することがわかりました。リーダーボードはこちらでご覧いただけます。課題とデータクラスの不均衡を考慮し、偽陰性を排除することに焦点を当て、すべてのモデルの再現率とF1スコアをベンチマークするためのスペースを作成しました。これには、関連するモデルリポジトリにメタデータタグdeprem-clf-v1を追加し、このタグを使用して記録されたF1スコアと再現率を自動的に取得し、モデルをランク付けしました。漏れを防ぐために別のベンチマークセットを用意し、モデルを一貫してベンチマークしました。また、各モデルをベンチマークし、展開用の各ラベルに対して最適な閾値を特定しました。 NERモデルを評価するために、データラベラーが改善された意図データセットを提供するために取り組んでいるため、クラウドソーシングの取り組みとしてNERモデルを評価するためのラベリングインターフェースを設定しました。このインターフェースでは、ArgillaとGradioを使用して、ツイートを入力し、出力を正しい/正しくない/曖昧などのフラグで示すことができます。後で、データセットは重複を排除してさらなる実験のベンチマークに使用されました。機械学習の別のチームは、特定のニーズを得るために生成モデル（ゲート付きAPIの背後）と連携し、テキストとして自由なテキストを使用し、各投稿に追加のコンテキストとしてテキストを渡すためにAPIエンドポイントを別のAPIとしてラップし、クラウドに展開しました。少数のショットのプロンプティングをLLMsと組み合わせて使用することで、急速に変化するデータのドリフトの存在下で細かいニーズに対応するのに役立ちます。調整する必要があるのはプロンプトだけであり、ラベル付けされたデータは必要ありません。これらのモデルは現在、生存者にニーズを伝えるためにボランティアや救助チームがヒートマップ上のポイントを作成するために本番環境で使用されています。 Hugging Face Hubとエコシステムがなかったら、私たちはこのように迅速に協力し、プロトタイプを作成し、展開することはできませんでした。以下は住所認識および意図分類モデルのためのMLOpsパイプラインです。このアプリケーションとその個々のコンポーネントには何十人ものボランティアがおり、短期間でこれらを提供するために寝ずに働きました。リモートセンシングアプリケーション…

GPT-3がMLOpsの将来に与える意味とは？デビッド・ハーシーと共に

この記事は元々MLOps Liveのエピソードであり、ML実践者が他のML実践者からの質問に答えるインタラクティブなQ&Aセッションです各エピソードは特定のMLトピックに焦点を当てており、このエピソードではGPT-3とMLOpsの特徴についてDavid Hersheyと話しましたYouTubeで視聴することができます Or...

FermiNet（フェルミネット）：第一原理に基づく量子物理学と化学

最近Physical Review Researchに掲載された論文では、ディープラーニングが現実世界のシステムの量子力学の基礎方程式を解くのにどのように役立つかを示していますこれは重要な基礎科学的な問題だけでなく、将来的には実用的な用途につながる可能性がありますこれにより、研究者は実験室で作る前に、シリコン上で新しい材料や化学合成を試作することができます本日、この研究からのコードも公開される予定ですこれにより、計算物理学や化学のコミュニティは私たちの研究を基にさまざまな問題に応用することができます私たちは、大きな電子の集合体である化学結合の量子状態をモデル化するのに適した新しいニューラルネットワークアーキテクチャ、Fermionic Neural NetworkまたはFermiNetを開発しましたFermiNetは、原子や分子のエネルギーを最初の原理から計算するためのディープラーニングの最初のデモンストレーションであり、これまでで最も正確なニューラルネットワーク手法ですDeepMindのAI研究で開発されたツールやアイデアが自然科学の基本的な問題の解決に役立ち、FermiNetはタンパク質の折りたたみ、ガラス状のダイナミクス、格子量子色力学などのプロジェクトとともに、そのビジョンを実現するための取り組みに加わります

research

AI研究の善循環

最近、私たちはDeepMindの研究科学者であるペタル・ヴェリチコビッチさんに取材しましたペタルさんは共著者とともに、彼の論文「The CLRS Algorithmic Reasoning Benchmark」をアメリカのメリーランド州ボルチモアで開催されるICML 2022で発表します

Life at DeepMind

Taipy：ユーザーフレンドリーな本番用データサイエンティストアプリケーションを構築するためのツール

データサイエンティストとして、データの視覚化のためのダッシュボードを作成したり、データを視覚化したり、さらにはビジネスアプリケーションを実装して利害関係者が実行可能な意思決定を行うのをサポートするかもしれません

NVIDIAのCEO、ヨーロッパの生成AIエグゼクティブが成功の鍵を議論

3つの主要なヨーロッパの生成AIスタートアップが、NVIDIAの創設者兼CEOのジェンソン・ホアンと一緒に新しいコンピューティングの時代について話し合いました。 500人以上の開発者、研究者、起業家、経営者が、ベルリンのスピンドラー・アンド・クラットというスタイリッシュな河畔の集会場に詰めかけました。ホアンは、月曜日に気候科学に焦点を当てた国際協力体であるEarth Virtualization Engines（EVE）のベルリンサミットで発表したメッセージに触れながら、受け入れ会を始めました。ホアンは、NVIDIAのEarth-2イニシアチブの詳細や、加速された計算、AIによるシミュレーション、インタラクティブなデジタルツインが気候科学の研究を推進していることについて共有しました。 3つのスタートアップの創始者とのファイアサイドチャットに座る前に、ホアンはオーディエンスに「特別なゲスト」を紹介しました。彼は、地球を救う「無名のヒーロー」と呼ばれる世界有数の気候モデリング科学者4人を紹介しました。ホアンは「これらの科学者は、気候科学の進歩にキャリアを捧げています」と述べました。「EVEのビジョンによって、彼らは気候科学の新たな時代の設計者です。」強力な力に立ち向かうホアンは「ドイツには膨大な数のAIスタートアップがあり、それを見ることができて嬉しいです」と述べました。「あなたはまったく新しいコンピューティングの時代にいます。それが起こると、みんなが同じスタートラインに立つことになります。」ホアンは、Blackshark.ai、Magic、DeepLの創業者をステージに招待しました。これらのスタートアップは生成AIを活用して地球管理、人工一般知能（AGI）、言語翻訳などの方法を追求しています。 Blackshark.aiは、AIと分散空間計算を用いて2D画像をデータ豊かな3D世界に変換します。 Magicは、小規模なチームがコードをより速く、より安価に書くことを可能にするAGIソフトウェアエンジニアを開発しています。 DeepLは、AIを活用した翻訳ツールによって、すべてのものが互いにコミュニケーションできるようにすることを目指しています。これら3社は、確立された企業の製品に対抗すると見なされる解決策を提供しています。 500人以上のオーディエンスがファイアサイドチャットに参加しました。「なぜそんな強力な力に立ち向かったのですか？」ホアンは創業者に尋ねました。 Blacksharkの共同創設者兼CEOであるMichael Putzは、同社の製品はGoogle Earthで見ることができるものに似ていると説明しました。しかし、Blacksharkは、Google Earthの20％に比べて、地球のカバレッジが100％であると主張しています。また、Googleが地図の一部を更新するのに数か月かかるのに対し、Blacksharkはわずか3日しか必要ありません、とPutz氏は述べました。 Magicの共同創設者兼CEOであるEric Steinbergerは、自社が人間のチームのように動作するAGI AIソフトウェアエンジニアを構築しようとしていると説明しました。…

LangChain：LLMがあなたのコードとやり取りできるようにします

生成モデルは皆の注目を集めています現在、多くのAIアプリケーションでは、機械学習の専門家ではなく、API呼び出しの実装方法を知っているだけで済むことが増えています最近の例としては、私は...

Field Programmable Gate Array（FPGA）とは何ですか：人工知能（AI）におけるFPGA vs. GPU

フィールドプログラマブルゲートアレイ（FPGA）は、製造後に設定とカスタマイズが可能な集積回路です。これらのチップはこの能力によって「フィールドプログラマブル」と呼ばれます。プログラム可能なロジックブロックから構成され、幅広い機能を実行したり、論理ゲートとして機能したりすることができます。これにより、回路の動作方法に対してユーザーに大きな柔軟性が提供されます。フィールドプログラマブルゲートアレイ（FPGA）は、設定可能なロジックブロック（CLB）とプログラマブルなインターコネクトで構成される半導体デバイスです。これらのブロックは、シンプルから複雑な操作を行い、フリップフロップやメモリブロックなどのメモリコンポーネントを含むことができます。 FPGAは、プログラマブルな読み取り専用メモリチップと似ていますが、より多くのゲートを収容し、ASIC（特定のタスク用に設計された集積回路）とは異なり再プログラム可能です。これらは特定の用途に合わせてマイクロプロセッサをカスタマイズするために使用され、ワイヤレス通信、データセンター、自動車、医療、航空宇宙など、さまざまな業界で人気があります。FPGAの再プログラム可能な性質により、必要に応じて柔軟性とデザインの更新が可能になります。出典: https://allaboutfpga.com/fpga-architecture/ 出典: https://blog.samtec.com/post/new-intel-fpga-platform-features-samtec-interconnect/ FPGAの応用 FPGAは、さまざまな業界で利用され、多様な実装領域があります。主な利用領域のいくつかは以下の通りです。エネルギー産業 FPGAは、効率的な電力ネットワークが最適な運用のために必要な送電および配電（T&D）変電所などのスマート電力網技術において、パフォーマンスとスケーラビリティを向上させながら消費電力を低減する重要な役割を果たすことができます。向上した自動車体験 MicrosemiのFPGAは、クルーズコントロール、死角警告、衝突回避などの新しい自動車の安全アプリケーションをOEM（自動車メーカー）およびサプライヤーが作成することを可能にします。これらのFPGAは、情報保証、改ざん防止、ハードウェアセキュリティなどのサイバーセキュリティ機能、エラーコレクションメモリや低静的電力などの信頼性機能を提供します。航空宇宙と防衛産業用製造会社は、パフォーマンス、信頼性、寿命要件を満たすために、しばしば宇宙グレードのラジエーションハードおよびラジエーショントレラントなFPGAを提供しています。これらのFPGAは、従来のASIC実装よりも柔軟性があり、処理集約型の宇宙システムに特に適しています。コンピュータビジョンシステム現代の世界では、ビデオ監視カメラ、ロボット、およびその他のデバイスなど、さまざまなガジェットでコンピュータビジョンシステムが広く使用されています。これらのガジェットが位置、周囲、および顔認識の能力に基づいて適切に人と対話するためには、しばしばFPGAベースのシステムを使用する必要があります。データセンターインターネット・オブ・シングスとビッグデータは、取得および処理されるデータ量の著しい増加をもたらしています。深層学習技術の使用により、低遅延、柔軟性、および安全な計算能力が求められます。スペースコストの上昇により、より多くのサーバーを追加してもこの需要には応えられません。FPGAは、処理の高速化、設計の柔軟性、ソフトウェアの脆弱性に対するハードウェアベースのセキュリティの面でデータセンターでの受け入れが増えています。リアルタイムシステム従来のCPUは応答時間が予測困難であり、トリガーが正確に発火するタイミングを予測するのが困難なため、応答時間が重要なリアルタイムシステムでFPGAが使用されています。 ASICの設計回路のアーキテクチャを作成することが最初のステップであり、それからFPGAを使用してプロトタイプを構築し、テストすることでエラーを修正することができます。プロトタイプが予想通りの動作をすると、ASICプロジェクトが開発されます。このアプローチにより、統合回路の作成は手間がかかり複雑な作業であるため、時間を節約することができます。 FPGAベースのアクセラレーションサービス…

Google AIは、MediaPipe Diffusionプラグインを導入しましたこれにより、デバイス上で制御可能なテキストから画像生成が可能になります

最近、拡散モデルはテキストから画像を生成する際に非常に成功を収め、画像の品質、推論のパフォーマンス、および創造的な可能性の範囲の大幅な向上をもたらしています。しかし、効果的な生成管理は、特に言葉で定義しにくい条件下では依然として課題となっています。 Googleの研究者によって開発されたMediaPipe拡散プラグインにより、ユーザーの制御下でデバイス内でのテキストから画像の生成が可能になります。本研究では、デバイスそのもの上で大規模な生成モデルのGPU推論に関する以前の研究を拡張し、既存の拡散モデルおよびそのLow-Rank Adaptation（LoRA）のバリエーションに統合できるプログラマブルなテキストから画像の生成の低コストなソリューションを提供します。拡散モデルでは、イテレーションごとに画像の生成が行われます。拡散モデルの各イテレーションは、ノイズが混入した画像から目標の画像までを生成することで始まります。テキストのプロンプトを通じた言語理解は、画像生成プロセスを大幅に向上させています。テキストの埋め込みは、テキストから画像の生成のためのモデルにリンクされ、クロスアテンション層を介して結びつけられます。ただし、物体の位置や姿勢などの詳細は、テキストのプロンプトを使用して伝えるのがより困難な例です。研究者は、条件画像からの制御情報を拡散に追加することで、拡散を利用して制御を導入します。 Plug-and-Play、ControlNet、およびT2Iアダプターの方法は、制御されたテキストから画像を生成するためによく使用されます。Plug-and-Playは、入力画像から状態をエンコードするために、拡散モデル（Stable Diffusion 1.5用の860Mパラメータ）のコピーと、広く使用されているノイズ除去拡散暗黙モデル（DDIM）逆推定手法を使用します。これにより、入力画像から初期ノイズ入力を導出します。コピーされた拡散からは、自己注意の空間特徴が抽出され、Plug-and-Playを使用してテキストから画像への拡散に注入されます。ControlNetは、拡散モデルのエンコーダーの訓練可能な複製を構築し、ゼロで初期化されたパラメータを持つ畳み込み層を介して接続し、条件情報をエンコードし、それをデコーダーレイヤーに渡します。残念ながら、これによりサイズが大幅に増加し、Stable Diffusion 1.5では約450Mパラメータとなり、拡散モデル自体の半分となります。T2I Adapterは、より小さなネットワーク（77Mパラメータ）であるにもかかわらず、制御された生成で同等の結果を提供します。条件画像のみがT2I Adapterに入力され、その結果がすべての後続の拡散サイクルで使用されます。ただし、このスタイルのアダプターはモバイルデバイス向けではありません。 MediaPipe拡散プラグインは、効果的かつ柔軟性があり、拡張性のある条件付き生成を実現するために開発されたスタンドアロンネットワークです。訓練済みのベースラインモデルに簡単に接続できる、プラグインのようなものです。オリジナルモデルからの重みを使用しないゼロベースのトレーニングです。モバイルデバイス上でほとんど追加費用なしにベースモデルとは独立して実行可能なため、ポータブルです。プラグインはそのネットワーク自体であり、その結果はテキストから画像への変換モデルに統合されます。拡散モデル（青）に対応するダウンサンプリング層は、プラグインから取得した特徴を受け取ります。テキストから画像の生成のためのモバイルデバイス上でのポータブルなオンデバイスパラダイムであるMediaPipe拡散プラグインは、無料でダウンロードできます。条件付きの画像を取り込み、多スケールの特徴抽出を使用して、拡散モデルのエンコーダーに適切なスケールで特徴を追加します。テキストから画像への拡散モデルと組み合わせると、プラグインモデルは画像生成に条件信号を追加します。プラグインネットワークは、相対的にシンプルなモデルであるため、パラメータはわずか6Mとなっています。モバイルデバイスでの高速推論を実現するために、MobileNetv2は深度方向の畳み込みと逆ボトルネックを使用しています。基本的な特徴自己サービス機械学習のための理解しやすい抽象化。低コードAPIまたはノーコードスタジオを使用してアプリケーションを修正、テスト、プロトタイプ化、リリースするために使用します。 Googleの機械学習（ML）ノウハウを使用して開発された、一般的な問題に対する革新的なMLアプローチ。ハードウェアアクセラレーションを含む完全な最適化でありながら、バッテリー駆動のスマートフォン上でスムーズに実行するために十分に小さく効率的です。

Learn more about Search Results プロトタイプ - Page 18