Search Results リリース

メタAIがNougatをリリース：科学文書を処理するためのOCRを実行するビジュアルトランスフォーマーモデルで、マークアップ言語に変換します

人工知能の発展とともに、そのサブフィールドである自然言語処理、自然言語生成、コンピュータビジョンなどは、広範なユースケースにより急速に人気を集めています。光学文字認識（OCR）は、コンピュータビジョンの確立された研究領域であり、積極的に研究が行われています。ドキュメントのデジタル化、手書き文字認識、シーンテキスト識別など、多くの用途があります。数式の認識は、OCRの中でも特に学術研究で大いに関心を集めている領域です。ポータブルドキュメントフォーマット（PDF）は、科学知識の最も広く使用される形式の1つであり、通常は書籍に保存されるか、学術誌に掲載されます。インターネット上で2.4％の情報を占める最も使用されるデータ形式の2番目のPDFは、ドキュメント配信に頻繁に使用されます。広範な使用にもかかわらず、PDFファイルから情報を抽出することは難しい場合があります。特に、これらの論文がPDF形式に変換されると、数式の意味情報が頻繁に失われます。これらの課題に対処するため、Meta AIの研究チームは「Neural Optical Understanding for Academic Documents」を意味する「Nougat」という解決策を提案しました。Nougatは、科学的なテキストに光学文字認識（OCR）を行うためのVisual Transformerモデルです。その目標は、これらのファイルをマークアップ言語に変換して、より簡単にアクセス可能で機械読み取り可能にすることです。手法の効果を示すために、チームは学術論文の新しいデータセットも作成しました。この手法は、デジタル時代における科学知識のアクセシビリティを向上させるための具体的な答えを提供します。これにより、人間にとって読みやすい書面とコンピュータが処理・分析できるテキストとの間のギャップが埋まります。研究者、教育者、科学文献に興味のある人は、Nougatを使用して科学論文により効果的にアクセスし、取り扱うことができます。Nougatは、基本的にはイメージを持つドキュメントページ、特にPDFからフォーマットされたマークアップテキストに変換するためのトランスフォーマーベースのモデルです。チームは、次のような主な貢献をまとめています。事前学習済みモデルの公開：チームはPDFをシンプルなマークアップ言語に変換することができる事前学習済みモデルを作成しました。この事前学習済みモデルはGitHubで公開されており、研究コミュニティや誰でもアクセスできるようになっています。データセット作成のためのパイプライン：PDF文書とそれに関連するソースコードをペアにするためのデータセット作成方法が研究で説明されています。このデータセットの開発方法は、Nougatモデルのテストや改善、将来の文書分析の研究や応用に役立つ可能性があります。ページのイメージに依存：Nougatの特徴の1つは、ページのイメージのみで動作できる能力です。これにより、元のドキュメントがデジタルテキスト形式で利用できない場合でも、さまざまなソースからコンテンツを抽出する柔軟なツールとなります。スキャンされた論文や書籍を処理することができます。

メタAIのコンピュータビジョンにおける公平性のための2つの新しい取り組み：DINOv2のためのライセンス導入とFACETのリリースの紹介

コンピュータビジョンの絶え間ない進化の中で、公平性を確保することが急務となっています。この記事では、AI技術、特にコンピュータビジョンにおける広範な可能性について解説し、エコロジーの保護活動から画期的な科学的探求を支援するまで、さまざまなセクターで変革的な突破口となるカタリストとしての役割を果たしていることを明らかにしています。しかし、この技術の台頭に伴う潜在的なリスクについても率直に語っています。 Meta AIの研究者は、急速なイノベーションのリズムと必要とされる慎重な開発プラクティスの間で重要な均衡を取ることを強調しています。これらのプラクティスは単なる選択肢ではなく、歴史的に弱い立場にあるコミュニティにこの技術が誤って与える可能性のある損害から守るための重要な盾です。 Meta AIの研究者は、この多面的な課題に対応する包括的なロードマップを策定しています。まず、自己教師あり学習のための試練を経て鍛造された先進的なコンピュータビジョンモデルであるDINOv2を、オープンソースのApache 2.0ライセンスの下でより広範なユーザーに提供します。DINOv2は、コンピュータビジョンモデルの大幅な進歩を表すものです。セルフサプライズ学習の技術を利用して、普遍的な特徴を作り出し、高い柔軟性で画像を理解し解釈することができます。 DINOv2の能力は、従来の画像分類を超えています。セマンティックイメージセグメンテーションという多くのタスクで優れたパフォーマンスを発揮し、オブジェクトの境界を正確に識別し、意味のある領域に画像をセグメント化します。また、単眼の深度推定においても優れたパフォーマンスを発揮し、画像内のオブジェクトの空間的な奥行きを知覚することができます。この多様性により、DINOv2はコンピュータビジョンアプリケーションのパワーハウスとなります。このアクセシビリティの拡大により、開発者や研究者はDINOv2の強力な機能をさまざまなアプリケーションに活用し、コンピュータビジョンイノベーションのフロンティアをさらに押し進めることができます。 Metaのコンピュータビジョンにおける公平性への取り組みの核心は、FACET（FAirness in Computer Vision Evaluation）の導入によって明らかになります。FACETは、約50,000人を特集した驚異的なベンチマークデータセットであり、専門の人間注釈者による細心の注釈が特徴です。これらの専門家は、データセットを細心の注意を払って注釈付けし、さまざまな次元で分類しています。これには、認識されるジェンダープレゼンテーション、年齢層、認識される肌の色合いや髪型などの人口統計属性が含まれます。驚くべきことに、FACETは「バスケットボール選手」や「医師」といった職業など、人に関連するクラスを導入しています。さらに、研究目的のために69,000のマスクのラベルも含まれており、その意義が高まっています。 FACETを用いた初期の探索では、最先端のモデルが異なる人口集団間でのパフォーマンスの差異を明らかにしました。たとえば、これらのモデルは、より暗い肌色を持つ個人や巻き毛のある個人を正確に検出することに頻繁に課題を抱えており、注意深い検討が必要な潜在的なバイアスを明らかにしています。 FACETを使用したパフォーマンス評価では、最先端のモデルが人口集団間でのパフォーマンスの差異を示しています。たとえば、モデルはより暗い肌色を持つ個人を検出することに苦労し、巻き毛のある個人に対してはさらに困難を抱えることがあります。これらの差異は、コンピュータビジョンモデルにおけるバイアスの評価と軽減の必要性を強調しています。 FACETは主に研究評価のために設計されており、トレーニング目的ではありませんが、コンピュータビジョンモデルの公平性を評価するための第一級の基準として台頭する可能性があります。これにより、従来の人口統計属性を超えて人に関連するクラスを取り入れた、深い洞察に基づく公平性の評価が可能となります。まとめると、Metaの記事は、コンピュータビジョン内の公平性問題についての警笛を鳴らし、FACETによって明らかになったパフォーマンスの差異を明るみに出しています。Metaの方法論は、DINOv2のような先進モデルへのアクセスの拡大と、先駆的なベンチマークデータセットの導入を含めた多面的なアプローチを強調しています。これにより、イノベーションの促進と倫理基準の維持、公平性の問題の緩和に対する彼らの不断の取り組みが浮き彫りになっています。それは、技術がすべての人々の福祉のために活用される公正なAIの景観を実現するための航海図を描いています。

Googleが「Gemini」というAIツールと、その他多数のAIツールをリリースしました

「Googleは、サンフランシスコで開催されたGoogle Nextカンファレンスでの最新発表において、幅広い新しいAI技術やパートナーシップを明らかにしましたOpenAIやMicrosoftによる最近の進展に直接対抗するために設計されたように見えるGoogleのイノベーションの連続は、AIの領域における積極的な再配置を示していますGoogleのフラッグシップ[…]」

google

オープンAIによって、大規模な企業向けにChatGPT Enterpriseがリリースされます

OpenAIは、おそらく大規模言語モデルの世界のリーダーと言えるAI企業であり、同社は大企業のニーズに焦点を当てたChatGPTのバージョンをリリースすることを発表しましたロイターによると、この製品はChatGPTエンタープライズと呼ばれ、より高いプライバシー、セキュリティ、スピードを提供しますこれは...

「OpenAIが大企業向けのChatGPTバージョンをリリース予定」

「OpenAIは、おそらく世界の大規模言語モデルのリーダーと言えるAI企業であり、大企業のニーズに焦点を当てたChatGPTのバージョンをリリースすると発表しましたReutersによると、この製品はChatGPT Enterpriseと呼ばれ、より高いプライバシー、セキュリティ、および速度を提供する予定ですこれは...」

イレブンラボは、30言語に対応するAI音声モデル「イレブンマルチリンガルv2」をリリースしました

ElevenLabsによる最新の研究では、Eleven Multilingual v2と呼ばれる多言語音声生成モデルが公開され、約30の言語で「感情豊かな」AIオーディオを生成します。この研究により、プロデューサーはヨーロッパ、アジア、中東市場向けにオーディオをローカライズすることが可能になります。研究チームは18か月間にわたり人間の音声指標を研究し、文脈の検出、音声生成における感情の表現、新たな特徴的な声の合成のための新しい手法を開発しました。このモデルは約30の書かれた言語を自動的に認識し、ElevenLabsのテキスト読み上げプラットフォームにテキストが入力されると、これまでにないレベルの本物さで声を生成します。複製または合成された声は、話者の母国語のアクセントなど、すべての話される言語で話者の声の特徴的な特性を保持します。これにより、同じ声を28の異なる言語で利用して素材をアニメーション化することが可能になりました。この発表は、プラットフォーム上ですべてのユーザーがプロフェッショナルな音声複製を利用できるようになった後に行われました。このアップデートでは、改善されたセキュリティと保護策とともに、オリジナルとほとんど区別がつかないデジタルな声の複製が作成できるようになりました。既存の言語（英語、ポーランド語、ドイツ語、スペイン語、フランス語、イタリア語、ヒンディー語、ポルトガル語）に加えて、新しいモデルでは中国語、韓国語、オランダ語、トルコ語、スウェーデン語、インドネシア語、フィリピン語、日本語、ウクライナ語、ギリシャ語、チェコ語、フィンランド語、ルーマニア語、デンマーク語、ブルガリア語、マレーシア語、スロバキア語、クロアチア語、クラシックアラビア語、タミル語もサポートされています。 ElevenLabsは、新しい機能の導入と継続的な改良に続いて、本日プラットフォームがベータ版を終了することを確認しました。この変更は、同社が信頼性の高い最新のリソースを提供し、世界中の100万人以上のユーザーにサービスを提供するという同社の取り組みを象徴しています。 ElevenLabsはまた、ユーザーがAIと協力してプラットフォームを介して新しいオーディオを作成できる方法に取り組んでいます。テキスト読み上げを多言語に対応させることで、視覚障害を持つ人や他の学習要件を持つ人々に対して、視覚的なコンテンツへのアクセスをより容易にするアプリケーションです。以下にいくつかの例を示します: 多言語音声生成ツールにより、インディーゲーム開発者やパブリッシャーはゲームの体験や音声コンテンツを国際的な観客に翻訳し、品質や正確さを損なうことなく、彼らの言語でプレイヤーやリスナーとつながることができます。同様に、学校は今や学生に対して目標言語で高品質なネイティブスピーカーの音声コンテンツにタイムリーにアクセスできるリソースを提供することができ、学生のリスニングと発音の能力を向上させ、国際的な学生のニーズに対応するさまざまな教育上の選択肢を満たすことができます。 ElevenLabsは、多言語で高品質な音声を制作するために必要な時間と費用を削減することで、ビジネスやクリエイターが、あらゆるバックグラウンドや言語の人々に理解されるよりオリジナルでアクセスしやすいコンテンツを制作するのを支援しています。

メタAIは、「Code Llama」という最先端の大規模言語モデルをリリースしましたこれはコーディングのためのものです

ソフトウェア開発の絶えず進化する景色において、効率的で生産的なコーディングツールの必要性はこれまでになく大きくなっています。開発者は、堅牢でよく文書化されたコードを書きながら、デバッグやコード補完の複雑さを乗り越えるという課題に直面しています。コードベースがより複雑になるにつれて、これらの課題に対する革新的な解決策を見つけることが重要となります。伝統的なコーディングツールや手法は有用ですが、現代のソフトウェア開発の要求に対して時には不十分な場合があります。既存のコーディングツールやフレームワークは、コードの提案や補完を提供する統合開発環境（IDE）から、プロンプトに基づいてコードスニペットを生成できるコード固有の言語モデル（LM）まで、プログラマに貴重なサポートを提供してきました。しかし、これらのツールは、精度、効率、包括性の面で制約があることがしばしばあります。現代のコーディングタスクの複雑さは、自然言語の指示と複雑なコードロジックの両方を理解できるより高度なアプローチを必要とします。 Meta AIによるコーディングのための生成AIの画期的な進歩であるCode Llamaに出会ってください。Code Llamaは、最新のLlama 2モデルをコード固有のデータセットでさらにトレーニングすることで開発され、自然言語の指示と複雑なコード生成とのギャップを埋めます。生産性を向上させ、コーディングの支援を提供する潜在能力を持つCode Llamaは、あらゆるスキルレベルの開発者にとって画期的な存在となります。 Code Llamaは、さまざまなコーディングニーズに対応する多機能なツールです。コードスニペットを生成したり、コードに関する自然言語の説明をしたり、コード補完をサポートしたり、デバッグタスクを支援したりすることができます。Python、C++、Javaなどの人気のあるプログラミング言語をサポートするCode Llamaは、幅広いコーディングシナリオに対応しています。 Code Llamaの注目すべき特徴の1つは、より長い入力シーケンスで動作する能力です。これにより、開発者はコードベースからより多くのコンテキストを提供することができます。これにより、関連性の高い正確なコード生成が可能となり、特に大規模なコードベース内の複雑な問題のデバッグに価値があります。 Code Llamaの効果を評価するために、人気のあるコーディングチャレンジを使用した広範なベンチマークテストが行われました。Code Llamaのパフォーマンスは、オープンソースのコード固有の言語モデルとその前身であるLlama 2と比較されました。その結果、Code Llamaの34Bバリアントは、HumanEvalやMostly Basic Python Programming（MBPP）などのコーディングベンチマークで高いスコアを獲得しました。これらのスコアは既存のソリューションを上回り、広く認識されているAIモデルに対する競争力を示しました。コーディングツールの景色において、Code Llamaはタスクへのアプローチの仕方を変える可能性を持つ画期的なツールとして際立っています。オープンかつコミュニティ主導のアプローチを提供することで、Code Llamaは革新を促進し、責任ある安全なAI開発プラクティスを奨励します。…

メタがコードラマをリリース：コーディングのための最新のAIツール

メタ社は、驚異的な技術的飛躍を遂げ、最新の作品であるCode Llamaをリリースしました。Code Llamaは、Llama 2言語モデルをベースにしたAIパワードツールです。この革新的なツールは、開発者にとってスーパーヒーローのような存在であり、コーディングをスムーズで高速、かつより利用しやすくしてくれます。経験豊富なプログラマであっても、コーディングの旅を始めたばかりでも、Code Llamaがあなたをサポートします。以下に、Metaの最新AIコード生成ツールについて知っておくべきことをまとめました。また読む: Anthropicがコーディングを革新する次世代AIチャットプログラムClaude 2を発表 Code Llamaでコードを解読する MetaのCode Llamaは、普通のAIではありません。これは大規模な言語モデル（LLM）であり、テキストのプロンプトを読み取り、コードの解決策を作成することができます。自分専用のコーディングの魔人をイメージしてください-望むものを入力すると、ぱっと出てきます！Code Llamaは、プロジェクトを輝かせることができる超効率的でエキスパートレベルのコードです。また読む: プログラマを助けるコードを生成する10のAIツールギャップを埋める: 初心者から忍者へコーディングを学ぶことは、異星語を解読するようなものかもしれません。しかし、Code Llamaがあなたのそばにいると、賢明なメンターがあなたの言葉とコードの言葉を話すようなものです。AIコード生成ツールは、あなたの説明に基づいてコードの行を作成し、複雑なアイデアを現実に変えることができます。Python、C ++、Java、または他の主要なプログラミング言語であっても、このAIは対応しています！コード生成ツール以上のもの Code Llamaは、コード生成ツールにとどまらず、コーディングのあらゆる段階で役立つ多目的なツールです。デバッグやコードの完成において、あなたの仮想のパートナーとなります。コードを書いていて行き詰まった場合、AIが提案してプロセスを案内し、行き詰まらないようにサポートしてくれます。また読む:…

「Microsoft Azureは、企業向けAIのためのChatGPTをリリースしました」

マイクロソフトAzureは、ChatGPTを導入することにより、エンタープライズAIの大きな飛躍を遂げています。Azure OpenAI Serviceのプレビューで利用できるようになったChatGPTは、企業がネットワーク内で実行できるようにする画期的な進化です。この画期的な進展により、ビジネスは作業体験を向上させ、生産性を向上させ、さまざまな強力な機能を提供することができます。マイクロソフトAzure ChatGPTが企業が人工知能を活用する方法を変革する様子を詳しく見てみましょう。また、IBMはWatsonxプラットフォームを使用して、エンタープライズAIの景観を革新しています。スムーズなワークフローのためのシームレスな統合 ChatGPTがAzure OpenAI Serviceに統合されることで、組織はGPT-3.5やCodexなど、さまざまな高度なAIモデルにアクセスできるようになります。この統合により、1,000以上の顧客が最先端のAIを革新的な方法で活用することができます。ChatGPTはコードブロックの修正やさまざまなタスクの実行能力を持ち、作業プロセスを向上させ、チームの効果的な協力を可能にします。また、マイクロソフトのAI Copilotは、オフィス、GitHub、Bing、サイバーセキュリティを強化することで、ワークフローを向上させます。マイクロソフトのオープンソースのアプローチマイクロソフトは、Azure ChatGPTをプライベートなAzureホスティングでGitHubにアップロードすることにより、新たな地盤を築いています。このアプローチにより、透明性とアクセシビリティが確保され、組織はチャットボットを既存のインフラストラクチャにシームレスに統合することができます。また、Metaはすべての有望なプロジェクトをオープンソース化しています。その理由を知りましょう。 Azureユーザー向けの簡単な展開 Azureを既に使用している企業は、新機能の追加が簡単なプロセスです。GitHubのページには、インストールと展開のための包括的な手順が記載されており、組織は素早くMicrosoft Azure ChatGPTをワークフローに統合することができます。プライベートChatGPTの力を解き放つ ChatGPTの人気は世界的に急速に広がっており、ビジネスユーザーは生産性を向上させるためのポテンシャルをますます活用しています。マイクロソフトのAzureソリューションアクセラレータは、このポテンシャルをさらに活かすためにAIモデルをエンタープライズオプションとして提供しています。このプライベートなChatGPTソリューションは、ユーザーに馴染みのあるチャットボット体験を提供しながら、データのプライバシーとセキュリティを確保します。また、OpenAIは6つのエキサイティングなChatGPTの機能を発表し、ユーザーエクスペリエンスを革新します。 Microsoft Azure…

SalesForceはEinstein StudioとBring Your Own Model（BYOM）をリリースしました

サービスの一環として、SalesforceはEinstein Studioと呼ばれる新しいAIおよび生成AIモデルトレーニングツールを発表しました。企業はSalesforceのEinstein Studioを活用して、AIモデルを展開し、Salesforce内の営業、サービス、マーケティング、コマース、ITアプリケーションをパワーさせるために独自のAIモデルをデプロイできる、新しいユーザーフレンドリーな「モデル持ち込み」（BYOM）ソリューションを利用できるようになりました。 Einstein Studioを使用することで、データサイエンティストやエンジニアリングチームは効率的かつ低コストでAIモデルを維持および展開することができます。SalesforceのData Cloudを使用することで、企業はAWSのAmazon SageMaker、Google CloudのVertex AIなどのAIサービスを含むAIモデルエコシステムを利用して、プライベートデータでモデルをトレーニングすることが簡単になりました。 Data Cloudは顧客関係管理（CRM）のための最初のリアルタイムデータプラットフォームであり、Einstein Studioはそれを使用して人工知能モデルをトレーニングします。このBYOMソリューションにより、ユーザーは独自のAIモデルをEinstein GPTが提供する事前作成のLLMと組み合わせて、完全なAIを高速化することができます。 Einstein Studioは、信頼性のある、オープンでリアルタイムなAI体験をすべてのアプリケーションとプロセスに組み込むことで、ビジネス全体でエンタープライズ対応のAIを実行および展開することを容易にします。動作原理はどのようなものですか？ Data Cloudからクライアント情報をEinstein Studioにインポートすることで、企業は所有するデータを使用して独自の問題に対応したAIモデルをトレーニングすることができます。Einstein StudioのBYOMソリューションを使用することで、企業はData Cloudで好みのAIモデルをトレーニングし、すべてのSalesforceアプリケーションで使用することができます。この方法により、AIの予測およびコンテンツ自動化に役立つ最新かつ有用なクライアント情報が生成されます。 Dataサイエンティストやエンジニアは、Einstein Studioの集中管理インターフェイスを使用して、AIプラットフォームへのデータアクセスを管理することができるようになりました。 Einstein…

Learn more about Search Results リリース - Page 3