Search Results A

TinyLlamaと出会ってください：3兆トークンで1.1Bのラマモデルを事前学習することを目指した小さなAIモデル

言語モデルの研究の絶え間ない進化の中で、効率性と拡張性を追求する試みが、画期的なプロジェクトであるTinyLlamaによって導かれました。この大胆な試みは、シンガポール大学の研究助手を中心に、わずか90日間で驚異的な3兆トークンを使って11億のパラメータモデルを事前トレーニングし、16台のA100-40G GPUを使用するという控えめなセットアップを利用しています。この冒険の潜在的な影響は重大であり、コンパクトな言語モデルの領域でかつて考えられなかった境界を再定義することを約束しています。 MetaのLLaMAやLlama 2のような既存のモデルは、既に縮小サイズにおいて印象的な能力を示していますが、TinyLlamaはさらに一歩進んでいます。11億のパラメータモデルはわずか550MBのRAMを占有し、計算資源に制約のあるアプリケーションにおいて画期的な変革をもたらす可能性があります。批評家たちは、このような野心的な取り組みの実現可能性について疑問を呈していますが、特にチンチラのスケーリング法則を考慮に入れるとさらにそうです。この法則は、最適な計算を行うためにはパラメータの数とトレーニングトークンの数が比例してスケールするべきであると主張しています。しかし、TinyLlamaプロジェクトはこの考えに果敢に挑戦し、小さなモデルが巨大なトレーニングデータセットで十分に機能できることを証明しようとしています。 MetaのLlama 2の論文では、2兆トークンの事前トレーニングを行った後でも、モデルは飽和の兆候を示さなかったことが明らかになりました。この洞察は、科学者たちがTinyLlamaのためにさらなる境界を押し広げることを可能にした可能性があります。ますます大きなモデルの必要性についての議論は続いており、Metaのチンチラのスケーリング法則を論破しようとする取り組みがこの議論の最前線にあります。成功すれば、TinyLlamaはAIアプリケーションに新たな時代をもたらし、強力なモデルを単一のデバイス上で動作させることが可能になります。しかし、もしも失敗した場合、チンチラのスケーリング法則はその妥当性を再確認することになります。研究者たちは実証的な見方を維持し、この試みは野心的な「1.1B on 3T」以外の公約や事前定義された目標はないオープンな試験であると強調しています。 TinyLlamaプロジェクトがトレーニングフェーズを進めるにつれて、AIコミュニティは胸を膨らませて見守っています。成功すれば、TinyLlamaは従来のスケーリング法則に挑戦するだけでなく、高度な言語モデルのアクセシビリティと効率性を革新する可能性があります。この大胆な実験に対して、チンチラのスケーリング法則が立ち向かうかどうか、時間が示してくれるでしょう。

アリババは、2つのオープンソースの大規模ビジョン言語モデル（LVLM）、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となってきました。これにより、革新的な解決策を求める人々が多く存在しています。AIコミュニティは近年驚くべき進歩を遂げたものの、画像を理解し、洗練されたクエリに応答できる多目的でオープンソースのモデルが依然として必要です。既存の解決策は確かにAIの進歩を促進してきましたが、画像理解とテキストインタラクションのシームレスな統合にはまだまだ課題が残っています。これらの制約は、画像とテキストの処理の多面的な要求に対応できるより洗練されたモデルを求める探求心を刺激しています。アリババは、2つのオープンソースの大視野言語モデル（LVLM）「Qwen-VL」と「Qwen-VL-Chat」を紹介しています。これらのAIツールは、画像を理解し、複雑なクエリに対応するという課題に対する有望な解答として現れています。最初のモデルである「Qwen-VL」は、アリババの70億パラメータモデル「通意千文」という洗練された子孫のようなものです。このモデルは、画像とテキストのプロンプトをシームレスに処理する優れた能力を発揮し、魅力的な画像キャプションの作成や多様な画像に関連する開放型のクエリに対応するなどのタスクで優れた成果を上げています。一方、「Qwen-VL-Chat」は、より複雑な対話に取り組むことでこの概念をさらに推進しています。高度なアライメント技術によって強化されたこのAIモデルは、入力画像に基づいて詩や物語を作成したり、画像に埋め込まれた複雑な数学の問題を解決したりするなど、驚くべき才能の幅広さを示しています。これにより、英語と中国語の両方で画像とテキストのインタラクションの可能性が再定義されます。これらのモデルの能力は、印象的なメトリクスによって裏付けられています。たとえば、「Qwen-VL」は、トレーニング中により大きな画像（448×448解像度）を扱う能力を示し、より小さな画像（224×224解像度）に制限された類似のモデルを上回りました。また、写真に関する事前情報なしで写真を記述したり、写真に関する質問に答えたり、画像内のオブジェクトを検出したりするタスクにおいても優れた能力を示しました。一方、「Qwen-VL-Chat」は、アリババクラウドが設定したベンチマークテストセットにおいて、単語と画像の関係を理解し議論する能力で他のAIツールを上回りました。300以上の写真、800以上の質問、27の異なるカテゴリを備えたこのモデルは、中国語と英語の両方で写真に関する会話において優れた能力を発揮しました。この開発の最も興奮すべき側面は、アリババのオープンソース技術への取り組みです。同社はこれら2つのAIモデルをグローバルコミュニティにオープンソースのソリューションとして提供する意向です。これにより、システムの広範なトレーニングの必要性を排除し、高度なAIツールへのアクセスを民主化するため、開発者や研究者はこれらの先端的な機能を利用することが可能になり、結果として費用を削減することができます。まとめると、アリババの「Qwen-VL」と「Qwen-VL-Chat」の導入は、画像理解とテキストインタラクションのシームレスな統合というAIの分野における重要な進展を表しています。これらのオープンソースモデルは、その印象的な能力により、AIアプリケーションの景観を再構築し、イノベーションとアクセシビリティを世界中に広げる可能性を秘めています。AIコミュニティは、これらのモデルのリリースを熱望しながら、AIによる画像とテキストの処理の未来は約束され、可能性に満ちているとしています。

「AI時代における学術的誠実性の再考：ChatGPTと32のコースの大学生の比較分析」

機械学習アルゴリズムを使用して以前に作成されたテキスト、音声、または視覚情報を元に新しいコンテンツを生成する人工知能（AI）は、生成型AIとして知られています。この分野における最近のブレイクスルーとこれまでにないアクセシビリティにより、多くの人々がこのセクターを「社会と産業が準備しなければならないゲームチェンジャー」と見なしています。たとえば、Stable DiffusionとDALL-Eは、さまざまなジャンルで作品を制作する能力からアート界で注目されています。また、Amper Musicという生成型AI技術は、これまでにアルバム全体を構築し、任意のジャンルで音楽を生成するために利用されてきました。この分野の最新のツールはChatGPTであり、複数の言語で人間の反応に似たテキストの返信を生成することができます。より具体的には、それは対話的な方法で行い、ユーザーが以前の情報を連続した対話形式で自然に展開することができます。クリエイティブライティング、マーケティング、カスタマーサービス、ジャーナリズムなど、さまざまなアウトオブボックスのアプリケーションでほぼ無制限の価値を持つため、このツールは「非凡なヒット」と「生産性の革命」と評されています。ChatGPTは、デビューからわずか5日で100万人のユーザーを獲得し、わずか2か月で1億人以上の月間ユーザー数を達成したことで、その能力が注目されました。驚異的な能力にもかかわらず、生成型AIには倫理的な問題がつきまとっています。オンラインで利用可能な大量のデータを所有するのは誰であり、それらのデータを使用して生成型AIモデルを訓練するのかについて、継続的な議論が行われています。さらに、これらのツールが発展するにつれて、人間の創作物とアルゴリズムによる創作物の区別が困難になっています。ChatGPTがエッセイや課題の解答を生成する能力により、高校生や大学生による学術的誠実性の違反に関する教育に関連する議論が引き起こされています。たとえば、ニューヨーク市、ロサンゼルス、ボルチモアの教育区では、アメリカ合衆国での使用を禁止しています。同様に、オーストラリアの大学では、エッセイを書くために技術を使用する学生を防止するために、「ペンと紙」の試験を再開すると発表しています。多くの教員が盗作を心配しているため、ジョージ・ワシントン大学、ラトガーズ大学、アパラチアン州立大学などの学術機関は、テイクホームのオープンブックの課題を完全に廃止することを決定しました。学術論文や出版物でも、ChatGPTを利用した学術的執筆を禁止しているものがいくつかあります。これは、ChatGPTによって生成された要約が人間が生成したものと同一であることが実証されているため、予想されることではありません。しかし、いくつかの人々はChatGPTを擁護し、さらなる執筆生産性の向上を提唱しています。教育の分野では、以前の研究が医療およびヘルスケア、コンピュータおよびデータサイエンス、法律、ビジネス、ジャーナリズムおよびメディア、言語習得など、さまざまな分野での大規模な言語モデルの効果と有用性を調査しています。これらの研究は、ChatGPTの標準テストへのパフォーマンスを学生のパフォーマンスと比較したときに、結果が異なることを示していますが、特に大規模な言語モデルとの比較では、質問応答のタスクが大幅に改善されたことがわかりました。過去の研究では、米国の医師資格試験でのChatGPTのパフォーマンスを評価し、追加の特殊なトレーニングや強化学習の必要性なしに、試験の3つのフェーズすべてで合格水準に近いパフォーマンスを発揮したことがわかりました。同様に、他の研究では、ChatGPTモデルを米国の基盤工学試験にテストし、そのパフォーマンスをエンジニアリングの文脈で評価しました。彼らの研究では、モデルのパフォーマンスが試験のさまざまなセクションによって変動することを示し、プロフェッショナルプラクティスと倫理のような一部のセクションでは高いスコアを獲得し、水文学などの他のセクションでは低いスコアを獲得したことを示しました。しかし、これらの例にもかかわらず、文献では、同じ大学の異なる学術領域の学生とChatGPTのパフォーマンスを対比した体系的な調査がまだ改善の余地があります。また、この技術の使用について学生や教員の立場が国際的にどのようになっているのかも明確にする必要があります。最後に、ChatGPTによって生成された課題の解答が検出可能かどうかは不明です。ここでは、ニューヨーク大学アブダビ校の研究者が、チャットGPTのパフォーマンスを8つの異なる分野からの32の大学レベルのコースの学生と比較し、そのプラギアリズムツールとしての潜在能力を分析するために、これらのテキストの検出アルゴリズムを回避するために使用できる曖昧化手法の実現可能性を調査しています。彼らは、ブラジル、インド、日本、イギリス、アメリカ合衆国の5つの異なる国から選ばれた参加者（N=1601）を調査し、ChatGPTの有用性やその使用に関連する倫理的および規範的問題についての学生や教育者の視点をよりよく理解しました。また、著者の大学での151人の学部生と60人の教授を対象に、さまざまな分野がChatGPTをどのように見るかの違いを調査しました。彼らは、32のコースのうち9つでChatGPTが学生と同等またはそれ以上のパフォーマンスを発揮することを発見しました。また、現在の検出アルゴリズムは、ChatGPTの応答をAI生成ではなく人間が生成したものと誤って識別することがよくあります。さらに悪いことに、難読化攻撃により、これらのアルゴリズムは無意味になり、ChatGPTの応答の95%が欠落します。最後に、学生たちの間でChatGPTを学術的な仕事に利用することに合意が見られ、教員たちはそれを盗作として扱うことになるとのことです。これらの2つの間には本質的な緊張関係があるため、教育機関は生成型AI全般および特にChatGPTに対して受け入れ可能な学術的誠実性の規制を整備する必要があります。生成型AIの時代において、彼らの調査結果は教育改革に関する政策議論に向けられる現代的な洞察を提供しています。

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル（LLM）の一部の例です。インコンテキスト学習、コード作成、常識的な推論といった新しいスキルが表示されます。最近の取り組みは、LLMを視覚と言語のデータを同時に処理できるようにトレーニングすることです。GPT4、Flamingo、PALIは、VLMの3つの優れた例です。それらは、ピクチャーキャプショニング、ビジュアルクエスチョンアンサリング、オープンボキャブラリ認識などの多くのタスクにおいて新たな基準を確立しました。最先端のLLMは、テキスト情報検索に関するタスクで人間よりも優れた成績を収めますが、最先端のVLMは、Infoseek、Oven、OK-VQAなどの視覚情報検索データセットに苦戦しています。さまざまな理由から、現在の最先端のビジョン言語モデル（VLM）は、そのような問い合わせに十分な応答をすることは困難です。子供たちは、画像の細かいカテゴリや詳細を認識することを学ぶ必要があります。第二に、彼らの推論はより堅牢でなければなりません、なぜなら彼らは最新の大規模言語モデル（LLM）よりも小さい言語モデルを使用しているからです。最後に、彼らは画像検索エンジンとは異なり、さまざまなメタデータでタグ付けされた大量の画像コーパスとクエリ画像を調べません。この研究では、カリフォルニア大学ロサンゼルス校（UCLA）とGoogleの研究者が、LLMと3つの異なるタイプのツールを統合することで、視覚情報検索のタスクで最先端のパフォーマンスを実現する新しいアプローチを提供しています。視覚情報抽出を支援するコンピュータプログラムには、オブジェクト検出器、光学文字認識ソフトウェア、ピクチャーキャプショニングモデル、視覚品質評価ソフトウェアが含まれます。外部の世界に関するデータと情報を発見するためのオンラインリソース視覚的に関連する画像のメタデータをマイニングして、画像検索の関連結果を見つける方法。この手法では、LLMによって駆動されるプランナーが、必要なツールとそれに送信するクエリを動的に決定するために使用されます。さらに、研究者は、LLMによって結果を調べ、関連するデータを引き出すためにLLMによって駆動されるリーズナーを使用します。まず、LLMはクエリを戦略、プログラム、または一連の命令に単純化します。その後、適切なAPIを活性化してデータを収集します。このアプローチは、単純な視覚言語の課題では有望ですが、より複雑な現実のシナリオでは改訂が必要です。このような初期のクエリから包括的な戦略を決定することはできません。代わりに、進行中のデータに応じて継続的な反復を必要とします。現場での意思決定能力が提案された戦略の主要なイノベーションです。視覚情報を必要とする質問の計画は、課題の複雑さのため、複数のステップで行われます。プランナーは、各段階でどのAPIを使用するか、どのクエリを提出するかを決定する必要があります。画像検索などの高度なAPIの回答の有用性を予測することしかできず、それらを呼び出した後の出力を予測することしかできません。したがって、研究者は、アップフロントのプロセス段階とAPI呼び出しの計画を含む従来の方法ではなく、ダイナミックな戦略を選択します。研究者は、APIとのやり取りで人々がどのように選択を行うかを理解するためのユーザースタディを実施します。この情報を体系的なフレームワークにまとめることで、大規模言語モデル（LLM）がAPIの選択とクエリの作成を決定するための根拠を提供します。収集されたユーザーデータがシステムにもたらす2つの主な利点があります。まず、ユーザーアクションの順序を推論して遷移グラフを構築します。このグラフは、状態間の境界と各状態で実行できる手順を定義します。第二に、プランナーとリーズナーに有用なユーザーの意思決定の具体例を提供します。主な貢献チームは革新的なビジュアルクエスチョンアンサリングフレームワークを提案し、大規模言語モデル（LLM）を使用して外部ツールの動的な戦略立案とその出力の調査を行うことで、質問に対する回答を提供するために必要な知識を学習します。チームは人々が意思決定を行う方法に関するユーザースタディからの知見を活用して、体系的な計画を作成します。このフレームワークは、大規模言語モデル（LLM）に、APIの選択とクエリの構築において人間の意思決定を模倣するよう指示します。この戦略は、知識ベースのビジュアルクエスチョンアンサリングの2つのベンチマークであるInfoseekとOK-VQAで、最先端のソリューションを上回っています。特に、PALIのInfoseek（未知のエンティティ分割）データセットでの16.0％の正答率に対して、私たちの結果は50.7％と大幅に高いです。 APIとその他のツール AVIS（Autonomous Visual Information Seeking with Large Language Models）は、適切な詳細な情報検索を必要とする視覚的な問い合わせに応えるために、堅牢なリソースセットが必要です。画像キャプションモデル視覚的な質問応答モデル物体検出…

「AIチップスタートアップのd-Matrixが投資家から1億1000万ドルを調達」

AIチップスタートアップのd-Matrixは、Microsoftなどの著名な投資家から1億1000万ドルを調達しましたこれは、他のチップ企業が資金調達に苦労している時期に行われたものですロイターによると、シンガポールのTemasekを中心に行われたこのスタートアップのシリーズBの資金調達ラウンドで行われました

「マイクロソフトが新しいAI搭載スマートバックパックに特許を申請」

5月に、マイクロソフトは特許を申請し、ウェアラブルテクノロジーを一新することを目指していますこの新しいスマートバックパックは、AIをサポートする技術において可能なことを拡大することを目指しています想像できるように、この技術の目標は、シームレスな統合です...

「Pandas 2.1の新機能」

pandas 2.1は2023年8月30日にリリースされましたこのリリースで導入された内容と、pandasのワークロード改善にどのように役立つのかを見てみましょう多数の改善が含まれていますが、…

「LangchainなしでPDFチャットボットを構築する方法」

はじめに Chatgptのリリース以来、AI領域では進歩のペースが減速する気配はありません。毎日新しいツールや技術が開発されています。ビジネスやAI領域全般にとっては素晴らしいことですが、プログラマとして、すべてを学んで何かを構築する必要があるでしょうか？答えはノーです。この場合、より現実的なアプローチは、必要なものについて学ぶことです。ものを簡単にすると約束するツールや技術がたくさんありますが、すべての場合にそれらが必要というわけではありません。単純なユースケースに対して大規模なフレームワークを使用すると、コードが肥大化してしまいます。そこで、この記事では、LangchainなしでCLI PDFチャットボットを構築し、なぜ必ずしもAIフレームワークが必要ではないのかを理解していきます。学習目標 LangchainやLlama IndexのようなAIフレームワークが必要ない理由フレームワークが必要な場合ベクトルデータベースとインデックス作成について学ぶ PythonでゼロからCLI Q&Aチャットボットを構築するこの記事は、Data Science Blogathonの一環として公開されました。 Langchainなしで済むのか？最近の数ヶ月間、LangchainやLLama Indexなどのフレームワークは、開発者によるLLMアプリの便利な開発を可能にする非凡な能力により、注目を集めています。しかし、多くのユースケースでは、これらのフレームワークは過剰となる場合があります。それは、銃撃戦にバズーカを持ってくるようなものです。これらのフレームワークには、プロジェクトで必要のないものも含まれています。Pythonはすでに肥大化していることで有名です。その上で、ほとんど必要のない依存関係を追加すると、環境が混乱するだけです。そのようなユースケースの一つがドキュメントのクエリです。プロジェクトがAIエージェントやその他の複雑なものを含まない場合、Langchainを捨ててゼロからワークフローを作成することで、不要な肥大化を減らすことができます。また、LangchainやLlama Indexのようなフレームワークは急速に開発が進んでおり、コードのリファクタリングによってビルドが壊れる可能性があります。 Langchainはいつ必要ですか？複雑なソフトウェアを自動化するエージェントを構築したり、ゼロから構築するのに長時間のエンジニアリングが必要なプロジェクトなど、より高度なニーズがある場合は、事前に作成されたソリューションを使用することは合理的です。改めて発明する必要はありません、より良い車輪が必要な場合を除いては。その他にも、微調整を加えた既製のソリューションを使用することが絶対に合理的な場合は数多くあります。 QAチャットボットの構築 LLMの最も求められているユースケースの一つは、ドキュメントの質問応答です。そして、OpenAIがChatGPTのエンドポイントを公開した後、テキストデータソースを使用して対話型の会話ボットを構築することがより簡単になりました。この記事では、ゼロからLLM Q&A…

VoAGIニュース、9月6日：VoAGIの30周年おめでとうございます！ • 5つのステップでPythonデータ構造を始めよう

「VoAGI設立30周年おめでとうございます！• 5つのステップでPythonデータ構造を始めよう • VoAGI設立30周年記念グレゴリー・ピアテツキー・シャピロ創設者インタビュー」

NEWS

「Open Interpreterに会ってください：OpenAIのコードインタプリタのオープンソースのローカル実行実装」

プログラミングとソフトウェア開発の絶え間ない進化の中で、効率的で柔軟かつアクセスしやすいツールへの需要はこれまでになく高まっています。開発者は、ホストされたサービスによって課せられる制約によって制約されることなく、ローカル開発環境内でシームレスに作業できるソリューションを求めています。本記事では、これらの課題に対する画期的な解決策である「Open Interpreter」について探求します。 OpenAIのGPT-4を使用したCode Interpreterは、ゲームチェンジャーではありますが、特定の制約を伴います。OpenAIのソリューションはホストされており、制御されたリモート環境で動作するため、開発者はローカルセットアップに対する制御を制限されます。インターネットアクセスがない、インストールされる予め定められたパッケージの数に制限がある、最大アップロードサイズが100 MB、ランタイム制限が120秒などの注目すべき制約があります。環境が終了すると、生成されたファイルやリンクは失われるため、長時間のタスクには不便です。 Open Interpreterは、ホストされたサービスに関連する制限を回避しながら、開発者がコンピュータのフルポテンシャルを引き出せるようにするものです。 Open Interpreterは、コンテンツ作成；写真、ビデオ、PDFなどさまざまな形式のコンテンツの簡単な作成と編集を可能にします。開発者はChromeブラウザの制御を取り、効率的なリサーチと自動化を実現することができます。Open Interpreterは、データ関連のタスクをスムーズに処理し、ユーザーが情報に基づいた意思決定を行うための大量のデータセットのプロット、クリーニング、分析を可能にします。 Open Interpreterは、インタラクティブなチャット機能とプログラムによるチャット機能の両方を提供しています。ユーザーは、ターミナルで「interpreter」と実行することでインタラクティブなセッションを開始し、Open Interpreterとの会話を開始することができます。より正確な制御をするために、開発者はタスクとワークフローをスクリプト化し、メッセージを直接Interpreterに送信することができます。Open Interpreterは、システムメッセージを検査および設定することで柔軟性を提供します。このカスタマイズにより、機能が拡張され、権限が変更され、個々の好みやプロジェクトの要件に合わせてコンテキストが追加されます。 Open Interpreterは、ローカル開発環境の領域において大きな飛躍を表しています。その優れた機能により、開発者はホストされたサービスの制約から解放され、効率的かつ柔軟に作業することができます。Open Interpreterを信頼できるパートナーとして活用し、ソフトウェア開発の未来を受け入れ、ローカル開発の旅で新たな地平を開拓してください。

Learn more about Search Results A - Page 233