Search Results 報告書

AIが医療費を削減するのにどのように役立つのか？

「医療業界ほど財政的な援助を必要としている産業はほとんどありません診断機器、医療用品、薬物療法の高いコストに加えて、医療センターの電気と水道代もすぐに膨れ上がりますこれらの請求はしばしば患者に転嫁され、彼らに膨大な医療負債を残してしまいますAIはおそらく…」

オープンAIは、人工汎用知能への追加資金を推進しています

オープンAIのCEO、サム・オルトマンは、フィナンシャル・タイムズのインタビューによると、人工知能全般への追加の資金提供を推進していますこれの目標は、人間の知能に匹敵するかそれを上回る可能性があるAIを作成することですAIスタートアップへの重要な投資家であるマイクロソフトは、すでに...

ファイデムのチーフ・プロダクト・オフィサー、アルパー・テキン-インタビューシリーズ

アルパー・テキンは、FindemというAI人材の獲得と管理プラットフォームの最高製品責任者（CPO）ですFindemのTalent Data Cloudは、最も先進的な人材データに基づいて構築されています市場の動向と同じくらい速く学習し、あなたのチーム全体に対して比類のない人材インテリジェンスを提供します以前は連続起業家として活動し、創業者兼CEOとして活躍していました[…]

「AIの力による消費者の支払い行動予測」

「AIが予測能力を活用して消費者の支払行動を理解し、予測する方法を発見し、事業に行動可能な洞察を提供する」

AI倫理の役割：革新と社会的責任のバランス

「人工知能は急速に拡大している分野を表しており、AIが引き起こす倫理的なジレンマを認識することが重要です」

UCSDの研究者が、チューリングテストでのGPT-4のパフォーマンスを評価：人間のような欺瞞とコミュニケーション戦略のダイナミクスを明らかにする

GPT-4はUCSDの研究者グループによってインターネット上の一般的なチューリングテストで試験されました。最も優れたGPT-4のプロンプトは、ゲームの41％で成功しました。これはELIZA（27％）、GPT-3.5（14％）および無作為なチャンス（63％）によって提供されたベースラインよりも良い結果でしたが、まだ完全な性能ではありません。チューリングテストの結果によれば、参加者は主に言語スタイル（合計の35％）とソーシャル・エモーショナルな特性（合計の27％）で判断されました。参加者の教育レベルやLLM（Large Language Models）への事前の経験は、彼らが詐欺を見破る能力を予測するための要因ではありませんでした。これは、そのような問題に精通している人々であっても、トリックに対して脆弱である可能性があることを示しています。チューリングテストは知性の尺度としては広く批判を受けていますが、カリフォルニア大学サンディエゴ校の2人の研究者は、それが即興のコミュニケーションと詐欺の尺度として有用であると主張しています。彼らは人間と見なすことができる人工知能モデルを持っており、これには広範な社会的影響があるかもしれません。したがって、彼らは人間らしさを決定するためのさまざまな方法論と基準の効果を調査しています。チューリングテストは知性への感度に関する論争とは関係なく興味深いものです。まず、テストされている能力、つまりシステムが対話者を人間だと思わせることができるかどうかを分析することが重要です。チューリングテストは、そのような能力の開発をモデルで監視するための信頼性のある方法を提供します。さらに、モデルのサイズや性能、プロンプト戦略、リアルタイム情報へのアクセスなどの補助的なインフラストラクチャ、およびインタラクティブのレベルなど、嘘をつくことに関与するさまざまな側面についても学ぶことができます。また、チューリングテストは、機械が人間らしく見えるという一般的な認識を調査するための研究ツールとしても使用できます。機械のパフォーマンスが評価されますが、人間の参加者の文化的、倫理的、心理的な前提条件も調査されます。インタラクティブが質問を作成し、洗練された質問を行う過程で、インタラクターが人間であると考える属性に関する基本的な意見が明らかにされます。チューリングテストは、1人の尋問者と1人の証人によって変更され、証人が人間か人工知能かを判断します。これはチューリングの最初の3人の公式とは異なりますが、各ゲームに複数の人間参加者をオンラインで必要としないため、かなり一般的になりました。彼らはOpenAI APIを使用して、ユーザーからの質問に答えることができる25のLLM証人を開発しました。各LLM証人は温度設定（0.2、0.5、または1.0）、モデル（GPT-3.5またはGPT-4）、およびプロンプトを持っていました。報告書は状況を説明し、エージェントに具体的な指示を与えました。チャットアプリのユーザーインターフェースは、標準的なメッセージングサービスに似せて作られました。尋問者が最初のメッセージを送信し、各ユーザーは同時に1つのメッセージのみを送信することができました。各通信は最大300文字で、総討論時間は5分でした。テキストボックスに貼り付けることは制限され、侮辱的なメッセージを防止するためにコンテンツフィルタが適用されました。画面の右上隅にはカウントダウンタイマー、指示オーバーレイを表示するボタン、および侮辱的な人々を報告するためのフォームがあります。尋問者は意思決定インターフェースを使用して、以下の情報を提供しました： i）判決（機械または人間の証人） ii）正しい判断を下したことにどれだけ確信しているか（0〜100） iii）選択の理由（自由形式の言語）制約事項オープンでオンラインの実験としての性質上、この研究にはいくつかの欠点があり、その結果は確かとは言えません。まず、サンプルがコミュニティの代表的なものよりも反映されている可能性があります、なぜなら参加者はソーシャルメディアを通じて募集されたからです。また、参加者にはインセンティブが必要でした。したがって、尋問者や証人が最善を尽くした可能性があります。人間の証人は人工知能のように振る舞って「トローリング」しています。一部の調査員はこのような行為を人間の判決の正当化として使用しました。したがって、結果は人間のパフォーマンスを過小評価し、AIのパフォーマンスを過大評価している可能性があります。第三に、一部の尋問者は証人に関する事前知識を持っていたことを認めています。要約すると- チューリングテストは知能の不完全な指標としてしばしば非難されてきました。これは、あまりにも評価が明らかであったために、研究者が人間のパフォーマンスを過大評価した可能性があります。最後に、一度に1人のオンラインユーザーしかいなかったため、彼らは頻繁に同じ人工知能の証人とペアリングされました。その結果、人々は特定の証言がAIであるという固定観念を持つ可能性があり、全体的に低いSR結果につながる可能性があります。このバイアスは、1人の尋問者が3回以上連続してAIと対戦したゲームを削除することで対抗する努力があったにもかかわらず、結果に影響を与えたでしょう。最後に、利用可能なプロンプトの一部のみが使用され、それらは実際の人々がゲームとどのように対話するかを知らない状態で開発されました。結果は、より効果的なプロンプトが存在するため、チューリングテストでのGPT-4の潜在的なパフォーマンスを過小評価しています。

DISC-FinLLMとは、複数の専門家のファインチューニングに基づいた中国の金融大規模言語モデル（LLM）です

“` 人工知能の分野で最大の進歩は、大規模言語モデル（LLM）の導入です。これらの自然言語処理（NLP）ベースのモデルは、大きく複雑なデータセットを処理するため、金融業界では独自の課題に直面しています。金融テキストの要約、株価予測、財務報告書の作成、ニュースの感情分析、金融イベントの抽出の分野では、従来の金融NLPモデルが進化しています。金融データの量と複雑さが増えるにつれて、LLMは人間によるラベル付けされたデータの不足、金融に特化した専門知識の不足、複数のタスクの難しさ、数値計算の制約、リアルタイム情報の扱いの難しさなど、多くの課題に直面しています。GPT-4などのLLMは、強力な対話能力、コマンドの理解力、指示に従う能力で有名です。ただし、中国の金融市場などの産業において、LLMは金融業界に対する深い理解が不足しており、さまざまなユーザータイプと状況設定に適したオープンソースの中国金融LLMの開発は重要です。この問題に対処するため、研究チームはDISC-FinLLMという包括的な中国金融LLMの作成方法を導入しました。この手法の主な目的は、LLMに金融テキストを生成・理解する能力を持たせ、金融問題についてのマルチターンの対話を行い、プラグイン機能を介して金融モデリングや知識強化システムを支援することです。研究チームは、DISC-FIN-SFTと呼ばれる教師付きの指示データセットも開発しました。このデータセットの主なカテゴリは以下の通りです。金融コンサルティングの指示：これらの指示はオンライン金融フォーラムや金融Q&Aデータセットから開発されました。金融に関する問い合わせに答えたり、ガイダンスを提供したりすることを目的としています。金融タスクの指示：これらの指示はさまざまな金融業務のサポートに役立ちます。自己構築および利用可能なNLPデータセットから抽出されています。金融計算の指示：これらの指示は金融統計や計算、モデリングの問題の解決策を扱っています。リトリーバル強化の指示：これらの指示は知識検索を容易にします。金融テキストから構築され、質問、参照情報、回答が生成されています。研究チームは、DISC-FIN-SFT指示データセットがDISC-FinLLMの構築の基礎であることを公開しています。このモデルは、Multiple Experts Fine-tuning Framework（MEFF）を使用して構築されたLow-rank adaptation（LoRA）モジュールを4つ使用してトレーニングされています。金融のマルチラウンド対話、金融NLPジョブ、金融計算、リトリーバルに関する質問応答など、これらのモジュールはさまざまな金融シナリオに対応できるように作られています。これにより、システムは学生、開発者、金融専門家などの関連するユーザーグループにさまざまなサービスを提供することができます。この特定のバージョンでは、DISC-FinLLMの基礎となるのは一般ドメインの中国語のLLMであるBaichuan-13Bです。研究者たちは、DISC-FinLLMの評価のために複数のアセスメントベンチマークを実施しています。実験結果は、DISC-FinLLMがすべての下流タスクで基礎モデルよりも優れたパフォーマンスを発揮することを示しています。MEFFアーキテクチャの利点によって、モデルがさまざまな金融シナリオやジョブで優れたパフォーマンスを発揮できるようになっています。 “`

「生成型人工知能の新たな倫理的意味合い」

ジェネレーティブAIの急速な進歩は、データ、スケール、責任、著作権、そして情報の誤りのリスクに対する緊急の倫理的な保護策が必要です

Artificial Intelligence

この中国のAIモデル、Baichuan2-192kモデルはChatGPTやClaude2を超えることができるのか？最長のコンテキストモデルを持つBaichuan Intelligentが公開した、この中国のスタートアップ「Baichuan Intelligent」のモデルに会いましょう

AIの優位性を争う中で、中国のAIスタートアップ、百川インテリジェントが最新の大容量言語モデル、百川2-192Kを発表し、長文プロンプトの処理において新たな基準を設定しました。この開発は、中国がグローバルなAIのランドスケープにおいて先駆者としての地位を確立する意気込みを示しています。小説や法的文書、財務報告書など、大量のテキストプロンプトを扱うAIモデルへの需要が高まっています。従来のモデルは長文に苦戦することが多く、各業界でより強力で効率的な解決策が求められています。現在、AIのランドスケープはOpenAIやMetaなどの西洋の巨大企業によって支配されており、彼らは絶えず革新的で洗練されたモデルをリリースしています。百川インテリジェントの新作、百川2-192Kは、これらの確立されたプレイヤーに挑戦します。百川インテリジェントは、搜狗の創設者である王小川が起業した会社であり、画期的な大容量言語モデルである百川2-192Kを紹介しました。このモデルは、「コンテキストウィンドウ」という素晴らしい機能を搭載しており、一度に約35万文字の中国語の処理が可能です。比較すると、OpenAIのGPT-4-32kを14倍、AmazonがバックアップするAnthropicのClaude 2を4.4倍上回り、長文プロンプトの取り扱いに強力なツールとなっています。百川2-192Kの主な革新点は、広範なテキストをシームレスに処理できる能力にあります。このモデルは小説の要約や品質の高い応答、長文の理解などに優れており、カリフォルニア大学バークレー校などの米国の機関が主導するプロジェクトであるLongEvalのテスト結果によって実証されています。このモデルの素晴らしいコンテキストの長さは、パフォーマンスを損なうことなく、動的な位置エンコーディングと分散トレーニングフレームワークの技術的な革新によって実現されています。百川2-192Kの優れた能力は、法律、メディア、金融などの産業において不可欠なツールとなっています。長文の処理および生成能力は、これらのセクターにおいて重要です。ただし、より多くの情報を処理できる能力が必ずしも他のモデルよりも優れているとは限らないことに留意することも重要です。これに関しては、スタンフォード大学とUCバークレーの共同研究でも指摘されています。百川インテリジェントのAIセクターでの急速な台頭は、設立からわずか6か月でユニコーンクラブへの参加を果たすなど、中国がAI技術の可能性を広げることへの取り組みを示しています。現在、アメリカの企業がAIハードウェアとソフトウェアでリードを占めていますが、百川の積極的な戦略と技術革新は、AIの進化するランドスケープを示しています。百川2-192Kの発表は、AIの優位性を争う競争が終わりを告げたわけではなく、中国が西洋の巨大企業の支配に挑戦する意欲を示しています。百川2-192Kは、特に長文プロンプトの取り扱いにおいてAI技術の可能性の限界を押し上げる画期的なモデルです。その優れたコンテキストの長さと品質の高い応答は、さまざまな産業にとって貴重なツールとなります。

「UMDが主導する研究がモンゴメリー郡の起訴データダッシュボードを支える」

メリーランド大学の研究者が、モンゴメリー郡検察官事務所を支援し、州初の起訴データダッシュボードを導入し、事件の処理方法を明確にしました

Learn more about Search Results 報告書 - Page 5