LLMsによる非構造化データから構造化データへの変換
Converting unstructured data to structured data with LLMs.
スポンサードポスト
著者:Michael Ortega および Geoffrey Angus 大規模言語モデルを使用して非構造化ドキュメントから洞察を抽出する方法を学ぶには、今後のウェビナーに登録してください。 ChatGPT のおかげで、チャットインターフェースは、LLMs とのユーザーの対話方法のほとんどをカバーしています。これは、幅広い生成ユースケース(例:ChatGPT がブログを書くには何人のエンジニアが必要かをジョークで教えてください)にとって、高速で直感的で楽しいですが、このインターフェースには基本的な制限があり、実稼働環境に適用することができません。
- 遅い – チャットインターフェースは、低レイテンシーの体験を提供するように最適化されています。このような最適化は、スループットを犠牲にすることがあり、大規模な分析ユースケースには適していません。
- 不正確 – たとえ専用のプロンプト反復を数日間行ったとしても、LLMs は簡単な質問に対して冗長な回答を提供しやすく、このような回答はチャットのような対話で人間に理解しやすい場合がありますが、より広範なソフトウェアエコシステムで解析することはより困難です。
- 分析のサポートが限られている – プライベートデータに接続されていても(埋め込みインデックスまたはその他の方法を介して)、チャットに展開されたほとんどのLLMsは、データアナリストが通常行う質問の多くのクラスに必要なすべてのコンテキストを取り込むことができません。
実際には、これらのLLMパワードの検索およびQ&Aシステムの多くは、大規模なプロダクショングレードの分析ユースケースに最適化されていません。
正しい方法:LLMsを使用して非構造化データから構造化された洞察を生成する
あなたが多数の財務ドキュメントを持つポートフォリオマネージャーであると想像してください。次の質問をしたいと思います。「これらの10の見込み投資のうち、2000年から2023年までの期間に各社が達成した最高の収益は何ですか?」専用のデータを取得するインデックス検索システムに接続されたLLMでも、このような質問に答えるのは困難です。
- データサイエンスプロジェクトでのハードコーディングをやめましょう – 代わりに設定ファイルを使用しましょう
- このAI論文は、自律走行車のデータセットを対象とし、コンピュータビジョンモデルのトレーニングの匿名化の影響を研究しています
- Btech卒業後に何をすべきですか?
幸いなことに、より良い方法があります。LLMを使用して、単一の大規模バッチジョブを介して非構造化ドキュメントを構造化されたテーブルに変換することで、コーパス全体にわたる質問により速く答えることができます。このアプローチを使用すると、上記の金融機関は、定義されたスキーマを使用して、大量の財務PDFから構造化データをテーブルに生成できます。次に、チャットベースのLLMでは苦戦するようなポートフォリオの主要な統計情報を迅速に生成できます。
さらに、派生した構造化データを使用してタスク固有のMLモデルを新しく構築することもできます(例:これらの10のリスク要因に基づいて、どの企業が最もデフォルトする可能性が高いですか)。このより小さなタスク固有のMLモデルは、チャットベースのLLMと比較して、より良い性能を発揮し、実行コストが低くなります。
LLMsを使用してドキュメントから構造化された洞察を抽出する方法を学ぶ
- 大量のPDFから抽出するデータのスキーマを定義する
- カスタマイズしてオープンソースのLLMsを使用して、ソース引用を含む新しいテーブルを構築する
- 抽出したデータを可視化して予測分析を実行する
Q&A中にライブで質問する機会があります。場所を保存してください
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- MetaのAIが参照メロディに基づいて音楽を生成する方法
- Voxel51 は、コンピュータビジョンデータセット分析のための Python コードを生成するために GPT-3.5 の能力を活用する AI アシスタントである VoxelGPT をオープンソース化しました
- Netflix株の時系列分析(Pandasによる)
- データサイエンティストとは具体的に何をする人なのでしょうか?
- PatchTST 時系列予測における画期的な技術革新
- レトロなデータサイエンス:YOLOの最初のバージョンのテスト
- SeabornとMatplotlibを使用して美しい年齢分布グラフを作成する方法(アニメーションを含む)