Search Results リポジトリ

パンダのGroupByを最大限に活用する

Pythonのpandasライブラリは、データの質問や操作に便利なツールが多数含まれており、その中でも強力なGroupBy関数がありますこの関数を使用すると、さまざまな観測値をグループ化することができます

「生成AIのためのモダンなMLOpsプラットフォーム」

ジェネレーティブAI用のモダンなMLOpsプラットフォームは、機械学習オペレーションの実践をジェネレーティブモデルの特徴とシームレスに統合します

エッジ上でのビジュアル品質検査のためのエンドツーエンドのMLOpsパイプラインの構築-パート1

「機械学習（ML）モデルの成功した導入は、エンドツーエンドのMLパイプラインに大きく依存していますこのようなパイプラインの開発は困難な場合もありますが、エッジMLユースケースを扱う場合はさらに複雑になりますエッジでの機械学習は、実行可能性をもたらす概念です...」

「FinBERTとSOLID原則を活用して感情スコアの正確性を向上させる」

このラボでは、PythonのJupyter Notebookを使用して、人気のあるFinBERT MLアルゴリズムを用いて市場のニュースの感情分析の正確性を向上させました

チャットモデルを幽霊がさまよっている – 不正なフォーマットの幽霊が！要約チャットモデルは、会話を単一のトークン可能な文字列に変換するための非常に異なるフォーマットで訓練されています。訓練されたフォーマットとは異なるフォーマットを使用すると、通常は重大な無音のパフォーマンス低下を引き起こしますので、訓練時に使用されたフォーマットとの一致は非常に重要です！Hugging Faceのトークナイザには、モデルが訓練されたチャット形式を保存するために使用できるchat_template属性があります。この属性には、会話履歴を正しくフォーマットされた文字列に変換するためのジンジャーテンプレートが含まれています。コードでチャットテンプレートを作成および適用する方法については、技術文書をご覧ください。導入もしも、🤗Transformersライブラリに詳しいのであれば、おそらく以下のようなコードを書いたことがあるはずです： tokenizer = AutoTokenizer.from_pretrained(checkpoint)model = AutoModel.from_pretrained(checkpoint) トークナイザとモデルを同じチェックポイントからロードすることで、モデルが期待する方法で入力がトークン化されることが保証されます。異なるモデルのトークナイザを選ぶと、入力のトークナイズは完全に異なる可能性があり、その結果としてモデルのパフォーマンスに重大な損傷が生じます。これをdistribution shift（分布シフト）と呼びます – モデルは一つの分布（訓練時に使用されたトークナイゼーション）のデータを学習しており、突然完全に異なる分布にシフトしたということです。モデルを微調整するか、推論に直接使用する場合、分布シフトを最小限に抑え、与えた入力を可能な限り訓練時と似たものにすることは常に良いアイデアです。通常の言語モデルでは、これを行うのは比較的容易です – トークナイザとモデルを同じチェックポイントからロードするだけで準備完了です。しかし、チャットモデルの場合は少し異なります。これは、「チャット」とは1つのテキスト文字列だけでシンプルにトークナイズできるものではなく、メッセージのシーケンスであり、各メッセージにはrole（役割）とcontent（メッセージの実際のテキスト）が含まれています。最も一般的なのは、ユーザーから送信されたメッセージに対しては「user」、モデルが書いた応答には「assistant」、さらにオプションで会話の開始時に与えられる高レベルの指示には「system」の役割を持たせることです。もしもこれが少し抽象的に感じられる場合、以下の例のチャットをご覧ください： [ {"role":…

「TRLを介してDDPOを使用して、安定したディフュージョンモデルを微調整する」

導入拡散モデル（例：DALL-E 2、Stable Diffusion）は、特に写真のような写真のリアルな画像を生成することで広く成功している生成モデルの一種です。ただし、これらのモデルによって生成される画像は常に人間の好みや意図と一致しているわけではありません。これが整合性の問題が生じます。つまり、「品質」といった人間の好みやプロンプトを介しては表現しにくい意図との整合性がモデルの出力と一致していることを確認する方法は何でしょうか？そこで、強化学習が登場します。大規模言語モデル（LLM）の世界では、強化学習（RL）はモデルを人間の好みに合わせるための非常に効果的なツールとして証明されています。それはChatGPTのようなシステムが優れたパフォーマンスを発揮するための主要なレシピの一つです。より具体的には、ChatGPTが人間のようにチャットするためのReinforcement Learning from Human Feedback（RLHF）の重要な要素です。 Blackらは、「Training Diffusion Models with Reinforcement Learning, Black」という論文で、拡散モデルをRLを活用して目的関数に対して微調整する方法を示しています。これはDenoising Diffusion Policy Optimization（DDPO）と呼ばれる手法を使用します。このブログ記事では、DDPOが生まれた経緯、その動作方法の簡単な説明、およびRLHFワークフローにDDPOを組み込んで人間の美意識により整合したモデルの出力を達成する方法について説明します。そして、新たに統合されたDDPOTrainerとtrlライブラリを使用してモデルにDDPOを適用する方法について、Stable Diffusionでの実行結果を検討します。 DDPOの利点 DDPOは、RLを使用して拡散モデルを微調整する方法に関する唯一の有効な回答ではありません。入る前に、他のRLソリューションとの利点の理解に関して覚えておくべき2つの重要なポイントがあります。…

「AWS Step Functionsで機械学習パイプラインをオーケストレーションする」

この記事では、AWS Step Functionsを使用して機械学習パイプラインを作成し、オーケストレーションする方法、およびインフラストラクチャとしてコードを使用してそれらを展開する方法について説明していますこの記事は、データとML Opsエンジニアを対象としています

強力なデータサイエンスポートフォリオを構築するための5つの無料プラットフォーム

５つの無料プラットフォームを利用して、リクルーターを魅了する魅力的なポートフォリオを作成しましょう！信じられないほど簡単なんです！

Career Advice

「コンテンツ戦略を開発するための最高のChatGPTプロンプト10選」

今日の競争力のあるデジタル市場では、強力なコンテンツ戦略は、独自性を打ち出し、強力なオンラインプレゼンスを確立したいビジネスにとって重要ですこれには、ただコンテンツを作り上げるだけでなく、作成プロセスを導く基盤となる戦略の緻密な作成も含まれますChatGPTは価値のあるツールとして浮かび上がってきました[…]

「LLMにおけるリトリーバル・オーグメンテッド・ジェネレーションについての深い探求」

「リトリーバル拡張型生成（Retrieval-Augmented Generation）を探求しましょうこのフレームワークは、大規模言語モデルを外部データソースとシームレスに統合し、幻覚やその他の一般的な欠点を排除します」

Learn more about Search Results リポジトリ - Page 33