ポッドキャストのアクセシビリティを向上させる:LLMテキストのハイライト化ガイド
ポッドキャストの視認性を向上するためのLLMテキストのハイライト化ガイド
イントロダクション
ポッドキャストを愛して、最高の部分を覚えておきたいと思ったけれど、音声だけでテキストがない場合、どうすればいいでしょうか? そこで、LLMや音声からテキストへの翻訳などの便利なツールが登場します。 これらのツールは、話された言葉を書かれたノートに魔法のように変換し、簡単に重要なポイントをピックアップして便利な箇条書きを作成します。 そのため、お気に入りのポッドキャストの瞬間は、転写まであと一歩! 2022年11月の最初のデビュー以来、LLMは大流行しています。LLMはさまざまなタスクに使用でき、テキストの要約化は重要なアプリケーションです。 テキスト以外、オーディオやビデオなどの他のモードにも要約化できます。 LLMを使用してポッドキャストのアクセシビリティを向上させ、簡単に利用できる箇条書きのハイライトを生成したり、将来の参照のためにノートを取ることができます。
PaLM(Pathways Language LLM)は、2022年4月にGoogle AIによって確立された重要なLLMです。 今年の2023年3月、PaLM 2の第2バージョンがリリースされ、改良された最新バージョンとなりました。 優れたバイリンガル、コーディング、思考能力を持つことを目指しています。 PaLM 2 LLM APIの利点は、そのAPIが無料で利用できることです。 OpenAIのChatGPTとは異なり、他のLLMよりもパフォーマンスが向上し、推論能力も向上しています。
この記事では、PaLM 2 APIとMaker Suiteという2つのツールを使用して、シンプルなポッドキャストテキストハイライトを作成し、LLMモデルの設定を最適化する方法を学びます。 これらのツールの機能を理解し、使用できるさまざまなユースケースを理解しましょう。 さあ、始めましょう!
学習目標
- PaLMモデルとその機能を理解する。
- PaLMのモデル設定について学ぶ。
- ポッドキャストの音声の箇条書きの要約を生成するPythonプロジェクトを実装する。
この記事は、データサイエンスブログマラソンの一部として公開されています。
- 特徴選択にANOVAを使用しますか?
- WindowsアプリケーションにおけるハードウェアアクセラレーテッドAIをONNX RTを使用して実現する
- 『React開発の向上:ChatGPTの力を解き放つReact開発者』
PaLM 2の概要
PaLM 2は、パスウェイズメソッドを使用してブレイクスルーのパフォーマンスを達成するためにスケールされた5400億のパラメータを持つ巨大なNNモデルです。 PaLM 540Bは、さまざまな多段階の推論タスクにおいて現行の最先端を上回り、最新のBIG-benchベンチマークでは平均人間のパフォーマンスを上回りました。 単語やフレーズの関係を学び、それを異なるタスクで利用できます。
パスウェイズAIアーキテクチャ
パスウェイズは、既存のシステムの多くの弱点に取り組む新しいAIアーキテクチャの考え方です。 機械学習モデルは、多くの場合、1つのタスクに特化しすぎており、多くのタスクで優れたパフォーマンスを発揮できる場合があります。 このアーキテクチャの基本的な考え方は以下の通りです:
- 複数のタスク:数千もの異なるモデルを一からトレーニングする代わりに、同じモデルを使用し、新しいタスクを実行できる能力を拡張しようとします。
- マルチモーダル:パスウェイズは、視覚、聴覚、言語理解を包括したマルチモーダルモデルを同時に可能にします。 したがって、モデルが単語「ヒョウ」を処理している場合、誰かが「ヒョウ」と言っている音声、ヒョウが走っているビデオであっても、内部的には同じ応答がアクティベートされます:ヒョウの概念。 その結果、より洞察力のあるモデルとなり、間違いや偏りの少ないものとなります。
- スパースで効率的:私たちは、「スパース」に活動的な単一のモデルを作成することができます。つまり、ネットワーク内の一部のチャネルのみが必要に応じてアクティベートされます。 実際には、モデルはダイナミックにネットワークのどの部分が特定のタスクに適しているかを学習します。 すべてのアクティビティに完全なネットワークを使用しないため、このタイプのアーキテクチャは、さまざまなタスクの学習能力だけでなく、より高度で、より高速でエネルギー効率の良い特性を持っています。
PaLM 2の機能
PaLM 2は100以上の言語でトレーニングされており、専門レベルの言語能力試験に合格することができます。 これはパラメーターサイズで見ても2番目に大きなモデルであり、1兆パラメーターを持つGPT-4が最初です。 6kチップ(TPU v4)を2つのポッドまたはクラスタ上で効率的にトレーニングします。 PaLMは、デコーダーのみを使用した標準のトランスフォーマーモデルアーキテクチャを使用しています。
SwiGLU アクティベーション
SwiGLU アクティベーションは、ReLU、GeLU、または Swish よりも優れた性能品質を持つ中間 MLP 層で使用されます。 SwiGLU アクティベーションは従来のアクティベーション関数よりも効率的であり、また LLM の安定性を向上させるのにも役立ちます。 SwiGLU はゲートメカニズムを使用し、受け取る入力に基づいてニューロンを選択的に活性化することができます。これは過学習を減らし、汎化性能を向上させるのに役立ちます。 SwiGLU アクティベーション関数は以下のように定義される分段線形関数です:
SwiGLU(x) = max(x, 0) + min(α(x – ReLU(x)), 0)
ここで、x は関数への入力、ReLU(x) は正規化線形関数 (つまり、max(x, 0))、α は負の部分の関数の形状を制御する調整可能なパラメータです。
SwiGLU アクティベーション関数は、ニューラルネットワークの出力に貢献しない「死んだ」ニューロンを引き起こす可能性のある ReLU 関数の制約を解決するために設計されています。分段線形の負の傾斜を導入することで、SwiGLU 関数はこの問題を防ぎ、ニューラルネットワークの性能を向上させることができます。
パラレルフォーメーション
標準フォーメーションではなく、パラレルフォーメーションがすべてのトランスフォーマーブロックで使用されます。パラレルフォーメーションにより、より大規模なスケールで 15% 高速なトレーニングが可能になります。パラレルフォーメーションは、従来の LLM よりもはるかに高速にトレーニングすることができるようにする新しい LLM のトレーニング方法です。従来の LLM は単一の GPU 上でトレーニングされ、時間がかかる場合があります。パラレルフォーメーションにより、LLM を複数の GPU 上で同時にトレーニングすることができ、トレーニングプロセスを大幅に高速化することができます。以下は、パラレルフォーメーションがどのように機能するかの例です。独立した GPU 上で LLM を準備できるようにすることができます。データセットを 1000 のバッチに分割し、各バッチを別々の GPU でトレーニングできます。これにより、トレーニングプロセスが大幅に高速化されます。なぜなら、LLM を 1000 のバッチで同時に準備することができるからです。
マルチクエリアテンション
マルチヘッドアテンションでは、キー/値は1つではなく各ヘッドごとに共有され、自己回帰デコード時のコストを節約します。マルチヘッドアテンションでは、注意計算全体が h 回複製されますが、マルチクエリアテンションでは、クエリ値 Q の各 “ヘッド” に同じ K および V の変換が適用されます。インクリメンタル MQA で実行される計算量は、インクリメンタル MHA と似ています。重要な違いは、MQA でのメモリからのデータの読み書き量が減少していることです。
RoPE 埋め込み
Rotary Positional Embedding (RoPE) は、絶対的なアプローチと相対的なアプローチを統合し、優れた結果をもたらす新しい位置埋め込みの一種です。RoPE は、セルフアテンションを計算する際に「相対的な」トークンの位置を考慮します。トランスフォーマーは、トークンの順序に対して無知なセルフアテンションまたはクロスアテンション機構を使用します。つまり、モデルは入力トークンをシーケンスとしてではなくセットとして認識します。これにより、シーケンス内のトークンの位置に基づいたトークン間の関係についての重要な情報が失われます。これを緩和するために、位置エンコーディングにはトークンの位置に関する情報が直接モデルに埋め込まれます。
このタイプの位置埋め込みでは、回転行列を使用して自己アテンションの公式に明示的な相対位置の依存性を組み込みます。ロータリーエンベッディングは、単語の使用文脈をより良く理解するために自然言語処理において重要です。入力トークンの位置についてのより良い理解があるモデルは、より正確な予測ができます。たとえば、RoPE を使用する言語モデルは、「私はピザが大好きです」と「ピザは私が大好きなもの」が単語の位置によって異なる意味を持つことをより良く理解できます。相対的な位置づけの理解に基づいて、モデルはより微妙な予測を行うことができます。
偏りなし
密でレイヤー化された正規化には、偏りが適用されていません。これにより、大規模なモデルのトレーニングの安定性が向上します。これにより、LLMのトレーニング効率と安定性が向上し、冗長なパラメーターを削減し、スペース利用とスケーリングを増やすことができます。
モデルのバリエーション
Palmは、さまざまなサイズのモデルの多くの変種を提供しています。彼らは動物の名前やサイズに基づいてさまざまなモデルに名前をつけています。
- ゲッコウは最も小さくて最も高速なモデルで、オフラインの場合でもモバイルなどのエッジデバイスで動作します。
- カワウソ – ゲッコウよりも大きく、複雑なタスクを実行できます
- ユニコーンはカワウソよりも大きく、チャット、テキストなどに使用できます。
- バイソンは最も大きくて安定したPalmのモデルで、テキストチャットに広く使用されています。
モデルのパラメータ設定
モデルのパラメータを使用すると、プロンプトの変更や異なる応答の生成が可能になります。それぞれの設定について理解してみましょう。
温度
これはモデルの応答のランダムさに影響を与えます。1に近い高い温度では、より多様な出力と創造的な応答が得られます。一方で、0に近い低い温度では、製品の定義の乾燥したセットではなく、特定の単語の意味と使用法を理解する場合には、辞書の意味が必要です。革新的な記事やストーリーを書きたい場合は、温度を1に近く保つことができます。
トークン制限
トークンはテキストの断片を指し、モデルが処理できるテキストの量を制限します。より大きなトークン制限では、モデルは一度により広範な情報を取得できますが、制限が小さくなればモデルが処理できるトークンの量も制限されます。例えば、「Palm 2は一度に8,000トークンを入力できるようになりました」といった具体的な例があります。
Top – K
テキストを生成する際、モデルは現在の単語に続く可能性のある多くの単語を考慮に入れます。Top-kサンプリングでは、次の単語の選択肢を確率的に制限します。kの値が低いほど、コンテンツはより予測可能になりますが、高い値にするとより多様化します。
Top -p
これは単語を考慮する確率の閾値であり、出力の多様性を制御します。モデルは、確率がtop-pの値に達するまで、上位kの選択肢の中から次の単語を考慮し続けます。つまり、最も可能性の高い単語にだけ焦点を当てるのではなく、確率が合計でtop-pに達した場合にはより可能性の低い単語も受け入れることになります。これにより、より多様な出力が生成されます。確率が高いほど、より多様な組み合わせが生じます。
最大出力数
これは特定の入力に対して生成される出力の数を示します。モデルの応答の複数の出力を表示するかどうかを指定し、それに応じて使用する出力を考慮することができます。以下の画像では、同じ入力に対して2つの応答が得られる例を示しています。最大出力を2に設定した場合です。
ポッドキャストテキストハイライトのPython実装
1: ポッドキャストオーディオのダウンロード
このリンクを使用して、ポッドキャストのURLを貼り付けることで、任意のポッドキャストオーディオをダウンロードできます。ここでは、インディアンエクスプレスのポッドキャストURLを使用しています。
2: ライブラリのロードとインストール
!pip install openai-whisperimport whisper
3: オーディオをテキストに転写する
最初に、”tiny”モデルバリアントを使用し、次にスペルや文法に関してより優れた結果を提供する「base」バリアントを使用しました。2つのオーディオポッドキャストを転写します。
注意:上記のリンクからポッドキャストのmp3オーディオをダウンロードした後、それをColab環境のファイルにアップロードし、オーディオファイルのパスをtranscribe関数に貼り付けます。
# whisperモデルの読み込みwhisper_model = whisper.load_model("base")# オーディオを転写するdef transcribe(file_path: str) -> str: # `fp16`は`True`がデフォルトで、モデルがGPU上で実行しようとすることを示します。 # 今回は`False`に設定してCPU上で実行します。 transcription = whisper_model.transcribe(file_path, fp16=False) return transcription['text'] transcript = transcribe('/content/CATCH-UP-2023-10th-October-v1.mp3')print(transcript)
出力
#OUTPUTこれはインディアンエクスプレスの3つの記事のキャッチアップです。私はフローラ・スワインです。今日は10月10日で、以下に見出しを紹介します。ハマスの攻撃から4日後、イスラエル軍はガザの国境の制御を取り戻したと述べました。予想される報復を思い起こさせるため、人々には近隣のエジプトに避難するよう警告しました。イスラエル軍はまた、イスラエル領内で1500人のハマス戦闘員の遺体の発見を報告しました。現在の紛争では、約1600人が命を落とし、イスラエルでは900人、ガザでは約700人の犠牲者が出ています。一方、ナレンドラ・モディ首相はイスラエル首相ベンヤミン・ネタニヤフと話をしたことを明らかにし、インドがイスラエルと固く立っていること、そしてテロリズムをあらゆる形態で毅然と非難していることを保証しました。インドの最高裁判所長官D.Y.チャンドラチュードは、最高裁判所の役割は国内で発生する問題を細かく管理することではないと述べました。彼は地域の問題は各州高等裁判所の管轄に委ねるべきだと強調しました。彼は3人の裁判官のベンチを主宰していました。 CGIは、象使いエレファントに関連する問題について言及し、裁判所としてのより広範な機能的な理解が必要だと述べました。最高裁判所の役割は国内全体で発生する問題の細かい管理ではありません。テロ組織ラシュカレロバクの関係者2人が、ソビエト・ジャマンカシミール地区の治安部隊との交戦で殺害されました。治安部隊は、過激派の存在に関する情報に基づいてアルシプラ地区で対過激派作戦を開始したことで交戦が発生しました。病気の過激派は、モリファト・マグブルとジャジム・ファレックと特定されています。チンターヌバッダイは、2015年に離婚妻であるヘマ・オバダイの殺害を共謀し扇動した罪で終身刑にされました。地方裁判所は、同様に被告3名であるヴィジャイ・ラージヴァハール、プラディープ・ラージヴァハール、シヴクマ・ラージヴァハールにも終身刑の判決を下しました。土曜日には、検察当局はこれら4人全員に対して死刑を求刑しました。ICCメンズワールドカップ2023では、2試合が予定されています。パキスタンはスリランカをハグラドワドワルバングラデシュと対戦し、イングランドはハマルシャラで対戦します。他のワールドカップのニュースでは、ニュージーランドがダッチを破り、大会で2連勝を収めました。彼らは前回のトーナメントオープナーで守備チャンピオンのイングランドに勝利して、ポイントテーブルのトップに立ちました。これはインディアンエクスプレスによる3つの要点でした。
4- メーカースイートを使用して要約を生成する
今度は、このポッドキャストの要約をトレーニング用の入力として使用し、そのサンプルモデルの応答を独立して準備し、他のものをテスト用の入力として使用します。このサイトに移動して、箇条書きの要約を生成します。
要約を生成するためにモデルのパラメータ設定を調整します。
5: メーカースイートを使用してコードを生成する
Palm APIのAPIキーを使用してコードを生成します。私たちは、このサイトから独自のAPIキーを生成しました。
"""コマンドラインで、一度だけ実行してパッケージをpipでインストールします:$ pip install google-generativeai"""import google.generativeai as palmpalm.configure(api_key="APIキー")defaults = { 'model': 'models/text-bison-001', 'temperature': 1, 'candidate_count': 1, 'top_k': 40, 'top_p': 0.95, 'max_output_tokens': 1024, 'stop_sequences': [], 'safety_settings': [{"category":"HARM_CATEGORY_DEROGATORY","threshold":4},{"category":"HARM_CATEGORY_TOXICITY","threshold":4},{"category":"HARM_CATEGORY_VIOLENCE","threshold":4},{"category":"HARM_CATEGORY_SEXUAL","threshold":4},{"category":"HARM_CATEGORY_MEDICAL","threshold":4},{"category":"HARM_CATEGORY_DANGEROUS","threshold":4}],}Sentence = "これはインディアンエクスプレスの3つの情報についての追いつくためのものです。私はフローラ・スウェインです。10月10日で、以下は見出しです。ハマスが攻撃した4日後、イスラエル軍はガザの国境の制御を取り戻したと述べました。報復が予想されることの忠告として、人口が隣国エジプトに逃げるように警告しました。イスラエル軍はまた、イスラエルの領土内で1500人のハマスの戦闘員の遺体の発見を報告しました。続いてゲリラ戦はおよそ1600人の命を奪い、イスラエルでは900人の死者、ガザでは約700人の死者を出しました。一方、ナレンドラ・モディ首相はXで演説し、インドがイスラエルと固く連帯しており、この困難な時期にインドはイスラエルを全面的に非難していることを述べました。インド最高裁判所のディーワンダイン・チャンドラチュード首席裁判官は、最高裁判所の役割は国内で発生する問題の詳細な管理ではなく、それらの地元の問題は各高等裁判所の管轄に委ねられるべきだと述べました。 CGIは、飼いならされた象に関連する件を審議する中で、このような言葉を述べました。「私たちは裁判所としてもっと広い機能的な理解を持たなければなりません。最高裁判所の役割は、国内で発生する問題の詳細な管理ではありません。」レシンクアッダリスには、Lashkaretayabahと関連する2人の武装勢力が交戦中で死亡しました。現場はJammun KashmirのSoapian地区でのゲリラ活動を受けて、治安部隊が反ゲリラ作戦を開始したことで発生しました。死亡した武装勢力は、Mureffat MaghbulとJasm Farukhとして確認されています。Hema Upadhyayとの離婚と殺人共謀への関与のため、Chintanubhadi Hayaは終身刑を宣告されました。セッション裁判所は、Vijay Rajpur、Pradeep Rajpur、Shivkumar Rajpurの3人の共同被告にも終身刑を科しました。土曜日、検察当局は4人全員に対して死刑を求刑しました。ICC男子ワールドカップ2023には、今日2試合が予定されています。パキスタンはハイデラバードでスリランカと対戦し、バングラデシュはハラムシャラでイングランドと対戦します。他のワールドカップニュースでは、ニュージーランドが競技会で2連勝し、前回の王者であるイングランドを破り、得点表のトップに立ちました。これはインディアンエクスプレスによる3つの情報の追いつきでした。"""prompt = f"""文を箇条書きのリストに変換する。文:これはインディアンエクスプレスの3つの情報についての追いつくためのもので、私はフローラ・スウェインです。10月11日で、以下は見出しです。ハマスの攻撃後、イスラエル軍は国境近くのポストで隣国から対戦車誘導ミサイルが発射されたことを受けて、レバノンで攻撃を行っていると述べました。報道によれば、国が近日中に地上侵攻の準備をしている間に、イスラエル・ガザ国境には大規模な軍隊が集結しました。この戦争でこれまでに2000人以上が命を失っています。最高裁判所は、10月9日に発表された命令に関して、AIMの当局がその明確化を求めたことについて深刻な例外を取りました。AIMの裁判所は、妊娠26週の胎児の中絶を許可するための女性の要求に関して医学の意見を求めた時点でなぜこれらの懸念が裁判所に伝えられていなかったのかを問いました。BVナガラトマ裁判官とHema Kohli裁判官からなる特別合議体も、その命令に対してセンターを厳しく叱責しました。サマジュワディ党の党首Akhilesh Yadavは、彼の誕生日にジェヤンエナールと国際センターに花輪を捧げる許可を得ることができませんでした。元UPCMは、センターに入ることを許可されなかった後、センターの境界壁を飛び越えて建物に入りました。彼が許可を得られなかったことで、アキレシュは現場でトラブルが発生し、警察が施設への侵入を阻止しようとしました。ケララの成人識字プログラムの看板娘K.R.Y.H.A. Ammaは、アラプウラの自宅で101歳で亡くなりました。彼女は2018年に、州の識字ミッションのフラッグシ最終出力
以下は私たちのポッドキャストの結果の出力です。スペリングやダラムサラ、ラシュカル・タイバなどの固有名詞など、ほとんどのコンテンツは正確です。
- イスラエル軍がガザの国境を制御し、住民に近隣のエジプトへの避難を警告しました。
- ナレンドラ・モディ首相がイスラエルのベンヤミン・ネタニヤフ首相と話しました。インドはテロを強く非難しています。
- 最高裁判事DYチャンドラチョードは、最高裁の役割は細かい問題を管理することではないと述べました。地元の問題は高等裁判所に任せるのが最善です。
- セキュリティ部隊との遭遇戦で、ラシュカル・タイバに関与した2人の武装勢力がJ&Kで殺害されました。
- 別居中の妻ヘマ・ウパダヒャエイを殺害するために賭け事と陰謀に関与したチンタヌバーディ・ハヤは終身刑を宣告されました。
- ICC男子ワールドカップ2023は今日2試合が予定されています。
- パキスタンはハイデラバードでスリランカに対戦し、バングラデシュはハラムシャッラでイングランドに対戦しています。
- ニュージーランドは競技で2勝目を挙げるためにオランダを下しました。
結論
強力なツールであるLLMは、他のツールと組み合わせて素早くプロトタイプを生成し、さまざまなLLMの使用例でテストや実験を行うことができます。LLMは非常に新しい技術であるため、その潜在的な使用と実装にはたくさんの試行錯誤が必要です。そのため、Maker Suiteのようなツールは、データサイエンスと分析のプロフェッショナルがアイデアをコード化するのに最小限の時間と労力をかけながら、データや他の重要な要素の微調整と改善に集中できるよう支援します。
キーポイント
- PALM 2 APIの基本的な概念とその特徴について学びました。
- また、さまざまなモデルパラメーターの設定や特定の目的のプロンプト出力に最適化する方法を理解しました。
- Google Maker Suiteツールのさまざまな側面を見て、LLMコードを生成するために活用しました。
- Whisper APIとPalm APIを使用して、関連性の高い正確なポッドキャストの箇条書きの要約を生成しました。
よくある質問
この記事に表示されているメディアはAnalytics Vidhyaの所有ではなく、著者の裁量で使用されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles