OpenAIのWhisper APIによる転写と翻訳

Transcription and translation using OpenAI's Whisper API.

録音したものがたくさんあるけど、聞いて書き起こすエネルギーがなくなってしまったという経験はありませんか？私が学生だった頃、毎日何時間もの授業音声を聞いて書き起こしていたことを思い出します。さらに、私の母国語ではないため、Google翻訳に毎回文をドラッグしてイタリア語に変換しなければなりませんでした。

今では、手動の書き起こしと翻訳はただの思い出になりました。ChatGPTの有名な研究会社であるOpenAIは、音声からテキストへの変換のためのWhisper APIをリリースしました！数行のPythonコードで、この強力な音声認識モデルを呼び出し、頭から離れてデータサイエンスのプロジェクトの練習やポートフォリオの改善など、他の活動に集中することができます。早速始めましょう！

Whisperとは？

Whisperは、音声からテキストへの変換のタスクを解決するためにOpenAIによって開発されたニューラルネットワークに基づくモデルです。GPT-3ファミリーに属し、非常に高い精度でオーディオをテキストに変換する能力で非常に人気があります。

英語に限定されず、50以上の言語に拡張されています。あなたの言語が含まれているかどうか理解するには、ここをチェックしてください。さらに、どんな言語のオーディオでも英語に翻訳できます。

他のOpenAI製品と同様に、これらの音声認識サービスにアクセスするためのAPIが提供されており、開発者やデータサイエンティストがWhisperを彼らのプラットフォームやアプリに統合することができます。

Whisper APIにアクセスする方法

先に進む前に、Whisper APIにアクセスするためにいくつかのステップが必要です。まず、OpenAI APIウェブサイトにアクセスしてログインしてください。まだアカウントを持っていない場合は、作成する必要があります。入ったら、ユーザー名をクリックして「APIキーを表示」オプションを押します。次に、「新しいAPIキーを作成」ボタンをクリックして、Pythonコードに新しく作成されたAPIキーをコピーします。

Whisper APIを使用して書き起こす

まず、非常に人気のあるYouTuberであるKevin StratvertのYouTube動画をダウンロードしましょう。Kevin Stratvertは世界中の学生が技術をマスターし、Power BI、ビデオ編集、AI製品などのツールを学んでスキルを向上させるのを手助けするYouTuberです。例えば、「3 Mind-blowing AI Tools」という動画を書き起こしたいとします。

この動画を直接pytubeライブラリを使用してダウンロードできます。インストールするには、次のコマンドラインが必要です。

pip install pytube3
pip install openai

後でチュートリアルで使用するため、openaiライブラリもインストールします。すべてのPythonライブラリがインストールされている場合、単に動画のURLをYoutubeオブジェクトに渡すだけです。その後、最高解像度のビデオストリームを取得して、ビデオをダウンロードします。

from pytube import YouTube

video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"

yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()

ファイルがダウンロードされたら、楽しい部分を始めましょう！

import openai

API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')

パラメータを設定し、オーディオファイルを開いた後、オーディオを書き起こしてTxtファイルに保存することができます。

response = openai.Audio.transcribe(
    api_key=API_KEY,
    model=model_id,
    file=audio_file,
    language='en'
)
transcription_text = response.text
print(transcription_text)

出力:

Hi everyone, Kevin here. Today, we're going to look at five different tools that leverage artificial intelligence in some truly incredible ways. Here for instance, I can change my voice in real time. I can also highlight an area of a photo and I can make that just automatically disappear. Uh, where'd my son go? I can also give the computer instructions, like, I don't know, write a song for the Kevin cookie company....

予想通り、出力は非常に正確です。句読点まで正確で、非常に感銘を受けました！

Whisper APIで翻訳する

今回は、イタリア語から英語にオーディオを翻訳します。前回と同様に、オーディオファイルをダウンロードします。私の例では、非常にシンプルかつ面白い方法で機械学習を教える人気のあるイタリアのYouTuber Piero SavastanoのこのYouTube動画を使用しています。前のコードをコピーして、URLだけを変更する必要があります。ダウンロードしたら、前と同じようにオーディオファイルを開きます：

audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')

次に、イタリア語から英語の翻訳を生成できます。

response = openai.Audio.translate(
    api_key=API_KEY,
    model=model_id,
    file=audio_file
)
translation_text = response.text
print(translation_text)

出力：

私たちは統計的なスタイルでいくつかのグラフも見るので、それらを読み取る方法も理解する必要があります。1つは、箱ひげ図であり、中央値、第1四分位数、第3四分位数を見ることができます。今から何を意味するか話します。常にデータフレームからデータを取得します。Xは季節です。Yには借りられた自転車の数を置きます。そして、それが祝日の日であるかどうかに基づいてこれらの箱ひげ図を区別したいと思います。このグラフが出てきます。これをどのように読み取りますか？ここにあるXには、数値で符号化された季節があります。青色は祝日でない日、オレンジ色は祝日です。そして、ここに自転車の数があります。これらの四角形は何ですか？ここにあるボックスを取ります。マウスで回しています....

最終的な考え

以上です！このチュートリアルがWhisper APIを使い始めるのに役立ったことを願っています。このケーススタディでは、YouTube動画で適用されましたが、ポッドキャスト、Zoom通話、会議でも試すことができます。転写と翻訳後の出力は非常に印象的でした！このAIツールは、今多くの人々を助けていることでしょう。唯一の制限は、英語のテキストにしか翻訳できないことですが、OpenAIが近日中に提供することを確信しています。読んでいただきありがとうございました！素晴らしい1日をお過ごしください！

リソース

Whisper APIの音声からテキストへのガイド
PythonでOpenAI Whisper APIを始める| Youtubeビデオ

Eugenia Anelloは、現在、イタリアのパドヴァ大学情報工学科の研究員です。彼女の研究プロジェクトは、異常検知と組み合わされた継続的な学習に焦点を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Python

Was this article helpful?

93 out of 132 found this helpful

OpenAIのWhisper APIによる転写と翻訳

Whisperとは？

Whisper APIにアクセスする方法

Whisper APIを使用して書き起こす

Whisper APIで翻訳する

最終的な考え

リソース

Was this article helpful?

DeepMindのAIマスターゲーマー：2時間で26のゲームを学習

AgentGPT ブラウザ内の自律型AIエージェント

AIニュース

「Cheetorと会ってください：幅広い種類の交互に織り交ぜられたビジョン言語の指示を効果的に処理し、最先端のゼロショットパフォーマンスを達成する、Transformerベースのマルチモーダルな大規模言語モデル（MLLMs）」

「注意シンクとキャッシュの配置場所 - ストリーミングLLM実装のビジュアルガイド」

データプライバシーを考える新しい方法

スタンフォードの研究者がRoboFuMeを導入：最小限の人間の入力でロボットの学習を革新する

Meta AIとSamsungの研究者が、学習率適応のための2つの新しいAI手法、ProdigyとResettingを導入し、最先端のD-Adaptation手法の適応率を改善しました

「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」