OpenAIのWhisper APIによる転写と翻訳

Transcription and translation using OpenAI's Whisper API.

録音したものがたくさんあるけど、聞いて書き起こすエネルギーがなくなってしまったという経験はありませんか?私が学生だった頃、毎日何時間もの授業音声を聞いて書き起こしていたことを思い出します。さらに、私の母国語ではないため、Google翻訳に毎回文をドラッグしてイタリア語に変換しなければなりませんでした。

今では、手動の書き起こしと翻訳はただの思い出になりました。ChatGPTの有名な研究会社であるOpenAIは、音声からテキストへの変換のためのWhisper APIをリリースしました!数行のPythonコードで、この強力な音声認識モデルを呼び出し、頭から離れてデータサイエンスのプロジェクトの練習やポートフォリオの改善など、他の活動に集中することができます。早速始めましょう!

Whisperとは?

Whisperは、音声からテキストへの変換のタスクを解決するためにOpenAIによって開発されたニューラルネットワークに基づくモデルです。GPT-3ファミリーに属し、非常に高い精度でオーディオをテキストに変換する能力で非常に人気があります。

英語に限定されず、50以上の言語に拡張されています。あなたの言語が含まれているかどうか理解するには、ここをチェックしてください。さらに、どんな言語のオーディオでも英語に翻訳できます。

他のOpenAI製品と同様に、これらの音声認識サービスにアクセスするためのAPIが提供されており、開発者やデータサイエンティストがWhisperを彼らのプラットフォームやアプリに統合することができます。

Whisper APIにアクセスする方法

先に進む前に、Whisper APIにアクセスするためにいくつかのステップが必要です。まず、OpenAI APIウェブサイトにアクセスしてログインしてください。まだアカウントを持っていない場合は、作成する必要があります。入ったら、ユーザー名をクリックして「APIキーを表示」オプションを押します。次に、「新しいAPIキーを作成」ボタンをクリックして、Pythonコードに新しく作成されたAPIキーをコピーします。

Whisper APIを使用して書き起こす

まず、非常に人気のあるYouTuberであるKevin StratvertのYouTube動画をダウンロードしましょう。Kevin Stratvertは世界中の学生が技術をマスターし、Power BI、ビデオ編集、AI製品などのツールを学んでスキルを向上させるのを手助けするYouTuberです。例えば、「3 Mind-blowing AI Tools」という動画を書き起こしたいとします。

この動画を直接pytubeライブラリを使用してダウンロードできます。インストールするには、次のコマンドラインが必要です。

pip install pytube3
pip install openai

後でチュートリアルで使用するため、openaiライブラリもインストールします。すべてのPythonライブラリがインストールされている場合、単に動画のURLをYoutubeオブジェクトに渡すだけです。その後、最高解像度のビデオストリームを取得して、ビデオをダウンロードします。

from pytube import YouTube

video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"

yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()

ファイルがダウンロードされたら、楽しい部分を始めましょう!

import openai

API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')

パラメータを設定し、オーディオファイルを開いた後、オーディオを書き起こしてTxtファイルに保存することができます。

response = openai.Audio.transcribe(
    api_key=API_KEY,
    model=model_id,
    file=audio_file,
    language='en'
)
transcription_text = response.text
print(transcription_text)

出力:

Hi everyone, Kevin here. Today, we're going to look at five different tools that leverage artificial intelligence in some truly incredible ways. Here for instance, I can change my voice in real time. I can also highlight an area of a photo and I can make that just automatically disappear. Uh, where'd my son go? I can also give the computer instructions, like, I don't know, write a song for the Kevin cookie company....

予想通り、出力は非常に正確です。句読点まで正確で、非常に感銘を受けました!

Whisper APIで翻訳する

今回は、イタリア語から英語にオーディオを翻訳します。前回と同様に、オーディオファイルをダウンロードします。私の例では、非常にシンプルかつ面白い方法で機械学習を教える人気のあるイタリアのYouTuber Piero SavastanoのこのYouTube動画を使用しています。前のコードをコピーして、URLだけを変更する必要があります。ダウンロードしたら、前と同じようにオーディオファイルを開きます:

audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')

次に、イタリア語から英語の翻訳を生成できます。

response = openai.Audio.translate(
    api_key=API_KEY,
    model=model_id,
    file=audio_file
)
translation_text = response.text
print(translation_text)

出力:

私たちは統計的なスタイルでいくつかのグラフも見るので、それらを読み取る方法も理解する必要があります。1つは、箱ひげ図であり、中央値、第1四分位数、第3四分位数を見ることができます。今から何を意味するか話します。常にデータフレームからデータを取得します。Xは季節です。Yには借りられた自転車の数を置きます。そして、それが祝日の日であるかどうかに基づいてこれらの箱ひげ図を区別したいと思います。このグラフが出てきます。これをどのように読み取りますか?ここにあるXには、数値で符号化された季節があります。青色は祝日でない日、オレンジ色は祝日です。そして、ここに自転車の数があります。これらの四角形は何ですか?ここにあるボックスを取ります。マウスで回しています....

最終的な考え

以上です!このチュートリアルがWhisper APIを使い始めるのに役立ったことを願っています。このケーススタディでは、YouTube動画で適用されましたが、ポッドキャスト、Zoom通話、会議でも試すことができます。転写と翻訳後の出力は非常に印象的でした!このAIツールは、今多くの人々を助けていることでしょう。唯一の制限は、英語のテキストにしか翻訳できないことですが、OpenAIが近日中に提供することを確信しています。読んでいただきありがとうございました!素晴らしい1日をお過ごしください!

リソース

  • Whisper APIの音声からテキストへのガイド
  • PythonでOpenAI Whisper APIを始める| Youtubeビデオ

Eugenia Anelloは、現在、イタリアのパドヴァ大学情報工学科の研究員です。彼女の研究プロジェクトは、異常検知と組み合わされた継続的な学習に焦点を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「BeLFusionに出会ってください:潜在的拡散を用いた現実的かつ多様な確率的人間の動作予測のための行動的潜在空間アプローチ」

人工知能(AI)が世界を魅了し続ける中で、コンピュータビジョンとAIの交差点において、人間の動き予測(HMP)という注目すべ...

人工知能

「不正行為の恐れにもかかわらず、学校はChatGPTの禁止を撤回する」

「かつてA.I.チャットボットをブロックしようと競っていた一部の地域は、今ではそれらを受け入れようと試みています」

AI研究

ウィスコンシン大学とバイトダンスの研究者は、PanoHeadを紹介しますこれは、単一のビュー画像のみでビュー一貫性のあるフルヘッド画像を合成する、初の3D GANフレームワークです

コンピュータビジョンとグラフィックスでは、写真のような写実的な肖像画像合成が常に強調されており、仮想アバター、テレプ...

機械学習

魚の養殖スタートアップ、AIを投入して水産養殖をより効率的かつ持続可能にする

海洋生物学の学生だったJosef Melchnerは、イルカ、クジラ、魚を探すために毎日海をクルーズすることを常に夢見ていましたが...

AIニュース

「トライするためのトップ50のAIライティングツール(2023年9月)」

Grammarly Grammarlyは文章を向上させるための優れたツールです。文章の文法、スペル、句読点、スタイルをチェックして、明確...

AIニュース

「修正策にもかかわらず、ハッカーたちがシトリックスソフトウェアの欠陥を悪用しています」

「Citrix Bleed」というCitrix Systemsソフトウェアの重大な欠陥は、政府支援のハッカーや重要なグループによって悪用されて...