「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」
「トリントの創設者兼CEO、ジェフ・コフマンによるインタビューシリーズ」
ジェフ・コフマンは、Trintの創業者兼CEOであり、ABC、CBS、CBCニュースでの30年のキャリアの後、手作業の転写作業に限界を感じ、すべてのストーリーが不必要に停滞しているのを見て、疲れ果てました。ジェフと開発チームは2014年にAIを活用して重労働を行い、Trintが生まれました。
今日、Trintは転写に留まらず、コンテンツ作成ワークフローのすべての段階を高めるAI搭載のSaaSプラットフォームです。
転写から編集ツール、リアルタイムの協力、エクスポート、パブリッシングまで、ニュースルーム、ポッドキャスター、地元の企業、グローバルな組織がストーリーをより早く簡単に共有できるよう、すべてのステップを容易にします。
ABC、CBS、CBCニュースで30年間の優れたキャリアを持っていましたが、従来の手作業の転写で遭遇した問題のいくつかは何でしたか?
- 創造的AIの進展により、責任あるAIに対処する時が来ています
- なぜLLaVa-1.5はオープンソースAIにおける大勝利であるのか
- Gradio-Lite:ブラウザ内で完全に動作するサーバーレスのGradio
私はジャーナリストとして毎日手作業の転写の苦痛を経験していました。Trintを発明し、構築するというアイデアを思いつく前に、なぜもっと良い方法がないのかと思っていました。
手作業の転写は、私がテレビ報道記者としてのワークフローで常にボトルネックでした。インタビューを行い、記者会見を聞き、調査データを読み、映像を見た後、、、プロデューサーと私は「転写のブラックホール」に閉じこもりました。
テレビニュースのストーリーは、引用やサウンドバイトの正確な転写がないと書けません。彼らが何を言ったのか、そのサウンドバイトの長さを知る必要があります。そのためには、スクリーニングルームやデスクでヘッドフォンをつけて、再生して一時停止する必要があります。そして、一部の言葉をタイプします。再生。一時停止。繰り返す。これには数時間かかることもありました。退屈でもあり、本当に重要な作業です。
Trintは2014年に発売されましたが、そのアイデアはどのように生まれたのですか?
私はもともとテクノロジー関連の仕事をするつもりはありませんでした。それは私の人生計画には含まれていませんでした。偶然に起こったことです。
2013年にいくつかのソフトウェア開発者とカジュアルな会話をしました。彼らは音声とテキスト(転写ではない)についていくつかの基礎的な実験を行っていました。
私は無邪気に尋ねました。「なぜ自動音声認識を使用してインタビューを転写できないのですか?」
覚えているのは、その中の一人の男が私に尋ねたことです。「なぜそれをやりたいのですか?」
私は答えました。「手作業の転写は、私が報道記者として働く上での痛みのポイントだから、嫌いだからです。」
私たちは連絡を取り合い、いくつかの実験を行いました。すぐに私たちは未来を発明していることが明らかになりました。私は1年後にABCニュースのロンドン特派員の仕事を辞め、Trintの構築を始めました。
当初の日々での転写サービスの立ち上げにおけるいくつかの課題は何でしたか?
自動転写は独立した問題です。報道記者やコンテンツクリエーターのワークフローを経験しない人々は、彼らがどのようにストーリーを作成しているのか理解していません。初期の日々に非常に裕福な天使投資家と会ったことを覚えていますが、彼らはなぜ私のような報道記者が転写が必要なのか理解できなかったのです。彼らに報道記者がどのように働くかを理解してもらうためには、多くの説明が必要でした。
今日はそれが簡単です。私たち全員がコンテンツクリエーターです。
現在Trintで使用されている異なる機械学習アルゴリズムは何ですか?
私たちには優れたエンジニアとデータサイエンティストの集団がいます。彼らは常に手を動かし、想像力の限りであらゆるものを試しています。ご理解いただけるように、私たちの焦点は自動転写がメディアのお客様のワークフローを加速する方法に関するものです。つまり、スピーチ、スピーカー、言語、音響について常に取り組んでいます。NLPと音声処理のアルゴリズムは私たちの日常の一部ですが、ジャーナリストがビデオ、オーディオ、画像から情報を抽出するのを支援するためにAIをどのように活用するかについて、どんな創造的な方法でも調査します。豊富な転写により、より多くの文脈をコンテンツに与え、すべてをより検索可能にし、最終的には重要な瞬間を見つけ出し、できるだけ迅速に視聴者に提供することができます。
現在提供されている言語は何ですか?また、異なる言語間の転写品質には違いがありますか?
約45の言語を提供しており、常に追加しています。いくつかは「ベータ版」であり、他のものは成熟度がはるかに高いですが、それはモデルを構築するために役立つトレーニングデータセットのサイズに依存します。各言語のモデルの正確さを常に測定し、モデルを改善するために開発を続けています。
私たちは常に新しいモデルを見ています。セキュアなASR処理環境に取り込むことができるかどうかを確認しています。
しかし、私たちが転写するのは言語だけではありません – 私たちの顧客はその転写をほぼすべての言語に翻訳することもできます。
転写以外にも、Trintはコンテンツの作成ワークフローを改善するために設計されたAIパワードのSaaSプラットフォームです。他に提供されているツールについて話していただけますか?
Trintの核心はAIパワードの転写ですが、私たちがこだわるのはなぜその転写がユーザーにとって有用なのか、そしてどのようにして彼らができるだけ迅速かつ簡単に価値を得られるかです。それは彼らのワークフローを深く理解することを意味し、すべてのステップを可能な限りシームレスにするための努力をします。
最終的には、彼らがどこでも、いつでも、あらゆる言語で任意の記者会見、インタビュー、イベントをキャプチャし、それが起こるままに活用できるようにしたいと思っています。それはライブ転写を容易に利用できるようにすることを意味します – 発言された後数秒で重要な引用を検証、共有、翻訳することです。
モバイルアプリを使用すれば、携帯電話さえあれば可能であり、接続が不安定な場合でもすべてが安全にチームに送信されます。
私たちのStory Builderは、すべてのコンテンツでキーモーメントを見つけ、それらを新しいナラティブに変換してコンテンツプロダクションワークフローの他の重要なツールにエクスポートできるようにするために設計されています。ビデオ編集用のラフカット、ポッドキャストの転写、または記事などです。音声のテキストをキャプションとして使用する場合は、共同編集者が助けてくれます。
あなた自身がホストするStoryTechというポッドキャストも持っていますが、このポッドキャストについて、リスナーは何を期待すべきで、なぜ聴くべきなのでしょうか?
StoryTechは私の2つのキャリアの交差点です:記者とテックの発明家です。それは技術とイノベーションが物語の語り方を形作る方法を探ります。
初期のエピソードでは、CGIが『ゲーム・オブ・スローンズ』の氷の壁を崩すためにどのように使用されたか、そして1920年代の35mmライカカメラの発明が写真ジャーナリズムの広まりとLIFEマガジンの創刊につながったかを取り上げています。
私はイノベーションが物語に与える影響に魅了されています。それがStoryTechのテーマです。
Trintの将来に対するビジョンは何ですか?
それは今日のすべてのイノベーターが取り組んでいる課題です。イノベーションの速いペースが私の製品にどのような機会をもたらすのか、ということです。
私たちの顧客は、ワークフローにシームレスに組み込むことができるシンプルで直感的な効率を生み出す製品を求めています。それは単なる転写を超えるものを意味します。
TrintはAIを活用して、数年前までは想像もできなかったことを実現します:声、顔、感情、文脈、事実、虚偽を識別します。これは話される言語からの翻訳も含まれます。重要なのは、これを他の製品と統合して痛みのないワークフローを作成することです。
Trintが記者や作家、コンテンツクリエイターを置き換えることは見ていません。それは彼らを仕事の骨折りから解放し、時間を創造性に集中させることです。未来を想像することはワクワクします。嘘をつかないで言いますが、同時に困難でもあります。
素晴らしいインタビュー、さらに詳しく知りたい読者はTrintを訪れるか、StoryTechのポッドキャストを視聴してください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles