「リオール・ハキム、Hour Oneの共同創設者兼CTO – インタビューシリーズ」
Rioul Hakim, Co-founder and CTO of Hour One - Interview Series
Hour Oneの共同創設者兼最高技術責任者であるLior Hakim氏は、プロフェッショナルなビデオコミュニケーション向けの仮想人間を作り上げる業界のリーダーです。実在の人物をモデルにしたリアルな仮想キャラクターは、テキストを通じて人間らしい表現力を持ち、企業は簡単かつスケーラブルにメッセージングを高めることができます。
Hour Oneの起源についての創業ストーリーを教えていただけますか?
Hour Oneの起源は、私が暗号ドメインに関与していたことにさかのぼります。その後、私はマスクラウドコンピュートが次に大きなトピックとなるものは何かを考え始めました。機械学習が推奨や予測分析で人気を博している中、私はいくつかの機械学習インフラ関連プロジェクトに取り組んでいました。この仕事を通じて、早期の生成ワークに精通し、当時特にGANに興味を持っていました。当時は、それらの新しい技術をテストするために手に入れることができるすべてのコンピュータを使用していました。この当時、私の友人でその分野に会社を持っていた人に結果を見せたところ、彼は私がオレンに会う必要があると言いました。私がなぜか尋ねると、彼はおそらく私たち二人が彼の時間を無駄にするのをやめて、お互いの時間を無駄にするかもしれないと言いました。オレンはHour Oneの共同創設者兼CEOであり、当時AIへの早期の投資家でした。私たちは異なる場所に立っていましたが、同じ方向に向かっていました。そして、仮想人間のホームであるHour Oneの設立は、避けられない旅でした。
使用されている機械学習アルゴリズムと生成AIのプロセスのどの部分が関わっていますか?
- 「ディープニューラルネットワークのデプロイのための自動チューニング」
- 「Flick Review リーチを向上させるための最高のInstagramハッシュタグツール」
- 自動化への満足感:人間をループに戻す方法
ビデオ制作の領域では、機械学習アルゴリズムは各段階で重要な役割を果たしています。脚本の段階では、大規模言語モデル(LLM)が魅力的なストーリーを作り上げるために貴重なサポートを提供し、コンテンツを練り直します。音声に移ると、テキストから有機的で感情的な声を作り出すテキスト読み上げ(TTS)アルゴリズムが使用されます。ビジュアル表現に移ると、私たちの独自のマルチモーダルな仮想人間の基本モデルが中心になります。このモデルは、生成対抗的ネットワーク(GAN)と変分オートエンコーダ(VAE)を組み合わせることで、文脈に応じた感情、はっきりした発音、魅力的で本物のデリバリーを伝えることが得意です。このような生成技術により、テキストや音声の手がかりをリアルな仮想人間の映像に変換し、超リアルなビデオを出力することができます。LLM、TTS、GAN、VAE、およびマルチモーダルモデルの組み合わせによって、生成AIは現代のビデオ制作のバックボーンとなっています。
Hour Oneは、他のビデオ生成ツールとどのように差別化していますか?
Hour Oneでは、他のビデオ生成ツールとの差別化は競争に固執することではなく、品質、製品デザイン、市場戦略へのアプローチを支配する深く根付いた哲学に由来しています。私たちの指針となる原則は、常に人間の要素を優先し、私たちの創作物が真正さと感情を持つことを保証することです。私たちは、妥協せずに業界最高の品質を提供することを誇りに思っています。高度な3Dビデオレンダリングを利用することで、ユーザーに本物の映画体験を提供しています。さらに、私たちの戦略は独自の意見を持っています。私たちは洗練された製品から始め、迅速に完璧さに向かって進化させます。このアプローチにより、私たちの提供物は常に一歩先を行き、ビデオ生成の新たな基準を設定します。
GPUの豊富なバックグラウンドを持つあなたから、NVIDIAの次世代GH200 Grace Hopper Superchipプラットフォームに関する見解を教えていただけますか?
Grace Hopperアーキテクチャは本当に画期的なものです。GPUがホストのRAMから効果的に動作できるようになると、計算が完全にボトルネックになることなく、現在不可能なモデル/アクセラレータ比率で動作できるようになります。その結果、トレーニングのジョブサイズにおいて非常に望ましい柔軟性が得られます。GH200の在庫全体がLLMのトレーニングに吸収されることを仮定すれば、将来的にはマルチモーダルアーキテクチャのプロトタイピングコストを大幅に削減することができると期待しています。
現在注目している他のチップはありますか?
私たちの主な目標は、価格競争力のあるビデオコンテンツをユーザーに提供することです。現在、大容量メモリを備えたGPUへの需要が高まっているため、私たちはトップのクラウドサービスプロバイダーで提供されているさまざまなGPUクラウドオファリングを最適化し、試しています。さらに、いくつかの作業負荷において少なくとも部分的にプラットフォーム非依存であることを目指しています。そのため、TPUやその他のASIC、そしてAMDにも注意を払っています。最終的には、FLOPs/ドル比の向上につながるハードウェア主導の最適化経路は、すべて探求されるでしょう。
ビデオ生成の将来の進化に対するあなたのビジョンは何ですか?
24ヶ月後には、生成された人間とキャプチャされた人間を区別することはできなくなるでしょう。それは多くのことを変え、私たちはその進化の最前線にいます。
現時点では、ほとんどの生成されたビデオはコンピュータやモバイルデバイス向けですが、フォトリアルな生成されたアバターや仮想世界を拡張現実と仮想現実の両方で実現するためには、何が変わる必要がありますか?
現在、私たちは拡張現実(AR)と仮想現実(VR)の両方のフォトリアルなアバターと世界を生成する能力を持っています。主な障害はレイテンシーです。高品質のリアルタイムグラフィックスをARやVRヘッドセットなどのエッジデバイスにスムーズに提供することは重要ですが、これを実現するにはいくつかの要素が関与しています。まず第一に、より高速かつ効率的な処理を保証するために、チップ製造の進歩に頼っています。これに加えて、電力消費の最適化は、経験を損なうことなくより長時間の使用を確保するために重要です。最後になりますが、生成とリアルタイムのレンダリングのギャップを効率的に埋めることができるソフトウェアの突破口が期待されています。これらの要素が結集すると、ARとVRの両プラットフォームでフォトリアルなアバターや環境の利用が急増するでしょう。
AIの次の大きな突破口について、何を期待していますか?
AIの次の重大な突破口に関しては、常に興奮と期待感が漂っています。先ほどいくつかの進歩について触れましたが、具体的な詳細については今のところ共有できません。ただし、私たちは現在、いくつかの画期的なイノベーションに取り組んでいますので、ぜひ今後のリリースに注目してください。AIの未来は非常に大きな約束を秘めており、私たちはこれらの先駆的な取り組みの最前線に立つことを喜んでいます。お楽しみに!
Hour Oneについて共有したいことはありますか?
Hour Oneのプラットフォームの新しい追加要素として、ぜひ私たちのディスコードチャンネルとAPIをチェックしてみてください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles