「Web Speech API:何がうまく機能していて、何が機能しないのか、そしてそれをGPT言語モデルにリンクして改善する方法」

「Web Speech API:機能する要素と機能しない要素、そしてGPT言語モデルとの関連で改善する方法」

現代のAIおよびその他の技術がより効率的な人間とコンピュータの相互作用を支援する方法に関するシリーズの一部

Photo by palesa on Unsplash

私は現代の技術が、現在のソフトウェアが提案するよりもはるかにシンプルで自然な人間とコンピュータの相互作用を可能にすると考えています。実際、私は技術が既に十分に進歩しており、伝統的なインターフェースなしで前進してユーザーエクスペリエンスの革命を引き起こすことができると思っています。

大規模な言語モデルは、情報のリクエスト方法において、この革命の一部を確かに引き起こしました。しかし、私は技術がまだ多くのことを提供できると考えています。例えば、VRヘッドセットのコストが低下しているにもかかわらず、私たちはまだフラットスクリーンに固執しています。目線追跡、音声認識や身体の腕の追跡といった技術の進歩にもかかわらず、私たちはまだマウス、キーボード、およびタッチジェスチャーを使用してデバイスを操作しています。音声合成の進歩にもかかわらず、まだたくさんの文章を読み上げています。

私は現在の技術が、もしあなたが(これを見たことがない場合は)、スタートレックのような人間とコンピュータの相互作用を提供できるほど進歩していると感じていますが、私たちは過去に固執したいのです。

この記事で、自分自身でテストできるように、既に非常にうまく機能している現代の技術によって永遠に変わる可能性のある人間とコンピュータの相互作用についてのシリーズを始めます。

私のスタイルに忠実に、私はこれらの現代的な技術のウェブベースの実装について具体的に話します。そして、ウェブブラウザに統合されたWeb Speech APIから始めて、そのパワーについて、いくつかの使用例について、制約を強調し、それを大規模な言語モデルと組み合わせることでいくつかの制約を克服する方法を実証します。

このシリーズは、私が最初のタイプのWebアプリケーションであるイマージブでマルチユーザーの分子グラフィックスとモデリングのために取り組んだ最近のプロジェクトに基づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more