『日常のデザイン(AI)』
『日常の美しさ(AI)』
優れた生成AIツールを構築するためのUI/UX原則
1988年にドン・ノーマンが発表したデザインの古典的著作「普段使いのデザイン」は、ハードウェアやソフトウェアの設計に影響を与えるユーザーエクスペリエンスの原則を示しています。ノーマンはドアハンドルやスイッチなどのアナログな例を参考にしていますが、彼の原則は生成AI製品を含むソフトウェアにも広く適用されます。生成AIに関する大騒ぎの中で、最も洗練されたモデルで動作していても、良いUI/UXを欠いている場合は失敗します。
多くの新しいAIツールは注目を集めますが、その後のユーザーリテンションは低調です(Sequoiaによる詳細な内容はこちら)。AIのハイプは観光客のサインアップを促しますが、新しいユーザーは製品の理解や実際の価値の獲得に苦労します。これが「失望の間」です。生成モデルなどの基本技術が大幅に進歩する一方で、サポート技術(UI/UXデザイン)が遅れていると起こります。
この投稿では、生成AI製品に3つの核心的なUXの概念を適用する方法について詳しく説明します。それによって生まれる結論には、以下のようなものがあります:
- 穴への一打を目指さない
- ユーザーフィードバックは無料ではない
- チャットボットインターフェースには慎重な扱いが必要
以下の例は、職場の生産性ツールから引用されたものです(私がアイデアを形作り共有するAIパワードVoAGIのTomeでの経験から一部インスピレーションを受けたものです)。しかし、これらの戦略は開発ツールからソーシャルメディア、Eコマースまで広く適用できます。
トピック1:フィードバック
ユーザーに要求されたアクションについて、クイックかつ明確なフィードバックを提供することは、どんな技術においても重要です。特に生成AIシステムでは、出力のレイテンシと複雑さのために、フィードバックが非常に重要です。そしてフィードバックは双方向であり、システムは迷惑にならずにユーザーからの関連するフィードバックを引き出して、ユーザー固有の出力を近い将来に向けて改善し、VoAGIや長期的な製品の向上につなげる必要があります。
レイテンシに対応する
生成AIモデルの反応時間は一桁から二桁の秒数になることが一般的です。一見すると、魅力的なメモや素晴らしい画像、美しい映像を待つために10秒待つことは問題ではないように思えるかもしれません。生成AIがなければ、これらのアクションには数時間かかりますが、10秒、1秒、または100ミリ秒かかるかどうかは関係ありません。
しかし、ユーザーは機会費用を最適化する経済学者ではありません。非AIツールによって、ソフトウェアは瞬時として認識されるほど速くなることに慣れています。これにより、非瞬時のAI製品にはユーザーにいくつかの課題が生じます:
- システムが動作しているかどうか、再試行/再起動が必要かどうかの混乱
- 反復の高い知覚コスト。ほとんどの場合、AIが生成する最初のアーティファクトはユーザーが求めるものではありませんので、ユーザーは反復を望みます。
- ユーザーが複数のタスクに取り組み始める可能性が高い。ユーザーがアプリから切り替えた後は、戻ってくる保証はありません。
レイテンシ効果を軽減するための良い戦略は、生成AIより前から存在します。ローディングアニメーション、進行状況バー、バックグラウンド処理(ユーザーが別のタスクにルーティングされ、現在のタスクが完了すると通知が届く)などがあります。LLM機能に特有の新しい戦略として、テキストをワードバイワード(または文字単位)でUIにストリーミングする方法があります。多くのモデルがユーザーが読むのに十分な速さで単語を生成できるため、これにより知覚されるレイテンシをほぼゼロにすることができます。
穴への一打を目指さない
レイテンシを緩和するための特に効果的な戦略の1つは、ワークフローを小さなステップに分割し、各ステップでシステムのフィードバックを提供し、ユーザーからのフィードバックを求めることです。これにより、ユーザーはシステムが望んでいる出力を正確に提供することを確信しながら進行できます。設計が良好な反復型ワークフローでは、最初のステップのレイテンシが低くなり、ユーザーの信頼は望まれる出力が得られる各ステップごとに向上します。望んでいるアーティファクトを得る自信が非常に高ければ、最後のステップの実行に10秒待つことも厭わないでしょう。
反復的なワークフローには、レイテンシの耐性を増すだけでなく、ユーザーが期待に合った出力を生成できるという非常に強力な利点があります。生成モデルは、単純なユーザープロンプトからユーザーが望む内容を正確に生み出すことがあります。そして、入力から「完璧な」最終出力への直行は、素晴らしいユーザーエクスペリエンスです。まるでワンパットホールインワンを達成するようなものです。そして、ワンパットホールインワンを達成するのは非常に稀です。
課題は、「モデルがどれほど”スマート”であるか」ではなく、モデルがユーザーのビジョンを実現するために必要な文脈と情報です。セールスマネージャーが自分のチームの四半期のパフォーマンスを要約したい場合を考えてみましょう。彼女は何十もの四半期の売り上げレポートを見ており、そのような成果物を規定する彼女の会社の基準(トーン、詳細レベル、長さ、ビジュアルレイアウトなどの基準)について深く知っています。もし同僚にそのようなレポートを書いてもらう必要がある場合、彼女は単に「四半期の売り上げレポート」と頼んで、同僚がこれらの基準をすでに知っていることを期待します。
したがって、このセールスマネージャーがAIツールからそのようなレポートを取得したい場合、ツールにどの基準を伝える必要があるか、そしてそれが既に知っているものか、ということは彼女にとって明らかではありません。ここで反復的なワークフローが特に役立ちます。彼女は「四半期の売り上げレポート」というような簡単でおなじみのものから始め、ツールが彼女が考えていることを具体化するのを助けてくれます。ザック・ロイドはこれを「質問して調整する」というパターンと呼んでいます。詳細については、AIデザインに関するこの合理的な記事で説明されています。
ユーザーフィードバックは無料ではありません
多くの古典的なML製品では、各ユーザーのインタラクションがモデルの新しいトレーニングデータを生成し、次のバージョンの製品を改善します。ユーザーが検索結果をクリックするごとに、検索モデルが改善します。ユーザーがスパムとしてマークしたメールごとに、スパム分類モデルが改善します。
しかし、多くの生成AI製品には、ユーザーのインタラクションが機械的にモデルの改善につながる「物理」がありません。テキストや画像などの洗練された出力を持つAI製品では、ユーザーが望む出力を得られずに終了するか、満足して終了するかを区別することは難しいです。一部の製品は、ユーザーのフィードバック(たとえば、Good/Not Goodの評価)を求める場合もありますが、完了率は非常に低く、フィードバック自体も選択バイアスの影響を受けやすいです。
その代わりに、ユーザーの自然な次のアクションが、前のAI出力への彼らの認識を示すワークフローを設計することがはるかに良いです。テキストモデルで最も一般的に見られるパターンは、インラインの提案です。ユーザーが提案を受け入れて書き続ける場合、それは提案を肯定的に評価した強いシグナルです。別のパターンは、どのAI出力が保存されたり、編集されたり、共有されたりするかを計測することです。これらはユーザーの満足度と完全に相関しているわけではありませんが、集計時にはまあまあのプロキシとなります。
トピック2:アフォーダンス
アフォーダンスとは、機能の使用方法とタイミングを示唆する(通常は視覚的な)手がかりのことです。良いアフォーダンスは、ユーザーが製品と対話する際に、詳細な指示や経験がなくても直感的に操作できるようにします。我々は、ユーザーの旅の3つの段階で生成AIのアフォーダンスを探求します:AIのエントリーポイントの発見、AIに適切な入力の提供、AIの出力の使用。
AIのエントリーポイントの発見
多くのワークツールには多くのAI機能が追加されており、これらの機能はクリエイティブプロセスのさまざまな段階で適用されます。AI機能を使用するための高レベルのエントリーポイントには、次のものがあります:
- ゼロから始めるのを助ける
- 私が始めたものを拡張する
- 私が作成したものを編集する
これらの異なるエントリーポイントは、AIインターフェースの進化初期の段階でも、大幅に異なるインターフェースにつながっています。 (1)に関しては、自由なテキストまたは「空白キャンバス」のインターフェースが初期の主要なパラダイムとして現れています。(2)では、インライン生成(またはオートコンプリート)がテキスト生成機能(GitHub Copilotのようなもの)を主導しており、「これに似たものをもっと見せて」という要求が画像生成機能(Midjourneyのようなもの)を主導しています。(3)に関しては、既存コンテンツのハイライト表示、選択、またはアップロードに重点を置いたインターフェースが一般的です(Grammarlyのようなもの)。
複数のAI機能を備えたツールで1つのAIエントリーポイントを発見したユーザーは、「ここがAIが存在する場所」と結論付け、他の機能を見逃す可能性があります。優れた製品は、各エントリーポイントが最も有用であると考えられるユーザーのワークフローのタイミングで、さまざまなAIエントリーポイントをユーザーに紹介することで、これを軽減します。
AIへの入力
多くの生成AIワークフローの中核となる入力は、自由なテキスト入力、または「プロンプティング」と呼ばれます。残念ながら、良いプロンプティングは複雑で、急速に進化し、ツール間で一貫性がありません。良い製品は、使用例のプロンプトやツールチップなどの戦略を使って、ユーザーがプロンプトを作成するのをサポートします。
良いインターフェースは、ユーザーがAIが持っているコンテキストと欠けているものを理解できるようにもサポートします。強力なAIを使用する場合、合理的なユーザーは、アプリで見ることができるものはAIも見えて理解していると結論付けるかもしれません。たとえば、過去の会話がAIと共有されているなら、AIもそれに気づいているはずだと思われます(これはChatGPTが普及させた動作です)。しかし、すべてのAIがこのような動作をするわけではありません!一部のシステムはユーザーの前のプロンプトを認識していますし、過去のプロンプトよりもさらに多くのコンテキストを認識しているものもありますが、一部のシステムは現在のユーザーとの対話のみを認識していて、それ以外のことは認識していません。ユーザーは試行錯誤を通じてシステムが何を知っているか、何を知らないかを理解する必要はありません。
AIの出力を使用する
システムが生成AIの出力を作成し、その出力が良い場合でも、ユーザーにとっては混乱することがあります。
まず、新しいユーザーは、出力を続ける方法を疑問視することがよくあります。出力が良くても、多くのユーザーはすぐに改善しようとして、良いものから素晴らしいものに至ることができるかどうかを確認したいと思います。しかし、既存の作業を失うのではないかという恐怖はためらいと欲求不満につながる可能性があります。
次に、ユーザーは出力を改善する方法について混乱するかもしれません。ユーザーが「ゼロから始める」AI機能を使用した場合、最初からやり直す必要があるのでしょうか?または、「拡張」や「編集」といった異なるAIエントリーポイントに移動する必要があるのでしょうか?ChatGPTのような製品に出力が直接編集可能でない場合、ユーザーは編集の手段が必要でしょう。
トピック3:制約
制約は、ユーザーがより速く、より良く作業するために入力と出力を制限するものです。良い制約はユーザーにとって明確です。システムがユーザーが目標を達成できるようにサポートできる場合でも、完全に信頼性のないエクスペリエンスを提供するよりも、そのパスを完全に防止した方が良い場合があります。
LLMは新たなユーザーエクスペリエンスを開拓します(私がそれらに取り組むのが大好きな理由です!)し、製品クリエイターは確定的なソフトウェアからの伝統的な制約を緩和することを積極的に望むべきです。しかし、LLMがどれだけインテリジェントになったとしても、常に考えられた制約の必要性は存在するでしょう。
入力:コントロールを恐れることはありません
ChatGPTの成功に触発されて、多くの生成型AIツールは、自由なテキストボックスを唯一の、または主要なユーザー入力として使用しています。しかし、ユーザーの意図の多くはカテゴリーまたは数値の入力を介して最も適切に表現されます。ドキュメントを作成するとき、ほとんどのユーザーは、言語(カテゴリー)や長さ(数値値)などの属性を考えています。ユーザーは自由なテキストプロンプトでこれらの属性について言及しないかもしれませんが、それは彼らがそれについて気にしないという意味ではありません。ドロップダウンやスライダーのような離散的で境界のあるコントロール(制限つき)を通じてこの入力を求めることにより、システムはユーザーが頭に持っているものを提供するために必要な入力を求めるのに役立ちます。また、離散コントロールの操作をサポートするための定評のある原則もあります。適切なデフォルトの設定、コントロールの論理的なグループ化、およびツールチップやラベルによるコントロールの説明などです。
コントロールに関する場合、適切なデフォルト値の設定はデザインの重要な部分です。時間の大部分(90%以上)ユーザーはデフォルトを変更しませんし、それに変更すべきであるとしてもです。適切なデフォルト値とユーザーの変動する嗜好を組み合わせる機会があります。その方法は、ハードコードされたルールまたはAIによるものです。
出力:すべてが生成されるべきではない
生成型AI製品では、基礎となるモデルがいくつかのコンテンツを生成できる状況が多くありますが、ユーザーはそれを使用するか、誤解を招くまたは違和感のある出力に苦労するかどうかは異なります。
ほとんどの仕事関連のタスクでは、ユーザーは「わかりません」ということを望みますが、潜在的に誤った回答を確認または反論しなければなりません。BCGのコンサルティング会社で行われたこのハーバードの研究は、AIがその「自信のフロンティア」を超えて質問に答えると、ユーザーはフロンティアがどこにあるかを知らず十分に出力を検証しません。
ホールシネーションを減らすための方法は、急速に進化しています(たとえば、検索補完型生成など)。私は数年後にホールシネーションがほとんど「解決された」問題になると予想していますが、今日の状況では、事実性が重要な出力は制約を考慮する重要な場所です。
法的および倫理上の懸念も、ユーザーに向けた出力を制約する理由です。基礎となるモデルがテキストや画像をトピックに関して生成できるからといって、それを行うことが正当であるとは限りません。ただし、システムがユーザーのリクエストを「制約外」と分類する多くの場合、実際にはユーザーの意図が無害であることがあります。少しの助けを得ることで、ユーザーはリクエストを制約内にとどめるように再フレーズすることができます。たとえば、一部の画像生成ツールは「子供」という言葉を含むプロンプトを拒否します。しかし、ユーザーが子供のいる家族の写真を生成したい場合、代わりに「4人家族」や「息子と娘のいる両親」というプロンプトを使用できます。重要なのは、制約がユーザーに明確に伝わることです。
人気のある生成型AI製品として急速に広まっていくにつれて、優れたプロダクトデザイナーやプロダクトマネージャーは忘れないでください:成功はAIがどれだけスマートであるかだけでなく、プロダクトがユーザーをAI対応のワークフローに導く方法にも依存しています。フィードバック、利便性、および制約などのコアデザインコンセプトは、今も昔と同じくらい重要ですが、それらが実装される方法の戦術とパターンは急速に進化しています。これらのデザインパターンをうまく活用することは、初期のハイプサイクルを超えて持続し、広く使用される製品を提供するAI企業にとって重要です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles