6月13日読了時間: 9分

L&Dのための会話音声AI

更新日：6月25日

原文「Conversational Voice AI for L&D: Coaching, Role Playing, and More」

実験しているAIエグゼクティブコーチについて、このブログ記事を書きました。

こちらをチェックしてください。完璧ではありませんが、ちょっと楽しいです。(トークンの使用料はこちらで負担しますが、一晩中チャットはしないでください😁) サインアップサイトは数日間オープンにしておきます。

チャットが終わったら、このブログの続きを読みに来てください。それでは、通常のプログラムに戻ります。

そう、ロボットは話せる

OpenAIは2024年5月13日、新しい会話モードを数週間以内にリリースすると発表しました。

これらの改善された機能がユビキタス（いつでもどこでも存在すること）になることで、AIと口頭でチャットすることが、テクノロジーと接する普通の方法になるでしょう。では、それはL&Dにとってどのような意味を持つのでしょうか？そして、私たちはどのようにしてここまで来たのでしょうか？結局のところ、音声アシスタントは新しいものではありません。では、何が大きな提起問題なのでしょうか？

私たちは、L&Dの専門家から意見を集めながら、それを見つけるためにいくつかの実験を行いました。その結果、そしてその意味するところをご覧ください。会話型AIは、L&Dのいくつかの重要な側面に大きな影響を与えることになりそうです。

まず、簡単な技術概要

Apple SiriやAmazon Alexaのような音声アシスタントは以前から存在していました。これらは自然言語処理（NLP）を使用して、リクエストを受け、定型文と照合します。つまり、天気を調べるには便利ですが、マイクロソフトのサティア・ナデラCEOが2023年に言ったように、「岩のようにバカ」なのです。ChatGPTで使われているような大規模言語モデル（LLM）のような動的な生成能力はありません。

ChatGPTは状況を一変させました。2022年、WhisperはChatGPT-3.5を補完するものとして導入され、音声をテキストに変換する機能をユーザーに提供しました。これにより、ユーザーはChatGPTに話しかけることができ、ChatGPTはボタンをクリックするだけで音声を取り込めるようになりました。音声と会話は使えるようになりましたが、割り込んだり、割り込まれたり、順番を厳密に指示されないと本当の会話ができない技術でした。

新しいスタートアップ企業は、LLMの上でより会話的なインタラクションを可能にしました。自動的に順番を検出する機能を導入し、割り込みや自由に前後して話すことを可能にしました。また、「うーん、あー」のような、AIが聞いている間に発生する素敵な間投詞も判断できるようになりました。さらに、声の表情を分析しました。ChatGPT-4のようなLLMが応答を作成し、別の技術であるボイスエージェントがその応答を話すという、基本的にマルチステップのプロセスであるため、これらの体験ではまだ若干の待ち時間が発生しました。

そして今月、OpenAIは、同社の生成AIチャットボットの最新バージョンであるChatGPT-4oが、ネイティブに会話を理解し、返答できるようになると発表しました。これは、LLMからの応答を読み上げる音声エージェントがいなくなることを意味します。LLMが話します。あなたがAIに「ゆっくり話して」とか「キャラクターになりきって」と言えば、そうします。また、LLMは自然に発声し、ユーザーの声の表情を理解します。すべて同じシステムに組み込まれるため、これまでのどのシステムよりも高速です。

現在、GPT-4oのテキストモデルがリリースされています。最先端の音声機能（話題のスカーレット・ヨハンソンのような声を含む）は、ブログ執筆時にはリリースされていません。つまり、今現在、GPT-4oと話すことはできますが、速いですが、まだ古い音声入力読み上げ技術を使っているため、中断したい場合はシステムに伝える必要があります。現在利用可能なものの詳細を読むことができます。

今日ログインすると、ChatGPTの音声モードを開始するときにこのような画面が表示されるかもしれません。

盛りだくさんでしたね。それでは、門戸が開かれた後のL&Dにとって、これが何を意味するのかについてお話ししましょう。

仮説：練習と振り返りのための、より速く、より本格的な対話

私たちは過去に、練習やロールプレイの一形態として、タイピングによるチャットベースのシナリオを模索していました。このようなやりとりは、最初は楽しかったのですが、（AIだとわかっていながら）本物と感じさせるために必要な努力は持続するのが難しいものでした。また、電話のような実際の会話ではもっとありそうなシナリオを、チャットで行うのも奇妙に感じていました。

私たちは、音声機能を追加することで、シナリオがよりリアルに感じられ、よりエンゲージしやすくなるかどうかを確かめたかったのです。

実験その1：AIコーチ

GPT-4 TurboをLLMとして使用し、その上に会話レイヤーを追加しました。そして、アシスタントにエグゼクティブコーチとしての役割を指示しました。先行研究では、（他のモデルの限られた評価の中ではありますが）GPT-4がロールプレイにおいて最も効果的であることが示されています。

このビデオは、私がこの組み合わせで初めて経験した様子を撮ったものです：

お気づきのように、少しだけ待ち時間がありますが、会話の能力は印象的です。言葉をまとめるのに苦労しているのは逆に私の方です。

私はAIコーチを試すためのリンクを、私のネットワークのL&Dの人々と共有し、彼らのフィードバックを求めました。

全体的な感想はポジティブでした：

"自然だ！"
"すごい！"
“素晴らしい”
"リアル"
“スムーズ”
"日常的に使えそう"
そして私の妻の反応は、“本当に気持ち悪いわね”

音声による対話についてのコメント

会話の流れがとても良く、すごく人間らしい。
音声は振り返るのに適しています。音声は直線的で（戻って編集することができない）、自分が何を言っているのかわからないため、人は音声では自己批判をしにくいのです。すぐにできそうに感じられ、少ない努力で済みます。
（推奨事項を文書化しようとするとき）AIコーチにスピードを落とすように頼むと、AIコーチはできませんでした。
AIであることは認識していますが、時間が経つにつれて意識しなくなりました。
トーンや抑揚が素晴らしく、本当の会話のようでした。
ちょっと待ち時間は気になりましたが、それほど悪くはなかったです。

AIコーチの有用性に関するコメント：

AIコーチは有益なアイデアや提案を提供してくれた。
良い質問で実際の内省を促しました。
アプローチと方法論が効果的でした。
AIコーチは、（肯定的、否定的に）ユーザーが言ったことを振り返る習慣がある。
推薦を練習するためのロールプレイが提案され、それは適切でしたが、ロールプレイ自体は少しぎこちなく感じました。

ユーザーインターフェースに関するコメント

（何度か言及しましたが）推薦文を文書化する方法が必要
どのように会話を始めていいのか、すぐには分かりませんでした
アバターがあると、誰かと話しているような感じがして便利
（振り返りのために）一時停止の方法が必要
体験の長さについて期待することを伝える必要がある
トランスクリプト、要約、次のステップ、後日参照できるリソースがあると便利

実験その2：表現理解を伴うAIロールプレイング

この実験では、表現理解とAIとのインタラクションが自然に感じられるかどうかを確かめました。私たちは、ロールプレイングによるインタラクションの実験を行いました。

これがその様子です。

この経験についてのフィードバックはまだあまり得られていませんが、私の最初の反応は以下の通りです。ロールプレイは、私を不快にさせるという点で効果的でした！大変でした。ストレスでした。他人の興奮気味な声を聞いて、ある程度の「リアルさ」を感じました。

でも、あくまでロールプレイだとわかっていたので、行き詰まったり、もっと不快に感じたりしたら、すぐにその場から逃げ出すこともできました。私が根気よく続けるためには、ある程度の説明責任や評価が必要なのです。また、私は接客業に向いていないことも学びました！

あるセールスリーダーにこのやり取りを試してもらったところ、良い解決に至るまでにこのAIの顧客と話すのに15分も費やしたそうです。（途中で戦術を変える必要があったそうです。）そのセールスリーダーは、「勝つ」ために問題を解決しなければならないと感じたと言います。セールスの人たちは、私とは違いました😁。

また、私の言葉の内容に頼ることなく、私の感情を察知できるかどうかを確認するため、表現理解能力を持つAIとのコーチングインタラクションも試しました。（たとえそれが私の言葉に反映されていなくても）私の感情を拾い上げることができたのは印象的でしたが、私はあまり好きではありませんでした。テストモードだったからか、AIが私の気持ちを理解したかのような振る舞いをすると、不真面目に感じました。AIはまた、会話に飛び込むタイミングを察知するのがうまくなく、私の言葉を何度も遮っていました。

結論：現時点では、表情分析は、おそらく実際の人と人とのやり取りの方が役に立つでしょう。

実験その3：GPT-4oでより速く

GPT-4oのテキストモードが使えるようになったので、実験その1で作成したAIコーチをもう一度試してみることにしました。テキストモードはGPT-4 Turboより50％高速と言われているので、GPT-4oを使えば待ち時間を短縮できるかもしれません。

GPT-4oをAIコーチに組み込むことで、待ち時間は少し減少しました。

結論：GPT-4oを使用することで、AIコーチの待ち時間は平均3.6秒から2.2秒に短縮され、会話がより自然になりました。

今後の展望

声を使った実験はまだ終わっていません。AIコーチについてL&D関係者からすでに寄せられたいくつかの提案（トランスクリプトの追加、アクションアイテムの要約、より良いユーザーインターフェース、分析、フィードバックオプションなど）を実施しています。

私たちは最新のLLMをテストし続けます。そして、新たなユースケース（外出先で使えるもの、会議中に使えるもの、管理タスクを完了するのに役立つものなど）のために音声に関する事を探求していきます。

ここでは、ライブのトランスクリプト作業を簡単にご紹介します：

L&Dのためのヒント

コンシューマーテクノロジーがさらに進化するにつれ、L&Dが生み出す体験はさらに大きなプレッシャーとなります。このことを念頭に置いて、会話型音声AIの出現はL&Dの専門家にとって何を意味するのでしょうか？

音声はすべてに適しているわけではありませんが、特定のユースケース（スキル開発など）には適しているようです。オーディエンスにとってそれが何なのかを把握し、適切なソリューションを見つけましょう。
音声AIによって、L&Dはより少ないコストでより良い体験をより多くの人に提供できるようになるでしょう。
確かに、効果的なコーチングには、今回の実験以上のものが必要です。しかし、AIとの対話は、学習プログラムを補完する素晴らしいものだと考えています。
GPT-4oは、ここでの力仕事のほとんどすべてを行うことができますが、L&Dは、補足的なワークフローへの接続だけでなく、レポートや分析を提供するベンダーを必要とするでしょう。

会話AIについて話したい方は、tblake@degreed.comへご連絡ください。

私たちと一緒に実験していただき、ありがとうございました！

他のDegreed Experimentsもぜひご覧ください。

By Taylor Blake, May 24, 2024

#能力開発の未来