スマートスピーカーには「VUI」設計が必要

大本あかね

8年前

　筆者はスマホのメール入力を音声で行っており、インタビューの文字起こしも音声入力が当たり前だと思っている。つまり、音声入力が大好きなひとりだと最初に述べておく（世間はそうでもないらしいという事象にも出逢うが）。

　今年はスマートスピーカー（音声操作によるアシスタント機能と無線通信接続機能を持つAI搭載のスピーカー）が話題にのぼることが多かった。誕生して間もない製品なので、この先、徐々に完成度は高くなっていくだろう。評価を下すのはまだ早いかもしれないが、現時点で未来を見据えた設計になっているかどうかがキーだと考えている。

　米国での販売が先行していたが、日本でもスマートスピーカーの販売がスタートしたので、筆者も早速試してみた。

ユーザーのモチベーションを下げるやり取り

　まず、グーグルから発売されたスマートスピーカー「Google HOME（グーグルホーム）」。期待して購入したが、結果は残念なことになった。

　筆者は「UX DAYS TOKYO」というイベントの主催者であり、UX（User Experience:ユーザー・エクスペリエンス）、そしてUI（User Interface:ユーザー・インターフェイス）について日々思いを巡らせ、研究を重ねている人間だ。ご存じの方も多いと思うが、UXはそのサービスや機器を使ったユーザー体験、UIはそのサービスや機器と使うユーザーとの接点である。

　そんな自分がGoogle HOMEを使ってみた経験はこうだ。

　まず、「音楽をかけて」とお願いすると、Spotify（スポティファイ:音楽ストリーミング配信サービス）のアカウントと紐付けてあるので、すぐに音楽をかけてくれる。音量についても「もう少し小さくして」などの対応もしてくれる。

　AIが搭載されているので、ジャズを流した後に、1990年代の音楽リクエストでMISIA(ミーシャ)を流し、「別の曲にして」と依頼するとMISIAの曲の中でもジャズテイストの曲を選んでくれる。このあたりは「なるほど！」という感じだ。

　次に、音声検索が便利なシーンとして思いつくのが”料理をしている時“だ。ここから本領発揮のはずが……。

「OKGoogle。プリンの作り方教えて？」

「すみません、お力になれません」

「プリンだってプリン」

「〇〇キロメートル圏内に3軒のお店を見つけました」

と、近くのお店を紹介するに留まった。同製品を購入した友達も数ヶ月でほぼ利用しなくなったという。まだ使っている人に聞いても、タイマー利用かお天気を聞くくらいということらしい。

　現在のGoogle HOMEの設計は店舗案内などローカルビジネスへの誘導が多くなっており、わからない点は、「お力になれません」だけの設定になっているようだ。UX、UIの専門家としての観点で感じるのが、こうした機器やサービスが「わからない、力になれない」と返すのでは人間のモチベーションが続かないということだ。

アマゾンとグーグル使いやすいのはどっち？

　次に、日本でも受付を開始した音声AI「Alexa（アレクサ）」を搭載したアマゾン社のスマートスピーカー「Amazon Echo（アマゾンエコー）」を試す。

　アマゾンの強みでもあるECとの連携も特徴的だが、スマートハウス（情報技術によって家庭内のエネルギー消費を最適にする家）化のための連携にも柔軟性を持たせた設計になっている。例えば、部屋のライトやテレビ、エアコン、玄関ドアの鍵、窓のロールカーテンなどが音声でコントロールができるようになる。このコントロールで、包括的に室内の温度などを測定して最適に気温を保つこともできる。ダイソンやルンバなどAlexa対応の人気家電も多い。

　そして、何よりユーザーが困っている、あるいは悩んでいる情報を問い合わせデータとして貯めることができる設計を評価したい。UX設計の観点で、Google HOMEとAlexaを比較すると大きな違いがひとつある。それはユーザーが繰り返し質問した際に起こる。

　Google HOMEもAlexaも、両方とも基本的に難しい質問や対応できないコマンドは「すみません、わかりません」「お役に立てません」と返してくるが、ユーザーが繰り返し同じような質問をすると、Alexa では、「そのお答えはヘルプディスクにお問い合わせしてください」と回答を変えてくる。

　わざわざヘルプに問い合わせまでする要件は、ユーザーがどうしても解決したい内容だと判断できる。この問い合わせの内容は企業側からすると重要なデータとなる。つまり“問い合わせまでする内容というのはユーザーが欲しがっている内容であるから優先度が高い内容”という判断ができるようにしているのだ。とはいえ、こちらもまだ発展途上の部分も多い。

VUIの設計が製品の優劣を決める

　使ってみて感じたのは、今後「VUI（ブィユーアイ:Voiceuserinterface）」の設計がより重要になるということ。つまり、声による機器・サービスとの接点の設計の善し悪しが、使いやすさに大きく影響するということだ。

　ピンと来ない人にVUI、音声による機器の操作でわかりやすい失敗例をあげよう。おそらく5年程前、あるビジネス系テレビ番組のこと。音声でメールソフトを立ち上げてメール送る技術の開発を紹介する内容だった。

　その中では、50代の女性が音声でメールソフトを立ち上げて、メールを送ることを試みたが、実際にはできなかった。50代女性は音声だけでメールを送くることができると言われたので、いきなり「こんにちは！加藤さん」とスマホに呼びかけていた。

　開発者は「メール」という言葉でメールソフトが立ち上がるように設計していたのだが、50代女性はいっこうに「メール」という言葉を発してくれない。番組は「課題が残るが頑張ってください」とのコメントで締めくくられ、開発者は予期せぬ展開に頭を抱えていた。

　それから5年経ったが、このような問題がスマートスピーカーだけでなく、音声で操作するAIのチャットボット（Chatbot）でも頻出している。話がかみ合わないため用が足りず。それゆえこれらのサービスが未熟だと感じる人が多いはずだ。現在、Google HOMEをはじめ、音声入力にはAIが搭載されているが、会話のキャッチボールを行いながら、最終的にユーザーが欲する結果に達するところまでの能力はない。

　そうなると、スマートスピーカーなどの音声入力機器が一般的になるには、ユーザーの導線、ユーザーの心理を踏まえた音声入力のインターフェイスの設計をする必要があるのではないだろうか。ウェブサイトの入力画面をはじめ、家電や車などでは、その操作向上のためインターフェイスを改良する工夫が続いている。同様に音声入力もVUIというキーワードの認知が広がることによって、他の製品・サービス同様の工夫が行われるだろう。スマートスピーカーの普及にあたって、VUIをデザインする者の役割は大きいと言えるのではないか。