先日のランチで「Google HomeはCUIだ、相手が応答するコマンドを人が覚えてそれを音声入力している」という話を聞いて、なるほどな、と思った。最初は面白がって色々と聞いていたが、今はほとんど時間、天気、タイマー、おはよう(1日の要約)しか使わない。
— Takuo Kihira (@tkihira) October 18, 2017
最近「音声入力アシスタントは、実質的なCUIの再現である」という意見を見て、なるほど、と思った。結論は以上です。以下はそれに付随する思考です。
CUIとGUIの差って、直感的な操作であるとか、フールプルーフ性の確保とか、そういう観点の違いも勿論あるんだけれども、CUIは結局「目の前の画面で何ができるのか知っておかないといけない」という点が大きいと思うんですよね。
iPhoneなんかは、むしろ「何が出来るかは画面を見れば分かる」の極致で、UXとしては「何か電源ボタンらしきボタンを押すと起動し、搭載機能の一覧が表示され、ユーザーはそこから必要なものを選択していく」という流れになっている。
これは、GUIが機能の一覧を視覚的に分かり易く表示するという役割に長けていて、悪魔の証明的「できないという判断」を除けば、おおよそ何ができるのかを一見さんでも理解できる。そういうユーザー体験を実現している。
いっぽう、CUIは「何ができるのか」という判断を、完全にユーザー側の知識に依存している。コマンド一覧を表示させる事すら「helpコマンドの実行」という動作に対する知識を要求しているし、「何が出来るかは知っておけ」、それが敷居の高さだったんだろう。
こうして考えてみると、音声入力アシスタントは、「何が出来るかは知っておけ」であり、本当にCUIの文脈の製品に見える。かといって、「何が出来るかを延々と音声で垂れ流される」というのは迷惑この上ないし、かつてSFの製品として語られた音声入力アシスタントはCUIへの先祖返りでしかない。
自然言語処理の発展、あるいは画面連動、そのほかにブレイクスルーが起きる未来が、彼らにあるのだろうか。