日常、問い合わせなどでチャットボットに触れる機会が触れてきた。また、AIスピーカーのように、声で稼働するデバイスも家庭に入り込んでいる。しかし、その応答は「何だかトンチンカンだな?」と感じることは少なくない。期待通りのコミュニケーションがとれないのは、機械が本当に我々の言葉を理解しているわけではないからだ。そんな「コミュニケーションとテクノロジー」をテーマにした「Communication Tech CONFERENCE 2019(主催:モビルス株式会社、クオンタムリープ株式会社)」が東京・虎ノ門で開催された。
カンファレンスではクオンタムリープ代表取締役の出井伸之氏が、自らの「出井ボット」にスピーチを代行させた。そして「出井さんそろそろスピーチしてください。残り10分です」と自らのボットに促されて「こうしてAIに仕事が取られていくのかね」と会場を笑わせていた。続いて登場したYahoo!共同創業者ジェリー・ヤン氏は1996年、日本でソフトバンクとYahoo!Japanを1カ月で立ち上げたこと、そして1997年、初めて中国へ行くと、ジャック・マー(アリババ創業者)がツアーガイドだったことなどを感慨深く振り返った。
2010年にYahoo!を去ったヤン氏はスタートアップを支援する側に回った。支援先の成功例としてはZOOM(ビデオ会議ソリューション)などがある。「ZOOMの成功は単なるビデオ会議ではなく、働き方を変えることを提唱したこと」と述べ、「単にテクノロジーの話にせず、人をつなげるということが大切」と続けた。さらにヤン氏は、「あらゆる社会の要素に対話が生まれる。政治家、倫理学、社会学の専門家が早い段階で話し合うことが大事」と持論を語った。起業についても「アイデアがあってアントレプレナーがいて、資金があって……。そんなものだけじゃありません。周りの支援、そして失敗していいんだというカルチャーが必要」と熱を込めて話した。
その後、パネルディスカッションに続いて、松尾豊東京大学大学院 工学系研究科 教授が登壇し、「ディープラーニングによるコミュニケーション技術の進化」と題した講演を行った。松尾氏は「この先に『言葉の意味・理解』という大きなものが待っている」と話した。これが冒頭述べた「機械がヒトの言葉を理解しうるか」ということだ。
講演ではディープラーニングについての説明を一通り行った後、「深層生成モデル」についても説明を行った。「生成モデル」とは大まかに言うと「今あるデータがどのようにできたのだろうか?」ということに着目し、そのデータの生成過程をモデル化する枠組みのことだ。そして「深層生成モデル」とは、ディープラーニングによる高次元な生成モデルだ。大ざっぱに言えば、何もないノイズのようなデータから、本物と寸分変わらないニセモノを作成できる。たとえば落書きしたハンドバッグの絵から、実写したようなハンドバッグ写真ができるという事例がわかりやすいだろう。
松尾氏によると深層生成モデルの進化により、「言葉の意味処理」が可能になってきたという。例えば画像から判断してAIが適切なキャプションをつけることができる。そして、逆にAIがキャプションから最適な画像を生成することも可能になった。松尾氏は「知能とは『動物OS』と『言語アプリ』の2階建て」と説明する。動物OSとは知覚(眼)や運動など身体的なもの。その動物OSの上に乗るのが、言葉や数字の操作などを司る言語アプリだ。松尾氏は「言語アプリと動物OSとの相互作用こそが意味理解の正体であり、言語アプリが適切に動物OSと結びついたときに本当の意味での機械翻訳が完成する」と話し「それは近い」と続けた。
松尾氏は、「まだ人とAIとのコミュニケーションでは何とか“会話っぽいもの”をやっているが、本当の意味はわかっていない」と言う。我々の違和感もそこから来る。松尾氏の言葉を借りれば、それは「言語アプリと動物OSが適切に結びついていない」ということによる。かなり近い将来「機械が言葉の意味を理解できるレベルに達する」と松尾氏は予測する。そして、ここから先数年で大きく変わるだろうと結んだ。