人工知能とバーチャルリアリティの接点（後編）人工知能がもたらす七〇億の幸福なバーチャル世界

2018年12月1日 VR/AR

AIとVR　後編（イメージ図）

　「人工知能とバーチャルリアリティ（VR）の接点」の前編では、最近のバーチャルYouTuber（VTuber）の盛り上がりや、アプリを使って3DCGのキャラクターを操作するアバター文化について紹介した。そして、それらの普及がもたらす未来のコミュニケーションについて検討した。

　後編では、機械学習の手法のひとつであるGenerative Adversarial Network（GAN）による動作生成（モーション学習）について紹介する。また、機械学習の応用によって一層の研究開発が進んでいる対話システムについての捉え方と、その可能性についても紹介したい。

人らしい動きを真似るモーション学習

　近年の人工知能分野における注目すべき技術として、「人間らしい」動きを真似るモーション学習と対話システムのトレンドについて紹介し、前編で紹介したVRの話題との関連性を考えていきたい。

　機械学習の発展において近年最も注目されている手法のひとつがGenerative Adversarial Network（GAN）である。これは、ランダムに与えた信号あるいは何らかの入力に対して、画像など意味のあるデータを生成するネットワークを学習させることを目指している。つまり、実在するかのような動物の画像を出力する、あるいは求められているようなアクチュエータのコマンドを出力することが目標になる。そこで、その出力が本物らしいか否かを判定するために別のネットワークを並行して学習させるということが、GANの重要なアイデアである。

　前編で紹介したように、Perception NeuronなどのキャプチャシステムやHTC VIVEとVIVEトラッカーなどが低コストかつ簡易に取り扱えるようになったことで、人間の動作を学習させることがGANの興味の対象になりつつある。

　人間らしい動きを生成できるネットワークが実現できれば、直近ではVTuber用の簡便なモーション認識システムとしての導入や、各演者の画像からのトラッキングの補正に使うなどへの応用が期待される。その応用についての真価は別にあるが、そちらは後述する。

人工知能による対話コミュニケーション

　ここで話題を移し、人工知能分野における対話システムについて述べたい。対話システムの究極の目標としては、人間と話すのと同様の「対話」にあるのではないかと思われるが、そもそも相手の言葉や文脈を理解した上で会話することが目標としていいのかという視点は重要である。

　よりチューリングテスト的な考え方によれば、つまり人間のように受け答えし、外から区別がつかなければ良いという視点に立てば、1960年代に開発されたELIZA（イライザ）の時代から既に対話をしているという感覚はあった。

　さらに、Long-Short Term Memory（LSTM）を始めとする機械学習の手法による回答の生成、長文回答構築のためのシナリオ設計といったノウハウが集まり、文の組み合わせ学習・アテンションなどが発展することによって対話感は高まっていく。

　このような技術の発展により、「汎用人工知能」といった困難かつ実現が難しい話題に触れることなしに、人のように対話感を感じさせつつ会話を行うシステムを作ることは十分に現実味がある。つまるところ、いわゆる「モブ」としての対話（＝会話）ならばそういった対話システムでも実現されるかもしれないという視点が、以下の議論につながる。

ドワンゴの川上氏が語るバーチャルリアリティの未来

　株式会社ドワンゴの創業者・取締役CTOの川上量生氏は、VTuberの台頭によるバーチャルリアリティの普及、人工知能などの技術の発展に伴い、現実世界からバーチャル世界へと人間の活動領域が移行していくとインタビューなどで応えている。人工知能やテクノロジーの発展によりもたらされるのは、社会全体の生産性の向上と、それに伴うベーシックインカムの導入、人間がいまほど働かなくても社会が機能するようになり、資本主義が形骸化していくと予測している。

「僕が予想するのは、最終的には一人ひとりが『自分がもっとも幸せになるようにAIによってカスタマイズされた』仮想現実の世界に住むようになることです。」（朝日新聞社　GLOBE+「AIが社会の主役に、人間の歴史は終わる　ドワンゴ川上量生氏が描く未来図」）

　それは、必ずしも自分の思うようにならない現実世界における難しさを、あらゆる点で、自身に対して理想的であるバーチャル空間での活動によって、精神的に補っていくことを期待していると言える。

　そのような各個人に最適化されたバーチャル空間を実現するために、先述したアバター（3DCGモデル）の簡便なモデリング、人間らしい動きを生成するネットワーク、対話感をもたらす対話システムなどが鍵になる。

　バーチャル空間において、自分以外の全人類（すなわち、モブとしてのアバター）が、人間のように動き、対話感をもって受け答えをする世界を実現するため、人工知能分野の技術がVRという分野と接点を持つことが期待される。