バーチャルなアナウンサーがニュースを読み上げる、と聞くと、どうしても平坦で無味乾燥な機械のナレーションを連想してしまう。しかし、AI(人工知能)アナウンサー「荒木ゆい」は人が話しているようでほとんど違和感がない。(荒木ゆいのアナウンスの音声ファイルは記事の後半にあります)
「荒木ゆい」を開発したSpectee(スペクティ)代表取締役村上建治郎氏に開発に至る経緯を聞いた。
スペクティの主力事業である「SNS速報サービスSpectee」は、国内の多くの報道機関が契約して活用している。スペクティでは、独自に開発したAIエンジンを用いて、ツイッターに投稿された記事や画像を解析し、「これはニュースだ」と判断したものをピックアップする。さらに自動的に「見出し」をつけ、その見出しを読み上げ、利用者に事件や事故が発生したことを知らせることができる。
―― このシステム(SNS速報サービスSpectee)はどのようにして思いつかれたのですか?
村上建治郎氏(以下、村上):東日本大震災の時に、みなさんSNS、とくにツイッターでスピーディに状況を知ることができましたよね。わたしもボランティアに参加したのですが、その中で、SNSの速報性を生かす報道システムを思いつき、2011年創業したのです。
―― ニュースを扱うということで気をつけているところはありますか?
村上:たとえば「死者が出た」など重大な内容の時には、それはツイッターの投稿だけでは真偽の判断はできません。警察発表などを待たなくてはなりませんよね。そのような真偽の判断が難しいものは、確認が必要であることの注意書きを付加した上で、「いつ、どこで、何が起きた」という事実の部分を見出しとして配信しています。あとは報道機関と一緒になって投稿を精査しています。それでも、報道機関にとっては、かなり手間と時間が削減できていると聞きます。現在は、報道機関だけでなく大手警備会社や大規模テーマパークなどでも導入を決めていただいています。「契約している●●ビルの近くが火事だ」「●●パークの観覧車が止まった!」なんて投稿があれば、いち早く担当者が気づけますからね。
―― 自動的に見出しをつける仕組みはどうやっているのでしょう?
村上:ツイッターの投稿内容をAIが解析して、「これは事故だ」などと判断したら、投稿の文章から事故の状況を解析し、適切な見出しを構成します。ただし、「熱いラーメンを食べて口の中が火事だ」なんて投稿を事件と判断しないように、機械学習をくりかえして、AIの判断力を高めてきました。
―― それを読み上げる機能も追加したのですよね
村上:お客さまから、「(ニュースを)読み上げてくれると便利だ」という声を多くいただきました。そこで、見出しを読み上げる機能を開発したのです。
―― 確かにこうして読み上げられると「はっ」と気がつきますね。
村上:最初はただ読み上げるだけの一般的な読み上げ機能とそんなに変わらないものでした。それだとどうしても平坦な機械音声になってしまい、聞き手に情報がどうしても伝わらない。さらに読み間違いも多い。そして、「今後は見出しだけでなく、ニュース原稿自体も読み上げられるようにしたい」と考えたとき、より長い文を違和感なく読み上げるためにはこのままの機能ではいけない、より優れた機能が必要ということで研究開発を重ねた結果が、この「荒木ゆい」です。実際にサンプルを聴いてください。
(スポーツ大会の結果を記したテキスト原稿を「荒木ゆい」が読み上げる)
―― うん、なめらかですね。機械特有のぎこちなさや平板さがなく、自然に聞こえます。
村上:AIに実際のアナウンサーの読み上げデータを10万件以上学習させました。「なめらか」の他にもうひとつ特長があります。それは「文脈を判断して読み替える」ことです。たとえばスポーツの試合結果で「巨人4 – 3 阪神」などとあるでしょう。これをちゃんと前後の文脈から判断して「4対3」と読み替えます。
―― 確かに読み替えましたね。また、「平昌」もちゃんと「ぴょんちゃん」と発生しました。それではわれわれのこの原稿を読んでもらうことはできますか?
(以下、「荒木ゆい」が読み上げたダミー原稿のテキスト 音声は下記スライダー左の再生ボタンで再際されます)
みなさんおはようございます。DG Lab HausがICT最新ニュースをお送りいたします。3月、東京ビッグサイトで開催されたリテールテックジャパン2018で、四谷株式会社が発表した、バーコードやICタグなしの商品を雑然と並べても、それぞれの商品を一括認識して、そのままレジ精算が可能になる仕組みが注目されていました。これは多種物体認識技術を活用したシステムとのことです。びっくりですね。
―― ぜんぜん問題なく聞こえます。句読点も意識しているんですか?
村上:句読点はもちろん意識して話すように学習させていますが、人間は「息継ぎ」をするでしょう?どの辺で息継ぎをするのが自然か、ということも学習させるのがたいへんでした。今、毎日500件ずつ新しい原稿を学習させています。これからもっと読み上げの精度は上がっていくでしょう。
―― こうした音声認識とAIについては、今グーグルやアマゾンなど世界中の大手企業も手がけていると思いますが?
村上:グーグルやアマゾンは、「会話」のAI技術ですよね? もちろん、それはそれですごいことです。しかしわれわれは「日本語のナレーション」において、トップの精度を持つAIをめざしています。長い文章、それも日本語をなめらかに読むという機能は、2020年もそうですが、今後、あらゆる分野で大きなニーズがあると思います。
* * *
たとえば交通情報や地方のラジオ局など、アナウンサーの確保や人件費に頭を悩ませているところには、定時のニュースなどは、AIアナウンサーで十分対応できるかもしれない。数年後、ラジオから流れてきた交通情報は「荒木ゆい」だったという可能性もありそうだ。