人の身体的な特徴を用いて個人を認証する生体認証(バイオメトリクス)は、IDやパスワードを使う従来の認証に比べると、スピーディに正確に行えるのが特徴だ。銀行ATMでおなじみの指紋認証のほか、最近では、東京オリンピック・パラリンピック大会でも採用予定の顔認証や、経年変化がない目の虹彩模様から個人を特定する虹彩認証が注目を集めている。こうした手法に加え、導入と利用がより容易な生体認証手段として実用化への期待が高まっているのが「声認証」だ。
人の声を、横軸に時間、縦軸に声(音)の周波数(高低)を設定したグラフは、声の特性を表すヨコ縞模様となる。これが「声紋」だ。声認証は、この声紋から話者の声の特徴を抽出し、あらかじめデータベースに登録しておいた特徴データと照合することで個人を特定する技術だ。
声認証は、汎用的なマイク1本あれば利用可能なほか、光の加減などの環境条件に左右されにくく導入が容易だ。さらに電話を用いて離れた場所からでも認証ができるアドバンテージがある。
現在、声認証の研究開発はどういった段階にあり、どのような活用法が想定されているのか。声認証技術の研究開発に携わっている日本電気株式会社(NEC)・バイオメトリクス研究所の越仲孝文氏(工学博士)に現状を聞いた。
※ ※ ※
越仲氏によると、声認証技術には2つの種類があるという。ひとつが、「ひらけゴマ」など定められたフレーズを発声する「テキスト依存方式」で、約0.5秒から約3秒といった短い時間での照合が可能。もうひとつが、非定型のテキストを照合に用いる「テキスト独立方式」だ。しゃべる内容や言語は自由だが、照合にはテキスト依存方式に比べて少し時間がかかる。越仲氏らが研究開発しているのは後者のテキスト独立方式の声認証技術だ。声認証技術の開発状況について、NIST(米国立標準技術研究所)が開催しているベンチマークテスト「Speaker Recognition Evaluation」がひとつの目安になる。
「声認証技術のベンチマークテストでは、電話会話の音声やネット動画の音声を用いて認証の精度や性能を競いますが、人間でも聞き取りにくいほどの雑音や、聞いたことがないような言語のやりとりなど、かなり厳しい条件の中で行います。この難題に対してNISTが2018年ラウンドで出したベースラインの精度は、約89%(誤認証率約11%)。これは現状ではかなりハードルが高い数値です」
越仲氏らNECチームはNISTのベンチマークテストで、約95%(誤認証率約5%)という高い精度を記録した。
同社では精度やスピードを高めるためにさまざまな工夫を施しているが、そのひとつが独自のニューラルネットワーク(深層学習)を組み込んだことだ。近年の声認証では人の声の特徴を抽出する際にニューラルネットワークを用いるが、NECでは従来の特徴抽出ネットワークに加え、音声データの話者の個性が現れている箇所に注意を向けさせる「注意ネットワーク」を開発。この2つのネットワークを組み合わせることで、声の特徴を素早く的確に捉えることができるようになり、認証に必要な発声時間を従来の約10秒から約5秒に短縮することができた。
また、ひとつの音声データにノイズを加えたり声質変換を行ったりすることで、元の音声とは異なった音声データを作る独自のデータ拡張技術を開発。学習データを約20倍に拡張することで、AI(人工知能)の学習を強化している。
具体的な活用法は? 悪用の防止策は?
実際にこうした声認証技術が実用化されると、どのような活用法が考えられるのか。さまざまな活用法が考えられるが、「電話口で使える」という特徴からコールセンターやテレホンバンキングなどでの利用が思い浮かぶ。
「例えば証券会社や銀行のコールセンターでは、取引をするときに、名前、住所、電話番号など3つ4つの質問をして本人確認をするのが一般的です。ただお客様からすると時間も取られてしまうため、あまり長くしたくない。そこで声認証を使い、『もしもしAですが、○○の件で電話しました…』くらいの短い音声と、会員番号などの2要素ぐらいで本人確認ができると、業務が効率化し、お客様側も気持ちがいい。事前にお客様の声を登録しておき、そのお客様から電話がかかってきたときに素早く特定することも可能でしょう」と越中氏。
便利な一方で、ひとつ気にかかるのが、 “なりすまし”などの悪用の可能性だ。
越仲氏によると、まだこれからの技術なので顕在化していないが、将来的にはなりすましなどが起こる可能性はあるという。音声合成や声質変換などで作られた人工的な声も脅威になるとし「(人工知能に)たくさん学習させると、その人の声を模倣できるようになり、好きな言葉をしゃべらせることができるようになります。これも将来的な脅威になると危惧されます」と述べる。
こうした脅威に対処するため、声認証を開発する側と音声合成・声質変換の研究を進める側が協力し合い、業界全体で対応していく必要がある。
具体的な対処法としては、録音された音声や人工的に作られた音声は声紋に変換すると、高音域のパターンや音のつながりの滑らかさなどに肉声との違いが出るので、そこを見極める。あるいは、音声合成を使う際には特定の信号(電子透かし)を埋め込むといった方法が研究されているとのことだ。
NECでは、コールセンターやテレホンバンキングなどでの実用化を想定した実証実験などを進め、「2020年の実用化を目指す」としている。声認証はすでにGoogle Homeなどスマートスピーカなどには実装されており、英国の銀行HSBCではVoice IDとして声認証が実用化されている例もある。また、国内ではクレジットカード大手のジェーシービーでは、丸紅情報システムズ株式会社の協力を得て米国のニュアンス・コミュニケーションズ・インクが開発した声紋認証システム「VocalPassword」を用いてのPoC(Proof of Concept:概念実証)を行うことを今年の5月に公表している。
声による認証は実用化の段階に来ており、その精度が高くなり信頼性が増せば、比較的コストのかからない認証方法として広く普及するだろう。