サイトアイコン DG Lab Haus

北海道大学が俳句AIを開発する理由 一人称視点とマルチモーダルな情報処理

北海道大学の川村教授(右)とテクノフェイスの石田社長

北海道大学の川村教授(右)とテクノフェイスの石田社長

「国境の長いトンネルを抜けると雪国であった。夜の底が白くなった。信号所に汽車が止まった。」

 あまりに有名な川端康成の長編小説「雪国」の冒頭だ。アメリカの日本学者で名訳家といわれるエドワード・G・サイデンステッカーによる「Snow Country」では、こう英訳されている。

<The train came out of the long tunnel into the snow country. The earth lay white under the night sky. The train pulled up at a signal stop.>(1st Vintage International Ed版)

 英訳版の冒頭部分をさらに日本語へ直訳すると、「(汽車は)雪国への長いトンネルから出てきた。」だろうか。両方を比べてみると、日本語の原文が、汽車に乗車している人による一人称・主観的な視点なのに対し、英訳は空から汽車を見ているような、俯瞰的・客観的な視点となっている。

 北海道大学の人工知能(AI)研究者、川村秀憲氏(大学院情報科学研究科教授)はこの日本語と英語の特徴、「虫の視点である一人称の日本語と、神の視点で客観的な英語」の違いに注目している。

* * *

 北海道大学や札幌市、在札幌のベンチャー企業などによるコンソーシアム「札幌AIラボ」で俳句AIの開発が進んでいる。モデルは、生涯2万を超える句を遺した小林一茶。一茶の句とイメージに合う写真の組み合わせを教師データとし、ディープラーニングによって、主に花鳥風月の写真から新しい俳句を生成させるのが目標だ。10月に札幌で開催されるITなどの国際コンベンションNoMapsでβ版がお披露目される。

 なぜ俳句なのか。冒頭の「虫の視点と神の視点」が、その理由の一つだ。

 機械はネコの画像を大量に読み込み、そのパターンや特徴を抽出することで、ネコの画像を分類することができるようになった。写真説明文(キャプション)を生成することも可能だろう。しかし人間のように、ネコという記号と、概念や実態としてのネコを対応させて認識しているわけではない。また、キャプションの意味、セマンティックを理解しているわけではない。人工知能研究の問題のひとつ、「記号接地問題」と言われる課題だ。

 これまでAIを発展させてきたモデル、チェスや将棋、囲碁といった完全情報ゲームは、論理的推論の世界だ。目的が明確であり、客観的な正解や勝ち負けが存在する。一方の俳句には正解や勝ち負けはない。機械が生成した写真キャプション-例えば「リンゴをかじるネコ」-は正確かどうか、ある程度の評価は可能だろう。しかし、俳句を客観的に正解、不正解と評価することは難しい。

 俳句は、主観的な認識により、出力つまり五七五の定形テキストを生成する行為だ。俳句に詠まれる感動や感心は心の動きであり、対になる風景や情景がある。心の動きを説明できれば、人間がなぜ感動するのか分かる、かもしれない。こうした感性や感情を理解するためには、心の動きである虫の風景、一人称視点が欠かせないことになる。

 川村教授は「俳句の五七五には、人間の心の動きや感動の情報が詰まっている。人間の感情や感性の理解のため、状況や情景と心情との関係を画像データと言葉で、写真とキャプションのように客観的ではなく、一人称の主観的な視点で結びつけることはAI研究で重要な視点。記号接地問題にもヒントが得られるかもしれない」という。

 短期的には、AIによる日本語、自然言語処理に関わる分野での発展が期待される。開発メンバーの一人、札幌のIT企業株式会社テクノフェイスの石田崇社長は「写真からのキャプション生成はもちろん、メモを整った書式にする、音声データを整理して文書にする、デザインからキャッチコピーをつくるなど応用範囲は広そう」と考えている。

 さらに、データセットを研究用に開放することで、より良い俳句の機械学習方法がないかを競うコンテスト、また人間の昨品と機械の昨品を比べ作者を見分けるような俳句のチューリングテストもできそうだ。

* * *

 俳句の代名詞と言われる松尾芭蕉の「古池や蛙飛びこむ水の音」-。

 カエルが池に飛び込んだ時の水が跳ねる音。これを、人はこれをどう想像するだろうか。ポチャン、チャポン、ピチャ…などさまざま言葉として定義できそうだ。あるいは、どんな音を聞けば、このような句ができるのだろうか。

 人間の身体は、外界とのインターフェースである。人間は、視覚情報を中心に聴覚や触覚などの五感、センサーとしての身体を通じて入力されたさまざまな情報を統合・処理するマルチモーダルな情報処理をしている。そうして、外界への出力、相互作用を行っている。

 俳句AI開発の大目標として川村教授は、音や感覚など「マルチモーダルな知覚に関連づけた機械学習までいきたい」と考えている。視覚だけではなく、聴覚や触覚、空間感覚などさまざまな情報を処理し、テキストなどとして出力するAIの開発だ。

 俳句AI開発にアドバイスをしている北海道大学の日本語研究者、伊藤孝行氏(大学院メディア・コミュニケーション研究院准教授)は、学際的研究、さまざまな分野の研究者が協力するインターディシプリナリーに加え「AIを正しく理解し、AIを正しく活用し、AIを通して俳句を通した新たな付き合い方から、俳句の新しい魅力が発見できることを望んでいる」という。

 俳句は、Haikuとして英語圏でも通用するソフトコンテンツだ。一般に親しみやすい俳句をモデルにすることで、俳句AIは、難しいと思われがちなAIを身近なモノにし、また俳句の新しい価値を提示してくれる可能性を秘めている。

* * *

 札幌AIラボは、俳句AIの教師データ作成にボランティアを募っている。ぜひ、このサイトをのぞいてみてほしい。

関連リンク:

北海道大学大学院情報科学研究科情報理工学専攻複合情報工学講座調和系工学研究室

北海道新聞記事「人工知能が写真で一句 「AI一茶くん」札幌で開発中

 

モバイルバージョンを終了