AI同士の対局から新たな将棋戦法は生まれるか〜AobaZeroプロジェクト

2020年8月20日 AI

AI同士の対局から新たな将棋戦法は生まれるか（イメージ図）

　将棋ができる人はどうやって将棋を学んだのだろうか？　基本的なルールを教わり、「さあ、次はあなたの番です」と言われても、最初のうちはどの駒をどこに動かすべきなのか解らない。人に教わったり、本やネットで勉強したりすることで、戦い方全体の流れや、どんな場合にどう指せば最善なのかという局所的な駒の動きも覚えていくことになる。それらは将棋の長い歴史の中で、人間が試行錯誤し、磨いてきたものだ。

　同様にもし、将棋についての予備知識が何もない２つのAI（人工知能）にルールだけ教え、「さあ、お互いに戦ってごらん」としたら、どうなるのだろう。

　人が長い歴史の中で編み出してきた攻め方や守り方を、AIは同じようにゼロから編み出すことができるだろうか。さらには、人間が思いつかないような戦法を生み出すのだろうか。

最強AIの追試プロジェクト

　2017年にアルファベット（Alphabet）傘下のディープマインド（DeepMind）がAIシステム「AlphaZero」を発表した。AlphaZeroでは、コンピュータに将棋、囲碁、チェスのルールだけを教え、あとはひたすら自己対戦で強化を図っていくという試みを行った。公表された結果によると、学習し、鍛えられたAlphaZero は、24時間以内に当時世界最強と評価されていたそれぞれのソフトから高い勝率を上げるまでに成長した。ディープマインドは、その手法の中心部分については公開したものの、どんな手を指し、どんな棋風（着手の特徴）だったのかは非公開のままだ。

　そのAlphaZeroの将棋ジャンルの追試を行おうと、日本の有志による「AobaZero」プロジェクトが2018年にスタートした。山下宏氏（フリーランスエンジニア : 将棋ソフト「YSS」の開発者）、保木邦仁氏（電気通信大学大学院情報理工学研究科准教授 :　Bonanza開発者）、小林祐樹氏（総合電機メーカー勤務）の３名が中心となり、世界の将棋ファンの力を借りて、AlphaZeroが実際どんなものだったのかを再現しようというものだ。

　AobaZeroプロジェクトについて、山下氏、保木氏にお話を伺った。　　

＊　＊　＊

―　プロジェクトの概要を教えてください。

「2018年11月にAlphaZeroの追試をするべく、３名でスタートしました。2019年3月に学習を開始、5月からは一般ユーザーにも協力していただく形で公開しました。2020年8月現在、人間を超える棋力に近づきつつあると思います」（山下氏）

　AobaZeroは、elmo（エルモ :　第27回世界コンピュータ将棋選手権優勝プログラムで、将棋プログラムとして初の升田幸三賞を受賞）に7割ぐらい勝てる所まで来ていると山下氏は話す。ディープマインドのAlphaZeroの勝率は9割程度だったという。

―　「AlphaZeroの追試」ということはどういうことなのでしょうか？　

「AlphaZeroの実験を再現して、どのような棋風だったのか、どんな手を指すのかを再現することです」（山下氏）

　AobaZeroは、（おそらくAlphaZeroと同様に）棋士の専門知識をほとんど利用せず、自己対局を繰り返すことにより、独自に将棋を学ぶ。そして、将棋の歴史にも見られるような、戦法の流行や推移を人工的に形成しているように見えるという。

AobaZeroは新しい戦法を生み出すか

「AobaZeroはすでに新しい戦型、囲い、手筋などを見つけている可能性もあります。ところが『穴熊』、『金無双』といった、人間がよく使う優秀な王の囲い方は見つけていません。万能ではないことも示唆しています」（山下氏）

―　AobaZeroは人間が考えもしないような戦法を見つけ出している可能性もありますか？

「その可能性はありますが、まだちょっと解析が足りないところもあります。試行錯誤をしながら、新しい戦法を生み出すというところは人間に似ているのかもしれません。しかし、言ってしまえば人間の思考過程だってよくわかっていないわけです」(保木氏)

　現時点では、入玉（一方の王将が相手敵陣に入ること）の展開となる将棋についてAobaZeroは正確に判断できているとのことだ。

「将棋の本質は、王を寄せる（詰ます）ことではなく、入玉して点数で勝つことだとコンピュータは主張しているように見えます」（山下氏）

AIは何ができるのかという知見を得る

―　このAobaZeroプロジェクトは、完成までどのくらいのところにあるのでしょう？　また、人工知能研究にどのような影響を与えると考えますか？

「半分くらいのところまで来ていますかね」(山下氏)

「ディープマインドのAlphaZero の研究成果は人工知能全般の発展に重要な影響を与えると考えます。しかし、これを追試する我々のAobaZero の研究成果自体は、今後の人工知能研究に直接的な影響を与えるとは考え難いですね」(保木氏)

―　直接的にすぐ何かのビジネスに貢献ということはなさそうですか？

「現実的にはむずかしいと思うんですよね。現実社会のできごとって、将棋の盤上の戦いとはちょっと違うのではないかと考えます。この研究を通じて『そのような状況下で、こういう方法がうまくいった』という知見は重要だとは思いますが」(保木氏)

「将棋中継の評価などで、『AobaZeroの評価』みたいに出して楽しむ分には面白いかもしれませんね」(山下氏)

「何に応用できるのかという観点よりも、『人工知能はいったいどういうことができるのか？』という知見を人々に与えられるのではと思います。人工知能技術の発展のスピードというものを実例的に、感覚的に把握することができるようになるのではないでしょうか。たとえば、チェスで人間を打ち負かしたのが、1997年。そこから、20年ぐらいたつと、囲碁や将棋でこうして『自己対戦』という型式で、指し方を覚えて勝手に強くなっていくようなことを知ることができました。ここから20年経つとどういうことができるかと思いを馳せる材料になるのではないでしょうか」(保木氏)

―　『人工知能はいったいどういうことができるのか？』ということを知るための材料になるということですか？

「AobaZeroが指した棋譜を並べてみて、将棋の強い人がそれを見ると、『ああ、人工知能はこんなことができるようになったんだ』と知ることができるのではないでしょうか。人工知能に関するニュースを新聞・テレビで見るのとは、そうとう違う感覚を受けるのではないかと信じています。また、人工知能の研究者にとっては、ソースコードを読んだり、手法を学んだりして刺激を受けることができると思います」(保木氏)

―　AobaZeroのプロジェクトは、次にどこへ進むのでしょう？

「まずはAlphaZeroの再現ができてから考えるという感じです(笑)」(山下氏)

「まだ、再現できるかどうかもわからないですからね(笑)」(保木氏)

　現在、山下氏、保木氏らは、AobaZeroプロジェクトへの参加者（※）を募っている。

「GPUなど特別な機材がなくとも、ブラウザさえあれば棋譜を生成することができます。新しい手を発見するのはみなさんのパソコンかもしれません」(山下氏)

※山下氏のAobaZero解説・参加方法など（http://www.yss-aya.com/aobazero/）

＊　＊　＊

　将棋ファンの読者のために、取材の合間に山下氏に伺ったことを追記したい。当媒体では、2017年10月に山下氏の「将棋が見せてくれた人工知能の世界」についての講演を取り上げた。（記事：「史上最強棋士はだれか　将棋AIが出した答えは」）

　そこでは、山下氏が古今東西の棋士の棋力をレーティングする仕組みを発表し、羽生善治棋聖(当時)が最強のレーティングをたたき出したという内容であった。この記事の中で、山下氏は藤井聡太四段(当時)にも触れている。その棋譜を解析したところ、レーティングは羽生善治棋聖に匹敵する3300ポイントではないかということを述べられていた。　

―　藤井聡太棋聖の棋力のレーティングはあの頃よりさらに伸びていると思われますか？

「対戦成績を見る限り、あの頃より強くなられているのではないかと感じます。しかしコンピュータでの客観的な指標は現在ありませんのであくまでも感想です」（山下氏）

　コンピュータ将棋界を、発展させてきたレジェンドたちが取り組むAobaZeroはこの先何を見つけ出すのだろうか。そして、藤井棋聖など若手の棋士たちは、こうした新たなAIから新しい発想を得てゆくことだろう。人とAIの共存する将棋世界はまだまだ面白くなりそうだ。