Open Innovation Platform
FOLLOW US

複数人対戦ゲームでもAIが人間に勝利、グーグル親会社傘下企業が開発

AIのエージェントがプレーするキャプチャー・ザ・フラッグの画面。ディープマインド提供(2019年5月30日入手、撮影日不明)。(c)AFP PHOTO / DEEPMIND

AIのエージェントがプレーするキャプチャー・ザ・フラッグの画面。ディープマインド提供(2019年5月30日入手、撮影日不明)。(c)AFP PHOTO / DEEPMIND

【AFP=時事】人工知能(AI)はこれまでチェスや囲碁など1対1で対戦するゲームで人間に勝ってきたが、チームワークが求められる複数人が対戦するゲームでも人間を負かすことができたとの研究結果が5月30日、米科学誌サイエンス(Science)で発表された。

 このAIの開発を手掛けたのは米IT大手グーグル(Google)の親会社アルファベット(Alphabet)傘下のAI開発企業ディープマインド(DeepMind)で、AIの「エージェント」らにマルチプレーヤー型ファーストパーソン・シューティングゲーム(FPS、本人の視点で戦うゲーム)を自習させ、人間と対戦させた。

 コンピューターはこれまでにも、1対1の対戦ゲームでは人間を打ち負かしたことがある。例えば、1997年には米IBMが開発したディープ・ブルー(Deep Blue)が、チェスの王者ガルリ・カスパロフ(Gary Kasparov)氏を破った。また、2017年には、グーグルが開発したAIが世界トップレベルの棋士に勝利している。

 だが、複雑な状況下で、チームワークと意思疎通が求められるマルチプレーヤーゲームについては、人間に勝てていなかった。

 マックス・ジェイダーバーグ(Max Jaderberg)氏率いるチームは開発に当たり、「クエイクIIIアリーナ(Quake III Arena)」の修正版を使用した。このゲームは1999年にリリースされたFPSで、現在もeスポーツ界で人気を保っている。

 また、ゲームモードは「キャプチャー・ザ・フラッグ(CTF)」と呼ばれる旗取りゲームを選択した。チームメートと連携し、防御しながら相手チームの旗を奪うもので、プレーヤーは攻撃と防御を組み合わせた複雑な戦略を練る必要がある。

 研究ではエージェントに自己学習させ、人間のプロのゲームテスターと対戦できるまで能力を高めた。

 研究チームによると「12時間練習をした後でも、人間のプロゲームテスターらのエージェントチームに対する勝率は25%にとどまった」。一方エージェントは、反応時間を人為的に低下させ人間の水準に合わせても、人間の能力を上回っていたという。

■「ファスト&スロー」

 研究チームはエージェントの学習にいわゆる「強化学習(RL)」を用いた。エージェントは旗を奪うと報酬が得られることを教えられるが、研究チームは強化学習の可能性をさらに広げる革新的方法を考案した。

「各エージェントが自身の内部報酬信号を学習したことが今回の研究結果の成果の一つだ」とジェイダーバーグ氏は指摘する。これは、旗を奪ったり、相手を撃ったりといったさまざまなタスクを達成すると、AIプレーヤーはその重要度に応じて自身に報酬を与えるということを意味する。

 研究チームはまた、エージェントを個別に訓練するよりも、まとめて訓練した方がチーム全体としてはるかに速く学習できることも発見した。  さらに「二つの時間スケール」学習と呼ぶ新たな構造も考案した。ジェイダーバーグ氏はこれをダニエル・カーネマン(Daniel Kahneman)の著作「ファスト&スロー(Thinking Fast and Slow)」に例えている。

「素早く考え素早く考えを更新するエージェントと、ゆっくり考えゆっくり考えを更新するエージェントに分けると、2種類の考えが互いに影響し合い、エージェントが世界について学習する方法を構築する手助けとなる」とジェイダーバーグ氏は説明した。

 対戦ごとに地図の配置を無作為に変えることも重要だったという。論文の共同執筆者ボイチェフ・チャルネッキ(Wojciech Czarnecki)氏は「エージェントが見つける解決法は一般的でなければならず、一連の行動を記憶するだけではだめだということだ」と語った。

■倫理的問題

 研究チームは今回、AIが将来的に軍事利用される可能性についてはコメントしていない。

 ディープマインドは過去に、いかなる軍事または監視プロジェクトにも決して関与しないと明言している。今回の論文でも「撃つ(shoot)」という言葉は一度も使われていない(このような行為についてはレーザー装置を向けて、相手をとらえると言い換えている)。

 ジェイダーバーグ氏は今後について、AIエージェントにクエイクIIIアリーナの完全版をプレーさせるとどうなるかを探ったり、ゲーム以外の分野でAIが問題解決に取り組める方法を見つけたりしたいと述べている。

「立案、戦略、記憶といった一般的な概念を探るための困難な環境としてキャプチャー・ザ・フラッグのようなゲームを用いている。これらの概念は、現実世界の問題解決に使われるアルゴリズムを開発する上で欠かせないと私たちは考えている」 【翻訳編集】 AFPBB News |使用条件