独学で学んだAIが、戦略ゲーム「囲碁」で最高の成果を上げる : ネイチャーニュース＆コメント

Xavierarnau/Getty

AlphaGo Zeroは、人間のプレイヤーが何千年も発明していない囲碁の戦略を考え出しました。

Google傘下のDeepMind社の人工知能(AI)プログラムが、人間の手から一切学ぶことなく、戦略ゲームの囲碁で超人的なレベルに到達しました。

人間のインプットなしに自己学習できるこの能力は、あらゆるタスクに取り組むことができる一般的なAIを作るという夢に向けた重要なステップです。

この人間の手を借りずに自己学習する能力は、あらゆる課題に取り組むことができる一般的なAIを開発するという夢に向けた重要なステップですが、近い将来、タンパク質の折り畳みや材料の研究などの科学的課題に取り組むことができるようになるかもしれません。 “

ロンドンに拠点を置くDeepMind社が開発したこれまでの囲碁コンピュータは、専門家が打った10万局以上の人間の対局を学習することから始まりました。 AlphaGo Zero」と呼ばれる最新のプログラムは、ランダムな手を使ってゼロからスタートし、自分自身と対戦することで学習していきます。 40日間のトレーニングと3,000万回の対局を経て、このAIは、これまで世界最高の「プレーヤー」であったDeepMind社のAI「AlphaGo Master」を打ち負かすことができました。

ワシントン州シアトルにあるアレン人工知能研究所の最高責任者であるオレン・エツィオーニは、強化学習と呼ばれるこの技術をうまく機能させることは難しく、リソースも必要だと言います。

Strategy supremo

古代中国のゲームである囲碁は、黒と白の石を碁盤の上に置き、領土を支配するゲームです。 AlphaGo Zeroは、前作同様、脳の構造にヒントを得たAIの一種であるディープニューラルネットワークを用いて、盤面から抽象的な概念を学習します。

最初、AlphaGo Zeroの学習は、人間のプレイヤーと同じように行われました。

最初のうちは、AlphaGo Zeroの学習は、人間の棋士と同じように、貪欲に石を取ろうとしていましたが、3日後には、人間の専門家が使う複雑な戦術をマスターしていました。 “何千年にもわたる人間の知識を再発見したのです」とHassabisは言う。 40日後、プログラムは人間が知らない遊びを発見しました（「新しい知識の発見」参照）。

新しい知識の発見

Deepmind

純粋な強化学習を用いたアプローチは、能力が常に一貫して進歩するとは限らないため、AIでは苦戦を強いられてきたと、AlphaGoの開発を主導してきたDeepMind社の科学者、David Silver氏は説明会で述べています。ボットは、前任者を打ち負かすことはあっても、以前のバージョンの自分を打ち負かす方法を忘れてしまうことが多いのです。

AlphaGo Zeroの前任者は、2つの別々のニューラルネットワークを使用していました。1つは可能性の高い最善の手を予測し、もう1つはそれらの手の中から最も勝つ可能性の高いものを評価しました。後者を行うために、彼らは「ロールアウト」と呼ばれる、可能性のある結果をテストするために、高速でランダムなゲームを複数回プレイしました。一方、AlphaGo Zeroは、単一のニューラルネットワークを使用しています。それぞれの局面で起こりうる結果を探るのではなく、単純にネットワークに勝敗を予測させるのです。これは、100人の弱いプレイヤーのゲームに頼るのではなく、専門家に予測を依頼するようなものだとシルバーは言います。 “

これらの機能を1つのニューラルネットワークに統合することで、アルゴリズムはより強力に、より効率的になったとシルバー氏は言います。

これらの機能を1つのニューラルネットワークに統合することで、アルゴリズムはより強力に、そしてより効率的になりました。ハサビスの試算では2,500万ドルのハードウェアが必要とのことですが、前作ではその10倍の数が必要でした。また、数ヶ月ではなく、数日で自己学習した。

Think outside the board

DeepMind社の研究者の何人かは、すでにAlphaGoの研究から、同様の技術を実用的なアプリケーションに応用しているとハサビスは言います。

タンパク質の折りたたみの例を作るには、何年もかけて苦労して結晶化する必要があるため、そこから学べるデータは少なく、また、アミノ酸配列から総当たりで構造を予測するには、可能性のある解が多すぎます。しかし、このパズルには、囲碁と共通の特徴があります。どちらもよく知られたルールがあり、ゴールが明確に示されています。

シルバーは、このアプローチをより一般的な実世界のタスクに適用するためには、AIがより少量のデータと経験から学習する能力が必要であると認めています。また、2015年にDeepMind社の別のロボットがアーケードゲームで行ったように、ゲームのルールを自分で学習することも重要なステップとなります。 Hassabis氏は、AlphaGo Zeroがいずれできるようになると考えています。 “私たちは、それがうまくいくと確信しています。ただ、学習時間が大幅に延びるだけです」と彼は言います。

Heading