プラトンデータインテリジェンス。
バーティカルサーチ&アイ。

AlphaGo Zero:ゼロから始める

日付:

これは、新しい形式の 強化学習、AlphaGo Zeroが独自の教師になる。 システムは、囲碁のゲームについて何も知らないニューラルネットワークから始まります。 次に、このニューラルネットワークを強力な検索アルゴリズムと組み合わせることにより、それ自体に対してゲームをプレイします。 プレイ中、ニューラルネットワークは、動きを予測し、最終的にゲームの勝者となるように調整および更新されます。

次に、この更新されたニューラルネットワークを検索アルゴリズムと組み合わせて、新しいより強力なバージョンのAlphaGo Zeroを作成し、プロセスを再び開始します。 各反復で、システムのパフォーマンスが少し向上し、セルフプレイゲームの品質が向上します。その結果、ニューラルネットワークがますます正確になり、AlphaGo Zeroのバージョンがさらに強力になります。

この手法は、人間の知識の制限による制約を受けなくなったため、AlphaGoの以前のバージョンよりも強力です。 代わりに、世界最強のプレイヤーであるAlphaGo自体から表ラサを学ぶことができます。

また、他の注目すべき点で以前のバージョンとは異なります。

  • AlphaGoゼロは、入力としてGoボードからの黒と白の石のみを使用しますが、以前のバージョンのAlphaGoには、少数のハンドエンジニアリング機能が含まれていました。
  • XNUMXつではなくXNUMXつのニューラルネットワークを使用します。 AlphaGoの以前のバージョンでは、「ポリシーネットワーク」を使用して次にプレイする動きを選択し、「バリューネットワーク」を使用して各ポジションからゲームの勝者を予測していました。 これらはAlphaGo Zeroで組み合わされており、トレーニングと評価をより効率的に行うことができます。
  • AlphaGo Zeroは「ロールアウト」を使用しません。これは、他のGoプログラムが現在のボード位置から勝つプレイヤーを予測するために使用される高速でランダムなゲームです。 代わりに、高品質のニューラルネットワークを使用して位置を評価します。

これらの違いはすべて、システムのパフォーマンスを向上させ、より一般的なものにするのに役立ちます。 しかし、システムをはるかに強力かつ効率的にするのは、アルゴリズムの変更です。

出典:https://deepmind.com/blog/article/alphago-zero-starting-scratch

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?