DeepMind KI: in 4 Stunden bis zum Schachmeister

von Sebastian Klammer am Dezember 19, 2017

AlphaGo Zero

Das Unternehmen DeepMind hat eine Spiele-KI entwickelt, die zuletzt im Oktober 2017 von sich Reden machte, als es ihr gelang, nach einer nur 3-tägigen, selbstständigen Lernphase die besten GO-Spieler der Welt zu schlagen. Dazu hatte das Team von DeepMind die künstliche Intelligenz „AlphaGo“ darauf trainiert, menschliche Verhaltensweisen zu beobachten. Abgesehen davon verfügte sie über keinerlei Vorwissen über das Spiel.

So wirklich intelligent ist das zwar noch nicht, da die KI, um einen Selbstlernerfolg zu erzielen, auf ein Problem beschränkt sein muss, dessen Regeln (wie bei einem Spiel) klar begrenzt sind. Da sich nur die wenigsten Problemstellungen so klar definieren lassen, dürfte ein Aufstand der Maschinen glücklicher Weise noch in ferner Zukunft liegen. Allerdings hat DeepMind in dieser Woche ein weiteres Papier veröffentlicht, das zeigt, wie schnell sich die Selbstlern-Funktionen des Systems entwickeln. Die neueste Version – AlphaGo Zero – übertrifft den Vorgänger um Längen und meisterte das GO-Spiel innerhalb von nur 8 Stunden. Was jedoch viel interessanter ist, ist der Umstand, dass AlphaGo Zero offenbar von allein beschlossen hat, sich selbst Schach beizubringen. Hier brauchte die KI nur 4 Stunden Selbsttraining, um das aktuelle Schachweltmeisterprogramm „Stockfish“ zu schlagen. Für „Shogi“, eine japanische Variante des Schach, das auf einem größeren Brett gespielt wird, brauchte AlphaZero lediglich zwei Stunden und trat dann erfolgreich gegen einen der besten Shogi-Bots der Welt an.

Als AlphaGO im Oktober 2015 den dreimaligen Europameister Fan Hui 5:0 besiegte, basierte das System auf einer neuartigen Kombination von tiefgreifendem maschinellem Lernen und so genannten Baumsuchtechniken. Vereinfacht ausgedrückt beobachtet das System zunächst menschliches Verhalten und verfeinert dann seine Strategie, indem es unterschiedliche Instanzen von AlphaGo gegeneinander antreten lässt – ein Prozess, der als „Verstärkungslernen“ beschrieben wird.

Dieses Mal setzte AlphaZero stärker auf das Verstärkungslernen. John Timmer, Wissensschaftsredakteur von arstechica, beschreibt den Prozess so:

„Der Algorithmus lernt, indem er gegen eine zweite Instanz von sich selbst spielt. Beide Instanzen kennen zunächst lediglich die Regeln des Spiels, können also nur zufällige Züge ausführen. Ist jedoch ein Zug gemacht, analysiert der Algorithmus, ob er zu einem besseren Spielergebnis führt. Dieses Wissen führt dann zu einem immer stärker verfeinerten Spiel. Über die Zeit baut sich die KI einen Baum aus möglichen Zügen auf, kombiniert mit Werten über die Spielergebnisse, die mit diesen Zügen zusammenhängen. Außerdem verfolgt sie, wie oft ein bestimmter Zug in der Vergangenheit schon gespielt wurde, um auf diese Weise Züge herauszufinden, die durchgängig mit Erfolg verbunden sind. Da sich beide Instanzen der KI gleichzeitig weiter entwickeln, stellt dieser Prozess sicher, dass AlphaGo Zero stets gegen einen ebenbürtigen Gegner spielt.“

Sowohl GO als auch Schach sind extrem komplexe Spiele mit insgesamt über 10 hoch 100 möglichen Spielfigur-Positionen.

Die jüngsten Erfolge der DeepMind Gaming KI reihen sich ein in einen bereits sehr beeindruckenden Lebenslauf. So hat die KI es geschafft, den besten menschlichen Spieler zu schlagen, in Online-Spielen 51 mal in Folge zu gewinnen (bevor im 52. Spiel die Verbindung abbrach) und sich selbst zu einem Weltklasse-Spieler zu trainieren. Die Chance, dass ein menschlicher Spieler jemals wieder in der Lage sein wird, die KI zu schlagen, wird als sehr gering beschrieben.

Gefunden bei arstechnica.com.

Sag etwas zu diesem Beitrag.

Pflichtfeld.

Required. Wird nicht gezeigt.

Wenn vorhanden.