Reinforcement Learning

Reinforcement Learning geht hierbei einen anderen Weg. Es wird versucht das Spiel durch Belohnungen immer weiter zu erlernen. Hier zu gibt es zwei Funktionen, die Belohnungsfunktion, welche kurzfristige Belohnungen für das Erreichen kurzfristiger Ziele beschreibt und eine Nutzenfunktion, welche den Gesamtnutzen einer Spielsituation, also die Chance zu gewinnen beschreibt.

Die Belohnungsfunktion kann meißt einfach aus den Regeln abgeleitet werden. Die Nutzenfunktion allerdings muss trainiert werden. Zu Beginn der Lernphase wird der Nutzen aller Spielsituationen die eine Sieg bedeuten mit zum Beispiel einer , solche die eine Niederlage bedeuten mit zum Beinspiel einer \(0\) und alle weiteren mit zufälligen Werten initialisiert. Nun wird zum Beispiel durch die Temporal-Difference-Method der Nutzen einer Spielsituation \(V(s'')\) zu einem gewissen Anteil \(\alpha\) in den Nutzen der jeweiligen Spielsitation \(V(s)\) eingerechnet durch welche man zu der Spielsituation \(s''\) gelangt ist.

\begin{displaymath}V(s) \leftarrow V(s) + \alpha \cdot (V(s'') - V(s))\end{displaymath}

So wird durch jedes Spiel der Nutzen der Siege bzw. Niederlagen auf die dahin führenden Spielsitationen übertragen [SB98]. Ein Problem dabei ist das Abwägen zwischen bereits erlerntem und zu erkundendem Wissen, sowie der Faktor \(\alpha\) der die Geschwindigkeit des Lernens beeinflusst. Um sich also auf Gegner einzustellen, sollten auch bisher nicht gezogene Züge, sowie nicht so gut bewertete Züge gespielt werden und nicht immer nur die Züge, die zu der Spielsituation mit dem höchsten Nutzen führen.