DeepMind-model MuZero kan visuele Atari-spellen leren zonder regels te kennen

Google heeft een nieuwe stap gezet met het deeplearningalgoritme van DeepMind. Een nieuwe variant daarvan genaamd MuZero kan niet alleen spellen leren door er eerst veel te spelen, maar ook zonder de regels vooraf te kennen. MuZero kan zelfs visuele spellen spelen.

MuZero is een nieuwe AI van Googles machinelearningalgoritme dat door dochterbedrijf DeepMind is gemaakt. Het algoritme is een spirituele opvolger van AlphaGo en AlphaZero, dat spellen als Go en schaken leerde en daarmee wereldkampioenen versloeg. MuZero kan schaken en Go leren, maar ook complexere visuele spellen van Atari. Google zegt bovendien dat MuZero de regels van het spel zelf kan leren door bepaalde strategieën te proberen.

Volgens Googles wetenschappers maakt MuZero gebruik van een model based planning-model, in tegenstelling tot een lookahead search. Bij dat laatste maakt een AI beslissing op basis van mogelijke uitkomsten van beslissingen, en dat is het model waar ook AlphaGo en AlphaZero gebruik van maken. Algoritmes op basis van dergelijke beslissingsbomen werken volgens de onderzoekers vooral goed op basis van voorgesorteerde modellen met gedefinieerde regels. Spellen zoals schaak en Go hebben zulke regels en daarom zijn AlphaGo en AlphaZero er zo goed in. Daarvoor moet het algoritme dus wel vooraf trainingdata over het op te lossen probleem hebben gekregen.

MuZero

In de ‘echte wereld’ hebben problemen volgens de onderzoekers niet zulke gedefinieerde regels. Daarom maakt MuZero gebruik van model based planning, maar wel op een eigen, beperkte manier. Daarbij maakt de AI eerst een model van een omgeving en de mogelijke acties, om op basis daarvan een keus te maken over de beste volgende stap.

Bij afgekaderde omgevingen zoals een spel als Go is dat nog wel te doen, maar bij visuele omgevingen zoals een computergame wordt dat moeilijker omdat er zoveel verschillende aspecten zijn om rekening mee te houden. “MuZero gebruikt een andere aanpak om over dat soort limieten heen te komen”, schrijven de wetenschappers. “In plaats van een model van een complete omgeving te maken, creëert MuZero een model op basis van alleen de aspecten die belangrijk zijn voor het beslissingsproces.” De AI kijkt daarbij specifiek naar de waarde van de huidige positie, de waardeberekening van wat de beste actie is om uit te voeren, en vervolgens een waarde van het resultaat van de vorige actie. Op die manier kan MuZero ook werken in een omgeving waarbij het vooraf niet weet wat de parameters en beperkingen zijn.

De onderzoekers lieten MuZero vervolgens los op enkele visuele spellen van Atari, waaronder Ms Pac-Man. Daar moest de AI zelf leren wat de beste acties waren om te nemen. Het resultaat is volgens de onderzoekers dat hoe meer trainingen MuZero zelf kan uitvoeren, hoe slimmer de AI het spel kan spelen. In totaal lieten de onderzoekers MuZero 57 Atari-games spelen, waaronder Defender, Alien, Space Invaders en Yars Revenge, blijkt uit de tijdelijke paper die vorig jaar al verscheen.

leercurve MuZero Atari
Leercurves van MuZero in Atari bij een selectie van games.Totale beloning staat op de y-axis, de miljoenen trainingstappen op the x-axis. Lijn markeert de gemiddelde score van 1000 evaluatiegames, gekleurde regio’s de standaarddeviatie.