Maskiner har höjt insatserna än en gång. En övermänsklig pokerspelande bot som heter Pluribus har besegrat bästa mänskliga proffs på sex-spelare no-limit Texas hold ’em poker, den mest populära varianten av spelet. Det är första gången som ett artificiell intelligensprogram har slagit elitspelare ett spel med fler än två spelare. Även om att gå från två till sex spelare kan verka inkrementellt är det faktiskt en stor sak, säger Julian Togelius vid som studerar spel och. Multiplayer-aspekten är något som inte alls finns i andra spel som för närvarande studeras.
Teamet bakom Pluribus hade redan byggt en AI som heter Libratus som hade slagit proffs i tvåspelarpoker. Den byggde Pluribus genom att uppdatera Libratus och skapade en bot som behöver mycket mindre datorkraft för att spela matcher. I ett dagspass med mer än händer slog det mänskliga toppspelare. Många AI-forskare trodde inte att det var möjligt att göra detta med hjälp av [våra] tekniker, säger Noam Brown vid Carnegie Mellon University i Pittsburgh Philadelphia och Facebook AI Research i som utvecklade Pluribus med sin Carnegie-kollega Tuomas Sandholm.
Starta om för AI-revolutionen
Andra AI:er som har bemästrat mänskliga spel som Libratus och DeepMinds Go-playing bots har visat att de är oslagbara i nollsummematcher för två spelare. I dessa scenarier finns det alltid en vinnare och en förlorare och spelteorin erbjuder en väldefinierad bästa strategi.
Men spelteorin är mindre användbar för scenarier som involverar flera parter med konkurrerande intressen och inga tydliga vinst-förlust-villkor som återspeglar de flesta verkliga utmaningar. Genom att lösa multiplayer poker lägger Pluribus grunden för framtida AI:er för att ta itu med komplexa problem av detta slag, säger Brown. Han tycker att deras framgång är ett steg mot tillämpningar som automatiserade förhandlingar bättre upptäckt av bedrägerier och självkörande bilar.
För att ta itu med poker för sex spelare gjorde Brown och Sandholm en radikal översyn av Libratus sökalgoritm. De flesta spelande AI:er söker framåt genom beslutsträd för det bästa draget att göra i en given situation. Libratus sökte till slutet av ett spel innan han valde en handling.
Men komplexiteten som introduceras av extra spelare gör denna taktik opraktisk. Poker kräver resonemang med dold information. spelare måste utarbeta en strategi genom att överväga vilka kort deras motståndare kan ha och vilka motståndare som kan gissa om sin hand baserat på tidigare vadslagning. Men fler spelare gör det svårare att välja en handling vid varje givet tillfälle eftersom det innebär att bedöma ett större antal möjligheter.Det viktigaste genombrottet var att utveckla en metod som gjorde det möjligt för Pluribus att göra bra val efter att bara ha sett framåt några få drag snarare än till slutet av spelet.
AI-pionjär Farorna med missbruk är mycket verkliga
Pluribus lär sig själv från grunden med hjälp av en form av förstärkningsinlärning som liknar den som används av. Det börjar spela poker slumpmässigt och förbättras när det kommer fram vilka åtgärder som vinner mer pengar. Efter varje hand ser den tillbaka på hur den spelade och kontrollerar om den skulle ha tjänat mer pengar med olika åtgärder som att höja istället för att hålla sig till en satsning. Om alternativen leder till bättre resultat kommer det att vara mer sannolikt att välja ett tema i framtiden.
Genom att spela biljontals händer med poker mot sig själv skapade Pluribus en grundläggande strategi som den bygger på i matcher. Vid varje beslutspunkt jämför den spelets tillstånd med dess ritning och söker några steg framåt för att se hur handlingen utspelade sig. Den avgör sedan om den kan förbättra den. Och eftersom den lärde sig att spela utan mänsklig insats bestämde sig AI för några strategier som mänskliga spelare tenderar att inte använda.
AI lekhage
Pluribus framgång beror till stor del på dess effektivitet. När du spelar körs den på bara två centrala processorer. Däremot använde DeepMinds ursprungliga Go-bot nästan processorer och Libratus processorer när de först slog toppproffs. När man spelar mot sig själv spelar Pluribus en hand på cirka sekunder ungefär dubbelt så snabbt som professionella människor.
Spel har visat sig vara ett utmärkt sätt att mäta framsteg inom AI eftersom robotar kan få poäng mot toppmänniskor och objektivt hyllas som övermänskliga om de segrar. Men Brown tror att AI:er växer ur sin lekhage. Detta var den sista återstående utmaningen inom poker, säger han.
Men Togelius tror att det finns mil än för AI-forskare och spel. Det finns mycket outforskat territorium, säger han. Få AIer har bemästrat mer än ett spel som kräver generell förmåga snarare än en nischfärdighet. Och det finns mer än att bara spela spel säger Togelius. Det finns också att designa dem. En stor AI-utmaning om det någonsin fanns en.