Libratus Poker écrase les humains, la fin est-elle proche ?

Hommes contre machine LIbratus IA poker
Cuisante défaite pour la race humaine.

C'est fait. L’IA de poker Libratus s’est brillamment imposée face à quatre joueurs professionnels en No-Limit Hold’em, en terminant gagnante de 1,76 million de dollars.

Pour la première fois, le poker doit faire face à la perspective d’une domination des machines en No-Limit Hold’em.

Alors après les échecs et le jeu de go, est-ce que le poker a été « résolu » par les ordinateurs ?

Les humains sont-ils désormais incapables de battre une IA au poker ?

La victoire de Libratus va-t-elle changer la manière dont on appréhende le poker ?

Essayons de répondre à quelques-unes de ces questions. 

De zéro à héros en 2 ans à peine

Il y a deux ans, une équipe de l’Université Carnegie Mellon emmenée par Noam Brown et Tuomas Sandholm a développé un programme informatique avec pour objectif de battre les meilleurs joueurs du monde en heads-up en No-Limit Hold’em, l’une des variantes du poker les plus complexes.

Noam Brown et Tuomas Sandholm
Noam Brown et Tuomas Sandholm, concepteurs du projet.

À l’époque, le programme avait du mal à jouer contre quatre joueurs à la fois, et il a d’ailleurs perdu contre les humains.

Les développeurs ont donc passé les deux dernières années à perfectionner leur programme, et on peut dire que leur travail a été extraordinaire.

Une revanche a donc été organisée contre quatre des meilleurs joueurs de heads-up. 120 000 mains, soit un échantillon significatif, ont été disputées, et le résultat est sans appel : victoire écrasante de l’IA.

Qui a joué ?

Dong KimJason LesJimmy Chou et Daniel McAulay, quatre joueurs expérimentés et reconnus, pour représenter nous autres de chair et d'os.

Kim est un joueur de high stakes en ligne très connu ; Les est passé deux fois tout près de remporter un bracelet des WSOP en 2015, avec une deuxième et une troisième places ; Chou a remporté le Asia Championship of Poker il y a un an, et McAulay a remporté des centaines de milliers de dollars dans les tournois en ligne.

Et surtout : tous les quatre sont des spécialistes du No-Limit Hold’em en heads-up, la variante disputée durant le défi.

Cerveaux contre IA
Sandholm et Brown entourés des quatre joueurs ayant relevé le défi.

L’IA Libratus a été conçue par une équipe de chercheurs de Carnegie Mellon autour de deux doctorants, Noam Brown et Tuomas Sandholm. C’est donc une évolution de l’IA Claudico, qui avait perdu contre des hommes il y a deux ans.

Des règles pour réduire l’impact de la chance

Le défi a duré 120 000 mains, soit 30 000 par joueur, du 11 au 30 janvier. Pour chaque main, le joueur et l’IA disposaient de 20 000 jetons et les blinds étaient de 50/100.

Ainsi, chaque main était disputée avec un stack de 200 grosses blinds, ce qui est suffisant pour le poker en heads-up.

Afin de réduire au maximum le facteur chance, qui pourrait influencer les résultats, deux règles ont été mises en places :

1. Les mains fonctionnaient en miroir. Par exemple, si le joueur A avait As contre Rois à une table, le joueur B recevait des Rois et l’IA des As à l’autre table. Ainsi, personne n’était favorisé par le tirage.

2. Pas de tapis avant la fin. Si quelqu’un allait à tapis avant la river, le reste des cartes n’était pas distribué et chaque joueur récupérait son équité en jetons. Si un joueur dominait 70/30 au turn et allait à tapis, il remportait 70 % du pot et son adversaire 30 %. Également pour réduire le facteur chance.

Résultats

Après 20 jours et 120 000 mains jouées, le résultat était sans appel : Liberatus a battu chaque joueur pour remporter 13,48 $ par main en moyenne.

Cela revient à 13,5 grosses blinds par 100 mains, un résultat incroyable. Les quatre joueurs humains ont perdu contre Libratus sur leurs 30 000 mains. Voici leurs résultats individuels détaillés (Remarque : chiffres un peu avant la fin du défi, à 116 000 mains) :

Joueur

Perte

Par main

Dong Kim

-84 054 $

-2,90 $

Jimmy Chou

-338 347 $

-11,69 $

Jason Les

-862 347 $

-29,80 $

Daniel McAuley

-275 441 $

-9,52 $

Total/Moyenne

-1 560 189 $

-13,48 $

Juste un coup de chance ?

Si les règles du défi étaient conçues pour réduire autant que possible l’impact de la chance, le hasard joue tout de même un rôle dans chaque main, même avec les mains en miroir et la chance réduite en cas de all-in.

Alors peut-être que les joueurs humains sont meilleurs, mais que l’IA a eu de la chance ? Jetons un œil aux statistiques.

Jimmy Chou vs IA Libratus
Dong Kim est celui qui s'en est le mieux sorti.

L’AI a remporté 13,5 grosses blinds par 100 mains. 120 000 mains ont été jouées et l’écart type était compris entre 100 et 200 grosses blinds par 100 mains.

Ces estimations de la variance sont très approximatives, mais nous verrons qu’elles suffisent largement. Nous pouvons ainsi effectuer quelques calculs avec une calculatrice de variance et répondre à cette question :

Quelle est la probabilité pour que les humains aient mieux joué que l’IA tout en perdant 13,5 grosses blinds par 100 mains sur 120 000 mains ?

Eh bien elle est très faible. Entre 0,0001 % (limite basse de l’écart type) et 0,97 % (limite haute).

Cela signifie qu’il est très peu probable que le résultat global de ce défi ne soit un « coup de chance » en faveur de l’AI. Libratus est tout simplement meilleur au No-Limit Hold’em en heads-up.

Comment fonctionne Libratus ?

Pour faire simple, l’AI Libratus est un ensemble de stratégies qui déterminent comment jouer dans une situation donnée. Voici deux exemples (qui ne sont pas forcément liés au gameplay de Libratus) :

Avant le flop, si l’IA est la première à parler avec 74, elle relancera de 3 grosses blinds 50 % du temps, 5 grosses blinds 30 % du temps et se couchera 20 % du temps.

Au turn, si l’IA fait face à une relance après avoir déjà vécu la même situation au flop, avec un tirage couleur avec un as sur un tableau faible, elle suivra 40 % du temps et ira à tapis 60 % du temps.

On se rend donc rapidement compte que l’IA a une stratégie pour chaque situation.

Il est d’ailleurs très intéressant qu’il s’agisse le plus souvent de stratégies mixtes, comme dans les deux exemples ci-dessus. L’IA lance un dé virtuel pour décider quoi faire, mais les probabilités et les actions sont calculées et équilibrées.

Un superordinateur à 10 millions pour la stratégie

Super ordinateur Bridges et Nick Nystrom
Propulsé par Bridges.

Afin de générer des stratégies pour ces innombrables situations, l’équipe de Brown et Sandhilm a utilisé un superordinateur appelé Bridges.

Il est à peu près 30 000 fois plus rapide qu’un ordinateur de bureau moyen, compte 274 téraoctets de RAM et coûte 9,65 millions de dollars.

L’ordinateur a joué contre lui-même pendant des jours et des jours, accumulant ainsi des milliards, voire des millions de milliards de mains, en essayant au hasard différentes stratégies.

À chaque fois qu’une stratégie fonctionnait, la probabilité d’utiliser cette stratégie augmentait. À chaque fois qu’une stratégie échouait, la probabilité de l’utiliser diminuait. En gros, une méthode essai-erreur à grande échelle.

Dans un AMA sur Reddit, Brown a expliqué le processus d’apprentissage de Libratus ainsi :

« Le robot est basé sur l’apprentissage par renforcement en utilisant une variante de la Minimisation contrefactuelle du regret. Avant cette compétition, il n’avait joué au poker que contre lui-même. Son apprentissage de la stratégie n’est pas basé sur des mains jouées par des humains. »

Libratus était donc bien préparé, mais l’apprentissage ne s’est pas arrêté là. Chaque jour, après les matchs contre ses adversaires humains, le robot a ajusté ses stratégies pour exploiter les faiblesses des stratégies humaines, augmentant ainsi sa puissance.

Jason Les
"Le robot est basé sur l'apprentissage par renforcement."

Complexité limitée

Comment un ordinateur peut-il battre d’aussi bons joueurs de poker ? Pour beaucoup de joueurs, le poker est un jeu de lecture de l’autre, d’instinct, de tromperie et d’intuition.

Un ordinateur n’a pas d’instinct. Un ordinateur n’a pas d’intuition. 

Et contrairement aux échecs ou au jeu de go, le poker est un jeu à information partielle dans lequel le hasard tient un rôle important. Comment un ordinateur peut-il devenir aussi bon au poker ?

Il faut d’abord comprendre que si le poker est effectivement un jeu extrêmement complexe, beaucoup plus que les échecs et le jeu de go, cette complexité est limitée. En effet, le nombre de cartes étant limité, les possibilités le sont aussi. Et donc, il en est de même pour les stratégies.

Pour donner des chiffres concrets, en heads-up de Limit Hold’em, il existe 316 000 000 000 000 000 situations de jeu différentes. En jouant une main par seconde, il faudrait 10 milliards d’années pour toutes les faire. C’est donc assez conséquent.

C’est évidemment encore plus élevé en No-Limit, puisqu’on peut miser des sommes arbitraires, mais cela reste un nombre fini.

Pas d’instinct, mais une stratégie parfaite

Pour tous les jeux dans lesquels le nombre de situations est fini, il existe un Équilibre de Nash. L’équilibre de Nash est une stratégie qui garantit au joueur qui l’utilise, au minimum, de ne pas faire moins bien qu’un joueur utilisant toute autre stratégie.

Pour faire simple : en utilisant la stratégie de l’équilibre de Nash, vous ne pouvez perdre contre aucun joueur à long terme. L’existence de ces équilibres a été prouvée par John Nash en 1950, ce qui lui a permis de remporter le prix Nobel d’économie.

Ce qui signifie l’équilibre de Nash, c’est qu’à long terme, ni l’instinct, ni les tells, ni l’intuition n’importent. Il existe une stratégie parfaite dans le poker, il suffit de la trouver.

Et pour cela, il faut trouver un ordinateur capable de traiter des milliards de milliards de situations, avec des millions de milliards de téraoctets de mémoire et très rapide. Assemblez ensuite une équipe d’humains intelligents qui développera une méthode pour mettre à profit toute cette puissance, et vous y êtes.

Gary Kasparov battu par Deep Blue
A t-on trouvé le Deep Blue du poker ?

Le poker est-il résolu ? Est-ce terminé ?

Libratus n’est que le début. L’IA simplifie encore énormément de situations.

Par exemple, elle ne fait pas forcément la différence entre un tirage quinte roi-valet et un tirage quinte roi-10, ni entre miser 55 % et 60 % du pot.

Cela étant dit, Libratus est tout de même très proche d’avoir développé une stratégie parfaite, du moins suffisamment proche pour battre n’importe quel adversaire humain. Avec plus de temps et de puissance que le superordinateur à 9,65 millions de dollars utilisé actuellement, Libratus pourra offrir des performances encore meilleures.

D’ici peu, on verra sans doute des IA capables de battre les humains autrement qu’en heads-up.

Quid des autres variantes ?

Libratus est meilleur que les humains en No-Limit Hold'dem Heads-Up. Il y a 2 ans, l’Université d’Alberta a présenté Cepheus, un robot qui jouait parfaitement en Limit Heads-Up.

On peut donc dire que ces deux variantes sont pratiquement résolues. D’ailleurs, les chercheurs de l’Université d’Alberta ont réussi à prouver que leur robot est, au pire, à 0,05 grosse blinde par 100 mains d’une stratégie parfaite (équilibre de Nash).

Libratus est probablement plus éloigné de la stratégie parfaite, mais il va se raffiner avec le temps et s’en approcher.

Quid des autres variantes ? Avec plus de deux joueurs, les choses sont bien plus complexes qu’en heads-up. C’est également vrai pour les variantes plus élaborées, comme l’Omaha.

Claudico backlight
Juste le début.

Autant dire que d’ici deux ans, les choses devraient avoir évolué. Et ce sera alors l’avènement des robots dans le poker.

Cependant, un robot comme Libratus est tellement complexe qu’il nécessite une connexion à un énorme superordinateur pour fonctionner en jeu. Et il joue très lentement. On est donc loin d’une utilisation au quotidien au casino ou en ligne.

Mais d’ici peu, d’autres variantes seront sans doute intégrées.

Est-ce qu’on en est déjà là ?

Ce qui fait surtout peur, c’est que les robots n’ont même pas besoin d’une stratégie parfaite ni de battre les meilleurs joueurs.

Pour avoir un impact, il leur suffit de battre le joueur moyen. Et vous voulez une mauvaise nouvelle : c’est déjà le cas.

Pour n’importe quelle variante du poker, il existe déjà un robot qui joue mieux que le joueur moyen. Alors si le poker n’est pas « résolu » au sens propre du terme, il l’est suffisamment pour qu’un bon robot puisse battre un bon joueur.

C’est la progression qu’on a pu observer au début des IA aux échecs. Des années avant que Deep Blue ne batte le champion du monde Gary Kasparov en 1997, les ordinateurs étaient déjà capables de battre des Maîtres et Grands Maîtres.

La première fois qu’un ordinateur a atteint un niveau de performance comparable à celui d’un Maître était en 1981.

Au poker, nous nous situons actuellement quelque part entre les deux.

Est-ce la fin du poker ?

Si les ordinateurs deviennent capables de battre les meilleurs joueurs, une question se pose : est-ce la fin du poker ? La réponse est plus complexe qu’il n’y paraît puisqu’il faut différencier le poker en ligne du poker live.

Hellmuth bot
On peut déjà jouer à ça.

Il faut également noter que ce n’est pas un problème récent, en réalité. Libratus n’est pas le premier robot à prouver qu’il peut battre des joueurs humains de bon niveau.

Il y a déjà plus de 5 ans, le Bellagio de Vegas avait installé un robot de Limit Hold’em accessible à tous les joueurs. Le robot ne prenait pas de rake, l’argent gagné contre les joueurs était suffisant.

Des robots capables de battre des joueurs moyens existaient donc déjà il y a 5 ans.

Dans le poker en ligne, les robots existent depuis au moins huit ans et sont interdits sur tous les sites sérieux, au risque de voir ses gains confisqués et les victimes remboursées.

La (grande) victoire de Libratus ne change donc pas grand-chose à la situation actuelle du poker, si ce n’est qu’elle met en avant les avancées des IA ces dernières années.

Aucun changement en live

En ce qui concerne le poker live, cela ne devrait avoir aucun impact pour l’instant. Nous ne sommes pas près de voir les joueurs sortir leurs smartphones pour calculer la stratégie parfaite. Ni même des spectateurs qui chuchotent la stratégie à adopter pendant le Main Event des WSOP.

Il est fort probable que certains joueurs professionnels finissent par utiliser des robots très avancés pour analyser et améliorer leur stratégie. Mais c’est déjà le cas.

On peut donc supposer que le poker live ne sera pas affecté par les robots pour encore longtemps. D’ailleurs, puisqu’on a beaucoup parlé des échecs jusque là : des millions de gens continuent à jouer aux échecs et à suivre les championnats du monde d’échecs, même en sachant que l’IA est supérieure à l’humain. Il n’y a donc aucune raison pour que l’on arrête de se passionner pour le poker.

Le poker en ligne contraint d’évoluer

Joueuse au tournoi de poker 888 Rozvadov
Tout va encore bien pour le moment.

La situation est bien plus compliquée pour le poker en ligne. Les sites de poker doivent s’assurer que le jeu est toujours juste. Et que les humains jouent contre des humains.

Les sites de qualité font déjà de leur mieux, mais il est évidemment toujours possible de contourner même les meilleures mesures de sécurité.

Le poker en ligne est pour l’instant « à l’abri », mais cela risque bien de ne pas durer, comme aux échecs. Personne n’accepterait de jouer une partie d’échecs pour beaucoup d’argent sur Internet.

Tout simplement parce qu’il est possible, pour ne pas dire probable, de se retrouver face à une IA imbattable. Des échecs en ligne pour s’amuser, oui. Mais pas pour de l’argent.

Actuellement, le poker en ligne tourne uniquement autour de l’argent, il est donc fort probable que prochainement, les meilleures mesures de sécurité ne seront plus suffisantes. Ce n’est donc qu’une question de temps, et le poker en ligne va devoir évoluer pour ne pas disparaître. Et on parle ici d’un futur assez proche, d’ici 5 à 10 ans.

Lorsqu’on lui a demandé si Libratus précipiterait la fin du poker en ligne, voici ce que Dong Kim a déclaré : « Pas dans l’immédiat, mais nous devons nous en préoccuper. Il n’y a pas besoin d’être un génie pour comprendre que la technologie progresse de manière exponentielle.

On touche à la fin. Mais c’était sympa le temps que ça a duré. »


Pour aller plus loin :

Sondage

Please choose an option to vote