Aller au contenu

Jeux & singularité : go


Messages recommandés

  • 2 months later...
  • 5 weeks later...

Comme on n'a pas d'autre topic sur l'IA, je poste ça ici :

 

Amusant. La prochaine étape serait un portrait d'Anton K (par exemple) par Rembrandt. 

 

Bonne idée de business ça. Qui ne voudrait pas son portrait par Da Vinci, Bronzino, Van Gogh, Bacon ? 

  • Yea 1
Lien vers le commentaire
  • 6 months later...

L'homme contre la machine au poker : http://www.lesechos.fr/tech-medias/hightech/0211691104633-lintelligence-artificielle-defie-les-meilleurs-joueurs-de-poker-2057045.php

 

La construction de l'article est amusante :

 

« Mais la raison pour laquelle ce tournoi est important, et pas seulement d'un point de vue scientifique, c'est que nous allons montrer qu'il est possible d'apprendre à des machines à feindre, à mentir », poursuit le chercheur. De telles avancées dans l'intelligence artificielle pourraient aider à améliorer les logiciels qui essaiment déjà dans notre quotidien via les assistants personnels comme Alexa (Amazon), Cortana (Microsoft) ou Siri (Apple).

 

:mrgreen:

Lien vers le commentaire
  • 4 weeks later...

Le résultat est tombé. Plus impressionant encore que le Go pour moi car le bluff peut faire péter toutes les techniques uniquement basées sur les stats.

https://www.theguardian.com/technology/2017/feb/05/artificial-intelligence-ethics-poker-libratus-texas-holdem-ai-deepstack

Deux remarques :

- c'est du 1 contre 1, ce qui réduit fortement la difficulté mathématique du jeu  

- les mecs qui ont joué contre l'IA sont loin d'être les meilleurs du monde

 

Je pense que sur une table où il y a les 6 meilleurs joueurs l'IA se fait encore rétamer.

 

Et bluffer de manière optimale c'est essentiellement de la théorie des jeux et des stats. Il y a rien de plus facile que de battre quelqu'un qui bluffe n'importe comment. Par contre c'est impossible de battre quelqu'un qui bluff à une fréquence optimale. Optimalité qui est à chercher dans la théorie des jeux.

 

Plus que l'aspect "bluff" c'est l'aspect "information imparfaite" qui fait que le poker est un hard problem pour l'AI.

Lien vers le commentaire

Non la manière optimale de bluffer c'est juste de ne pas être pris. Ca dépend de l'adversaire surtout et pour les humains c'est un travail psychologique. Pour une machine c'est la recherche de patterns rendue difficile par le fait que tu dois inférer le nombre de fois où tu t'es fait bluffer (ce qui doit être approximable en estimant qu'en moyenne ton adversaire à un jeu équivalent au tien). Il faut intégrer le fait de payer pour savoir sans se faire tout ratiboiser (une sorte de taxe à payer pour connaitre le style de ton adversaire) et je suppose que contre un bon joueur c'est le plus dur à faire. 

Lien vers le commentaire
il y a 57 minutes, Kassad a dit :

Non la manière optimale de bluffer c'est juste de ne pas être pris. Ca dépend de l'adversaire surtout et pour les humains c'est un travail psychologique. Pour une machine c'est la recherche de patterns rendue difficile par le fait que tu dois inférer le nombre de fois où tu t'es fait bluffer (ce qui doit être approximable en estimant qu'en moyenne ton adversaire à un jeu équivalent au tien). Il faut intégrer le fait de payer pour savoir sans se faire tout ratiboiser (une sorte de taxe à payer pour connaitre le style de ton adversaire) et je suppose que contre un bon joueur c'est le plus dur à faire. 

Il y a le fait d'exploiter de manière optimale les erreurs de l'adversaire et le fait d'être inexploitable. Pour le premier objectif il faut dévier de l'optimum de théorie des jeux et c'est la où le profiling de l'adversaire est important. Pour être inexploitable il faut coller à l'optimum de théorie des jeux et le profiling ne sert à rien.

 

Les très bons joueurs ont conscience de ce qui optimal d'un point de vue théorie des jeux dans une situation donnée et quand ils sentent qu'ils ont l'avantage dans une configuration donnée  il dévie de l'équilibre optimal pour exploiter au maximum les erreurs de l'adversaire. Quand ils sentent que leur avantage n'est pas clair, il essaie de coller au plus près à l'optimal de théorie des jeux.

 

Un bot qui est programmé pour suivre parfaitement l'optimum de théorie des jeux dans toutes ses décisions sera imbattable par un humain, et vu qu'un humain fera forcément des erreurs il le battra sur le long terme. La maximisation de l'exploitation des erreurs de l'adversaire c'est de la maximisation de profit et c'est la où le profiling est important.  Par exemple le bot à jouer contre 4 humains différents et c'est possible que sa stratégie n'est pas dévié en fonction des joueurs (j'en doute car cela ne mange pasd 'ajouter des variables de profiling et d'adapter un peu la stratégie en conséquence, mais c'est théoriquement possible).

 

Mais typiquement ce n'est pas le 1 contre 1 qui va tester au mieux les capacités de profiling du bot vu que pour gagner il a juste a suivre la théorie des jeux. Le No Limit Hold'em est suffisamment compliqué même en 1 contre 1 pour que le jeux ne soit pas résolu d'un point de vue théorie des jeux, donc c'est déjà bien de battre des humains dessus.

 

Mais c'est sur à table à plusieurs joueurs, avec des joueurs qui font différents sortes d'erreurs, que le profiling devient primordiale et que ça deviendrait très compliqué pour un bot qui serait en compétition pour la maximisation du profit avec des très bons humains qui sauraient très bien adapter leur jeu aux erreurs de leurs adversaires. Surtout que pour exploiter les erreurs d'un joueur X il faut se rendre exploitable par un joueur Y. Bref la complexité explose à plusieurs.

Lien vers le commentaire
Il y a 6 heures, Ray a dit :

Il y a le fait d'exploiter de manière optimale les erreurs de l'adversaire et le fait d'être inexploitable. Pour le premier objectif il faut dévier de l'optimum de théorie des jeux et c'est la où le profiling de l'adversaire est important. Pour être inexploitable il faut coller à l'optimum de théorie des jeux et le profiling ne sert à rien.

 

Les très bons joueurs ont conscience de ce qui optimal d'un point de vue théorie des jeux dans une situation donnée et quand ils sentent qu'ils ont l'avantage dans une configuration donnée  il dévie de l'équilibre optimal pour exploiter au maximum les erreurs de l'adversaire. Quand ils sentent que leur avantage n'est pas clair, il essaie de coller au plus près à l'optimal de théorie des jeux.

 

Un bot qui est programmé pour suivre parfaitement l'optimum de théorie des jeux dans toutes ses décisions sera imbattable par un humain, et vu qu'un humain fera forcément des erreurs il le battra sur le long terme. La maximisation de l'exploitation des erreurs de l'adversaire c'est de la maximisation de profit et c'est la où le profiling est important.  Par exemple le bot à jouer contre 4 humains différents et c'est possible que sa stratégie n'est pas dévié en fonction des joueurs (j'en doute car cela ne mange pasd 'ajouter des variables de profiling et d'adapter un peu la stratégie en conséquence, mais c'est théoriquement possible).

 

Mais typiquement ce n'est pas le 1 contre 1 qui va tester au mieux les capacités de profiling du bot vu que pour gagner il a juste a suivre la théorie des jeux. Le No Limit Hold'em est suffisamment compliqué même en 1 contre 1 pour que le jeux ne soit pas résolu d'un point de vue théorie des jeux, donc c'est déjà bien de battre des humains dessus.

 

Mais c'est sur à table à plusieurs joueurs, avec des joueurs qui font différents sortes d'erreurs, que le profiling devient primordiale et que ça deviendrait très compliqué pour un bot qui serait en compétition pour la maximisation du profit avec des très bons humains qui sauraient très bien adapter leur jeu aux erreurs de leurs adversaires. Surtout que pour exploiter les erreurs d'un joueur X il faut se rendre exploitable par un joueur Y. Bref la complexité explose à plusieurs.

Peut être que ces notes sur le poker par Guy Debord pourront t'intéresser. 

http//aphelis.net/guy-debord-notes-sur-le-poker/

Lien vers le commentaire
il y a 5 minutes, frigo a dit :

Ces notes ressemblent fort à de la masturbation intellectuelle.

 

Il faut avoir conscience que la plupart de ceux qui ont joué au poker quelquefois dans leur vie se pensent très fort et en mesure de donner des conseils aux autres. Fondamentalement le business model du joueur pro c'est l'exploitation de l'ego du joueur de loisir. La part de chance dans le jeu permet au mauvais jouer de s'illusionner sur ses compétences pendant très longtemps.

Lien vers le commentaire

C'est avoir une vision statique du jeu d'imaginer qu'il y a un optimum à calculer. Dans la réalité les bons joueurs font évoluer leur stratégie au cours du temps et si possible de manière aléatoire. De plus je suis d'accord à 4 humains qui s'allient pour battre la machine je lui souhaite bien du plaisir à l'IA pour trouver un optimum.

  • Yea 1
Lien vers le commentaire
Il y a 2 heures, Kassad a dit :

C'est avoir une vision statique du jeu d'imaginer qu'il y a un optimum à calculer. Dans la réalité les bons joueurs font évoluer leur stratégie au cours du temps et si possible de manière aléatoire. De plus je suis d'accord à 4 humains qui s'allient pour battre la machine je lui souhaite bien du plaisir à l'IA pour trouver un optimum.

J'ai joué professionnellement au poker pendant plusieurs années ce qui implique que j'ai une assez bonne compréhension de ce jeu, je t'invites à faire lire mes messages à un "bon joueur", je doute qu'il y trouve quelque chose à redire.

Sans vouloir t'offenser je ne pense pas que tu sois en mesure d'apporter une critique pertinente sur ma vision du jeu car tes remarques laissent à penser que peut-être tu ne maîtrises pas bien les concepts dont nous sommes en train de parler. Par exemple la question de varier la "stratégie" de "manière aléatoire" est justement le sujet de l'optimum de théorie des jeux dont je parle. Cette discussion s'arrête là en ce qui me concerne.

  • Nay 2
Lien vers le commentaire

En fait tu ne lis pas ce que j'écris. D'une part les hypothèses pour le GTO ne sont pas réalistes (passage à la limite qui oublie les effets seuils : un jour la partie s'arrête) et qui ne marche que pour deux joueurs d'autre part à partir de 3 joueurs il n'y a plus d'optimum (c'est un résultat théorique deux joueurs peuvent s'entendre pour augmenter leur espérance globale contre le troisième).

  • Yea 1
Lien vers le commentaire
  • 2 weeks later...
Le 13/02/2017 à 16:16, Kassad a dit :

En fait tu ne lis pas ce que j'écris. D'une part les hypothèses pour le GTO ne sont pas réalistes (passage à la limite qui oublie les effets seuils : un jour la partie s'arrête) et qui ne marche que pour deux joueurs d'autre part à partir de 3 joueurs il n'y a plus d'optimum (c'est un résultat théorique deux joueurs peuvent s'entendre pour augmenter leur espérance globale contre le troisième).

Le problème de 3 c'est pas vraiment que les joueurs peuvent s'entendre, si tu pars du principe que les gens trichent dans un jeu ça sert à rien d'essayer de bien le jouer. Le problème c'est surtout qu'en 1 contre 1 il suffit d'être imbattable (donc d'approximer correctement la GTO) pour gagner, puisqu'un humain va faire des erreurs étant donné qu'aucun humain n'est capable de jouer GTO tout le temps et dans toutes les situations. En 1 contre 1, le meilleur joueur est forcément celui qui joue GTO.

 

Alors qu'à plusieurs joueurs, le meilleur joueur (ie. celui qui gagne le plus d'argent à la table) ne sera pas forcément celui qui joue GTO. La GTO est une stratégie défensive, elle te rend imbattable mais elle ne te permet pas d'exploiter au maximum les erreurs des adversaires et donc de maximiser ton profit.

 

Pour exploiter au maximum les erreurs des adversaires, il faut s'éloigner de la GTO. Et quand on s'éloigne de la GTO, on se rend soi-même vulnérable à une exploitation de la part de quelqu'un qui détecte le déséquilibre dans la stratégie. Tout cela fait que résoudre le problème de "comment être celui qui gagne le plus d'argent à une table de 6 joueurs" et est un problème mathématiquement beaucoup plus difficile à résoudre que le problème "comment être celui qui gagne le plus d'argent à une table de 2 joueurs". Et ceci est sans compter que l'approximation de la GTO à 6 joueurs est plus complexe que celle à 2 joueurs, puisque l'éventail des possibles augmente à 6 joueurs. 

 

Pour la réalité de l'hypothèse dont tu parles : quand tu joues au poker, tu raisonnes forcément sur le long terme (ie. tu raisonnes en terme d'espérance de chaque décision). Ce n'est pas une hypothèse qui est propre à la GTO, c'est juste que si tu joues à un jeu probabiliste, la seule manière de déterminer la qualité d'un choix, c'est d'appliquer la loi des grands nombres. Même sans chercher à jouer GTO, un joueur va supposer dans sa tête que chaque main va être rejouer à l'infini.

Lien vers le commentaire
  • 2 weeks later...
  • 2 months later...
  • 4 months later...
Citation

AlphaGo just leveled up.

 

The latest version of the computer program, dubbed AlphaGo Zero, is the first to master Go, a notoriously complex Chinese board game, without human guidance. Its predecessor — dubbed AlphaGo Lee when it became the first computer program with artificial intelligence, or AI, to defeat a human world champion Go player (SN Online: 3/15/16) — had to study millions of examples of human expert moves before playing practice games against itself. AlphaGo Zero trained solely through self play, starting with completely random moves. After a few days’ practice, AlphaGo Zero trounced AlphaGo Lee 100 games to none, researchers report in the Oct. 19 Nature.  

“The results are stunning,” says Jonathan Schaeffer, a computer scientist at the University of Alberta in Edmonton, Canada, who wasn’t involved in the work. “We’re talking about a revolutionary change.”

 

AI programs like AlphaGo Zero that can gain mastery of various tasks without human input may be able to solve problems where human expertise falls short, says Satinder Singh, a computer scientist at the University of Michigan in Ann Arbor. For instance, computer programs with superhuman smarts could find new cures for diseases, design more energy-efficient technology or invent new materials.

 

AlphaGo Zero’s creators at Google DeepMind designed the computer program to use a tactic during practice games that AlphaGo Lee didn't have access to. For each turn, AlphaGo Zero drew on its past experience to predict the most likely ways the rest of the game could play out, judge which player would win in each scenario and choose its move accordingly.

 

AlphaGo Lee used this kind of forethought in matches against other players, but not during practice games. AlphaGo Zero’s ability to imagine and assess possible futures during training “allowed it to train faster, but also become a better player in the end,” explains Singh, whose commentary on the study appears in the same issue of Nature.

AlphaGo Zero played 4.9 million practice games over three days before roundly defeating AlphaGo Lee. In comparison, AlphaGo Lee’s training period took several months (SN: 12/24/16, p. 28). While practicing, AlphaGo Zero not only discovered many of the Go strategies that humans have come up with over thousands of years, but also devised new game plans previously unknown to human players.

 

“To AlphaGo Zero, the world human champion is a novice,” Schaeffer says. But despite its incredible Go-playing prowess, AlphaGo Zero is still “an idiot savant” that can’t do anything except play Go, he says. If AI programs are going to make superhuman contributions to engineering or medicine, they’ll have to be more general-purpose problem-solvers that can teach themselves a wide variety of tasks. 

https://www.sciencenews.org/article/newest-alphago-mastered-game-no-human-input

 

  • Yea 2
Lien vers le commentaire
Il y a 3 heures, Kassad a dit :

C'est un joli exemple de singularité : mais on voit bien que ça ne s'applique qu'à un domaine très restreint où toutes les règles sont connues et maîtrisées. 

Ça reste quand même très impressionnant et surtout ça remet en perspective les prévisions technologiques. Quand j'étais gamin, il y'a 15 ans, on disait du jeu de go que ça serait très dur de vaincre un humain et que ça prendrait très longtemps.

Non seulement ça n'a pris que 15 ans mais en plus la dernière IA en date est meilleure qu'aucun de homme ne le sera jamais avec une différence exceptionnelle de niveau 

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
×
×
  • Créer...