Aller au contenu

Jeux & singularité : go


Messages recommandés

11 minutes ago, frigo said:

Tiens je viens de lire un papier de l'année où Kasparov  pense que le plus efficient serait une collaboration homme/ machine, un homme assisté d'une machine.

 

 Kasparov vient de sortir un livre sur sa rencontre avec DeepBlue. Une grande partie de sa thèse prend un coup dans l'aile avec Alphazero. En effet dans son livre il avance, avec raison, que la recherche en IA était du point de vue des échecs assez décevante car c'était principalement  une histoire de puissance de calcul. C'était vrai jusqu'à ce qu'Alphazero sorte car clairement ce dernier joue d'une toute autre manière. 

 

En gros Shannon avait imaginé dès les années 50 deux stratégies différentes pour programmer un moteur d'échecs : soit beaucoup calculer sans être trop malin, soit être plus intelligent (ne considérer que des coups intéressants) quitte à moins calculer. Depuis les années 50 la première approche a toujours largement dominé la seconde (et c'est en cela que la remarque de Kasparov faisait sens). 

 

Alphazero vient de changer 60 ans d'histoire en 4h d'apprentissage ! 

Lien vers le commentaire
il y a une heure, Kassad a dit :

Ils ont joué des centaines de parties !

 

Les 4 heures c'est le temps qu'Alphazero à passé à s'entraîner tout seul !! Pendant ces 4 heures il a joué des milliers de parties contre lui même pour s'auto-améliorer. À l'issue de cet entraînement il a rétamé Stockfish sur des centaines de parties.

Ho. 

 

Effectivement c'est de très très loin un niveau surhumain.

 

Maintenant parmi les questions intéressantes: est ce que le logiciel a mis en place des stratégies inédites, et est ce qu'elles sont toutes compréhensibles par un cerveau humain ?

 

 

Anyway, ça reste dingue, et Turing est probablement le génie sous estimé du siècle dernier. 

Il mérite une putain de statue dans chaque institut de technologie au monde

  • Yea 1
Lien vers le commentaire
2 hours ago, Sloonz said:

Non si tu lis bien le papier tu verras (copié collé bas de la page 4): "In chess, AlphaZero outperformed Stockfish after just 4 hours (300k steps); ".

 

Après ils l'ont entraîné plus longtemps mais déjà après 4h Alphazero était supérieur à Stockfish

Lien vers le commentaire
Il y a 20 heures, Kassad a dit :

Franchement ça casse le slip et ça ressemble beaucoup à une singularité (la machine décolle en intelligence et va loin loin de l'humanité toute seule). 

 

Oui. J'ai eu la même idée en apprenant la nouvelle : la singularité s'approche à grand pas.

 

Il y a 20 heures, Kassad a dit :

Par contre la singularité en tant que telle serait que la machine prenne conscience de ce qu'est l'intelligence et le soit suffisamment pour créer une machine plus intelligente qu'elle même...à l'infini. Ça reste un peu trop SF pour moi.

 

Encore quelques années avant ça, je crois (heureusement).

Lien vers le commentaire
Il y a 20 heures, Kassad a dit :

Le truc est que ça marche quand les règles sont claires et biens établies. Il est difficile d'imaginer d'entraîner une telle IA pour spéculer en bourse (il n'y a pas de règles colle aux échecs et faire apprendre à une machine en suivant les cours historiques pourrait mener à une catastrophe : les crachs boursiers pouvant effacer 25 ans de hausse en une demi journée). Mais si on pouvait y arriver on aurait un Terminator qui dégommerait tout spéculateur humain voir tout robot d'une génération précédente. Ça ferait un aspirateur à plus value dont je n'arrive pas à imaginer ce que deviendrait le marché avec un tel super héro de la spéculation qui gagne contre tous ses concurrents.

 

 

Tout est dans la disponibilité de l'information, aux échecs elle est totale, à la bourse elle ne l'est pas, c'est une différence fondamentale, de plus apprendre les règles des échecs est assez simple, pour traiter de l'information il faut apprendre une langue, quand on voit les résultats des traducteurs automatiques, les traders n'ont pas encore de souci à se faire....

 

 

Lien vers le commentaire

Une grosse différence entre AlphaGo Zero et AlphaZero c’est que dans le premier cas l’entrée du réseau de neurones c’est juste l’état actuel du plateau, tandis que dans le second c’est l’historique des 8 derniers états du plateau.

 

Je suis déçu que le papier n’ai pas inclu de discussion sur cette différence. Intuitivement, l’état actuel devrait contenir toutes les informations nécessaires pour décider du coup suivant et multiplier par 8 la taille du vecteur d’entrée ne devrait conduire qu’à une augmentation de la puissance de calcul nécessaire sans apporter de gain substantiel. Je suppose que s’ils ont décidé d’utiliser cette architecture, c’est qu’ils ont fait la comparaison et que les gains valent le coup. J’aurais bien aimé voir un graphe ELO vs nombre de coups dans l’état (pourquoi 8 ?).

  • Yea 1
Lien vers le commentaire
Il y a 8 heures, Riffraff a dit :

quand on voit les résultats des traducteurs automatiques, 

... Justement, tu as vu les résultats des derniers traducteurs automatiques ? Parce que "bluffant" est un galant euphémisme. 

Lien vers le commentaire
il y a 2 minutes, h16 a dit :

... Justement, tu as vu les résultats des derniers traducteurs automatiques ? Parce que "bluffant" est un galant euphémisme. 

 

Surement qu'il y aura des progrès à ce niveau et c'est vrai que cela peut laisser entrevoir un robot qui analyse une énorme base de données d'informations économiques, financières, etc, puis trouve quelque chose qu'il peut tester de manière algorithmique ensuite, oui, je pense que cela se fera.

Maintenant admet qu'entre une IA qui apprend à jouer aux échecs toute seule et une IA qui apprend à jouer à la bourse toute seule il y a comme un saut logarithmique, pour la rime :)

 

Lien vers le commentaire

Le Marché c'est déjà l'IA parfaite, non ? alors aucun robot ne fera mieux, point barre !

 

il y a 7 minutes, NoName a dit :

Ça tombe bien, en ce moment les progrès de L'IA ils sont exponentiels

 

Il n'y a aucun doute qu'on va voir des trucs incroyables sortir, je pense que tout cela prendra plus de temps qu'on nous le promets toujours.

 

Si dans un futur on réussi à faire une IA qui peut s'adapter toute seule à différents environnements à partir de zéro, oui on peut tout imaginer, c'est vrai....

Lien vers le commentaire

En ce qui concerne l'économie, la réaction des acteurs du marché peut être déjà analysée par différents moyens, ce dont ne se privent pas les gafa et autres, relier tout ça à la bourse, aux réactions des marchés financiers, à la marge on peut trouver des trucs c'est sûr, les analystes et les médias le font déjà, il restera l'inconnu de se qui se dit dans les conseils d'administration, les stratégies qui sont souvent secrètes, fusions, etc.

 

Vu la rapidité des robots qui vendent et achètent si tu ajoutes une couche qui détecte des tendances dans des micro-évènements, ouais... Encore faut-il démontrer que ça existe, cependant une IA pourrait en effet se charger de tester toutes sortes d'évènements de les tourner dans tout les sens de manière brute et évolutive.

 

Ce qui est sûr c'est qu'on verra un escroc qui arrivera à vendre une IA de bourse foireuse et qu'on en entendra parler dans les journaux...Ou pas si c'est une banque qui se fait baiser...

Lien vers le commentaire

Les joueurs d'échecs sont épatés par la façon de jouer d'AlphaZero (Google a livré 10 parties). Le résultat est réellement impressionnant. AlphaZero ne joue pas du tout de la même manière que les programmes classiques, ses parties sont plaisantes, et le résultat semble 'humain' (là ou les programmes classiques sont des brutes tactiques, AlphaZero sacrifie volontiers du matériel pour des avantages d'espace, positionnels, de long terme, pour dire les choses grossièrement, bref a développé des intuituitions que seuls des humains pourraient avoir.

 

Un autre résultat que je trouve encore plus intéressant si je comprends bien la première version de l'article de recherche qu'ils avaient publié pour AlphaGo, c'est qu'ils ont développé deux versions d'AlphaZero : une à laquelle ils n'ont appris que les règles du jeu, et une à laquelle ils ont aussi inculqué des connaissances humaines, des apriori d'experts, un peu les mêmes types de connaissance que l'on livrait habituellement aux programmes classiques pour qu'ils puissent évaluer les positions. 

Bien évidemment, l'Alpha avec des apriori apprend dans un premier temps plus vite, il teste moins de fausses pistes, mais ensuite celui qui apprend tout seul devient meilleur ! De là a dire que machine > homme+machine il y a pas beaucoup de pas du moins pour les jeux de plateau.

 

Ça c'est pour les aspects impressionnants, après je pense qu'il faut garder les pieds sur terre :

-les échecs ont des règles simples, figées.

-le plateau est petit, le nombre de variables est limité, il n'y a aucune surprise.

-le résultat est simple à évaluer, la plupart des algos de machine learning doivent minimiser des fonctions de perte, ici gain, nulle, perte, c'est facile.

-les données pour s'entraîner sont faciles à acquérir. Pour des problématiques plus concrètes ce sera sans doute plus difficiles de créer des conditions d'apprentissage.

 

Enfin et surtout, il ne semble pas y avoir de révolution scientifique sur le plan de l'algorithme en lui même. C'est avant tout une prouesse technologique, permise par de gros moyens. Google fait du marketing avec son 4h, et également à d'autres endroits de l'article quand ils sous entendent être plus économes en calcul que les programmes actuels après apprentissage.

Je suis pas informaticien, mais lors de la phase d'apprentissage google a connecté des milliers de super ordinateurs, les 4h sont l'équivalent de plus d'une vie humaine sur un seul très bon ordi sur le marché. Quand google dit que la machine a appris qu'en 44 millions de partie c'est également une grosse simplification, c'est vrai sauf que pendant chaque partie, à chaque coup, AlphaZero simule des milliers de fin de parties à partir de la position en cours, et apprend de ses simulations. En réalité, AlphaZero a donc appris sur plusieurs milliers de milliards de partie. Et même après avoir appris, au moment de jouer contre le programme classique, le hardware utilisé par AlphaZero etait bien supérieur, il ne tourne pas sur un ordi classique, sa méthode de calcul ne le permet pas (même si il considère moins de positions qu'un programme classique, car grâce a son apprentissage il sait se concentrer uniquement sur les pistes intéressantes). Désolé pour le pavé !

Lien vers le commentaire
8 hours ago, adrct said:

 

Enfin et surtout, il ne semble pas y avoir de révolution scientifique sur le plan de l'algorithme en lui même. C'est avant tout une prouesse technologique, permise par de gros moyens. Google fait du marketing avec son 4h, et également à d'autres endroits de l'article quand ils sous entendent être plus économes en calcul que les programmes actuels après apprentissage.

 

 Bien sûr que Google a des moyens techniques, et humains, qui me font rêver pour mes propres recherches. Il y a cependant eu un verrou scientifique qui a cédé en 2006 avec de nouvelles méthodes d'apprentissage bien plus fortes que la simple backpropagation du gradient qui datait des années 80.

Lien vers le commentaire
il y a 37 minutes, Kassad a dit :

Bien sûr que Google a des moyens techniques, et humains, qui me font rêver pour mes propres recherches. Il y a cependant eu un verrou scientifique qui a cédé en 2006 avec de nouvelles méthodes d'apprentissage bien plus fortes que la simple backpropagation du gradient qui datait des années 80.

Je peux me tromper, mais sauf erreur, c'est toujours de la rétro-propagation de gradient à l'oeuvre. (quoi d'autre ?)

La nouveauté, c'est l'architecture des couches d'entrée (convolutions) et donc des inputs beaucoup plus pertinents injectés dans cet algorithme extraordinaire.

Il y a pas mal d'équipes, mais un nom que je retiens c'est Lecun.

 

Lien vers le commentaire
55 minutes ago, Vincent Andrès said:

Je peux me tromper, mais sauf erreur, c'est toujours de la rétro-propagation de gradient à l'oeuvre. (quoi d'autre ?)

La nouveauté, c'est l'architecture des couches d'entrée (convolutions) et donc des inputs beaucoup plus pertinents injectés dans cet algorithme extraordinaire.

Il y a pas mal d'équipes, mais un nom que je retiens c'est Lecun.

 

Non je crois qu'il y a un algo spécifique d'apprentissage couche par couche. Bien sûr pour apprendre de tes erreurs l'idée est toujours la même : les qieide fonds sont : à quelle vitesse tu converges et comment tu échappes aux minimas locaux. La méthode spécifique du deep learning est de faire un apprentissage supervisé couche par couche et ensuite de la  retropropagation à la papa.Je crois qu'on peut aussi jouer sur le fait qu'il y ait des boucles ou pas dans les couches cachées. Il y a eu un bond qualitatif depuis le milieu des années 2000.

Lien vers le commentaire

Pour l'instant on a un programme qui apprend tout seul à jouer aux échecs en simulant intelligemment des milliards de partie avec derrière de gros gros moyens matériels. Même après avoir appris, ça tourne pas sur du matos vendus dans le commerce. Effectivement ce n'est pas qu'une prouesse technologique, ça s'appuie sur des progrès en reconnaissance de pattern etc. Le résultat est tout à fait impressionnant concernant le jeu d'échecs. Mais je suis très sceptique sur la généralisation de telles méthodes sur plein d'autres problématiques, ou sur le lien que l'on peut faire avec la singularité. 

 

Dans d'autres problématiques, comment générer des milliers de milliards de scénarios pour pouvoir apprendre ?

Comment faire quand les règles du jeu ne sont pas clairement définies, ou sont évolutives, suivent une dynamique aléatoire ?

Comment faire lorsque le nombre de variable est bien plus gros ? Quand le résultat est difficile à précisément quantifier ?

Si les problématiques deviennent bien plus couteuses en temps de calcul, et sachant que pour le jeu d'échecs on utilise déja le top du top en terme de matos, les progrès technologiques matériels suivront ils le rythme ?

 

Je suis curieux des arguments des chercheurs en IA concernant "l'IA forte d'ici 2050", "la singularité c'est pour bientôt". Je ne vois pas trop le rapport entre l'apprentissage et ça. Je n'ai lu que des arguments littéraires et un peu abstraits à base de "le progrès c'est exponentiel", mais j'ai jamais lu de pistes scientifiques convaincantes. 

Lien vers le commentaire
13 minutes ago, Mathieu_D said:

Mmmh non si entrainer des réseaux de neurones est couteux en calcul ce n'est pas du tout le cas en exécution.

En tout cas AlphaZero, même après apprentissage, tourne sur un hardware costaud de chez costaud même si ca n'a rien avoir avec celui utilisé lors de la phase d'apprentissage pur.

En gros si on en croit l'article pour l'apprentissage ca a tourné avec 5000 TPU, pour les parties 4 TPU.

J'ai lu que ca correspondait à une puissance de 720 teraflops. Le programme qu'AlphaZero a affronté n'a pas eu le droit à cet hardware, même si sans doute que ca lui aurait été relativement moins utile qu'à AlphaZero

 

AlphaZero a appris a bien jouer, mais il n'a pas appris à, face a une position donnée, trouver instantanément un coup miraculeux. Son apprentissage l'aide, j'ai l'impression, à, pendant les parties, avoir un bon instinct des bonnes branches à creuser (alors que les programmes traditionnels considèrent absolument tous les coups possibles jusqu'à une certaine profondeur, avant d'évaluer la position finale de leur calcul). En gros AlphaZero considère moins de positions, mais les creuse en profondeur (et ne base pas son évaluation sur des critères humains qu'on lui a programmé mais sur des probabilités de gains issus de son propre apprentissage et des résultats de ses simulations.)  . Le problème c'est que pour choisir un coup il simule (si je comprends bien) plein de fins de parties, ce qui est un processus couteux en temps de calcul.

D'ailleurs j'ai lu que en partie très rapide, (là ca a joué en 1mn par coup), AlphaZero n'est pas très performant. Son évaluation instantanée des positions n'est pas miraculeuse (même si suffisament bonne pour pouvoir directement explorer les 4 ou 5 pistes les plus prometteuses).

 

 

Lien vers le commentaire
3 hours ago, adrct said:

Je suis curieux des arguments des chercheurs en IA concernant "l'IA forte d'ici 2050", "la singularité c'est pour bientôt". Je ne vois pas trop le rapport entre l'apprentissage et ça. Je n'ai lu que des arguments littéraires et un peu abstraits à base de "le progrès c'est exponentiel", mais j'ai jamais lu de pistes scientifiques convaincantes

 

J'ai un peu le même point de vue. Il y a des limites intrinsèques à la calculabilité et donc l'argument du progrès exponentiel se cassera la figure dessus. 

 

Les IA sont ultra-humaines pour des problémes biens posés pour lesquels on ne connait pas de bonne manière de faire.Typiquement programmer un logiciel d'échecs tombe dans cette catégorie (d'ailleurs c'était une remarque de Shannon sur l'intérêt qu'il y avait à choisir ce problème : ce n'était pas juste un calcul numérique du type de ceux dont on a besoin pour faire une bombe nucléaire mais plus une affaire de qualité). 

 

Le problème majeur vient de la réflexivité : est ce que la.machine peut prendre conscience d'elle même. C'est peu probable car il y aurait un paradoxe : en se comprenant elle même elle comprendrait ses limites (halting problem) Mais pourrait les dépasser ce qui contredirit que ce sont des limites.

 

Donc la course à l'échalote c'est de faire une IA qui arrive à penser en dehors de la boite.

Lien vers le commentaire

Mouais. Déjà rien que quand on construira une ia dont on sera incapable de faire la différence entre humain et machine en double aveugle, on pourra commencer à baliser.

 

Enfin il y a autre chose qui m'embête avec ça, c'est que rien ne dit qu'une IA plus intelligente que nous et autoconsciente sera dotée d'un instinct de survie et de progrès. Ça aura peut-être aucun sens pour elle d'exister ou de ne pas exister, ni de s'améliorer ou pas.

C'est AMHA le gros élément intrinsèque du vivant qui est projeté systématiquement sur le vivant artificiel potentiel sans qu'on se demande si ça a le moindre sens. 

Après tout, la reproduction et expansion c'est quelque chose qui a existé bien avant la conscience sur un temps long, et rien ne dit que si on créé une conscience non biologique, le fait de pouvoir vivre ou pas aura un sens vu qu'elle n'est pas biologique ni issue de l'évolution. 

Lien vers le commentaire

Je plussoie @Kassad sur les conséquences de Alpha Zero sur le point de vue de Kasparov. Avant Alpha Zero on avait juste des programmes champion de tactique parce qu'ils peuvent voir au delà de 30 coups. Ils pouvaient ainsi défendre une position quasi perdue pour un humain.  L'opinion de Kasparov c'était que grâce à cette vision profonde un ordinateur pouvait réfuter une intuition humaine qui elle se serait concentrée sur la stratégie. Avec Alpha Zero c'est cette vision là qui devrait sauter.

 

Ce qui est aussi super intéressant pour les amateurs d'échecs (et les pros!!), c'est de voir comment Alpha Zero a sélectionné les ouvertures. Apparemment au fur et à mesure de son apprentissage, Alpha Zero a découvert une succession d'ouvertures qu'il abandonnait ensuite dès qu'il en trouvait de meilleures. Faudra voir à quel point ça aura de l'influence sur le jeu des humains.

Le truc qui est terrible et fascinant avec le deep learning, c'est qu'on ne sait pas interpréter les décisions prise par un tel réseau. Par exemple pourquoi telle ouverture est meilleure qu'une autre selon Alpha zero ? Parce qu'elle lui permet de mieux gagner ? C'est une tautologie, mais on n'a aucune autre idée pour l'instant.

 

Je vais vous retrouver un peu le départ du Deep Learning. J'ai les références, faut juste que je retrouve.

Mais faut pas oublier non plus l'amélioration du hardware, tous les algorithmes d'entraînements sont basés sur des produits matricielles (en fait des tenseurs, mais bon hmm). L'accès au GPU via des API comme CUDA a contribué à augmenter énormément la puissance de calcul disponible pour faire tourner les expériences. Google a enfoncé le clou en produisant en interne des puces dédiées au calcul tensoriel.

L'autre chose qui était fondamentalement nécessaire pour pouvoir valider le deep learning était l'accès à des bases de données énormes car elles permettent d'éviter un surentraînement.

 

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
×
×
  • Créer...