Jeux & singularité : go

Anton_K · 14 mars 2016

Voilà, la question est donc : la conversation est-elle le meilleur lieu pour tester ces capacités. Comment tu distingues une machine d'une personne d'intelligence médiocre qui a du mal à raisonner et se contente de dire des banalités qu'une machine trouverait aisément sur internet ?

Rübezahl · 14 mars 2016

Le cerveau c'est l'évolution et l'ordre spontané. La machine c'est la planification rationnelle.

(Il y a plusieurs intervenants ici dont je me demande si vous savez comment fonctionnent ces programmes d'apprentissage ?)

La seule chose qui est programmée (au sens classique du mot), c'est le logiciel d'apprentissage (le professeur).

Le joueur n'est pas un programme au sens suite d'instructions alignées par un programmeur.

Le joueur est un système de paramètres (milliers, dizaines de milliers) qui évoluent sous la pression de l'apprentissage imposé. Il n'y a pas de planification (sauf celle de l'apprentissage, ie le choix des parties déjà jouées qu'on va faire voir au système). Et parfois aussi un peu dans l'agencement du système en sous-parties/couches/etc.

Les concepteurs n'ont pas d'idées préconçues sur la configuration finale des paramètres. Il y a des fois des surprises énormes, eg des sous-blocs du système qui sont en pratique annulés par l'apprentissage (toutes les connections à zéro).

Une fois l'apprentissage achevé, le joueur est effectivement implémenté par un programme qui exécute/simule son comportement (comme n'importe quelle simulation). Mais son comportement n'a rien à voir avec un déroulé d'instructions.

Quand on simule une avalanche sur ordinateur en exécutant un modèle d'écoulement de fluides, via un programme, on ne dit pas que l'écoulement est programmé. svp, c'est la même chose pour les systèmes ~"neuronaux" dont on discute ici. L'ordinateur sert juste à l'implémentation, il n'y a pas lieu de le confondre avec le modèle implémenté dessus.

[Par ailleurs, il y a des architectures dans lesquelles l'exécution de l'apprentissage est, à chaque étape (des milliers ou millions de fois), soumise à une fonction aléatoire (quel paramètre va se faire corriger).

Et il y a des architectures ou cela est même vrai lors de la simulation. Chaque coup étant le résultat d'une convergence, la convergence étant déroulée aussi via une fonction aléatoire.]

Voilà pour la planification rationnelle.

J'espère que c'était une boutade.

Mathieu_D · 14 mars 2016

Mmmoui bon comment est fait le réseau de neurones en question, combien de couches, quelle fonction d'activation, on n'en sait rien.

Lancelot · 14 mars 2016

Là, on cherche à obtenir de la machine le même comportement complet (intellectuel, biologique et moteur) qu'un humain, alors que le test de turing porte sur un comportement intellectuel. Et c'est logique : on teste les capacités de la machine à tenir un raisonnement compréhensible du point de vue humain, contextualisé, etc... Pas qu'il soit capable d'avoir le même tractus digestif.

C'est un problème en effet, mais je crains que le test de Turing sous sa forme classique porte encore sur des compétences trop spécifiques pour capturer "l'intelligence". Et je me demande si une telle intelligence peut exister sans corps.

Mmmoui bon comment est fait le réseau de neurones en question, combien de couches, quelle fonction d'activation, on n'en sait rien.

Puis surtout je parlais de machine learning en général, qui n'implique pas forcément des réseaux de neurones. Le lien avec le libéralisme était évidemment une boutade.

Rübezahl · 14 mars 2016

Pour les derniers joueurs d'échec d'IBM, il me semble que le système était constitué de plusieurs sous-systèmes,

eg temporellement :

bibliothèque quasi-pure pour l'ouverture,

système(s) pour le coeur de partie (avec sélection du système joueur selon la configuration)

rebibliothèque quasi-pure pour la phase finale.

Et ce qui se pratique aussi, c'est que le système peut être un chef d'orchestre pour plusieurs joueurs en compétition,

via eg un système de vote.

ça peut se faire uniquement pendant la phase d'apprentissage, où cela rajoute un élément de correction pour tous les systèmes.

Cela peut aussi se faire carrément pendant la partie réelle.

Je ne sais pas jusqu'à quel point google dévoile les coulisses de leur système ?

9,9k · 14 mars 2016

(Il y a plusieurs intervenants ici dont je me demande si vous savez comment fonctionnent ces programmes d'apprentissage ?)

La seule chose qui est programmée (au sens classique du mot), c'est le logiciel d'apprentissage (le professeur).

Le joueur n'est pas un programme au sens suite d'instructions alignées par un programmeur.

Le joueur est un système de paramètres (milliers, dizaines de milliers) qui évoluent sous la pression de l'apprentissage imposé. Il n'y a pas de planification (sauf celle de l'apprentissage, ie le choix des parties déjà jouées qu'on va faire voir au système). Et parfois aussi un peu dans l'agencement du système en sous-parties/couches/etc.

Les concepteurs n'ont pas d'idées préconçues sur la configuration finale des paramètres. Il y a des fois des surprises énormes, eg des sous-blocs du système qui sont en pratique annulés par l'apprentissage (toutes les connections à zéro).

En termes de calculabilité ça change juste rien du tout le fait que la machine évolue. De toute manière il s'agit d'une machine digitale dont les fonctions de rétro-action ne sont que des approximations discrètes de fonctions continues. La manière dont tu obtiens le code de ta machine ne change pas la classe des fonctions qu'elle peut calculer.

Sinon pour le test de Turing c'est très discuté comme définition de l'intelligence. Par exemple aux échecs la machine ne passait pas le test de Turing (avec un script de partie un GM pouvait déterminer si une partie était ou non jouée par une machine) jusque vers la fin des années 90/début 2000, puis aux débuts des années 2000 la machine a passé le test (G. Kasparov lui même reconnaissait qu'il ne pouvait plus distinguer une partie de machine d'une partie de très bon GM) mais seulement depuis quelques années la machine ne passe plus ce test : en effet elle joue des coups tellements contre-intuitifs (typiquement justifiés par des lignes tactiques improbables) qu'on peut de nouveau reconnaitre la machine de l'homme !

Un truc très étonnant et lié à cela est qu'il est difficile de faire jouer une machine "un peu moins bien". D'ailleurs je serais curieux de savoir si l'équipe d'AlphaGo a un quelconque moyen d'agir sur le niveau (en le baissant) de sa machine. Aux échecs au moins c'est très difficile de faire quelque chose de significatif (généralement on arrive à un comportement où la machine joue extrèmement bien quelques coups puis fait une énorme connerie et se remet à jouer bien ensuite : on n'arrive pas à avoir une baisse de niveau continue).

Rübezahl · 14 mars 2016

En termes de calculabilité ça change juste rien du tout le fait que la machine évolue. De toute manière il s'agit d'une machine digitale dont les fonctions de rétro-action ne sont que des approximations discrètes de fonctions continues.

Mon propos est juste de souligner que le système (quelle que soit son implémentation physique) évolue sous la pression de l'apprentissage, de manière tout à fait analogue à l'évolution d'un cerveau biologique sous la pression de l'apprentissage.

La manière dont tu obtiens le code de ta machine ne change pas la classe des fonctions qu'elle peut calculer.

exactement comme pour un cerveau biologique fabriqué avec ~~de la bidoche~~ du gras.

Mathieu_D · 14 mars 2016

Heu Vincent un algo de machine learning c'est beaucoup plus simple que ce que tu dis.

On cherche juste à séparer des 1 et des 0.

Fagotto · 14 mars 2016

Un truc très étonnant et lié à cela est qu'il est difficile de faire jouer une machine "un peu moins bien". D'ailleurs je serais curieux de savoir si l'équipe d'AlphaGo a un quelconque moyen d'agir sur le niveau (en le baissant) de sa machine. Aux échecs au moins c'est très difficile de faire quelque chose de significatif (généralement on arrive à un comportement où la machine joue extrèmement bien quelques coups puis fait une énorme connerie et se remet à jouer bien ensuite : on n'arrive pas à avoir une baisse de niveau continue).

Pour baisser le niveau de la machine, tu peux limiter tout simplement sa puissance de calcul, ou la profondeur de son calcul, exemple, il ne calcule que 10 coups à l'avance, et aussi virer sa bibliotheque d'ouverture. Je suppose que c'est pareil pour le go?

Après retoucher l'algorithme d'évaluation d'une position pour qu'il soit moins fort, ça parait plus compliqué.

9,9k · 14 mars 2016

Pour baisser le niveau de la machine, tu peux limiter tout simplement sa puissance de calcul, ou la profondeur de son calcul, exemple, il ne calcule que 10 coups à l'avance, et aussi virer sa bibliotheque d'ouverture. Je suppose que c'est pareil pour le go?

Après retoucher l'algorithme d'évaluation d'une position pour qu'il soit moins fort, ça parait plus compliqué.

Ca ne marche pas : si tu coupes brutalement l'arbre alors la machine va faire n'importe quoi (imagine 6/7 pièces qui s'échangent sur une case ça prend 14 demi coups, si tu ne prolonges pas l'arbre jusqu'à une position quiecsente tu te lances dans les échanges sans savoir si tu es gagnant ou pas). Le truc le plus évident est de limiter le temps (pour qu'au moins l'évaluation se fasse correctement) mais ça ne fait pas baisser le niveau en terme qualitatifs comme tu peux le voir entre un joueur moyen et un très bon joueur. Typiquement la machine fera des bourdes stratégiques mais restera (même avec "moins" de vitesse de calcul) un monstre tactique. La baisse de niveau ne sera pas uniforme. En fait, faire tourner des heures une machine sur une position n'a pas beaucoup d'intérêt du fait de l'explosion combinatoire : c'est à dire qu'après un certain temps qui vient assez vite (à l'oeil je dirais quelques minutes) l'intérêt marginal du temps supplémentaire décroit exponentiellement vite. D'un autre côté couper brutalement l'évaluation avant ce moment conduit à une baisse du niveau de jeu qui est dramatique.

9,9k · 14 mars 2016

Un article plutôt bien fait sur AlphaGo : http://en.chessbase.com/post/alphago-vs-lee-sedol-history-in-the-making

NicolasB · 14 mars 2016

J'ai regardé cette vidéo

Vous en pensez quoi?

Rübezahl · 14 mars 2016

Heu Vincent un algo de machine learning c'est beaucoup plus simple que ce que tu dis.

On cherche juste à séparer des 1 et des 0.

... ??

stp, quel est ton background dans ce domaine ? (enfin si ce n'est pas indiscret)

Mathieu_D · 14 mars 2016

... ??

stp, quel est ton background dans ce domaine ? (enfin si ce n'est pas indiscret)

Dataminer depuis des années.

Je ne fais pas d'IA mais des modèles prédictifs oui.

Astha · 14 mars 2016

Le jeu Starcraft pourrait être le prochain défi de l’intelligence artificielle

Le Monde | 12.03.2016 à 12h44 • Mis à jour le 12.03.2016 à 14h09

Avant la série de victoires historique de l’intelligence artificielle AlphaGo contre le joueur professionnel Lee Sedol, le go était considéré comme le dernier jeu « classique » résistant à la machine.

Google, qui a enfanté AlphaGo via sa branche Deep Mind, pourrait s’attaquer à d’autres jeux. Interrogé samedi 12 mars sur le prochain défi de l’intelligence artificielle, un chercheur de l’entreprise a suggéré qu’elle pourrait s’attaquer plus tard au très célèbre jeu de stratégie StarCraft, sorti en 1998. L’avantage du jeu de go est que l’ordinateur peut voir et analyser tout le plateau, a souligné Jeff Dean lors d’une conférence à San Francisco. En revanche, dans StarCraft les mouvements des adversaires peuvent êtres cachés, rendant les choix stratégiques plus complexes.

http://www.lemonde.fr/pixels/article/2016/03/12/le-jeu-starcraft-pourrait-etre-le-prochain-defi-de-l-intelligence-artificielle_4881771_4408996.html

Rübezahl · 14 mars 2016

Dataminer depuis des années.

Je ne fais pas d'IA mais des modèles prédictifs oui.

... et (toujours si c'est pas indiscret hein), tu écris les algos que tu utilises ?

Tu fais de la statistique avec des outils on the shelf, ou tu es plus en amont ?

(C'est juste de la curiosité pour comprendre un peu à quel titre les différents intervenants papotent ici.)

NoName · 14 mars 2016

il pourraient s'intéresser à LoL ? ça serait cool d'avoir une IA qui serve réellement à s'entrainer

9,9k · 14 mars 2016

La vidéo résume bien ce qui se passe. Je ne sais pas ce que quelqu'un qui ne connait rien à la programmation (et la programmation des jeux) peut en retirer cela dit.

Je me suis toujours dit qu'une limite dure pour les IA serait le poker en cash game no limit (comme quoi on peut faire sauter les modèles avec des bluffs bien ciblés). Je ne sais pas ce qu'un algo de deep learning peut donner dans ce contexte. Pour le moment les hommes sont encore devant

Là où ça va devenir tendu c'est quand on passera de Warcraft à des drones qui vont décider de lancer ou pas des Hellfire suivant l'apprentissage qu'ils ont eu des comportements de "terroristes". Pour le coup l'autonomie des IA je n'y crois pas encore mais l'automatisation de la punition ...

Mathieu_D · 14 mars 2016

Je recode rarement en partant de rien, il y a des outils pour la productivité, hein.

Je suis plutôt dans le marketing, voir si tu vas cliquer sur un lien ou pas, si tu vas être un client intéressant ou pas. (pas d'IA donc, je modélise succès/échec d'une action)

Je n'ai pas beaucoup fait de réseaux de neurones, un peu de cartes de Kohonnen en non supervisé.

Neothy · 14 mars 2016

La vidéo résume bien ce qui se passe. Je ne sais pas ce que quelqu'un qui ne connait rien à la programmation (et la programmation des jeux) peut en retirer cela dit.

Je me suis toujours dit qu'une limite dure pour les IA serait le poker en cash game no limit (comme quoi on peut faire sauter les modèles avec des bluffs bien ciblés). Je ne sais pas ce qu'un algo de deep learning peut donner dans ce contexte. Pour le moment les hommes sont encore devant

Là où ça va devenir tendu c'est quand on passera de Warcraft à des drones qui vont décider de lancer ou pas des Hellfire suivant l'apprentissage qu'ils ont eu des comportements de "terroristes". Pour le coup l'autonomie des IA je n'y crois pas encore mais l'automatisation de la punition ...

Ma foi, pour le poker je pense que cela doit être mathématiquement faisable, avec les nouveaux concepts GTO (Game Theory Optimal) et des trackers. Du shifumi élaboré.

Mais perso, ca ne tuera en rien le poker live, peut-être le poker en ligne mais bon, c'est très robotisé à la base avec ses multi-tables + tracker.

Cugieran · 14 mars 2016

Heu Vincent un algo de machine learning c'est beaucoup plus simple que ce que tu dis.

On cherche juste à séparer des 1 et des 0.

Ah non. Non non. Ca c'est de la classification.

C'est beaucoup d'applications de ML mais pas toutes.

L'approximation universelle par exemple ne consiste pas du tout à séparer des 0 et des 1 mais à reproduire et/ou prévoir une fonction continue.

Mathieu_D · 14 mars 2016

Ah non. Non non. Ca c'est de la classification.

C'est beaucoup d'applications de ML mais pas toutes.

L'approximation universelle par exemple ne consiste pas du tout à séparer des 0 et des 1 mais à reproduire et/ou prévoir une fonction continue.

Rhôôô des régressions j'en fait aussi hein. (Bon souvent on préfère se ramener à du 0-1 quand même.)

Il y a le non-supervisé aussi, hein.

Adrian · 14 mars 2016

Régression logistique ...

Cugieran · 14 mars 2016

Rhôôô des régressions j'en fait aussi hein. (Bon souvent on préfère se ramener à du 0-1 quand même.)

Attends, le seul moment ou je vois du 0 et du 1 dans mes modèles, c'est quand je normalise les inputs et les outputs pour éviter que les paramètres prennent des valeurs trop élevées (overtraining)...

Mathieu_D · 14 mars 2016

Je suis plus dans le marketing donc les questions qu'on se pose c'est "cliquera cliquera pas ? ", "achetera, achetera pas ? ", "client à potentiel ou pas ? ", etc...

Cugieran · 14 mars 2016

Ah oui moi c'est quel débit ou volume dans le réservoir entre 0 et autant que possible en fonction de la pluie, de la température, du rayonnement, du vent, de l'humidité et encore plein d'autres trucs farfelus + parfois (ma petite fierté) des outputs de modèles physiques comme inputs du réseau qui peut parfois lui même fournir des inputs à un autre modèle, ANN ou physique et etc et je fais des chaînes de guedin ça marche du tonnerre et c'est trop cooooooooooooooooooooooooooooooooooooooooooooool

Mathieu_D · 14 mars 2016

Tu fais d'la chaîne de Markov ? Jamais essayé.

Cugieran · 14 mars 2016

Mmm je connaissais pas donc soit c'est pas ça (ça m'a pas l'air d'être ça), soit j'ai réinventé un truc dans mon coin

J'enchaine les modèles en utilisant des données observées et des données prédictives en inputs comme en outputs mais ça reste de l'eau qui coule, très causal.

h16 · 14 mars 2016

Voilà, la question est donc : la conversation est-elle le meilleur lieu pour tester ces capacités. Comment tu distingues une machine d'une personne d'intelligence médiocre qui a du mal à raisonner et se contente de dire des banalités qu'une machine trouverait aisément sur internet ?

Même une personne médiocre est facilement capable de conserver le contexte d'une conversation, d'auto-réference et d'introspection (même bidon) voire d'humour. Pour le moment, les meilleurs algos ne permettent rien de tout ça.

h16 · 14 mars 2016

C'est un problème en effet, mais je crains que le test de Turing sous sa forme classique porte encore sur des compétences trop spécifiques pour capturer "l'intelligence". Et je me demande si une telle intelligence peut exister sans corps.

Justement. Le jour où une machine, sans un corps humain, est capable de passer ce test là, c'est que son intelligence est au moins égale à celle d'un humain.

Jeux & singularité : go

Messages recommandés

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

Contenu similaire