PABerryer Posté 17 avril 2017 Signaler Posté 17 avril 2017 On parle de plus en plus de méthodes basées sur une analyse type Big Data comme étant plus fiables que les sondages. Dans les médias on parle beaucoup de Filteris, souvent en mal, comme étant imprécises. D'après vous, le big data est il l'avenir de la prédiction par rapport aux sondages? Je poste volontairement cet sujet dans cette section car c'est plus la méthode qui m'intéresse que de savoir si Filteris a raison ou non. 2
Anton_K Posté 17 avril 2017 Signaler Posté 17 avril 2017 Du point de vue de l'accès aux données les méthodes que tu appelles "Big Data" ont l'air d'avoir un énorme avantage sur celles des sondages traditionnels. Ces dernières compensent du mieux qu'elles peuvent leur faible taille d'échantillon par des méthodes strictement mathématiques mais rien ne remplace le simple nombre de points de données. Ensuite on peut se demander : qu'est-ce qui prédit le mieux le vote ? Ce qu'une personne dit qu'elle va voter, ou d'autres aspects de son comportement ? Ce qu'il y a de séduisant dans les approches "Big Data" c'est qu'on se dit que si une personne peut mentir à un sondeur dans la rue, elle est égale à elle même le reste du temps. La question cruciale c'est : quel mix de variables de l'activité d'une personne en ligne prédit le mieux son vote ? Pour le découvrir il me semble qu'il y aurait une phase d'apprentissage dont je ne sais pas personnellement comment elle peut être faite efficacement vu le rythme des échéances mais ça ne veut pas dire qu'il n'y a pas des instances du substitutions pour s'entrainer à la prédiction. Quant à Filtéris évidemment leur méthode est secrète mais je crois qu'ils s'intéressent toujours à des déclarations faites par les utilisateurs sur des candidats, mais il ne s'agit pas de prédire le vote de l'électeur, plutôt de déterminer le poids d'un candidat à partir de l'activité globale à son sujet : Quote "On ne pose pas de question, on ne constitue pas d'échantillon, on évite les biais des réponses 'socialement acceptables'" explique Jérôme Coutard à LCP.fr. "Nous, on teste les candidats sur les moteurs de recherche, comme on le ferait pour un produit ou une marque, avec une liste de questions." En tout, plusieurs centaines de milliers d’occurrences sont recueillies. L'étape suivante est plus floue : On raffine ces expressions selon un procédé qui constitue notre secret industriel. À partir de ces résultats, on calcule leur poids numérique - parle-t-on beaucoup de lui ? - et leur sentimentalité - en bien ou en mal ?Jérôme Coutard, PDG de Filteris Troisième et dernière étape, les algorithmes de Filteris traduisent ces résultats en un score sur 100. C'est ce score, selon Jérôme Coutard, qui permet de recouper les résultats électoraux "si l'élection avait lieu le jour même". À l'heure où le travail des instituts de sondage est largement décrié, cette méthode alternative a de quoi éveiller la curiosité.. Expand http://www.lcp.fr/actualites/info-lcp-filteris-letrange-boule-de-cristal-des-fillonistes L'article note d'ailleurs qu'en 2012 la prédiction avait été assez mauvaise. Difficile de dire dans quelle mesure leur méthode s'est améliorée. Maintenant, il disent avoir prévu le Brexit et Trump, mais évidemment ce pourrait être de la chance, et la raison même pour laquelle on parle d'eux aujourd'hui. Si leur méthode se réduit à un "buzzomètre" sur internet mâtiné d'analyse sémantique pour distinguer le "positif" du "négatif", le risque c'est que les candidats qui ont le plus de supporters sur les réseaux sociaux soient avantagés. Je suis certain qu'ils ont des manières de contrebalancer cela, mais c'est déjà un biais et il faudrait savoir lequel, et ce n'est pas possible. Sinon ce que l'article de LCP pointe d'important c'est qu'il y a une possible collusion d'intérêts car un des cadres de Filtéris serait un proche du frère de Fillon. Ce n'est pas à négliger. 1
0100011 Posté 17 avril 2017 Signaler Posté 17 avril 2017 Le 17/04/2017 à 10:02, Anton_K a dit : La question cruciale c'est : quel mix de variables de l'activité d'une personne en ligne prédit le mieux son vote ? Pour le découvrir il me semble qu'il y aurait une phase d'apprentissage dont je ne sais pas personnellement comment elle peut être faite efficacement vu le rythme des échéances mais ça ne veut pas dire qu'il n'y a pas des instances du substitutions pour s'entrainer à la prédiction. Expand Comme tout est enregistré on peut apprendre des élections passées. Par exemple on pourra reprendre tout plein de données de ce début d'années et voir ce à quoi elles ont conduit quand on aura le résultat des élections... Une question tout aussi importante que l'apprentissage est : quelles données choisir (ou pondérer) ? Il reste que ce sont des statistiques qui reflètent le passé. Si ce dernier a tendance à se reproduire (par exemple prévoir le temps qu'il fera demain en annonçant qu'il fera pareil qu'aujourd'hui est une technique assez fiable) par construction ça ne permet pas de repérer les ruptures (fameux cygnes noirs et tout ce qui tourne autour du problème de l'induction, cf la dinde de Russel avant thanksgiving).
Elphyr Posté 18 avril 2017 Signaler Posté 18 avril 2017 Le 17/04/2017 à 11:54, Kassad a dit : Comme tout est enregistré on peut apprendre des élections passées. Par exemple on pourra reprendre tout plein de données de ce début d'années et voir ce à quoi elles ont conduit quand on aura le résultat des élections... Une question tout aussi importante que l'apprentissage est : quelles données choisir (ou pondérer) ? Il reste que ce sont des statistiques qui reflètent le passé. Si ce dernier a tendance à se reproduire (par exemple prévoir le temps qu'il fera demain en annonçant qu'il fera pareil qu'aujourd'hui est une technique assez fiable) par construction ça ne permet pas de repérer les ruptures (fameux cygnes noirs et tout ce qui tourne autour du problème de l'induction, cf la dinde de Russel avant thanksgiving). Expand Tout est enregistré, tu es sûr ? On a des profils-type de votants. Mais ce sont des profils, c'est à dire que ce sont déjà des objets mathématiques (et plus de vrais gens). Je pense qu'on manque cruellement de données pour pouvoir faire des prédictions fiables. Il faudrait au mieux que les votes soient publics, et publiés sur facebook (bon, pour une partie de la population, c'est déjà le cas...). C'est plus compliqué que l'étude de séries temporelles, et celles-ci sont déjà souvent galère à étudier. Je fais mon stage dans la détection d'anomalie sur des suites de nombres et j'utilise les algos classiques de prédiction ; autant je vois très bien ce qu'on pourrait faire pour prédire le résultat d'un élection, autant j'ai l'impression qu'on manque cruellement de variables. Je peux me tromper évidemment... Après on peut toujours faire moyenne sur moyenne, modèle sur modèle et on se retrouve au JT de TF1 à étudier un petit village de campagne qui, depuis tout temps, vote toujours proportionnellement très proche de la moyenne nationale. JP Pernaut > machine learning.
cedric.org Posté 19 avril 2017 Signaler Posté 19 avril 2017 Je rappelle juste que, non filtré, non analysé, non corrigé, les simples Google trends ont fait bien mieux pour les primaires que n'importe quel sondage. Alors en y apportant un modèle... Et oui, le concept même de big data est que tout soit enregistré, stocké. Pas ta connerie que tu marques sur ton facebook de manière privée (encore que...), mais tout le reste, et on peut se dire qu'entre les réseaux sociaux publics style twitter et, ne loublions pas, tout le reste du net public, ça fait pas mal de données à décortiquer et largement de quoi occuper les data scientists pendant pas mal de temps.
Nathalie MP Posté 20 avril 2017 Signaler Posté 20 avril 2017 Le 17/04/2017 à 09:14, PABerryer a dit : c'est plus la méthode qui m'intéresse Expand Moi aussi. J'aimerais beaucoup en savoir plus sur ces méthodes d'évaluation de l'opinion.
Anton_K Posté 20 avril 2017 Signaler Posté 20 avril 2017 Le 20/04/2017 à 07:57, Nathalie MP a dit : Moi aussi. J'aimerais beaucoup en savoir plus sur ces méthodes d'évaluation de l'opinion. Expand La méthode de Filteris est gardée secrète par ses concepteurs, mais apparemment ce qu'on peut dire c'est qu'il s'agit : - De récupérer toutes les mentions qui sont faites d'un candidat sur les réseaux sociaux (un peu comme Google Trend mais restreint aux réseaux sociaux) - De raffiner ça par une analyse sémantique (est-ce qu'on parle du candidat en bien ou en mal). -Probablement de pondérer ça par des présupposition sur le degré d'activisme des supporters d'un candidat sur internet. -Des trucs secrets. En découle un score pour chaque candidat, qu'ils comparent. Présenté comme ça, ce n'est pas de la prédiction de vote individuel et on ne voit pas bien où se cachent les méthodes d'analyse de données avancées. Mais c'est aussi un peu normal. Et puis comme dit cedric, si Google Trend suffit, alors ce qu'ils révèlent peut déjà suffire. 1
RaHaN Posté 20 avril 2017 Signaler Posté 20 avril 2017 http://buzzpol.com/methodologie/ Ca reste très très primaire, et comme marqué plus haut, c'est une méthode alternative. Aucune des méthodes n'aura raison ou tord, le tout est, si on les utilise, de connaitre leur fonctionnement et leurs limites. Sauf que pour le cas de Filteris, effectivement, on en saura pas davantage, puisque c'est leur gagne-pain. Il suffirait qu'un "activiste" de n'importe quel bord le comprenne (ou qu'eux-même soit affilié à l'un des bord), pour que le résultat final soit modifié, pondération ou pas. Aussi, il suffit de voir comment sont orientés la présentations de leurs résultats passés (soit utilisation de corrélation pour 2007, soit affiche du second tour pour la primaire LR par exemple) pour voir qu'ils proposent quelque chose qui est soit un balbutiement, soit une tromperie sur le sérieux de la chose.
Johnnieboy Posté 20 avril 2017 Signaler Posté 20 avril 2017 Je crois que @Kassad avait posté un article il y a quelques années qui portait sur cela. Une méthode permettait de connaître l'orientation politique d'un Américain en se contentant d'analyser les notes données aux films sur imdb.com
DiabloSwing Posté 20 avril 2017 Signaler Posté 20 avril 2017 Le 18/04/2017 à 08:14, Elphyr a dit : Après on peut toujours faire moyenne sur moyenne, modèle sur modèle et on se retrouve au JT de TF1 à étudier un petit village de campagne qui, depuis tout temps, vote toujours proportionnellement très proche de la moyenne nationale. JP Pernaut > machine learning. Expand Alain Peyrefitte considérait qu'il suffisait de faire voter la ville de Provins vu que les résultats étaient très très proches des élections nationales.
Nathalie MP Posté 20 avril 2017 Signaler Posté 20 avril 2017 Le 20/04/2017 à 08:31, Anton_K a dit : -Probablement de pondérer ça par des présupposition sur le degré d'activisme des supporters d'un candidat sur internet. -Des trucs secrets. En découle un score pour chaque candidat, qu'ils comparent. Expand C'est bien ce qu'il me semblait, j'ai d'ailleurs fait un article (de vulgarisation) là-dessus : https://leblogdenathaliemp.com/2017/03/31/sondages-que-nous-disent-ils/ J'y signalais précisément que Filteris et consorts n'étaient pas à l'abri de faire eux aussi leur petite cuisine interne qu'on reproche tant aux sondeurs classiques. Mais je me demande aussi si cette méthode pourrait prendre de l'ascendant sur les sondages classiques à mesure que la population sera plus utilisatrice d'internet (ce qui pour l'instant n'est pas le cas d'une vaste frange senior de la population).
PABerryer Posté 22 avril 2017 Auteur Signaler Posté 22 avril 2017 Les sondages seraient bien caviardés... https://medium.com/@lemebfr/oui-les-sondages-présidentiels-sont-caviardés-d60da7ce9cb
Groucho Marx Posté 24 avril 2017 Signaler Posté 24 avril 2017 Ben là pour le coup, Filteris s'est planté dans les grandes largeurs avec son big data...
Mathieu_D Posté 24 avril 2017 Signaler Posté 24 avril 2017 Le 24/04/2017 à 11:55, Groucho Marx a dit : Ben là pour le coup, Filteris s'est planté dans les grandes largeurs avec son big data... Expand Leur dernier prono c'était quoi ? La difficulté de leur algo c'est d'estimer la part dans le résultat final des votants absents du net. (les vieux)
Groucho Marx Posté 24 avril 2017 Signaler Posté 24 avril 2017 Le 24/04/2017 à 14:42, Mathieu_D a dit : Leur dernier prono c'était quoi ? La difficulté de leur algo c'est d'estimer la part dans le résultat final des votants absents du net. (les vieux) Expand il est toujours en ligne: MLP : 22.72% FF : 21.57% JLM : 21.34% EM : 20.03%
Messages recommandés
Créer un compte ou se connecter pour commenter
Vous devez être membre afin de pouvoir déposer un commentaire
Créer un compte
Créez un compte sur notre communauté. C’est facile !
Créer un nouveau compteSe connecter
Vous avez déjà un compte ? Connectez-vous ici.
Connectez-vous maintenant