Aller au contenu

Sondage vs Big Data


Messages recommandés

On parle de plus en plus de méthodes basées sur une analyse type Big Data comme étant plus fiables que les sondages. Dans les médias on parle beaucoup de Filteris, souvent en mal, comme étant imprécises. D'après vous, le big data est il l'avenir de la prédiction par rapport aux sondages?

 

Je poste volontairement cet sujet dans cette section car c'est plus la méthode qui m'intéresse que de savoir si Filteris a raison ou non.

  • Yea 2
Lien vers le commentaire

Du point de vue de l'accès aux données les méthodes que tu appelles "Big Data" ont l'air d'avoir un énorme avantage sur celles des sondages traditionnels. Ces dernières compensent du mieux qu'elles peuvent leur faible taille d'échantillon par des méthodes strictement mathématiques mais rien ne remplace le simple nombre de points de données. Ensuite on peut se demander : qu'est-ce qui prédit le mieux le vote ? Ce qu'une personne dit qu'elle va voter, ou d'autres aspects de son comportement ? Ce qu'il y a de séduisant dans les approches "Big Data" c'est qu'on se dit que si une personne peut mentir à un sondeur dans la rue, elle est égale à elle même le reste du temps. La question cruciale c'est : quel mix de variables de l'activité d'une personne en ligne prédit le mieux son vote ? Pour le découvrir il me semble qu'il y aurait une phase d'apprentissage dont je ne sais pas personnellement comment elle peut être faite efficacement vu le rythme des échéances mais ça ne veut pas dire qu'il n'y a pas des instances du substitutions pour s'entrainer à la prédiction.

 

Quant à Filtéris évidemment leur méthode est secrète mais je crois qu'ils s'intéressent toujours à des déclarations faites par les utilisateurs sur des candidats, mais il ne s'agit pas de prédire le vote de l'électeur, plutôt de déterminer le poids d'un candidat à partir de l'activité globale à son sujet :

Quote

"On ne pose pas de question, on ne constitue pas d'échantillon, on évite les biais des réponses 'socialement acceptables'" explique Jérôme Coutard à LCP.fr. "Nous, on teste les candidats sur les moteurs de recherche, comme on le ferait pour un produit ou une marque, avec une liste de questions." En tout, plusieurs centaines de milliers d’occurrences sont recueillies.

L'étape suivante est plus floue :

On raffine ces expressions selon un procédé qui constitue notre secret industriel. À partir de ces résultats, on calcule leur poids numérique - parle-t-on beaucoup de lui ? - et leur sentimentalité - en bien ou en mal ?Jérôme Coutard, PDG de Filteris

Troisième et dernière étape, les algorithmes de Filteris traduisent ces résultats en un score sur 100. C'est ce score, selon Jérôme Coutard, qui permet de recouper les résultats électoraux "si l'élection avait lieu le jour même". À l'heure où le travail des instituts de sondage est largement décrié, cette méthode alternative a de quoi éveiller la curiosité..

http://www.lcp.fr/actualites/info-lcp-filteris-letrange-boule-de-cristal-des-fillonistes

 

L'article note d'ailleurs qu'en 2012 la prédiction avait été assez mauvaise. Difficile de dire dans quelle mesure leur méthode s'est améliorée. Maintenant, il disent avoir prévu le Brexit et Trump, mais évidemment ce pourrait être de la chance, et la raison même pour laquelle on parle d'eux aujourd'hui. Si leur méthode se réduit à un "buzzomètre" sur internet mâtiné d'analyse sémantique pour distinguer le "positif" du "négatif", le risque c'est que les candidats qui ont le plus de supporters sur les réseaux sociaux soient avantagés. Je suis certain qu'ils ont des manières de contrebalancer cela, mais c'est déjà un biais et il faudrait savoir lequel, et ce n'est pas possible.

 

Sinon ce que l'article de LCP pointe d'important c'est qu'il y a une possible collusion d'intérêts car un des cadres de Filtéris serait un proche du frère de Fillon. Ce n'est pas à négliger.

  • Yea 1
Lien vers le commentaire
1 hour ago, Anton_K said:

 La question cruciale c'est : quel mix de variables de l'activité d'une personne en ligne prédit le mieux son vote ? Pour le découvrir il me semble qu'il y aurait une phase d'apprentissage dont je ne sais pas personnellement comment elle peut être faite efficacement vu le rythme des échéances mais ça ne veut pas dire qu'il n'y a pas des instances du substitutions pour s'entrainer à la prédiction.

 

Comme tout est enregistré on peut apprendre des élections passées. Par exemple on pourra reprendre tout plein de données de ce début d'années et voir ce à quoi elles ont conduit quand on aura le résultat des élections... Une question tout aussi importante que l'apprentissage est : quelles données choisir (ou pondérer) ?

 

Il reste que ce sont des statistiques qui reflètent le passé. Si ce dernier a tendance à se reproduire (par exemple prévoir le temps qu'il fera demain en annonçant qu'il fera pareil qu'aujourd'hui est une technique assez fiable) par construction ça ne permet pas de repérer les ruptures (fameux cygnes noirs et tout ce qui tourne autour du problème de l'induction, cf la dinde de Russel avant thanksgiving).

Lien vers le commentaire
Il y a 20 heures, Kassad a dit :

Comme tout est enregistré on peut apprendre des élections passées. Par exemple on pourra reprendre tout plein de données de ce début d'années et voir ce à quoi elles ont conduit quand on aura le résultat des élections... Une question tout aussi importante que l'apprentissage est : quelles données choisir (ou pondérer) ?

 

Il reste que ce sont des statistiques qui reflètent le passé. Si ce dernier a tendance à se reproduire (par exemple prévoir le temps qu'il fera demain en annonçant qu'il fera pareil qu'aujourd'hui est une technique assez fiable) par construction ça ne permet pas de repérer les ruptures (fameux cygnes noirs et tout ce qui tourne autour du problème de l'induction, cf la dinde de Russel avant thanksgiving).

Tout est enregistré, tu es sûr ?
On a des profils-type de votants. Mais ce sont des profils, c'est à dire que ce sont déjà des objets mathématiques (et plus de vrais gens).

 

Je pense qu'on manque cruellement de données pour pouvoir faire des prédictions fiables. Il faudrait au mieux que les votes soient publics, et publiés sur facebook (bon, pour une partie de la population, c'est déjà le cas...).

C'est plus compliqué que l'étude de séries temporelles, et celles-ci sont déjà souvent galère à étudier. Je fais mon stage dans la détection d'anomalie sur des suites de nombres et j'utilise les algos classiques de prédiction ; autant je vois très bien ce qu'on pourrait faire pour prédire le résultat d'un élection, autant j'ai l'impression qu'on manque cruellement de variables. Je peux me tromper évidemment...

Après on peut toujours faire moyenne sur moyenne, modèle sur modèle et on se retrouve au JT de TF1 à étudier un petit village de campagne qui, depuis tout temps, vote toujours proportionnellement très proche de la moyenne nationale. JP Pernaut > machine learning.

Lien vers le commentaire

Je rappelle juste que, non filtré, non analysé, non corrigé, les simples Google trends ont fait bien mieux pour les primaires que n'importe quel sondage. Alors en y apportant un modèle...

Et oui, le concept même de big data est que tout soit enregistré, stocké. Pas ta connerie que tu marques sur ton facebook de manière privée (encore que...), mais tout le reste, et on peut se dire qu'entre les réseaux sociaux publics style twitter et, ne loublions pas, tout le reste du net public, ça fait pas mal de données à décortiquer et largement de quoi occuper les data scientists pendant pas mal de temps.

Lien vers le commentaire
34 minutes ago, Nathalie MP said:

Moi aussi. J'aimerais beaucoup en savoir plus sur ces méthodes d'évaluation de l'opinion.

La méthode de Filteris est gardée secrète par ses concepteurs, mais apparemment ce qu'on peut dire c'est qu'il s'agit :

- De récupérer toutes les mentions qui sont faites d'un candidat sur les réseaux sociaux (un peu comme Google Trend mais restreint aux réseaux sociaux)

- De raffiner ça par une analyse sémantique (est-ce qu'on parle du candidat en bien ou en mal).

-Probablement de pondérer ça par des présupposition sur le degré d'activisme des supporters d'un candidat sur internet.

-Des trucs secrets.

 

En découle un score pour chaque candidat, qu'ils comparent.

 

Présenté comme ça, ce n'est pas de la prédiction de vote individuel et on ne voit pas bien où se cachent les méthodes d'analyse de données avancées. Mais c'est aussi un peu normal. Et puis comme dit cedric, si Google Trend suffit, alors ce qu'ils révèlent peut déjà suffire.

  • Yea 1
Lien vers le commentaire

http://buzzpol.com/methodologie/

 

Ca reste très très primaire, et comme marqué plus haut, c'est une méthode alternative. Aucune des méthodes n'aura raison ou tord, le tout est, si on les utilise, de connaitre leur fonctionnement et leurs limites.

Sauf que pour le cas de Filteris, effectivement, on en saura pas davantage, puisque c'est leur gagne-pain. Il suffirait qu'un "activiste" de n'importe quel bord le comprenne (ou qu'eux-même soit affilié à l'un des bord), pour que le résultat final soit modifié, pondération ou pas.

 

Aussi, il suffit de voir comment sont orientés la présentations de leurs résultats passés (soit utilisation de corrélation pour 2007, soit affiche du second tour pour la primaire LR par exemple) pour voir qu'ils proposent quelque chose qui est soit un balbutiement, soit une tromperie sur le sérieux de la chose.

Lien vers le commentaire
Le 18/04/2017 à 10:14, Elphyr a dit :

Après on peut toujours faire moyenne sur moyenne, modèle sur modèle et on se retrouve au JT de TF1 à étudier un petit village de campagne qui, depuis tout temps, vote toujours proportionnellement très proche de la moyenne nationale. JP Pernaut > machine learning.

Alain Peyrefitte considérait qu'il suffisait de faire voter la ville de Provins vu que les résultats étaient très très proches des élections nationales.

Lien vers le commentaire
Il y a 13 heures, Anton_K a dit :

 

-Probablement de pondérer ça par des présupposition sur le degré d'activisme des supporters d'un candidat sur internet.

-Des trucs secrets.

 

En découle un score pour chaque candidat, qu'ils comparent.

C'est bien ce qu'il me semblait, j'ai d'ailleurs fait un article (de vulgarisation) là-dessus : https://leblogdenathaliemp.com/2017/03/31/sondages-que-nous-disent-ils/

J'y signalais  précisément que Filteris et consorts n'étaient pas à l'abri de faire eux aussi leur petite cuisine interne qu'on reproche tant aux sondeurs classiques.
Mais je me demande aussi si cette méthode pourrait prendre de l'ascendant sur les sondages classiques à mesure que la population sera plus utilisatrice d'internet (ce qui pour l'instant n'est pas le cas d'une vaste frange senior de la population).

Lien vers le commentaire
2 hours ago, Groucho Marx said:

Ben là pour le coup, Filteris s'est planté dans les grandes largeurs avec son big data...

Leur dernier prono c'était quoi ?

 

La difficulté de leur algo c'est d'estimer la part dans le résultat final des votants absents du net. (les vieux)

Lien vers le commentaire
il y a 10 minutes, Mathieu_D a dit :

Leur dernier prono c'était quoi ?

 

La difficulté de leur algo c'est d'estimer la part dans le résultat final des votants absents du net. (les vieux)

 

il est toujours en ligne:

MLP : 22.72%

FF : 21.57%

JLM : 21.34%

EM : 20.03%

 

 

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
×
×
  • Créer...