[Caucus Iowa] : les résultats de Ron Paul et la Loi de Benford

WBell · 6 janvier 2012

J'ai hésité sur le titre le plus pertinant, pour ce fil. Vous avez échappé à :

Mais où sont passés les votes manquants ?

Caucus, mais content

Révélations sur la fille cachée de Perry

State is thick (j'aime particulièrement celle là )

Imaginons que, pour une raison peu recommandable, vous choisissiez de créer de fausses factures pour vous faire rembourser des notes de frais.

Afin de rendre l'opération crédible, vous désirez rendre l'opération la plus crédible possible, et vous choisissez une série de chiffres au hasard pour remplir vos montants de fausses factures, espérant ainsi passer sous le radar.

Malheureusement (ou heureusement, c'est selon), ce genre de manipulation vous rend plus facilement détectable dans une série de facturettes.

Ceci grâce à une loi statistique, la Loi de Benford (http://fr.wikipedia..../Loi_de_Benford n'hésitez pas à consulter les articles wikipedia que je place ici dans leur version anglaise, ils sont plus détaillés).

Cette loi stipule que

le 1^er chiffre non nul le plus fréquent est 1, pour près du tiers des observations. Puis le 2 est lui-même plus fréquent que 3… et la probabilité d'avoir un 9 comme premier chiffre significatif n'est que de 4,6 %.

On peut visualiser la fréquence de chacun de ces nombres comme ceci :

Cette loi est utile pour détecter un certain nombre de fraudes, car les gens pensent, à tort, que lorsqu'ils maquillent des chiffres, ils doivent utiliser des nombres au hasard (écrivant parfois des programmes pour cela).

Je me suis souvenu de cette loi en découvrant, comme vous, les résultats du vote du caucus de l'Iowa. Santorum, assez absent des sondages, cartonne, Romney (j'ai cru voir un Romney) ne marque pas vraiment son avance censée être bulldozérique, et Paul se retrouve repoussé plus que ce que les sondages ne l'annonçaient…

Les quelques messages visibles sur internet montrant la volonté de quelques activistes de bourrer les urnes ou de fausser les résultats, couplés au fait que l'establishment américain, démocrate ou républicain, n'imagine pas mener au pouvoir un type qui veut tuer la FED et réduire leurs prébendes peut nous laisser imaginer un tas de scénarios alternatifs…

Lors des élections en Iran en 2009, certains bloggueurs avaient utilisés la loi de Benford sur les taux de votes pour chacun des candidats, et ceci par bureau de vote. Certaines anomalies avaient pu ainsi être rapportées.

En fouillant un peu sur internet, je suis tombé sur cette page, donnant les résultats par county : http://caucuses.desm…aucus/results/.

Les résultats n'étant pas faciles à interpréter ainsi, j'ai rentré les chiffres dans une feuille excel, que vous pouvez trouver en fichier attaché. Les résultats (mis à part les fautes de copier/coller) sont données pour les candidats listés,

Santorum, Perry, Gingrich, Romney, Paul, Bachmann, Huntsmann, Cain, Roemer, Other, No Preferences

L'état de l'Iowa disposant de 99 comtés, la liste est assez grande pour s'autoriser à quelques exercices de statistiques sur les résultats…

Dans le fichier excel, vous trouverez, sur la deuxième page, le premier chiffre à gauche du montant pour chaque bureau, et ceci par candidat.

Cela nous permet de calculer le pourcentage de répartition de chacun de ces chiffres pour chaque candidats :

(Les résultats totaux ne sont plus bons pour Huntsmann, Cain, Romer, ou Other/No Pref, car pour certains County, il n'y a aucun votant pour ces candidats).

Le graphe associé :

La distribution semble normale d'un point de vue visuel.

Pour s'assurer que le comportement est également normal au niveau statistique, on peut utiliser le test du Xhi-2 (en gros, on mesure la déviation par rapport à la norme connue, ici la loi de Benford).

Les résultats que nous obtenons pour le test du X2 sont les suivants (je n'ai pas affiché Bachmann, qui s'est retirée de la course, et les petits candidats, où les soupçons de fraude, au vu des très faibles scores sont peut élevés et pas très intéressants…):

Santorum : 20,20 (p < 0,01)

Perry : 10,10 (p > 0,20)

Gingrich : 20,50 (p < 0,01)

Romney : 7,79 (p > 0,30)

Paul : 8,84 (p < 0,20)

Le petit p indiqué à côté sert à mesurer le plus petit niveau à partir duquel on rejette l'hypothèse nulle…

Ne partez pas ! L'hypothèse nulle, c'est ce qu'on tient pour vrai, et contre quoi on voudrait tester nos chiffres.

Ici, c'est qu'en théorie, la répartition du premier chiffre pour les scores des candidats doit suivre la loi de Benford.

Wikipedia nous donne une table bien pratique pour mesurer la valeur à partir de laquelle la valeur de p indique qu'il se passe quelque chose : http://en.wikipedia….ed_distribution

Vous pouvez retrouver cette table ici :

La loi de Benford s'exprimant de 1 à 9, nous avons 8 degrés de libertés. Il suffit donc de regarder à la ligne 8 la valeur de P associée à chaque résultat de X2 pour chaque candidat. (Par exemple, Santorum avec un X2 de 20,20, donne une valeur de p < 0,01).

Première chose à noter : bien que tous les candidats sont censés se trouver dans les mêmes conditions au départ, certains se retrouvent avec une valeur de P significative, alors que d'autres non. On pourrait s'attendre à ce qu'ils se retrouvrent tous avec une valeur de P du même côté de la barrière pour tout le monde (tout le monde significatif ou, personne significatif). Cette discrimination entre candidats nous permet au moins de nous dire there's something fishy, here…

On considère généralement une valeur de p inférieure à 0,05 comme critère statistique significatif pour rejeter l'hypothèse nulle.

Nous avons donc 3 candidats, Santorum, Gingrich et Paul, qui ont des valeurs ne suivant pas la loi de Benford, ou au moins ne la suivant pas de manière statistiquement plausible.

La loi de Benford n'est évidemment qu'un outil. Elle permet de relever des évènements inhabituels. Il relève de l'utilisateur de l'outil d'interpréter et/ou de chercher l'origine de cette incohérence.

Dans l'exemple des élections iraniennes, il avait été ainsi montré que certains bureaux avaient pu "booster" certains chiffres, en pensant que cela puisse rester invisible (par exemple, passer de 1 245 voix à 2 245 voix).

En nous plaçant dans la tête de quelqu'un qui chercher à truquer les chiffres d'une élection, on peut se rendre compte qu'il est plus facile de changer le chiffre des unités (et plus discret) que le chiffre des dizaines, centaines ou milliers, pour un bureau de vote. De même, cette astuce ne fonctionne pas dans un bureau où on connaît le nombre de votants par avance. Il faut dans ce cas transférer un certains nombre de voix d'un candidat à un autre, afin de conserver le même nombre de voix au total.

Dans le fichier excel, j'ai commencé la feuille qui sert à mesurer ce qui se passe pour les chiffres des unités, mais je ne sais pas comment utiliser la loi de Benford en comptant le 0 (et non plus seulement de 1 à 9), car un candidat peut recevoir, tout à fait légitiment 10, 100 ou 1250 voix (et donc avoir un chiffre des unités à 0).

Il faut également que je finisse d'éplucher ce papier de 2006 (Election Forensics: Vote Counts and Benford’s Law www-personal.umich.edu/~wmebane/pm06.ps - attention, c'est un fichier .ps et non directement un .pdf), de Mebane, qui explique comment utiliser de manière intelligente la loi de Benford sur les deuxièmes chiffres et non seulement les premiers, pour relever le genre de compte frauduleux…

Enfin, mes souvenirs de stats étant vraiment épars, et ma formation étant plus axée UX/UI que stat, n'hésitez pas à corriger toutes les bêtises que j'ai pu dire !

iowa caucus.xls

G7H+ · 6 janvier 2012

[NickdeCusa]OK, tu fais peer-reviewed ca par les kaikos en maths du forum, puis on le traduit en anglais et on le poste sur CP en faisant la comm aux ronpaulites americains et boum les stats. C'est bon ca, coco ![/NickdeCusa]

WBell · 6 janvier 2012

@G7H+: avant ça, faut que je termine l'article que m'a suggéré H16, et que quelqu'un s'assure que je n'ai pas écris n'importe quoi, sinon on va perdre du temps (même si je veux bien traduire en anglais ce que j'ai tapé ).

L'autre truc qui me chiffonne aussi, c'est que je n'ai rien vu encore à ce sujet sur le web geek anglophone, alors que ce sont les premiers à réagir dans ce genre de situation, à plus forte raison pour quelque chose qui les touche évidemment de très près, là. D'où mon doute sur la pertinence de ce que j'ai fait. (En même temps, il faut bien un premier pour commencer tout travail…)

Mathieu_D · 6 janvier 2012

Je ne comprend pas pourquoi Paul est plus suspicieux que Perry dans ce cadre alors que la statistique de test de Perry est plus élevé que celle de Paul. (C'est juste dans l'Excel en revanche)

Pour 8 degrés de liberté on peut considérer que c'est louche (càd 95% de chance de rejeter l'hyptothèse nulle) à partir de 15 environ : Santorum et Perry ici.

Sinon l'incapacité de l'humain a générer du hasard est effectivement très connue. Essayer de générer une liste de 30 dates d'anniversaires pour 30 personnes fictives en essayant de faire au hasard, vous allez rire.

LE principal défaut humain étant de croire que le hasard est déterminé par une loi uniforme dans la nature.

Skit · 6 janvier 2012

Je ne comprend pas pourquoi Paul est plus suspicieux que Perry dans ce cadre alors que la statistique de test de Perry est plus élevé que celle de Paul.

+1

Les cas non-réguliers semblent être Perry, Paul et Santorum. Il faut partir sur la base des données des 99 comtés. Qui plus est, durant le décompte, le pourcentage du décompte a, à un moment, stagné durant une quarantaine de minutes avant de… redescendre. Je n'exclus pas une erreur mais, si on suit mon article, on se rend compte que Paul devient presque immobile en nombre de voix au bout d'un moment.

Je pourrai t'aider à bosser dessus mais ça me forcerait à revoir des cours que je n'ai pas le temps de placer dans mon horaire avant au moins 2 semaines (j'aurai un long break entre deux exams). Si tu as toujours du mal d'ici là, j'y jetterai un oeil. Au mieux, je peux recourir à l'aide de mon prof de proba/stats en lui envoyant un mail pour avoir des précisions.

Voici une piste:

http://www.khanacade…ist=Precalculus

Il y a d'autres vidéos sur la loi de Benford sur le site mais je ne les ai pas regardé. A toi de voir s'il y a du contenu intéressant.

http://www-personal.umich.edu/~wmebane/apsa09.pdf

Néanmoins, le 0 pose le problème suivant; ton exposant tendra vers - l'infini. Je résoudrai ça par une méthode polynomiale approchée ou, plus simplement et si tu y parviens, chercher une limite cohérente. Je dis peut-être une bêtise mais si tu cherchais à exprimer les résultats des candidats via une méthode de prédiction-correction?

Sous-Commandant Marco · 6 janvier 2012

Caucus mais comptant.

Mathieu_D · 6 janvier 2012

Heu au fait, pourquoi 8 degrés de liberté dans le test ?

Si je compte bien j'ai 9 chiffres et 10 candidats. Pourquoi prendre 8 degrés de liberté et pas 72 ? (c'est-à-dire (9-1)*(10-1))

J'ai plus l'habitude des Chi-deux sur des tableaux de contingence il faut dire.

WBell · 6 janvier 2012

@Mathieu_D : vite fait comme ça, de mes souvenirs de stats, les 8 degrés de liberté c'est lié au fait que tu fixes un de paramètres, donc il te reste le total - 1 (mais même ça, je n'en suis plu ssûr ).

Mathieu_D · 6 janvier 2012

WBell, le chi-deux c'est pour 2 variables : donc ddl = (I-1)(J-1), mais là comme ce n'est pas l'analyse d'un tableau de contingence j'avoue que je suis troublé.

WBell · 6 janvier 2012

OK, donc je suis dans les choux. Quelqu'un connait la procédure ?

Skit · 6 janvier 2012

Est-ce que l'étalement de la densité permet l'application du théorème, à la base?

Et, j'ai regardé la définition générale, quand la réponse est 0 alors la proba tend vers 0… tout simplement (va faire gober l'idée de limite à excell par contre…)

Un peu d'info sur les domaines d'application:

http://www.ehess.fr/revue-msh/pdf/N182R1280.pdf

Regarde la densité de l'échantillon mais ça semble bon.

Mathieu_D · 7 janvier 2012

Cet article détaille la procédure (c'est bien un Chi-deux) : http://mpra.ub.uni-m…d_et_risque.pdf

Ok donc en fait on ne croise pas deux variables donc le ddl c'est bien 8, le test ne porte pas sur l'élection mais sur candidat*élection. (on fait un test par candidat)

Skit · 7 janvier 2012

le test ne porte pas sur l'élection mais sur candidat*élection.

D'office sinon le résultat ne vérifiera pas la loi de Benford dans le cas où les résultats sont d'origines humaines.

h16 · 7 janvier 2012

Si cet article arrive à son terme, c'est un très bel article en perspective. Mais il faut qu'il soit en béton armé mathématiquement, hein.

Skit · 7 janvier 2012

Justement, je viens d'envoyer un mail à mon prof de proba (qui n'est pas un homme des plus agréables mais est, techniquement, la personne la plus qualifiée dans ce domaine que je connaisse et il s'agit d'un Pr.Dr.Ir après tout). Je n'y mentionne pas le caucus mais je lui demande des documents ou des liens sur la loi de Benford. On verra ce qu'il me fournira.

Skit · 7 janvier 2012

J'ai fini. La loi de Benford est vraiment un outil épatant. J'ignore ce qui est passé par la tête du mathématicien qui a déterminé que la probabilité naturelle était de forme logarithmique mais l'effet est épatant.

Je ne livre encore rien car il y a un travail d'interprétation à faire qui risque d'être complexe mais, à vue de nez, les scores de Huntsmann, Bachmann et plus ou moins Paul répondent favorablement à la loi de Benford. Les scores de Santorum sont, par contre, totalement délirants. Certains disent que la loi de Benford ne peut être appliquée aux élections pourtant elle corroborait les résultats des élections iraniennes sur les deux premiers indices et, dans le cas présent, elle corrobore les deux premiers indices de 3 des candidats du caucus en Iowa. Je me demande si elle n'est pas correcte à condition que l'échantillon soit suffisamment large pour "lisser" les votes marginaux.

xara · 7 janvier 2012

C'est douteux comme truc, comme tous les modèles de finance supposant que le comportement de la variable examinée peut être correctement décrit par une loi de probabilité, car c'est de choix humains dont il est ultimement question, pas de l'occurrence des orages dans une région ou de je ne sais quel phénomène naturel.

Skit · 7 janvier 2012

Justement, c'est là l'intérêt de cette méthode et c'est pour ça qu'elle est utile en bourse.

Dans un pannel large de choix humains (on a ici 98 comtés, le pannel est donc assez consistant), il y aura un nombre de votes pour chaque cas attribué à un candidat. Si le choix de voter ou pas est humain, il y a une probabilité plus importante de trouver certains chiffres que d'autres.

Prend l'exemple d'une ville. Tu décides de répertorier le nombre de maisons que possède chaque rue (autrement dit, le plus grand numéro sur la façade d'une maison dans chaque rue). Tu te rendras compte qu'il y aura plus de rues où ce nombre commence par 1 que par 9 (une très grande rue montera peut-être à 130 et une petite rue à 17). La forme de cette raréfaction des nombres sera logarithmique. Tu as moins de chance d'avoir une rue qui va jusque 200 et très peu de chance de voir un numéro 400 dans une grande rue. Pareillement pour une rue moyenne ou petite, tu verras plus facilement un 45 qu'un 83 comme numéro maximum.

Le raisonnement est pareil pour les votes du à la limitation du nombre de votants. Imagine à présent que quelqu'un décide, arbitrairement, de ré-écrire une partie des scores. Dans l'esprit humain, les chiffres sont équiprobables voire les chiffres >= 5 viennent plus souvent à l'esprit. En posant le tout statistiquement, on se rend alors compte qu'il y a un nombre improbable de certains chiffres (7,9,…) comme première valeur d'un résultat alors qu'il serait plus probable d'avoir des 1 ou des 2. On observe dès lors cette anomalie. Et plus on voit une insistance statistique pour certains chiffres qui devraient sortir moins souvent, plus on peut se poser des questions sur l'authenticité du résultat.

xara · 8 janvier 2012

Je ne comprends pas. Quelle est la courbe de référence par rapport à laquelle on compare la tronche qu'elle prend quand il y a triche? C'est celle de Bedford. Mais qu'est-ce qui nous permet de dire que les points devraient être précisément à tels et tels endroits dans cette histoire de votes et donc ensuite à dire que si le compte observé correspond à une courbe qui dévie par rapport à la première il y a un truc qui cloche?

Oublions une seconde la triche. Si les gens votent d'une certaine manière ça nous permet de tracer une courbe précisément. Maintenant s'ils avaient voté différemment, ça pourrait donner une autre courbe. J'entends bien intuitivement que dès qu'il est question de nombres servant à compter des quantités utilisées dans nos actes de tous les jours, on commence à 1, etc. donc les courbes auront les forme indiquées ci-dessus mais il ne s'agit pas que de ça. Il s'agit de comparer des courbes ayant grosso modo la même forme. Bref ce qui m'embête, c'est que pour identifier un biais lié à la tricherie, il faut avoir une courbe de référence qui doit considérer comme normaux certains résultats précis de votes sans triche. Comment peut-on en arriver à considérer que la courbe de Bedford devrait être la référence?

xara · 8 janvier 2012

D'office sinon le résultat ne vérifiera pas la loi de Benford dans le cas où les résultats sont d'origines humaines.

Mais dans tous les cas les résultats sont d'origine humaine !!!

Rincevent · 8 janvier 2012

Je ne comprends pas. Quelle est la courbe de référence par rapport à laquelle on compare la tronche qu'elle prend quand il y a triche? C'est celle de Bedford. Mais qu'est-ce qui nous permet de dire que les points devraient être précisément à tels et tels endroits dans cette histoire de votes et donc ensuite à dire que si le compte observé correspond à une courbe qui dévie par rapport à la première il y a un truc qui cloche?

L'idée, c'est de mesurer les écarts par rapport à ces endroits. Après, c'est une affaire de probabilités, donc de convergence plus ou moins lente via la loi des grands nombres. Alors oui, il peut y avoir des écarts ponctuels, mais plus on multiplie les données, plus on a tendance à revenir à la moyenne. On ne peut jamais prouver parfaitement un truc, avec des statistiques, mais on peut dire "tiens, là, il y a sans doute eu une anomalie, avec une probabilité de tant de pourcent".

Oublions une seconde la triche. Si les gens votent d'une certaine manière ça nous permet de tracer une courbe précisément. Maintenant s'ils avaient voté différemment, ça pourrait donner une autre courbe. J'entends bien intuitivement que dès qu'il est question de nombres servant à compter des quantités utilisées dans nos actes de tous les jours, on commence à 1, etc. donc les courbes auront les forme indiquées ci-dessus mais il ne s'agit pas que de ça. Il s'agit de comparer des courbes ayant grosso modo la même forme. Bref ce qui m'embête, c'est que pour identifier un biais lié à la tricherie, il faut avoir une courbe de référence qui doit considérer comme normaux certains résultats précis de votes sans triche. Comment peut-on en arriver à considérer que la courbe de Bedford devrait être la référence?

Les papiers cités plus haut répondent en bonne partie à ta question épistémique. L'idée, c'est qu'il est plus dur de passer de 100 à 200 que de 800 à 900, ou de passer de 1000 à 2000 que de 8000 à 9000. Après, ce sont des développements mathématiques.

xara · 8 janvier 2012

L'idée, c'est de mesurer les écarts par rapport à ces endroits. Après, c'est une affaire de probabilités, donc de convergence plus ou moins lente via la loi des grands nombres. Alors oui, il peut y avoir des écarts ponctuels, mais plus on multiplie les données, plus on a tendance à revenir à la moyenne. On ne peut jamais prouver parfaitement un truc, avec des statistiques, mais on peut dire "tiens, là, il y a sans doute eu une anomalie, avec une probabilité de tant de pourcent".

Il me semble que cela élude la question "c'est une affaire de probabilités". Pour concevoir la norme en matière de proba, encore faut il la trouver (à supposer que les événements en question puissent être saisis en ces termes). On ne peut pas démarrer en disant qu'un événement doit se conformer à la loi X. Il faut trouver quelle loi va correspondre à la classe d'événement. Pour parler de proba, il doit bien être question d'une classe d'événements homogène identifiée, non? Qu'est-ce que c'est là?

Les papiers cités plus haut répondent en bonne partie à ta question épistémique. L'idée, c'est qu'il est plus dur de passer de 100 à 200 que de 800 à 900, ou de passer de 1000 à 2000 que de 8000 à 9000. Après, ce sont des développements mathématiques.

Mais encore une fois je comprends intuitivement qu'on trouve normalement plus de 1 que de 8, ce n'est pas la question. Les courbes qui sortent de la norme comme celles qui sont dedans d'après les hypothèses et le test de Skit ont toutes la "bonne forme", celle qui correspond à cette idée.

Skit · 8 janvier 2012

Voici ta réponse:

http://www.khanacademy.org/video/benford-s-law-explanation--sequel-to-mysteries-of-benford-s-law?playlist=Precalculus

Et non, les cas ne sont pas toujours humains. Si on considère le nombre Pi, par exemple, il vérifie aussi cette loi statistique.

xara · 8 janvier 2012

Voici ta réponse:

http://www.khanacade…ist=Precalculus

Et non, les cas ne sont pas toujours humains. Si on considère le nombre Pi, par exemple, il vérifie aussi cette loi statistique.

Toujours humain dans notre histoire de votes, qu'il y ait triche ou non.

Skit · 8 janvier 2012

J'avais écrit une réponse à ta question mais, le sujet étant délicat et les statisticiens se tapant dessus pour savoir qui a tort et qui a raison, je préfère rester modeste et te laisser regarder par toi-même. Les deux derniers liens de ce message devraient peut-être t'aider.

Je suis à présent plus qu'en retard dans mes examens, je dois lâcher l'affaire. On ne manque pas d'ingénieurs par ici, je vais donc fournir un peu de matériel pour ceux qui se sentent d'humeur à générer un score immense (les soutiens américains de Ron Paul c'est un public ahurissant) pour Contrepoints et donner du matériel aux militants.

iowa caucus.xls

C'est ma version améliorée du fichier excell mais on peut faire bien mieux au niveau des stats. Je n'ai posé le second indice que pour Paul et Santorum. A vous de voir sa pertinence et de l'étendre aux autres le cas échéant.

Et voici un article intéressant mais pessimiste sur l'usage de la loi de Benford dans le cadre d'élections:

http://www.vote.calt…_4b97cc5b5b.pdf

Un petit article mais avec des liens intéressants sur l'application de la loi de Benford aux élections iraniennes par un prof de l'université du Michigan:

http://election.prin…election-fraud/

Si j'avais plus de temps, je complèterai la différence par un calcul de l'écart-type qui, s'il n'est pas révélateur, pourrait mettre en avant une quelconque corrélation ou aider à définir les marges d'erreur et savoir qui en sort et qui n'en sort pas (et, s'il y a des écarts relativement visibles, ce serait notre preuve).

Les élections du NH tombent la nuit de mardi à mercredi et un tel article pourrait booster la campagne de Ron Paul s'il était entre les mains des militants à temps.

xavdr · 8 janvier 2012

WBell bravo pour ce travail.

Bon, ceci dit même suis je dispose (encore) de fortes compétences statistiques, je ne suis pas expert de la loi de Benford sur laquelle je n'ai en outre pas beaucoup réfléchi pour son utilisation dans les bureaux de vote.

Je ne comprends pas. Quelle est la courbe de référence par rapport à laquelle on compare la tronche qu'elle prend quand il y a triche?

Pour chaque candidat on compare le taux d'occurence du 1er chiffre dans les bureaux de vote (ou dans les cantons puisque ceux ci nous sont disponible) avec le taux habituellement observé selon la loi de Bentford. Cette comparaison est agrégée selon une "métrique" de type Chi 2.

Le degré de liberté est bien 8 pour chaque occurence.

Voici mes commentaires sur la feuille Excel.

Les occurences à 0 doivent être considérées comme les occurences manquantes.

Les pourcentages ne doivent pas tenir compte des occurences manquantes (ou nulles) ce qui concerne Huntsmann Cain et Romer .

La complexité de la ligne "Pearsons X2" tient de la sorcellerie avec pour chaque case une addition manuelle de 9 fonctions de 3 valeurs paramétriques; il aurait mieux valu créer un tableau intermédiaire avec une formule homogène de 3 valeurs paramétriques copiée-incrémentée-collée ensuite simplement agrégées.

Sur le concept il faut quand même se méfier des relations éventuelles entre taille des bureaux de vote ou des cantons et présence militante destinée à les influencer. Je suppose que de telles décisions peuvent biaiser la loi de Benford sans que cela soit du à une triche dans le dépouillement.

Je vais prendre le temps cet après midi de vérifier plus en détail.

xavdr · 8 janvier 2012

Au passage en regardant le "last number" on s'apperçoit que Romney a (peut être) trop de 9 et pas assez de 1, 2 et 3, Gingrich n'a pas assez de 3, et Santorum pas assez de 9. En fait cela suggère une permutation de certains votes entre Romney et Santorum (ou alors une permutation aussi avec Paul, mais avec un travail supplémentaire de neutralisation de la loi statistique pour Paul). Ces écarts ne sont peut être pas significatifs, je n'ai pas réfléchi au test pour vérifier cela.

Skit · 8 janvier 2012

Les occurences à 0 doivent être considérées comme les occurences manquantes.

Les pourcentages ne doivent pas tenir compte des occurences manquantes (ou nulles) ce qui concerne Huntsmann Cain et Romer .

Ben euh c'est ce que j'ai fait si tu fais défiler les onglets de la feuille tu verras les résultats que j'ai posé

Sur le concept il faut quand même se méfier des relations éventuelles entre taille des bureaux de vote ou des cantons et présence militante destinée à les influencer. Je suppose que de telles décisions peuvent biaiser la loi de Benford sans que cela soit du à une triche dans le dépouillement.

Je pose comme hypothèse que les comtés sont hétérogènes en terme de population et d'importance (ce qui est une approximation acceptable en Iowa et ne change rien à la courbe en crosse de hockey de Santorum)

Au passage en regardant le "last number" on s'apperçoit que Romney a (peut être) trop de 9 et pas assez de 1, 2 et 3, Gingrich n'a pas assez de 3, et Santorum pas assez de 9. En fait cela suggère une permutation de certains votes entre Romney et Santorum (ou alors une permutation aussi avec Paul, mais avec un travail supplémentaire de neutralisation de la loi statistique pour Paul). Ces écarts ne sont peut être pas significatifs, je n'ai pas réfléchi au test pour vérifier cela.

Je savais que tu nous trouverais une bonne piste

[edit] Je dis de la merde, il y a certain comtés où la population est vraiment concentrée. Je m'étais basé sur de mauvais chiffres pour faire mon approximation. On pourrait probablement se rapprocher d'un résultat cohérent en vertu de la loi des grands nombres si on multiplie les résultats par le taux de population:

http://www.us-places.com/Iowa/population-by-County.htm

WBell · 8 janvier 2012

J'ai des invités dans la journée, ça va donc être difficile de me repencher dessus aujourd'hui, mais j'espère avoir le temps de faire la traduction en anglais demain, en laissant des trous pour les valeurs chiffrées.

Edit : si jamais cela donne quelque chose, j'écrirais un petit script en java que je partagerais ici, et qui permettra, pour les caucus des autres états, de sortir un tableau des scores triés par candidats, qui pourra être importé directement dans Excel ou Numbers, parce que les données disponibles en lignes sont affichées avec un jolie CSS, mais qui rend les choses très pénibles à entrer dans un tableau…

Filibert · 8 janvier 2012

Et voici un article intéressant mais pessimiste sur l'usage de la loi de Benford dans le cadre d'élections:

http://www.vote.calt…_4b97cc5b5b.pdf

Je viens de lire ce papier fléché par Skit, il me convainc qu'on ne peut pas appliquer la loi de Benford pour détecter des élections frauduleuses.

L'écart constaté par Skit dans les données pour certains candidats peut s'expliquer par le fait que ces candidats ont un électorat particulier (concentré dans les grandes districts de vote par exemple les villes ou inversement dans les zones rurales, etc.).

Bref, je suis hautement sceptique.

[Caucus Iowa] : les résultats de Ron Paul et la Loi de Benford

Messages recommandés

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter