Aller au contenu

[Caucus Iowa] : les résultats de Ron Paul et la Loi de Benford


Messages recommandés

J'ai hésité sur le titre le plus pertinant, pour ce fil. Vous avez échappé à :

Mais où sont passés les votes manquants ?

Caucus, mais content

Révélations sur la fille cachée de Perry

State is thick (j'aime particulièrement celle là :P)

Imaginons que, pour une raison peu recommandable, vous choisissiez de créer de fausses factures pour vous faire rembourser des notes de frais.

Afin de rendre l'opération crédible, vous désirez rendre l'opération la plus crédible possible, et vous choisissez une série de chiffres au hasard pour remplir vos montants de fausses factures, espérant ainsi passer sous le radar.

Malheureusement (ou heureusement, c'est selon), ce genre de manipulation vous rend plus facilement détectable dans une série de facturettes.

Ceci grâce à une loi statistique, la Loi de Benford (http://fr.wikipedia..../Loi_de_Benford n'hésitez pas à consulter les articles wikipedia que je place ici dans leur version anglaise, ils sont plus détaillés).

Cette loi stipule que

le 1er chiffre non nul le plus fréquent est 1, pour près du tiers des observations. Puis le 2 est lui-même plus fréquent que 3… et la probabilité d'avoir un 9 comme premier chiffre significatif n'est que de 4,6 %.

On peut visualiser la fréquence de chacun de ces nombres comme ceci :

Loi_de_Benford_freq_relat.PNG

Cette loi est utile pour détecter un certain nombre de fraudes, car les gens pensent, à tort, que lorsqu'ils maquillent des chiffres, ils doivent utiliser des nombres au hasard (écrivant parfois des programmes pour cela).

Je me suis souvenu de cette loi en découvrant, comme vous, les résultats du vote du caucus de l'Iowa. Santorum, assez absent des sondages, cartonne, Romney (j'ai cru voir un Romney) ne marque pas vraiment son avance censée être bulldozérique, et Paul se retrouve repoussé plus que ce que les sondages ne l'annonçaient…

Les quelques messages visibles sur internet montrant la volonté de quelques activistes de bourrer les urnes ou de fausser les résultats, couplés au fait que l'establishment américain, démocrate ou républicain, n'imagine pas mener au pouvoir un type qui veut tuer la FED et réduire leurs prébendes peut nous laisser imaginer un tas de scénarios alternatifs…

Lors des élections en Iran en 2009, certains bloggueurs avaient utilisés la loi de Benford sur les taux de votes pour chacun des candidats, et ceci par bureau de vote. Certaines anomalies avaient pu ainsi être rapportées.

En fouillant un peu sur internet, je suis tombé sur cette page, donnant les résultats par county : http://caucuses.desm…aucus/results/.

Les résultats n'étant pas faciles à interpréter ainsi, j'ai rentré les chiffres dans une feuille excel, que vous pouvez trouver en fichier attaché. Les résultats (mis à part les fautes de copier/coller) sont données pour les candidats listés,

Santorum, Perry, Gingrich, Romney, Paul, Bachmann, Huntsmann, Cain, Roemer, Other, No Preferences

L'état de l'Iowa disposant de 99 comtés, la liste est assez grande pour s'autoriser à quelques exercices de statistiques sur les résultats…

Dans le fichier excel, vous trouverez, sur la deuxième page, le premier chiffre à gauche du montant pour chaque bureau, et ceci par candidat.

Cela nous permet de calculer le pourcentage de répartition de chacun de ces chiffres pour chaque candidats :

Tujrs.png

(Les résultats totaux ne sont plus bons pour Huntsmann, Cain, Romer, ou Other/No Pref, car pour certains County, il n'y a aucun votant pour ces candidats).

Le graphe associé :

Oplvd.png

La distribution semble normale d'un point de vue visuel.

Pour s'assurer que le comportement est également normal au niveau statistique, on peut utiliser le test du Xhi-2 (en gros, on mesure la déviation par rapport à la norme connue, ici la loi de Benford).

Les résultats que nous obtenons pour le test du X2 sont les suivants (je n'ai pas affiché Bachmann, qui s'est retirée de la course, et les petits candidats, où les soupçons de fraude, au vu des très faibles scores sont peut élevés et pas très intéressants…):

Santorum : 20,20 (p < 0,01)

Perry : 10,10 (p > 0,20)

Gingrich : 20,50 (p < 0,01)

Romney : 7,79 (p > 0,30)

Paul : 8,84 (p < 0,20)

Le petit p indiqué à côté sert à mesurer le plus petit niveau à partir duquel on rejette l'hypothèse nulle…

Ne partez pas ! :) L'hypothèse nulle, c'est ce qu'on tient pour vrai, et contre quoi on voudrait tester nos chiffres.

Ici, c'est qu'en théorie, la répartition du premier chiffre pour les scores des candidats doit suivre la loi de Benford.

Wikipedia nous donne une table bien pratique pour mesurer la valeur à partir de laquelle la valeur de p indique qu'il se passe quelque chose : http://en.wikipedia….ed_distribution

Vous pouvez retrouver cette table ici :

QHsVW.png

La loi de Benford s'exprimant de 1 à 9, nous avons 8 degrés de libertés. Il suffit donc de regarder à la ligne 8 la valeur de P associée à chaque résultat de X2 pour chaque candidat. (Par exemple, Santorum avec un X2 de 20,20, donne une valeur de p < 0,01).

Première chose à noter : bien que tous les candidats sont censés se trouver dans les mêmes conditions au départ, certains se retrouvent avec une valeur de P significative, alors que d'autres non. On pourrait s'attendre à ce qu'ils se retrouvrent tous avec une valeur de P du même côté de la barrière pour tout le monde (tout le monde significatif ou, personne significatif). Cette discrimination entre candidats nous permet au moins de nous dire there's something fishy, here…

On considère généralement une valeur de p inférieure à 0,05 comme critère statistique significatif pour rejeter l'hypothèse nulle.

Nous avons donc 3 candidats, Santorum, Gingrich et Paul, qui ont des valeurs ne suivant pas la loi de Benford, ou au moins ne la suivant pas de manière statistiquement plausible.

La loi de Benford n'est évidemment qu'un outil. Elle permet de relever des évènements inhabituels. Il relève de l'utilisateur de l'outil d'interpréter et/ou de chercher l'origine de cette incohérence.

Dans l'exemple des élections iraniennes, il avait été ainsi montré que certains bureaux avaient pu "booster" certains chiffres, en pensant que cela puisse rester invisible (par exemple, passer de 1 245 voix à 2 245 voix).

En nous plaçant dans la tête de quelqu'un qui chercher à truquer les chiffres d'une élection, on peut se rendre compte qu'il est plus facile de changer le chiffre des unités (et plus discret) que le chiffre des dizaines, centaines ou milliers, pour un bureau de vote. De même, cette astuce ne fonctionne pas dans un bureau où on connaît le nombre de votants par avance. Il faut dans ce cas transférer un certains nombre de voix d'un candidat à un autre, afin de conserver le même nombre de voix au total.

Dans le fichier excel, j'ai commencé la feuille qui sert à mesurer ce qui se passe pour les chiffres des unités, mais je ne sais pas comment utiliser la loi de Benford en comptant le 0 (et non plus seulement de 1 à 9), car un candidat peut recevoir, tout à fait légitiment 10, 100 ou 1250 voix (et donc avoir un chiffre des unités à 0).

Il faut également que je finisse d'éplucher ce papier de 2006 (Election Forensics: Vote Counts and Benford’s Law www-personal.umich.edu/~wmebane/pm06.ps - attention, c'est un fichier .ps et non directement un .pdf), de Mebane, qui explique comment utiliser de manière intelligente la loi de Benford sur les deuxièmes chiffres et non seulement les premiers, pour relever le genre de compte frauduleux…

Enfin, mes souvenirs de stats étant vraiment épars, et ma formation étant plus axée UX/UI que stat, n'hésitez pas à corriger toutes les bêtises que j'ai pu dire !

iowa caucus.xls

Lien vers le commentaire

@G7H+: avant ça, faut que je termine l'article que m'a suggéré H16, et que quelqu'un s'assure que je n'ai pas écris n'importe quoi, sinon on va perdre du temps (même si je veux bien traduire en anglais ce que j'ai tapé ;)).

L'autre truc qui me chiffonne aussi, c'est que je n'ai rien vu encore à ce sujet sur le web geek anglophone, alors que ce sont les premiers à réagir dans ce genre de situation, à plus forte raison pour quelque chose qui les touche évidemment de très près, là. D'où mon doute sur la pertinence de ce que j'ai fait. (En même temps, il faut bien un premier pour commencer tout travail…)

Lien vers le commentaire

Je ne comprend pas pourquoi Paul est plus suspicieux que Perry dans ce cadre alors que la statistique de test de Perry est plus élevé que celle de Paul. (C'est juste dans l'Excel en revanche)

Pour 8 degrés de liberté on peut considérer que c'est louche (càd 95% de chance de rejeter l'hyptothèse nulle) à partir de 15 environ : Santorum et Perry ici.

Sinon l'incapacité de l'humain a générer du hasard est effectivement très connue. Essayer de générer une liste de 30 dates d'anniversaires pour 30 personnes fictives en essayant de faire au hasard, vous allez rire.

LE principal défaut humain étant de croire que le hasard est déterminé par une loi uniforme dans la nature.

Lien vers le commentaire

Je ne comprend pas pourquoi Paul est plus suspicieux que Perry dans ce cadre alors que la statistique de test de Perry est plus élevé que celle de Paul.

+1

Les cas non-réguliers semblent être Perry, Paul et Santorum. Il faut partir sur la base des données des 99 comtés. Qui plus est, durant le décompte, le pourcentage du décompte a, à un moment, stagné durant une quarantaine de minutes avant de… redescendre. Je n'exclus pas une erreur mais, si on suit mon article, on se rend compte que Paul devient presque immobile en nombre de voix au bout d'un moment.

Je pourrai t'aider à bosser dessus mais ça me forcerait à revoir des cours que je n'ai pas le temps de placer dans mon horaire avant au moins 2 semaines (j'aurai un long break entre deux exams). Si tu as toujours du mal d'ici là, j'y jetterai un oeil. Au mieux, je peux recourir à l'aide de mon prof de proba/stats en lui envoyant un mail pour avoir des précisions.

Voici une piste:

http://www.khanacade…ist=Precalculus

Il y a d'autres vidéos sur la loi de Benford sur le site mais je ne les ai pas regardé. A toi de voir s'il y a du contenu intéressant.

http://www-personal.umich.edu/~wmebane/apsa09.pdf

Néanmoins, le 0 pose le problème suivant; ton exposant tendra vers - l'infini. Je résoudrai ça par une méthode polynomiale approchée ou, plus simplement et si tu y parviens, chercher une limite cohérente. Je dis peut-être une bêtise mais si tu cherchais à exprimer les résultats des candidats via une méthode de prédiction-correction?

Lien vers le commentaire

Heu au fait, pourquoi 8 degrés de liberté dans le test ?

Si je compte bien j'ai 9 chiffres et 10 candidats. Pourquoi prendre 8 degrés de liberté et pas 72 ? (c'est-à-dire (9-1)*(10-1))

J'ai plus l'habitude des Chi-deux sur des tableaux de contingence il faut dire.

Lien vers le commentaire

@Mathieu_D : vite fait comme ça, de mes souvenirs de stats, les 8 degrés de liberté c'est lié au fait que tu fixes un de paramètres, donc il te reste le total - 1 (mais même ça, je n'en suis plu ssûr :P).

Lien vers le commentaire

Est-ce que l'étalement de la densité permet l'application du théorème, à la base?

Et, j'ai regardé la définition générale, quand la réponse est 0 alors la proba tend vers 0… tout simplement (va faire gober l'idée de limite à excell par contre…)

Un peu d'info sur les domaines d'application:

http://www.ehess.fr/revue-msh/pdf/N182R1280.pdf

Regarde la densité de l'échantillon mais ça semble bon.

Lien vers le commentaire

Justement, je viens d'envoyer un mail à mon prof de proba (qui n'est pas un homme des plus agréables mais est, techniquement, la personne la plus qualifiée dans ce domaine que je connaisse et il s'agit d'un Pr.Dr.Ir après tout). Je n'y mentionne pas le caucus mais je lui demande des documents ou des liens sur la loi de Benford. On verra ce qu'il me fournira.

Lien vers le commentaire

J'ai fini. La loi de Benford est vraiment un outil épatant. J'ignore ce qui est passé par la tête du mathématicien qui a déterminé que la probabilité naturelle était de forme logarithmique mais l'effet est épatant.

Je ne livre encore rien car il y a un travail d'interprétation à faire qui risque d'être complexe mais, à vue de nez, les scores de Huntsmann, Bachmann et plus ou moins Paul répondent favorablement à la loi de Benford. Les scores de Santorum sont, par contre, totalement délirants. Certains disent que la loi de Benford ne peut être appliquée aux élections pourtant elle corroborait les résultats des élections iraniennes sur les deux premiers indices et, dans le cas présent, elle corrobore les deux premiers indices de 3 des candidats du caucus en Iowa. Je me demande si elle n'est pas correcte à condition que l'échantillon soit suffisamment large pour "lisser" les votes marginaux.

Lien vers le commentaire

C'est douteux comme truc, comme tous les modèles de finance supposant que le comportement de la variable examinée peut être correctement décrit par une loi de probabilité, car c'est de choix humains dont il est ultimement question, pas de l'occurrence des orages dans une région ou de je ne sais quel phénomène naturel.

Lien vers le commentaire

Justement, c'est là l'intérêt de cette méthode et c'est pour ça qu'elle est utile en bourse.

Dans un pannel large de choix humains (on a ici 98 comtés, le pannel est donc assez consistant), il y aura un nombre de votes pour chaque cas attribué à un candidat. Si le choix de voter ou pas est humain, il y a une probabilité plus importante de trouver certains chiffres que d'autres.

Prend l'exemple d'une ville. Tu décides de répertorier le nombre de maisons que possède chaque rue (autrement dit, le plus grand numéro sur la façade d'une maison dans chaque rue). Tu te rendras compte qu'il y aura plus de rues où ce nombre commence par 1 que par 9 (une très grande rue montera peut-être à 130 et une petite rue à 17). La forme de cette raréfaction des nombres sera logarithmique. Tu as moins de chance d'avoir une rue qui va jusque 200 et très peu de chance de voir un numéro 400 dans une grande rue. Pareillement pour une rue moyenne ou petite, tu verras plus facilement un 45 qu'un 83 comme numéro maximum.

Le raisonnement est pareil pour les votes du à la limitation du nombre de votants. Imagine à présent que quelqu'un décide, arbitrairement, de ré-écrire une partie des scores. Dans l'esprit humain, les chiffres sont équiprobables voire les chiffres >= 5 viennent plus souvent à l'esprit. En posant le tout statistiquement, on se rend alors compte qu'il y a un nombre improbable de certains chiffres (7,9,…) comme première valeur d'un résultat alors qu'il serait plus probable d'avoir des 1 ou des 2. On observe dès lors cette anomalie. Et plus on voit une insistance statistique pour certains chiffres qui devraient sortir moins souvent, plus on peut se poser des questions sur l'authenticité du résultat.

Lien vers le commentaire

Je ne comprends pas. Quelle est la courbe de référence par rapport à laquelle on compare la tronche qu'elle prend quand il y a triche? C'est celle de Bedford. Mais qu'est-ce qui nous permet de dire que les points devraient être précisément à tels et tels endroits dans cette histoire de votes et donc ensuite à dire que si le compte observé correspond à une courbe qui dévie par rapport à la première il y a un truc qui cloche?

Oublions une seconde la triche. Si les gens votent d'une certaine manière ça nous permet de tracer une courbe précisément. Maintenant s'ils avaient voté différemment, ça pourrait donner une autre courbe. J'entends bien intuitivement que dès qu'il est question de nombres servant à compter des quantités utilisées dans nos actes de tous les jours, on commence à 1, etc. donc les courbes auront les forme indiquées ci-dessus mais il ne s'agit pas que de ça. Il s'agit de comparer des courbes ayant grosso modo la même forme. Bref ce qui m'embête, c'est que pour identifier un biais lié à la tricherie, il faut avoir une courbe de référence qui doit considérer comme normaux certains résultats précis de votes sans triche. Comment peut-on en arriver à considérer que la courbe de Bedford devrait être la référence?

Lien vers le commentaire
Je ne comprends pas. Quelle est la courbe de référence par rapport à laquelle on compare la tronche qu'elle prend quand il y a triche? C'est celle de Bedford. Mais qu'est-ce qui nous permet de dire que les points devraient être précisément à tels et tels endroits dans cette histoire de votes et donc ensuite à dire que si le compte observé correspond à une courbe qui dévie par rapport à la première il y a un truc qui cloche?

L'idée, c'est de mesurer les écarts par rapport à ces endroits. Après, c'est une affaire de probabilités, donc de convergence plus ou moins lente via la loi des grands nombres. Alors oui, il peut y avoir des écarts ponctuels, mais plus on multiplie les données, plus on a tendance à revenir à la moyenne. On ne peut jamais prouver parfaitement un truc, avec des statistiques, mais on peut dire "tiens, là, il y a sans doute eu une anomalie, avec une probabilité de tant de pourcent".

Oublions une seconde la triche. Si les gens votent d'une certaine manière ça nous permet de tracer une courbe précisément. Maintenant s'ils avaient voté différemment, ça pourrait donner une autre courbe. J'entends bien intuitivement que dès qu'il est question de nombres servant à compter des quantités utilisées dans nos actes de tous les jours, on commence à 1, etc. donc les courbes auront les forme indiquées ci-dessus mais il ne s'agit pas que de ça. Il s'agit de comparer des courbes ayant grosso modo la même forme. Bref ce qui m'embête, c'est que pour identifier un biais lié à la tricherie, il faut avoir une courbe de référence qui doit considérer comme normaux certains résultats précis de votes sans triche. Comment peut-on en arriver à considérer que la courbe de Bedford devrait être la référence?

Les papiers cités plus haut répondent en bonne partie à ta question épistémique. L'idée, c'est qu'il est plus dur de passer de 100 à 200 que de 800 à 900, ou de passer de 1000 à 2000 que de 8000 à 9000. Après, ce sont des développements mathématiques.

Lien vers le commentaire

L'idée, c'est de mesurer les écarts par rapport à ces endroits. Après, c'est une affaire de probabilités, donc de convergence plus ou moins lente via la loi des grands nombres. Alors oui, il peut y avoir des écarts ponctuels, mais plus on multiplie les données, plus on a tendance à revenir à la moyenne. On ne peut jamais prouver parfaitement un truc, avec des statistiques, mais on peut dire "tiens, là, il y a sans doute eu une anomalie, avec une probabilité de tant de pourcent".

Il me semble que cela élude la question "c'est une affaire de probabilités". Pour concevoir la norme en matière de proba, encore faut il la trouver (à supposer que les événements en question puissent être saisis en ces termes). On ne peut pas démarrer en disant qu'un événement doit se conformer à la loi X. Il faut trouver quelle loi va correspondre à la classe d'événement. Pour parler de proba, il doit bien être question d'une classe d'événements homogène identifiée, non? Qu'est-ce que c'est là?

Les papiers cités plus haut répondent en bonne partie à ta question épistémique. L'idée, c'est qu'il est plus dur de passer de 100 à 200 que de 800 à 900, ou de passer de 1000 à 2000 que de 8000 à 9000. Après, ce sont des développements mathématiques.

Mais encore une fois je comprends intuitivement qu'on trouve normalement plus de 1 que de 8, ce n'est pas la question. Les courbes qui sortent de la norme comme celles qui sont dedans d'après les hypothèses et le test de Skit ont toutes la "bonne forme", celle qui correspond à cette idée.

Lien vers le commentaire

J'avais écrit une réponse à ta question mais, le sujet étant délicat et les statisticiens se tapant dessus pour savoir qui a tort et qui a raison, je préfère rester modeste et te laisser regarder par toi-même. Les deux derniers liens de ce message devraient peut-être t'aider.

Je suis à présent plus qu'en retard dans mes examens, je dois lâcher l'affaire. On ne manque pas d'ingénieurs par ici, je vais donc fournir un peu de matériel pour ceux qui se sentent d'humeur à générer un score immense (les soutiens américains de Ron Paul c'est un public ahurissant) pour Contrepoints et donner du matériel aux militants.

iowa caucus.xls

C'est ma version améliorée du fichier excell mais on peut faire bien mieux au niveau des stats. Je n'ai posé le second indice que pour Paul et Santorum. A vous de voir sa pertinence et de l'étendre aux autres le cas échéant.

Et voici un article intéressant mais pessimiste sur l'usage de la loi de Benford dans le cadre d'élections:

http://www.vote.calt…_4b97cc5b5b.pdf

Un petit article mais avec des liens intéressants sur l'application de la loi de Benford aux élections iraniennes par un prof de l'université du Michigan:

http://election.prin…election-fraud/

Si j'avais plus de temps, je complèterai la différence par un calcul de l'écart-type qui, s'il n'est pas révélateur, pourrait mettre en avant une quelconque corrélation ou aider à définir les marges d'erreur et savoir qui en sort et qui n'en sort pas (et, s'il y a des écarts relativement visibles, ce serait notre preuve).

Les élections du NH tombent la nuit de mardi à mercredi et un tel article pourrait booster la campagne de Ron Paul s'il était entre les mains des militants à temps.

Lien vers le commentaire

WBell bravo pour ce travail.

Bon, ceci dit même suis je dispose (encore) de fortes compétences statistiques, je ne suis pas expert de la loi de Benford sur laquelle je n'ai en outre pas beaucoup réfléchi pour son utilisation dans les bureaux de vote.

Je ne comprends pas. Quelle est la courbe de référence par rapport à laquelle on compare la tronche qu'elle prend quand il y a triche?

Pour chaque candidat on compare le taux d'occurence du 1er chiffre dans les bureaux de vote (ou dans les cantons puisque ceux ci nous sont disponible) avec le taux habituellement observé selon la loi de Bentford. Cette comparaison est agrégée selon une "métrique" de type Chi 2.

Le degré de liberté est bien 8 pour chaque occurence.

Voici mes commentaires sur la feuille Excel.

Les occurences à 0 doivent être considérées comme les occurences manquantes.

Les pourcentages ne doivent pas tenir compte des occurences manquantes (ou nulles) ce qui concerne Huntsmann Cain et Romer .

La complexité de la ligne "Pearsons X2" tient de la sorcellerie avec pour chaque case une addition manuelle de 9 fonctions de 3 valeurs paramétriques; il aurait mieux valu créer un tableau intermédiaire avec une formule homogène de 3 valeurs paramétriques copiée-incrémentée-collée ensuite simplement agrégées.

Sur le concept il faut quand même se méfier des relations éventuelles entre taille des bureaux de vote ou des cantons et présence militante destinée à les influencer. Je suppose que de telles décisions peuvent biaiser la loi de Benford sans que cela soit du à une triche dans le dépouillement.

Je vais prendre le temps cet après midi de vérifier plus en détail.

Lien vers le commentaire

Au passage en regardant le "last number" on s'apperçoit que Romney a (peut être) trop de 9 et pas assez de 1, 2 et 3, Gingrich n'a pas assez de 3, et Santorum pas assez de 9. En fait cela suggère une permutation de certains votes entre Romney et Santorum (ou alors une permutation aussi avec Paul, mais avec un travail supplémentaire de neutralisation de la loi statistique pour Paul). Ces écarts ne sont peut être pas significatifs, je n'ai pas réfléchi au test pour vérifier cela.

Lien vers le commentaire

Les occurences à 0 doivent être considérées comme les occurences manquantes.

Les pourcentages ne doivent pas tenir compte des occurences manquantes (ou nulles) ce qui concerne Huntsmann Cain et Romer .

Ben euh c'est ce que j'ai fait si tu fais défiler les onglets de la feuille tu verras les résultats que j'ai posé

Sur le concept il faut quand même se méfier des relations éventuelles entre taille des bureaux de vote ou des cantons et présence militante destinée à les influencer. Je suppose que de telles décisions peuvent biaiser la loi de Benford sans que cela soit du à une triche dans le dépouillement.

Je pose comme hypothèse que les comtés sont hétérogènes en terme de population et d'importance (ce qui est une approximation acceptable en Iowa et ne change rien à la courbe en crosse de hockey de Santorum)

Au passage en regardant le "last number" on s'apperçoit que Romney a (peut être) trop de 9 et pas assez de 1, 2 et 3, Gingrich n'a pas assez de 3, et Santorum pas assez de 9. En fait cela suggère une permutation de certains votes entre Romney et Santorum (ou alors une permutation aussi avec Paul, mais avec un travail supplémentaire de neutralisation de la loi statistique pour Paul). Ces écarts ne sont peut être pas significatifs, je n'ai pas réfléchi au test pour vérifier cela.

Je savais que tu nous trouverais une bonne piste :D

[edit] Je dis de la merde, il y a certain comtés où la population est vraiment concentrée. Je m'étais basé sur de mauvais chiffres pour faire mon approximation. On pourrait probablement se rapprocher d'un résultat cohérent en vertu de la loi des grands nombres si on multiplie les résultats par le taux de population:

http://www.us-places.com/Iowa/population-by-County.htm

Lien vers le commentaire

J'ai des invités dans la journée, ça va donc être difficile de me repencher dessus aujourd'hui, mais j'espère avoir le temps de faire la traduction en anglais demain, en laissant des trous pour les valeurs chiffrées.

Edit : si jamais cela donne quelque chose, j'écrirais un petit script en java que je partagerais ici, et qui permettra, pour les caucus des autres états, de sortir un tableau des scores triés par candidats, qui pourra être importé directement dans Excel ou Numbers, parce que les données disponibles en lignes sont affichées avec un jolie CSS, mais qui rend les choses très pénibles à entrer dans un tableau…

Lien vers le commentaire

Et voici un article intéressant mais pessimiste sur l'usage de la loi de Benford dans le cadre d'élections:

http://www.vote.calt…_4b97cc5b5b.pdf

Je viens de lire ce papier fléché par Skit, il me convainc qu'on ne peut pas appliquer la loi de Benford pour détecter des élections frauduleuses.

L'écart constaté par Skit dans les données pour certains candidats peut s'expliquer par le fait que ces candidats ont un électorat particulier (concentré dans les grandes districts de vote par exemple les villes ou inversement dans les zones rurales, etc.).

Bref, je suis hautement sceptique.

Lien vers le commentaire

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
×
×
  • Créer...