Pourquoi Comment Combien le blog du Dr. Goulu
le blog du Dr. Goulu

Fraudez fort, fraudez Benford

Fabriquer des données comme des montants de fausses factures demande un certain doigté car il existe des tests statistiques permettant de mesurer leur vraisemblance. Le plus usité de ces tests consiste à vérifier que les données suivent la surprenante loi de Benford, qui dit que le chiffre le plus à gauche de données statistiques est plus souvent un 1 qu’un 2, plus souvent un 2 qu’un 3 et ainsi de suite jusqu’à 9.

Par exemple, en examinant les données de la population de 196 pays, on constate que 55 pays soit 28.1% ont une population qui commence par le chiffre 1 alors qu’il n’y en a que 11 (5.6%) dont la population commence par un 9. Étonnant, non ?

Et ce phénomène se produit pour une multitude de données aussi différentes que la longueur des rivières, les cornes et les oeufs les cours de la bourse, la quantité de minerai extrait, l’âge des capitaines, etc. La loi de Benford reste valable quelles que soient les unités de mesure utilisées, ou  la base considérée. Elle s’applique même au second chiffre, qui est plus fréquemment un 0 qu’un 9 (12% contre 8% environ). A partir du 3ème chiffre, les probabilités prévues la loi de Benford généralisée au n-ième digit deviennent très proches des 10% auxquels on s’attend d’après la loi de probabilité uniforme:

Graphique produit par ma feuille de calcul Google Docs grâce à des fonctions personnalisées en JavaScript (cliquer pour y accéder)

Donc la prochaine fois qu’on vous présentera une liste de nombres, vérifiez rapidement que près d’un tiers commencent par le chiffre 1. Si ce n’est pas le cas, passez en mode méfiance.

Pour une analyse plus rigoureuse, on utilise des  tests statistiques comme le test du χ² pour déterminer si des données suivent bien la loi « naturelle » de Benford. Par exemple sur les populations des 196 pays, on obtient χ²= 1.69 pour le premier digit. D’après cette table (ligne 8 car il y a 9 chiffres possibles pour le 1er digit) , on peut être confiant à 95% que ces données de population mondiale suivent la loi de Benford, alors que si on génère 196 valeurs avec la fonction RAND d’Excel on obtient un χ²= 112 environ indiquant qu’il n’y a pas une chance sur mille qu’elles aient été produites par un processus « naturel »  (*).

Ce test est aujourd’hui appliqué dans plusieurs domaines : fraude fiscale ou électorale, comptabilité [1] et a montré par exemple que « les données financières rapportées par le Grèce montrent la plus grande déviation par rapport à la loi de Benford de tous les pays de la zone Euro. » [2] Ce qui ne signifie pas que la Grèce ait plus fraudé que les autres, mais seulement qu’elle a (probablement) fraudé moins bien.

Car il est facile de fabriquer des données satisfaisant la loi de Benford, et donc de passer le test du χ². Voici 3 méthodes:

  1. Recycler des données déjà existantes dans un autre contexte, comme celles de la population des pays. On peut supprimer ou changer les chiffres les plus à droite, tant qu’on ne touche pas aux 2 digits de gauche, ça passe.
  2. Utiliser un générateur de nombres aléatoires fabriquant le nombre digit par digit en respectant les probabilités de la loi de Benford. Il existe de tels générateurs en ligne [3]
  3. Appliquer la formule magique Excel = POWER(10;6*RAND()) pour obtenir des nombres « Benford compatibles » entre 0 et un million (10^6)
Une échelle logarithmique. En choisissant un point au hasard selon une loi uniforme sur cette échelle, vous avez environ une chance sur 3 qu’il corresponde à un nombre qui commence par 1. C’est exactement ce que prévoit la loi de Benford.

La formule « magique » est aussi simple que ça parce que la loi de Benford n’est pas mystérieuse [4] : elle traduit simplement le fait que  dans la nature, la taille d’un nombre a plus de « sens » que sa valeur exacte. Pour choisir un grand nombre au hasard, il faut donc surtout choisir au hasard sa taille, donnée par son logarithme. Jean-Paul Delahaye clarifie ceci dans le « Pour la Science » de novembre [5]. En utilisant la complexité de Kolmogorov, il relie la loi de Benford à la loi de Zipf (dont Xochipili a causé ici) , mentionne au passage mon désormais célèbre « nuage de Sloane » et arrive à cette conclusion:

Le monde mathématique est déconcertant : l’infini dénombrable, le plus simple de tous, semble interdire qu’on en pioche les éléments au hasard équitablement, alors que le continu de l’intervalle [0,1], plus gros et plus compliqué que l’infini dénombrable, l’autorise. Heureusement, la loi de Zipf( ou de Benford, nDrG), à sa façon, joue ce rôle de probabilité uniforme sur les entiers.

La loi de Benford s’applique donc lorsque les données couvrent plusieurs ordres de grandeur [6]

Pour terminer, voici pourquoi je m’intéresse (aussi…) à la loi de Benford. J’ai été nommé à la Commission Électorale Centrale, qui surveille le bon déroulement des votations et élections du Canton de Genève. Parmi divers tests anti-fraude effectués, il y a un test de χ² sur la loi de Benford du 2ème digit (2BL) publié après chaque vote (par exemple [6]), mais auquel je ne comprenais pas grand chose.

Maintenant ça va mieux:

  • J’ai compris que ce test ne permet pas de détecter des fraudes commises par des électeurs mais « seulement » une éventuelle falsification des résultats par l’administration chargée du dépouillement.
  • Or comme le dit très bien un article récent sur la fraude électorale « ce n’est pas le vote qui fait la démocratie, c’est le dépouillement » [7]
  • Si le test de Benford a permis de soupçonner des irrégularités dans certaines élections [8], il est fortement contesté [9,10,11], en particulier pour les élections avec peu de bureaux de vote où le nombre de votants ne varie pas sur plusieurs ordres de grandeur. Or ce dernier point est crucial pour l’applicabilité du test [12].
  • J’ai une feuille de calcul Google munie de fonctions Javascript permettant d’effectuer ce test. Et aussi un module Python. Je publierai ce code bientôt, mais en jouant avec sur des votes falsifiés par mes soins, il me semble de plus en plus que le test de Benford est compliqué et peu fiable…
  • Il existe des tests plus simples, facilement compréhensibles et rapides comme celui dont a causé Guillaume [7]  : un simple graphique X/Y affichant un point par bureau de vote aux coordonnées participation/résultat. En voici un que j’ai fait avec les résultats d’un vote récent [6] . C’est pas plus clair  que de savoir que χ² =5.096106 ?

Note*: en fait l’interprétation de la table est plus délicate que ça, et ma « sur-vulgarisation » de ce passage traduit mon inconfort avec le langage des stats… Si quelqu’un pouvait m’aider via un commentaire éclairé svp…

Références:

  1. Xavier Labouze et Robert Labouze « La détection des fraudes comptables« , 2000, Revue Française de Comptabilité n°321
  2. [altmetric doi= »10.1111/j.1468-0475.2011.00542.x » float= »right »]

  3. ResearchBlogging.org Bernhard Rauch, Max Göttsche, Gernot Brähler, & Stefan Engel (2011). Fact and Fiction in EU-Governmental Economic Data German Economic Review, 12 (3), 243-255 DOI: 10.1111/j.1468-0475.2011.00542.x
  4. Robert Harder « How To Generate Your Own Benford’s Law Numbers » 2010 (avec générateur PHP en ligne)
  5. [altmetric doi= »10.4000/msh.10363″ float= »right »]

  6. ResearchBlogging.org Nicolas Gauvrit, & Jean-Paul Delahaye (2008). Pourquoi la loi de Benford n’est pas mystérieuse Mathématiques & Sciences humaines (182) DOI: 10.4000/msh.10363 (pdf)
  7. Jean-Paul Delahaye, « Les entiers ne naissent pas égaux », Pour la Science N°421 – novembre 2012
  8. « Tests de détection de fraudes pour la votation du 23 septembre 2012« , Chancellerie d’Etat, Canton de Genève, Suisse
  9. [altmetric doi= »10.1073/pnas.1210722109″ float= »right »]

  10. ResearchBlogging.org Peter Klimek, Yuri Yegorov, Rudolf Hanel, & Stefan Thurner (2012). It’s not the voting that’s democracy, it’s the counting: Statistical detection of systematic election irregularities PNAS DOI: 10.1073/pnas.1210722109 (pdf)
  11. [altmetric doi= »10.1214/09-STS296″ float= »right »]

  12. ResearchBlogging.org  Luis Pericchi, & David Torres (2011). Quick Anomaly Detection by the Newcomb–Benford Law, with Applications to Electoral Processes Data from the USA, Puerto Rico and Venezuela Statistical Science, 26 (4), 502-516 DOI: 10.1214/09-STS296 (pdf)
  13. Walter R. Mebane, « Election Fraud or Strategic Voting? Can Second-digit Tests Tell the Difference?« , Summer Meeting of the Political Methodology Society, University of Iowa, July 22–24, 2010
  14. Joseph Deckert, Mikhail Myagkov and Peter C. Ordeshook « The Irrelevance of Benford’s Law for Detecting Fraud in Elections« 
  15. Susumu Shikano and Verena Mack, « When Does the Second-Digit Benford’s Law-Test Signal an Election Fraud? Facts or Misleading Test Results », Journal of Economics and Statistics (Jahrbuecher fuer Nationaloekonomie und Statistik, 2011, vol. 231, issue 5-6, pages 719-732
  16. Antoine Nectoux « La loi de Benford: Apprendre à frauder ou à détecter les fraudes? » sur Blog Projet Klein, 2012

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

11 commentaires sur “Fraudez fort, fraudez Benford”