viernes, 3 de julio de 2020

La Ley de Benford o ley del primer digito.

La Ley de Benford la descubre un astrónomo en el siglo XIX y actualmente se utiliza como una potente herramienta analítica en la detección de fraudes e irregularidades.

Esta ley asegura que en una serie de datos de la vida real, el primer dígito (número 1) tendrá una frecuencia de repetición mucho mayor a los demás.

¿Esto qué quiere decir? Si cogemos un conjunto de datos y les extraemos el primer dígito, la probabilidad de que este dígito empiece por 1, es 6 veces más alta a que empiece por 9.

Según Benford y su fórmula indicada más arriba, las probabilidades del primer dígito seguirán la siguiente distribución:

Es decir, la probabilidad de que en un conjunto de datos, el primer dígito de un número, sea 1 es de alrededor del 30%, de un 17,6% para el 2, 12,5% para el 3 etc.

La ley de Benford no se cumple en cualquier base de datos. No es aplicable a conjuntos numéricos aleatorios en las que todas las cifras aparecen con la misma probabilidad, como por ejemplo la lotería. Tampoco aplica a bases de datos muy limitadas, como por ejemplo, poblaciones pequeñas o con variaciones mínimas, ni a conjuntos de datos acotados como, por ejemplo, el número de pasajeros de un autobús, el peso o altura de las personas, ni a números generados artificialmente, como números de teléfono o listas de números escritos por una persona.

La Ley de Benford se puede utilizar para encontrar indicios de irregularidades en contabilidad, en datos electorales, en censos poblacionales etc. Teniendo en cuenta que cualquier ley estadística, puede aportar indicios pero nunca certezas absolutas. En general la Ley de Benford la cumplen la mayor parte de las bases de datos procedentes de la recogida de datos la naturaleza, incluyendo los procedentes de factores sociales.

La hipótesis consiste en que si una persona ha modificado o adulterado los datos para cumplir con un propósito personal, necesariamente tendrá que manipular algunos números. Cuando esto sucede posiblemente se violará lo que pronostica la Ley de Benford.

Para hacer una simple comprobación, a continuación dejo una prueba con una base de datos real. Sobre dataset que contiene un inventario valorado, extraigo el primer dígito de cada ítem y llegamos a la siguiente conclusión.

Gráficamente:

No hay diferencias respecto a la ley de Benford por lo que en principio no tendríamos indicios para pensar que se ha manipulado esta base de datos a criterio de un tercero o de forma aleatoria.

Pero: ¿Qué sucede si metemos datos aleatorios o manipulamos a nuestro criterio este conjunto de datos? Para ello manipularé de forma aleatoria el 16,2% de las entradas.

Gráficamente:

Se pueden observar claras diferencias. Esta alteración no ha podido escapar de la ley de Benford señalando claras anomalías en varios dígitos.
Al introducir datos aleatorios en nuestro dataset la distribución tiende a ser constante.

Si queremos hacer un análisis mas preciso podemos acudir a la prueba de bondad de ajuste Chi Cuadrado. La hipótesis nula (Ho) explica que los datos reales siguen la probabilidad esperada por dicha ley. La formula de Chi Cuadrado (χ²) es la siguiente.

Dónde:

  • "Pt(d)" es la frecuencia según Benford.
  • "Pobs(d)" es la frecuencia de nuestra muestra.
  • "m" es el dígito que analizamos.

Determinamos el valor estadístico para la distribución para un 95% de confianza y 8 grados de libertad (en Excel como =PRUEBA.CHI.INV(0,5;8)= 15.5073)

  • Si calculamos el valor de χ²=7,01 para la muestra original, encontramos que es inferior a nuestro valor estadístico(15,50). Se acepta "Ho" por lo que el modelo se ajusta a la Ley de Benford.

  • Si calculamos el valor de χ²=240,93 para la muestra con supuesto fraude, encontramos que es superior a nuestro valor estadístico(15,50). Se rechaza "Ho" por lo que el modelo no se ajusta a la Ley de Benford.


Esta ley ha servido para destapar diversos famosos casos de corrupción, fraude bancario e incluso fraude electoral.
Por supuesto la Ley de Benford al igual que cualquier criterio estadístico no indica necesariamente si existe fraude o irregularidades. Solo nos alertará de situaciones donde deberíamos prestar mayor atención. Los resultados se deben valorar dependiendo de lo que analicemos antes de dar opiniones equivocadas.
Como curiosidad puedes visitar la página https://testingbenfordslaw.com/ donde podrás hacer pruebas con distintos conjuntos de datos. Población de cuidades Españolas, PIB real de países de todo el mundo etc.

 

Autor: Enríque Diez

Cookies

Baker Tilly utiliza cookies con el fin de mejorar continuamente sus servicios,  así como de mostrarle publicidad relacionada con sus preferencias mediante el análisis de sus hábitos de navegación. Si continúa navegando, consideramos que acepta el uso de cookies. Para más información acerca del uso de las mismas o de cómo eliminarlas, haga clic en nuestra politica de cookies.