martes, 9 de mayo de 2023

LA CONFIABILIDAD DE LOS DATOS Y LOS RESULTADOS DE LAS ELECCIONES GENERALES 2023 EN PARAGUAY

                                                                                                      Dr. Victor Oxley

Cuando se lanza un dado, cada uno de los seis números tiene la misma probabilidad de salir. Las probabilidades de que salga alguno de sus seis números, pues van de 1 a 6 es de 16,67 %. Esto se debe a que solo hay una forma de sacar un número específico, de los seis resultados posibles (1, 2, 3, 4, 5 o 6). Así la probabilidad de sacar un número específico en un dado de seis caras se puede formular matemáticamente como: P(número) = 1/6; donde P(número) es la probabilidad de que salga el número deseado y 1/6 representa la probabilidad de que ese número ocurra entre los seis resultados posibles.

Ahora, preguntándonos sobre números distribuidos en una colección ¿cuál sería la probabilidad de frecuencia con que aparecieran los dígitos 1, 2, 3, 4, 5, 6, 7, 8, 9 en ellos?

Una respuesta intuitiva, y siguiendo la línea anterior a la cara de los dados, podríamos decir que es de 1/9, es decir 0,11%. Erróneamente esta respuesta no se adecua a la realidad del fenómeno que queremos entender, pues la distribución de los primeros dígitos en muchos conjuntos de datos está lejos de ser uniforme. La razón de esta falta de uniformidad tiene sus raíces en las propiedades matemáticas de los logaritmos. Dado que el logaritmo de un número aumenta a medida que aumenta el propio número, los números con dígitos iniciales más pequeños tienen un rango mucho más amplio de posibles magnitudes que los números con dígitos iniciales más grandes. Por ejemplo, el rango de posibles magnitudes para los números que comienzan con el dígito 1 es mucho mayor que el rango para los números que comienzan con el dígito 9. Como resultado, los dígitos pequeños (como 1 y 2) aparecen con más frecuencia como dígitos iniciales que los dígitos grandes. (como 8 y 9), aunque hay un número igual de números que comienzan con cada dígito.

La distribución de números en muchos conjuntos de datos naturales a menudo sigue un patrón conocido como la Ley de Benford, (ley del primer dígito). La Ley de Benford establece que, en muchos conjuntos de datos, la distribución de frecuencia del primer dígito de los números sigue una distribución logarítmica, con dígitos más pequeños (1, 2, 3) que ocurren con más frecuencia que los dígitos más grandes (8, 9).

Esta ley establece que la probabilidad de que un número tenga un dígito inicial d (donde d puede ser cualquier número entero del 1 al 9) viene dada por la fórmula: P(d) = log10(1 + 1/d); donde log10 es la función logarítmica en base 10.

Considerando un conjunto de datos de 1000 números aleatorios entre 1 y 10 000. Aplicando la Ley de Benford a este conjunto de datos, se puede calcular las proporciones esperadas de números que comienzan con cada dígito:

P(1) = log10(1 + 1/1) = 0,301

P(2) = log10(1 + 1/2) = 0,176

P(3) = log10(1 + 1/3) = 0,125

P(4) = log10(1 + 1/4) = 0,097

P(5) = log10(1 + 1/5) = 0,079

P(6) = log10(1 + 1/6) = 0,067

P(7) = log10(1 + 1/7) = 0,058

P(8) = log10(1 + 1/8) = 0,051

P(9) = log10(1 + 1/9) = 0,046

Se ha observado que la Ley de Benford se cumple en muchos tipos diferentes de conjuntos de datos de varios campos, que incluyen finanzas, contabilidad, economía, estadísticas de población, mediciones científicas y fenómenos naturales.

Explorar la calidad de los datos en una colección de números es extremadamente importante porque puede tener un impacto significativo en la validez y confiabilidad de cualquier conclusión que se extraiga de los datos.

Es importante asegurarse de que los datos recopilados sean precisos y no contengan errores, como errores de ingreso de datos, datos faltantes o valores atípicos. Explorar la calidad de los datos puede ayudar a identificar dichos errores y garantizar que los datos sean lo más precisos posible. La exploración de la calidad de los datos puede ayudar a garantizar la confiabilidad de los datos al identificar cualquier problema que pueda afectar la consistencia o la repetibilidad de los datos. Esto es especialmente importante en la investigación científica u otros contextos donde la confiabilidad de los datos es crítica.

La Ley de Benford se puede utilizar para detectar anomalías en conjuntos de datos, como fraude o errores en la recopilación de datos. Si la distribución de frecuencia de los primeros dígitos de un conjunto de datos no se ajusta a la Ley de Benford, puede indicar que los datos han sido manipulados o que son inexactos.

En ciencia, una hipótesis generalmente se considera plausible si está respaldada por evidencia empírica y puede explicar los datos disponibles de una manera lógica y coherente. Demostrar la plausibilidad de una hipótesis requiere recopilar y analizar datos, desarrollar una hipótesis comprobable, diseñar y realizar experimentos y refinar la hipótesis en función de los resultados. Al someter la hipótesis a pruebas y refinamientos rigurosos, los científicos pueden construir un cuerpo de evidencia que respalde la plausibilidad de la hipótesis.

Afirmar algo como “el ganador de las elecciones es x candidato” implica la demostración de tal hipótesis. Para demostrarla debe existir una colección de datos que describa como se distribuyen las preferencias de varios candidatos y desde ahí, determinar quién acumula la mayor cantidad de votos (estos expresados en la cardinalidad de la colección). Como se ve, el procedimiento es sencillo.

Ahora, detrás de esto existen procesos, mecanismos, métodos y criterios que se emplean para llegar a los resultados que determinaran quien es el que alcance la categoría de ganador entre candidatos varios.

Para tener la colección de datos que nos permita determinar tal categoría de ganador, se tuvieron que celebrar elecciones, esta se debe llevar bajo condiciones legales y legitimas que produzcan un resultado confiable y verosímil.

En Paraguay se celebraron, el 30 de abril de 2023, las elecciones generales para elegir autoridades, entre estas Presidente, Gobernadores, legisladores etc. Al termino del proceso, se trasmitieron los datos vía un método denominado TREP, una vez procesados los datos hasta el 99% de los casos, este arrojo resultados, y así se determinaron los ganadores de los cargos electivos en juego.

Si se busca investigar científicamente la validez de estos resultados, lo que es lo mismo decir, corroborar la veracidad de los resultados, más allá de sumar los números como datos, operación que aritméticamente cualquiera puede hacer, está la cuestión de saber si la base de datos que usamos para tal fin es confiable o no. Como vimos a lo largo de este escrito, y más allá de los métodos propios de certificar que cada dato (voto computado) sea confiable, en sentido de que los procesos y mecanismos que se utilizaron para que el voto del elector sea legal y protegido por el derecho, está la cuestión metodológica de partir el análisis sobre bases sólidas en cuanto confiablidad de los datos que harán posible corroborar la verosimilitud de los resultados.

Como vimos, partiendo de la Ley de Benford, este nos da un método potentísimo para cribar la fiabilidad de los datos que se utilizaran para el análisis. Los votos distribuidos por las mesas electorales no son producto del azar, al contrario, se espera de ellos respondan a algún criterio que los hagan predecibles, pues estas predictibilidades estarán determinadas por las zonas geográficas en donde se encuentren, las estadísticas pre electorales que se hubieran hecho, capacidad logística de los partidos o movimientos para lograr que sus votantes lo hagan etc.

Una investigación, utilizando la ley de Benford, cribó los datos que hacen de soporte al TREP. Así leemos en ella que “aplicando la misma ley en la cantidad de votos obtenidos por Santiago Peña en más de 12252 mesas, estos no cumplen los parámetros de la Ley de Benford y arrojan un alarmante abuso en la utilización del número 1 como primer dígito, además de la disminución de los números 2, 3, y 4 en la misma posición, pero en forma inversa”.

Gràfico 1

Fuente: https://independiente.com.py/analisis-con-ley-de-benford-indica-anomalias-y-posible-fraude-a-favor-de-pena/

El autor de la investigación afirma que “el abuso en la utilización del número 1 como primer dígito en los resultados electorales de Peña representa un 22,81% de diferencia con el % de probabilidad de la Ley de Benford. Esta anomalía solo se puede dar cuando se manipulan de alguna manera los resultados electorales”.

Estas anomalías citadas por el autor de la investigación referenciada, por un lado, podrían ser errores en la recolección de datos, ahora por otro podrían ser el indicio de una manipulación de los datos que muy bien se traduce en un gran fraude.

Si estas anomalías fuesen un error de recolección de datos ¿Cuál es el procedimiento por parte del TSJE, si es que tiene alguno, para poder despejar la duda?  De lo contrario un error indetectable causaría el mayor daño social que podría imaginarse. Ahora por otro lado, si estas anomalías fuesen la evidencia de un gran fraude ¿Qué métodos disponemos los ciudadanos, para descartar tal operación mafiosa?

Es importante tener en cuenta que la Ley de Benford es una observación empírica y no un teorema matemático estricto, es decir demostrado en términos puros de su formalismo, siendo así es un método poderosísimo que nos sirve para obtener bases de datos confiables, certificadas en contenido fiable, y de que estos por tal naturaleza producirán resultados confiables y verosímiles.

Al principio de este escrito hablamos de que las posibilidades de que una de las caras del dado caiga, está supeditada a la regla de 1/6, es decir cada cara tiene la misma posibilidad, salvo que el dado este trucado. Si lo está, este acto determinará que cara se lleva el 100% de probabilidades, lo que anula por completo la oportunidad de las otras caras. La ley de Benford establece que, en muchos conjuntos de datos, la distribución de frecuencia del primer dígito de los números sigue una distribución logarítmica, con dígitos más pequeños (1, 2, 3) que ocurren con más frecuencia que los dígitos más grandes (8, 9). La ley de Benford es posible siempre y cuando, ex profeso alguien o alguno no haya manipulado los datos de la colección en donde estás aparecen.

Ante la sospecha de gran fraude, por decirlo así, el proceder del TSJE debiera de ser el más transparente posible, pues hay que despejar toda duda que se construya sobre la legitimidad de las elecciones, de lo contrario la desconfianza basada en el descrédito del sistema eleccionario y la institución encargada de su ejecución el Tribunal Superior de Justicia Electoral minará toda estabilidad social. Lo mínimo que podemos decir, por hacerlo de alguna manera, es que no se puede seguir socialmente sobreviviendo, en un país con el rumor de que las autoridades que la gobiernan son piratas cuyo asalto al barco fue su gran botín.

*Del autor se puede leer tambièn "La ejecuciòn de un nefasto plan" en https://m.facebook.com/story.php?story_fbid=pfbid0T9K5aXBVFkzPpL1BfjJhvXYrMW9ee1HRZeLYaPqPwNTGRpnhDKCxedu3S8soz4Fql&id=1468595806&mibextid=Nif5oz

No hay comentarios:

Publicar un comentario