viernes, 1 de mayo de 2026

Sobre los filtros epistémicos automatizados: por qué los LLMs no pueden reconocer la innovación radical

                                                             Victor M. Oxley

1. Introducción

Hay una intuición bastante extendida hoy: si entrenamos sistemas suficientemente grandes —como los modelos de lenguaje— con todo el conocimiento disponible, entonces podríamos delegar en ellos tareas cada vez más sofisticadas, incluso la evaluación de ideas científicas. La promesa es tentadora: reducir ruido, filtrar errores, acelerar el progreso. Sin embargo, esa intuición pasa por alto un problema más profundo, que no es técnico sino estructural.

El punto de partida de este análisis es una ontología artefactualista estructural. Esto implica asumir, por un lado, que existe una realidad independiente de nuestras representaciones, pero, por otro, que el acceso a dicha realidad está siempre mediado por artefactos epistémicos: teorías, modelos, lenguajes e instrumentos. No conocemos el mundo de forma directa, sino a través de estructuras (Sneed, 1971; Stegmüller, 1976; Balzer, Moulines & Sneed, 1987).

Desde ese marco, el problema aparece con claridad: ¿cómo evaluar una idea cuando todavía no encaja en esa arquitectura? Más específicamente, ¿qué ocurre cuando una proposición no solo no encaja, sino que entra en conflicto con el núcleo teórico vigente?

2. Formulación del problema

Sea Kt el núcleo de una teoría en un tiempo t. Sea I una idea en estado temprano que eventualmente podría integrarse en una teoría futura Kt.

En el momento de su formulación, I es incompatible con Kt. Un sistema de evaluación Et asignará entonces: P(I | Kt) ≈ 0

Sin embargo, esa misma idea puede tener valor futuro. Definimos: V(I) ∈ {0,1}

donde 1 indica éxito teórico.

Entonces: P(I | Kt) ≈ 0 y sin embargo V(I) = 1

Aquí aparece la paradoja del filtro epistémico.

No es un accidente histórico, sino una consecuencia de cómo definimos “novedad radical”: precisamente como aquello que no puede evaluarse positivamente desde el conocimiento disponible.

Los ejemplos clásicos no hacen más que ilustrar esta estructura. La gravitación de Newton fue considerada inaceptable en el marco cartesiano por introducir acción a distancia; la deriva continental de Wegener fue ridiculizada por carecer de mecanismo; la hipótesis de los priones de Prusiner violaba el dogma central de la biología molecular. En todos estos casos, un sistema de evaluación anclado en el conocimiento vigente habría penalizado las propuestas sistemáticamente.

Esto conecta directamente con la descripción kuhniana de la ciencia normal: un régimen en el que las anomalías son inicialmente suprimidas porque amenazan la coherencia del paradigma (Kuhn, 1962). Pero la tradición estructuralista permite ir más allá de la descripción histórica y capturar la forma lógica del fenómeno: el problema no es solo sociológico, sino estructural.

3. Consistencia vs. potencial heurístico

Debemos distinguir dos funciones distintas.

Evaluación de consistencia: mide coherencia con Kt, es decir, P(I | Kt).

Evaluación de potencial heurístico: mide si vale la pena investigar I.

Podemos expresar esto como: E(valor(I)) = V(I) · P(V(I)=1) − C · P(V(I)=0)

Estas dos evaluaciones no coinciden. Una idea puede ser improbable y aun así valiosa.

4. Modelos de lenguaje y distribuciones pasadas

Los LLMs estiman: P̂(I | C)

donde C es el corpus de entrenamiento.

Para ideas radicalmente nuevas: P̂(I | C) ≈ 0

Esto no es un defecto accidental, sino estructural. El sistema evalúa en función del pasado. Como señalan Bender y Koller (2020), aprender forma no es aprender significado; y como muestran Marcus y Davis (2019), estos sistemas fallan cuando las condiciones cambian.

5. Resultado general

Se sigue el siguiente principio:

Todo sistema que evalúe ideas únicamente en función de su probabilidad bajo conocimiento pasado presenta una incapacidad estructural para detectar innovación radical.

Formalmente: P(AEt(I)=0 | V(I)=1) → 1

Esto implica una alta tasa de falsos negativos epistémicos.

No por limitaciones accidentales del modelo, sino por definición del problema. Incluso si el sistema incorpora mecanismos de “sorpresa” o meta-aprendizaje, sigue operando sobre desviaciones respecto de un modelo entrenado en datos pasados. Pero desviación estadística no equivale a relevancia epistémica. Como señalan Bender y Koller (2020), aprender forma no es aprender significado; y como argumentan Marcus y Davis (2019), estos sistemas fallan precisamente cuando las condiciones se alejan de lo previamente observado.

De aquí se sigue un resultado general —en sentido filosófico—: cualquier sistema que evalúe ideas exclusivamente en función de su probabilidad bajo una distribución pasada está estructuralmente incapacitado para detectar innovación radical. Esto puede formularse como un principio:

Dentro de la clase de sistemas que maximizan la conformidad con un corpus C, la tasa de falsos negativos epistémicos para ideas radicalmente novedosas es necesariamente alta.

No se trata de una crítica técnica a los LLMs, sino de un límite conceptual. Tales sistemas son adecuados para evaluar consistencia, detectar incoherencias o generar consecuencias de teorías ya establecidas. Pero no pueden, sin pérdida, cumplir la función de evaluar potencial heurístico.

La consecuencia no es que debamos abandonar estos sistemas, sino que debemos entender dónde termina su competencia. Si se los utiliza como filtros eliminatorios en fases tempranas de evaluación —por ejemplo, en la selección inicial de proyectos o artículos— el resultado es un sesgo sistemático contra la innovación de alta distancia epistémica.

En última instancia, esto devuelve la discusión a un punto clásico de la filosofía de la ciencia. Ni el anarquismo metodológico de Feyerabend (1975) ni el formalismo estricto capturan por sí solos la dinámica real del conocimiento. Pero sí podemos extraer una conclusión más precisa: no todo juicio epistémico puede ser reducido a una función sobre datos pasados. Hay una dimensión —la de la invención, la ruptura, la reconfiguración estructural— que resiste esa reducción.

Una ciencia que olvida esto no se vuelve más rigurosa. Se vuelve, simplemente, incapaz de producir lo nuevo.

6. Conclusión

Los LLMs son útiles para evaluar consistencia, pero no potencial heurístico.

Si se usan como filtros iniciales, eliminan sistemáticamente ideas radicales. Esto introduce un sesgo estructural contra la innovación.

El límite es claro: no todo juicio epistémico puede reducirse a datos pasados. La ciencia depende también de ruptura, invención y reconfiguración estructural.

Referencias (APA)

Balzer, W., Moulines, C. U., & Sneed, J. D. (1987). An architectonic for science. Dordrecht: Reidel.

Bender, E. M., & Koller, A. (2020). Climbing towards NLU. ACL Proceedings, 5185–5198.

Brown, T. B., et al. (2020). Language models are few-shot learners. NeurIPS, 33.

Kuhn, T. S. (1962). The structure of scientific revolutions. Chicago.

Marcus, G., & Davis, E. (2019). Rebooting AI. New York.

Sneed, J. D. (1971). The logical structure of mathematical physics. Dordrecht.

Stegmüller, W. (1976). The structure and dynamics of theories. Berlin.

Vaswani, A., et al. (2017). Attention is all you need. NeurIPS, 30.

Feyerabend, P. (1975). Against method. London.

 


No hay comentarios:

Publicar un comentario