Victor M. Oxley
1. Introducción
Hay una
intuición bastante extendida hoy: si entrenamos sistemas suficientemente
grandes —como los modelos de lenguaje— con todo el conocimiento disponible,
entonces podríamos delegar en ellos tareas cada vez más sofisticadas, incluso
la evaluación de ideas científicas. La promesa es tentadora: reducir ruido,
filtrar errores, acelerar el progreso. Sin embargo, esa intuición pasa por alto
un problema más profundo, que no es técnico sino estructural.
El punto
de partida de este análisis es una ontología artefactualista estructural. Esto
implica asumir, por un lado, que existe una realidad independiente de nuestras
representaciones, pero, por otro, que el acceso a dicha realidad está siempre
mediado por artefactos epistémicos: teorías, modelos, lenguajes e instrumentos.
No conocemos el mundo de forma directa, sino a través de estructuras (Sneed,
1971; Stegmüller, 1976; Balzer, Moulines & Sneed, 1987).
Desde ese marco, el problema aparece con
claridad: ¿cómo evaluar una idea cuando todavía no encaja en esa arquitectura?
Más específicamente, ¿qué ocurre cuando una proposición no solo no encaja, sino
que entra en conflicto con el núcleo teórico vigente?
2. Formulación del problema
Sea Kt
el núcleo de una teoría en un tiempo t. Sea I una idea en estado temprano que
eventualmente podría integrarse en una teoría futura Kt.
En el
momento de su formulación, I es incompatible con Kt. Un sistema de
evaluación Et asignará entonces: P(I | Kt) ≈ 0
Sin
embargo, esa misma idea puede tener valor futuro. Definimos: V(I) ∈ {0,1}
donde 1
indica éxito teórico.
Entonces:
P(I | Kt) ≈ 0 y sin embargo V(I) = 1
Aquí
aparece la paradoja del filtro epistémico.
No es un accidente histórico, sino una
consecuencia de cómo definimos “novedad radical”: precisamente como aquello que
no puede evaluarse positivamente desde el conocimiento disponible.
Los ejemplos
clásicos no hacen más que ilustrar esta estructura. La gravitación de Newton
fue considerada inaceptable en el marco cartesiano por introducir acción a
distancia; la deriva continental de Wegener fue ridiculizada por carecer de
mecanismo; la hipótesis de los priones de Prusiner violaba el dogma central de
la biología molecular. En todos estos casos, un sistema de evaluación anclado
en el conocimiento vigente habría penalizado las propuestas sistemáticamente.
Esto conecta
directamente con la descripción kuhniana de la ciencia normal: un régimen en el
que las anomalías son inicialmente suprimidas porque amenazan la coherencia del
paradigma (Kuhn, 1962). Pero la tradición estructuralista permite ir más allá de
la descripción histórica y capturar la forma lógica del fenómeno: el problema
no es solo sociológico, sino estructural.
3. Consistencia vs. potencial heurístico
Debemos
distinguir dos funciones distintas.
Evaluación
de consistencia: mide coherencia con Kt, es decir, P(I | Kt).
Evaluación
de potencial heurístico: mide si vale la pena investigar I.
Podemos
expresar esto como: E(valor(I)) = V(I) · P(V(I)=1) − C · P(V(I)=0)
Estas dos
evaluaciones no coinciden. Una idea puede ser improbable y aun así valiosa.
4. Modelos de lenguaje y distribuciones pasadas
Los LLMs
estiman: P̂(I | C)
donde C
es el corpus de entrenamiento.
Para
ideas radicalmente nuevas: P̂(I | C) ≈ 0
Esto no
es un defecto accidental, sino estructural. El sistema evalúa en función del
pasado. Como señalan Bender y Koller (2020), aprender forma no es aprender
significado; y como muestran Marcus y Davis (2019), estos sistemas fallan
cuando las condiciones cambian.
5. Resultado general
Se sigue
el siguiente principio:
Todo
sistema que evalúe ideas únicamente en función de su probabilidad bajo
conocimiento pasado presenta una incapacidad estructural para detectar
innovación radical.
Formalmente: P(AEt(I)=0 | V(I)=1) → 1
Esto
implica una alta tasa de falsos negativos epistémicos.
No por limitaciones accidentales del modelo,
sino por definición del problema. Incluso si el sistema incorpora mecanismos de
“sorpresa” o meta-aprendizaje, sigue operando sobre desviaciones respecto de un
modelo entrenado en datos pasados. Pero desviación estadística no equivale a
relevancia epistémica. Como señalan Bender y Koller (2020), aprender forma no
es aprender significado; y como argumentan Marcus y Davis (2019), estos
sistemas fallan precisamente cuando las condiciones se alejan de lo previamente
observado.
De aquí se
sigue un resultado general —en sentido filosófico—: cualquier sistema que
evalúe ideas exclusivamente en función de su probabilidad bajo una distribución
pasada está estructuralmente incapacitado para detectar innovación radical.
Esto puede formularse como un principio:
Dentro de la
clase de sistemas que maximizan la conformidad con un corpus C, la tasa de falsos
negativos epistémicos para ideas radicalmente novedosas es necesariamente alta.
No se trata de
una crítica técnica a los LLMs, sino de un límite conceptual. Tales sistemas
son adecuados para evaluar consistencia, detectar incoherencias o generar
consecuencias de teorías ya establecidas. Pero no pueden, sin pérdida, cumplir
la función de evaluar potencial heurístico.
La consecuencia
no es que debamos abandonar estos sistemas, sino que debemos entender dónde
termina su competencia. Si se los utiliza como filtros eliminatorios en fases
tempranas de evaluación —por ejemplo, en la selección inicial de proyectos o
artículos— el resultado es un sesgo sistemático contra la innovación de alta
distancia epistémica.
En última
instancia, esto devuelve la discusión a un punto clásico de la filosofía de la
ciencia. Ni el anarquismo metodológico de Feyerabend (1975) ni el formalismo
estricto capturan por sí solos la dinámica real del conocimiento. Pero sí
podemos extraer una conclusión más precisa: no todo juicio epistémico puede ser
reducido a una función sobre datos pasados. Hay una dimensión —la de la
invención, la ruptura, la reconfiguración estructural— que resiste esa
reducción.
Una ciencia que
olvida esto no se vuelve más rigurosa. Se vuelve, simplemente, incapaz de
producir lo nuevo.
6. Conclusión
Los LLMs
son útiles para evaluar consistencia, pero no potencial heurístico.
Si se
usan como filtros iniciales, eliminan sistemáticamente ideas radicales. Esto
introduce un sesgo estructural contra la innovación.
El límite
es claro: no todo juicio epistémico puede reducirse a datos pasados. La ciencia
depende también de ruptura, invención y reconfiguración estructural.
Referencias (APA)
Balzer, W., Moulines, C. U., & Sneed, J. D. (1987). An
architectonic for science. Dordrecht: Reidel.
Bender, E. M., & Koller, A. (2020). Climbing towards NLU. ACL Proceedings, 5185–5198.
Brown, T. B., et al. (2020). Language models are few-shot learners. NeurIPS,
33.
Kuhn, T. S. (1962). The structure of scientific revolutions.
Chicago.
Marcus, G., & Davis, E. (2019). Rebooting AI. New York.
Sneed, J. D. (1971). The logical structure of mathematical physics.
Dordrecht.
Stegmüller, W. (1976). The structure and dynamics of theories.
Berlin.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS,
30.
Feyerabend, P. (1975). Against method. London.
