Inteligencia artificial y futuro científico

Aprendizaje automático, reconfiguración del conocimiento y el futuro de la investigación

Aníbal M. Astobiza

Universidad de Granada

Logo Universidad de Granada

Resumen Ejecutivo

  • ✓ La teoría no desaparece: se redistribuye en las infraestructuras de datos y arquitecturas de ML
  • ⚠️ La automatización acelera el descubrimiento pero introduce sesgos sistémicos y crisis de reproducibilidad
  • 👩‍🎓 El científico evoluciona de ejecutor a director estratégico, validador crítico y curador epistémico

Motivación: La Transformación de la Ciencia

Desafío Central:

  • 200+ millones de estructuras proteicas predichas por AlphaFold
  • Laboratorios automatizados que ejecutan miles de experimentos/día
  • Modelos opacos tomando decisiones críticas

La Provocación de Chris Anderson

"El diluvio de datos hace obsoleto el método científico. Con suficientes datos, los números hablan por sí mismos. La correlación es suficiente."

— Chris Anderson, Wired (2008)

¿Realmente marca el Big Data el fin de la teoría científica?

Hoja de Ruta

  1. La epistemología cambiante del conocimiento científico
  2. La automatización del descubrimiento: promesa y peligro
  3. El humano en el bucle: autoría, agencia y futuro

Parte I

La Epistemología Cambiante del Conocimiento Científico

El Viaje de los Datos: Sabina Leonelli

Conceptos Clave:

  • Datos como categoría relacional: no son "dados", son construidos
  • Viaje de datos: Descontextualización → Recontextualización
  • Curadores como productores: trabajo invisible de hacer datos útiles
Contexto Original
Descontextualización
Viaje/Curación
Recontextualización

Comprensión y Opacidad: Emily Sullivan

Tesis Central

La barrera para la comprensión en ML no es la opacidad interna, sino la falta de evidencia que conecte el modelo con el fenómeno.

$$\text{Comprensión} = f(\text{Vínculo Modelo-Fenómeno})$$ $$\text{Riesgo Inductivo} \propto \text{Valores No-Epistémicos}$$

Implicaciones

  • La opacidad tolerable depende del contexto de aplicación
  • Los valores éticos moldean los estándares de validación

Convergencia Teórica

Viaje de Datos(Leonelli) Vínculo Probatorio(Sullivan) Calidad delConocimiento
Insight La teoría no desaparece, se redistribuye en la infraestructura

AI for Science: Agenda Emergente

Punto de Encuentro Interdisciplinario

La IA para la ciencia es un punto de encuentro que une:

  • 🧬 Experiencia en IA y dominios de aplicación
  • 🔬 Conocimiento de modelado con know-how de ingeniería
  • 🤝 Colaboración entre disciplinas y entre humanos y máquinas
Clave El potencial transformador proviene de la integración entre dominios

Tres Ejes de Investigación en AI for Science

1. Simulación Híbrida

Integrar modelos mecanicistas y datos para representar sistemas complejos

2. Causalidad

Combinar inferencias de ML con leyes para revelar relaciones de causa y efecto

3. Conocimiento Estructurado

Incorporar teoría y reglas explícitas en los modelos de IA

Integración AI-Ciencia

Aplicaciones Transformadoras de AI for Science

Dominio Aplicación Impacto
🌍 Ciencias de la Tierra Gemelo digital del planeta Predicción climática precisa
🧪 Biología AlphaFold 200M+ estructuras proteicas
🌾 Agricultura Diagnóstico con IA móvil Detección temprana de enfermedades
🌌 Astrofísica Detección de materia oscura Comprensión del universo

Transformación fundamental: De hipótesis → datos a datos → hipótesis

Desafíos y Oportunidades

⚠️ Desafíos

  • Crisis de reproducibilidad (70% no reproducible)
  • Sesgo algorítmico sistémico
  • Opacidad en modelos complejos
  • Brecha entre disciplinas

✨ Oportunidades

  • Aceleración del descubrimiento (15x)
  • Democratización del conocimiento
  • Nuevas formas de colaboración
  • Interfaces humano-IA mejoradas

Punto crítico: El éxito requiere equilibrar la automatización con la comprensión científica y la gobernanza ética

Agenda de Investigación: Tres Pilares

Construir Sistemas IA • Simulación • Causalidad • Robustez Combinar Inteligencias • Interfaces • Explicabilidad • Colaboración Influir Práctica • Herramientas • Capacitación • Comunidad AI for Science: Transformando el Descubrimiento Científico

Hoja de Ruta para AI for Science

  1. Avanzar nuevos métodos y aplicaciones
    • Desarrollo de simulaciones híbridas mecanicistas-datos
    • Métodos de inferencia causal mejorados
  2. Invertir en herramientas y toolkits
    • Software de código abierto accesible
    • Mejores prácticas de ingeniería de datos
  3. Construir capacidades interdisciplinarias
    • Programas de formación cruzada
    • Incentivos para colaboración entre dominios
  4. Cultivar comunidades de práctica
    • Redes de investigadores AI-Ciencia
    • Desafíos y competencias compartidas

AI for Science: El Futuro es Colaborativo

"La IA para la ciencia no es solo una herramienta, es una nueva forma de hacer ciencia que requiere la integración de conocimiento humano y capacidades computacionales"

Conclusiones Clave

  • 🔄 La transformación requiere integración, no reemplazo
  • 🌐 El éxito depende de la colaboración interdisciplinaria
  • 🚀 El potencial es transformador pero requiere gobernanza cuidadosa

Es hora de construir el futuro de la ciencia juntos

Paradigmas Científicos: Evolución Histórica

Paradigma Era Método Ejemplo
Empírico Milenios Observación Astronomía antigua
Teórico Siglos Modelos Leyes de Newton
Computacional Décadas Simulación Modelos climáticos
Data-intensivo Actual ML + Big Data AlphaFold, LLMs

Cambio fundamental: de hipótesis → datos a datos → hipótesis

Aplicaciones Revolucionarias

Biología:

  • AlphaFold: 200M+ estructuras
  • Diseño de fármacos con IA
  • Predicción de mutaciones

Física:

  • Detección de ondas gravitacionales
  • Análisis del LHC
  • Simulaciones cuánticas

Desafíos Sistémicos Actuales

⚠️ Crisis de Reproducibilidad:

  • 70% de estudios ML no reproducibles
  • Falta de documentación
  • Hiperparámetros ocultos

🐛 Sesgo Algorítmico:

  • Algoritmos médicos discriminatorios
  • Datos no representativos
  • Amplificación de desigualdades
90% de fármacos con IA fallan en ensayos clínicos

Métodos

Arquitectura del Científico Algorítmico

Pipeline de Investigación Automatizada

Big Data Curación ML/AI Hipótesis Experimento Validación
Bucle Cerrado Retroalimentación continua

Algoritmo: Robot Scientist

class RobotScientist:
    def __init__(self, knowledge_base, lab_equipment):
        self.kb = knowledge_base
        self.lab = lab_equipment
        self.hypotheses = []
    
    def generate_hypotheses(self, observations):
        # Usar ML para generar hipótesis candidatas
        candidates = self.ml_model.predict(observations)
        return self.rank_by_novelty(candidates)
    
    def design_experiment(self, hypothesis):
        # Optimización bayesiana para diseño eficiente
        return self.bayesian_optimizer.suggest(hypothesis)
    
    def execute(self, experiment):
        return self.lab.run_automated(experiment)

Arquitectura del Sistema

Componentes Clave:

  1. Data Layer: MongoDB, PostgreSQL
  2. Processing: PyTorch, JAX
  3. Automation: ROS, LabVIEW
  4. Interface: REST APIs
Interface Layer
API Gateway
ML Services
Data Storage

Protocolo de Validación

Validación en Tres Niveles

  1. Técnica: Métricas de ML (accuracy, F1, AUC)
  2. Científica: Reproducibilidad, generalización
  3. Ética: Sesgo, equidad, transparencia
$$\text{Confiabilidad} = \alpha \cdot \text{Precisión} + \beta \cdot \text{Reproducibilidad} + \gamma \cdot \text{Equidad}$$

donde $\alpha + \beta + \gamma = 1$ y dependen del dominio

Resultados

Casos de Éxito y Transformación

AlphaFold: Revolución en Biología Estructural

Impacto Cuantitativo:

  • 200+ millones de estructuras predichas
  • Precisión: 92.4 GDT (vs 60 métodos anteriores)
  • Reducción temporal: años → horas
  • Aplicaciones en 190+ países
Nobel 2024
Reconocimiento máximo
Estructura molecular clara

Científicos Robot: Adam y Eve

Sistema Dominio Logros
Adam Genómica Primera máquina en descubrir conocimiento científico nuevo
Eve Fármacos Reposicionamiento de compuestos anticancerígenos
iBioFoundry Enzimas Mejora 100× en actividad enzimática

Característica común: Bucle cerrado completamente automatizado

Aceleración del Descubrimiento

Evolución de descubrimientos

15× más hipótesis evaluadas en el mismo tiempo

Democratización del Conocimiento

Acceso Global a AlphaFold:

  • 1M+ investigadores activos
  • 190+ países
  • Gratuito y abierto
  • API disponible
Open Science Cambio de paradigma

Métricas de Impacto Científico

Gráfica de métricas de impacto
  • Publicaciones: aumento del 280%
  • Colaboraciones: crecimiento del 150%
  • Patentes: incremento del 320%
  • Startups: auge del 200%

Período: 2020–2025 en campos con alta adopción de IA

Análisis de Robustez

Limitaciones y Desafíos

Sesgo Algorítmico en Salud

Caso: Algoritmo de Priorización

  • Subestimó necesidades de pacientes negros
  • Usó costo histórico como proxy
  • Afectó a 200M+ personas

El sesgo en datos históricos se amplifica en predicciones

Crisis de Reproducibilidad

Datos no disponibles Código incompleto Hiperparámetros ocultos Ambiente no especificado Resultados irreproducibles

70% de papers en ML no pueden ser reproducidos

Matriz de Riesgos por Dominio

Escala: 1 (bajo) – 10 (alto)

Discusión

Implicaciones y Reflexiones

Hallazgos vs. Literatura

Hallazgos:

  • ✓ Teoría redistribuida, no eliminada
  • ✓ Rol humano evoluciona, no desaparece
  • ✓ Calidad depende del "viaje de datos"

Literatura Previa:

  • ✗ "Fin de la teoría" (Anderson)
  • ✗ "Científicos obsoletos"
  • ✗ "Datos hablan solos"
Síntesis: Transformación, no eliminación

La Paradoja de la Automatización

"A medida que un sistema automatizado se vuelve más eficiente, la contribución humana, aunque menos frecuente, se vuelve más crítica"
Gráfica de la paradoja de la automatización

El Científico como Director de Orquesta

Antes:

  • Ejecutor manual
  • Análisis individual
  • Publicación lineal

Ahora:

  • Director estratégico
  • Curador epistémico
  • Validador crítico
👤 IA/ML Robots Big Data Ética

Limitaciones

  • ⚠️ Sesgo de supervivencia: no solo analizar casos exitosos publicados
  • ⚠️ Horizonte temporal: cambios muy recientes, efectos a largo plazo inciertos
  • ⚠️ Diversidad disciplinar: foco en ciencias naturales, menos en humanidades
  • ⚠️ Acceso desigual: brecha entre instituciones con/sin recursos para IA
Crítico Necesidad de estudios longitudinales y multidisciplinarios

Trabajo Futuro

2026 2027 2028 2029 2030 Frameworks Éticos Educación Rediseñada Estándares Reproducibilidad IA Explicable Gobernanza Global

Prioridades de Investigación:

  • Desarrollo de métricas de confiabilidad para IA científica
  • Protocolos de validación cross-disciplinarios
  • Infraestructura abierta para reproducibilidad

Mensajes Clave

💡 La teoría se transforma, no desaparece

👩‍🎓 El científico evoluciona a roles superiores

⚖️ La confiabilidad requiere gobernanza integral

Referencias Seleccionadas

  • Leonelli, S. (2016). Data‐Centric Biology: A Philosophical Study. University of Chicago Press.
  • Sullivan, E. (2022). Understanding from Machine Learning Models. British Journal for the Philosophy of Science, 73(1).
  • Anderson, C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine.
  • King, R. D. et al. (2009). The Automation of Science. Science, 324(5923).
  • AlphaFold Team (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596.
  • Gunkel, D. J. (2023). Person, Thing, Robot: A Moral and Legal Ontology. MIT Press.

¡Gracias!

✉ amastobiza@ugr.es