La reciente sesión “RIP, Data Scientists” del DataHack Summit 2025 encendió el debate: ¿podrán los modelos de lenguaje grandes (LLMs) asumir por completo las tareas de un científico de datos? En esa demostración en vivo se mostró que un LLM moderno puede explorar un dataset, generar hipótesis, escribir y probar código, e incluso corregir errores sobre la marcha. También pudo realizar pruebas de significancia estadística, dibujar gráficos y interpretar resultados, en esencia capturando todo lo que hace un data scientist. Estos avances plantean una inquietud legítima: si una IA puede ejecutar gran parte del flujo de trabajo analítico de forma autónoma, ¿qué lugar queda para el humano?
LLMs al asalto del flujo de trabajo del data science
No es ciencia ficción: herramientas basadas en LLM ya están integrándose en el día a día de los equipos de datos. Por ejemplo, la función Code Interpreter de ChatGPT (hoy rebautizada como “Advanced Data Analysis”) permite cargar datos y obtener análisis con solo indicaciones en lenguaje natural. De hecho, GPT ya es capaz de generar gráficos interactivos bajo pedido, filtrando datos o ajustando visualizaciones sin intervención manual en el código. Estas capacidades aceleran la exploración de datos y democratizan el acceso a análisis complejos. Un analista junior, apoyado por un LLM, puede obtener en minutos visualizaciones o modelos que antes requerían horas de picar código.
Sin embargo, hay áreas donde estos modelos aún no incursionan con fuerza. La generación de hipótesis verdaderamente novedosas o la creatividad para replantear un problema siguen siendo facetas principalmente humanas. Muchos científicos de datos utilizan LLMs como asistentes para tareas repetitivas o para escribir fragmentos de código, pero la intuición sobre qué analizar y por qué suele provenir de la experiencia y curiosidad del experto. En la sesión de DataHack Summit se subrayó que, si bien un LLM puede encargarse del trabajo pesado, el humano aporta el conocimiento de dominio, el criterio para la toma de decisiones y la supervisión ética del proceso. En otras palabras, la IA puede automatizar la mecánica, pero la estrategia y el contexto siguen siendo terreno del científico de datos.
Opiniones de expertos: ¿reemplazo o evolución?
¿Qué opinan los referentes de la industria sobre este posible “fin” del data scientist? La visión general de los expertos tiende más a la evolución del rol que a su desaparición. Cassie Kozyrkov, ex Chief Decision Scientist de Google, lo resume así: “Las herramientas cambiarán, pero la esencia permanece”. En su opinión, la ciencia de datos es un campo en expansión y el rol del data scientist es más crítico que nunca. Kozyrkov es enfática: “¿Será automatizado el científico de datos? No”. Eso sí, advierte que los profesionales deben definirse por su función fundamental (entender problemas, tomar decisiones basadas en datos) y no por las herramientas del momento. Si abrazan los nuevos instrumentos (LLMs, AutoML, etc.) como aliados, podrán concentrarse en preguntas de alto nivel y no en el tedio operativo. En suma, la IA no viene a dar el réquiem de los científicos de datos, sino a liberarlos de la rutina para que aporten más valor.
Del mismo modo, Andrew Ng –fundador de Google Brain– se muestra optimista. Ha señalado que si bien la IA puede automatizar parte del trabajo, difícilmente eliminará empleos completos. “Para la gran mayoría de los roles, si un 20-30% de las tareas se automatizan, el puesto seguirá existiendo”, explica Ng. En otras palabras, la llegada de estas herramientas transformará el cómo trabajamos, no si trabajamos. Ng acuña una frase reveladora: “La IA no reemplazará a las personas, pero quizá las personas que usan IA reemplacen a las que no”. La lección para los científicos de datos es clara: quienes adopten los LLMs para potenciar su productividad aventajarán a quienes los ignoren. La profesión no muere, evoluciona junto a la tecnología.
Existe un consenso emergente: el valor del científico de datos migrará hacia funciones de mayor nivel. Un análisis publicado en Towards Data Science predice que los analistas humanos seguirán siendo “críticos para hacer las preguntas correctas, interpretar datos ambiguos y refinar hipótesis”. Los LLMs facilitan la traducción de instrucciones en código, la limpieza de datos y hasta la generación de visualizaciones automáticamente, pero carecen de criterio. La expertise de dominio seguirá siendo necesaria para dar sentido a las tendencias y separar la causalidad de la simple correlación. En la práctica, el dúo humano-IA promete ser más poderoso que cualquiera de las partes por separado. El científico de datos del futuro será quien sepa orquestar inteligentemente estas herramientas manteniendo el timón del ¿qué significa esto para el negocio? bien sujeto.
Beneficios y limitaciones actuales de los LLMs en ciencia de datos
Beneficios clave de usar LLMs en el proceso de ciencia de datos:
- Aumento de productividad en código: Pueden convertir peticiones en lenguaje natural a código (Python, R, SQL) de forma automática, generando desde consultas SQL hasta scripts de análisis en segundos.
- Limpieza y preparación de datos más rápida: Son capaces de sugerir transformaciones y depurar conjuntos de datos con intervención mínima, detectando errores comunes o formateando columnas según las indicaciones.
- Visualizaciones inmediatas: Generan gráficos y tablas explicativas a partir de los datos sin necesidad de construir manualmente cada visualización, lo que acelera la exploración inicial.
Limitaciones actuales de los LLMs (donde el juicio humano sigue siendo crucial):
- Alucinaciones y errores: Un LLM puede producir resultados incorrectos o código con bugs sutiles; tienden a “alucinar” respuestas si la pregunta excede su conocimiento, por lo que un experto debe verificar la veracidad de sus outputs.
- Privacidad y datos sensibles: En entornos corporativos, enviar datos confidenciales a un modelo externo es problemático. Existen preocupaciones legítimas sobre la privacidad y seguridad de los datos al usar LLMs en workflows empresariales.
- Falta de contexto de negocio: La IA no entiende el por qué detrás de los datos. Sin la guía de un humano, el modelo no sabe qué resultados importan más para la decisión estratégica. La experiencia humana es insustituible para interpretar correctamente los hallazgos en su contexto.
- Costo y rendimiento: Analizar grandes volúmenes de datos con LLMs puede ser lento y costoso. Estos modelos tienen ventanas de contexto limitadas y consumir muchos tokens (texto) implica mayores costos computacionales. Optimizar su uso con datos masivos sigue siendo un desafío práctico.
El científico de datos aumentado, no reemplazado
Lejos de escribir la esquela profesional del científico de datos, los LLMs están impulsando una evolución del rol hacia cuotas más altas de valor y creatividad. Sí, buena parte del trabajo pesado (la codificación rutinaria, el formateo de datos, las pruebas estadísticas mecánicas) puede quedar en manos de modelos de lenguaje. Pero el criterio humano, la curiosidad y la comprensión profunda del problema siguen siendo el corazón de la ciencia de datos efectiva. En mi experiencia, un data scientist que adopta estas herramientas se convierte en una especie de “científico de datos aumentado”: más eficiente operativamente, pero igualmente responsable de diseñar el análisis correcto y de evitar conclusiones engañosas.
Mi consejo para profesionales y empresas es claro: abrazar estos modelos como aliados. Como dijo Andrew Ng, la IA no te reemplazará, pero un profesional que la domine podría reemplazar a otro que no lo haga. Aprender a convivir con los LLMs —integrándolos en nuestras prácticas, pero manteniendo una mente crítica— será la clave. Al final del día, este avance tecnológico nos invita a reflexionar: ¿qué nos hace realmente valiosos como científicos de datos? La respuesta no está en escribir una línea de código más rápido que ChatGPT, sino en preguntar y responder lo que nadie más ha pensado. Ahí, en la innovación y el juicio humano, es donde nuestra relevancia perdura.
¡Lejos de un “RIP”, es hora de decir “larga vida al científico de datos”, ahora potenciado por IA!