En cualquier disciplina es muy importante configurar un buen equipo para que nuestra área de trabajo funcione perfectamente. En el caso de un área Data Science esta configuración de equipo es compleja por el poco expertise disponible hasta la fecha en esta área, y los constantes cambios del área y novedades tecnológicas y de algoritmia. Tras hablar con muchos compañeros que tienen esta problemática, leer bibliográfica al respecto y sobre todo el gestionar un área de estas caracteristicas me permite ver la luz tras el túnel para dar una primera configuración de equipo ideal!!.
Lo primero que tenemos que tener en cuenta en nuestra área, como es lógico, son las parcelas que se tienen que abarcar este colectivo para seleccionar a las personas que configurarán el equipo. En este sentido podemos describir que las áreas de trabajo dentro de este colectivo son las siguientes:
Por tanto, esas son las capacidades que debe cubrir el equipo humano del colectivo data science. Esta claro, que lo habitual no es que exista un Super Data Scientist que abarque todas necesidades y tecnologías de este área, por tanto debemos complementar a este equipo y formar un equipo multidisciplinar en data science y las áreas de negocio en las que trabajemos.
En general, todos los miembros del equipo deben disponer de habilidades perfectas en matemáticas y estadística, programación estadística y comunicación. Deben de tener la experiencia técnica y la capacidad de explicar el impacto de su trabajo a un público que no tiene conocimiento de su área, siendo esta una gran complejidad el realizar la interpretación y entendimiento con las áreas de negocio.
Muchas organizaciones se pierden en el bosque y no se resisten en buscar al Super Data Scientist o también conocidos entre los compañeros del sector como unicornios. Localizar un unicornio y clonarlo, para cubrir las necesidades de trabajo diario, sin tener en cuenta otra alternativa como es configurar un equipo humano de estas caracteristicas en las que todos suman un todo.
¿Pero cuál es la composición que debe tener este equipo? En mi opinión, debe tener unas personas clave que permitan mover el equipo. Se necesita al menos un especialista como un matemático-estadístico para bucear en los datos con agilidad y robustez. Además, de una persona multidisciplinaria que pueda comprender el alcance global de nuestras soluciones, para lograr realmente el equipo perfecto.
En un post sobre este tema visualice esta imagen de la composición del equipo perfecto de data science que me ha gustado mucho porque refleja una situación real:
Según esta configuración de equipo, el equipo mínimo de data scientist debería estar conformado por:
- Comunicador: a mi me gusta decir el «marketiniano» es decir, aquel data scientist que además del conocimiento técnico dispone de habilidades para transmitir al mundo los resultados obtenidos de las analíticas y consiguiendo el total entendimiento del trabajo realizado por todo el publico general. Es marketinianoporque además de comunicarse con fluidez es muy visual-llamativo en la forma de presentar los resultados. Esta persona suele ser la que lidera los grupos de trabajo hacia el exterior, teniendo una componente también comercial de los proyectos data science.
- Matemático-estadístico: Con un perfil muy académico construye modelos avanzados basados en insumos, mientras que entiende la teoría y los requisitos para que los resultados sean apalancados correctamente. Esta persona es considera la experta en algoritmia.
- El programador estadístico: Quizás es el que tiene mayor conocimiento en materia de big data y se encarga del tratamiento de los datos en alto nivel, ETL, depuración de datos, gestión y la reconstrucción de datos, así como la programación herramientas que permite utilizar los datos de manera fácil como visualizadores de datos o simuladores.
Por supuesto este equipo tiene que relacionarse a la perfección, como un gran engranaje de una maquina que obtiene un resultado optimado en todo momento. El trabajo de cada uno de ellos depende del resultado del otro: el matemático-estadístico depende del resultado obtenido en primera estancia del programador estadístico, para la creación de los modelos utilizables. Ambos dependen del conocimiento del comunicador. Incluso si los datos son perfectos, y los resultados estadísticamente correctos, el resultado final no es satisfactorio si el comunicador no lo refleja en el área de negocio para que tengan el total entendimiento el área de negocio.
¿Qué os parece esta configuración del equipo? ¿Qué tipo de equipo disponéis en vuestra compañía de esta área?