Herramientas utilizadas por los Data Scientist


En mi nuevo reto de encontrar un nuevo proyecto profesional en el que seguir desarrollando mi carrera, me encuentro que en todas las entrevistas me preguntan que herramientas utilizo para la realización de los proyectos de Big Data Analytics.  Basándome en esta pregunta de los entrevistadores, he pensado en realizar este post donde resumir las principales herramientas que utilizamos los Data Scientist en la actualidad en España.

Los científicos de datos no utilizamos una única tecnología o herramienta, sino que utilizamos una variedad de herramientas que cambian rápidamente. Muchos de nosotros nos acordamos de las famosas pantallas verdes y largas programaciones en SAS o BMDP, ahora estas han desaparecido y las herramientas disponibles nos facilitan nuestro trabajo diario. 

¿Pero qué herramientas son las que utilizamos la mayoría?. A continuación os muestro las herramientas que utilizamos muchos de nosotros:

Para el Almacenamiento de Datos:

Los Data Scientist creamos a partir de los Data Warehouse de las compañías nuestras propias bases de datos para poder realizar las analíticas. Para ello se utilizamos desde consultas exportadas a ficheros CSV, como utilizar MySQL (por ser Open Source) o si la compañía dispone de licencia SQL Server o similar.   También se utiliza para mover estos volúmenes de datos herramientas como Hive o Amazon Redshift.

hqdefault

Para el Análisis de Datos:

Para la analítica de datos se encuentra una gran variedad de herramientas, que varía en función del tipo de la herramienta si es Open Source o de pago, o del tamaño de la compañía.  Existe una tendencia importante en las compañías que comienzan ha implantar sistemas de analítica de Big Data en utilizar las siguientes herramientas: Python, RKNIME y SQL.

En otras compañías utilizan herramientas comerciales para sus desarrollos de Big Data tales como SAS, IBM (SPSS), SAP RapidMiner, que aparecen en los cuadrantes mágicos de Garner.

Para la Visualización de Datos:

Otra gran cualidad que de desarrollo que debemos hacer los Data Scientist en mostrar los resultados extraídos de nuestros análisis de una forma amigable y fácil. Entre las herramientas más comúnmente utilizadas para la visualización de datos destacan Tableau, QlickView, Microsoft, Pentaho, SAS o SAP. Estas herramientas de visualización de datos permiten compilar los datos de cientos de fuentes o análisis diferentes y luego transformar fácilmente los datos en visualizaciones.

El abanico de herramientas para el tratamiento de datos es muy amplio, seguro que tú utilizas estas herramientas o otras similares que estaría encantada que comentarás en mi blog para hacer esta lista más extensa y conocer sus utilidades concretas.

Espero vuestras aportaciones!

Autora: Noelia González (@noeliagorod)

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.