No existe unanimidad en la definición de Big Data, aunque las diferentes definiciones mencionan muchos aspectos comunes
Algo que nos ha pasado a todos cuando comenzamos a oír el término Big Data entre las diferentes empresa o gurus de esta disciplina es que cada uno definen el término de Big Data de una manéra diferente, aunque todos ellos manejan conceptos muy comunes.
Para mi primer artículo de mi blog sobre Big Data he querido que sea introducturio y que sirva para aclarar que entienden los grandes gurus del tema como Big Data.
Lo primero que pensamos al ver el nombre parece muy claro: Gran Volumen de Datos
Demasiado simple si nos quedamos con la traducción literal, pero al analizar en detalle la definición dada por los gurús vemos que exiten matices sobre la definición de Big Data. A continuación incluyo diferentes definiciones de Big Data:
- Deloitte : «el término que se aplica a conjuntos de datos cuyo volumen supera la capacidad de las herramientas informáticas de uso común, para capturar, gestionar y procesar datos en un lapso de tiempo razonable. Los volúmenes de Big Data varían constantemente, y actualmente oscilan entre algunas decenas de terabytes hasta muchos petabytes para un conjunto de datos individual».
- Gartner: «Big Data son los grandes conjuntos de datos que tienen tres características principales: volumen (cantidad), velocidad (velocidad de creación y utilización) y variedad (tipos de fuentes de datos no estructurados, tales como la interacción social, video, audio, cualquier otra cosa que se pueda clasificar en una base de datos)».
- IDC: «Big Data es una nueva generación de tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes volúmenes de datos provenientes de múltiples fuentes heterogéneas a una alta velocidad con el objeto de extraer valor económico de ellos».
- McKinsey Global Institute: «Big Data se refiere a los conjuntos de datos cuyo tamaño está más allá de las capacidades de las herramientas típicas de software bases de datos para capturar, almacenar, gestionar y analizar».
En general muchas características de las diferentes definiciones de estas grandes empresas coinciden, como conceptos de capturas de datos con crecimiento exponencial de los datos y heterogeneidad de los datos extraídos y almacenados.
«Big Data es un conjunto de datos tan grande como diversos que rompen las infraestructuras de TI tradicionales» según Howard Elias
En resumen, la definición de Big Data puede variar según las características de las empresas. Pero en definitiva todas ellas culminan en los Modelos de las tres V , cuatro V o cinco V mencionados por IBM y que aparece en la definición de Gartner, pero la explicación de estos modelos ya profundizaré en otro post!.
¿Cuál es tu definición de Big Data? ¿Qué definición os parece más acertada?
Autora:
Noelia González (@noeliagorod)
Creo que es tan complicado como intentar definir qué es Business Intelligence. En realidad, se trata de su hermano menor, otro nombre marketero que, lo que trae detrás, es más de lo mismo pero con nuevas herramientas y técnicas (los «proveedores de soluciones de TI» y su afán por mantenerse vendiendo e implementando). En fin, hay algunos elementos que definen el Big Data. El procesamiento distribuido, el enfoque multisistema y principalmente un volumen y una variedad que no es manejable por técnicas tradicionales (y aquí es donde empieza el NOSQL).
Por otro lado, al igual que en el BI, existen dos mundos: El mundo «Reporting» donde lo único que se hace es exprimir toda la abundante información que viene de muchas fuentes y a una elevada velocidad, obteniendo indicadores clave para la toma de decisiones. Este es el tipo de Big Data (o solución BI) más común y el que venden las consultoras en Perú, uno basado en Querys y en números sencillos. El otro mundo, es el mundo de modelos analíticos (estadísticos). El mundo en el que se puede segmentar (hablando desde un punto de vista estadístico, no sólo desde el marketing), identificar fraudes, mapear la movilidad y hábitos de consumo de las personas, saber qué cliente piensa irse con tu competencia o piensa comprar un producto (incluso antes de que él mismo lo sepa), en otras palabras, adelantarse al futuro. De éstos, sólo tenemos a algunos extranjeros, los que trabajan principalmente en los gigantes tecnológicos (Empresas con cientos de millones de clientes: Google, Facebook, Amazon, Apple, etc.) En este mundo, aparte de saber sobre Hadoop. Hive, Spark, y un laaaargo etc, es necesario conocer machine learning, algoritmos estadísticos de predicción, y principalmente, cómo usar lenguajes de programación multi-entorno (como Python, Java o Scala) para implementar estos algoritmos y modelar los datos en procesamiento distribuido. Vale decir, en el mismo servidor en el que se han almacenado y no armar una gigantesca tabla de datos que se haga inmanejable.
Me gustaMe gusta
Luis, estoy de acuerdo contigo. Que existe una confusión en el sector de la definición de Big Data, y según sea la fuente lo orienta a su entorno, llamando todo Big Data.
Me gustaMe gusta