Big Data se escribe con V

Los conjuntos-de-datos-grandes (sí, la verdad es que ‘Big Data‘ es un término más sonoro y corto) podrían ser definidos según tres dimensiones principales que en conunto constituyen las 3V que seguro que has visto en cualquier artículo sobre este tema. Así que hoy vamos a ver por qué Big Data se escribe con V.

BigData_V

 

En su día, Doug Laney en un paper de 2001 que merece la pena leer estableció un modelo para explicar este tipo de datos y su problemática. Como os digo, en él sintetizaba las tres dimensiones de este tipo de conjunto de datos:

  • V de Volumen: Una de las dimensiones principales que definen este tipo de datos es que son muchos, muchísimos, una verdadera cantidad ingente de datos. A medida que la tecnología ha permitido digitalizar la realidad, por ejemplo con el comercio electrónico, el número de transacciones ha aumentado y con ellas el número de datos que se han podido grabar, coleccionar y almacenar. Cuando hablamos de Big Data nos referimos a tener que analizar cantidades de datos ingentes. Y como paso previo imprescindible, hay que almacenarlos. Ahí surgen las primeras cuestiones: ¿cómo deben ser los medios de almacenamiento? ¿Se podrían utilizar técnicas estadísticas para buscar modelos y “ahorrar” espacio? ¿Podríamos buscar estrategias de selección de datos? ¿Sería posible purgar los datos –contra la tendencia de almacenar en un estilo Diógenes? Y yendo un paso más allá, ¿por qué no hacer un outsourcing de nuestros datos para que sean otros quienes los almacenen y gestionen?
  • V de Velocidad: Cuando comencé a leer artículos sobre este tema, en este apartado siempre me figuraba que se referían a velocidad de creación. Es decir, en un segundo (o milisegundo) se generan tantísimas transacciones, tantos datos que además del volumen que se genera, éste lo hace a una velocidad de vértigo. Pero aunque eso es así, realmente esta “V” se refiere también a algo mucho más interesante aún: es necesario gestionar los datos con velocidad. Es decir, no basta con tener la infraestructura para analizar datos pero tardar en hacerlo un año, o dos… No, los sistemas Big Data necesitan hacerlo con una velocidad suficiente. Si en un milisegundo se recogen 100 parámetros que sirven para estimar cómo corregir una trayectoria, el cálculo debe ser inmediato. Tenerlo en cinco minutos puede que no sirva de nada en absoluto… Es decir, incluso un conjunto de datos relativamente pequeño pero que requiera una velocidad de procesamiento inusitado cae dentro del saco del Big Data.
  • V de Variedad: Y aquí llega la “V” que resultará muy familiar, por ejemplo a cualquiera relacionado con el mundo de las tecnologías de la salud: la variedad de datos, tanto en el formato de su presentación, como en los orígenes de los que provienen. Datos estructurados, diferentes sintaxis, vocabularios controlados, documentos XML, videos, imágenes radiológicas, texto libre, y todo aquello que sea susceptible de ser almacenado. Esta dimensión del Big Data conecta realmente con el corazón de la propia comunicación que late en la tecnología. Siempre que haya una posibilidad de transmitir algo, podrá haber variedad de formatos, y eso se convertirá en una dimensión (o en un gran quebradero de cabeza).

Estas serían las tres V del Big Data del modelo propuesto por Doug Laney aunque en los últimos tiempos hay quienes han añadido una cuarta de la que también hablaremos próximamente y no exenta de controversia que se refiere a la Veracidad de los datos.

Image: ‘Phoenix V2’ – Found on flickrcc.net


Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *