¿Qué debemos tener en cuenta para implementar modelos de big data?

Mauricio López Vanegas
4 de mayo de 2018
2 min. de lectura
Como hacer una presentación exitosa

La velocidad no implica modelos en línea y el volumen no necesita spark. Aquí te contamos por qué.  

Cuando una empresa siente la necesidad de implementar modelos de big data en sus procesos y unidades, inmediatamente asocia las soluciones con modelos en línea y altos volúmenes de procesamiento de datos, pero esto no es del todo cierto.

Para entenderlo mejor, repasemos las 5 uvés del big data: volumen, velocidad, variedad, veracidad y valor.

Las cinco V del bigdata volumen, variedad, veracidad, valor y velocidad.

Sin embargo, esta gráfica no puede ser tomada de manera textual. Antes de asimilarla, deberíamos reflexionar sobre las siguientes preguntas:

  • ¿Con qué velocidad necesito la obtención de la información?
  • ¿Cuánto es mucho volumen de datos?
  • ¿Cuál es el valor de la información que pretendo analizar?
  • ¿Cómo garantizo la veracidad de la información?
  • ¿Cuándo cumplo con la variedad?

En esta entrada, nos centraremos en las dos primeras. Es importante pensar en ellas porque impactan directamente en los costos del proyecto, lo cual es un punto crítico al momento de implementar, pues muchas veces elegimos las opciones más costosas sin realmente necesitarlas. Así que empecemos:

¿Con qué velocidad necesito la obtención de la información?

Como lo mencionaba anteriormente, muchas veces confundimos velocidad con modelos en línea. Esto hace la solución más compleja en términos de desarrollo (tiempo) y más costosa en términos de herramienta. Debemos entender que el concepto de velocidad debe estar asociado a cuánto tiempo hemos ganado en la automatización de los procesos.

Lo anterior es muy sencillo de determinar. Este tipo de proyectos debe tener objetivos claros y unas necesidades que resolver desde el inicio del proyecto. Por lo anterior, si un proceso (informe) antes demoraba cinco días en la obtención del datos (extracción de información, construcción de resultados y presentación), pero con el modelo de big data el tiempo se redujo a dos horas, podemos decir que cumplimos con el rubro de velocidad en el proyecto. Por eso, los modelos de big data no son modelos en línea, sino modelos que hacen ganar tiempo en la obtención de la información.

¿Cuánto es mucho volumen de datos?

Otro punto sobre el cual se toman decisiones apresuradas es en la implementación de infraestructuras tecnológicas demasiado grandes y costosas para la necesidad que se planteó en el proyecto.

Hoy las empresas optan de manera acelerada por comprar almacenamiento en la nube. Aunque es cierto que es más económico que los modelos antiguos que implicaban grandes inversiones en servidores, sigue siendo costoso si en realidad no se necesita ese despliegue.

Quieres saber  más, lee  Conoce el mundo de la Ciencia de Datos

Lo anterior no solo está asociado a la infraestructura, sino a los pensamientos sobre los cuales se han desarrollado los modelos de procesamientos de datos.

En el Forum Analytics 2018, realizado en la Universidad de los Andes, entendimos que la programación tradicional (modelos relacionales) hace que consideremos soluciones tecnológicas muy sobredimensionadas. Pero herramientas como Anatella, de timi, o Modeler, de IBM, ofrecen soluciones excelentes para proyectos de big data con una sola licencia y una memoria de dos teras de almacenamiento.

Estos tipos de soluciones pueden perfectamente procesar hasta 500 millones de registros en un lapso de dos a tres minutos (lo que es un muy buen tiempo de procesamiento) y, adicional a esto, la herramienta, que es muy fácil de manejar, permite que un usuario final que no sepa de programación implemente modelos predictivos, de segmentación y en general obtenga información de manera muy sencilla y automatizada.

De acuerdo con lo anterior, es importante concluir que primero debemos entender muy bien la necesidad para implementar no solo modelos efectivos, sino también costo-eficientes, teniendo en cuenta que los datos deben ser interpretados según su contexto.

Nuevo llamado a la acción

Suscríbete