Conoce el mundo de la Ciencia de Datos

Una buena implementación de un modelo de analítica deberá tener como premisa que los números no son aburridos, por el contrario, se trata de contar una historia a partir de los datos. 
 

 

En el mundo de la Ciencia de Datos hablamos de big data, business intelligence, estadística, machine learning y otros conceptos técnicos que cada día surgen con el avance de la tecnología. Aunque las herramientas llegan con soluciones, muchas personas no van más allá y las perciben como complejas.

Por ello, los profesionales en este campo tenemos un gran reto: que los clientes no vean esta materia como una ciencia incomprensible o lejana, sino por el contrario, tratar de incorporarla a perfiles “no numéricos”, al entendimiento y disfrute del análisis de datos. Una buena implementación de un modelo de analítica debería tener como premisa que los números no son aburridos.

Esto puede parecer una reflexión vacía en un grupo de negocios inteligentes, pero en realidad, consiste en generar conciencia para que las compañías no solo se limiten a transformar datos en información, sino en estrategias para resolver un problema o mejorar un proceso.

A lo que se suma, muchas personas se convencieron de que los resultados numéricos no pueden ser atractivos. La generación de nuestros resultados debería ser bajo el concepto de contar una historia a partir de los datos.

Para saber más lee: Ciencia de datos: no es compleja ni lejana

Nuestros usuarios finales, no esperan aprender de terminologías complejas, ni conceptos técnicos, esperan resultados maravillosos, soluciones a sus dolores y oportunidades anticipadas de negocio.

En este análisis conocerás qué es y para qué sirve la Ciencia de Datos; las cinco V de Big data: volumen, variedad, velocidad,  veracidad y valor; así como el uso de métricas digitales y de la data para conocer el comportamiento de los usuarios.

Índice 


¿Qué es Ciencia de Datos?

Es la recolección de varios conocimientos o capacidades al rededor de poder entender y resolver un problema. Esta ciencia se encarga de recolectar información, unificarla y hacer uso de ella para resolver hipótesis.

Esto se logra con soporte estadístico, por ejemplo, alrededor del entendimiento del usuario, aplicando metodologías de segmentación como RFM o algoritmos de machine learning, que anticipan el futuro del comportamiento que tendrán los usuarios. Existen algoritmos para cada necesidad que se encuentra, es un tema muy académico, soportado en matemáticas y estadística.

Hay otro componente de Ingeniería de Sistemas para automatizar procesos y lograr que la información y los resultados lleguen en el momento que se necesitan y no sea un desgaste de un equipo de trabajo que  muela y muela  datos para que los resultados lleguen tarde, cuando no se pueda tomar ninguna acción al respecto.

La Ciencia de Datos recoge, por ejemplo, una investigación de usuario, bases de datos o información que se encuentra en internet en sitios del Dane, la Cámara de Comercio y Supersociedades, entre otros (en el caso de Colombia).

Esta es una tendencia, pero no se trata de entregar los resultados en función  de estadísticas, con relaciones o fórmulas sino hablar de una realidad a partir de la data y el procesamiento que le damos para resolver una necesidad.

¿Quieres saber más del análisis de datos?, aquí te lo explicamos con un estudio del sistema pensional colombiano

Lo que debe saber de big data

Para entender qué es Big data conoce las 5 V que la caracterizan:

cinco V de Big data

Esta gráfica no puede ser tomada de manera textual. Antes de asimilarla, hay que  reflexionar sobre las siguientes preguntas:

  • ¿Con qué velocidad necesito la obtención de la información?
  • ¿Cuánto es mucho volumen de datos?
  • ¿Cuál es el valor de la información que pretendo analizar?
  • ¿Cómo garantizo la veracidad de la información?
  • ¿Cuándo cumplo con la variedad?

Es importante pensar en las dos primeras porque impactan directamente los costos del proyecto, lo cual es un punto crítico al momento de implementar, pues muchas veces elegimos las opciones más costosas sin realmente necesitarlas.

¿Con qué velocidad necesito la obtención de la información?

bigdata

Muchas veces, las personas confunden velocidad con modelos en línea. Esto hace la solución más compleja en desarrollo (tiempo) y más costosa en herramienta. El concepto de velocidad debe estar asociado a cuánto tiempo hemos ganado en la automatización de los procesos.

Este tipo de proyectos debe tener objetivos claros y unas necesidades que resolver desde el inicio. Si un proceso (informe) antes demoraba cinco días en la obtención del datos (extracción de información, construcción de resultados y presentación), pero con el modelo de big data el tiempo se redujo a dos horas, podemos decir que cumplimos con el rubro de velocidad en el proyecto.

Si quieres saber más, te recomendamos leer: Big Data, mercadeo digital y políticas de privacidad de datos

¿Cuánto es mucho volumen de datos?

Otro punto sobre el cual se toman decisiones apresuradas es en la implementación de infraestructuras tecnológicas demasiado grandes y costosas para la necesidad que se planteó en el proyecto.

En el Forum Analytics 2018, realizado en la Universidad de los Andes, se concluyó que la programación tradicional (modelos relacionales) hace que consideremos soluciones tecnológicas muy sobredimensionadas. Pero herramientas como Anatella, de timi, o Modeler, de IBM, ofrecen soluciones excelentes para proyectos de big data con una sola licencia y una memoria de dos teras de almacenamiento.

Estos tipos de soluciones pueden perfectamente procesar hasta 500 millones de registros en un lapso de dos a tres minutos (lo que es un muy buen tiempo de procesamiento) y, adicional a esto, la herramienta, que es muy fácil de manejar, permite que un usuario final que no sepa de programación implemente modelos predictivos, de segmentación y en general obtenga información de manera muy sencilla y automatizada.

Primero debemos entender muy bien la necesidad para implementar no solo modelos efectivos, sino también costo-eficientes, teniendo en cuenta que los datos deben ser interpretados según su contexto.

Quieres saber más de este tema, te recomendamos este artículo: ¿Qué debemos tener en cuenta para implementar modelos de big data?

¿Cuándo implementar big data?

Si una empresa siente la necesidad de implementar big data en sus procesos y unidades, inmediatamente asocia las soluciones con modelos en línea y altos volúmenes de procesamiento de datos, pero esto no es del todo cierto.

Muchas organizaciones perciben la urgencia de incorporar big data en sus procesos solo por estar en la tendencia, pero de una forma apresurada, si no hay un mapeo, hay riesgo de malinterpretar datos.

Las marcas se emocionan al creer que con la implementación de big data, tendrán acceso a las bases de datos de los usuarios. Sin embargo, la realidad de hoy es que empresas como Google, y en general las redes sociales, solo entregan información agrupada con algoritmos que muchas veces no se conocen.

Cuando se mira el término big data a grandes rasgos, se entiende como la capacidad de almacenar y procesar, a velocidades extraordinarias, grandes volúmenes de datos. En este primer punto, el concepto genera emoción porque se piensa en compañías como Google o Facebook, que cumplen con esa teoría.

Sin embargo, en este aspecto vale la pena preguntarse si nuestro “core” de negocio en realidad tiene la necesidad de capturar tanta información y a velocidades tan altas, o si ya fue capaz de capturar una cantidad mínima de información, integrarla y procesarla a velocidades admisibles.

La pregunta más importante sería si ya hemos logrado analizarla y convertirla en información valiosa para la toma de decisiones. Así que, antes de emocionarse con este concepto de toda la información y de forma rápida, analicemos primero las necesidades de la empresa y lo que ha hecho antes con los datos disponibles.

La invitación es a preguntarse para qué queremos implementar big data y a que se dimensione el alcance del proyecto y la inversión en él.

Las métricas digitales

Las métricas son otro tipo de data que dicen cómo está el desempeño de los activos digitales de la marca: un portal, una App o una red social. Detalla cuántas personas entran al sitio, cuántas le dan clic a un contenido, mediciones que permiten saber cómo está la eficiencia de nuestras acciones, qué debemos mejorar, dónde estamos cometiendo errores para corregirlos y nos revelan oportunidades para la estrategia online.

Las métricas nos permite hacer comparaciones y analizar el comportamiento de los usuarios y la efectividad de nuestra estrategia digital. Si no se hacen estas mediciones no sabremos en qué estamos acertando y en qué fallando.

Usa los datos para conocer a tus usuarios

algoritmo

Las empresas deben buscar nuevas formas de aprovechar la información que los usuarios generan en su tránsito por un sitio web, para entender su comportamiento con el objetivo de diseñar estrategias digitales más personalizadas.

Conoce dos alternativas de análisis de datos que nos brindan un conocimiento más profundo de lo que ocurre con los usuarios en internet, pero para que sean fáciles de hacer y aplicar de la mejor manera, es necesario contar con una adecuada estructura de la información.

Lee el análisis completo: Usa los datos para conocer el comportamiento de tus usuarios

Venta cruzada

Imaginemos que se nos acabaron los huevos para el desayuno del día siguiente; por esto nos debemos desplazar hasta el mercado más cercano para adquirir una nueva cantidad del producto.

Ahora bien, a la hora de la compra, existe una alta probabilidad de que, además de los huevos, decidamos llevar queso, chocolate, mantequilla y pan, los cuales son acompañantes habituales del huevo durante la primera comida del día.

Pues bien, esta relación entre este conjunto de productos hace referencia a lo que en economía se conoce como productos complementarios, es decir, cuando se adquiere uno, es frecuente que se adquieran más.

Otros ejemplos pueden ser traje de baño y bloqueador, así como leche y cereal. Es por ello, que una buena estrategia para incrementar las ventas es ofrecer el producto complementario cuando el usuario adquiere uno de los dos, es decir, ofrecer la leche cuando se compra el cereal.

Esto se aplica en diversos campos de la economía, y no solamente en productos físicos sino también en productos de carácter digital (contenido educativo, musical, etc.) o una combinación entre ambas modalidades.

Análisis de cohortes

informacion

Al igual que en el caso de una venta cruzada, es necesario contar con una base de datos con unas variables mínimas: identificador único por usuario, fecha de registro o suscripción en nuestro sitio web y fecha de compra a lo largo de varios meses.

Consideremos el caso donde se quiere conocer cómo es el comportamiento, mes a mes, de los usuarios que se suscriben en nuestro sitio web con respecto a las ventas.

Para explicarlo mejor, imaginemos que en el mes de enero de este año se registraron 300 usuarios en nuestro portal. Entonces queremos identificar, de ese total, cuántos realizaron al menos una compra cada meses, es decir, cuántos compraron al menos un producto en febrero, cuántos en marzo, y así sucesivamente.

Lo anterior se conoce como análisis o estudio de cohorte, con el cual identificamos la frecuencia de una determinada acción a través del tiempo. En nuestro caso, buscamos conocer el ciclo de vida, definido en compras de los usuarios que se registraron en el portal en determinado mes.

Es así que, a partir de los datos que brindan nuestros sitios web se pueden accionar estrategias que busquen entender mejor al usuario, y por tanto, emplear las más acertadas.

Ventajas de Ciencia de Datos

La implementación de la Ciencia de Datos disminuye la subjetividad en la toma de decisiones, estas no serán basadas en creencias, suposiciones o gustos personales sino en datos reales e interpretativos, que se analizan en el momento exacto.

Los números son hechos y no tienen discusión, con ello, dejamos de hablar de generalidades. Muchas veces, las marcas tienen claro quiénes son sus clientes, por ejemplo, que la mayoría son mujeres entre los 25 y 35 años. ¿Pero qué pasa con el resto de los públicos? Tener caracterizada la gran masa no implica desatender las otras. Precisamente, se trata de entender todo el universo de los usuarios, que cada uno tiene una necesidad diferente, entonces tratamos de buscar micronichos y microsegmentos, que nos permita tratarlos y mejorar.

La experiencia de datos, al final, es entender que la interacción de una persona X es diferente a la de una Y, la idea es esa, que comuniquen distinto y que las marcas los traten diferente: eso lo permite la data.

Usar Ciencia de Datos es estar adelante de la competencia y ofrecer una mejor experiencia de usuario, sin tomar decisiones desde la subjetividad y sin dar tiros al aire, al contrario, podrá ser asertivo y tendrá una mejor estrategia.

La ciencia de Datos siempre será necesaria, pero bajo una metodología consciente, entendiendo cuál es la necesidad, saber qué queremos resolver, y a partir de eso, determinar qué tan grande o pequeño es el despliegue de big data, métricas o cualquier fuente alrededor de la Ciencia de Datos.

Conoce los datos de tu empresa

Hace muchos años se dice que los activos más importantes de una empresa son las bases de datos, aunque las empresas son conscientes de eso, no los analizan, no los conocen a profundidad ni los usan.

Las empresas deben saber cómo están sus bases de datos, hacer exploraciones básicas con unas fórmulas estadísticas y encontrar conocimientos a partir de la data, más que cumplir con un proyecto de inversión tecnológico grande, todo se va escalando en el tiempo.

Muchas veces, la solución no tiene que ser una inversión gigantesca, por eso es importante entender el negocio. En el medio la gente está confundida, cree que big data es comprar una herramienta para que muela un montón de datos gigantescos y ese no es el deber ser, quieren comprar una herramienta que maneje teradata, pero no tiene tantos datos, no saben ni siquiera qué datos tienen.

No se trata solo de un tema estático y genérico, cada dato se mueve distinto en cada contexto, por ello, hay que entender el negocio, planear y saber que los datos también tienen estrategia, no puede ser tomado como un listado o un catálogo de metodologías y algoritmos.

Nuevo llamado a la acción