Este caso es similar al de «Social media (Redes sociales y CRM)» (ver «CRM y redes sociales. Caso de uso» en este mismo blog). En un trabajo anterior hace un par de años hice un proyecto de consultaría para un cliente sobre «Big Data«. El plan era compartir con el cliente una visión innovadora de Big Data, para luego ayudar al cliente a definir su estrategia en este campo. Por supuesto, el objetivo era «colocar» al cliente un par de proyectos de innovación (pruebas de concepto), luego seguir con unas cuantas soluciones (plataformas hardware y software) y seguir generando proyectos de implantación, integración, operación, etc.
El proyecto no avanzó mucho pero me permitió desarrollar una visión personal sobre Big Data, de lo que ahora todo el mundo habla.
Apuntes sobre Big Data Analytics
Personalmente, me gusta llamar a esto «Big Data Analytics» porque la existencia del concepto Big Data por sí mismo no supone nada si no se le aplica un componente activo (un verbo o una actividad, algo que se mueva). «Analytics» me parece bien como primera aproximación.
Para mí, las principales características paradigmáticas de «Big Data Analytics» son:
- Datos procedentes de diferentes fuentes. Si la fuente es única estaríamos hablando, simplemente, de una base de datos muy grande. Una característica de Big Data es que hay varias fuentes de datos, que pueden ser organizaciones diferentes o «islas de datos» dentro de una organización. En los operadores telco, por ejemplo, es típico que la información de red (localización, presencia, uso de servicios, etc.) esté separada de la información de tarificación (datos económicos) e, incluso, del CRM (donde están los principales datos demográficos).
- Formatos y estructuras heterogéneas. Aquí hablamos de información que no está toda en bases de datos normalizadas. A veces los proveedores de Big Data (internos a la organización o externos) entregan los datos en ficheros (CSV, XML, etc.) o entregan un API para hacer consultas a sus sistemas o entregan información en bruto que hay que procesar antes de que sirva como datos de entrada.
- Información incompleta. En el sentido de que no se dispone de la misma información para todas las entidades. Dicho de otra manera, todos los registros no tienen información para todos los campos.
- Procesamiento dinámico. El reto del Big Data Analytics es procesar la información de forma «interactiva» (por no decir «en tiempo real´). Para mí no es Big Data Analytics los sistemas de Business Intelligence donde un ejército de consultores trabajan sobre datos del mes pasado para entregar un análisis el mes que viene, por ejemplo.
Por supuesto, Big Data es, de alguna manera, «el mismo perro con otro collar». La historia de la informática es el reto de automatizar y hacer manejable la información existente en el mundo real. De hecho uno de los primeros usos civiles de los ordenadores fue gestionar los datos principales de todos los ciudadanos: el censo. La cuestión ahora es que la capacidad de generar y almacenar información crece exponencialmente y, como siempre, la información más valiosa no está normalizada, procede de fuentes insospechadas y ser el primero en aprovechar esa información otorga una ventaja competitiva incuestionable,
Dicho esto, presento a continuación mi decálogo personal sobre Big Data Analytics:
- As bigger as you can afford. «Tan grande como puedas«. Agregar toda la información disponible y construir mecanismos de análisis que recorran toda la información. De este a oeste, de norte a sur: toda la información de todos los departamentos de todas las divisiones (de todos los países, por supuesto). Y de arriba a abajo, hasta el más mínimo detalle (si, por ejemplo, existe información de consumo por hora hay que usar esta información en lugar de usar el consumo total mensual).
- Segments of one. «Segmentación de individuos». El segmento debe tener, como máximo, un elemento. ¿para qué sirve tener información detallada de nuestros clientes si luego los agrupamos en sólo cinco categorías diferentes? Ejemplo: si sabemos que Marisa Merlo Martínez lleva gastados este mes 340€ en su línea móvil, ¿qué sentido tiene meterla en el saco de «usuarios de ARPU alto»?
- Automate actions as reponse. «Acciones automáticas como respuesta». Después de automatizar la adquisición y las consultas hay que ejecutar acciones también de forma automática. Ni reportes, ni workflows, ni indicadores de colores. El motor de Big Data Analytics debe lanzar aplicaciones que ejecuten acciones, incluso directamente sobre el usuario.
- Dynamic application profiling. «Ajuste dinámico de aplicaciones«. Las aplicaciones automáticas deben realimentarse con el resultado de sus acciones y adaptar continuamente su estrategia futura en función de los resultados obtenidos.
- Faster than customers. «Adelantarse a las decisiones del cliente». Big Data debe ser capaz de predecir las acciones de los clientes, adelantarse a nuevas contrataciones, cancelaciones, abandonos (churns), upsells, etc. Hay que saber lo que quiere hacer el usuario antes que el propio usuario.
- Data source mashup. «Revuelto de fuentes». Ante fuentes diversas y heterogéneas, hay que construir un «mashup» que presente «hacia arriba» un interfaz simple que puedan usar todas las aplicaciones Big Data para acceder a los datos de forma universal y sencilla.
- Real time. «Tiempo real«. En realidad pocas soluciones IT son tiempo real, pero es importante que la solución Big Data «parezca» funcionar en tiempo real.
- Event based triggers. «Disparos basados en eventos«. Aunque la solución de Big Data soporte información estática, son los eventos los que tienen que desencadenar las acciones. Por ejemplo, es apropiado que cuando un usuario de móvil aterriza en otro país reciba una oferta de roaming de datos de, exactamente, el consumo realizado en los últimos días. Pero no es apropiado despertar a un usuario a las 5 de la mañana para ofrecerle un descuento en factura porque a esa hora se ha terminado el ciclo de facturación del mes anterior.
- Weight data criteria. «Ajuste de pesos«. El peso de los datos depende de su relevancia, especificidad, etc. Datos con poco peso: información demográfica, datos estáticos, información común a muchos grupos, agrupaciones de nivel superior (empresa, familia). Datos con mucho peso: información en tiempo real («dónde estoy, especialmente si no es donde estoy habitualmente»), información individual, cambios en los parámetros de uso del servicio, etc.
- Don’t say your sources. «No reveles tus fuentes«. Si la información es poder, una solución Big Data es una gran ventaja competitiva, pero, a su vez, es fácil de replicar si se dispone de la información y los algoritmos utilizados.
</ Big Data Analytics>