Estadística y Big Data en el año 2013

Rubén Martínez (Stratio)

Big Data es la extracción de valor de datos heterogéneos -a menudo no estructurados- en aplicaciones interactivas o instantáneas. Las tecnologías que lo hacen posible surgieron en el seno de quienes hoy son los gigantes de Internet: Google, Facebook, Twitter, LinkedIn y otros. Entonces, como hoy, gestionar las cantidades ingentes de datos por parte de sus usuarios y ecosistemas era un reto formidable.

Fueron esos pioneros del World Wide Web quienes pusieron en marcha una revolución que hoy entra en el mundo corporativo. Y lo hace por la puerta grande: Big Data atrae la atención de consejos de administración que “saben” que tienen que aprovechar el fenómeno. Los sectores en los que Big Data está irrumpiendo con fuerza son finanzas y seguros, marketing, media, comercio electrónico y muchos otros.

¿Para qué sirve exactamente Big Data?

Los casos de usos de aplicaciones reales escasean. Las empresas que ya explotan Big Data lo hacen para reducir costes o generar nuevos líneas de negocio. Muchas desconocen sin embargo sus propias cifras de impacto. Ni siquiera los mayores proveedores de soluciones de software de Big Data como MapR o Cloudera suelen poder compartir números reales de beneficio de sus clientes. Esto es así en ocasiones porque las nuevas ventajas competitivas son estratégicamente sensibles.

¿Es sólo una moda?

Si el impacto de Big Data no es aún suficientemente visible, público o calculable ¿es Big Data sólo “business intelligence on steroids”? Rotundamente, no. Los tecnólogos que nos trabajamos con todo tipo de casos de uso de Big Data comprobamos cotidianamente que problemas que antes no eran resolubles o ni siquiera planteables ahora sí se consiguen resolver. Big Data está aquí para quedarse. Puede que su nombre cambie a “ciencia de los datos” u otras denominaciones pero la tecnologías que la soportan están en plena ebullición.

¿Quién “hace” Big Data realmente?

Estados Unidos lleva la delantera a Europa en tecnologías y software de Big Data. Hasta el año pasado, las tecnologías de procesado de lotes de Hadoop y MapReduce por una parte y en bases de datos no relacionales NoSQL por otra eran complejas de entender, implementar y explotar. Muy pocos especialistas eran capaces de dar sentido y poner en producción arquitecturas de Big Data. La razón es que los proyectos de desarrollo de software, hoy muchos de Open Source, fueron concebidos de manera independiente y para aplicaciones dispares. En suma, las mejores innovaciones de Big Data ni siquiera estaban diseñadas para trabajar juntas.

Big Data en el año 2013

Las buenas noticias de este año 2013 es que a la capacidad de Hadoop y a la potencia de NoSQL, se unieron innovaciones que permiten por primera vez aplicaciones de procesado en lotes, interactivas o real-time. En la conferencia Big Data Spain de noviembre de este año se presentaron propuestas como HDP 2.0 de Hortonworks o Gondor de Stratio. Se trata de plataformas y herramientas que consiguen aunar aplicaciones que hasta la fecha se antojaban incompatibles: procesado en lote sin puntos únicos de vulnerabilidad para usos instantáneos o interactivos.

¿Cómo cambiará la Estadística gracias a Big Data?

Big Data es en definitiva el Santo Grial del analista que debe aportar evidencias o predicciones que soporten las decisiones que tiene que tomar su línea de negocio, su proyecto o su empresa, sin apenas tiempo para la toma y procesado de datos.

Carlos Gil Bellosta, de Datanalytics, es un estadístico conocido por sus aportaciones al proyecto R. Carlos lanzó una idea recientemente: ya no es necesario intentar modelizar cualquier fenómeno mediante distribuciones estadísticas que lo expliquen. La potencia de Big Data nos permite tratar datasets tal cual, directamente. Podemos así evitar modelizar descartando “outliers”.

Los outliers son los nuevos nichos

En marketing, por ejemplo, es un despilfarro descartar outliers. Coinciden a menudo con las cuentas o los clientes de mayor valor o ARPU de todo el dataset. O el de menos. En cualquier caso, queremos saber quienes son. Ahora tenemos la capacidad de adaptar nuestras ofertas a cada uno de ellos sin incrementar costes ni perder coste de oportunidad.

¿Qué necesitamos más, un informático que sabe de estadística o un estadístico que sabe de informática?

Esa es una pregunta que todos nos hacemos ahora. La respuesta es que según que etapa de implementación de Big Data, un informático familiarizado con estadística puede tomar decisiones que pueden ayudar más tarde a un estadístico en las fases finales de análisis y visualización.

En cualquier caso, el científico de datos quizás sea el perfil de profesional más demandado en el año 2014. Independientemente de sus capacidades de programar software o de utilizar matemáticas y estadísticas, el científico de datos deberá ser capaz de hacer las preguntas adecuadas a sus datos, sin prejuicios. La curiosidad intelectual que distingue a los mejores analistas seguirá siendo el talento más preciado.

Galeria | Aquesta entrada s'ha publicat en Estadística i TIC i etiquetada amb , , , , , , , , . Afegiu a les adreces d'interès l'enllaç permanent.