Los datos son fundamentales para cada tecnología que tocamos y, a medida que avanzamos en nuestra vida diaria, consumimos y generamos datos a un ritmo increíble. Incluso algo tan simple como pagar el almuerzo en una cafetería con una tarjeta de débito genera datos.

Recientemente, los volúmenes de datos que estamos produciendo se han disparado, por lo que ya no estamos hablando de datos que se administran fácilmente en una hoja de cálculo, sino de datos masivos, lo que impulsa la necesidad de sistemas sofisticados de inteligencia..

Los evangelistas de big data han estado promocionando los beneficios de recopilar más y más datos, y citan que el tamaño es bueno y que cuanto más grande es mejor. Esta ola de datos fue diseñada para hacernos más inteligentes, permitirnos tomar decisiones casi en tiempo real e incluso predecir comportamientos futuros.

Sin embargo, estas afirmaciones seductoras sobre big data ocultan el hecho de que, si se recopilan dentro de la infraestructura actual en la mayoría de las empresas, es más probable que el diluvio de datos haga que una empresa sea más lenta, menos receptiva y, a largo plazo, menos "inteligente"..

Por qué está pasando esto?

Esto se debe a que el procesamiento de terabytes de información en los sistemas heredados que ya están gravados con impuestos en los que se ejecutan muchas empresas lleva más tiempo a medida que aumentan los volúmenes de datos..

Como resultado, las organizaciones de datos terminan utilizando para informes críticos para el negocio, o para probar nuevas aplicaciones, no son en tiempo real, son antiguas y solo están envejeciendo, ya que los siguientes tipos de requisitos de TI adicionales agravan el problema:

Migración de datos: Las empresas a menudo ejecutan una gran cantidad de aplicaciones empresariales (aquellas en la industria bancaria pueden contarlas por miles) y tienen procesos complejos para completar los datos antes de que lleguen al software de inteligencia empresarial para su análisis..

Los datos deben pasar de las aplicaciones a los almacenes de datos operativos antes de que terminen en un almacén de datos. Generalmente hay una ventana de tiempo limitada en la que este proceso debe completarse, y cuando los volúmenes de datos eran más pequeños, fue una tarea bastante manejable..

Si uno de estos proyectos se desarrolla simultáneamente con los proyectos de BI, es posible que de repente, en lugar de tener datos de un día en el entorno de informes, los analistas terminen con datos que en algunos casos tenían semanas de antigüedad. Uno de nuestros clientes calculó el costo de esta espera para los datos antiguos en el 50% de su inversión en BI.

Replicación de la base de datos: Muchas organizaciones grandes necesitan administrar múltiples instancias de bases de datos individuales. Estas bases de datos se utilizan para una multitud de procesos de negocios, que incluyen pruebas y desarrollo, control de calidad (QA), capacitación y respaldo y recuperación ante desastres..

Como resultado, en promedio, cada base de datos se replica de ocho a diez veces. Estas réplicas actúan como un ancla de mar en cualquier sistema de inteligencia de negocios; se necesita una gran cantidad de tiempo y esfuerzo para analizar los datos replicados, lo que produce un arrastre en todo el proceso.

Enmascaramiento de datos: Las nuevas regulaciones de la UE pronto requerirán que cualquier organización que se ocupe de los datos del cliente enmascare los datos confidenciales que recopilan, sin importar si se utilizan para desarrollo, pruebas y control de calidad, o si simplemente se almacenan y monitorean con fines de inteligencia comercial..

Si bien el proceso de enmascaramiento de datos es sencillo, las organizaciones a menudo tienen problemas con la entrega de datos. Como las organizaciones deben enmascarar no solo un conjunto de datos, sino cada copia realizada, estos proyectos se acumulan a una velocidad rápida.

Un montón de compromisos

Entonces, ¿cuál es la solución a este problema de envejecimiento de datos? Tradicionalmente, en la mayoría de los casos implica muchos compromisos. Por ejemplo, algunas empresas intentan solucionar este problema eligiendo trabajar con subconjuntos de datos más pequeños.

Otras organizaciones priorizan qué datos realmente necesitan ser en tiempo real y cuáles se pueden entregar semanalmente, mensualmente o trimestralmente. Sin embargo, al alejarse de las arquitecturas heredadas y priorizar la integridad de sus datos, muchas organizaciones están descubriendo que pueden evitar tomar esas medidas comprometedoras..

Para priorizar los datos, las primeras organizaciones deben hacer que esos datos sean ágiles. Las técnicas de virtualización ahora se aplican a pilas de aplicaciones completas, lo que permite que incluso los conjuntos de datos más expansivos ocupen una fracción del espacio, lo que significa que los datos ahora se pueden entregar en cualquier lugar dentro de la organización en cuestión de minutos..

Las organizaciones que han puesto sus datos en primer lugar al implementar la tecnología de virtualización han visto que los tiempos de procesamiento se reducen drásticamente de semanas a unas pocas horas, lo que significa que los datos no tienen la oportunidad de volverse obsoletos como antes. Uno de nuestros clientes pudo mejorar el rendimiento hasta tal punto que los datos llegaron en minutos en lugar de días..

La mayoría de los líderes de TI ya entienden la agilidad y los beneficios de movilidad que la virtualización puede proporcionar con sus servidores. Sin embargo, al ampliar las posibilidades de virtualización a la pila de aplicaciones, las organizaciones pueden comenzar a lograr los tipos de conocimiento e inteligencia empresarial que Big Data siempre ha prometido, al mismo tiempo que pueden desarrollar, probar y desplegar nuevas aplicaciones de manera eficiente..

Los datos de envejecimiento nos hacen más lentos, no más inteligentes; pero con la infraestructura adecuada en su lugar, la gran cantidad de datos (la mía es más grande que la tuya) podría finalmente comenzar a adquirir algún significado real.

  • Iain Chidgey tiene más de 20 años de experiencia en la industria de TI y actualmente es vicepresidente de EMEA y gerente general de Delphix, un proveedor global líder de plataformas de gestión de datos ágiles para empresas de todo el mundo..