¿Está su red lista para big data?
NoticiasLo "grande" en big data es suficiente para hacer que la mayoría de los arquitectos de TI se preocupen por la posibilidad de una mayor carga en una infraestructura ya gravada. A medida que las empresas pasan de la experimentación al despliegue amplio de big data y otras aplicaciones agrupadas, la red que sustenta todo el asunto se vuelve más crítica y más cargada que nunca..
Los líderes de TI deben formularse una pregunta simple: ¿Está mi red preparada para big data??
Big data es grande, pero no como piensas
Cuando la mayoría de la gente piensa en big data, se imaginan aplicaciones masivas que abarcan miles de nodos en apoyo de las compañías más grandes de escala web. Si bien es cierto que estas implementaciones sí existen (en particular, Yahoo! tiene más de 40,000 nodos Hadoop), la implementación de grandes volúmenes de datos de la empresa promedio está en el rango de 100 a 150 nodos..
Entonces, si la implementación promedio es relativamente pequeña, la escala es incluso un problema?
Para la mayoría de las empresas, la escala no se trata de una o dos aplicaciones de big data. Hoy en día, las empresas que ya están experimentando en este campo están simplemente sumergiendo sus dedos en el agua proverbial de big data. Las implementaciones son pequeñas porque son más un experimento que una aplicación crítica para el negocio. Sin embargo, si estas incursiones iniciales en el espacio producen éxito comercial, espere que se agreguen otras aplicaciones rápidamente.
El curso probable que tomará es la proliferación de pequeñas aplicaciones de big data, cada una de las cuales consume unos pocos cientos de nodos. Si bien la mayoría de las compañías nunca experimentarán la complejidad de una implementación de 10,000 nodos, comenzarán a experimentar la carga agregada de unas pocas docenas de aplicaciones más pequeñas.
El rol del ancho de banda para big data.
Toda la premisa de Big Data es dividir grandes cargas de trabajo en trozos más pequeños y más consumibles. Para hacer esto, los datos deben replicarse en los servidores de un clúster. Como la mayoría de las aplicaciones de big data hacen tres copias de cada información (dos en el rack, una en otro rack para la resiliencia), la carga en la red se hace muy rápida.
Tradicionalmente, el manejo de la carga en una red se realiza con una tecnología llamada Equal Cost Multi-Pathing (ECMP). Esencialmente, ECMP distribuye flujos a través de un pequeño número de rutas de igual costo en la red. Por lo tanto, aunque puede haber muchas maneras de ir del punto A al punto B, ECMP seleccionará la ruta más corta y el balance de carga entre ellos. Para grandes flujos de datos, esto puede crear problemas. Cuando envía una gran cantidad de tráfico a través de las mismas rutas, puede obtener congestión en la red. La mayoría de las aplicaciones de datos grandes se ocupan de la congestión simplemente reenviando la solicitud. Pero, en tiempos de congestión, las retransmisiones solo exacerban el problema.
La tendencia más actual en las redes es una tecnología llamada redes definidas por software (SDN). El principio arquitectónico central de SDN es la separación del control y el reenvío. Al crear un punto de control central, SDN puede mirar de forma inteligente la red en su totalidad. Esto permite reenviar el tráfico de forma inteligente a lo largo de rutas más largas pero menos congestionadas. Podría ser que la adopción de múltiples rutas sin igual costo sea una de las claves para escalar con éxito la infraestructura para big data.
Más que ancho de banda
Si bien SDN puede ayudar a aliviar los problemas de ancho de banda al utilizar más de las rutas disponibles en la red, escalar big data no solo se trata de ancho de banda. Si el crecimiento de big data en los centros de datos empresariales involucra múltiples aplicaciones, eso significa que la mayor preocupación es la forma en que la red puede dar cuenta de diferentes aplicaciones con diferentes requisitos..
La mayoría de las redes de hoy en día están diseñadas para ser independientes de las aplicaciones que se ejecutan en ellas. Eso significa que la red está diseñada para ser de propósito general, tratando a todas las aplicaciones aproximadamente de la misma manera.
Pero no todas las aplicaciones de big data son iguales. Algunos son muy anchos de banda (como con las copias de seguridad de datos). Otros son más sensibles a la latencia (como los motores de recomendación en AdTech). Otros son sensibles a la fluctuación o pérdida. Y aún otros tienen requisitos estrictos de cumplimiento (PCI o HIPAA). El punto aquí es que es imposible que una sola red trate estas aplicaciones de manera diferente si esa red no es al menos algo consciente de la aplicación.
SDN tiene el potencial de admitir los requisitos de la aplicación a través de una expresión de política abstracta. En otras palabras, los usuarios pueden definir una aplicación y atribuirle las cosas que son más importantes. Si el ancho de banda es importante, el controlador puede crear dinámicamente enlaces de alta capacidad cuando sea necesario. Si la latencia es importante, el controlador puede ayudar a garantizar que siempre se use la ruta más corta posible. Si el aislamiento del tráfico por razones de cumplimiento es crítico, el controlador puede crear túneles.
El futuro de la TI empresarial está cambiando dramáticamente, liderado por aplicaciones como Big Data. Afortunadamente, los avances tecnológicos en la infraestructura subyacente deberían ofrecer alivio a las empresas que desean aprovechar. Sin embargo, los arquitectos de TI deberán trazar sus cursos de infraestructura de manera cuidadosa y deliberada para garantizar que la infraestructura subyacente se cruce con las aplicaciones que desean ejecutar..
- Michael Bushong, vicepresidente de marketing de Plexxi