Aprovechar al máximo los datos de la experimentación a la acción.
NoticiasDondequiera que mire, no hay escasez de estadísticas o análisis que apunten a la explosión global en el crecimiento de los datos. Según CSC Insights, se espera que la producción de datos sea 44 veces mayor en 2020 que en 2009, con volúmenes de datos de negocios que se duplican globalmente cada 1,2 años..
Sin embargo, el problema para aprovechar al máximo este activo cada vez más valioso no es el gran volumen de datos, sino la complejidad de obtener el mayor valor de ellos. La mayor parte de este crecimiento proviene de nuevas formas de datos, como el contenido de las redes sociales, imágenes, video y datos de sensores, que a menudo se clasifican genéricamente como datos 'no estructurados', porque no siguen un formato ordenado de filas y columnas que se usa normalmente para almacenar y analizar datos.
Además, el valor óptimo de estas fuentes complejas solo se puede obtener a partir de la aplicación de nuevos tipos de análisis desconocidos..
Tiempos de reacción
No es sorprendente que las compañías estén reaccionando a estos cambios dramáticos para aprovechar esta tremenda oportunidad de mejora empresarial. Como resultado, el big data se está moviendo de manera decisiva a la agenda principal de la sala de juntas.
Sin embargo, dada la complejidad del tema, las acciones tomadas son a menudo aleatorias, sin una dirección o estrategia clara, lo que resulta en la pérdida de oportunidades y una lenta realización de los beneficios potenciales..
Una encuesta reciente realizada por Teradata a empresas europeas encontró que casi la mitad (47%) ya está ejecutando proyectos de big data o planea hacerlo dentro de los próximos dos años. Y el impulso está creciendo, incluso a través del apoyo gubernamental, por ejemplo, la Comisión Europea está financiando un Foro Público Privado de Big Data (BIG) diseñado para involucrar a todas las partes interesadas en el avance del debate sobre big data..
En los Estados Unidos, las empresas más grandes han avanzado aún más rápidamente. En 2009, solo hubo un pequeño número de proyectos de big data, con un valor de solo $ 100 millones, y en la actualidad, más del 90 por ciento de las compañías de Fortune 500 tienen algún tipo de iniciativa de big data en marcha..
Dado que el crecimiento en los datos está impulsado predominantemente por nuevas fuentes de datos 'no estructurados', también hay un impacto significativo en los métodos empleados para almacenar y analizar este activo. Esto se refleja en el creciente interés en los nuevos marcos de almacenamiento, especialmente en soluciones de código abierto, como Hadoop.
Hadoop - más allá de la experimentación
Como primer paso en Big Data, muchas empresas se han embarcado en una exploración de Hadoop, atraída por el concepto de descargar software gratuito de código abierto en servidores de productos básicos de bajo costo para mejorar su capacidad de analizar datos de manera efectiva dentro de la empresa..
Sin embargo, este enfoque no está exento de riesgos. Primero, comenzar con la solución es mirar por el extremo equivocado del telescopio. En su lugar, la organización debe considerar primero los problemas comerciales que deben abordarse y luego esbozar una respuesta adecuada.
En segundo lugar, cualquier desarrollo debe estar sujeto a un análisis riguroso y continuo de si está funcionando y es adecuado para su propósito como la mejor solución al problema..
Dicho esto, Hadoop ofrece una serie de beneficios únicos para el negocio. Como un gran sistema de archivos distribuidos, le permite a la organización adquirir y almacenar grandes volúmenes de datos semiestructurados y no estructurados de manera rentable. Como resultado, se percibe cada vez más como una plataforma de almacenamiento de datos a largo plazo altamente eficiente..
Hadoop es también una forma eficiente de procesar archivos de forma secuencial. Esto es especialmente valioso para tareas de procesamiento previo, como preparar registros web para cargar en un almacén de datos.
Sin embargo, como una herramienta de proceso por lotes tradicional, Hadoop es menos eficiente que un almacén de datos tradicional en el manejo de consultas que requieren datos en diferentes archivos, y solo puede admitir una pequeña cantidad de consultas de usuarios en un momento dado.
Entonces, ¿dónde nos deja eso? A las empresas que implementan Hadoop les resulta rápido y fácil almacenar volúmenes masivos de diferentes tipos de datos y realizar gran parte de la manipulación y preparación de datos iniciales requeridas. Sin embargo, reconocen rápidamente las limitaciones de la ejecución de análisis en este entorno; la verdad es que no hay una única solución para la gran variedad de análisis que se necesitan hoy en día..