Screen scraping cómo detener las sanguijuelas de datos invisibles de internet
NoticiasLos datos son el activo más valioso de su negocio, por lo que nunca es una buena idea dejar que caiga en manos de los competidores.
Sin embargo, a veces, esto puede ser difícil de prevenir debido a una técnica automatizada conocida como 'raspado de pantalla' que durante años ha proporcionado una forma de extraer datos de las páginas de sitios web para ser indexadas a lo largo del tiempo..
Esto plantea dos problemas principales: en primer lugar, los datos podrían utilizarse para obtener una ventaja comercial, desde la subcotización de precios (en el caso de un sitio web de comparación de precios, por ejemplo) hasta la obtención de información sobre la disponibilidad del producto..
El raspado persistente también puede reducir el rendimiento de un sitio web, lo que le sucedió recientemente a LinkedIn cuando los piratas informáticos utilizaron software automatizado para registrar miles de cuentas falsas en una oferta para extraer y copiar datos de las páginas de perfil de los miembros.
Ashley Stephenson, CEO de Corero Network Security, explica los orígenes detrás del fenómeno, cómo podría estar afectando su negocio en este momento y cómo defenderse de él..
TechRadar Pro: ¿Qué es el raspado de pantalla? ¿Puedes hablarnos sobre algunas de las técnicas y por qué alguien lo haría??
Ashley Stephenson: El raspado de pantalla es un concepto que fue pionero en los primeros programas de emulación de terminal hace décadas. Es un método programático para extraer datos de pantallas que están diseñadas principalmente para ser vistas por humanos.
Básicamente, el programa de captura de pantalla pretende ser un humano y "lee" la pantalla, y recopila los datos interesantes en listas que pueden procesarse automáticamente. El formato más común es el nombre: pares de valores. Por ejemplo, la información extraída de la pantalla de reserva de un sitio de viaje puede parecerse a la siguiente -
Origen: Boston, Destino: Atlanta, Fecha: 10/12/13, Vuelo: DL4431, Precio: $ 650
El raspado de la pantalla ha evolucionado significativamente a lo largo de los años. Se produjo un hito histórico importante cuando se aplicó el concepto de raspado de pantalla a Internet y se inventó el rastreador web..
Los rastreadores web originalmente "leyeron" o rastrearon las páginas de sitios web e indizaron la información para futuras referencias (por ejemplo, búsqueda). Esto dio lugar a la industria de los motores de búsqueda. Hoy en día, los webcrawlers son mucho más sofisticados y los sitios web incluyen información (etiquetas) dedicadas al rastreador y nunca pretenden ser leídas por un humano..
Otro hito posterior en la evolución del raspado de pantalla fue el desarrollo del raspado de pantalla al por menor, tal vez el ejemplo más conocido es la introducción de sitios web de comparación de precios..
Estos sitios emplean programas de captura de pantalla para visitar periódicamente una lista de sitios de venta minorista conocidos para obtener la información más reciente sobre precios y disponibilidad para un conjunto específico de productos o servicios. Esta información luego se almacena en una base de datos y se utiliza para proporcionar vistas comparativas agregadas del panorama del comercio electrónico a los clientes interesados.
En general, las técnicas de raspado de pantalla descritas anteriormente han sido bien recibidas por los operadores de sitios web que desean que sus sitios sean indexados por los motores de búsqueda más importantes, como Google o Bing, al igual que los minoristas electrónicos suelen mostrar sus productos en los sitios de comparación de compras líderes.
eBay introdujo una API en 2004 para combatir el raspado de la pantalla (crédito: homerjoe426)TRP: ¿Ha habido algún desarrollo reciente en el raspado de pantalla competitivo??
COMO: En contraste, en los últimos años, los desarrollos recientes en el raspado de pantalla competitivo no son necesariamente bienvenidos. Para que un sitio sea rastreado por un rastreador del motor de búsqueda está bien si las visitas del rastreador son poco frecuentes.
Para que un sitio sea el objetivo de un comparador de precios, el raspador está bien si la información obtenida se usa de manera justa. Sin embargo, a medida que la cantidad de motores de búsqueda especializados continúa aumentando y la frecuencia de visitas de control de precios se dispara, estas vistas de página automatizadas pueden aumentar a niveles que afectan el funcionamiento previsto del sitio objetivo..
Más específicamente, si el sitio objetivo es víctima de un raspado competitivo, la información obtenida se puede usar para socavar el negocio del propietario del sitio. Por ejemplo, subcotizar precios, vencer las probabilidades, adquirir de forma agresiva entradas para eventos, reservar inventario, etc..