Consejos para evitar fugas de datos basadas en scraping

  • Actualidad

El robo de datos sufrido por LinkedIn no deriva de una brecha de seguridad sino del uso de técnicas de scraping, una técnica utilizada mediante programas de software para extraer información de sitios web. Repasamos, de la mano expertos en seguridad y protección de datos de Paradigma Digital, las medidas a tomar para no ser víctimas de un hackeo masivo que utilice este método.

Recomendados: 

Protección avanzada de datos y continuidad de negocio con Nutanix y Veeam Webinar 

Transacciones electrónicas europeas: cumpliendo con eIDAS Webinar

Los datos de más de dos millones de perfiles de LinkedIn se han puesto a la venta en un popular foro de ciberdelincuentes y esto sería solo la prueba del ciberdelincuente que muestra que tiene un archivo de mayor tamaño, con la información de más de 500 millones de usuarios de la red social profesional.

Esto robo de datos no está causado por una brecha de seguridad, sino por el uso de técnicas de scraping que, como explican los expertos de Paradigma Digital, se basan en extraer información de sitios web mediante programas de software que, habitualmente, simulan la navegación de un humano en la World Wide Web, ya sea utilizando el protocolo HTTP manualmente o incrustando un navegador en una aplicación.

Para José Couto, responsable de seguridad de la firma, “el centro del problema y la solución para evitar este tipo de problemas en un futuro está en aplicar medidas de seguridad ya en el inicio es decir en los desarrollos, como cifrar los datos, limitar la cantidad de información que devuelven las API o fijar alertas para detectar intentos de scrapping entre otros. Estos controles deben establecerse a nivel de API y de bases de datos, para evitar volcados directos de la información”.

Claves para evitar fugas de datos como esta
-- Cifrar los datos: es necesario guardar la información cifrada, en el caso de las contraseñas, no hay que tener copia, sino resúmenes digitales bien configurados.

-- Limitar la cantidad de información que devuelven las API: tanto limitar las direcciones desde las que se permite interactuar con las API que las gestionan como limitar el número de entradas simultáneas con las que operan estas API, salvo excepciones bien controladas para labores de mantenimiento.

-- Fijar alertas para detectar intentos de scraping: establecer alertas para los accesos que intenten superar estos límites, con posibles bloqueos automáticos.

-- Proteger las copias de seguridad: contienen información en bruto por lo que siempre deben estar cifradas, no basta con activar la casilla de almacenamiento cifrado de los proveedores de servicios en la nube, que protegen frente al robo físico de los dispositivos. Y deben estar almacenadas en lugares no accesibles al público, lo que debe comprobarse mediante monitorización.

-- Protección de las claves de cifrado: su acceso debe de estar limitado y monitorizado, con alertas en caso de detectar intentos de acceso anómalos.

-- Usar medidas como captchas para que la creación de nuevas cuentas sea difícil de automatizar: para limitar la posibilidad de hacer scraping sobre los datos públicos, es muy recomendable que no sólo que la información pública de los usuarios que esté accesible de forma anónima sea muy limitada sino que la creación de nuevas cuentas sea difícil de automatizar usando por ejemplo captchas, así como limitar el número de accesos simultáneos a una misma cuenta.

-- Implementar medidas de detección y bloqueo de intentos de scraping: mediante análisis de las consultas realizadas a las API o a las bases de datos con sistemas de Machine Learning, para detectar patrones abusivos.

Además, como explica Carmen Troncoso, responsable de protección de datos de la compañía, habría que “asegurar la legitimidad de las bases de datos”. En este sentido, desde el punto de vista legal, tanto la recopilación de datos, como su almacenamiento, cruce de datos y posterior venta o alquiler, son acciones que constituyen un tratamiento de datos personales. Y por ello resultan de aplicación los requisitos del Reglamento General de Protección de Datos (GDPR, en sus siglas inglesas). No contar con una base legitimadora para el tratamiento de los datos es con diferencia la causa de infracción más común de las sanciones impuestas por la AEPD.

Lo que se consigue con ello es cumplir con las exigencias normativas relativas a las acciones comerciales: recogida de consentimientos, bases legitimadoras para los envíos, facilitar el ejercicio de los derechos de oposición de clientes, promociones realizadas por terceros, uso de las listas Robinson, falta de control en los tratamientos, etc, entre ellas, no haber acreditado que se disponga de consentimiento expreso para recibir ofertas comerciales a través de comunicaciones electrónicas (correo electrónico o SMS) por los receptores de las mismas.

En cualquiera de los casos, según esta empresa, “es extremadamente importante contar con un registro de actividades que nos permita investigar cualquier incidente y poder mejorar los controles de seguridad. No podemos olvidarnos de registrar las operaciones que realiza el personal propio, y también que el personal, especialmente el de atención al público, que tiene acceso a las herramientas de administración, debe estar formado sobre ingeniería social y phishing”.

En cuanto a las medidas que pueden aplicar los usuarios, lo más importante es no reutilizar la misma contraseña en sitios distintos, ni utilizar patrones fácilmente reconocibles, habilitar el doble factor de autenticación siempre que esté disponible (evitando que sea por SMS, que es poco seguro) y usar un buen gestor de contraseñas.