Las empresas, ante el uso de la IA generativa: estos son los datos sensibles que más se comparten

Actualidad

13 OCT 2023

Según los datos de Netskope Threat Labs, por cada 10.000 usuarios empresariales, una organización experimenta aproximadamente 183 incidentes de datos confidenciales que se publican en ChatGPT al mes. La firma de ciberseguridad ha reunido las pautas para adoptar un correcto enfoque de uso de la IA generativa.

Una nueva investigación de Netskope revela que por cada 10.000 usuarios empresariales, una organización experimenta aproximadamente 183 incidentes de datos confidenciales que se publican en ChatGPT al mes. El código fuente supone la mayor parte de los datos confidenciales expuestos.

Los hallazgos son parte del Informe de Nube y Amenazas: Aplicaciones de IA en la Empresa , el primer análisis integral de Netskope Threat Labs sobre el uso de IA en la empresa y los riesgos que representa para la seguridad, en un momento en el que el uso de aplicaciones de IA generativa está creciendo rápidamente.

Solo en los últimos dos meses hay el número de usuarios ha crecido un 22,5% más, lo que aumenta las posibilidades de que los usuarios expongan datos confidenciales. La firma señala que las organizaciones con 10 000 usuarios o más emplean una media de cinco aplicaciones de IA al día, y ChatGPT tiene más de 8 veces más usuarios activos diarios que cualquier otra aplicación de IA generativa. Con la tasa de crecimiento actual, estima que la cantidad de usuarios que acceden a las aplicaciones de IA se duplique en los próximos siete meses.

En los últimos dos meses, la aplicación de inteligencia artificial de más rápido crecimiento fue Google Bard, que actualmente agrega usuarios a una tasa del 7,1% por semana, en comparación con el 1,6% de ChatGPT. Al ritmo actual, Google Bard no está preparado para alcanzar a ChatGPT en más de un año, aunque se espera que el espacio de aplicaciones de IA generativa evolucione significativamente antes de esa fecha, ya que hay más aplicaciones en desarrollo.

Datos confidenciales que se publican y exponen
Según Netskope, el código fuente se publica en ChatGPT más que cualquier otro tipo de datos confidenciales, a una tasa de 158 incidentes por cada 10.000 usuarios por mes, pero también se comparten datos de sectores regulados, como el financiero o el de la salud, información de identificación personal (PII, sen su acrónimo inglés) y datos de propiedad intelectual que excluye el código fuente y, lo que es más preocupante, contraseñas y claves, generalmente integradas en el código fuente.

Como explica el director de investigación de amenazas de la firma, Ray Canzanese, es inevitable que algunos usuarios carguen código fuente patentado o texto que contenga datos confidenciales en herramientas de inteligencia artificial que prometen ayudar con la programación o la escritura y, "por tanto, es imperativo que las organizaciones coloquen controles en torno a la IA para evitar fugas de datos confidenciales. El objetivo final es contar con controles que permitan a los usuarios aprovechar los beneficios de la IA, agilizar las operaciones y mejorar la eficiencia, a la vez que se mitigan los riesgos. Los controles más efectivos que vemos son una combinación de DLP y entrenamiento interactivo de los usuarios".

Para que las organizaciones permitan la adopción segura de aplicaciones de IA, deben centrar su enfoque en la identificación de aplicaciones permitidas e implementar controles que permitan a los usuarios utilizarlas y extraer su máximo potencial, al tiempo que protegen a la organización de los riesgos. Esta aproximación debe incluir el filtrado de dominios, el filtrado de URL y la inspección de contenido para protegerse contra los ataques.

Además, para emplear las herramientas de IA de manera segura se debe bloquear el acceso a aplicaciones que no tengan ningún propósito comercial legítimo o que representen un riesgo desproporcionado para la organización; formar a los usuarios e informarmarles de la política de la empresa en esta materia, y utilizar tecnologías modernas de prevención de pérdida de datos (DLP) para detectar publicaciones que contengan información potencialmente confidencial.