Cloudflare lanza una función para impedir que los bots de empresas de IA ejecuten ‘web scraping’ en webs de sus clientes
Cloudflare ha lanzado una nueva función gratuita en sus servicios de Internet con la que permite bloquear de forma automática los bots de empresas de Inteligencia Artificial (IA) y que emplean para ejecutar ‘web scraping’, a fin de evitar que recopilen datos de los sitios web de sus clientes.
Como consecuencia de los avances de la IA generativa, cada vez hay más demanda de contenido que se utiliza para entrenar modelos o ejecutar inferencias. Así, uno de los métodos que utilizan las empresas para obtener datos nuevos es el ‘web scraping’ o raspado de datos en Internet.
En concreto, se trata de un proceso legal en el que un ‘software’ extrae el contenido HTML de sitios web para filtrar su información y almacenarla, recopilando así los datos necesarios para entrenar modelos de IA. Aunque algunas compañías desarrolladoras de herramientas impulsadas por esta tecnología identifican los bots de raspado web que utilizan para obtener datos de internet, otras compañías no son tan transparentes.
En este sentido, la firma estadounidense Cloudflare ha trasladado que sus clientes no quieren que los bots de IA visiten sus sitios web, especialmente, “aquellos que lo hacen de manera deshonesta”. De cara a ofrecer una solución a esta cuestión, la compañía enfocada a servicios de seguridad en Internet ha agregado una nueva función gratuita a sus servicios con la que bloqueará de forma automática todos los bots de IA que identifique en los sitios web, de manera que no puedan llevar a cabo el comentado raspado de datos.
Así lo ha dado a conocer Cloudflare en un comunicado en su web, en el que ha trasladado su intención de preservar una Internet segura para los creadores de contenido, evitando que los datos de los sitios web de sus clientes puedan ser recopilados y utilizados para entrenar IA. Tal y como ha matizado, se trata de una herramienta que funciona “con un solo clic” y que está disponible para todos los clientes de Cloudflare, incluidos los que dispongan del nivel gratuito de su servicio, como su aplicación 1.1.1.1 o su plataforma SASE & SSE.
Para habilitarla, bastará con entrar en el apartado de ‘Bots’ dentro del menú de ‘Seguridad’ en su servicio. Tras ello, los usuarios deberán activar la opción ‘Raspadores y rastreadores de IA’, con lo que se comenzará a bloquear a los bots para que no raspen el contenido para aplicaciones de IA como el entrenamiento de modelos. Igualmente, Cloudflare ha explicado que esta función se irá actualizando de forma automática para añadir nuevas huellas de bots infractores que hayan sido identificados como “rastreadores web de gran alcance para el entrenamiento de modelos”.