Compañías entrenando sus modelos de IA con Reddit sin permiso
Las compañías de inteligencia artificial (IA) están hambrientas de datos para entrenar sus modelos. Una de las alternativas que más utilizan para saciar este apetito es el web scraping, una técnica que permite extraer y almacenar información pública de páginas web a diestra y siniestra. La mayoría de las veces esta actividad se realiza sin el consentimiento de los creadores o los licenciatarios del contenido, por lo que no existe pago alguno de por medio.
Reddit ha anunciado una medida para frenar el web scraping no deseado. La plataforma, que es el hogar de millones de conversaciones sobre una amplia variedad de temas catalogadas en subreddits, impedirá que compañías no autorizadas puedan utilizar su contenido público. Se trata de un cambio a nivel de backend, específicamente en el protocolo de exclusión del archivo robots.txt, que se pondrá en marcha “en las próximas semanas”.