Un número creciente de periódicos locales en Estados Unidos está bloqueando los bots de Internet Archive para evitar que sus artículos sean archivados en la Wayback Machine, según reveló el Nieman Journalism Lab de la Universidad de Harvard.
La razón: el temor a que empresas de inteligencia artificial utilicen esos archivos para entrenar sus modelos sin pagar licencias.
Entre los grupos editoriales que han implementado estas restricciones se encuentran McClatchy, Advance Local, Tribune Publishing y MediaNews Group, todos propietarios de decenas de diarios regionales.
En total, 342 de los 382 sitios identificados en el estudio son medios locales, lo que representa más del 93% de la muestra.
Un conflicto que escala
El reporte de una investigación de enero menciona que ya había identificado 241 sitios bloqueando a Internet Archive. En apenas cinco meses, la cifra creció en 141 sitios adicionales, lo que refleja una tendencia acelerada entre los editores de prensa escrita.
Advance Local, propietario de medios como The Cleveland Plain Dealer y The Oregonian, confirmó que comenzó a bloquear el archivo desde agosto de 2025, de forma preventiva y sin evidencia de que su contenido hubiera sido extraído por IA a través de la Wayback Machine.
“Esto es parte de un esfuerzo más amplio para proteger el valor de nuestro trabajo publicado del uso injusto por parte de terceros”, explicó Christine deWit, vocera de Advance Local.
El dilema del archivado digital
El Internet Archive es considerado una de las herramientas más valiosas para la preservación de la web. Periodistas, historiadores e investigadores de todo el mundo dependen de la Wayback Machine para acceder a contenido que de otra forma se perdería cuando los sitios cierran o migran de plataforma.
“Bloquear los rastreadores de Internet Archive amenaza una de las formas más efectivas que tenemos para capturar y almacenar contenido noticioso a largo plazo”, advirtió Edward McCain, bibliotecario de periodismo de la Universidad de Missouri.
El conflicto se intensifica en un contexto donde más de 1,000 artículos han desaparecido de sitios locales durante cambios de sistemas de gestión de contenido. En 2022, una década después del cierre del semanario The Hook en Charlottesville, su sitio completo con más de 22,000 historias simplemente desapareció de la web.
El factor IA
Detrás de los bloqueos está el temor a que empresas de inteligencia artificial utilicen los archivos sin permiso. Aunque ningún editor ha confirmado que una empresa de IA haya extraído su contenido desde la Wayback Machine, la posibilidad ha llevado a medidas preventivas.


