Why news publishers are blocking AI from accessing internet archives

May 1, 2026

10

Environ 245 agences de presse mondiales dans neuf pays tentent de bloquer les trackers Internet Archive. Il s’agit de robots logiciels automatisés qui capturent, affichent et archivent le contenu des pages Web sur l’interface publique d’Internet Archive, Wayback Machine.

Les Archives hébergent plus d’un milliard de pages Web remontant à 1996, ce qui en fait l’une des plus grandes ressources collectives d’informations publiques au monde. Cela inclut des articles antérieurs provenant de grands organismes de presse tels que CNN, le New York Times, The Guardian et USA Today.

Ces pages Web sont utilisées à diverses fins, par exemple comme sources primaires pour les historiens ou pour tester les modifications après publication.

Plusieurs agences de presse font pression pour bloquer les trackers, car les sociétés d’IA utilisent le contenu des archives pour former des modèles de langage étendus (LLM) sans offrir de paiement équitable ni obtenir d’autorisation.

Plus de 20 grands organismes de presse bloquent déjà ia_archiverbot, le principal robot d’exploration Web utilisé par Internet Archive pour Wayback Machine, selon une analyse réalisée par la société de détection d’IA Originality AI.

Cependant, au moins un des quatre robots d’exploration des archives est bloqué par 241 sites d’information mondiaux. Une grande partie de ceux-ci sites bloqués appartient à USA Today Co, le plus grand éditeur de journaux aux États-Unis. Cela signifie que des centaines de publications locales ont été pratiquement effacées des archives historiques.

Les risques liés à l’utilisation de contenus d’archives pour entraîner l’IA

Le contenu d’actualités boursières fournit des quantités massives de textes et d’images de haute qualité pour une formation à grande échelle. Modèles d’IA dans une écriture plus humaine. Ceci est disponible via une interface URL et API, qui permet à différents logiciels de communiquer entre eux et de demander des données, agissant comme un pont entre les systèmes.

Cela permet aux entreprises d’IA d’accéder encore plus facilement aux données archivées et de former des modèles.

Un autre avantage est que le contenu d’Internet Archive est déjà structuré, attribué et daté.

Une grande partie des données Internet Archive ont déjà été trouvées dans des ensembles de données clés pour la formation en IA. Il s’agit cependant d’une faiblesse majeure pour les agences de presse, qui poursuivent déjà en justice des sociétés d’IA comme Perplexité et OpenAI pour d’éventuelles violations du droit d’auteur.

“Le problème est que le contenu du Times sur Internet Archive est utilisé par des sociétés d’intelligence artificielle en violation de la loi sur le droit d’auteur pour nous concurrencer directement”, a déclaré Graham James, porte-parole du New York Times, cité par The Next Web.

“Le Times investit d’énormes ressources dans la production d’un journalisme original, et ce travail ne devrait pas être utilisé sans notre permission.”

D’autres organisations, comme The Guardian, ont adopté une approche plus conservatrice en limitant, plutôt qu’en bloquant complètement, l’accès aux archives.

Internet Archive affirme qu’il s’agit de « dommages collatéraux »

Le directeur de Wayback Machine, Mark Graham, a fait valoir qu’il s’agissait simplement de « dommages collatéraux » et que les véritables coupables étaient les sociétés d’intelligence artificielle qui accèdent au contenu du passé via les interfaces d’archives.

Cependant, les Archives ont pris leurs propres mesures pour limiter cela. Cela inclut d’empêcher les téléchargements volumineux de certains éléments du site et de limiter l’extraction automatisée dans certains cas.

Graham a souligné que les archives constituent une méthode clé de préservation. Sans cela, les articles non archivés pourraient être modifiés sans autorisation ni responsabilité. Cela peut aller de la modification ou de la suppression de citations, à la correction d’erreurs ou à la redirection de déclarations et de déclarations officielles.

Ces changements sont actuellement suivis par Wayback Machine.

Cela a conduit certaines agences de presse à tenter de travailler avec Internet Archive pour trouver des compromis acceptables ou des solutions de contournement impliquant de limiter l’accès plutôt que de le bloquer.

De même, l’association de défense des droits numériques Fight for the Future a également lancé une pétition, déjà signée par 100 journalistes actuels, pour protester contre ce blocage. Cela est particulièrement vrai à une époque où les archives publiques et l’histoire sont de plus en plus remises en question.

Why news publishers are blocking AI from accessing internet archives

Les risques liés à l’utilisation de contenus d’archives pour entraîner l’IA

Internet Archive affirme qu’il s’agit de « dommages collatéraux »

Trade turnover in Eurasian Economic Union exceeds €80 billion last year

Paul McCartney – ‘The Boys Of Dungeon Lane’: Euronews Culture’s review and verdict

Cashaw! US spelling bee champ Shrey Parikh wins the title in a rare spell-off

LEAVE A REPLY Cancel reply

Most Popular

Podcast | An unusual heatwave with a sinister twist

‘Romanian drone incursion is no mistake, it’s a provocation,’ Polish official tells Euronews

AI-generated child abuse material surges in Europe, data shows

The German village that made itself immune to the Hormuz shock

Recent Comments

EDITOR PICKS

Podcast | An unusual heatwave with a sinister twist

‘Romanian drone incursion is no mistake, it’s a provocation,’ Polish official tells Euronews

AI-generated child abuse material surges in Europe, data shows

POPULAR POSTS

Podcast | An unusual heatwave with a sinister twist

‘Romanian drone incursion is no mistake, it’s a provocation,’ Polish official tells Euronews

AI-generated child abuse material surges in Europe, data shows

POPULAR CATEGORY

ABOUT US

FOLLOW US