Saturday, May 30, 2026
HomeBusinessWhy news publishers are blocking AI from accessing internet archives

Why news publishers are blocking AI from accessing internet archives


Environ 245 agences de presse mondiales dans neuf pays tentent de bloquer les trackers Internet Archive. Il s’agit de robots logiciels automatisés qui capturent, affichent et archivent le contenu des pages Web sur l’interface publique d’Internet Archive, Wayback Machine.


PUBLICITÉ


PUBLICITÉ

Les Archives hébergent plus d’un milliard de pages Web remontant à 1996, ce qui en fait l’une des plus grandes ressources collectives d’informations publiques au monde. Cela inclut des articles antérieurs provenant de grands organismes de presse tels que CNN, le New York Times, The Guardian et USA Today.

Ces pages Web sont utilisées à diverses fins, par exemple comme sources primaires pour les historiens ou pour tester les modifications après publication.

Plusieurs agences de presse font pression pour bloquer les trackers, car les sociétés d’IA utilisent le contenu des archives pour former des modèles de langage étendus (LLM) sans offrir de paiement équitable ni obtenir d’autorisation.

Plus de 20 grands organismes de presse bloquent déjà ia_archiverbot, le principal robot d’exploration Web utilisé par Internet Archive pour Wayback Machine, selon une analyse réalisée par la société de détection d’IA Originality AI.

Cependant, au moins un des quatre robots d’exploration des archives est bloqué par 241 sites d’information mondiaux. Une grande partie de ceux-ci sites bloqués appartient à USA Today Co, le plus grand éditeur de journaux aux États-Unis. Cela signifie que des centaines de publications locales ont été pratiquement effacées des archives historiques.

Les risques liés à l’utilisation de contenus d’archives pour entraîner l’IA

Le contenu d’actualités boursières fournit des quantités massives de textes et d’images de haute qualité pour une formation à grande échelle. Modèles d’IA dans une écriture plus humaine. Ceci est disponible via une interface URL et API, qui permet à différents logiciels de communiquer entre eux et de demander des données, agissant comme un pont entre les systèmes.

Cela permet aux entreprises d’IA d’accéder encore plus facilement aux données archivées et de former des modèles.

Un autre avantage est que le contenu d’Internet Archive est déjà structuré, attribué et daté.

Une grande partie des données Internet Archive ont déjà été trouvées dans des ensembles de données clés pour la formation en IA. Il s’agit cependant d’une faiblesse majeure pour les agences de presse, qui poursuivent déjà en justice des sociétés d’IA comme Perplexité et OpenAI pour d’éventuelles violations du droit d’auteur.

“Le problème est que le contenu du Times sur Internet Archive est utilisé par des sociétés d’intelligence artificielle en violation de la loi sur le droit d’auteur pour nous concurrencer directement”, a déclaré Graham James, porte-parole du New York Times, cité par The Next Web.

“Le Times investit d’énormes ressources dans la production d’un journalisme original, et ce travail ne devrait pas être utilisé sans notre permission.”

D’autres organisations, comme The Guardian, ont adopté une approche plus conservatrice en limitant, plutôt qu’en bloquant complètement, l’accès aux archives.

Internet Archive affirme qu’il s’agit de « dommages collatéraux »

Le directeur de Wayback Machine, Mark Graham, a fait valoir qu’il s’agissait simplement de « dommages collatéraux » et que les véritables coupables étaient les sociétés d’intelligence artificielle qui accèdent au contenu du passé via les interfaces d’archives.

Cependant, les Archives ont pris leurs propres mesures pour limiter cela. Cela inclut d’empêcher les téléchargements volumineux de certains éléments du site et de limiter l’extraction automatisée dans certains cas.

Graham a souligné que les archives constituent une méthode clé de préservation. Sans cela, les articles non archivés pourraient être modifiés sans autorisation ni responsabilité. Cela peut aller de la modification ou de la suppression de citations, à la correction d’erreurs ou à la redirection de déclarations et de déclarations officielles.

Ces changements sont actuellement suivis par Wayback Machine.

Cela a conduit certaines agences de presse à tenter de travailler avec Internet Archive pour trouver des compromis acceptables ou des solutions de contournement impliquant de limiter l’accès plutôt que de le bloquer.

De même, l’association de défense des droits numériques Fight for the Future a également lancé une pétition, déjà signée par 100 journalistes actuels, pour protester contre ce blocage. Cela est particulièrement vrai à une époque où les archives publiques et l’histoire sont de plus en plus remises en question.

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments