Anthropic ne voulait pas que nous sachions qu’ils détruisaient des millions de livres pour alimenter leurs logiciels.
Les entreprises qui créent des logiciels d’apprentissage automatique et génératifs ne se contentent pas d’arracher des livres de manière métaphorique. Dans au moins un cas, ils déchiquetent littéralement des millions de livres physiques pour alimenter leurs chatbots. Comme l’a découvert le mois dernier Le Washington Postle géant de l’intelligence artificielle Anthropic a lancé un vaste programme appelé Projet Panama dans le cadre duquel il a dépensé des dizaines de millions de dollars pour récupérer des livres usagés, qu’il a ensuite découpés, numérisés et réduits en pâte. Les données numérisées supprimées des livres ont ensuite été utilisées pour entraîner leur logiciel.
Anthropic est déjà sur la sellette pour avoir été surpris en train de pirater des millions de copies numériques de livres. Mais la décision équivoque du juge dans cette affaire de piratage a créé une faille, selon les avocats d’Anthropic. Si les livres formant l’IA étaient utilisés de manière « transformatrice », a statué le juge, c’était légalement honnête, semblable à l’utilisation de livres pour enseigner aux enfants ou à la façon dont vous pouvez faire ce que vous voulez avec un livre une fois que vous l’avez acheté – un précédent juridique qui autorise les librairies d’occasion, par exemple.
Le projet Panama a profité de cette faille. Anthropic a dépensé beaucoup d’argent dans des bibliothèques, des magasins d’occasion en ligne et a utilisé des librairies comme The Strand pour construire une immense bibliothèque – la PosteL’article de comprend des images d’immenses entrepôts remplis de livres. Anthropic a ensuite embauché « un fournisseur expérimenté de services de numérisation de documents pour convertir de 500 000 à deux millions de livres sur une période de six mois », selon la proposition envoyée aux fournisseurs.
Le processus de numérisation de ces livres les a finalement détruits, comme le rapporte Futurisme:
D’après les documents du procès, Anthropic a littéralement transformé l’arrachage de livres en une forme d’art. Elle a utilisé une « machine de découpe hydraulique » pour « couper proprement » les millions de livres obtenus auprès des détaillants de livres d’occasion, puis a numérisé les pages « sur des scanners de production à grande vitesse et de haute qualité ». Ensuite, une entreprise de recyclage serait chargée de récupérer les volumes éviscérés, car vous ne voudriez pas gaspiller, après tout.
Selon la posteDans la couverture médiatique de , ce programme a déclenché un signal d’alarme pour certains au sein d’Anthropic, qui savaient que déchirer des livres pour alimenter un modèle d’IA donnait littéralement vie aux critiques de ces entreprises. Ce qui, je suppose, est à leur honneur. Cela montre également qu’ils sont conscients qu’ils sont en train de perdre la bataille des relations publiques pour donner à ces machines à slop un look cool. Voir aussi, le PDG de Microsoft veut que nous arrêtions de considérer l’IA comme une « slop » et commençons à la considérer comme des « vélos pour l’esprit ». Pas aussi accrocheur.
« Le Projet Panama est notre effort pour numériser de manière destructive tous les livres du monde », lit-on dans un document de planification interne récemment dévoilé, selon le Poste. « Nous ne voulons pas que l’on sache que nous travaillons là-dessus. »
Je déteste être d’accord avec un spécialiste de l’IA, mais vous avez raison : essayer de « scanner de manière destructive tous les livres du monde » est une mauvaise idée ! C’est toujours agréable de voir une lueur de honte ces jours-ci, mais comme d’habitude avec les excès technologiques, c’est trop peu, trop tard.
