Comment Meta est-ce que Meta est la main sur les galères numériques avancées pour former son IA?

Comment Meta est-ce que Meta est la main sur les galères numériques avancées pour former son IA?

Le jeudi 20 mars, tous les écrivains que je connais étaient dans une frénésie. Ce matin-là Alex Reisner au atlantique avait publié un article sur Llama 3, le modèle AI de Meta et le nombre étonnant de livres piratés sur lesquels il avait été formé. Le leadership de Meta, contre les conseils de leurs avocats, avait utilisé Libgen, un site de partage de fichiers pirate destinés à rendre les documents académiques plus accessibles dans le monde entier. Avec l'article de Reisner, une barre de recherche pratique où vous pourriez taper votre nom pour voir si Meta avait utilisé l'une de vos écrits pour former ses modèles de langage génératifs.

L'article se poursuit après la publicité
Supprimer les annonces

Quiconque a déjà publié un livre, ou même un journal universitaire, est rapidement entré dans la recherche, et à peu près tous les auteurs publiés traditionnellement que je connais en est sorti à 99,9 pour cent énervé, et peut-être 0,01% validé, c'était un honneur d'être inclus, etc.

Ce n'est pas la première fois que nous, les écrivains, nous tapent avec impatience notre nom dans une barre de recherche. En 2023, Reisner a publié un article qui a placé le nombre de livres qui ont été utilisés pour former l'IA de Meta à 183 000. Cette fois, j'ai senti que 0,01% du désespoir lorsque j'ai tapé mon nom en zéro résultats, mais je me sentais aussi un peu optimiste que des auteurs tels que Sarah Silverman (les comédiens peuvent être des auteurs; L'éventil est très amusant!), Paul Tremblay et Michael Chabon, dont le travail avait en fait été levé, avait déposé des actions en droit d'auteur distinctes qui ont ensuite été consolidées en une seule: Kadrey c. Meta est une recours collective en Californie du Nord qui est toujours en cours.

La semaine dernière, les auteurs Guild ont assuré aux écrivains que si nos livres étaient utilisés par Meta à tout moment pour former leur IA (le dernier reportage de Reisner met le nombre de livres à 7,5 millions), nous sommes automatiquement inclus dans le cas de méta de Kadrey c. Meta. Alors je suppose que nous… attend?

J'ai essayé de comprendre pourquoi ce type de vol est différent, plus invasif. Je n'ai même pas encore reçu de critiques de pré-publication, mais mon travail appartient déjà à Meta.

Mais voici la chose. Quand j'ai fait ma recherche, j'ai trouvé mon livre précédent, et dans le grand schéma des choses qui étaient en hausse les épaules. Il a été publié en 2015 et s'est vendu à environ 100 exemplaires et est maintenant épuisé. Mais ma prochaine collection d'essais ne sera publiée que le 1er juillet, et pourtant, Meta a déjà accédé à la formation de son IA. Les copies avancées des galères numériques sont disponibles légitimement pour la plupart uniquement sur Netgalley et Edelweiss, et ces deux services ont des termes et conditions stricts sur ce que les utilisateurs peuvent faire avec un travail non publié (pas grand-chose!). Comment diable Libgen, et donc Meta (et peut-être aussi Openai) a mis la main sur un travail non encore publié?

L'article se poursuit après la publicité

Supprimer les annonces

J'ai essayé de comprendre pourquoi ce type de vol est différent, plus invasif. Je n'ai même pas encore reçu de critiques de pré-publication, mais mon travail appartient déjà à Meta. C'est là que je retire l'ancienne pépite que la Guild des auteurs a rapporté les résultats d'une enquête en 2022 qui a révélé que le revenu médian des auteurs était inférieur au niveau de la pauvreté. C'est moi! Et beaucoup de mes pairs! Cela m'a fait penser à la façon dont les musiciens sont également attaqués, comment ils ne peuvent plus vivre de leur art.

La dernière fois que j'ai utilisé un site de torrent, c'était à l'époque de la recherche de fichiers sur Napster dans les tout premiers. Je me souviens à quel point c'était passionnant de trouver de la musique, mais à quel point cela est rapidement terrifiant lorsque les utilisateurs individuels ont commencé à être poursuivis par des maisons de disques pour torrent le dernier album de 98 degrés ou autre. Finalement, Napster a été fermé, mais comme le note Liz Pelly dans son nouveau livre Machine d'humeurla frénésie anti-piratrice dans l'industrie musicale a ouvert la voie à des sites de streaming prédateurs comme Spotify pour émerger en créant des alternatives au piratage. Les sites de streaming ont réussi à dévaluer la musique et les artistes qui le font, tout en enrichissant les grandes entreprises et en rendant la découverte plus difficile pour les utilisateurs individuels. Ne laissez pas cela se reproduire.

J'adore l'idée de partager des fichiers comme un outil pour rendre l'écriture plus accessible à ceux qui ne peuvent pas se permettre de l'acheter, en particulier à une époque où les bibliothèques publiques sont confrontées à des menaces existentielles majeures de l'administration Trump. L'idée que Libgen a numérisé les documents académiques pour l'utilisation de personnes qui ne pouvaient autrement pas les atteindre semblent nobles comme l'enfer. Alors, pourquoi Libgen a-t-il également un énorme catalogue de livres, y compris l'accès à des étendues d'œuvres non encore publiées?

Le partage de fichiers en tant qu'outil pour enrichir le déjà obscurément riche et puissant (l'évaluation de Meta est actuellement de 1,56 billion de dollars, ce qui semble être plus que suffisant pour payer des frais de licence) ressemble à la violation ultime des voix des droits d'auteur et des artistes et le pouvoir de la parole écrite en général. La Guilde des auteurs a des conseils sur ce qu'il faut faire si votre travail était dans l'ensemble de données de Libgen, mais il est difficile de ne pas ressentir le désespoir existentiel et beaucoup de rage pendant que nous attendons de voir comment tout cela se déroule. Je crains que, une fois de plus, le travail d'artistes individuels est utilisé et dénigré afin de bénéficier à une classe de personnes qui ne se soucient pas de l'art et ne craignent aucune conséquence.

L'article se poursuit après la publicité

Supprimer les annonces





Maris Kreizman

Maris Kreizman a accueilli le podcast littéraire, La revue Marispendant quatre ans. Ses essais et ses critiques sont apparus dans le New York Times, New York Magazine, The Atlantic, Vanity Fair, Esquire, The New Republicet plus. Sa collection d'essais, Je veux brûler cet endroitest à venir d'Ecco / HarperCollins.



Le jeudi 20 mars, tous les écrivains que je connais étaient dans une frénésie. Ce matin-là Alex Reisner au atlantique avait publié un article sur Llama 3, le modèle AI de Meta et le nombre étonnant de livres piratés sur lesquels il avait été formé. Le leadership de Meta, contre les conseils de leurs avocats, avait utilisé Libgen, un site de partage de fichiers pirate destinés à rendre les documents académiques plus accessibles dans le monde entier. Avec l'article de Reisner, une barre de recherche pratique où vous pourriez taper votre nom pour voir si Meta avait utilisé l'une de vos écrits pour former ses modèles de langage génératifs.

L'article se poursuit après la publicité
Supprimer les annonces

Quiconque a déjà publié un livre, ou même un journal universitaire, est rapidement entré dans la recherche, et à peu près tous les auteurs publiés traditionnellement que je connais en est sorti à 99,9 pour cent énervé, et peut-être 0,01% validé, c'était un honneur d'être inclus, etc.

Ce n'est pas la première fois que nous, les écrivains, nous tapent avec impatience notre nom dans une barre de recherche. En 2023, Reisner a publié un article qui a placé le nombre de livres qui ont été utilisés pour former l'IA de Meta à 183 000. Cette fois, j'ai senti que 0,01% du désespoir lorsque j'ai tapé mon nom en zéro résultats, mais je me sentais aussi un peu optimiste que des auteurs tels que Sarah Silverman (les comédiens peuvent être des auteurs; L'éventil est très amusant!), Paul Tremblay et Michael Chabon, dont le travail avait en fait été levé, avait déposé des actions en droit d'auteur distinctes qui ont ensuite été consolidées en une seule: Kadrey c. Meta est une recours collective en Californie du Nord qui est toujours en cours.

La semaine dernière, les auteurs Guild ont assuré aux écrivains que si nos livres étaient utilisés par Meta à tout moment pour former leur IA (le dernier reportage de Reisner met le nombre de livres à 7,5 millions), nous sommes automatiquement inclus dans le cas de méta de Kadrey c. Meta. Alors je suppose que nous… attend?

J'ai essayé de comprendre pourquoi ce type de vol est différent, plus invasif. Je n'ai même pas encore reçu de critiques de pré-publication, mais mon travail appartient déjà à Meta.

Mais voici la chose. Quand j'ai fait ma recherche, j'ai trouvé mon livre précédent, et dans le grand schéma des choses qui étaient en hausse les épaules. Il a été publié en 2015 et s'est vendu à environ 100 exemplaires et est maintenant épuisé. Mais ma prochaine collection d'essais ne sera publiée que le 1er juillet, et pourtant, Meta a déjà accédé à la formation de son IA. Les copies avancées des galères numériques sont disponibles légitimement pour la plupart uniquement sur Netgalley et Edelweiss, et ces deux services ont des termes et conditions stricts sur ce que les utilisateurs peuvent faire avec un travail non publié (pas grand-chose!). Comment diable Libgen, et donc Meta (et peut-être aussi Openai) a mis la main sur un travail non encore publié?

L'article se poursuit après la publicité

Supprimer les annonces

J'ai essayé de comprendre pourquoi ce type de vol est différent, plus invasif. Je n'ai même pas encore reçu de critiques de pré-publication, mais mon travail appartient déjà à Meta. C'est là que je retire l'ancienne pépite que la Guild des auteurs a rapporté les résultats d'une enquête en 2022 qui a révélé que le revenu médian des auteurs était inférieur au niveau de la pauvreté. C'est moi! Et beaucoup de mes pairs! Cela m'a fait penser à la façon dont les musiciens sont également attaqués, comment ils ne peuvent plus vivre de leur art.

La dernière fois que j'ai utilisé un site de torrent, c'était à l'époque de la recherche de fichiers sur Napster dans les tout premiers. Je me souviens à quel point c'était passionnant de trouver de la musique, mais à quel point cela est rapidement terrifiant lorsque les utilisateurs individuels ont commencé à être poursuivis par des maisons de disques pour torrent le dernier album de 98 degrés ou autre. Finalement, Napster a été fermé, mais comme le note Liz Pelly dans son nouveau livre Machine d'humeurla frénésie anti-piratrice dans l'industrie musicale a ouvert la voie à des sites de streaming prédateurs comme Spotify pour émerger en créant des alternatives au piratage. Les sites de streaming ont réussi à dévaluer la musique et les artistes qui le font, tout en enrichissant les grandes entreprises et en rendant la découverte plus difficile pour les utilisateurs individuels. Ne laissez pas cela se reproduire.

J'adore l'idée de partager des fichiers comme un outil pour rendre l'écriture plus accessible à ceux qui ne peuvent pas se permettre de l'acheter, en particulier à une époque où les bibliothèques publiques sont confrontées à des menaces existentielles majeures de l'administration Trump. L'idée que Libgen a numérisé les documents académiques pour l'utilisation de personnes qui ne pouvaient autrement pas les atteindre semblent nobles comme l'enfer. Alors, pourquoi Libgen a-t-il également un énorme catalogue de livres, y compris l'accès à des étendues d'œuvres non encore publiées?

Le partage de fichiers en tant qu'outil pour enrichir le déjà obscurément riche et puissant (l'évaluation de Meta est actuellement de 1,56 billion de dollars, ce qui semble être plus que suffisant pour payer des frais de licence) ressemble à la violation ultime des voix des droits d'auteur et des artistes et le pouvoir de la parole écrite en général. La Guilde des auteurs a des conseils sur ce qu'il faut faire si votre travail était dans l'ensemble de données de Libgen, mais il est difficile de ne pas ressentir le désespoir existentiel et beaucoup de rage pendant que nous attendons de voir comment tout cela se déroule. Je crains que, une fois de plus, le travail d'artistes individuels est utilisé et dénigré afin de bénéficier à une classe de personnes qui ne se soucient pas de l'art et ne craignent aucune conséquence.

L'article se poursuit après la publicité

Supprimer les annonces



Publications similaires