Des révoltes de données éclatent contre l'IA

Depuis plus de 20 ans, Kit Loffstadt écrit des fanfictions explorant des univers alternatifs pour les héros de « Star Wars » et les méchants de « Buffy contre les vampires », partageant ses histoires gratuitement en ligne.

Mais en mai, Mme Loffstadt a cessé de publier ses créations après avoir appris qu’une société de données avait copié ses histoires et les avait introduites dans la technologie d’intelligence artificielle sous-jacente à ChatGPT, le chatbot viral. Consternée, elle a caché son écriture derrière un compte verrouillé.

Mme Loffstadt a également aidé à organiser un acte de rébellion le mois dernier contre les systèmes d’IA. Avec des dizaines d’autres écrivains de fanfiction, elle a publié un flot d’histoires irrévérencieuses en ligne pour submerger et confondre les services de collecte de données qui alimentent le travail des écrivains dans la technologie de l’IA.

« Nous devons chacun faire tout ce que nous pouvons pour leur montrer que le résultat de notre créativité n’est pas destiné aux machines à récolter comme ils le souhaitent », a déclaré Mme Loffstadt, une doubleuse de 42 ans du South Yorkshire en Grande-Bretagne.

Les écrivains de fanfiction ne sont qu’un groupe qui organise désormais des révoltes contre les systèmes d’IA alors que la fièvre de la technologie s’est emparée de la Silicon Valley et du monde. Au cours des derniers mois, des sociétés de médias sociaux telles que Reddit et Twitter, des organes de presse tels que le New York Times et NBC News, des auteurs tels que Paul Tremblay et l’actrice Sarah Silverman ont tous pris position contre l’IA qui aspire leurs données sans autorisation.

Leurs protestations ont pris différentes formes. Les écrivains et les artistes verrouillent leurs fichiers pour protéger leur travail ou boycottent certains sites Web qui publient du contenu généré par l’IA, tandis que des entreprises comme Reddit veulent facturer l’accès à leurs données. Au moins 10 poursuites ont été intentées cette année contre des entreprises d’IA, les accusant de former leurs systèmes sur le travail créatif des artistes sans leur consentement. La semaine dernière, Mme Silverman et les auteurs Christopher Golden et Richard Kadrey ont poursuivi OpenAI, le créateur de ChatGPT, et d’autres pour l’utilisation de leur travail par AI.

Au cœur des rébellions se trouve une nouvelle compréhension que les informations en ligne – histoires, œuvres d’art, articles de presse, messages sur les babillards électroniques et photos – peuvent avoir une valeur inexploitée importante.

La nouvelle vague d’IA – connue sous le nom d' »IA générative » pour le texte, les images et les autres contenus qu’elle génère – repose sur des systèmes complexes tels que de grands modèles de langage, capables de produire une prose humaine. Ces modèles sont formés sur des hordes de toutes sortes de données afin qu’ils puissent répondre aux questions des gens, imiter les styles d’écriture ou produire de la comédie et de la poésie.

Cela a déclenché une chasse aux entreprises technologiques pour encore plus de données pour alimenter leurs systèmes d’IA. Google, Meta et OpenAI ont essentiellement utilisé des informations provenant de partout sur Internet, y compris de grandes bases de données de fan fiction, des trésors d’articles de presse et des collections de livres, dont la plupart étaient disponibles gratuitement en ligne. Dans le langage de l’industrie technologique, cela s’appelait « gratter » Internet.

Le GPT-3 d’OpenAI, un système d’IA lancé en 2020, couvre 500 milliards de « jetons », chacun représentant des parties de mots trouvés principalement en ligne. Certains modèles d’IA couvrent plus d’un billion de jetons.

La pratique du grattage d’Internet est ancienne et a été largement divulguée par les entreprises et les organisations à but non lucratif qui l’ont fait. Mais cela n’était pas bien compris ou considéré comme particulièrement problématique par les entreprises qui possédaient les données. Cela a changé après le lancement de ChatGPT en novembre et le public en a appris davantage sur les modèles d’IA sous-jacents qui alimentaient les chatbots.

« Ce qui se passe ici est un réalignement fondamental de la valeur des données », a déclaré Brandon Duderstadt, fondateur et directeur général de Nomic, une société d’IA. « Auparavant, l’idée était que vous tiriez de la valeur des données en les rendant ouvertes à tout le monde et en diffusant des publicités. Maintenant, l’idée est que vous verrouillez vos données, car vous pouvez extraire beaucoup plus de valeur lorsque vous les utilisez comme entrée pour votre IA «

Les protestations contre les données pourraient avoir peu d’effet à long terme. Des géants de la technologie aux poches profondes comme Google et Microsoft sont déjà assis sur des montagnes d’informations exclusives et disposent des ressources nécessaires pour en autoriser davantage. Mais alors que l’ère du contenu facile à gratter touche à sa fin, les petites startups de l’IA et les organisations à but non lucratif qui avaient espéré rivaliser avec les grandes entreprises pourraient ne pas être en mesure d’obtenir suffisamment de contenu pour former leurs systèmes.

Dans un communiqué, OpenAI a déclaré que ChatGPT avait été formé sur « le contenu sous licence, le contenu accessible au public et le contenu créé par des formateurs humains en IA ». Il a ajouté: « Nous respectons les droits des créateurs et des auteurs, et nous nous réjouissons de continuer à travailler avec eux pour protéger leurs intérêts. »

Google a déclaré dans un communiqué qu’il participait à des discussions sur la manière dont les éditeurs pourraient gérer leur contenu à l’avenir. « Nous pensons que tout le monde bénéficie d’un écosystème de contenu dynamique », a déclaré la société. Microsoft n’a pas répondu à une demande de commentaire.

Les révoltes des données ont éclaté l’année dernière après que ChatGPT soit devenu un phénomène mondial. En novembre, un groupe de programmeurs a déposé un projet de recours collectif contre Microsoft et OpenAI, affirmant que les sociétés avaient violé leurs droits d’auteur après que leur code ait été utilisé pour former un assistant de programmation alimenté par l’IA.

En janvier, Getty Images, qui fournit des photos et des vidéos, a poursuivi Stability AI, une société d’intelligence artificielle qui crée des images à partir de descriptions textuelles, affirmant que la start-up avait utilisé des photos protégées par le droit d’auteur pour former ses systèmes.

Puis, en juin, Clarkson, un cabinet d’avocats de Los Angeles, a déposé un recours collectif proposé de 151 pages contre OpenAI et Microsoft, décrivant comment OpenAI avait recueilli des données auprès de mineurs et déclaré que le scraping Web violait la loi sur le droit d’auteur et constituait un « vol ». Mardi, la firme a déposé une plainte similaire contre Google.

« La rébellion des données que nous voyons à travers le pays est la façon dont la société s’oppose à cette idée que Big Tech a simplement le droit de prendre n’importe quelle information de n’importe quelle source et de se l’approprier », a déclaré Ryan Clarkson, le fondateur de Clarkson.

Eric Goldman, professeur à la faculté de droit de l’Université de Santa Clara, a déclaré que les arguments du procès étaient vastes et peu susceptibles d’être acceptés par le tribunal. Mais la vague de litiges ne fait que commencer, a-t-il dit, avec une « deuxième et troisième vague » à venir qui définirait l’avenir de l’IA.

Les grandes entreprises s’opposent également aux scrapers d’IA. En avril, Reddit a déclaré vouloir facturer l’accès à son interface de programmation d’applications, ou API, la méthode par laquelle des tiers peuvent télécharger et analyser la vaste base de données de conversations de personne à personne du réseau social.

Steve Huffman, directeur général de Reddit, a déclaré à l’époque que son entreprise n’avait pas « besoin de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde ».

Le même mois, Stack Overflow, un site de questions-réponses pour les programmeurs informatiques, a déclaré qu’il demanderait également aux entreprises d’intelligence artificielle de payer pour les données. Le site compte près de 60 millions de questions et réponses. Son déménagement a été signalé plus tôt par Wired.

Les organes de presse résistent également aux systèmes d’IA. Dans une note interne sur l’utilisation de l’IA générative en juin, le Times a déclaré que les entreprises d’IA devraient « respecter notre propriété intellectuelle ». Un porte-parole du Times a refusé de donner plus de détails.

Pour les artistes et écrivains individuels, lutter contre les systèmes d’IA a signifié repenser où ils publient.

Nicholas Kole, 35 ans, illustrateur à Vancouver, en Colombie-Britannique, était alarmé par la façon dont son style artistique distinct pouvait être reproduit par un système d’IA et soupçonnait que la technologie avait gratté son travail. Il prévoit de continuer à publier ses créations sur Instagram, Twitter et d’autres sites de médias sociaux pour attirer des clients, mais il a cessé de publier sur des sites comme ArtStation qui publient du contenu généré par l’IA à côté du contenu généré par l’homme.

« Cela ressemble à un vol gratuit de moi et d’autres artistes », a déclaré M. Kole. « Cela met une fosse de terreur existentielle dans mon estomac. »

Chez Archive of Our Own, une base de données de fanfictions avec plus de 11 millions d’histoires, les écrivains ont de plus en plus fait pression sur le site pour qu’il interdise le grattage des données et les histoires générées par l’IA.

En mai, lorsque certains comptes Twitter ont partagé des exemples de ChatGPT imitant le style de la fan fiction populaire publiée sur Archive of Our Own, des dizaines d’écrivains se sont levés en armes. Ils ont bloqué leurs histoires et écrit du contenu subversif pour induire en erreur les grattoirs de l’IA. Ils ont également poussé les dirigeants d’Archive of Our Own à cesser d’autoriser le contenu généré par l’IA.

Betsy Rosenblatt, qui fournit des conseils juridiques à Archive of Our Own et est professeur à la faculté de droit de l’Université de Tulsa, a déclaré que le site avait une politique d ‘«inclusivité maximale» et ne voulait pas être en mesure de discerner quelles histoires ont été écrites. avec IA

Pour Mme Loffstadt, l’écrivain de fanfiction, la lutte contre l’IA est survenue alors qu’elle écrivait une histoire sur « Horizon Zero Dawn », un jeu vidéo où les humains combattent des robots alimentés par l’IA dans un monde postapocalyptique. Dans le jeu, dit-elle, certains robots étaient bons et d’autres mauvais.

Mais dans le monde réel, dit-elle, « grâce à l’orgueil et à la cupidité des entreprises, ils sont tordus pour faire de mauvaises choses ».