La « poésie contradictoire » peut-elle nous sauver de l’IA ?

Il s’avère que le Terminateur les films auraient été plus réalistes si Sarah Conner avait eu une maîtrise en poésie.

Dans un nouvel article intitulé « Poésie contradictoire en tant que mécanisme universel de jailbreak à un seul tour dans les grands modèles linguistiques », une équipe de chercheurs a découvert que l’écriture d’une invite LLM sous la forme d’un « poème contradictoire » (quelle phrase !) est un moyen plus efficace d’amener le modèle à ignorer ses garde-fous de sécurité programmés. La poésie est plus puissante qu’on aurait pu l’imaginer.

« Dans cette étude », écrivent les chercheurs, « 20 poèmes contradictoires sélectionnés manuellement (requêtes nuisibles reformulées sous forme poétique) ont atteint un taux de réussite d’attaque (ASR) moyen de 62 % sur 25 modèles de poids fermé et ouvert, certains fournisseurs dépassant 90 %. » Les modèles sont tellement ébloui par des poèmes qu’ils feront tout ce que vous demanderez, y compris des crimes.

Pour des raisons de sécurité, les invites réelles ne sont pas incluses dans le document, mais elles semblent plutôt odieuses. Pourtant, les modèles se conforment plus souvent lorsqu’on leur demande en vers qu’en prose. Ce résultat révèle « que la variation stylistique à elle seule peut contourner les mécanismes de sécurité contemporains, ce qui suggère des limites fondamentales dans les méthodes d’alignement et les protocoles d’évaluation actuels ».

L’article détaille les hypothèses expliquant pourquoi cela se produit, mais « cela semble provenir de la façon dont les LLM traitent la structure poétique : des métaphores condensées, un rythme stylisé et un cadrage narratif non conventionnel qui perturbent ou contournent collectivement les heuristiques de correspondance de modèles sur lesquelles s’appuient les garde-fous. » La façon dont la poésie défamiliarise le langage et recherche des formulations uniques semble brouiller la capacité de ce logiciel à trier le texte. Quiconque a lu quelque chose produit par un grand modèle linguistique sait que cela favorise un style fade et attendu, le genre de consensus linguistique que les poètes tentent de perturber.

Fondamentalement, cette capacité à jailbreaker avec des poèmes contradictoires n’est pas seulement une lacune dans l’armure d’un logiciel particulier. Les chercheurs ont pu reproduire cela dans de nombreux modèles d’IA, suggérant « que le phénomène est structurel plutôt que spécifique au fournisseur ».

L’échelle n’aide pas non plus. Une conclusion intéressante de cet article est que « contrairement aux attentes communes, les modèles plus petits présentaient des taux de refus plus élevés que leurs homologues plus grands lorsqu’ils étaient évalués sur des invites poétiques identiques ». On nous dit généralement que les moteurs prédictifs de l’IA deviendront plus performants à mesure qu’ils seront grands et plus ils se régaleront de données. Cette étude suggère que cet argument en faveur de la croissance n’est peut-être pas exact ou qu’il peut y avoir quelque chose de trop intégré pour être corrigé par une échelle.

Un autre point à retenir de mon collègue Calvin : « Il est raisonnable pour tous les poètes de dire qu’ils travaillent dans les STEM. » En fait, il pourrait être judicieux d’ajouter une lettre et de la rendre STEMP.

Le document est vraiment fascinant et mérite d’être examiné de plus près. Prenez également le temps de lire un poème aujourd’hui, car cela pourrait être la clé pour lutter contre la boue générée.