Les chercheurs révèlent que le modèle IA Meta Llama 3.1 enfreint le droit d'auteur - il peut se souvenir de 42 % du premier livre Harry Potter

Récemment, une étude de Stanford, Cornell et de l'Université de Virginie-Occidentale a montré que Meta Llama 3.1 (70B), sorti en juillet 2024, avait mémorisé consciemment 42 % du premier livre Harry Potter afin qu'il puisse reproduire des passages de 50 tokens avec une probabilité de plus de 50 %. En d'autres termes, le modèle ne se contente pas de retenir l'intrigue - il peut reproduire des morceaux entiers de texte si on lui donne la première phrase. Pour comparaison, l'ancien modèle ne se souvenait que de 4,4 %.
Ce qui s'est passé
Un groupe de chercheurs a vérifié à quel point le nouveau Llama "s'accrochait" aux livres. Il s'est avéré que si le texte est très populaire (comme Harry Potter ou Le Hobbit), l'IA peut répéter de grands morceaux. Cependant, les livres moins connus (par exemple, Sandman Slim) n'ont pas suscité beaucoup d'enthousiasme : le modèle se souvenait de moins de 1 % d'entre eux.
Les scientifiques ont utilisé une méthode spéciale qui montre à quel point le modèle est confiant dans chaque mot suivant - et cette confiance était si élevée qu'il est devenu clair qu'il l'avait définitivement déjà vu.
Comment cela a-t-il été mesuré
Ils ont utilisé la méthode d'analyse des probabilités des tokens suivants : si, après avoir substitué les 50 premiers tokens du passage, le modèle reproduit les suivants, cela était considéré comme un signe de mémorisation.
Pourquoi cela est-il important
- Parce que les livres sont protégés par des droits d'auteur, et que l'IA ne devrait pas simplement les reproduire comme une imprimante.
- Si elle peut répéter Harry Potter de mémoire, il sera facile de générer des livres entiers qui ressemblent à des copies mais avec un nouveau nom à l'avenir.
- Cela n'est plus de l'apprentissage, c'est Ctrl+C et Ctrl+V, et les avocats sont immédiatement passés en mode "ah, vous avez été pris!"
Pourquoi cela est-il arrivé ?
Parce que Meta a entraîné ce modèle sur 15 billions de mots, ce qui est beaucoup. Peut-être que l'entraînement a inclus non seulement des livres, mais aussi des forums, des sites de fans et des critiques avec des citations - plus un texte apparaissait souvent dans l'ensemble de données, plus il influençait le modèle.
Et maintenant, quoi ?
Si les avocats prouvent que l'IA reproduit des textes presque mot pour mot, cela pourrait signifier de gros problèmes pour Meta. D'autant plus que leur modèle est ouvert et que tout le monde peut le vérifier. Les modèles de langage fermés (OpenAI, Anthropic et Google) peuvent également avoir des problèmes similaires, mais il est beaucoup plus difficile de le prouver. Cela rend plus difficile pour Meta de se défendre sur la base de l'utilisation équitable - un tribunal pourrait considérer la mémoire comme une preuve que le modèle crée un dérivé à partir d'une grande partie des textes. Il sera également difficile de dire qu'il ne s'agit "que de motifs".
Ironiquement, la transparence dont se vantent les créateurs de Llama peut maintenant jouer contre eux.
Cela signifie que ce modèle de langage peut maintenant apporter à Meta de réelles affaires judiciaires, car il a "gratté" des textes qu'il ne devait pas mémoriser aussi précisément. D'une part, le tribunal pourrait durcir les exigences pour les modèles à poids ouverts : "fournissez les échelles et vous obtiendrez les preuves contre vous". D'autre part, les institutions et les tribunaux qui valorisent la transparence pourraient prendre note. Meta et d'autres pourraient utiliser cela comme un argument selon lequel l'ouverture est un "service" et une "responsabilité".
Source : understandingai.org