Magazine High tech

OpenAI aux régulateurs : former des modèles d’IA sans matériel protégé par le droit d’auteur est « impossible »

Publié le 11 janvier 2024 par Zaebos @MetatroneFR

Les entreprises peuvent-elles utiliser des données accessibles au public pour former des LLM ?

Une patate chaude : Les chercheurs en intelligence artificielle travaillaient en paix. Cependant, maintenant que des entreprises comme OpenAI, Microsoft, Google et d’autres commercialisent l’IA générative, l’utilisation de matériel de formation protégé par le droit d’auteur est critiquée. Les régulateurs britanniques demandent des informations sur le problème, et OpenAI a récemment répondu.

OpenAI a récemment déclaré aux membres de la Chambre des Lords qu’il était « impossible » de former de grands modèles de langage (LLM) sans utiliser du matériel protégé par le droit d’auteur. Cette réclamation était une réponse au Comité britannique des communications et du numérique, qui étudie les questions juridiques liées aux systèmes d’IA actuels.

Les applications grand public actuelles telles que ChatGPT et Dall-E sont basées sur GPT-3. Depuis 2018, OpenAI a formé le modèle sur des milliards d’échantillons d’écrits, d’art et de photographies, pour la plupart récupérés sur Internet. En mars, OpenAI a publié GPT-4, qui utilise un ensemble de données d’échantillons de texte mesurant environ 570 Go. Certains exemples du matériel de formation incluent des sites Web et des livres, qui sont sans aucun doute des œuvres protégées. Toutefois, la loi sur le droit d’auteur va bien au-delà des livres et des sites Web.

« Parce que le droit d’auteur couvre aujourd’hui pratiquement tous les types d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux – il serait impossible de former les principaux modèles d’IA d’aujourd’hui sans utiliser des matériaux protégés par le droit d’auteur », a déclaré OpenAI à la Chambre. des Seigneurs lit.

En effet, selon la loi actuelle sur le droit d’auteur, un droit d’auteur n’a même pas besoin d’être enregistré pour être protégé. Toute propriété intellectuelle est instantanément protégée par le droit d’auteur lorsque le créateur la définit sur un support permanent. Peu importe qu’il s’agisse d’un fichier numérique, d’une vidéo, d’un livre, d’un article de blog ou d’un commentaire sur un forum. Toutes les lois sur le droit d’auteur s’appliquent.

Ce problème n’était pas vraiment un problème dans le passé, car la recherche sur l’apprentissage automatique était strictement académique. La formation était largement considérée comme un usage équitable et personne ne dérangeait les chercheurs. Cependant, maintenant que les LLM sont commercialisés, ils sont entrés dans une zone grise de la doctrine de l’utilisation équitable.

En de rares occasions, ChatGPT « régurgite » des extraits protégés par le droit d’auteur, ce qui constitue une violation pure et simple et un problème qu’OpenAI s’efforce d’éliminer. Cependant, ce problème n’est pas directement lié à ce qui se passe lorsque les chercheurs forment un LLM avec du matériel protégé. Au lieu de cela, le système utilise les œuvres, protégées par le droit d’auteur ou non, pour apprendre comment le langage est structuré et utilisé afin de pouvoir créer un contenu original que les humains peuvent comprendre.

Malheureusement, étant une nouvelle frontière, la loi sur le droit d’auteur n’a aucune définition juridique concernant la formation à l’IA. Ainsi, les parties prétendument violées ont commencé à porter plainte devant les tribunaux. Des entreprises comme OpenAI et Microsoft disent : « Non. La formation relève de l’utilisation équitable, comme elle l’a toujours été. »

« La formation de modèles d’IA à l’aide de documents Internet accessibles au public est une utilisation équitable, comme le soutiennent des précédents de longue date et largement acceptés », a expliqué OpenAI dans un article de blog cette semaine. « Nous considérons ce principe comme équitable pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis. »

Même s’il estime que la doctrine de l’utilisation équitable couvre la formation LLM, OpenAI propose un processus de désinscription simple, que le New York Times a utilisé en août de l’année dernière. Les outils d’OpenAI ne peuvent plus accéder au site Web du New York Times, mais le journal a porté plainte en décembre.

« Nous soutenons le journalisme, travaillons en partenariat avec des agences de presse, (mais) pensons que le procès du New York Times est sans fondement », a-t-il déclaré.

OpenAI fait face à des poursuites similaires de la part de plusieurs auteurs publiés, dont la comédienne de haut niveau Sarah Silverman. C’est une question que les tribunaux ne peuvent pas résoudre seuls. L’Office américain des brevets et des marques, ainsi que les législateurs, doivent définir clairement le rôle que joue la formation à l’IA dans les règles sur le droit d’auteur.

Tant que la « régurgitation » est éliminée, la formation des LLM avec du matériel protégé par le droit d’auteur devrait-elle relever de l’utilisation équitable ?


Oui. Il s’agit d’une utilisation définitivement équitable tant que les robots ne plagient pas.


Non. Les créateurs de contenu ont le droit que leur travail soit interdit aux systèmes d’IA.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Zaebos 7622 partages Voir son profil
Voir son blog