La Directive sur le droit d'auteur et les droits voisins dans le marché unique numérique de 2019 (Directive 2019/790) permet aux entreprises de réaliser des opérations de data mining sans avoir à obtenir de licences spécifiques. La contrepartie est prévue par la possibilité d'opt-out pour les titulaires de droits. Cela leur permet d'empêcher l'utilisation de leurs œuvres par des intelligences artificielles.
Mais la directive ne suggère à aucun moment quelle forme doit prendre ce mécanisme d’opt-out. Elle confère un droit sans en préciser les conditions pratiques.
Soyons pragmatiques, l’effectivité de ce dispositif est proche du néant.
Matériellement, ce sont les robots.txt qui forment le meilleur rempart contre tous les scrapper, crawler, et autres joyeusetés anglicisées. Comme l’extension l’indique, ce sont de petits fichiers textes qui permettent d’autoriser (ou non) l’exploration ou l’indexation d’un site internet. Ils sont très facilement accessibles et éditables. En guise d’illustration, les deux lignes de code ci-dessous permettent « d’interdire » à chatgpt de naviguer sur votre site :
User-agent: ChatGPTBot
Disallow: /
Pour autant, ce robot.txt se contente d’exprimer le refus du créateur à ne pas voir son contenu utilisé en tant que données d’apprentissage. Il ne constitue pas une mesure technique de fermeture de votre site mais une simple information.
Aussi, une entreprise opérant un système LLM (Large language model) souhaitant ignorer l’absence de consentement et passer outre l’opt-out, peut le faire et scrapper tout le contenu du site.
Ce problème est exacerbé par les téléchargements illicites. Prenons un exemple concret, un grand éditeur de livres décide d’implémenter ces robots.txt au sein de ses différents portails et se croit ainsi protégé. Dans la réalité, ces différents sites exprimeront clairement l’absence de consentement à la fouille de texte. Mais qu’en est-il de Toto qui acquiert illégalement une œuvre protégée pour ensuite la diffuser sur son blog personnel sans autorisation ? Les intelligences artificielles vont accéder au contenu et l’intégrer dans leurs données d’apprentissage, alors qu’en principe, cela leur est interdit.
Aujourd’hui, il n’existe pas de solutions satisfaisantes pour mettre en œuvre ce droit d’opt-out conféré par la directive européenne. Cela est d’autant plus alarmant, lorsque l’on connaît le fonctionnement de l’apprentissage non-supervisé qui sert de base à la quasi-totalité des IA. En vulgarisant le plus possible, les données collectées rentrent dans une boite noire. Elles deviennent presque indissociables des données antérieures qui ont pu être acquises avec l’autorisation des titulaires de droit. Ainsi, même lorsque l’on peut délimiter avec précision quelle donnée a été utilisée, il est impossible techniquement de les retirer sans bouleverser le fonctionnement de l’IA en question.
Il est tout de même recommandé de pratiquer l’opt-out au maximum car certains systèmes de LLM le respecte et cela constitue autant de preuve et de fondement juridique à d’éventuelles poursuites.
En attendant un retour vers l’opt-in ?
Crédits : Photo de Kehn Hermano
Comments