AdGuard Blog Vos données sont désormais un manuel pour l'IA et vous ne pourrez plus les récupérer

Vos données sont désormais un manuel pour l'IA et vous ne pourrez plus les récupérer

18 novembre 2022 Lecture 13 min

L'art imite la vie, nous le savons tous. Mais que se passe-t-il si l'art imite votre vie personnelle, votre ressemblance personnelle et le fait si bien que la frontière entre le réel et le surréel disparait peu à peu ?

À notre insu, nous devenons des modèles pour une technologie d'IA de pointe qui s'entraîne sur des téraoctets de données mal filtrées provenant de tout le web. Ces données peuvent inclure nos photos personnelles, des images médicales et même du contenu protégé par des droits d'auteur - en fait, tout ce qui est publié en ligne.

Les modèles d'apprentissage profond de conversion de texte en image comme DALLE-E 2, Midjourney et Stable Diffusion s'améliorent pour reconnaître, interpréter et réaffecter ces données. Lorsqu'ils reçoivent un texte, ils produisent des images détaillées basées sur ce qu'ils ont appris. Et si ces images ne sont pas encore parfaites, elles sont de plus en plus photoréalistes. Aussi invraisemblable que cela puisse paraître, il se peut qu'un jour un algorithme produise votre propre image - du moins, on ne peut l'exclure.

Il est vrai que les chances que tout cela arrive à une personne ordinaire sont faibles. Les personnalités publiques, en revanche, sont beaucoup plus susceptibles de voir leur image exploitée et utilisée pour tromper les crédules. L'IA s'est gavée de leurs données publiques et les connaît déjà en pleine figure. Il ne reste plus à un acteur malveillant qu'à trouver un texte astucieux.

L'IA permet de reproduire l'image de personnalités publiques avec une précision croissante.
Images Diffusion Stable d'Elon Musk dans un tableau de style Monet et de Bill Gates avec un fusil près d'une voiture. Image reproduite avec l'aimable autorisation de Stability AI.

Il n'existe actuellement aucun moyen d'éviter d'être emporté par le flux de données de l'IA. Vous ne pouvez retirer vos données de ce cours d'art improvisé que post-factum, c'est-à-dire après qu'elles aient déjà été utilisées comme échantillon d'entraînement pour l'IA. Pour cela, vous devez vous renseigner sur des sites tels que Have I Been Trained, vous assurer qu'elles répondent aux exigences, déposer une plainte et espérer que tout ira bien.

L'état actuel de la technologie : Impressionnant mais désordonné

Les générateurs d'images de l'IA sont les nouveaux venus dans le monde, ce qui explique en partie pourquoi ils ont jusqu'à présent échappé à la réglementation. L'un des outils les plus connus et les plus avancés pour créer des images à partir d'une description est DALL-E. Cet encodeur texte-image a été mis en vente en janvier dernier sur une liste d'attente et est devenu accessible au grand public en septembre dernier. Quelque 1,5 million de personnes ont déjà utilisé le service, "créant plus de 2 millions d'images par jour ", selon OpenAI, la société à l'origine de l'outil.

En plus d'une liste d'attente, OpenAI a abandonné les restrictions sur la modification des visages humains. Mais, contrairement à la plupart de ses concurrents, OpenAI a mis en place des garde-fous. Ainsi, OpenAI a déclaré avoir affiné l'algorithme de filtrage de l'IA pour bloquer les contenus sexuels, politiques, violents et haineux. La politique de DALLE-E interdit également aux utilisateurs de télécharger des "images de toute personne sans son consentement " et des images sur lesquelles les utilisateurs n'ont aucun droit.

Il ne semble pas y avoir de moyen pratique pour DALLE-E de faire respecter cette politique particulière, si ce n'est de prendre les utilisateurs au mot. Dans le but de minimiser les risques d'abus potentiels, les développeurs ont précédemment déclaré qu'ils avaient affiné le processus d'entraînement de DALL-E, "limitant " sa capacité à mémoriser les visages. Cela a été fait principalement pour que l'IA ne produise pas de sosies de personnalités publiques ou ne contribue pas à les placer dans un contexte trompeur. La politique de contenu d'OpenAI interdit spécifiquement les images de "politiciens, urnes, ou tout autre contenu pouvant être utilisé pour influencer le processus politique ou faire campagne " et met en garde contre les tentatives de création d'images de personnalités publiques. Des utilisateurs ont signalé que DALLE-E semble effectivement ne pas répondre aux invites mentionnant des célébrités et des hommes politiques.

Malgré son nom, le miracle texte-image d'OpenAI n'est pas open source, et il y a une bonne raison à cela. OpenAI fait valoir que "rendre les composants bruts du système librement disponibles laisse la porte ouverte aux mauvais acteurs qui pourraient les entraîner sur des contenus subjectivement inappropriés, comme la pornographie et la violence graphique."

D'autres, cependant, ont repris le flambeau là où OpenAI l'avait laissé. Inspiré par DALL-E, un groupe de passionnés d'IA a créé Crayion (anciennement DALLE-E mini ), un générateur de texte-image gratuit et open-source. Mais comme il est entraîné sur un échantillon relativement petit de données non filtrées provenant d'Internet - environ 15 millions de paires d'images et du texte alternatif correspondant - les dessins qui en résultent, en particulier ceux des personnes, sont beaucoup moins réalistes.

Plus vous alimentez un modèle d'IA en données, plus il s'améliore en général

Beaucoup plus avancé que Crayion et beaucoup moins restrictif que DALLE-E 2 est Stable Diffusion, un modèle open-source publié par la startup StabilityAI en août de cette année. Il permet de générer des images de personnalités publiques ainsi que celles de manifestations et d'accidents qui n'ont jamais eu lieu et peuvent potentiellement être utilisées dans des campagnes de désinformation.

Les modèles d'IA peuvent être utilisés comme armes dans des campagnes de désinformation
Images de fumée s'échappant de la Maison Blanche et de protestations à Disneyland générées par Stable Diffusion. Image fournie par Stability AI.

Stable Diffusion vous donne l'autorisation de distribuer et de vendre votre production à condition que vous acceptiez une liste de règles. Par exemple, vous ne pouvez pas utiliser le modèle pour enfreindre la loi, nuire aux mineurs, diffuser de fausses informations "dans le but de nuire à autrui ", "générer ou diffuser des informations personnelles identifiables qui peuvent être utilisées pour nuire à un individu ", fournir des conseils médicaux, enfreindre les droits d'auteur, usurper l'identité d'individus ainsi que "diffamer, dénigrer ou harceler autrui de toute autre manière ". C'est apparemment aux personnes extérieures et aux victimes elles-mêmes qu'il incombe de signaler le contenu interdit.

Le fait que les modèles d'IA parviennent de mieux en mieux à imiter le toucher humain et à tromper de plus en plus les observateurs humains ne fait qu'aggraver (ou améliorer, selon le point de vue que l'on adopte) la situation. Une controverse a éclaté après qu'un artiste non professionnel a reçu le premier prix du concours d'art numérique de la foire d'État du Colorado de cette année pour son œuvre créée à l'aide de Midjourney, un autre outil d'IA de conversion de texte en image. Il n'y a pas si longtemps, un journaliste de The Atlantic a mis le feu aux poudres sur Twitter après avoir utilisé Midjourney pour concocter deux images du théoricien de la conspiration Alex Jones pour une newsletter.

Il y a fort à parier que les outils alimentés par l'IA s'amélioreront encore avec le temps. Les chercheurs à l'origine du modèle d'IA texte-image de Google, Imagen, affirment qu'il est déjà plus performant que la dernière version de DALLE-E - DALLE-E 2- en termes de précision et de qualité d'image.

Il y a beaucoup de spéculations et d'incertitudes sur la façon dont les synthétiseurs d'images alimentés par l'IA affecteront l'art et la réalité tels que nous les connaissons. Cela dépendra en grande partie de la capacité des développeurs à dompter leurs bêtes IA, mais aussi des données dont elles continueront à se régaler.

D'où viennent les données ?

Les modèles d'IA comme DALLE-E et Stable Diffusion s'entraînent sur des ensembles de données géants provenant de tout le Web.

Ainsi, DALLE-E 2 a reçu 650 millions de paires texte-image déjà disponibles sur Internet. Stability AI a été entraîné principalement sur le sous-ensemble anglais de l'ensemble de données LAION-5B. LAION 5B (Large-scale Artificial Intelligence Open Network) est un jeu de données open source contenant 5,6 milliards d'images extraites du Web, dont 2,3 milliards de paires image-texte en langue anglaise, ce qui en fait le plus grand jeu de données image-texte librement accessible au monde. Son prédécesseur, LAION-400, contient 413 millions de paires, et a été utilisé par Google pour former Imagen. Ce jeu de données a été initialement créé par des chercheurs dans le but de reproduire le jeu de données OpenAi, non ouvert au public.

LAION se décrit comme un organisme à but non lucratif dont la mission est de "démocratiser la recherche et l'expérimentation autour de la formation de modèles multimodaux à grande échelle ". Bien que la mission soit noble, elle a un coût élevé pour la vie privée. Les données que les chercheurs ont analysées pour trouver des paires image-texte proviennent de Common Crawl, une autre organisation à but non lucratif qui explore le web tous les mois et fournit gratuitement des pétaoctets de données au public. Dans ses conditions d'utilisation, Common Crawl déclare qu'il "a simplement trouvé les données sur le web " et "ne se porte pas garant du contenu et n'est pas responsable en cas de problème ".

Compte tenu de l'origine des données, il n'est pas surprenant que des informations personnelles identifiables (PII), des images sensibles et du contenu protégé par des droits d'auteur puissent se glisser dans l'ensemble de données. ArtTechnica a rapporté le mois dernier comment une artiste en IA a découvert ses propres photos médicales dans l'ensemble de données LAION-5B. Les photos avaient été prises par le médecin de l'artiste (aujourd'hui décédé) et étaient destinées uniquement à l'usage privé de ce médecin.

Il faut noter que LAION n'héberge pas les images, mais se contente de fournir les URL à partir desquelles elles peuvent être téléchargées. Ainsi, LAION ne peut vraisemblablement pas être tenu responsable de la diffusion de vos données personnelles ou de votre travail. Cela signifie également que, d'un point de vue juridique, nous nous heurtons à un mur en essayant de trouver les personnes coupables d'une éventuelle utilisation abusive des données. Un autre problème est qu'il n'y a aucun moyen de se retirer de l'apprentissage de l'IA, et que vous devez vous plier en quatre pour retirer vos données post-factum.

Comment supprimer vos données personnelles du flux d'IA ?

Tout d'abord, pour demander le retrait de vos images de l'ensemble de données d'entraînement de l'IA, vous devez les y trouver. La tâche peut sembler ardue étant donné qu'il y a des millions de paires image-texte à parcourir. Heureusement, il existe désormais un raccourci pour y parvenir. Le mois dernier, une société appelée Spawning AI a lancé Have I Been Trained ?, un site où vous pouvez effectuer des recherches dans la base de données LAION-5B en lui fournissant une image ou un texte. Vous pouvez également jouer avec l'algorithme (attention, vous risquez d'obtenir des résultats très curieux).

Les algorithmes d'IA ne font que réaffecter les données qu'ils ont apprises et ne sont pas toujours corrects

Si vous parvenez à retrouver votre image, vous devrez remplir un formulaire de retrait sur la page GDPR de LAION. LAION promet d'examiner le rapport et, s'il s'avère que l'image en question enfreint la législation européenne sur la protection des données, de la supprimer de tous les référentiels de données sous son contrôle et des futures versions.

Spawning met également au point des outils qui permettront aux artistes "d'accepter ou de refuser la formation de grands modèles d'intelligence artificielle " ainsi que "de définir des autorisations sur la manière dont leur style et leur image sont utilisés " Les utilisateurs peuvent demander un accès bêta à ces outils sur le site web de la société. Stable Diffusion, qui soutient les efforts de Spawning, déclare qu'elle va construire "un système d'opt-in et d'opt-out pour les artistes et autres personnes que les services peuvent utiliser en partenariat avec les principales organisations ".

DALLE-E permet aux personnes qui constatent que leur travail a été utilisé sans leur consentement de signaler la violation à l'OpenAI mail. Quant à la mère des dragons, la source originale d'une grande partie des données - Common Crawl - elle ne semble indiquer qu'une boîte postale à laquelle vous pouvez signaler une violation du droit d'auteur.

En résumé, nous sommes largement laissés à nous-mêmes lorsqu'il s'agit de s'assurer que nos données ne sont pas aspirées par l'IA. Cela s'explique en partie par l'énigme juridique que représente le fait que chaque partie ne revendique aucune responsabilité pour le résultat final. En partie, c'est la façon dont Internet fonctionne - il n'oublie jamais.

L'IA va-t-elle produire votre sosie exact et peut-elle "désapprendre" votre apparence ?

Comme en témoigne l'exemple des personnalités publiques, l'IA, avec un entraînement suffisant, peut générer des images reconnaissables de personnes réelles. Techniquement, rien n'empêche l'IA de faire le même tour avec votre ressemblance.

OpenAI concède que, bien que DALLE-E 2 ne puisse pas "générer littéralement des images exactes de personnes, il peut être possible de générer une ressemblance avec une personne dans les données d'entraînement " Il en va probablement de même pour d'autres modèles d'IA. Des recherches ont montré que les images générées par une autre catégorie de modèles d'apprentissage profond - les réseaux adversariaux génératifs (Generative Adversarial Networks)
(GAN) - ressemblent effectivement à des personnes réelles. Dans l'article intitulé This Person (Probably) Exists. Identity Membership Attacks Against GAN Generated Faces, les chercheurs ont montré qu'il était possible de réidentifier les identités sources qui contribuaient à générer des images de "personnes inexistantes."

"Alors que certains échantillons ne présentent qu'une simple ressemblance, d'autres images générées partagent fortement les caractéristiques idiosyncrasiques des identités d'apprentissage", ont constaté les chercheurs.

Quant à savoir s'il est possible pour les modèles d'IA de supprimer ce qu'ils ont déjà appris sur vous, le PDG de Stability AI, Emad Mostaque, a déclaré à Ars Technica que c'était possible, mais que cela nécessitait quelques ajustements ou du travail supplémentaire. La grande question est de savoir si les développeurs sont prêts à se donner beaucoup de mal pour le faire - car ils n'y sont pas obligés.

Résoudre le problème de l'IA. Mission impossible?

Il est évident que les résultats obtenus par ces pionniers de l'IA sont admirables. Le fait que certains d'entre eux rendent le code open-source et, dans le cas de Stability AI, le publient sous une licence permissive qui n'interdit pas l'utilisation commerciale, aidera les chercheurs, les créateurs et les progrès.

Cependant, cela peut aussi se retourner contre eux, car il est extrêmement difficile d'empêcher les mauvais acteurs d'utiliser le modèle du code source ouvert. Le plus important, peut-être, est qu'il n'existe actuellement aucun moyen pour les artistes et les personnes ordinaires d'éviter de faire partie d'un produit final généré par l'IA. En outre, même si nous voulons retirer nos images des données d'entraînement, nous devons compter sur la bonne volonté des entreprises.

Ces questions toucheront d'autant plus de personnes que ces technologies se généraliseront. Ainsi, Microsoft a récemment annoncé qu'elle intégrait deux de ses applications à DALL-E 2. L'une de ces applications est Image Creator, qui sera disponible gratuitement dans le moteur de recherche Microsoft Bing et dans Edge.

La situation appelle une réglementation. Nous ne savons pas s'il s'agit d'une conservation minutieuse des ensembles de données, d'un mécanisme d'exclusion clair et respecté par toutes les parties, ou d'autres méthodes d'atténuation. Mais en l'état actuel des choses, les générateurs d'images en texte de l'IA restent une menace pour la vie privée, qui ne fera que croître.

Mise à jour : 18 mai 2023 Lecture 13 min Protection des données Savoir tout

Anna Martynova

Articles recommandés

21 002 21002 avis

Excellent !

AdGuard pour Windows

AdGuard pour Windows est plus qu'un bloqueur de publicités. Il s'agit d'un outil polyvalent qui bloque les publicités, contrôle l'accès aux sites dangereux, accélère le chargement des pages et protège les enfants contre les contenus inappropriés.

AdGuard pour Windows v 7.21, période d'essai de 14 jours

21 002 21002 avis

Excellent !

AdGuard pour Mac

AdGuard pour Mac est un bloqueur de publicité unique conçu pour macOS. En plus de vous protéger contre les publicités gênantes dans les navigateurs et les applications, il vous protège contre le pistage, l'hameçonnage et la fraude.

AdGuard pour Mac v 2.17, période d'essai de 14 jours

21 002 21002 avis

Excellent !

AdGuard pour Android

AdGuard pour Android est la solution parfaite pour les appareils sur Android. Contrairement à la plupart des autres bloqueurs de publicité, AdGuard ne nécessite pas d'accès root et offre un large éventail d'options de gestion des applications.

AdGuard pour Android v 4.10, période d'essai de 7 jours

21 002 21002 avis

Excellent !

AdGuard pour iOS

Le meilleur bloqueur de publicités iOS pour iPhone et iPad. AdGuard élimine tous les types de publicités dans Safari, protège votre vie privée et accélère le chargement des pages. La technologie de blocage publicitaire d'AdGuard pour iOS garantit un filtrage de la plus haute qualité et vous permet d'utiliser plusieurs filtres en même temps

AdGuard pour iOS v4.5

21 002 21002 avis

Excellent !

Bloqueur de contenu AdGuard

Le Bloqueur de contenus AdGuard supprime tous les types de publicités dans les navigateurs mobiles compatibles avec la technologie de blocage de contenu, notamment Samsung Internet et Yandex. Ses fonctionnalités sont limitées par rapport à AdGuard pour Android, mais il est gratuit, facile à installer et efficace

Bloqueur de contenu AdGuard v2.8

21 002 21002 avis

Excellent !

Extension de navigateur AdGuard

AdGuard est l'extension bloqueuse de pub la plus souple et rapide qui bloque tous les types de pub sur toutes les pages Web! Selectionnez le module AdGuard pour votre type de navigateur préféré et surfez le web en toute sécurité et sans publicité.

Extension de navigateur AdGuard v5.1

21 002 21002 avis

Excellent !

Assistant AdGuard

Une extension de navigateur compagnon pour les applications pour ordinateur AdGuard. Elle offre un accès depuis le navigateur au blocage personnalisé d'éléments, à l'ajout de sites Web à la liste blanche et au signalement de bogue quelconque.

Assistant AdGuard v1.4

21 002 21002 avis

Excellent !

AdGuard Home

AdGuard Home est un logiciel anti-pub et anti-traçage qui fonctionne au niveau du système. Une fois installé, il fonctionnera sur TOUS vos appareils, et vous n'aurez pas besoin d'installer de logiciel-client. L'essor de l'Internet des objets et l'affluence d'appareils connectés rend nécessaire le contrôle de votre réseau dans son intégralité.

AdGuard Home v0.107

21 002 21002 avis

Excellent !

AdGuard Pro pour iOS

AdGuard Pro a beaucoup plus à offrir que l'excellent blocage des publicités sous Safari, déjà connu par les utilisateurs de la version gratuite. En vous permettant de changer les paramètres DNS, il arrive à bloquer les pubs intempestives, de protéger vos enfants des contenus pour adultes en ligne et vos données personnelles contre le vol.

AdGuard Pro pour iOS v4.5

21 002 21002 avis

Excellent !

AdGuard pour Safari

Au moment ou Apple a décidé de forcer tout le monde à utiliser son SDK, les extensions bloqueuses de pub pour Safari sont entrés dans une période difficile. L'extension AdGuard doit ramener le blocage des pubs dans Safari au top.

AdGuard pour Safari v1.11

21 002 21002 avis

Excellent !

AdGuard pour Android TV

AdGuard pour Android TV est la seule application qui bloque les publicités, protège votre vie privée et agit comme un pare-feu pour votre Smart TV. Recevez des avertissements sur les menaces web, utilisez des DNS sécurisés et bénéficiez d'un trafic chiffré. Détendez-vous et plongez dans vos émissions préférées avec une sécurité de premier ordre et zéro publicité !

AdGuard pour Android TV v4.10

21 002 21002 avis

Excellent !

AdGuard pour Linux

AdGuard pour Linux est le premier bloqueur d'annonces sous Linux à l'échelle du système. Bloquez les publicités et les traqueurs au niveau de l'appareil, choisissez parmi les filtres préinstallés ou ajoutez les vôtres — le tout via l'interface de ligne de commande

AdGuard pour Linux v1.0

21 002 21002 avis

Excellent !

AdGuard Temp Mail

Un générateur d'adresses e-mail temporaires gratuit qui vous permet de rester anonyme et de protéger votre vie privée. Pas de spam dans votre boîte de réception principale !

21 002 21002 avis

Excellent !

AdGuard VPN

66 localisations dans le monde entier

Accès à tous types de contenu

Chiffrement fort

Politique sans journalisation

Connexion ultra-rapide

Support 24/7

21 002 21002 avis

Excellent !

DNS AdGuard

AdGuard DNS est une solution infaillible qui bloque les publicités et n'a pas besoin d'installer d'autres applications. Facile à configurer et à utiliser, elle offre le minimum de protection nécessaire contre les publicités en ligne, les systémes de suivi et d'hameçonnage, et le contenu pour adultes.

21 002 21002 avis

Excellent !

AdGuard Mail

Protégez votre identité, évitez le spam et protégez votre boîte de réception grâce à nos alias et adresses e-mail temporaires. Profitez de notre service gratuit de transfert d'e-mails et de nos applications pour tous les systèmes d'exploitation

Utiliser la version web

Microsoft Store

App Store

Google Play

21 002 21002 avis

Excellent !

AdGuard Wallet

Un portefeuille crypto sécurisé et privé qui vous offre un contrôle total sur vos actifs. Gérez plusieurs portefeuilles et découvrez des milliers de cryptomonnaies à stocker, envoyer et échanger

Vos données sont désormais un manuel pour l'IA et vous ne pourrez plus les récupérer

L'état actuel de la technologie : Impressionnant mais désordonné

D'où viennent les données ?

Comment supprimer vos données personnelles du flux d'IA ?

L'IA va-t-elle produire votre sosie exact et peut-elle "désapprendre" votre apparence ?

Résoudre le problème de l'IA. Mission impossible?

Articles recommandés

TechTok #10 : Le choix entre les fruits et les robots

Instagram permet de voir votre position : quel impact sur la vie privée ?

TechTok #9. Comment fonctionnent les extensions de navigateur et qu'est ce que le pare-feu

AdGuard pour Windows v7.21 : Protection renforcée contre le suivi Windows

AdGuard pour Windows

AdGuard pour Mac

AdGuard pour Android

AdGuard pour iOS

Bloqueur de contenu AdGuard

Extension de navigateur AdGuard

Assistant AdGuard

AdGuard Home

AdGuard Pro pour iOS

AdGuard pour Safari

AdGuard pour Android TV

AdGuard pour Linux

AdGuard Temp Mail

AdGuard VPN

DNS AdGuard

AdGuard Mail

AdGuard Wallet

Vos données sont désormais un manuel pour l'IA et vous ne pourrez plus les récupérer

L'état actuel de la technologie : Impressionnant mais désordonné

D'où viennent les données ?

Comment supprimer vos données personnelles du flux d'IA ?

L'IA va-t-elle produire votre sosie exact et peut-elle "désapprendre" votre apparence ?

Résoudre le problème de l'IA. Mission impossible?

Terminé ! Quelque chose s'est mal passé Abonnez-vous aux actualités

Abonnez-vous aux actualités

Vous êtes abonné(e)

Articles recommandés

TechTok #10 : Le choix entre les fruits et les robots

Instagram permet de voir votre position : quel impact sur la vie privée ?

TechTok #9. Comment fonctionnent les extensions de navigateur et qu'est ce que le pare-feu

AdGuard pour Windows v7.21 : Protection renforcée contre le suivi Windows

AdGuard pour Windows

AdGuard pour Mac

AdGuard pour Android

AdGuard pour iOS

Bloqueur de contenu AdGuard

Extension de navigateur AdGuard

Assistant AdGuard

AdGuard Home

AdGuard Pro pour iOS

AdGuard pour Safari

AdGuard pour Android TV

AdGuard pour Linux

AdGuard Temp Mail

AdGuard VPN

DNS AdGuard

AdGuard Mail

AdGuard Wallet

1. Autorisez le téléchargement

Autorisations d'installation

Remarque pour les utilisateurs Samsung avec One UI 6 (Android 14) et versions ultérieures

2. Installez l'application

3. Lancez l'application