TechTok #13 : est-ce que l'IA utilise vos données pour s'entrainer ?
Aujourd’hui, l’IA semble s’être immiscée dans tous les aspects de la vie, ses applications allant de domaines évidents comme le codage ou le traitement d’images à d’autres moins évidents comme le diagnostic médical ou le travail juridique. L’IA est absolument partout. Et même si vous ne savez que très peu de choses sur son fonctionnement, vous avez sans doute au moins entendu dire que toute IA a besoin d’énormes quantités de données pour apprendre avant de pouvoir être mise en pratique.
Ces données doivent bien provenir de quelque part, ce qui nous amène à la première question du TechTok d’aujourd’hui :
Les applications et les sites web utilisent-ils mes données pour entraîner l’IA à mon insu ?
Il n’y a pas de réponse courte et définitive à cette question. Le mieux que nous puissions dire est : « Oui, ils le font, mais pas nécessairement de la manière que vous imaginez. » Nous sommes conscients que vous n’êtes probablement pas venus ici pour obtenir une réponse aussi vague. Mais avant d’aller plus loin, clarifions un point : « entraîner l’IA » et « collecter des données » ne sont pas synonymes, bien qu’ils soient liés. Pour faire simple, pour entraîner l’IA, il faut des données ; trouver des moyens d’obtenir ces données est donc l’un des plus grands défis lors de la construction d’un système d’IA. Cependant, il existe d’innombrables autres raisons pour lesquelles quelqu’un pourrait vouloir mettre la main sur vos informations.
Le fait est que le concept de collecte de données en ligne existe depuis des décennies, bien avant même que l'IA ne fasse son apparition dans le paysage numérique, et que la publicité a longtemps été le principal moteur de cette collecte de données utilisateur. Des systèmes d'une complexité incroyable ont été mis en place pour créer des profils d'utilisateurs et les suivre à travers diverses applications et sites web, le tout dans le but de déterminer précisément quelle publicité montrer à qui et à quel moment, et d'augmenter ainsi les chances que cette personne clique sur la bannière. Le marché de la publicité numérique est estimé à environ 600 à 700 milliards de dollars par an, et ce marché repose sur les données des utilisateurs — cela devrait vous donner une idée de la raison pour laquelle les données sont si souvent qualifiées de « nouveau pétrole ».
Bien sûr, d’autres raisons poussaient les entreprises à rechercher des données numériques : personnalisation, recommandations, détection des fraudes, facturation, fidélisation, analyse des produits — souvent importantes dans des secteurs tels que la finance, la vente au détail, les télécommunications et les places de marché. Les raisons exactes n’ont pas d’importance ici. Ce que nous voulons souligner ici, c'est que la collecte mondiale et effrénée de données n'a pas été engendrée par l'émergence et la diffusion subséquente de l'IA. En fait, dans de nombreux cas, les méthodes utilisées aujourd'hui pour collecter des données destinées à l'entraînement de l'IA sont les mêmes que celles utilisées depuis des années à d'autres fins ; les entreprises d'IA n'ont donc pas eu à réinventer la roue, ou du moins elles disposaient d'une base très solide sur laquelle s'appuyer.
Les types de données nécessaires au suivi publicitaire et à l'entraînement des IA se recoupent également largement — ce qui pourrait en surprendre plus d'un. Pour beaucoup, les termes « IA » et « LLM » (modèle linguistique de grande envergure) sont synonymes. En effet, les chatbots (qui sont essentiellement des interfaces destinées aux utilisateurs reposant sur un LLM) constituent sans doute le type d'IA avec lequel l'utilisateur lambda interagit le plus souvent. Le bon sens veut que l'entraînement d'une IA générative utilisée dans un chatbot nécessite des ensembles de données comprenant des tonnes de textes générés par les utilisateurs — tels que des publications et des commentaires sur des plateformes en ligne comme Reddit ou X, des messages de chat, des avis, etc. C'est exact, car ces LLM doivent apprendre comment les gens parlent réellement, comment répondre aux questions, comment se déroulent les conversations dans la vie réelle ; des éléments tels que l'humour, l'argot, le ton. Mais ce que beaucoup de gens ne réalisent pas, c’est qu’il existe de nombreux autres types d’IA, outre l’IA générative, conçus pour des objectifs très variés : systèmes de recommandation, classement des résultats de recherche, ciblage publicitaire, pour n’en citer que quelques-uns. Pour ces systèmes d’IA, les données comportementales priment, tandis que le contenu en lui-même importe beaucoup moins. Et de nombreuses plateformes modernes combinent les deux approches : elles ont besoin de contenu brut, mais elles veulent aussi savoir sur quoi vous cliquez et à quel moment.
Pour en revenir à la question initiale : oui, certaines entreprises spécialisées dans l'IA exploitent vos données pour entraîner leurs systèmes, mais elles le font en grande partie de la même manière qu'elles (et d'autres entreprises) collectaient déjà vos données avant l'avènement de l'IA, à d'autres fins. Et c'est là que les choses se compliquent : techniquement, la plupart des entreprises ne collectent pas de données à votre insu, que ce soit pour entraîner l'IA ou à d'autres fins — cela est illégal dans de nombreuses juridictions. Certaines vont jusqu’à annoncer publiquement leur intention d’utiliser vos données pour l’entraînement de l’IA, bien que [certaines](https://about.fb.com/news/ 2025/04/making-ai-work-harder-for-europeans/) enjolivent davantage la situation que d'autres. Parallèlement, il est assez courant de dissimuler la collecte de données en cours derrière de longues politiques de confidentialité, des conditions d'utilisation fastidieuses et d'autres documents juridiques longs et ennuyeux. Ceux qui ont un sens de l'humour un peu noir pourraient même trouver amusant que les politiques de confidentialité relatives à la collecte de données pour l'entraînement de l'IA utilisent souvent le même langage vague et les mêmes formulations générales que l'on trouve dans des documents similaires concernant la collecte d'informations à des fins de suivi publicitaire.
Mais même si vous faites preuve de diligence raisonnable et que vous vous frayez un chemin à travers tout ce jargon juridique pour vous assurer que l'application que vous souhaitez installer n'utilise pas vos données pour alimenter la fameuse machine, la triste réalité est que vous n'êtes toujours pas tiré d'affaire. Il arrive parfois que les développeurs « oublient » de le mentionner, comme ce fut le cas très récemment lorsque OkCupid, une application de rencontre populaire, a partagé 3 millions de photos d’utilisateurs avec une entreprise spécialisée dans l’IA pour l’entraîner — le tout sans en informer ses utilisateurs. Ce n’est pas nouveau ; ces mêmes pratiques douteuses existent depuis toujours, bien avant l’IA](GHOST_URL/en/blog/location-sale-ban-broker-ftc.html). Malheureusement, là où il y a des profits à réaliser, il y aura toujours des personnes prêtes à fermer les yeux sur la loi pour en tirer profit.
Comment vos données finissent-elles par servir à entraîner l'IA ?
Prenons maintenant un peu de recul. Nous avons légèrement abordé la question des données utilisées pour entraîner l'IA et avons mentionné que tout est permis : aussi bien les contenus bruts, comme les textes et les photos, que les données comportementales, comme les clics et autres interactions. Mais de nombreux lecteurs aimeraient sans doute que nous soyons plus précis et se demandent : « Quelles sont exactement mes données qui pourraient finir par être utilisées pour l'IA, et comment ? » Et bien, toutes les données ne sont pas utilisées de la même manière. Certaines données peuvent être plus sensibles, et les données provenant de différentes sources peuvent alimenter l'IA de manière différente. Si votre objectif est d'entraîner l'IA, il existe d'innombrables sources potentielles pour obtenir les données d'entraînement. Dans le cadre de cet article, nous identifierons quatre catégories, en fonction de la manière dont les données sont collectées :
- Réseaux sociaux (données accessibles au public)
- Conversations avec des chatbots (saisie directe)
- Interactions sur les plateformes (données comportementales)
- Applications et sites web tiers
Tout d’abord, si vous publiez ou commentez quelque chose en public — sur Reddit, YouTube, X, Facebook, etc. — cela ne signifie pas automatiquement que n’importe qui peut l’utiliser pour entraîner un modèle d’IA, mais vous ne disposez généralement d’aucun moyen réel d’empêcher la plateforme d’entraîner un modèle d’IA sur votre contenu ou de partager vos données avec des tiers. Bien sûr, tout varie considérablement d’une plateforme à l’autre, mais la règle générale reste la même : si c’est public, vous n’en avez probablement pas le contrôle. Les plateformes qui n’utilisent pas elles-mêmes les données des utilisateurs les vendent ou les partagent souvent à des tiers, d’une manière ou d’une autre. Les utilisateurs de l’UE sont généralement mieux protégés que les autres, grâce à la législation avancée de l’UE en matière de protection de la vie privée. Des réglementations telles que le RGPD et la loi européenne sur l’IA confèrent aux citoyens de l’UE le droit d’être informés, de s’opposer à certains traitements, de demander l’accès ou la suppression de leurs données dans certains cas, et de contester ou de restreindre l’utilisation de leurs données personnelles pour l’entraînement de l’IA.
Mais si vous discutez directement avec un chatbot, quelles sont les chances que vos données soient utilisées pour l'entraînement de l'IA ? Cela dépend bien sûr du service, mais le plus souvent, avec les outils d'IA destinés au grand public, tout ce que vous saisissez ou téléchargez peut servir à améliorer ce service. Même si vous disposez d'un abonnement payant, à moins qu'il ne s'agisse d'un abonnement d'entreprise (et non individuel), vos données sont généralement considérées comme librement exploitables. Il convient de mentionner que de nombreux chatbots IA offrent au moins une option de désactivation aux utilisateurs, même si, dans de nombreux cas, celle-ci est enfouie quelque part au fin fond des paramètres. Nous imaginons que pour de nombreux lecteurs de cet article, l’une des questions clés est la suivante : « Comment puis-je refuser la collecte de données lorsque je discute avec mon chatbot ? » Il semble important de fournir ici des conseils pratiques plutôt que de se contenter de généralités. Il existe des centaines, voire des milliers de chatbots, alors concentrons-nous sur certains des plus courants (nous partons du principe qu’il s’agit d’un usage personnel, et non d’un usage d’entreprise ou similaire) :
ChatGPT. Ouvrez ChatGPT, accédez à votre profil, puis Paramètres → Contrôle des données, et désactivez l’option « Améliorer le modèle pour tous ». OpenAI indique que cela empêche vos conversations d’être utilisées pour entraîner ChatGPT à l’avenir, même si certaines données peuvent encore être conservées. Auparavant, OpenAI accordait également le statut de désinscription sur simple demande adressée au service d’assistance. Si vous l’avez fait à un moment donné dans le passé, OpenAI affirme honorer cette demande, mais cette option n’est plus disponible pour les nouveaux utilisateurs.
Perplexity. Ouvrez Paramètres du compte → Préférences et désactivez « Conservation des données IA ». Notez que ce désengagement n’affectera que les données futures ; tout ce qui a été collecté avant la date de désengagement peut être utilisé par Perplexity pour l’entraînement de l’IA et ne peut être ni supprimé ni retiré.
Gemini. Dans votre compte Google, rendez-vous dans Données et confidentialité, recherchez « Activité des applications Gemini », puis sélectionnez « Désactiver » ou « Désactiver et supprimer l'activité ». Cela empêchera uniquement l'échantillonnage futur et n'affectera pas les interactions passées. Notez qu'avec les nombreux produits Google utilisant Gemini, le comportement exact en matière d'entraînement et de confidentialité dépendra du produit.
Claude. Par défaut, Claude n'entraîne pas ses modèles à partir de vos conversations ; il vous offre uniquement la possibilité de vous inscrire manuellement si vous le souhaitez. Si vous supprimez une conversation, Anthropic la supprime de ses systèmes dans un délai d'environ 30 jours.
En ce qui concerne la collecte de données comportementales, une façon simple (mais généralement juste) de voir les choses est la suivante : plus la plateforme est grande, plus elle s'appuie sur vos données comportementales ; les applications et services plus petits, aux fonctionnalités limitées, se livrent rarement au suivi de votre comportement. Les grandes plateformes de contenu comme YouTube, TikTok ou Netflix, les moteurs de recherche, les plateformes de commerce électronique comme Amazon ou eBay — ce sont celles dont vous pouvez être sûr. Elles collecteront autant de données que possible sur vos activités afin d'affiner leurs algorithmes de recommandation et de classement. Cela ne signifie pas que les applications plus petites ne le font pas du tout, mais pour elles, ce type de suivi est beaucoup moins pertinent.
Mais qu'en est-il des applications et des sites web « classiques » et de moindre envergure que nous utilisons tous les jours ? Tout n'est pas forcément un chatbot ou une plateforme gigantesque : que se passe-t-il si vous installez simplement une application ou un jeu au hasard, ou si vous consultez un site web moins connu ? Là encore, il est impossible de donner une réponse unique pour tous ces cas, car il en existe littéralement des millions. Mais, en général, ces applications et sites web plus modestes ne s’intéressent pas à vos données pour entraîner leurs propres IA, et ils vendent rarement directement les données des utilisateurs à des tiers qui pourraient le faire. Cependant, il est plus que courant que les développeurs de ces applications et sites web intègrent des SDK d’analyse, des réseaux publicitaires et d’autres outils de suivi à des fins de monétisation. Ces outils peuvent collecter, et collectent effectivement, des informations telles que des données comportementales, des informations sur l’appareil, des habitudes d’utilisation, etc. Et lorsque ces données parviennent aux réseaux publicitaires, aux courtiers en données et aux sociétés d'analyse, elles sont agrégées et peuvent facilement être utilisées pour la modélisation, vendues, ou contribuer indirectement à l'entraînement d'IA (entre autres, bien sûr).
Quand on voit toutes ces façons dont vos données peuvent se retrouver dans les ensembles de données d'entraînement d'une IA, on pourrait se dire : « Ça fait beaucoup de soucis ! » C'est vrai, dans une certaine mesure, mais gardez aussi à l'esprit que toutes les informations que vous fournissez ne sont pas forcément utilisées, et que toutes les entreprises ne se comportent pas de la même manière. Enfin, il existe des moyens de réduire au minimum la quantité de données collectées à votre sujet. Ce qui nous amène à la deuxième question du TechTok d’aujourd’hui :
L’utilisation d’un bloqueur de publicités et/ou d’un VPN peut-elle empêcher le suivi par l’IA et la collecte de données ?
Comme vous venez de le voir, le suivi par l'IA prend tellement de formes différentes qu'il est impossible de répondre par « oui » ou par « non » à cette question. Un bloqueur de publicités et un VPN peuvent tous deux aider, chacun à leur manière, mais pas contre tout.
Tout d'abord, aucun des deux ne sera d'aucune utilité si vous fournissez activement des données : en discutant avec un chatbot, en publiant sur les réseaux sociaux ou en laissant des commentaires. Les bloqueurs de publicités et les VPN ne peuvent pas, comme par magie, empêcher la plateforme d'utiliser des informations que vous lui avez déjà fournies, directement ou indirectement. Contre ce type de collecte de données, votre meilleur atout réside dans les paramètres de confidentialité, les options de désactivation et les lois visant à protéger la vie privée. Consultez les politiques de confidentialité et les paramètres de confidentialité disponibles des plateformes et des applications que vous utilisez, et si ce que vous voyez ne vous convient pas, envisagez de choisir une autre option.
Où les bloqueurs de publicités peuvent vous aider, ce sont les outils de suivi tiers qui collectent des données vous concernant pour une utilisation future et, dans une certaine mesure, le suivi comportemental. Bloquer les outils d'analyse tiers est, sans aucun doute, le principal atout des bloqueurs de publicités lorsqu'il s'agit d'empêcher la fuite de vos données. Les bloqueurs de publicités comme AdGuard peuvent gérer la plupart, voire la quasi-totalité, des traceurs tiers sur les sites web. Au sein des applications, les choses peuvent s'avérer plus délicates, mais c'est vrai en général : Android et iOS imposent des restrictions assez strictes en matière d'interférence avec le trafic d'autres applications.
Les bloqueurs de publicités peuvent également contribuer à empêcher la collecte de données comportementales, mais pas totalement. Malheureusement, la plupart des grandes plateformes s'appuient fortement sur le suivi de première partie et n'ont pas besoin de tiers pour générer des recommandations, entraîner des modèles et analyser les comportements. Souvent, le fait de bloquer le suivi de première partie, en particulier sur les grandes plateformes, perturbe des fonctionnalités utiles : imaginez que vous bloquiez le suivi de première partie sur YouTube et que les vidéos cessent soudainement de se charger. Et une fois encore, ces problèmes sont plus marqués dans les applications mobiles que sur les sites web.
Néanmoins, un bloqueur de publicités reste l'un des meilleurs outils à votre disposition si votre objectif est de priver les algorithmes d'entraînement de l'IA de données. Mais qu'en est-il des VPN ?
Les VPN sont très utiles — certains diront même indispensables — pour protéger votre vie privée. Mais lorsqu’il s’agit spécifiquement d’empêcher que vos données ne soient utilisées pour l’entraînement des IA, leur efficacité est limitée. Ils peuvent néanmoins s’avérer utiles, mais pas de manière directe. Les VPN masquent votre adresse IP et votre localisation, ce qui complique la tâche des sites web et des traceurs tiers qui cherchent à relier votre activité sur différents sites ou à établir un profil à partir de votre identité réseau. Cependant, un VPN n'empêche pas les plateformes que vous utilisez de voir ce que vous y faites. Si vous êtes connecté à un compte, ou même si vous interagissez simplement avec un site web ou une application, vos clics, vos recherches et vos saisies sont toujours enregistrés directement par ce service. Un VPN n'empêchera pas non plus les traceurs tiers de collecter des informations vous concernant — laissez cette tâche aux bloqueurs de publicités (même si un VPN peut rendre le suivi moins précis).
Récapitulons : les bloqueurs de publicités et les VPN sont d’excellents outils pour protéger votre vie privée, et ils ne feront certainement pas de mal si vous cherchez à empêcher que vos données ne servent de matière première pour l’entraînement des IA — en particulier les bloqueurs de publicités. Mais en fin de compte, la sécurité de vos données dépend avant tout de votre propre vigilance et de votre rigueur. Si vous lisez attentivement les politiques de confidentialité avant d'utiliser des applications et des services, si vous faites attention à ce que vous publiez en ligne et aux informations que vous partagez avec un chatbot, les chances que vos données personnelles soient intégrées à un futur ensemble de données d'apprentissage de l'IA peuvent diminuer considérablement. C'est bien d'avoir des outils puissants à votre disposition, mais rien ne vaut la bonne vieille prudence.








