La sécurité des enfants vaut-elle les nouvelles procédures non-lucides chez Apple ? AdGuard donne commentaire sur CSAM - UPD
Un autre scandale récent retentit autour de la confidentialité et d'Apple (oui, encore un). Le monde a été divisé entre alarmistes et optimistes (dont la plupart, par une coïncidence extravagante, travaillent chez Apple) par une nouvelle fonction appelée détection CSAM, destinée à prévenir les abus envers les enfants.
Chez AdGuard, nous étudions sérieusement cette nouveauté : la sécurité des mineurs est importante, mais le potentiel d'abus de la confidentialité associé est si grand que des moyens de s'en protéger doivent apparaître. Et peut-être nous pouvons aider.
UPD : Et bien, qui l'aurait cru ? Apple ne va pas procéder (pour le moment) avec le lancement de son algorithme CSAM, cette info vient de nous parvenir via Appleinsider. En citant Apple eux-mêmes :
"Sur la base des réactions des clients, des groupes de défense, des scientifiques et d'autres personnes, nous avons décidé de prendre plus de temps au cours des prochains mois pour recueillir des informations et apporter des améliorations avant de lancer ces dispositifs de sécurité pour enfants d'une importance cruciale."
Aperçu général
Et non, avant que vous ne demandiez - ce n'était pas une faute de frappe, "scam" est en effet une arnaque, mais "CSAM" signifie Child Sexual Abuse Material, ou "Matériel relatif à l'abus sexuel envers les enfants". "Nous souhaitons protéger les enfants des prédateurs qui utilisent les outils de communication pour les recruter et les exploiter ", déclare Apple dans un document PDF monumental (évidemment, cette forme de communication a été choisie comme la plus pratique pour le lecteur).
Une si bonne intention, qui peut être contre la protection des petits enfants d'un destin cruel ? Pourquoi s'indigner ?
C'est la façon dont ils vont s'y prendre. Voici à quoi cela ressemble : Apple va scanner toutes les photos présentes sur votre appareil appartenant à l'écosystème (iPhone, iPad, MacBook, etc.) et les examiner pour détecter les signes d'abus sur les enfants. Si de tels signes sont relevés, la police en sera informée.
En fait, ils ne regarderont pas vos photos comme nous le faisons, en tournant des pages de papier ou en faisant défiler des pages numériques d'un album photo réel ou virtuel. Voici comment ils s'y prendront :
-
Ils prennent un ensemble d'images collectées et validées comme CSAM par des organismes de sécurité pour enfants. C'est donc un travail manuel à ce stade.
-
Ils transforment cet ensemble d'images en hachages. Un hachage est une chaîne de symboles qui décrit ce qui se trouve sur une image, et qui restera identique même si l'image est modifiée, recadrée, redimensionnée, etc.
-
Ils téléchargent sur votre appareil une collection de hachages pour les images de la base CSAM. La base CSAM est codée en dur dans l'image du système d'exploitation, de sorte que vous aurez toujours cette base dans votre appareil. Bien que les photos originales ne soient pas stockées sur votre appareil, qui voudrait stocker la base des hashs CSAM ?
-
Ils calculent les hachages pour toutes les photos qui doivent être téléchargées sur Apple iCloud.
-
Puis ils comparent les hachages calculés à la base des hachages CSAM. La comparaison se fait sur l'appareil.
-
Si des correspondances sont trouvées, Apple examine le compte manuellement. Si l'examinateur confirme qu'il s'agit bien d'une photo de la base CSAM, Apple signale le cas au NCMEC (National Center for Missing and Exploited Children ou Centre national pour les enfants disparus et exploités) soutenu par le Congrès américain. Il travaille en collaboration avec les services de police de tous les États-Unis.
Mais qu'est-ce qui peut mal tourner ici ?
Les robots peuvent faire des erreurs
Le résultat de tout algorithme d'IA qui comporte une reconnaissance basée sur l'apprentissage automatique représente une caractéristique probabiliste ("l'action suivante est la plus probable ou susceptible de se produire sur la photo"). L'IA n'est jamais sûre à 100 %. Il y a toujours une certaine part de résultats faux-positifs (dans notre cas, il y aura des situations où une photo sera considérée comme appartenant à la collection du CSAM par erreur).
Il peut y avoir d'autres défauts dans le travail des algorithmes de reconnaissance. Par exemple, les réseaux neuronaux souffrent souvent de surajustement. Cela se produit lorsqu'ils apprennent - en analysant un ensemble de données - à comprendre des modèles et des corrélations et à les retrouver plus tard dans d'autres données. Le surajustement peut se produit lorsqu'un ensemble de données d'apprentissage est trop petit ou trop raffiné. Et voilà que votre IA ne sait pas distinguer un chihuahua d'un gateau aux myrtilles.
Des utilisateurs ont déjà trouvé des paires d'images différentes ayant les mêmes valeurs de hachage. C'est ce qu'on appelle les collisions naturelles de NeuralHash. Et c'est exactement le moment qui nous inquiète.
Image source: Roboflow
Ok, Apple y a pensé et va faire intervenir des personnes dans des cas douteux. Qui sont ces personnes, de qui dépendent-elles, de quoi sont-elles responsables, quelle est la pureté de leurs intentions ?
Des personnes ont déjà commis des erreurs
Il y a tout juste un an, il a été révélé que Facebook payait des centaines de contractants extérieurs pour transcrire des clips audio d'utilisateurs de ses services. "Ce travail a perturbé les employés contractuels, qui ne sont pas informés de l'endroit où l'audio a été enregistré ni de la manière dont il a été obtenu - ils doivent seulement le transcrire. Ils entendent les conversations des utilisateurs de Facebook, parfois avec un contenu vulgaire, mais ne savent pas pourquoi Facebook a besoin de les transcrire ", ceci selon le rapport de Bloomberg.
En fait, c'est une pratique courante. Facebook a été critiqué simplement pour avoir organisé le travail de manière aussi chaotique. Au cours du même mois d'août 2019, Google, Amazon et Apple ont permis aux gens de refuser les évaluations humaines des enregistrements des assistants vocaux. Oui, c'est vrai, des personnes aléatoires écoutent ce que d'autres personnes demandent à leurs siris et alexas, puis le signalent respectivement à Apple et Amazon.
Il a également été découvert que les assistants vocaux sont déclenchés par erreur plus souvent que vous ne le pensez par plus de 1000 mots qui ressemblent à leurs noms ou à leurs commandes. Parmi ceux-ci, on trouve par exemple "élection" pour Alexa. Voulez-vous qu'un sous-traitant d'Amazon écoute ce que vous dites sur les élections en pensant qu'aucun étranger n'est à proximité ?
Creusons un peu plus : comment ça marche et quelles sont les probabilités ?
Donc, quand est-ce que le moment exact où les modérateurs humains d'Apple commencent à regarder vos photos au lieu de simples robots comparant des hachages arrive ?
C'est là que survient la probabilité mentionnée précédemment.
Le hachage d'une image est comparé aux hachages du CSAM. Le résultat de cette comparaison est stocké dans ce que l'on appelle un bon de sécurité, un ensemble de données "qui code le résultat de la correspondance avec des données chiffrées supplémentaires sur l'image ", selon Apple.
Quelles peuvent être ces données supplémentaires ? Eh bien, juste l'image elle-même, aussi simple et effrayant que cela. La documentation officielle d'Apple sur la détection de CSAM mentionne un "dérivé visuel". Une image qui montre l'image. Une vignette. Votre photo en qualité légèrement inférieure. C'est ainsi que c'est formulé, personne ne sait à quoi cela ressemblera exactement :
Ce bon de sécurité est téléchargé sur iCloud Photos avec l'image.
Grâce à une autre technologie appelée partage de secret à seuil, le système garantit que le contenu des bons de sécurité ne peut être interprété par Apple que si le compte iCloud Photos franchit le seuil de contenu connu de CSAM. Le seuil est fixé de manière à fournir un niveau de précision extrêmement élevé et à garantir moins d'une chance sur un billion par an de marquer incorrectement un compte donné.
Un trillion de chances de perdre, c'est un bon pari, non ?
Notez que cela fait référence au signalement d'un compte. Le signalement intervient après qu'un modérateur a examiné une photo et confirmé qu'elle correspond à une photo de la base. La possibilité d'un signal de correspondance de hachage faussement positif pour une photo donnée est de plusieurs ordres de grandeur plus élevée.
Il y a donc environ une chance sur un milliard que le seuil soit franchi par erreur. Chaque chance correspond à une photo. Combien de photos les gens téléchargent-ils sur iCloud ? Nous pouvons l'estimer. Sachant, par exemple, que "plus de 340 millions de photos sont téléchargées sur Facebook chaque jour" en 2021, un milliard de photos seront téléchargées en moins d'un an, et il y a plus d'utilisateurs de Facebook que d'utilisateurs d'Apple.
Mais d'abord, le nombre de photos téléchargées augmente de façon exponentielle, et ensuite, s'il y a une chance sur un milliard d'être mangé par un requin, vous ne voulez quand même pas être le "chanceux". Parce que c'est très grave. Vous n'êtes pas soupçonné d'avoir fumé de la marijuana dans les toilettes du bureau, mais d'avoir commis des abus sexuels sur des enfants.
À propos, la possession d'images de la base CSAM est un crime aux États-Unis et dans plusieurs autres pays, et Apple ne voudrait jamais être tenu responsable de complicité ou d'implication. C'est donc un voyage sans retour : une fois qu'Apple a commencé à les chercher, elle ne fera que développer des moyens de plus en plus sophistiqués pour le faire.
Pourquoi les utilisateurs devraient être inquietés par la détection CSAM ?
Résumons, et la liste ne sera pas courte.
- Des erreurs potentielles d'algorithmes aux conséquences dévastatrices sur des vies et des carrières.
- Les bugs logiciels. Ne confondez pas avec le premier point : compte tenu de l'état d'avancement de la technologie, c'est considéré normal que les robots se trompent. En fait, les bugs sont normaux aussi, il n'y a pas de logiciel sans eux. Mais le prix d'une erreur varie. Les bugs qui entraînent des fuites de données personnelles sont généralement parmi les plus "coûteux".
- Aucune transparence du système (Apple est connu pour sa réticence à divulguer le fonctionnement de ses produits). Votre seule option est de croire que les intentions d'Apple sont bonnes et qu'ils accordent suffisamment d'importance à votre vie privée pour la protéger.
- Manque de confiance. Pourquoi devrions-nous faire confiance à Apple après toutes ses failles et tous ses crimes contre la confidentialité (et ceux des autres) ?
- Extrapolation possible de la technologie pour analyser et détecter d'autres types de données. Sous le couvert de la protection de l'enfance, beaucoup d'opportunités pour les entreprises de plonger dans vos informations peuvent être introduites.
- Possibilités d'abus. Un ennemi ou un pirate informatique peut-il inséminer votre iPhone avec une certaine photo qui correspondrait à une photo d'un certain ensemble (trés pratique qu'il existe une collection toute faite, hein) ?
La photo à droite a été modifiée artificiellement pour avoir le même NeuralHash que la photo à gauche. Image source: Roboflow
Cela explique pourquoi nous réfléchissons à des moyens de donner aux utilisateurs le contrôle sur la façon dont Apple analyse leurs photos. Nous avons lancé quelques sondages sur nos comptes de réseaux sociaux, et la majorité absolue des abonnés (environ 85 %) aimerait pouvoir bloquer l'analyse de CSAM. Difficile de croire que toutes ces personnes ont l'intention d'abuser des enfants, elles voient simplement les risques.
Nous envisageons d'empêcher le téléchargement du bon de sécurité sur iCloud et de bloquer la détection de CSAM dans AdGuard DNS. Comment cela peut-il être fait ? Cela dépend de la manière dont la détection de CSAM est mise en œuvre, et avant de la comprendre en détail, nous ne pouvons rien promettre de particulier.
Qui sait ce que cette base peut devenir si Apple commence à coopérer avec des tiers ? La base rentre, le bon de sécurité sort. Chacun des processus peut être bloqué, mais pour l'instant nous ne sommes pas prêts à affirmer quelle solution est la meilleure et si elle peut être facilement incorporée dans AdGuard DNS. Des recherches et des tests sont nécessaires.
Sinon, le seul moyen serait de bloquer l'accès à iCloud. C'est assez radical de le faire pour tous les utilisateurs d'AdGuard DNS, mais nous pouvons le rendre optionnel. La question se pose, pourquoi ne pas simplement désactiver iCloud sur votre appareil ? Et vous savez quoi, avec la direction ou vont les choses, nous recommandons réellement de considérer cette option.