AdGuard Blog Tus datos personales se están utilizando para el entrenamiento de IA y no podrás recuperarlos

Tus datos personales se están utilizando para el entrenamiento de IA y no podrás recuperarlos

16 de noviembre de 2022 13 minutos de lectura

El arte imita a la vida, y todos lo sabemos. Pero, ¿y si el arte imitara tu vida e intereses personales, y lo hiciera tan bien que los límites entre lo real y lo imaginario ya no estuvieran claros?

Puede que no lo sepamos, pero ya nos estamos convirtiendo en modelos para la tecnología de inteligencia artificial moderna entrenada en muchos terabytes de datos extraídos de la Web, con muy poco filtrado. Estos datos incluyen fotos personales, imágenes médicas e incluso contenido protegido por derechos de autor. En otras palabras, incluye cualquier imagen disponible online.

Los modelos de aprendizaje profundo de texto a imagen como DALLE-E 2, Midjourney y Stable Diffusion están mejorando cada día en el reconocimiento, la interpretación y la resignificación de estos datos. Cuando se alimentan con una entrada de texto, producen imágenes detalladas basadas en lo que han aprendido. Si bien estas imágenes aún no son fotos perfectas, se están volviendo cada vez más realistas. Por mucho que esto no parezca plausible, el algoritmo puede en cualquier momento mostrar lo que quiere y es plausible que, en el futuro, esto no se puede controlar.

Las posibilidades de que esto suceda son escasas. Sin embargo, es probable que las figuras públicas tengan su imagen explotada y la utilicen para engañar a los incautos. Las IA ya se han alimentado de sus datos disponibles públicamente y ya pueden reconocerlo de inmediato. Por lo tanto, todo lo que necesita una persona malintencionada es crear una entrada de texto lo suficientemente inteligente.

Las IA te permiten replicar la imagen de figuras públicas con precisión
Imágenes de Elon Musk al más puro estilo Monet y Bill Gates con un rifle junto a un coche, realizadas por Stable Diffusion. Imagen cortesía de Stability AI.

Actualmente no es posible salvarte del feed de datos de IA. Solo puedes eliminar tus datos de este tipo de directorio después de que ya se haya utilizado como muestra de entrenamiento para una IA. Para esto, puedes usar sitios como Have I Been Trained. Asegúrate de cumplir con los requisitos, presenta un reclamo y espera lo mejor.

El estado de la tecnología: inspirador y confuso

Los generadores de imágenes de inteligencia artificial son una novedad que está en boca de todos. Eso explica por qué han evadido la regulación hasta ahora. Una de las herramientas más avanzadas para crear imágenes a partir de una descripción es DALL-E. El codificador de texto a imagen se lanzó en enero pasado a través de una lista de espera y se hizo disponible para el público en general en septiembre. Alrededor de 1,5 millones de personas ya están usando el servicio,“creando más de 2 millones de imágenes al día” según OpenAI, la empresa detrás de la herramienta.

Además de la lista de espera, OpenAI no restringió la edición de rostros humanos. Pero a diferencia de sus competidores, OpenAI ha adoptado algunas medidas de seguridad: la empresa afirma que ha refinado el algoritmo de filtrado de la herramienta para bloquear contenido sexual, político, violento y de odio. La política de DALLE-E también prohíbe a los usuarios cargar "imágenes de cualquier persona sin su consentimiento" e imágenes sobre las que los usuarios no tienen derechos.

Parece que DALLE-E no tiene una forma práctica de garantizar que se cumpla esta política en particular. En un intento por minimizar los riesgos de un posible uso indebido, los desarrolladores dijeron anteriormente que habían perfeccionado el proceso de capacitación de DALL-E, "limitando" su capacidad para memorizar rostros. Esto se hizo principalmente para que la IA no produzca imágenes de figuras públicas o termine colocándolas en un contexto engañoso. La política de contenido de OpenAI prohíbe específicamente las imágenes de “políticos, urnas o cualquier otro contenido que pueda usarse para influir en el proceso político o una campaña” y envía una advertencia sobre los intentos de crear imágenes de figuras públicas. Los usuarios informaron que DALL-E parece no responder a las entradas que mencionan celebridades y políticos.

A pesar de su nombre, OpenAI no es de código abierto y hay una buena razón para ello. OpenAI argumenta que "hacer que los componentes básicos del sistema estén disponibles gratuitamente da lugar a que personas malintencionadas lo entrenen para mostrar contenido inapropiado, como pornografía y violencia gráfica".

Otros, sin embargo, aprovecharon el vacío legal dejado por OpenAI. Inspirándose en DALL-E, un grupo de entusiastas de la inteligencia artificial creó Crayion (anteriormente conocido como DALLE-E mini), un generador de imágenes a partir de texto de código abierto. Pero dado que se entrenó en una muestra relativamente pequeña de datos de Internet sin filtrado (alrededor de 15 millones de pares de imágenes y el texto correspondiente), los dibujos resultantes, especialmente los relacionados con personas, son significativamente menos realistas.

Cuantos más datos se utilizan para alimentar el modelo de IA, mejor se vuelve

Mucho más avanzado que Crayion y significativamente menos restrictivo que DALLE-E 2 es el Stable Diffusion, un modelo de código abierto lanzado por la startup StabilityAI en agosto de este año. Permite crear imágenes de figuras públicas, protestas y accidentes que nunca sucedieron y pueden ser utilizados en actos de desinformación.

Los modelos de IA se pueden usar para impulsar campañas de desinformación
Imágenes de Stable Diffusion que muestran humo saliendo de la Casa Blanca y protestas en Disney. Imagen cortesía de Stability AI.

Stable Diffusion otorga permiso para distribuir y vender los resultados si el usuario acepta una lista de reglas. Por ejemplo, no se puede usar la plantilla para violar la ley, dañar a menores, difundir información falsa "con el fin de causar daño a otros", "generqr o difundir información de identificación personal que podría usarse para causar daño en un individuo”, ofrecer asesoramiento médico, infringir los derechos de autor, hacerse pasar por individuos y “difamar, menospreciar o acosar a otros”. Una vez más, es difícil decir cómo pretende castigar la empresa a quienes infrinjan estas reglas. La carga recae por completo en aquellos que no tienen conexión con el sitio o en las víctimas que encuentran el contenido prohibido por sí mismas.

Para empeorar las cosas (o no, depende de tu punto de vista), hay el hecho de que los modelos de inteligencia artificial son cada vez mejores para imitar las habilidades humanas y se acercan cada vez más a engañar a los observadores. La controversia surgió después de que un artista no profesional ganó el primer lugar en la feria de arte digital de Colorado de este año con un trabajo creado en Midjourney, otra herramienta de IA de texto a imagen. No hace mucho tiempo, el periodista de The Atlantic provocó una discusión en Twitter después de usar Midjourney para inventar dos imágenes del teórico de la conspiración Alex Jones en un boletín de noticias.

Es seguro pensar que las herramientas impulsadas por IA mejorarán aún más a medida que pase el tiempo. Los investigadores involucrados en el modelo de IA de texto a imagen de Google, Imagen, afirmaron que ya está funcionando mejor que la última versión de DALLE-E, DALLE-E 2, en términos de calidad y precisión de imagen.

Hay mucha especulación e incertidumbre sobre cómo los sintetizadores de imágenes basados en IA afectarán el arte y la realidad tal como los conocemos. Esto dependerá en gran medida de la disposición de los desarrolladores para domar a sus monstruos de realidad virtual, pero también del tipo de datos de los que se alimentarán.

¿De dónde provienen los datos?

Los modelos de IA como DALLE-E y Stable Diffusion se entrenan en bases de datos gigantes recopiladas de Internet.

Así, DALLE-E 2 se alimentó con 650 millones de pares texto-imagen que ya estaban disponibles en internet. La IA de estabilidad fue entrenada principalmente con el subconjunto en inglés de la base de datos LAION-5B. La LAION 5B ("Red Abierta de Inteligencia Artificial a Gran Escala") es una base de datos de código abierto que contiene 5.600 millones de imágenes recopiladas de la Web, incluidos 2.300 millones de pares imagen-texto en inglés, que le garantizan la posición de la más grande del mundo en el categoría. Su predecesor, el LAION-400, contiene 413 millones de pares y fue utilizado por Google para entrenar Imagen. Esta base de datos fue creada originalmente por investigadores en un intento de replicar la base de datos OpenAI, cerrada al público.

LAION se describe a sí misma como una organización sin fines de lucro con la misión de “democratizar la investigación y la experimentación con modelos de entrenamiento multimodal a gran escala”. A pesar de lo noble que es la misión, tiene un alto costo para la privacidad. Los datos recopilados por los investigadores provienen de Common Crawl, otra organización sin fines de lucro que rastrea la Internet todos los meses y ofrece petabytes de datos de forma gratuita al público. En estos términos de servicio, Common Crawl establece que "solo encuentran los datos en la web" y "no garantizan el contenido ni responden si hay algún problema con él"

Dada la fuente de los datos, no sorprende que la información de identificación personal (PII), las imágenes confidenciales y el contenido con derechos de autor puedan colarse en el conjunto de datos. ArtTechnica informó el mes pasado cómo un artista de IA descubrió sus propias fotos médicas en el conjunto de datos LAION-5B. Las fotos fueron tomadas por el médico del artista (ya fallecido) solo para uso privado.

Vale la pena señalar que LAION no aloja las imágenes, sino que solo proporciona URL donde se pueden descargar. Por lo tanto, LAION presumiblemente no se hace responsable de la divulgación de datos personales o profesionales. También significa que, legalmente, tratar de encontrar a los culpables de un posible mal uso de los datos es prácticamente inútil. Otro problema es que no hay forma de cancelar el entrenamiento de IA, y eliminar sus datos después de que se hayan utilizado requiere mucho esfuerzo.

¿Cómo eliminar los datos personales que alimentaron una IA?

Para comenzar, para solicitar la eliminación de sus imágenes del conjunto de datos de entrenamiento de IA, debes encontrarlas allí. Puede parecer una tarea desalentadora dado que hay millones de pares de imagen a texto para pasar. Afortunadamente, ahora hay un atajo para esto. El mes pasado, una empresa llamada Spawning AI lanzó Have I Been Trained?, un sitio web en el que puede buscar en la base de datos LAION-5B introduciendo una imagen o un mensaje de texto. O simplemente puedes jugar con el algoritmo (cuidado, puede darte algunos resultados muy curiosos).

Los algoritmos de IA solo redirigen los datos que han aprendido y no siempre son correctos

Si logra encontrar su imagen, deberá completar un formulario de eliminación en la página de LAION GDPR. LAION promete investigar el informe y si encuentra que dicha imagen viola la ley de protección de datos de la UE, la eliminará de todos los repositorios de datos bajo su control y de futuras versiones

Generation también está creando herramientas que permitirían a los artistas "optar por participar o no en el entrenamiento de grandes modelos de IA", así como "establecer permisos sobre cómo se usa su estilo y semejanza". Los usuarios pueden suscribirse, si es para beta acceso a las herramientas en el sitio web de la empresa. Stable Diffusion, que apoya los esfuerzos de Spawning, dice que creará "un sistema de aceptación y exclusión voluntaria para artistas y otros que los servicios pueden usar en asociación con organizaciones líderes".

DALLE-E permite a las personas que descubren que su trabajo se ha utilizado sin su consentimiento para informar de la infracción al correo electrónico de OpenAI. En cuanto a la madre de los dragones, la fuente original de gran parte de los datos, Common Crawl, parece enumerar solo un apartado de correos donde puede denunciar una infracción de derechos de autor.

En resumen, nos quedamos con nuestros propios dispositivos cuando se trata de asegurarnos de que la IA no absorba nuestros datos. Esto se debe en parte al dilema legal cuando cada lado no se responsabiliza por el resultado final. En parte, así es como funciona Internet: nada se olvida.

¿Revelará una IA tu apariencia exacta y podrá "desaprender" cómo te ves?

Como se ve en el ejemplo de las figuras públicas, la IA, con suficiente entrenamiento, puede generar imágenes reconocibles de personas reales. Técnicamente, no hay nada que impida que la IA haga el mismo truco con tu imagen.

OpenAI admite que, si bien DALLE-E 2 no puede “generar literalmente imágenes exactas de personas, es posible generar un parecido similar con alguien en los datos de entrenamiento”. Es probable que lo mismo sea cierto para otros modelos de IA. La investigación ha demostrado que las imágenes generadas por otra clase de modelos de aprendizaje profundo: redes adversarias generativas
(GAN): se asemejan a personas reales. En el artículo titulado Esta persona (probablemente) existe. Los ataques de asociación de identidad contra rostros generados por investigadores de GAN demostraron que era posible volver a identificar identidades de origen que contribuían a generar imágenes de “personas inexistentes.

"Si bien algunas muestras solo muestran similitudes, otras imágenes generadas comparten características idiosincrásicas de identidades de entrenamiento", encontraron los investigadores.

En cuanto a la posibilidad de que los modelos de IA desaprendan lo que ya aprendieron sobre ti, Emad Mostaque, director ejecutivo de Stability AI, le dijo a Ars Technica que es posible, pero requiere algunos ajustes o trabajo adicional. La gran pregunta es si los desarrolladores están dispuestos a hacer todo lo posible para ello, ya que no son obligados a hacerlo.

Resolviendo el problema de la IA: ¿una misión imposible?

No se puede negar que los resultados obtenidos por estos pioneros de la Inteligencia Artificial son admirables. El hecho de que algunos de ellos lo hayan hecho de código abierto y, en el caso de Stability AI, lo hayan liberado bajo una licencia permisiva que no prohíbe el uso comercial, ayudará a los investigadores, desarrolladores y al progreso en varias áreas.

Sin embargo, esto también puede salir muy mal, ya que es extremadamente difícil evitar que personas malintencionadas utilicen el modelo de código abierto. Y lo más importante, quizás, es que actualmente no hay forma de que los artistas y la gente de a pie puedan optar por no formar parte de un producto final generado por la IA. Además, aunque queramos eliminar nuestras imágenes de los datos de formación, tenemos que confiar en la buena voluntad de las empresas.

Estos problemas afectarán a un número aún mayor de personas a medida que estas tecnologías se generalicen. Por ejemplo, Microsoft ha anunciado recientemente que está integrando dos de sus aplicaciones con DALL-E 2. Una de las aplicaciones es Image Creator, que estará disponible de forma gratuita en el buscador Bing de Microsoft y en Edge.

La situación exige una regulación. Podría ser una cuidadosa curación del conjunto de datos, un claro mecanismo de exclusión respetado por todas las partes o algún otro método de prevención, no lo sabemos. Pero tal y como están ahora, los generadores de imágenes de IA a partir de texto siguen siendo una amenaza para la privacidad, y eso seguramente empeorará.

16 de noviembre de 2022 13 minutos de lectura Protección de datos

Pamela Norato Puglieri

Artículos recomendados

19.600 19600 reseñas

¡Excelente!

AdGuard para Windows

AdGuard para Windows es más que un bloqueador de anuncios. Es una herramienta multipropósito que bloquea anuncios, controla el acceso a sitios peligrosos, acelera la carga de páginas y protege a los niños del contenido inapropiado.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard para Mac

AdGuard para Mac es un bloqueador de anuncios único diseñado teniendo en cuenta las especificaciones de macOS. No solo proporciona protección contra los anuncios en aplicaciones y navegadores, sino que también te protege contra rastreadores, phishing y fraude.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard para Android

AdGuard para Android es una solución perfecta para los dispositivos Android. A diferencia de la mayoría de los bloqueadores de anuncios, AdGuard no requiere acceso root y ofrece una amplia gama de opciones de gestión de aplicaciones.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard para iOS

El mejor bloqueador de anuncios de iOS para iPhone y iPad. AdGuard elimina todo tipo de anuncios en Safari, protege tu privacidad y acelera la carga de las páginas. La tecnología de bloqueo de anuncios de AdGuard para iOS garantiza la máxima calidad de filtrado y te permite usar varios filtros a la vez

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard VPN

74 ubicaciones en todo el mundo

Acceso a cualquier contenido

Cifrado fuerte

Política de cero registros

Conexión más rápida

Asistencia 24/7

Más información

19.600 19600 reseñas

¡Excelente!

Bloqueador de contenido AdGuard

Bloqueador de contenido AdGuard eliminará todo tipo de anuncios en navegadores móviles que soportan la tecnología de bloqueo de contenido como Samsung Internet y Yandex.Browser. Es más limitado que AdGuard para Android, pero es gratis, fácil para instalar y proporciona un bloqueo de anuncios de alta calidad.

Más información

19.600 19600 reseñas

¡Excelente!

Extensión de navegador AdGuard

¡AdGuard es la extensión para bloqueo de anuncios más rápida y ligera que bloquea eficazmente todo tipo de anuncios en todos sitios web! Elige AdGuard para tu navegador y disfruta de una navegación rápida, segura y sin anuncios.

Más información

19.600 19600 reseñas

¡Excelente!

Asistente de AdGuard

Una extensión de navegador complementaria para las aplicaciones de escritorio AdGuard. Ofrece acceso en el navegador a las características como el bloqueo de elementos personalizado, lista de permitido de un sitio web o el envío de un informe.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard DNS

AdGuard DNS es una solución alternativa para bloqueo de anuncios, protección de privacidad y control parental. Es fácil para configurar y gratis para usar, ofrece el mínimo necesario de la mejor protección contra los anuncios, rastreadores, phishing, sin importar que plataforma o dispositivo uses.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard Home

AdGuard Home es un software a nivel de red para bloqueo de anuncios y rastreadores. Después de configurarlo, funcionará en TODOS tus dispositivos sin necesidad de instalar ningún software adicional en cada uno de ellos. Con el auge del IoT (Internet de las cosas) y del número de dispositivos conectados, se vuelve cada vez más y más importante controlar toda la red.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard Pro para iOS

AdGuard Pro ofrece muchas opciones para bloquear anuncios en Safari que ya los usuarios conocen en la versión regular. Al proporcionar la personalización del DNS, la aplicación te permite bloquear anuncios, proteger a tus hijos de contenido inapropiado en línea y conservar tus datos personales contra el robo.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard para Safari

Las extensiones de bloqueo de anuncios para Safari están teniendo dificultades desde que Apple comenzó a forzar a todos a usar el nuevo SDK. La extensión de AdGuard devuelve el bloqueo de anuncios de alta calidad a Safari.

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard Temp Mail

Un generador gratuito de direcciones de correo electrónico temporales que te mantiene en el anonimato y protege tu privacidad. ¡Sin spam en tu bandeja de entrada principal!

Más información

19.600 19600 reseñas

¡Excelente!

AdGuard para Android TV

AdGuard para Android TV es la única aplicación que bloquea publicidad, protege tu privacidad y actúa como firewall para proteger el tráfico en tu Smart TV. Recibe advertencias acerca de amenazas web, utilización de DNS seguro y beneficios de tráfico cifrado y protegido. Disfruta tus películas y series favoritas con alta protección y sin publicidad molesta!

Más información

Tus datos personales se están utilizando para el entrenamiento de IA y no podrás recuperarlos

El estado de la tecnología: inspirador y confuso

¿De dónde provienen los datos?

¿Cómo eliminar los datos personales que alimentaron una IA?

¿Revelará una IA tu apariencia exacta y podrá "desaprender" cómo te ves?

Resolviendo el problema de la IA: ¿una misión imposible?

Artículos recomendados

El nuevo esquema "pagar o consentir" en los medios de comunicación

La mayoría opta por bloqueadores de anuncios para experiencias sin publicidad en sitios web

El mejor correo alternativo a Gmail

El bloqueador de anuncios AdGuard ya no es compatible con Windows 7

AdGuard para Windows

AdGuard para Mac

AdGuard para Android

AdGuard para iOS

AdGuard VPN

Bloqueador de contenido AdGuard

Extensión de navegador AdGuard

Asistente de AdGuard

AdGuard DNS

AdGuard Home

AdGuard Pro para iOS

AdGuard para Safari

AdGuard Temp Mail

AdGuard para Android TV

Tus datos personales se están utilizando para el entrenamiento de IA y no podrás recuperarlos

El estado de la tecnología: inspirador y confuso

¿De dónde provienen los datos?

¿Cómo eliminar los datos personales que alimentaron una IA?

¿Revelará una IA tu apariencia exacta y podrá "desaprender" cómo te ves?

Resolviendo el problema de la IA: ¿una misión imposible?

Todo listo! Algo salió mal Suscríbete a nuestras noticias

Suscríbete a nuestras noticias

Estás suscrito

Artículos recomendados

El nuevo esquema "pagar o consentir" en los medios de comunicación

La mayoría opta por bloqueadores de anuncios para experiencias sin publicidad en sitios web

El mejor correo alternativo a Gmail

El bloqueador de anuncios AdGuard ya no es compatible con Windows 7

AdGuard para Windows

AdGuard para Mac

AdGuard para Android

AdGuard para iOS

AdGuard VPN

Bloqueador de contenido AdGuard

Extensión de navegador AdGuard

Asistente de AdGuard

AdGuard DNS

AdGuard Home

AdGuard Pro para iOS

AdGuard para Safari

AdGuard Temp Mail

AdGuard para Android TV