TechTok #13. ¿Las IA usan tus datos para entrenarse?
La IA hoy parece haber encontrado su lugar en prácticamente todos los aspectos de la vida, con aplicaciones que van desde áreas obvias, como la programación o el procesamiento de imágenes, hasta otras menos evidentes, como el diagnóstico de enfermedades y el trabajo jurídico. La IA está absolutamente en todas partes. Y, aunque sepas muy poco sobre cómo funciona, probablemente ya hayas oído que toda IA necesita grandes volúmenes de datos para aprender antes de poder utilizarse.
Esos datos tienen que venir de algún lado — y eso nos lleva a la primera pregunta del TechTok de hoy:
¿Las apps y los sitios web están usando mis datos para entrenar IA sin que yo lo sepa?
No existe una respuesta corta y definitiva a esa pregunta. Lo más cercano sería: “Sí, lo hacen, pero no necesariamente de la forma en que imaginas”. Sabemos que probablemente no viniste aquí buscando una respuesta tan amplia. Pero, antes de profundizar, aclaremos algo: “entrenar IA” y “recopilar datos” no son sinónimos, aunque estén relacionados. En pocas palabras, para entrenar IA necesitas datos — así que encontrar formas de obtenerlos es uno de los mayores desafíos al crear un sistema de IA. Sin embargo, existen muchas otras razones por las que alguien podría querer acceder a tu información.
La cuestión es que el concepto de recopilación de datos en línea existe desde hace décadas, mucho antes de que la IA siquiera apareciera en el horizonte digital, y la principal fuerza detrás de la recopilación de datos de usuarios durante muchos años fue la publicidad. Se han creado sistemas extremadamente complejos para construir perfiles de usuarios y rastrearlos a través de múltiples apps y sitios web, todo con el objetivo de saber exactamente qué anuncio mostrar a qué persona y en qué momento — aumentando la probabilidad de que haga clic en el banner. El mercado de la publicidad digital se estima en unos 600 a 700 mil millones de dólares al año, y en la base de ese mercado están los datos de los usuarios — lo que da una buena idea de por qué a menudo se les llama “el nuevo petróleo”.
Por supuesto, existen otros motivos por los que las empresas buscan datos digitales: personalización, recomendaciones, detección de fraudes, facturación, retención y análisis de producto — a menudo esenciales en sectores como finanzas, retail, telecomunicaciones y marketplaces. Los motivos exactos no son el punto aquí. Lo que queremos destacar es que la recopilación masiva y global de datos no surgió con la IA. De hecho, en muchos casos, los métodos utilizados hoy para recopilar datos para el entrenamiento de IA son los mismos que ya se usaban desde hace años para otros fines, por lo que las empresas de IA no tuvieron que reinventar la rueda — o al menos ya contaban con una base muy sólida para empezar.
Los tipos de datos necesarios para el seguimiento de anuncios y para el entrenamiento de IA también se superponen bastante — algo que puede sorprender a algunas personas. Para muchos, los términos “IA” y “LLM” (modelo de lenguaje grande) son sinónimos. De hecho, los chatbots (que básicamente son interfaces orientadas al usuario con un LLM detrás) son quizá el tipo de IA con el que el usuario común más interactúa. Es lógico pensar que entrenar una IA generativa usada en chatbots requiere conjuntos de datos con grandes cantidades de texto generado por usuarios — como publicaciones y comentarios en plataformas como Reddit o X, mensajes, reseñas, etc. Esto es correcto, ya que estos modelos necesitan aprender cómo hablan realmente las personas, cómo responder preguntas y cómo funcionan las conversaciones reales — incluyendo humor, jerga y tono. Pero lo que mucha gente no percibe es la cantidad de otros tipos de IA además de la generativa, creados para distintos fines — sistemas de recomendación, ranking de búsqueda, segmentación de anuncios, por mencionar algunos. Para estos sistemas, los datos de comportamiento son esenciales, mientras que el contenido en sí es menos importante. Y muchas plataformas modernas combinan ambos enfoques: necesitan tanto el contenido en bruto como saber en qué haces clic y cuándo.
Volviendo a la pregunta inicial: sí, algunas empresas de IA usan tus datos para entrenar sus sistemas, pero en gran medida lo hacen de la misma forma en que ellas (y otras empresas) ya recopilaban tus datos antes de la IA, para otros fines. Y aquí entra la parte complicada — técnicamente, la mayoría de las empresas no recopila datos “a tus espaldas”, ya sea para entrenar IA o para cualquier otro propósito — hacerlo es ilegal en muchas jurisdicciones. Algunas incluso hacen anuncios públicos sobre el uso de datos para entrenar IA, aunque algunas suavizan esto más que otras. Al mismo tiempo, es bastante común ocultar la recopilación continua de datos en políticas de privacidad extensas, términos de uso tediosos y otros documentos legales largos y poco atractivos. Quienes tienen un sentido del humor más ácido podrían incluso encontrar curioso que las políticas de privacidad que tratan sobre el uso de datos para entrenar IA a menudo utilicen el mismo lenguaje vago y amplio que se encuentra en documentos sobre recopilación de datos para publicidad.
Pero incluso si haces tu parte y te enfrentas a todo el lenguaje legal para asegurarte de que la app que planeas instalar no utilice tus datos para alimentar la proverbial máquina, la triste realidad es que aún no estás completamente a salvo. A veces, los desarrolladores “olvidan” mencionarlo — como en el caso reciente en que OkCupid, una popular app de citas, compartió 3 millones de fotos de usuarios con una empresa de IA para entrenamiento — todo esto sin avisar a sus usuarios. Esto no es algo nuevo; las mismas prácticas cuestionables existen desde hace mucho tiempo, incluso antes de la IA. Lamentablemente, donde hay ganancias por obtener, siempre habrá quienes cierren los ojos ante la ley en beneficio propio.
¿Cómo terminan tus datos siendo utilizados para entrenar IA?
Demos un paso atrás. Ya tocamos brevemente el tema de qué datos se utilizan para entrenar IA y mencionamos que prácticamente todo vale: tanto contenido en bruto, como textos y fotos, como datos de comportamiento, como clics y otras interacciones. Pero muchos lectores probablemente quieren algo más específico y se preguntan: “¿Qué exactamente de mis datos puede terminar usándose para IA — y cómo?” Pues bien, no todos los datos se usan de la misma manera. Algunos pueden ser más sensibles, y los datos de distintas fuentes pueden alimentar la IA de formas diferentes. Si el objetivo es entrenar IA, existen innumerables fuentes posibles de datos. Para los fines de este artículo, las dividiremos en cuatro categorías, según cómo se recopilan:
- Redes sociales (datos disponibles públicamente)
- Conversaciones con chatbots (entrada directa)
- Interacciones en plataformas (datos de comportamiento)
- Apps y sitios web de terceros
Para empezar, si publicas o comentas algo de forma pública — en Reddit, YouTube, X, Facebook, etc. — eso no significa automáticamente que cualquiera pueda usar ese contenido para entrenar IA, pero normalmente tampoco tienes medios reales para impedir que la plataforma use tus datos con ese fin o los comparta con terceros. Por supuesto, todo varía bastante de una plataforma a otra, pero la regla general es: si es público, probablemente no tengas control total sobre ello. Las plataformas que no usan los datos directamente a menudo los venden o los comparten de alguna manera. Los usuarios de la UE suelen estar más protegidos, gracias a la legislación avanzada de privacidad. Regulaciones como el GDPR y el AI Act de la UE garantizan derechos como ser informado, oponerse a ciertos tratamientos, solicitar acceso o eliminación de datos en algunos casos y restringir el uso de datos personales para el entrenamiento de IA.
Pero ¿qué pasa cuando hablas directamente con un chatbot? ¿Qué probabilidad hay de que tus datos se usen para entrenar IA? Depende del servicio, claro, pero en la mayoría de las herramientas de IA orientadas al consumidor, todo lo que escribes o envías puede utilizarse para mejorar el servicio. Incluso en planes de pago, a menos que sean corporativos (no individuales), tus datos suelen seguir considerándose utilizables. Vale la pena mencionar que muchos chatbots ofrecen la opción de exclusión (opt-out), aunque a menudo está escondida en la configuración. Para muchos lectores, esta es una de las principales dudas: “¿Cómo desactivar la recopilación de datos al usar un chatbot?” En lugar de quedarnos en la teoría, aquí tienes algunos ejemplos prácticos con herramientas populares (considerando uso personal):
ChatGPT. Abre ChatGPT, ve a tu perfil, luego a Configuración → Controles de datos, y desactiva “Mejorar el modelo para todos”. OpenAI afirma que esto impide el uso de tus conversaciones para entrenamiento futuro, aunque algunos datos aún pueden conservarse.
Perplexity. Accede a Configuración de la cuenta → Preferencias y desactiva “AI data retention”. Esto solo afecta a datos futuros — los datos recopilados antes aún pueden usarse.
Gemini. En tu cuenta de Google, ve a Datos y privacidad y busca “Actividad de apps Gemini”. Selecciona “Desactivar” o “Desactivar y eliminar actividad”. Esto no afecta interacciones pasadas.
Claude.Claude no entrena sus modelos con tus conversaciones por defecto, ofreciendo solo la opción de participar voluntariamente. Si eliminas una conversación, Anthropic la borra en unos 30 días.
En cuanto a la recopilación de datos de comportamiento, una forma sencilla (y generalmente correcta) de entenderlo es: cuanto más grande es la plataforma, más depende de estos datos; las apps más pequeñas y específicas rara vez hacen un seguimiento extensivo. Plataformas grandes como YouTube, TikTok, Netflix, motores de búsqueda y e-commerces como Amazon o eBay recopilan la mayor cantidad posible de datos sobre tus actividades para mejorar recomendaciones y rankings. Esto no significa que las apps pequeñas no recopilen nada, pero este tipo de seguimiento suele ser menos relevante para ellas.
¿Y qué pasa con las apps y sitios más pequeños del día a día? No todo es chatbot o gigante tecnológico — ¿qué ocurre si instalas una app cualquiera o visitas un sitio pequeño? No se puede generalizar, ya que existen millones de ellos. Pero, en general, estas apps no recopilan datos para entrenar sus propias IAs ni venden directamente tus datos. Sin embargo, es extremadamente común que incluyan herramientas de analítica, redes publicitarias y otros mecanismos de seguimiento para monetización. Estos sistemas recopilan datos de comportamiento, información del dispositivo, patrones de uso, etc. Y cuando esos datos llegan a redes publicitarias, brokers de datos y empresas de analítica, se agregan y pueden usarse para modelado, venderse o incluso contribuir indirectamente al entrenamiento de IA.
Al ver todas estas formas en que tus datos pueden terminar en un dataset de IA, podrías pensar: “¡Esto es mucho de qué preocuparse!”. Y lo es — pero recuerda que no todos los datos que proporcionas se usan, y no todas las empresas actúan igual. Además, existen maneras de reducir la cantidad de datos recopilados. Lo que nos lleva a la segunda pregunta del TechTok de hoy:
¿Usar un bloqueador de anuncios y/o una VPN puede impedir el seguimiento y la recopilación de datos para IA?
Como hemos visto, el seguimiento relacionado con la IA ocurre de muchas formas diferentes, así que no se puede responder con un simple “sí” o “no”. Tanto los bloqueadores de anuncios como las VPN ayudan — cada uno a su manera — pero no lo resuelven todo.
Primero: ninguno de los dos ayuda si proporcionas datos activamente — como al hablar con un chatbot, publicar en redes sociales o comentar. No pueden impedir que una plataforma use algo que ya has proporcionado. En ese caso, el mejor camino son las configuraciones de privacidad, las opciones de exclusión y las leyes de protección de datos. Vale la pena revisar las políticas de privacidad y configuraciones de los servicios que utilizas — y, si no te convencen, considerar alternativas.
Lo que los bloqueadores de anuncios hacen bien es bloquear rastreadores de terceros y, en cierta medida, reducir el seguimiento de comportamiento. Bloquear analítica de terceros es, sin duda, su punto fuerte cuando se trata de evitar fugas de datos. Herramientas como AdGuard pueden manejar la mayoría de estos rastreadores en sitios web. En apps, es más complicado — especialmente por limitaciones de Android e iOS.
Los bloqueadores también ayudan a reducir la recopilación de datos de comportamiento, pero no por completo. Muchas plataformas usan seguimiento propio (first-party) y no dependen de terceros. Bloquear este tipo de seguimiento puede incluso romper funcionalidades — por ejemplo, impedir que se carguen videos en YouTube. Y, nuevamente, esto es aún más complejo en apps móviles.
Aun así, los bloqueadores son una de las mejores herramientas disponibles si el objetivo es reducir el flujo de datos hacia el entrenamiento de IA. ¿Y las VPN?
Las VPN son excelentes — algunos dirían esenciales — para la privacidad. Pero, específicamente para impedir el uso de datos en el entrenamiento de IA, su eficacia es limitada. Ayudan de forma indirecta: ocultan tu IP y enmascaran tu ubicación, dificultando la creación de perfiles basados en tu identidad de red. Sin embargo, no impiden que las plataformas vean lo que haces en ellas. Si estás conectado o interactuando con un servicio, tus clics y entradas siguen registrándose. Y las VPN tampoco bloquean rastreadores de terceros — eso sigue siendo tarea de los bloqueadores (aunque la VPN puede reducir la precisión del seguimiento).
Resumen: los bloqueadores de anuncios y las VPN son herramientas valiosas para proteger tu privacidad — especialmente los bloqueadores. Pero, al final, la seguridad de tus datos depende principalmente de tu atención y de tus decisiones. Leer políticas de privacidad, usar configuraciones adecuadas y tener cuidado con lo que compartes en línea puede reducir considerablemente las probabilidades de que tus datos terminen en el entrenamiento de alguna IA futura. Las herramientas ayudan — pero nada sustituye al buen y viejo cuidado.








