TechTok #13. AI 会用你的个人数据训练吗?
如今,AI 似乎已经渗透到了生活的方方面面,其应用范围从显而易见的领域(如编程、图像处理)到更多的领域(如疾病诊断、法律工作)。AI 无处不在。即使你对它的工作原理知之甚少,也至少听说过:每一款 AI 在被投入使用之前,都需要海量数据来学习。
这些数据总得有个来源,这就引出了今天 TechTok 的第一个问题:
应用和网站会不会在不知会我的情况下,用我的数据训练 AI?
对于这个问题,没有简单确切的答案。我们能给出的最好回答是:「会的,但不一定是你想的那种方式。」我们知道,你不会满足于模棱两可的答案。但在深入探讨之前,我们先明确一点:「训练 AI」和「收集数据」不是一回事,尽管它们相关。简单来说,训练 AI 需要数据,所以获取数据是构建 AI 系统时最大的挑战之一。然而,别人想得到你的信息,还有无数其他原因。
问题是,在线数据收集的概念早在 AI 出现在数字地平线之前几十年就存在了,多年来,推动用户数据收集的主要力量一直是广告。人们建立了极其复杂的系统来创建用户画像,并在各种应用和网站上跟踪用户,所有这一切都是为了精准知道:在什么时间向什么人展示什么广告,以增加该用户点击横幅的概率。数字广告市场每年估值约 6000 亿至 7000 亿美元,而用户数据正是这个市场的基石。这大概能让你明白为什么数据常被称为「新石油」。
当然,公司寻求数字数据还有其他原因:个性化、推荐、欺诈检测、计费、用户留存、产品分析。这些在金融、零售、电信、电商平台等领域通常很重要。具体原因暂且不表。我们想在这里强调的是,全球范围内猖獗的数据收集并非由 AI 的出现和随后的普及所催生。事实上,如今用于收集 AI 训练数据的许多方法,与多年来用于其他目的的方法如出一辙,所以 AI 公司无需重新发明洗方法,或者说,至少它们已经有了非常坚实的基础。
广告跟踪和 AI 训练所需的数据类型也高度重叠。这可能会让一些人感到意外。在很多人的认知中,「AI」和「LLM」(大语言模型)是同义词。的确,聊天机器人(本质上是面向用户的界面,底层是 LLM)可能是普通用户最常接触的 AI 类型。常识告诉我们,训练用于聊天机器人的生成式 AI 需要包含大量用户生成文本的数据集,例如 Reddit 或 X 等在线平台上的帖子和评论、聊天输入、用户评价等。这是正确的,因为这些 LLM 需要学习人们实际如何说话、如何回答问题、现实生活中的对话如何流动;还有玩笑、俚语、语气等。但很多人没有意识到的是,除了生成式 AI,还有多少不同类型的 AI 是为各种不同目的而构建的,推荐系统、搜索排序、广告定向,仅举几例。对于这些 AI 系统,行为数据才是王道,内容本身反而不那么重要。许多现代平台将两种方法结合:它们既需要原始内容,也想知道你何时点击了什么。
所以,回到最初的问题:是的,一些 AI 公司确实利用个人数据来训练它们的系统,但它们在很大程度上,与以前(和其他公司)为其他目的收集个人数据的方式是一样的。这里就涉及一个棘手的问题。技术上来说,大多数公司并非在你背后偷偷摸摸地收集数据,无论是用于训练 AI 还是其他目的,因为这样做在许多司法管辖区是违法的。有些公司甚至公开发布声明,打算用个人数据训练 AI,尽管有的 公司措辞比较委婉,有的则更直接。与此同时,更普遍的做法是将持续的数据收集隐藏在冗长的隐私政策、繁琐的服务条款和其他又长又无聊的法律文件中。有点黑色幽默的是,涵盖 AI 训练数据收集的隐私政策,其使用的模糊语言和宽泛措辞,与你在关于广告跟踪数据收集的类似文件中看到的如出一辙。
但即便你硬着头皮读完了所有法律条款,确认自己想安装的应用不会把个人数据喂给那台传说中的机器,残酷的现实是,你仍然不能高枕无忧。有时开发者会「忘记」提及此事,就在最近就有一个案例:知名约会应用 OkCupid 将 300 万用户的照片分享给一家 AI 公司用于训练。这一切都是在未告知用户的情况下进行的。这并非新鲜事,早在 AI 出现之前,同样阴暗的做法就一直存在。不幸的是,哪里有利润可图,哪里就总有人愿意为了自己的利益而牺牲他人、漠视法律。
个人数据最终如何成为 AI 的训练素材?
现在让我们退一步。我们已经稍微触及了哪些数据被用于训练 AI 这个话题,并提到什么数据都有可能:既有原始内容(如文本和照片),也有行为数据(如点击和其他交互)。但许多读者可能希望我们说得更具体一些,他们想知道:「我的哪些数据最终可能被用于 AI,以及如何被使用?」 并非所有数据都以同样的方式被使用。有些数据可能更敏感,来自不同来源的数据喂养 AI 的方式也可能不同。如果你的目标是训练 AI,有无数潜在的数据来源。出于本文的目的,我们将根据数据收集的方式将其分为四类:
- 社交媒体(公开可用数据)
- 聊天机器人对话(直接输入)
- 平台交互(行为数据)
- 第三方应用和网站
首先,如果你公开发布了帖子或评论,无论是在 Reddit、YouTube、X、Facebook 等平台,这并不自动意味着任何人都可以将其用于 AI 训练,但你也通常没有任何实际手段能禁止该平台用用户的内容训练 AI 或与第三方分享你的数据。当然,不同平台差异很大,但经验法则仍然成立:如果是公开的,你可能就无法控制它。那些不自己利用用户数据的平台,往往会以某种形式或方式将其出售或分享给他人。得益于欧盟先进的隐私立法,欧盟用户通常比其他人受到更好的保护。GDPR 和欧盟 AI 法案等法规赋予欧盟公民知情权、反对某些处理的权利、在某些情况下要求访问或删除其数据的权利,以及对将其个人数据用于 AI 训练提出质疑或施加限制的权利。
但如果你直接与聊天机器人对话,输入被用于 AI 训练的可能性有多大?当然取决于服务,但对于面向消费者的 AI 工具来说,你输入或上传的任何内容通常都可能被用于改进该服务。即使你是付费用户,除非是企业/商业计划(而非个人计划),个人数据基本上仍被视为可用的。需要指出的是,许多 AI 聊天机器人至少为用户提供了选择退出的功能,尽管在许多情况下,这些功能深藏在设置的某个角落。我们猜想,对于本文的许多读者来说,这是一个关键问题:「如何在与我的聊天机器人对话时选择退出数据收集?」 在这里提供一些实用的建议,而不是泛泛而谈,似乎很重要。聊天机器人有成百上千个,甚至更多,所以让我们聚焦于最常用的一些(假设均为个人使用,而非企业或类似场景):
ChatGPT。打开 ChatGPT,进入个人资料,然后选择「设置」→「数据控制」,关闭「为所有人改进模型」。OpenAI 表示,这将阻止你未来的聊天记录被用于训练 ChatGPT,但可能仍会有一些数据保留。OpenAI 过去也曾通过发送邮件给支持团队来授予退出状态。如果你在过去某个时间点这样做过,OpenAI 声称仍会尊重该请求,但新用户已无法通过此路径操作。
Perplexity。打开账户「设置」→「偏好设置」,关闭「AI 数据保留」。请注意,此退出操作仅影响未来数据,在退出日期之前收集的任何数据可能会被 Perplexity 用于 AI 训练,且无法删除或移除。
Gemini。在 Google 账户中,进入「数据和隐私」,找到「Gemini 应用活动」,然后选择「关闭」或「关闭并删除活动」。这只会防止未来的数据被采样,不会影响任何过去的交互。请注意,在使用 Gemini 的多个 Google 产品中,具体的训练/隐私行为将取决于该产品。
Claude。 Claude 默认不会用用户的对话训练其模型,只提供一个手动选择加入的选项。如果你删除一段对话,Anthropic 会在大约 30 天内从系统中移除它。
至于行为数据收集,一个简单(但大致准确)的理解方式是:平台越大,它就越依赖用户的行为数据;较小的、功能单一的应用和服务很少会跟踪你的行为。大型内容平台如 YouTube、TikTok 或 Netflix、搜索引擎、电商平台如 Amazon 或 eBay,这些是你确定无疑的。它们会尽可能多地收集你的活动数据,以优化它们的推荐和排序算法。这并不意味着小型应用完全不这样做,但对于它们来说,这种跟踪的意义要小得多。
但是那些我们日常使用的「普通」小型应用和网站呢?并非一切都是聊天机器人和大型平台,如果你只是安装一个随机的应用或游戏,或者访问一个小型网站呢?同样,不可能给出一个适用于所有的答案,因为这样的应用和网站数以百万计。但总的来说,这类小型应用和网站对个人数据不感兴趣,不是为了训练自己的 AI,也很少直接将用户数据出售给可能感兴趣的第三方。然而,这些应用和网站的开发者普遍会嵌入分析 SDK、广告网络和其他跟踪工具以实现变现。这些工具可以(而且确实会)收集行为数据、设备信息、使用模式等。当这些数据到达广告网络、数据经纪商和分析公司时,它们会被汇总,并且很容易被用于建模、出售,或以其他方式间接地促成 AI 训练(当然,这只是众多用途之一)。
当你看到个人数据可能通过这么多途径进入某个 AI 的训练数据集时,你可能会想:「这也太多要担心的了!」这话不假,但也要记住,并非你提供的每一点信息都会被使用,也不是所有公司的行为都一样。最后但同样重要的是,有一些方法可以尽量减少收集个人数据量。这就引出了今天 TechTok 的第二个问题:
使用广告拦截程序和/或 VPN 能阻止 AI 跟踪和数据收集吗?
正如你刚才所见,AI 跟踪的形式多种多样,以至于不可能对这个问题给出简单的「是或否」的答案。广告拦截程序和 VPN 都有帮助,各有各的方式,但并非能应对一切。
首先,如果你主动提供数据(与聊天机器人对话、在社交媒体上发帖、发表评论)这两者都帮不了你。广告拦截程序和 VPN 无法神奇地禁止平台使用你已经直接或间接提供给它的东西。针对这类数据收集,最好的武器是隐私设置、选择退出的开关。查看所使用的平台和应用的隐私政策以及可用的隐私设置,如果让你不满意,考虑换一个选择。
广告拦截程序能帮上忙的是对付那些为将来使用而收集个人数据的第三方跟踪器,以及在一定程度上对付行为跟踪。阻止第三方分析,无疑是广告拦截程序在防止个人数据泄露方面的最强项。像 AdGuard 这样的广告拦截程序可以处理网站上的绝大多数(如果不是全部)第三方跟踪器。在应用内部,情况可能会更棘手,但总体而言,Android 和 iOS 在干扰其他应用流量方面有相当严格的限制。
广告拦截程序也可以帮助阻止行为数据的收集,但无法完全做到。不幸的是,大多数主流平台严重依赖第一方跟踪,根本不需要第三方来构建推荐系统、训练模型和分析行为。通常,阻止第一方跟踪,尤其是在大型平台上,会干扰有用的功能,想象一下,你阻止了 YouTube 上的第一方跟踪,结果视频突然无法加载了。再次强调,这些问题在移动应用中比在网站上更为突出。
尽管如此,如果你的目标是减少对 AI 训练算法的数据供给,广告拦截程序是你可用的最佳工具之一。那 VPN 呢?
VPN 对于隐私保护非常有用,有些人甚至说是必不可少的。但具体到阻止个人数据被用于 AI 训练,它的作用有限。尽管如此,它们还是有帮助的,但不是以直接的方式。VPN 隐藏你的 IP 地址和位置,使网站和第三方跟踪器更难将你的活动关联到不同网站,或根据你的网络身份构建画像。然而,VPN 并不能阻止你使用的平台看到你在上面做了什么。如果你登录了某个账户,或者只是在与某个网站或应用互动,你的点击、搜索和输入仍然会被该服务直接记录。VPN 也无法阻止第三方跟踪器收集你的信息,这项工作还是交给广告拦截程序吧(尽管 VPN 可能使跟踪变得不那么精确)。
总结一下:广告拦截程序和 VPN 是个人隐私保护武器库中的有力工具,如果你想保护自己的数据不被用作 AI 训练素材,它们绝对没有坏处,尤其是广告拦截程序。但归根结底,个人数据安全首先取决于你自己的警觉。如果你在使用应用和服务之前研究隐私政策,如果你在网上发布内容和与聊天机器人分享信息时保持谨慎,个人详细信息成为未来某个 AI 学习数据集一部分的可能性就会大大降低。拥有强大的工具固然好,但小心驶得万年船。






