TechTok #13. AI 会用你的个人数据训练吗?

🎙️
本文属于 TechTok 系列。欢迎通过此表单提交问题,您的问题可能会出现在下一期 TechTok 中!

如今,AI 似乎已经渗透到了生活的方方面面,其应用范围从显而易见的领域(如编程、图像处理)到更多的领域(如疾病诊断、法律工作)。AI 无处不在。即使你对它的工作原理知之甚少,也至少听说过:每一款 AI 在被投入使用之前,都需要海量数据来学习。

这些数据总得有个来源,这就引出了今天 TechTok 的第一个问题:

应用和网站会不会在不知会我的情况下,用我的数据训练 AI?

对于这个问题,没有简单确切的答案。我们能给出的最好回答是:「会的,但不一定是你想的那种方式。」我们知道,你不会满足于模棱两可的答案。但在深入探讨之前,我们先明确一点:「训练 AI」和「收集数据」不是一回事,尽管它们相关。简单来说,训练 AI 需要数据,所以获取数据是构建 AI 系统时最大的挑战之一。然而,别人想得到你的信息,还有无数其他原因。

问题是,在线数据收集的概念早在 AI 出现在数字地平线之前几十年就存在了,多年来,推动用户数据收集的主要力量一直是广告。人们建立了极其复杂的系统来创建用户画像,并在各种应用和网站上跟踪用户,所有这一切都是为了精准知道:在什么时间向什么人展示什么广告,以增加该用户点击横幅的概率。数字广告市场每年估值约 6000 亿至 7000 亿美元,而用户数据正是这个市场的基石。这大概能让你明白为什么数据常被称为「新石油」。

当然,公司寻求数字数据还有其他原因:个性化、推荐、欺诈检测、计费、用户留存、产品分析。这些在金融、零售、电信、电商平台等领域通常很重要。具体原因暂且不表。我们想在这里强调的是,全球范围内猖獗的数据收集并非由 AI 的出现和随后的普及所催生。事实上,如今用于收集 AI 训练数据的许多方法,与多年来用于其他目的的方法如出一辙,所以 AI 公司无需重新发明洗方法,或者说,至少它们已经有了非常坚实的基础。

广告跟踪和 AI 训练所需的数据类型也高度重叠。这可能会让一些人感到意外。在很多人的认知中,「AI」和「LLM」(大语言模型)是同义词。的确,聊天机器人(本质上是面向用户的界面,底层是 LLM)可能是普通用户最常接触的 AI 类型。常识告诉我们,训练用于聊天机器人的生成式 AI 需要包含大量用户生成文本的数据集,例如 Reddit 或 X 等在线平台上的帖子和评论、聊天输入、用户评价等。这是正确的,因为这些 LLM 需要学习人们实际如何说话、如何回答问题、现实生活中的对话如何流动;还有玩笑、俚语、语气等。但很多人没有意识到的是,除了生成式 AI,还有多少不同类型的 AI 是为各种不同目的而构建的,推荐系统、搜索排序、广告定向,仅举几例。对于这些 AI 系统,行为数据才是王道,内容本身反而不那么重要。许多现代平台将两种方法结合:它们既需要原始内容,也想知道你何时点击了什么。

所以,回到最初的问题:是的,一些 AI 公司确实利用个人数据来训练它们的系统,但它们在很大程度上,与以前(和其他公司)为其他目的收集个人数据的方式是一样的。这里就涉及一个棘手的问题。技术上来说,大多数公司并非在你背后偷偷摸摸地收集数据,无论是用于训练 AI 还是其他目的,因为这样做在许多司法管辖区是违法的。有些公司甚至公开发布声明,打算用个人数据训练 AI,尽管有的 公司措辞比较委婉,有的则更直接。与此同时,更普遍的做法是将持续的数据收集隐藏在冗长的隐私政策、繁琐的服务条款和其他又长又无聊的法律文件中。有点黑色幽默的是,涵盖 AI 训练数据收集的隐私政策,其使用的模糊语言和宽泛措辞,与你在关于广告跟踪数据收集的类似文件中看到的如出一辙。

但即便你硬着头皮读完了所有法律条款,确认自己想安装的应用不会把个人数据喂给那台传说中的机器,残酷的现实是,你仍然不能高枕无忧。有时开发者会「忘记」提及此事,就在最近就有一个案例:知名约会应用 OkCupid 将 300 万用户的照片分享给一家 AI 公司用于训练。这一切都是在未告知用户的情况下进行的。这并非新鲜事,早在 AI 出现之前,同样阴暗的做法就一直存在。不幸的是,哪里有利润可图,哪里就总有人愿意为了自己的利益而牺牲他人、漠视法律。

个人数据最终如何成为 AI 的训练素材?

现在让我们退一步。我们已经稍微触及了哪些数据被用于训练 AI 这个话题,并提到什么数据都有可能:既有原始内容(如文本和照片),也有行为数据(如点击和其他交互)。但许多读者可能希望我们说得更具体一些,他们想知道:「我的哪些数据最终可能被用于 AI,以及如何被使用?」 并非所有数据都以同样的方式被使用。有些数据可能更敏感,来自不同来源的数据喂养 AI 的方式也可能不同。如果你的目标是训练 AI,有无数潜在的数据来源。出于本文的目的,我们将根据数据收集的方式将其分为四类:

  • 社交媒体(公开可用数据)
  • 聊天机器人对话(直接输入)
  • 平台交互(行为数据)
  • 第三方应用和网站

首先,如果你公开发布了帖子或评论,无论是在 Reddit、YouTube、X、Facebook 等平台,这并不自动意味着任何人都可以将其用于 AI 训练,但你也通常没有任何实际手段能禁止该平台用用户的内容训练 AI 或与第三方分享你的数据。当然,不同平台差异很大,但经验法则仍然成立:如果是公开的,你可能就无法控制它。那些不自己利用用户数据的平台,往往会以某种形式或方式将其出售或分享给他人。得益于欧盟先进的隐私立法,欧盟用户通常比其他人受到更好的保护。GDPR 和欧盟 AI 法案等法规赋予欧盟公民知情权、反对某些处理的权利、在某些情况下要求访问或删除其数据的权利,以及对将其个人数据用于 AI 训练提出质疑或施加限制的权利。

但如果你直接与聊天机器人对话,输入被用于 AI 训练的可能性有多大?当然取决于服务,但对于面向消费者的 AI 工具来说,你输入或上传的任何内容通常都可能被用于改进该服务。即使你是付费用户,除非是企业/商业计划(而非个人计划),个人数据基本上仍被视为可用的。需要指出的是,许多 AI 聊天机器人至少为用户提供了选择退出的功能,尽管在许多情况下,这些功能深藏在设置的某个角落。我们猜想,对于本文的许多读者来说,这是一个关键问题:「如何在与我的聊天机器人对话时选择退出数据收集?」 在这里提供一些实用的建议,而不是泛泛而谈,似乎很重要。聊天机器人有成百上千个,甚至更多,所以让我们聚焦于最常用的一些(假设均为个人使用,而非企业或类似场景):

  1. ChatGPT。打开 ChatGPT,进入个人资料,然后选择「设置」→「数据控制」,关闭「为所有人改进模型」。OpenAI 表示,这将阻止你未来的聊天记录被用于训练 ChatGPT,但可能仍会有一些数据保留。OpenAI 过去也曾通过发送邮件给支持团队来授予退出状态。如果你在过去某个时间点这样做过,OpenAI 声称仍会尊重该请求,但新用户已无法通过此路径操作。

  2. Perplexity。打开账户「设置」→「偏好设置」,关闭「AI 数据保留」。请注意,此退出操作仅影响未来数据,在退出日期之前收集的任何数据可能会被 Perplexity 用于 AI 训练,且无法删除或移除。

  3. Gemini。在 Google 账户中,进入「数据和隐私」,找到「Gemini 应用活动」,然后选择「关闭」或「关闭并删除活动」。这只会防止未来的数据被采样,不会影响任何过去的交互。请注意,在使用 Gemini 的多个 Google 产品中,具体的训练/隐私行为将取决于该产品。

  4. ClaudeClaude 默认不会用用户的对话训练其模型,只提供一个手动选择加入的选项。如果你删除一段对话,Anthropic 会在大约 30 天内从系统中移除它。

至于行为数据收集,一个简单(但大致准确)的理解方式是:平台越大,它就越依赖用户的行为数据;较小的、功能单一的应用和服务很少会跟踪你的行为。大型内容平台如 YouTube、TikTok 或 Netflix、搜索引擎、电商平台如 Amazon 或 eBay,这些是你确定无疑的。它们会尽可能多地收集你的活动数据,以优化它们的推荐和排序算法。这并不意味着小型应用完全不这样做,但对于它们来说,这种跟踪的意义要小得多。

但是那些我们日常使用的「普通」小型应用和网站呢?并非一切都是聊天机器人和大型平台,如果你只是安装一个随机的应用或游戏,或者访问一个小型网站呢?同样,不可能给出一个适用于所有的答案,因为这样的应用和网站数以百万计。但总的来说,这类小型应用和网站对个人数据不感兴趣,不是为了训练自己的 AI,也很少直接将用户数据出售给可能感兴趣的第三方。然而,这些应用和网站的开发者普遍会嵌入分析 SDK、广告网络和其他跟踪工具以实现变现。这些工具可以(而且确实会)收集行为数据、设备信息、使用模式等。当这些数据到达广告网络、数据经纪商和分析公司时,它们会被汇总,并且很容易被用于建模、出售,或以其他方式间接地促成 AI 训练(当然,这只是众多用途之一)。

当你看到个人数据可能通过这么多途径进入某个 AI 的训练数据集时,你可能会想:「这也太多要担心的了!」这话不假,但也要记住,并非你提供的每一点信息都会被使用,也不是所有公司的行为都一样。最后但同样重要的是,有一些方法可以尽量减少收集个人数据量。这就引出了今天 TechTok 的第二个问题:

使用广告拦截程序和/或 VPN 能阻止 AI 跟踪和数据收集吗?

正如你刚才所见,AI 跟踪的形式多种多样,以至于不可能对这个问题给出简单的「是或否」的答案。广告拦截程序和 VPN 都有帮助,各有各的方式,但并非能应对一切。

首先,如果你主动提供数据(与聊天机器人对话、在社交媒体上发帖、发表评论)这两者都帮不了你。广告拦截程序和 VPN 无法神奇地禁止平台使用你已经直接或间接提供给它的东西。针对这类数据收集,最好的武器是隐私设置、选择退出的开关。查看所使用的平台和应用的隐私政策以及可用的隐私设置,如果让你不满意,考虑换一个选择。

广告拦截程序能帮上忙的是对付那些为将来使用而收集个人数据的第三方跟踪器,以及在一定程度上对付行为跟踪。阻止第三方分析,无疑是广告拦截程序在防止个人数据泄露方面的最强项。像 AdGuard 这样的广告拦截程序可以处理网站上的绝大多数(如果不是全部)第三方跟踪器。在应用内部,情况可能会更棘手,但总体而言,Android 和 iOS 在干扰其他应用流量方面有相当严格的限制。

广告拦截程序也可以帮助阻止行为数据的收集,但无法完全做到。不幸的是,大多数主流平台严重依赖第一方跟踪,根本不需要第三方来构建推荐系统、训练模型和分析行为。通常,阻止第一方跟踪,尤其是在大型平台上,会干扰有用的功能,想象一下,你阻止了 YouTube 上的第一方跟踪,结果视频突然无法加载了。再次强调,这些问题在移动应用中比在网站上更为突出。

尽管如此,如果你的目标是减少对 AI 训练算法的数据供给,广告拦截程序是你可用的最佳工具之一。那 VPN 呢

VPN 对于隐私保护非常有用,有些人甚至说是必不可少的。但具体到阻止个人数据被用于 AI 训练,它的作用有限。尽管如此,它们还是有帮助的,但不是以直接的方式。VPN 隐藏你的 IP 地址和位置,使网站和第三方跟踪器更难将你的活动关联到不同网站,或根据你的网络身份构建画像。然而,VPN 并不能阻止你使用的平台看到你在上面做了什么。如果你登录了某个账户,或者只是在与某个网站或应用互动,你的点击、搜索和输入仍然会被该服务直接记录。VPN 也无法阻止第三方跟踪器收集你的信息,这项工作还是交给广告拦截程序吧(尽管 VPN 可能使跟踪变得不那么精确)。

总结一下:广告拦截程序和 VPN 是个人隐私保护武器库中的有力工具,如果你想保护自己的数据不被用作 AI 训练素材,它们绝对没有坏处,尤其是广告拦截程序。但归根结底,个人数据安全首先取决于你自己的警觉。如果你在使用应用和服务之前研究隐私政策,如果你在网上发布内容和与聊天机器人分享信息时保持谨慎,个人详细信息成为未来某个 AI 学习数据集一部分的可能性就会大大降低。拥有强大的工具固然好,但小心驶得万年船。

喜欢这篇文章吗?
AdGuard DNS AdGuard Mail AdGuard Wallet
AdGuard DNS AdGuard Mail AdGuard Wallet
21,437 21437 用户评论
完美!

Windows 版广告拦截程序

Windows 版 AdGuard 不只是广告拦截程序,它是集成所有让您享受最佳网络体验的主要功能的多用途工具。其可拦截广告和危险网站,加速网页加载速度,并且保护儿童的在线安全。
下载本程序表示您接受 许可协议 的条款
Microsoft应用商店
Windows 版广告拦截程序 7.22 版本,14 天的试用期
21,437 21437 用户评论
完美!

Mac 版广告拦截程序

Mac 版 AdGuard 是一款独一无二的专为 MacOS 设计的广告拦截程序。除了保护用户免受浏览器和应用程序里恼人广告的侵扰外,应用程序还能保护用户免受跟踪、网络钓鱼和诈骗。
下载本程序表示您接受 许可协议 的条款
阅读更多
Mac 版广告拦截程序 2.18 版本,14 天的试用期
21,437 21437 用户评论
完美!

Android 版广告拦截程序

安卓版的 AdGuard 是一个用于安卓设备的完美解决方案。与其他大多数广告拦截器不同,AdGuard 不需要 Root 权限,提供广泛的应用程序管理选项。
下载本程序表示您接受 许可协议 的条款
阅读更多
扫码下载
可以使用任何一款 QR 码阅读器
Android 版广告拦截程序 4.12 版本,14 天的试用期
21,437 21437 用户评论
完美!

iOS 版广告拦截程序

用于 iPhone 和 iPad 的最佳 iOS 广告拦截程序。AdGuard 可以清除 Safari 中的各种广告,保护个人隐私,并加快页面加载速度。iOS 版 AdGuard 广告拦截技术确保最高质量的过滤,并让用户同时使用多个过滤器。
下载本程序表示您接受 许可协议 的条款
阅读更多
扫码下载
可以使用任何一款 QR 码阅读器
iOS 版广告拦截程序 版本 4.5
21,437 21437 用户评论
完美!

AdGuard 内容拦截程序

AdGuard 内容拦截器可以全面屏蔽所有支持内容拦截技术的移动浏览器中的广告,目前包括 Samsung Internet 浏览器和 Yandex 浏览器。虽然其功能相比 Android 版 AdGuard 有所限制,但它完全免费、安装简单且拦截高效。
下载本程序表示您接受 许可协议 的条款
阅读更多
AdGuard 内容拦截程序 版本 2.8
21,437 21437 用户评论
完美!

AdGuard 浏览器扩展

AdGuard 是快速的、小内存的广告拦截扩展,可高效拦截所有网页上的各种广告!选择所需的 AdGuard 浏览器扩展,您可进行无广告、快速、安全的浏览。
安装
下载本程序表示您接受 许可协议 的条款
安装
下载本程序表示您接受 许可协议 的条款
安装
下载本程序表示您接受 许可协议 的条款
安装
下载本程序表示您接受 许可协议 的条款
安装
下载本程序表示您接受 许可协议 的条款
阅读更多
AdGuard 浏览器扩展 版本 5.4
21,437 21437 用户评论
完美!

AdGuard 助手

AdGuard 桌面应用的配套浏览器扩展。支持拦截网页特定内容、将网站添加至白名单,并直接从浏览器提交报告。
AdGuard 助手 版本 1.4
21,437 21437 用户评论
完美!

AdGuard Home

AdGuard Home 是一种基于网络的广告和跟踪器拦截解决方案。只需在您的路由器上安装一次,即可覆盖您家庭网络中的所有设备——无需额外的客户端软件。这对于各种经常威胁您隐私的物联网设备尤其重要。
AdGuard Home 版本 0.107
21,437 21437 用户评论
完美!

AdGuard Pro iOS 版

AdGuard Pro iOS 版预置全部高级广告拦截防护功能,提供与 AdGuard iOS 版付费版完全相同的工具集。其卓越之处在于:不仅能精准拦截 Safari 浏览器内的广告,更支持自定义 DNS 设置以精细化防护策略。该产品具备跨浏览器与应用的全方位广告拦截能力,有效防护儿童远离不良内容,并全面保障个人数据安全。
下载本程序表示您接受 许可协议 的条款
阅读更多
AdGuard Pro iOS 版 版本 4.5
21,437 21437 用户评论
完美!

AdGuard Mini Mac 版:Safari 广告拦截程序

AdGuard Mini Mac 版是一款强大的 Safari 广告拦截程序。这款轻量级应用不仅能移除广告、拦截跟踪器,还能显著提升网页加载速度。它让您在 Safari 中专注浏览、免受干扰,同时确保个人数据安全私密。
安装
下载本程序表示您接受 许可协议 的条款
阅读更多
AdGuard Mini Mac版 版本 2.2
21,437 21437 用户评论
完美!

AdGuard Android TV 版

Android TV版 AdGuard 是唯一一款能拦截广告、保护隐私并充当智能电视防火墙的应用程序。获取网络威胁警告,使用安全 DNS,并受益于加密流量。有了安全性和零广告的使用体验,用户就可以尽情享受最喜爱的节目了!
AdGuard Android TV 版 4.12 版本,14 天的试用期
21,437 21437 用户评论
完美!

AdGuard Linux版

AdGuard Linux 版是世界上第一个系统级广告拦截器。拦截广告和跟踪器,选择预设过滤器或添加自己的过滤器。管理流程通过命令行界面实现。
AdGuard Linux版 版本 1.3
21,437 21437 用户评论
完美!

AdGuard Temp Mail

免费的临时电子邮件地址生成器,保持匿名性并保护个人隐私。你的主收件箱中不会出现垃圾邮件!
21,437 21437 用户评论
完美!

AdGuard DNS

AdGuard DNS 是广告拦截、隐私保护及家长控制的简约三合一解决方案。其不但易于设置且免费,无论您使用的是何种平台或设备,都可以提供最基础的保护对抗在线广告、跟踪器及钓鱼。
21,437 21437 用户评论
完美!

AdGuard Mail

保护个人身份,避免垃圾邮件,并使用我们的别名和临时电子邮件地址保护收件箱。享受我们的免费电子邮箱转发服务和适用于所有操作系统的应用程序使用体验。
21,437 21437 用户评论
完美!

AdGuard Wallet

一个安全且私密的加密钱包,让您完全控制资产。管理多个钱包,发现数千种加密货币以存储、发送和兑换。
已开始下载 AdGuard 点击箭头指示的文件开始安装 AdGuard。 选择“打开”并点击“确定”,然后稍作等待直至文件加载完毕。在已经打开的窗口中,将 AdGuard 图标拖拽至“Applications”文件夹内即可完成安装。感谢您选择 AdGuard! 选择“打开”并点击“确定”,然后稍作等待直至文件下载完毕。然后,在打开的窗口中点击“安装”即可。感谢您选择 AdGuard!
将 AdGuard 安装到移动设备上