跟我说一个秘密,我保证会说出去。语音助理,那个有可能会背叛你告密的朋友
众所周知,谷歌、亚马逊、苹果、微软等科技巨头会收集并泄漏关于用户的大量数据。不过,用户无法放弃不使用他们的产品。语音助手是这些产品的其中之一。
让 Siri 讲笑话、睡前小故事,于是你不会再觉得寂寞或无聊。如你无法做决定,可以请 Siri 抛硬币,或是加一下魔法并使用哈利波特的法术而不是命令。而对于一些人来说,语音助手能使生活大大简化:例如,对于那些有视力问题的人来说。
事实上,语音助手给我们的日常生活方式带来越来越多的便捷。开车时,你不用手就可以接电话、发短信、设置导航、查新闻等等。语音助手帮我们做个能“一心多用”的人。在智能家居里,你可以让助手开门或开灯。你可以通过口述发送短信。也许可以不会说外语,但依然能跟外国人沟通。
不过,高度便捷却是一把双刃剑。语音助手是个比较敏感的话题。你也许很喜欢且支持语音助手,也可能感到害怕,更愿意避免使用它们。这不是没有原因的。大型科技公司的关注点主要不在语音助手上,所以数据保护问题往往被忽视。
问题№1:数据在云端上被处理
实际上有几个语音助手运作的方式。有一部分语音助手先记录并压缩录音数据,然后将数据发送给公司的服务器,服务器则处理这些数据。结果是,某一个包含语音助手技术的“响应”返回到用户的手机或其他某一台设备上,而这个语音助手技术使用语音合成系统以创建连贯性对话的印象。
在这种情况下,在云端保存的是语音数据。直到最近,这是唯一的选择。以前,准确地解释语音命令需要的计算能力远远超过一个单一设备所能包含的能力。通过云端语音处理的方式,用更少的资源就能做到做更多的事情。
2021年末,在一连串关于数据泄漏和重大错误的丑闻发生后,大部分科技巨头(包括谷歌、亚马逊、微软、苹果和三星等公司)快速更新了其隐私政策和所使用的技术。现在,大部分企业至少部分地使用设备上的语音处理。而这可能已经缓解了一些与隐私有关的焦虑:如果用户的声音不离开设备,没有人会知道用户的声音,并利用其来获利。但事实上,这几乎没有对情况产生任何改变。
他们依然继续收集数据,就是变成文本格式。他们会在本地处理语音数据,设备给服务器传送抄本以了解用户所说的内容并进行回复。
而且只有一小部分命令,如"将闹钟设置为早上7点"或"给妈妈打电话",不需要互联网连接。转录的内容不会发送到任何地方,一切都在用户的设备上本地处理。
不错,那问题到底是什么呢?
问题在于云端。数据在本地存储时是安全的(至少是比较安全的)。除了用户自己,没有他人可以访问个人数据,但是有更多的人可以访问云端。
在少部分情况下,当有人侵入你的手机时,他们只可以访问你的数据。不过,如果你的数据存储在云端上,关于数百万个用户的信息都会泄漏或侵入。
也许是致命的错误
如你没有禁用「唤醒词」的功能,语音助手将不断监听你。他们需要这个唤醒词来开始互动,所以语音助手需要一直处于一种"等待模式",比如 Hey Siri!或一个城市名,甚至是拉链声。语音助手将随机短语错误识别为唤醒词的情况数不胜数,在后台播放的电视节目中,在友好的对话中,在英国议员在下议院的发言... 此外,任何在唤醒词之后说的话都被识别为命令。即使用户本来不想说话,语音助手默默听。
问题№2:公司允许工作人员听你聊天
如果你允许你的语音助手听你说话,请做好准备,不仅仅是它会知道你的个人事情。为了分析语音助手回应多精准,公司聘请了语言学专家来听用户与助理之间的对话录音。
没错,他们仅在通过用户的同意进行监听。没错,他们监听的录音只有小比例。没错,所有信息都是匿名的。不过,首先,谁都会犯错误。我们曾发布过关于苹果公司在用户拒绝后依然记录用户的录音数据的文章。此外, 据报道,约有 1000 个单词序列可能被各种语音助手错误识别为唤醒词。所听的录音可以包含任何可以想象到和想不到的信息:家庭争吵、医生和病人之间的对话、商业交易、毒品交易、夫妻做爱等等。
其次,信息确实是匿名的,但仅在法律规定的最低限度内。这些记录包含用户的位置数据、用户们的联系细节和来自应用程序的信息。从这些个人数据中识别用户的身份不会碰到任何障碍。
上述的信息不仅已经使用户易受伤害,陌生人听你讲话也会很容易违反医疗惯例,破坏保密性。你想一想,比如你是一名医生。你已经禁用了你的语音助手记录语音数据。但由于偶然的系统故障,你与病人的对话被记录下来并传到了语音分析专家那里。或者你想要允许你的声音被记录下来,但只是因为你个人认为语音助手只会记录你发出的命令。不过,“语音朋友”听错了,在咨询过程中开始记录。在这种情况下,谁对违反保密规定有过错?
问题№3:只要TA们想要,TA们即可知道得多(且不仅仅是TA们)
即使用户个人信息不属于被分析的数据的小比例,用户个人数据还是存储在服务器。只有用户拒绝,苹果公司才不会存储用户口述内容的记录本。微软公司不在询问用户同意就允许自己访问用户的语音记录本 。亚马逊则存储诸多音频资料。不久之前,推特的用户发布一张图,显示 Alexa 保存的个人数据数量。路透社记者报告,在四年内亚马逊的 Alexa 记录了超过 9 万关于他和他家人的录音资料。顺便再说一句,如果你想向亚马逊索取你的档案资料,在他们的网站上有详细的说明如何去做。
虽然随机声音的录音没有商业价值,但用户与语音助手的实际对话的录音却有商业价值。没有公司不想知道用户对什么感兴趣,但还是有些公司比其他公司更想知道所有细节。用户在网上搜索什么,买什么,看什么频道,有空更愿意做什么等等。这都是可盈利的数据。对一些人来说,访问它们的诱惑太大了。
除此以外,还有其他人在追求用户的数据。这些人包括黑客和执法机构,以及冒充警察的黑客。后者可能会出于欺诈目的向苹果和 Meta 索取你的数据。个人数据可能会在网上"泄露",并被情报机构的成员索取。而且我们记得,语音助手收集的数据往往包含你在任何情况下都不愿意透露的个人信息。
说到数据泄漏,根据 Wired Amazon 去年的一项调查,亚马逊已经收集了太多数据,以至于公司几乎没有能力管理这些数据。公司内部人士称,亚马逊经常不知道用户数据存储在哪里,因此无法识别潜在的数据泄露。
问题№4:并非所有的东西都能被删除
另外,亚马逊也无法准确地告诉用户,个人数据是否已经根据用户的要求被删除。用户可以要求记录你与语音助手的互动,并要求公司删除它们。这种方法适用于大多数语音助手,包括 Alexa、Cortana 和谷歌助手。至于 Siri,苹果不会向你发送日志或删除超过6个月的数据。六个月后,用户的数据会从设备的随机 ID 中解开,并可被苹果公司用于改进其语音识别功能。但是,如果公司已经同意删除数据,它就会删除,不是吗?
理论上,如用户要求供应商自己与语音助手互动的记录数据,用户希望该公司删除已处理的请求队列,该队列与用户的 ID 绑定因此与你绑定的信息。不过,同时在处理删除过程的方面关于用户的信息被储存起来。系统至少会保存用户的请求日志:搜索请求、对音乐服务的请求、对产品服务的请求等等。
除此之外,公司倾向于收集用户请求的统计数据。它们存储“度量衡”来用以判断人们感兴趣的东西有什么。用户平常搜索的是什么、更喜欢使用的服务是什么、听什么音乐等信息。还记得谷歌的“年度搜索”。这是汇总的数据,但它并不是那么无害。虽然数据脱离了具体的人和他们的标识符,但对语音助手的请求可能包含全名、地址、职业等。成绩单已被删除?但有人每周五从酒吧向你的地址叫出租车的事实仍然存在。
我们不能百分百确定该公司会删除我们要求的一切数据。而且我们也不会有任何证据。这个故事的寓意在于,信任或不信任,总是我们的选择。
用户可以自己管理自己的个人数据
当然,大公司不会轻易地放弃收集用户信息。他们知道得越多,通过将个人数据出卖给广告商而挣的钱也越多。用户的资料越精确,就越容易让用户上钩。不用说,他们不会毫无准备地开始合作,而我们能做的最好的事情就是要意识到风险。
你不必害怕电子设备。必要的是,你可以尝试减少风险,例如,请求你的数据,并要求公司删除它。你还可以在私人对话中关闭语音助手,并让你的朋友也这么做。
此外,你可以设置语音助手启动时的声音提醒。确保你使用一个强大的密码和双因素认证。如果你有孩子,请使用密码或禁用语音购物,当然,除非你想让你四岁的孩子为自己订购全套玩具。如果你愿意牺牲一下你的舒适度,也可以禁用语音助手的麦克风。在这种情况下,它将不会通过关键词激活,每次都必须手动打开它。
或是,你也可以把麦克风在开着。谁知道呢,也许有一天你的语音助手会给你提供不在场证明。
此外,用户应该仔细阅读隐私政策,选择最关心数据保护的公司的设备。用户可以选择一家明确表示不与第三方共享数据的公司,或者是不在服务器上存储信息的公司。你还可以阅读评论和媒体报道,以了解你所要委托的公司是否被发现有泄露用户数据的情况。
无论如何,用户都无法排除与使用语音助手有关的对你的隐私的所有风险。你能做的最好的事情是权衡利弊,自己决定你是否真的离不开它们。