以下是机器学习如何侵犯你的隐私
这篇文章最初是在《对话》上发表的。
机器学习已经突破了几个领域的界限,包括个性化医疗、自动驾驶汽车和定制广告。然而,研究表明,这些系统会记住训练数据的各个方面,以便学习模式,这引发了对隐私的担忧。
在统计学和机器学习中,目标是从过去的数据中学习,以对未来的数据做出新的预测或推断,为了实现这一目标,统计学家或机器学习专家选择一个模型来捕捉数据中的可疑模式,一个模型将简化结构应用于数据,这使得学习模式和做出预测成为可能。
复杂的机器学习模型有一些固有的利弊。从积极的一面来看,它们可以学习更复杂的模式,并使用更丰富的数据集来完成图像识别和预测特定人对治疗的反应等任务。
然而,他们也有过度拟合数据的风险。这意味着他们对训练数据做出准确的预测,但开始学习与手头任务没有直接关系的数据的其他方面。这导致模型不通用,这意味着他们在与训练数据类型相同但不完全相同的新数据上表现不佳。
虽然有一些技术可以解决与过度拟合相关的预测错误,但能够从数据中学习这么多也存在隐私问题。
机器学习算法如何进行推理
每个模型都有一定数量的参数。参数是模型中可以改变的元素。每个参数都有一个值或设置,模型从训练数据中派生出来。参数可以被认为是可以转动来影响算法性能的不同旋钮。虽然直线图案只有两个旋钮,斜率和截距,但机器学习模型有很多参数。例如,语言模型GPT-3有1750亿。
为了选择参数,机器学习方法使用训练数据,目标是最小化训练数据的预测误差。例如,如果目标是根据一个人的病史预测一个人是否会对某种医疗产生良好的反应,机器学习模型将对模型开发人员知道某人反应良好或不良的数据进行预测。模型因预测正确而获得奖励,因预测不正确而受到惩罚,这导致算法调整其参数——即转动一些“旋钮”——然后再试一次。
为了避免训练数据过度拟合,机器学习模型也会根据验证数据集进行检查。验证数据集是训练过程中不使用的单独数据集。通过检查机器学习模型在这个验证数据集上的性能,开发人员可以确保模型能够在训练数据之外泛化其学习,避免过度拟合。
虽然这个过程成功地确保了机器学习模型的良好性能,但它不会直接阻止机器学习模型记忆训练数据中的信息。
隐私问题
由于机器学习模型中的大量参数,机器学习方法有可能记住它训练的一些数据。事实上,这是一个普遍的现象,用户可以通过使用定制的查询从机器学习模型中提取记忆的数据来获取数据。
如果训练数据包含敏感信息,如医学或基因组数据,那么数据被用于训练模型的人的隐私可能会受到损害。最近的研究表明,机器学习模型实际上有必要记住训练数据的各个方面,以便在解决某些问题时获得最佳性能。这表明机器学习方法的性能和隐私之间可能存在根本的权衡。
机器学习模型还使得使用看似不敏感的数据预测敏感信息成为可能。例如,塔吉特百货能够通过分析在Target婴儿登记处注册的客户的购买习惯来预测哪些客户可能怀孕。 一旦模型在这个数据集上进行训练,它就能够向它怀疑怀孕的客户发送与怀孕相关的广告,因为他们购买了补充剂或无味乳液等物品。
隐私保护甚至可能吗?
虽然在机器学习方法中已经提出了许多减少记忆的方法,但大多数在很大程度上是无效的。目前,这个问题最有希望的解决方案是确保隐私风险的数学限制。
形式隐私保护最先进的方法是差分隐私。差分隐私要求机器学习模型在训练集中改变一个人的数据时不会发生太大变化。差分隐私方法通过在算法学习中引入额外的随机性来实现这一保证,这种随机性“掩盖”了任何特定个人的贡献。一旦一种方法受到差分隐私保护,任何可能的攻击都不能违反该隐私保证。
然而,即使机器学习模型是使用差分隐私训练的,这并不妨碍它做出敏感的推断,例如在Target示例中。为了防止这些隐私侵犯,传输到组织的所有数据都需要受到保护。这种方法被称为本地差分隐私,苹果和谷歌已经实施了它。
因为差分隐私限制了机器学习模型对个人数据的依赖程度,这阻碍了记忆。不幸的是,它也限制了机器学习方法的性能。由于这种权衡,有人批评差分隐私的有用性,因为它通常会导致性能大幅下降。
向前走
由于推理学习和隐私问题之间的紧张关系,最终存在一个社会问题,即在哪些情况下哪个更重要。当数据不包含敏感信息时,很容易建议使用可用的最强大的机器学习方法。
然而,在处理敏感数据时,权衡隐私泄露的后果很重要,为了保护数据训练模型的人的隐私,可能有必要牺牲一些机器学习性能。
披露声明:乔丹·阿万接受国家科学基金会和国家卫生研究所的资助。他还担任联邦非营利组织MITRE的隐私顾问。
以下是机器学习如何侵犯你的隐私