伦敦科学家的研究“你就是你的元数据”发现,每条推文都会传输 144 条元数据。据称,借助这些信息,推特用户的生活可以通过算法重建;即使隐藏也是无效的。研究人员表示,主要问题是用户处理数据时缺乏经验。
托马斯·博格博默
2018 年 7 月 12 日
Twitter 表示已于 8 月 5 日修复了错误。
广告
“我们能够使用元数据来识别 10,000 个用户中的每一个,准确率达到 96.7%。”这就是来自伦敦大学学院的研究三人组 Beatrice Perez、Mirco Musolesi 和 Gianluca Stringhini 的研究“你就是你的元数据” 。由艾伦图灵研究所出版。通过他们的研究,科学家们希望消除元数据不允许对用户得出任何结论的偏见 - 为此,他们研究了位于旧金山的短信服务。据此,每个用户发送到数字世界的每条推文都会自动传输 144 个数据字段,这使得它们完美无缺,并且可以轻松地被基于算法的机器系统识别。该元数据包括帐户名称、内容的时间和位置、最喜欢的帐户、关注者、链接、主题标签等信息。
广告
无论如何,信息密度是如此之高,以至于基于机器学习的三个不同系统都能 新西兰 WhatsApp 数据 够确定用户的身份。最好的准确率达到 96.7%。这三个系统使用来自约 540 万用户的最终数据集的推文进行了训练。论文中不断提到 140 个字符的推文并不是因为研究人员不知情,而仅仅是因为研究的时间安排。三人收集了 2015 年 10 月至 2016 年 1 月期间的数据,即美国公司于 2017 年 11 月将字符限制提高到 280 个之前。
参与其中的科学家比阿特丽斯·佩雷斯 (Beatrice Perez) 告诉英国在线门户网站《连线》,人们错误地认为在线数据不允许得出有关身份的结论。使用所提供的元数据可以轻松识别普通用户。问题的关键是,没有一个明智的人会告诉街上的陌生人他们住的地方。不过,如果被问到的话,他大概会告诉他卧室的灯什么时候开、什么时候关。这就是处理元数据时的心态。 “人们认为这没什么大不了的。但是,一旦我将这些信息与元信息结合起来,我就能准确地知道你什么时候在家。”
这项研究的惊人发现:即使研究人员将个别数据字段留空以使系统变得更加困难,他们也只能取得有限的成功。因此,他们只是混合了 60% 的元数据,系统仍然能够以 95% 的准确率找出测试对象的身份。研究结论中字面意思是:“扰乱 60% 的训练数据后,可以以高于 95% 的准确率对用户进行分类。”正如佩雷斯强调的那样,混淆方法因此是无效的,数据集的匿名化也是如此。
该研究的作者写道,他们对 Twitter 并不特别感兴趣,因为所使用的方法也可以应用于Facebook、Flickr & Co 等其他平台。目的是提高对数据保护以及与元数据相关的风险的认识。最后的呼吁是,由于开放访问的数据集和元数据的数量不断增加,以及社交网络及其接口(API)的普及,这是一个紧迫的问题。
广告