“人们认为这没什么大不了的。”

tasnimsanika7 · Post by **tasnimsanika7** » Wed Jan 29, 2025 9:10 am

伦敦科学家的研究“你就是你的元数据”发现，每条推文都会传输 144 条元数据。据称，借助这些信息，推特用户的生活可以通过算法重建；即使隐藏也是无效的。研究人员表示，主要问题是用户处理数据时缺乏经验。
托马斯·博格博默
2018 年 7 月 12 日

Twitter 表示已于 8 月 5 日修复了错误。
广告

“我们能够使用元数据来识别 10,000 个用户中的每一个，准确率达到 96.7%。”这就是来自伦敦大学学院的研究三人组 Beatrice Perez、Mirco Musolesi 和 Gianluca Stringhini 的研究“你就是你的元数据” 。由艾伦图灵研究所出版。通过他们的研究，科学家们希望消除元数据不允许对用户得出任何结论的偏见 - 为此，他们研究了位于旧金山的短信服务。据此，每个用户发送到数字世界的每条推文都会自动传输 144 个数据字段，这使得它们完美无缺，并且可以轻松地被基于算法的机器系统识别。该元数据包括帐户名称、内容的时间和位置、最喜欢的帐户、关注者、链接、主题标签等信息。

广告

无论如何，信息密度是如此之高，以至于基于机器学习的三个不同系统都能新西兰 WhatsApp 数据够确定用户的身份。最好的准确率达到 96.7%。这三个系统使用来自约 540 万用户的最终数据集的推文进行了训练。论文中不断提到 140 个字符的推文并不是因为研究人员不知情，而仅仅是因为研究的时间安排。三人收集了 2015 年 10 月至 2016 年 1 月期间的数据，即美国公司于 2017 年 11 月将字符限制提高到 280 个之前。

参与其中的科学家比阿特丽斯·佩雷斯 (Beatrice Perez) 告诉英国在线门户网站《连线》，人们错误地认为在线数据不允许得出有关身份的结论。使用所提供的元数据可以轻松识别普通用户。问题的关键是，没有一个明智的人会告诉街上的陌生人他们住的地方。不过，如果被问到的话，他大概会告诉他卧室的灯什么时候开、什么时候关。这就是处理元数据时的心态。 “人们认为这没什么大不了的。但是，一旦我将这些信息与元信息结合起来，我就能准确地知道你什么时候在家。”

这项研究的惊人发现：即使研究人员将个别数据字段留空以使系统变得更加困难，他们也只能取得有限的成功。因此，他们只是混合了 60% 的元数据，系统仍然能够以 95% 的准确率找出测试对象的身份。研究结论中字面意思是：“扰乱 60% 的训练数据后，可以以高于 95% 的准确率对用户进行分类。”正如佩雷斯强调的那样，混淆方法因此是无效的，数据集的匿名化也是如此。

该研究的作者写道，他们对 Twitter 并不特别感兴趣，因为所使用的方法也可以应用于Facebook、Flickr & Co 等其他平台。目的是提高对数据保护以及与元数据相关的风险的认识。最后的呼吁是，由于开放访问的数据集和元数据的数量不断增加，以及社交网络及其接口（API）的普及，这是一个紧迫的问题。

广告