数据泄露有待商榷,Facebook背锅,媒体三人成虎害了谁?

2018年03月23日 澳大利亚大华时代


点击标题下「蓝色微信名」可快速关注  


最近各大媒体上都在报道Facebook泄露了5000万用户的数据,从而使得一些数据机构用其操纵美国大选。一时间人心惶惶,Facebook股价大跌,扎克伯格出来道歉。

众口铄金之中,不乏用各种惊悚之词吸引眼球的人,今天分享给大家的这篇文章,作者从另外一个角度来看待这个事件,希望能带给你一些新的思考。


本文作者:今晚吃什么0.0

https://www.zhihu.com/question/269081994/answer/347446822

来源:知乎

已获转载授权


我的结论是,这一波Facebook纯属背锅,挺冤的

我在微信公众号和知乎各处都看到了关于对这件事的分析,其实本来对facebook的印象也不好,看过算过,不过后来我老婆和我谈起了这事儿,为此我们还进行了一番“深刻的”争论,所以我想了一想还是把我了解到的整理出来吧。分成几个小点。

小背景

首先有个背景,我觉得我对这事儿挺有发言权的。

因为我在2015年的1月到5月期间,在学校当RA的时候,做的项目和这件事里面的剑桥分析(Cambridge Analytica)后面简称CA,其实做的如出一辙。

当然,那时候我还是个菜鸡,纯靠学长带。

为什么说我们做的项目其实是一样的呢,先来看CA做的事情,首先他们开发了一个在Facebook上的App,然后类似于心理小测试,接着当你做完这个测试之后CA就有了你各个维度上的偏好,就可以做出一个人物心理性格描绘(psychographic profiles),然后根据这些数据分析时势。关于5000万用户我们后面再说。

那么,我们,在同样的时间点,也是2015年早期。基于之前一个PHD学生的论文,一种基于用户喜好给用户好友分组的算法。我们在Facebook上也发布了一个应用,首先需要申请调用Facebook的开发者API,提出申请,大致上就是这只会基于学术研究,保密数据等等。

然后我们给周边的朋友发链接,让他们打开这个App,然后同意用户协议,紧接着我们会收集用户的Likes(点赞)和Posts (朋友圈),再然后寻找该用户的其他朋友(根据该用户的好友列表获得ID),回调好友ID,取得该用户所有好友的Likes和Posts。

划重点,这里有个前提,该用户好友的资料也必须是公开的,如果是保密的,除了用户ID其他什么有用的信息都没有。做完这些之后我们有了一个完全的数据库,然后根据上面的算法,给用户推荐合适的好友分组。

后来大概在2015年5月的时候这个研究就结束了,因为Facebook改了他们的API权限,我们没办法再通过ID得到用户的完整数据(即使用户资料是完全公开的),虽然可以用爬虫,但是成本太高了。我觉得也许是Facebook发现了这些数据的价值,想要自己做研究,不想再无偿得分享数据了,毕竟这么多API回调也得占用不少资源,所以取消了API调用。

这次数据泄露有这么严重吗?

在我看来,现在很多这些答主或者公众号,基本上都不懂这次事件的完整缘由,打着耸人听闻的“5000万”用户在吸引眼球,为自己谋利。

附上纽约时报比较全面的报道。https://www.nytimes.com/2018/03/17/us/politics/cambridge-analytica-trump-campaign.html

就是我上面说的,下载App的只有27万人,后面的那5000万实际上和这事儿没多大关系。

如果你有心,看了一些微信公众号或者其他答主的回答,你也许会问,这5000万人是怎么来的,全文都没有提到起因,怎么突然就蹦出来了。

Image from theatlantic.com

重点:

实际上就是这27万人在使用App时同意的协议里也允许了研究者获得他们的好友列表。平均一个人200好友,这不5000万就出来了。可问题就是这5000万从没有接受过这些协议,所有研究者能获取的只是他们公开的资料。就相当于你设置了朋友圈对所有人可见,把你所有的生活状态暴露在空气中一样。

一来,数据有限,得不到敏感数据(比如居住地,教育程度等)。

二来,没有做问卷,个人倾向数据不明(比如对于宗教和政治意见),需要二度挖掘。

三来,用户资料本就开放可见简单来说,在那个时候,只要会用Facebook的API,就可以把所有用户的公开资料都拷贝下来,只不过像CA这样操作,有效数据的比例更大。

(实际上我也存了不少数据,可惜当初没有先见之明,后来项目结束之后我就把用户数据都删了……)

但是在这一步Facebook真的没做错什么。最后Dr.Kogan (协助了CA的研究学者)也只能拿到27万同意隐私协议的用户敏感数据。这一步Dr.Kogan也没做错,CA也还没有拿到数据。关于Dr.Kogan这个人会在下面说到。

Image from thenewdaily.com  

谁该为这次事件负责?

我觉得主要还是Mr. Wylie, Dr. Kogan和CA。实际上就是Mr. Wylie有了一个非常好的想法和算法,想找人合作做研究,但是被剑桥的实验室拒绝了。然后他找到了Dr.Kogan一个在剑桥实验室的俄裔美国研究者。这个人开发了Facebook App并且收集数据。

到这里也都没有错。但是接着Kogan把数据共享给了CA,把本应该只能用于学术研究且不能分享的数据,分享给了一家商业运营的公司用作牟利。

最后CA还摆了一道FB,私自留下了数据。

反阴谋论

我看到了现在提出的几个主要的阴谋论。我也想说说我的看法,不一定对,如过你有更完整的想法,欢迎你留言。

这波数据帮助分析了英国脱欧?

目前的新闻来看,虽然母公司在英国,但是当时大部分研究工作还是在美国分公司进行,数据也多是是美国用户。主要还是想通过数据研究分析美国用户的政治观点。

并不觉得美国用户的政治意见和偏好会对英国脱欧有什么影响。

这波数据帮助分析了2014年美国国会选举?

这个App是由Dr.Kogan在2014年6月底上线,2014年国会选举在11月7日,中间只有5个月。首先要建立用户群,然后收集数据,然后分析数据,最后造势影响选举,从时间轴上来看,我觉得时间不太够。当然从目前的新闻报道上来看,似乎普遍认为影响了这次中期选举。

这数据又帮助了Trump赢得了2016年大选?

Trump在2015年6月17日宣布参加竞选,讲道理社交网络这东西很有时效性的。Facebook在5月底关闭了API,也就是说CA最多只有2015年5月之前的数据,那时候Trump都还没进入公众视野,很难分析出群众对Trump的支持率。虽然,通过映射住址,宗教等可以刻画出地区内人群的心理侧写,但是我觉得吧,你可以大致知道比如说德州人反对禁枪,不支持堕胎这些观念。真的要影响大选,感觉还是难。而且CA只关注了Likes ("included details on users’ identities, friend networks and “likes.”),没有特别分析Posts。所以能提供的作用很有限。真要说Facebook自己做这事儿靠谱多了

最后有人说Facebook由始至终都知道数据泄露,并且帮助该公司分析民意?

这一点Facebook就很无奈了啊

看这个来自NYTimes,cambridge-analytica-trump-campaign的文章,翻译过来,这里面说啊,FB是知道数据泄露了,通过调查发现CA在滥用数据,要求他们立即删除并停止研究。CA也回复说,数据已经删除。结果谁知道FB被摆了一道,这CA还留了个备份继续用……

Facebook 什么都没错吗

还是有几个地方Facebook做得不够好的,但是和这次数据泄露关系不大。

1.首先是研究资质的审核,Facebook确实会在提交试用API的时候审核研究者,但是在那之后就属于放任不管的状态了。所以Facebook应该加强后期跟进,定期再审核,不过这种事确实头疼也难办。

2.用户协议和App审核。Facebook早起为了快速建立生态圈和开发平台,同意并上线了一大波劣质App,App质量良莠不齐。现在的事件就是再还之前的帐。同时用户协议混乱,很多时候用户并不知道同意协议意味着什么。使得很多没有资质的开发者研究者能够轻易获得用户敏感数据。

3.再有就是公关。已经有不少针对这次事件Facebook公关能力的质疑了

4.最后,这已经不是第一次Facebook被爆出参与政治选举。虽然我能够理解这么多用户数据放着不挖掘实在可惜,但是作为企业,特别是能够影响20亿人的社交媒体企业,最好还是保持对政治的中立吧。

总结

在我看来,这都不算是一次Facebook用户数据泄漏,因为数据要么是用户自己同意分享的,要么数据就是对所有人公开透明的。最终问题还是出在了终端的研究者上,不应该分享出售本应该保密的数据。

不过现实是,早期Facebook为了快速形成开发生态圈,所有有意无意得打着擦边球,没有承担起保护用户隐私的责任。

最后,这次泄露对于普通用户影响也不大,没必要恐慌

一来没有涉及SSN,二来没有涉及信用卡和支付方式,三来数据都是2015年6月之前的。

一些补充

和其他的网友讨论之后,确实启发了一些新的观点,用以完善上面的观点。

为什么我说匿名用户的信息价值不高呢

主要是涉及到宗教和政治意见方面,只能通过做问卷。因为很少有人会在社交网络上发表这些观点,但是这些数据才是能够左右选票的。用户是喜欢猫还是喜欢狗,是喜欢跑步还是喜欢竞走,这样的用户倾向对于选举没有任何帮助。

所以5000万的用户数据在有效信息提供上作用本就不大,他们存在的意义是丰满那27万人的侧写。换而言之,至少CA自己不会花时间去研究那5000万人的数据意义。

深一层次的,社交媒体的数据基于网络,本来也就有偏见,不能完全依赖于Facebook用户给的反馈作为决策的基准点。这样再看,匿名用户的价值贡献实在太低了。不值得挖掘下去。

另一个例子

和大家分享一下我昨天看到的一个例子,同样是社交网站,做的事也和这次的CA类似。这个14岁的天才少年的想法是,通过类似的手段抓取社交网站上对于药物副作用相关的Posts,然后整合数据,达到长时间跟踪药物的副作用。虽然我觉得完全基于社交网络也会有偏见,但这个想法还是很厉害的。

Tanmay Bakshi - Deep Learning to Save Young Lives

IBM Think 2018 

https://link.zhihu.com/?target=https%3A//www.ibm.com/events/think/watch/replay/113754265/


澳大利亚大华时代整合资源 与您共享

长按识别二维码,获取每日新资讯
收藏 已赞