小编按:有很多人说,澳洲是一块美丽但是寂寞的土地,来留学的男生们中,相信除了不愁妹纸的高富帅们,也有苦闷的技术宅萌呆苦于找不到女朋友。其实在这个大数据时代里,我们生活在一个充满“数据”的世界,找个女朋友真的很难么?答案是否定的,有大数据的帮助,找女朋友的成功几率会高很多!技术宅们看好了,请看来自美国的Chris Mckinlay给我们分享的经典案例:如何通过大数据找到你的另一半!
在加州大学洛杉矶分校数学楼5层的一个阁楼里,显示器上闪烁着微弱的灯光。Chris McKinlay正在使用罗拉多州超算为他博士论文(大规模数据处理和并行数值方法 )做实践,而凌晨三点却是能压榨这个计算机资源的最佳时间,他打开了第二个窗口——OkCupid(美国在线约会网站的领头羊 )的收件箱。
McKinlay, 35岁,体型偏瘦,一头蓬乱头发的中年男子。在4000万通过Match.com、J-Date、e-Harmony这些网站在网络上寻找浪漫的美国中,他是非常不起眼的一个。自从去年分手以后,他已经在网上搜索了9个月,可惜毫无结果。他已经给几十个OkCupid网站推荐为潜在配偶的女性们发去了自我介绍信息,但大部分都被忽略了。同时他只去过为数不多的六次约会中的一次。
2012年六月的那天早上,电脑一个窗口显示着编译器正在处理的代码,而另一个显示着被遗弃的约会资料,他突然醒悟到,自己做错了。他一直把自己当做一名相亲对象来在网上寻找其他用户,这样做是不对的,他意识到自己应该像一个数学家一样去约会。
OkCupid由哈佛大学数学专业人士创办于2004,首先吸引交友者的是因为他的相亲对象是通过计算方法来自动匹配的。成员通过回答一系列的问题进行匹配,比如政治、宗教、家人、爱、性f和智能手机。
平均而言,用户从问题库中选择350个类似于“下列哪个最有可能吸引你去看电影吗?”或“宗教/上帝在你的生活中有多重要?“这种问题。通过对每一个用户问题答案的分析寻找和他们问题答案相近的异性伴侣,同时将这些用户从“毫无关系”到“特别亲密”分为5个等级。OkCupid的匹配引擎使用该数据来计算一对夫妇在一起是否合适,得分越接近百分之一百,证明他们是一对越好的灵魂伴侣。
但是推理一下,在洛杉矶,McKinlay与女性的匹配度简直是糟糕透顶。OkCupid的算法只使用两个潜在的选择决定回答问题,以及相匹配的问题(或多或少随机出现),并不能正确的体现出一个人的内心。当McKinlay 查看他匹配对象的时候,发现相互匹配额超过百分之九十女性不超过100个。要知道在洛杉矶这个城市大约有200万女性(在OkCupid上也有8万女性),而从McKinlay的匹配结果和影响来看,他几乎就是一个隐形人。
McKinlay意识到他必须提高这个数据,通过抽样统计,McKinlay可以确定哪些问题关系到他喜欢的那种女性,他可以针对这些问题建立新的“形象”,从而去匹配洛杉矶中所有适合他的女性,而忽视其他人。
Chris McKinlay使用Python脚本快速调取了大量OkCupid的调查问题,然后他将女性约会者分为七个维度,比如“Diverse” 、 “Mindful”,每个都有自己的特点。
MauricoAlejo 从一个数学家的角度来说,Chris McKinlay的故事非常独特。他在波士顿郊区长大,2001年从明德学院毕业,大学本科获中文学位,同年8月到纽约世贸大厦91楼作汉译英,五周后世贸大楼倒塌( McKinlay那天下午两点才上班,侥幸躲过了911爆炸)。“后来我问自己,我到底想做什么?”他说,当时哥伦大学毕业一个朋友招募他加入MIT的决战21点队员,接下来的几年他往返于纽约和拉斯维加斯,曾一年从拉斯维加斯赢得6万美金。
经历了这些事情,他对应用数学非常感兴趣,因此爱上了数学并读了数学博士。他说:“他们的数学天赋可以适用于许多不同的情况。他们可以看到一些新的扑克游戏,然后回家,写一些代码,并想出一个策略来战胜它。”
现在他将这种模式搬到了寻找爱情的过程中。首先他需要数据。他建立了12个OkCupid账户,写了一个Python脚本管理它们,同时也没有忽略他的论文。程序脚本将会收集他的目标人群(年龄在25-45之间的异性恋以及双性恋女士),从这些女士的个人页面上搜集所有可能用到的数据:种族、身高、是否抽烟、星座等等。
为了得到这些数据,他不得不做一些额外的工作。OkCupid中只有你回答别人的问题,你才能看到别人的信息。McKinlay用机器人回答一些简单的问题,他没有使用一些虚假的信息来欺骗这些女士,因为答案对他并不重要,他并不是想要吸引这些女生,他只是想把这些女生的回答收集到自己的数据库中。
McKinlay非常满意他的机器人的工作成果。然而在他收集了一千个资料后,他遇到了第一个障碍。OkCupid有一个系统专门来防止这种机器的数据搜集行为,不断的将他的机器人账号禁止。
他必须试着让这些机器账户模仿人的行为动作
他将目标转向了一位向他学习高等数学课程同时教他音乐理论的朋友 Sam Torrisi,Torrisi 是一位神经学家。Torrisi也经常使用OkCupid,Torrisi同意在他的电脑上安装间谍软件监控自己在网站的运动轨迹和数据。同时McKinlay通过编程让机器人模拟Torrisi 的点击速率以及打字速度。McKinlay又从家里带来一台电脑,通过数学系的宽带,保证一天24小时不间断的运行。
三周后他已经收获了来自全国各地2万名女性的600万个问题。随着数据挖掘的深入,McKinlay完全将他的论文抛至一边,他本来就很少在公寓睡觉,现在基本上就完全放弃了,搬到了工作的地方,睡觉的时候在办公桌上铺上一层薄薄的床垫。
按照McKinlay的计划,他必须要在这些统计的数据中找到一种根据这些女生的相似性进行大致分组的方式。McKinlay在修改贝尔实验室一个名为K-Modes的算法时得到了灵感。这个算法第一次在1998年用于分析生病的豌豆谷物,它使用分类数据并且把数据整合堆积。通过微调,设备可以调节出结果的速度,得到自己想要的方式。
他调整刻度,找到了一个平衡点,这个点上20000个女人根据她们的问题和回答能够在统计上分为7个清晰分离的群。“我太高兴了”,他说,“这真是6月最好的一天。”
用这种方式,McKinlay又搜集了另外5000个女生的样本,她们都来自洛杉矶和旧金山,最近刚刚在OkCupid上注册。这些样本经过K-Modes的处理也大致分布在7个组里,McKinlay的统计样本奏效了。
现在McKinlay只需要确定哪个组的女生更适合自己就行了。他大概看了一下这些女生的简介,有一组女生年龄太小,两组年龄太大,另外一组是虔诚的基督徒。他发现有一组女生大多在20几岁,多数看起来很独立或是音乐家和艺术家。McKinlay认为自己或许能在这组中找到真爱。
实际上,还有一组女生看起来也很不错,她们年龄稍大,从事编辑和设计等有创造性的工作。McKinlay决定在这两组女生中寻找目标。他建立了两个个人档案,一个用于A组,一个用于B组。
想找好女神的男屌丝们,还有什么理由不好好学习?!
文章选自CSDN
澳洲留学辅导中心
澳洲留学辅导中心成立于1988年,是澳洲历史最悠久、信誉最佳和服务范围最广的留学中介。提供包括申请入学、办理留学签证及其他给类签证、抵达澳洲后的后续服务包括接机、安排住宿、升学转学、移民及上诉的一站式留学移民服务。
二十五年专业,为你打开世界,创造未来。
联系我们
网站:www.australiaeducation.com.au
新浪微博:澳洲留学辅导中心ACAE
QQ: 1063962319
Facebook: Acae Sydney
Email: [email protected]
咨询热线(座机): +61 2 92818133
咨询热线(手机): +61 416232113