你能想象大半夜里假如你的身体有突发状况,但是有专家和技术可以准确告诉你需不需要去急诊室,让你在家就先解决燃眉之急吗?而解决这一问题的竟然是--用数据说话!也就是说,通过一些设备例如手机,就可以获取你身上的一些体态特征的数据,从而由医院远程来获悉你的情况,为你做出判断。事实上,大数据已经渗透到了我们生活的所有方面: 社交媒体上的数据已经可以用来分析人们的情绪,从而为公司所使用。而只要你接触互联网,你就会接触到用数字科学来驱动的程序和网站-Youtube, Facebook, Twitter-这些网站用数据科学得到的信息来为你,它们自己,以及它们的客户提供最合适的信息,并且产生利润。由此也诞生了在未来会是超级紧缺的新兴职业-数据科学家(Data Scientist)。
什么是大数据?
大数据(英语:Big data),又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因。但也因为大数据的复杂性,难提取性,更多需要数据科学家的出现对数据进行重新整合,加以利用。
什么是数据科学家?
很多人把数据科学家的工作和传统的统计混淆在一起,这是非常错误的。数据科学家的工作不是关于写报告,不是关于基础的分析,也不是关于从传统CRM, ERP系统的数字里汲取信息。
数据科学家的工作是远远超过数据库本身的,他们的工作是不断使用数据来解决之前无法解决的问题。打个比方,在开始工作时,数据科学家们手中没有地图,只有指南针:他们会面对从20个不同系统中提取出来的超过10个TB的数据,而从前根本没有人把这些数字放在一起进行过处理。
数据科学家们会用数据来到前人没有来到过的地方,看看这里有社么样的可能,然后一步步建立认识,再不断挑战自己之前的认识。数字在这个过程中被用来发现,解释,或者优化研究的课题,并且带来增值。
最后,数据科学家用数学提出带来改变的方法。在解释这个方法的时候,数据科学家需要和非专业人士来沟通,并且举例帮助他们认识自己的想法。更重要的是,数据科学家可以告诉你他们预测的可能性会有多少。
数据科学家收入如何?
首先咱们先庸俗一下,数据科学家究竟收入前景如何?
据美国的统计: 单枪匹马不为任何团队工作的数据科学家在有0-3年工作经验的情况下平均收入可以达到8万年美元收入,而有9年工作经验的话就可以有将这个数字翻倍。虽然并不惊人,但是注意这完全是你作为自由工作者的收入哦。如果你加入团队,并且领导一个1-3人的团队,你的年收入就可以达到近15万; 而如果你做到中层,领导10人团队,你的收入就会接近24万。相比而言,一位律师的平均年收入是13万,而一位医生的数字则是18万。数据科学家的收入情况可以说远远超过"可观"。
数据科学家需要哪些技能
数学和统计学贡献了32%的数据科学家,而计算机科学以及工程则贡献了19%和16%。不难看出数学和统计还是最基本的数据科学家需要的技能。
于此同时,在综合知识方面,机器学习 (专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科) 是关键。其次编程是必不可少的技能,R, Python, SAS, SPSS都是可以选择学习的。然后就是对各种数据库的了解,因为上面的介绍也已经提到,数据科学家会经常从不同的数据库中提取和整合大量数据。
最后一项技能可能是真正数据科学家与众不同的地方,那就是Presentation (演示) 的技能。如何让自己分析的结果被自己的听众理解,如何让自己的发现被用户最好的采纳从而达到最优的效果,好的Presentation技能是关键。因此,数据科学家绝非Geek.
数据科学的行业前景
1. 数据科学已经进入了每个行业里的每一个部门。这个过程很类似于管理信息系统逐渐超过了原有的会计部门,而进入了公司的所有领域。另外,数据科学家逐渐成为了一个专业的学科,但是多领域的知识以及多领域的运用仍然不可或缺。
2. 作为数据科学家,领导力,表达能力这样的Soft Skills正在变得越发重要。由数据驱动的世界正在前进,数据科学家必须为它提供导向。因此他们需要把自己的知识和理解变得"可操作化"才能转化到不同的队伍,不同的过程当中。
3. 坚持和好奇心会继续推动数据科学家们的工作。在不断的寻找不足,尝试新方法以及提高结果质量的过程当中,需要不断的监视自己的逻辑。在尝试添加新数据并且让自己的结果更加合理的时候,要保持怀疑的心态才能保证结果的质量。
4. 数据正在随着智能设备的普及越来越实时化,对数据科学家的要求也越来越高。比如,消费者需要第一时间做出购买决定,而公司则需要第一时间做出相应的供应链调整。数据科学的工作会遇到更高的要求。
5. 数据科学家面临的数据只会越来越多,来自越来越多的系统,穿过越来越多的界限。比如说,数据科学家需要建造一个模型基于以消费者为中心的所有数据,包括网页,移动手机应用,电脑使用记录,设备信号,实体文档,邮件,电话,社交媒体信息,视频以及传统的商业数据。
6. 数据科学家们还需要升级自己的工具。首先随着在线合作和分享的增多,算法会演化的更快。相信在线社区会在这个过程中起到越来越大的作用。
相关文章
留美STEM 专业硕博士直接获得签证和绿卡,STEM到底是什么?
热点文章:
51UStudy-无忧美国留学
帮助你在澳洲实现美国名校梦!
电话:1300 51 8090
新浪微博:51UStudy
墨尔本地址:Level 6, 388 Bourke Street, Melbourne, VIC 3000
悉尼定期学生见面日:每个月最后一个周末 (需预约)
网站:www.51ustudy.com.au