年薪10W刀+的Data Scientist究竟是怎么炼成的~

2018年10月16日 澳洲IT圈


点击上面蓝字关注我们



充满朝气的数据行业


近年来,各种新闻媒体上Data Science都作为搜索热词榜出现。在如今的大数据时代,每天都会产生大量的数据,我们想从数据里面取得insights,这就催生了Data Science行业。在大量数据产生的同时,数据存储,包括云端存储、移动硬盘等变得越来越廉价,数据的可利用率变高,云计算能力逐渐提高,不仅是手机和PC端,单机端和云端的计算能力也越来越廉价,使得普通人也能用到强大的计算。并且现在的算法越来越开源化,如Tensorflow等,越来越多的开源项目使得技术更加平民化。



文 | Albert, Lightman

编辑 | Lightman

时长 | 用不了一局吃鸡的时间



今天数据行业只能用一个字形容: 火


无论哪个行业,应该会每年都被数据时代,大数据,数据分析,商业智能,听过这些名词,在人工智能时代到来的大背景下,许许多多人开始恐慌,不知道什么时候会被替代,有什么时候能够进入到该行业,自己不会被未来取代。


数据科学已经进入到了各个领域 ,由于技术的支撑,Data Science还有很大的市场需求,根据功能性来看,Data Science在诸多领域都有应用,它帮助了企业改变传统的拍脑子做决定的决策方法,现在越来越多公司都采取数据驱动的方式来做商业决策。


Data Scientist被Harvard Business Review 评为21世纪最性感的职业之一,麦肯锡预测全球将有超过1.5个Million的空缺职位。在人工智能金融科技大肆兴起之后,Data Science作为一切的根基,


DS的问题


我们可以把Data Science中的问题分为几大类:

  1. What’s the statistics。比如一组数据的平均数、最大值、最小值是多少,数据分布是怎样的,这类问题是很基础的Data Science问题。

  2. Is A better than B?这个非常常见,比如很多网站有自己的UI Design,他们有时候就要问,网站这个位置的颜色是用蓝色好还是绿色好呢,这就是Is A better than B问题。

  3. Is this A or B?例如,Facebook上每天都有大量新闻产生,那么我们如何智能地判断一个新闻是真的还是假的呢,这就是一个Is this A or B问题。

  4. How much?想研究一个变量,但是不知道这个变量应该被预测为多少,那么就需要问How much这个问题。

  5. 大量的数据中可能存在一个Pattern,想知道这个Pattern是什么我们就要问How is data organized

  6. What’s future?已知现有数据和历史数据,怎样预测未来的数据?

  7. Is this weird?已知一组数据,其中有几个数据与其他的数据不一样,那么这些数据不一样到什么程度才会被认为是weird的?

  8. What will users like?预测用户喜欢什么。

以下来自Albert导师


分析数据行业的思路和切入点是从一个数据项目的software development lifecycle。也就是经常能看见的缩写SDLC进行分析。一般的一个完整的Data project,不管大小或者复杂程度都要经过这么几个步骤,第一是Data Capture,有的也叫做data ingestion也就是从不同的数据源把数据获取并导入到系统中。常见的数据原有传统关系型数据库,屏文件,流数据,机器日志,API获取数据等等。第二部是data store and process。也就是。数据清洗加工转化和存储的步骤。有个更好的术语去形容他就是ETL(extract transform and load)。当然还有一个时髦的词可以形容这个步骤就是data wrangling,当数据经过ETL。按数据模型整齐的加载到数据库中或者是其他数据存储中。



那么些数据就可以用来回答商业问题,作出预测实现等等。所以第三步我并排的 画了三个方向,些数据可以做Data analysis/machine learning/business intelligence。第四 步,data visualization是第三部的一个果不管用数据做何种分析。80%的情况是需要有数据 的形展示以用来明假推断。并tell story, 更好的理解和使用数据。


数据目的SDLC有了大致的了解。那么数据相关三大职业DE/DA/DS就在个流程中生了,DE(Data Engineering)的主要工作生在前两步,使用程或者工具数据

取和化的工种。根据使用的技和工具不同,有很多称DA(data analysis)是在一 个business context下,于数据行分析,以回答商业问题足商需求的工作。

最后DS(data scientist)DA的加版本主要武器是machine learning,用来做predictive analysis而不是简单descriptive analysisDAds最关的区在于ds大多数情况下都是 用feature engineering/machine learning预测分析和解决商业问题的。


需要指出的是de/da/ds三种公种在现实情况中无法每次都百分之百格的区分。其三种工 种的技能都有很多overlap,比如etl个技能。DAds需要掌握,但是没有第一那么深 入。de可以专门专门处理各种etl景的位。只要是澳洲各个公司对这位定都不 完全相同,比如澳洲很多公司。招聘ds都希望dsde的技能可以从data capture做起,再比如 有的公司Dads有着重的混淆。在有的公司title然是datascientist,但是位甚至 很少做算法模型。


接着大家再看一个数据中心的架构,要构建么一个数据中心基本也是遵循我前面的四 个步于不同模的工作生了不同的data engineer负责所有数据的取。化 和存的工作而DS/DA。会在色模块报表用画像,控中工作。

下面这张图是从数据流的角度前面那张图一步阐释,可以看到同的。DE负责所有 数据的化和存的工作。而DADS会在数据的用和商需求方面行工作。


前面了一个完整的数据目地流程。但是如果只看DS一部分。其他也有自己的一 个流程基本是所的四步,后面光老也会具体一个数据科学的目。好第一步 是问题表述其就是what's your problem,大多数data scientist的工作就是了解决在一个特 定商业场景下的商业问题。从而做出正确的决策。例来说银个人或者小微企那么 第一个问题是能不能带给这个人或者小微企呢,第二个问题是到底可以多少呢。


那么第二个步是数据搜。有哪些数据是可以用的,些数据的源是什么,能通什么方 式取。需要data engineer帮助取数据或者build data pipeline么。些数据有私和安全 限制些都是第二个步,数据搜寻许所需要考的。


第三部分就是我真正分析建模的步。其个步呢,我又可以数据预处理、 探索性分析、feature engineering、建模、模型估、模型几步。第四个步prediction as a service。什么意思呢,就是真正把我第三部分的模型deploy到生中形成形成一种品或者服。并且不断做performance tracking and 提高和化模型。据我了解澳洲只有数 不多的几家公司做到了,第四个步


数据科学全栈班开班了


课程名:数据科学项目全栈班

课程时长:90个小时+Career Coaching

授课地点:墨尔本+面授+远程


你为什么想上这个课程:

从理论到实践,在澳洲找到你梦寐以求的数据科学相关工作


适合人群:

想从事数据科学方向工作的有一定基础的IT学生

想获得宝贵项目经验并转方向的在职人员


通过课程你可以获得的重要求职技术点:

  1. Apache Spark/Kafka进行大数据处理

  2. Tensflow

  3. 机器学习算法原理/调参/解决真实问题

  4. 时序数据可视化/预测

  5. 时空数据可视化/预测

  6. 如何正确使用Python/R 进行数据处理

  7. 回归分析/聚类方法/分类算法


通过课程你可以获得的

由业界资深导师定制的四大项目

  1. 时序数据-比特币价格预测

  2. 基于Apache Spark/Kafka的大数据分析

  3. 时空数据聚类和预测 -墨尔本停车费罚款优化

  4. Kaggle真实竞赛指导


定制化的Career Coaching

IT匠人社群Networking与内推资源


课程价格

线下:$5,500  早鸟价:$4,800 (9月28截止)

线上:$4,500 早鸟价 $3, 800(9月28截止)


开课时间:10月20日 星期六

报名热线戳下面二维码




你的澳洲专属IT行业顾问


可以添加小花,你的专属IT行业顾问

匠人培训


澳洲IT求职技术群

我们是澳洲IT技术交流求职群体,目前已经有六千多个小伙伴,而且我们这个群体在不断壮大中,交流技术、工作内推,欢迎IT行业同仁加入,需要合作的请在后台留言。目前大群人数已过百,想要入群的朋友:

请扫二维码入群



我们是谁

布里斯班 · 悉尼 · 墨尔本· 西雅图

打造澳洲IT精英圈 · 做信息时代的匠人

澳洲IT匠人圈 - 致力于做更好的T专业人士组织。我们的初衷就是连接海内外的IT同仁,团结互助、工作内推、职场升迁,让在土澳的我们也能感受到高科技的光芒。IT匠人圈有一系列的品牌活动:Offer收割机、大咖面对面、匠人Workshop、匠人线上公开课、品牌创业之夜,活动开展以来反响强烈。

  

让我们共同努力,一起实现梦想



 文章投稿请联系小花或E-Mail


 

[email protected]

商务联系

 

匠人小花 | 微信 uniapp001


欢迎关注IT匠人圈微信公众号



收藏 已赞