点击上面蓝字关注我们
充满朝气的数据行业
近年来,各种新闻媒体上Data Science都作为搜索热词榜出现。在如今的大数据时代,每天都会产生大量的数据,我们想从数据里面取得insights,这就催生了Data Science行业。在大量数据产生的同时,数据存储,包括云端存储、移动硬盘等变得越来越廉价,数据的可利用率变高,云计算能力逐渐提高,不仅是手机和PC端,单机端和云端的计算能力也越来越廉价,使得普通人也能用到强大的计算。并且现在的算法越来越开源化,如Tensorflow等,越来越多的开源项目使得技术更加平民化。
文 | Albert, Lightman
编辑 | Lightman
时长 | 用不了一局吃鸡的时间
火
今天数据行业只能用一个字形容: 火
无论哪个行业,应该会每年都被数据时代,大数据,数据分析,商业智能,听过这些名词,在人工智能时代到来的大背景下,许许多多人开始恐慌,不知道什么时候会被替代,有什么时候能够进入到该行业,自己不会被未来取代。
数据科学已经进入到了各个领域 ,由于技术的支撑,Data Science还有很大的市场需求,根据功能性来看,Data Science在诸多领域都有应用,它帮助了企业改变传统的拍脑子做决定的决策方法,现在越来越多公司都采取数据驱动的方式来做商业决策。
Data Scientist被Harvard Business Review 评为21世纪最性感的职业之一,麦肯锡预测全球将有超过1.5个Million的空缺职位。在人工智能和金融科技大肆兴起之后,Data Science作为一切的根基,
DS的问题
我们可以把Data Science中的问题分为几大类:
What’s the statistics。比如一组数据的平均数、最大值、最小值是多少,数据分布是怎样的,这类问题是很基础的Data Science问题。
Is A better than B?这个非常常见,比如很多网站有自己的UI Design,他们有时候就要问,网站这个位置的颜色是用蓝色好还是绿色好呢,这就是Is A better than B问题。
Is this A or B?例如,Facebook上每天都有大量新闻产生,那么我们如何智能地判断一个新闻是真的还是假的呢,这就是一个Is this A or B问题。
How much?想研究一个变量,但是不知道这个变量应该被预测为多少,那么就需要问How much这个问题。
大量的数据中可能存在一个Pattern,想知道这个Pattern是什么我们就要问How is data organized
What’s future?已知现有数据和历史数据,怎样预测未来的数据?
Is this weird?已知一组数据,其中有几个数据与其他的数据不一样,那么这些数据不一样到什么程度才会被认为是weird的?
What will users like?预测用户喜欢什么。
以下来自Albert导师
分析数据行业的思路和切入点是从一个数据项目的software development lifecycle。也就是经常能看见的缩写SDLC进行分析。一般的一个完整的Data project,不管大小或者复杂程度都要经过这么几个步骤,第一是Data Capture,有的也叫做data ingestion也就是从不同的数据源把数据获取并导入到系统中。常见的数据原有传统关系型数据库,屏文件,流数据,机器日志,API获取数据等等。第二部是data store and process。也就是。数据清洗加工转化和存储的步骤。有个更好的术语去形容他就是ETL(extract transform and load)。当然还有一个时髦的词可以形容这个步骤就是data wrangling,当数据经过ETL。按数据模型整齐的加载到数据库中或者是其他数据存储中。
那么这些数据就可以用来回答商业问题,作出预测,实现商业价值等等。所以第三步我并排的 画了三个方向,这些数据可以做Data analysis/machine learning/business intelligence。第四 步,data visualization是第三部的一个结果不管用数据做何种分析。80%的情况是需要有数据 的图形展示以用来证明假设推断。并tell story, 让客户用户更好的理解和使用数据。
现在对数据项目的SDLC有了大致的了解。那么数据相关三大职业DE/DA/DS就在这个流程中诞生了,DE(Data Engineering)的主要工作发生在前两步,使用编程或者工具对数据
进行获取和转化的工种。根据使用的技术和工具不同,有很多称谓。DA(data analysis)是在一 个business context下,对于数据进行分析,以回答商业问题,满足商业需求的工作。
最后DS(data scientist)是DA的加强升级版本主要武器是machine learning,用来做predictive analysis而不是简单的descriptive analysis。DA和ds最关键的区别在于ds绝大多数情况下都是 用feature engineering/machine learning进行预测分析和解决商业问题的。
需要指出的是de/da/ds这三种公种在现实情况中无法每次都百分之百严格的区分。其实三种工 种的技能都有很多overlap,比如etl这个技能。DA和ds同样需要掌握,但是没有第一那么深 入。de可以说是专门专门处理各种etl场景的职位。只要是澳洲各个公司对这个职位定义都不 完全相同,比如澳洲很多公司。招聘ds都希望ds有de的技能可以从data capture做起,再比如 有的公司对Da和ds有着严重的混淆。在有的公司title虽然是datascientist,但是这个职位甚至 很少做算法模型。
接着给大家再看一个数据中心的架构图,要构建这么一个数据中心基本也是遵循我前面讲的四 个步骤。对于不同模块的工作产生了不同的岗位data engineer会负责所有数据的获取。转化 和存储的工作而DS/DA。会在红色模块报表用户画像,风控中工作。
下面这张图是从数据流的角度对前面那张图的进一步阐释,可以看到同样的。DE会负责所有 数据的获取转化和存储的工作。而DA、DS会在数据的应用和商业需求方面进行工作。
我们前面讲了一个完整的数据项目地流程。但是如果只看DS这一部分。其实他也有自己的一 个流程基本是所谓的四步骤,后面许光老师也会给我们具体讲一个数据科学的项目。好第一步 是问题表述其实就是what's your problem,大多数data scientist的工作就是为了解决在一个特 定商业场景下的商业问题。从而做出正确的决策。举例来说银行贷款给个人或者小微企业那么 第一个问题是能不能带给这个人或者小微企业呢,第二个问题是到底可以带多少呢。
那么第二个步骤是数据搜寻。有哪些数据是可以用的,这些数据的源头是什么,能通过什么方 式获取。需要data engineer帮助获取数据或者build data pipeline么。这些数据有隐私和安全 限制吗,这些都是第二个步骤,数据搜寻许所需要考虑的。
第三部分就是我们真正分析建模的步骤。其实在这个步骤呢,我们又可以细分为数据预处理、 探索性分析、feature engineering、建模、模型评估、模型发布这几步。第四个步骤prediction as a service。什么意思呢,就是真正把我们第三部分的模型deploy到生产中形成形成一种产品或者服务。并且不断做performance tracking and 提高和进化模型。据我了解澳洲只有为数 不多的几家公司做到了,第四个步骤。
数据科学全栈班开班了
课程名:数据科学项目全栈班
课程时长:90个小时+Career Coaching
授课地点:墨尔本+面授+远程
你为什么想上这个课程:
从理论到实践,在澳洲找到你梦寐以求的数据科学相关工作
适合人群:
想从事数据科学方向工作的有一定基础的IT学生
想获得宝贵项目经验并转方向的在职人员
通过课程你可以获得的重要求职技术点:
Apache Spark/Kafka进行大数据处理
Tensflow
机器学习算法原理/调参/解决真实问题
时序数据可视化/预测
时空数据可视化/预测
如何正确使用Python/R 进行数据处理
回归分析/聚类方法/分类算法
通过课程你可以获得的
由业界资深导师定制的四大项目
时序数据-比特币价格预测
基于Apache Spark/Kafka的大数据分析
时空数据聚类和预测 -墨尔本停车费罚款优化
Kaggle真实竞赛指导
定制化的Career Coaching
IT匠人社群Networking与内推资源
课程价格:
线下:$5,500 早鸟价:$4,800 (9月28截止)
线上:$4,500 早鸟价 $3, 800(9月28截止)
开课时间:10月20日 星期六
报名热线戳下面二维码
你的澳洲专属IT行业顾问
可以添加小花,你的专属IT行业顾问
匠人培训
澳洲IT求职技术群
我们是澳洲IT技术交流求职群体,目前已经有六千多个小伙伴,而且我们这个群体在不断壮大中,交流技术、工作内推,欢迎IT行业同仁加入,需要合作的请在后台留言。目前大群人数已过百,想要入群的朋友:
请扫二维码入群
我们是谁
布里斯班 · 悉尼 · 墨尔本· 西雅图
打造澳洲IT精英圈 · 做信息时代的匠人
澳洲IT匠人圈 - 致力于做更好的T专业人士组织。我们的初衷就是连接海内外的IT同仁,团结互助、工作内推、职场升迁,让在土澳的我们也能感受到高科技的光芒。IT匠人圈有一系列的品牌活动:Offer收割机、大咖面对面、匠人Workshop、匠人线上公开课、品牌创业之夜,活动开展以来反响强烈。
让我们共同努力,一起实现梦想
商务联系
匠人小花 | 微信 uniapp001
欢迎关注IT匠人圈微信公众号