根据现有产品数据,如何做一次数据分析呢?

2018年01月19日 人人都是产品经理


作者:唐先生

全文共 5353 字,阅读需要 13 分钟

题图来自 Unsplash ,基于 CC0 协议


———— / BEGIN / ————


需求分析师是否适合做数据分析?这是我最近在想的问题。


需求分析是基于业务场景的商业化分析,不是技术分析,但需求分析的过程包含了数据分析,用数据驱动产品开发这完全是可能的,从数据中找到产品运营的不足,从而驱动产品开发。


数据分析也是从产品分离出来的需求要点,数据可以绘制用户画像及行为轨迹,可以监控产品转化及发展情况,可以横向评估效果,这个过程涉及到产品、运营、市场、技术等多部门协同,数据分析也是一种很伟大的产品需求开发方法。


那怎么根据现有产品数据来做一次数据分析呢?以下拙见供大家学习……


一、界定数据分析的目的与实现


数据分析之前, 我们要界定好此次分析的目的,一般我们分析数据有四种目的:


  1. 战略决策

  2. 投资决策

  3. 营销决策

  4. 产品决策


数据分析是一个积累的过程,数据也是一样,数据从小到大,从少到多,数据从量变开始质变,并且体现在多个方面,触发蝴蝶效应,推动其他领域的变化。


1. 催发数据性思维


数据性思维表现在:


  • 对全部数据进行分析,而不是随机抽样;

  • 并不过于追求精确性,而是重视数据的复杂性;

  • 更多挖掘数据的相关性,而不是因果

  • 数据之间的关联关系。


2. 产出“数据资产”


数据不断的累计和整合,使得数据变成无形资产,使数据逐步帮助企业做决策,帮助产品设计导方向,改变运营策略。


3. 数据资产可以变现


数据可以像商品一样可以进行售卖,数据变现使得数据有了价值,然而,不同数据,不同数据质量也具有不同价值,但数据的价值却是客官存在的。


数据分析,永远都是为了产品发展而服务,一切目的不外乎:获得用户、留住用户、增加收益、扩大品牌知名度。


而数据正验证我们的设想;同样,数据分析也是最客观和准确的途径,为决策做基础。


从数据的产生到分析、整理、展现、利用、再循环利用,这是大数据思维方式的转变也是商业化新模式的开始。


我们所要做的数据分析,不外乎就是将数据利用再利用的过程。


二、什么是数据分析


数据是由什么组成的?一个数据单元有多大?怎样产生和传送?


数据不是凭空而来,数据是一个场景,一个业务,一个应用产生而来,数据的价值是它产生的环境,过程的独特属性而赋予的。


数据不同属性,造成了数据价值的差异性及应用层面的差异性。


举个栗子——金融属性数据


你的月收入,信用卡消费、网购消费、房贷车贷等,都形成了一个金融数据体系,金融数据的产生过程离钱越近也越有价值,它可以直接可以利用为征信,金融风控,贷款信用额度等。


同样,我们每天上网看信息、社交、听歌、打游戏、搜索、看视频等等,都会产生很多行为、偏好、社交属性数据,通过这些数据我们可以勾画出一个人的用户画像。


做数据分析首先的问题就是识别数据,然后再弄清楚什么是数据分析,常见的数据有:


1. 网站


流量——PV——UV——点击量——点击率(CTR)——展示数——人均访问量、CPM、CPC、转化率、停留时间。


2. APP


日、周、月活量——留存率、屏显


数据分析就是将产品相关的数据进行收集利用工具软件整合,然后利用特定的方法进行分析,从中发现规律或得到结论。


数据的数量不等于数据的质量,所以数据在收集之后必须进行整理、分析。


因为由于数据来源的零散、没有结构、没有规划、没有固定目的,导致即便数据再多,如果盲目用在特定的目标上,也必然产生缺乏质量的问题。 


只有经过严密的富有逻辑的整理、分析、关联,才可以作为预测的根据,这就是我们识别数据的重要性。


只有明白数据从何而来,才能知道它走向何处。


三、怎么做数据分析


有了数据,一堆的数据看起来很大,很乱,我们需要针对性的选择不同的方式方法来进行整合,以下介绍数据分析方法论。


数据分析方法——


  • 对比分析——横切对比、纵切对比、目标对比、时间对比

  • 分类分析

  • 分布分析

  • 相关分析——相关分析研究的是事物间的某种联系,最常见的联系就是因果分析。


对比、分类、分布、相关这4种基础分析方法除了可以直接应用外,还可派生出很多衍生方法,这些衍生方法在企业经营决策中经常会用到。


以上方法简浅易懂,眼花缭乱的东西很多,真正派上用场的却看起来不那么炫酷,很多方法朴实无华却能解决大量问题。


下面就简单介绍几种:


1. 细分


严格说,细分不是一种方法,却是一切分析的根源。


细分有两类——一种是一定条件下的区隔例如在页面停留30s以上的访客,或者只要某个市区的访客等,其实就是过滤。


另一种是维度之间的交叉,如深圳地区的新访客,即分类。


2. 热图及如图对比


热图对于web,APP的分析都很重要,在web前端,过去一些解决不好的问题,比如只能看链接的被点击情况,点击位置错位,对浮层部分点击的标记,对链出链接的标记等等,现在已经有好的工具能够解决。


要想热图用的好,一个很重要的点在于你几乎不能单独使用一个热图就想解决问题,在实际工作中,经常用到集中对比热图方法。


  1. 多种热图的对比分析,尤其是点击热图(触摸热图)、阅读线热图、停屏热图的对比分析;

  2. 细分人群的热图对比分析,例如:不同渠道、新老用户、不同时段、AB测试的如图对比等

  3. 深度不同的互动,所反应的热图也就是不同饿。


使用热图的一个重要方法——不仅仅只是看整体用户的热图,更应该记得细分不同用户组,查看不同组的热图区别。


3. 归因分析法


对于广告主而言,我需要明确广告投放出去用户是从哪个渠道来的,这个用户的质量怎么样,广告购买和用户获取以及用户在APP内之间的关系,这就算归因。


归因,是指在多种因素共同作用造成的某一结果时,各种因素应该占有造成该结果的多大的作用,即功劳应该如何分配以及贵归宿于谁。


严格意义上讲,归因模型大约有10种左右,而归因分类则大体分为单触点和多触点两类。


考虑到用户购买某一样东西的决策,可能受到多种因素影响,比如看到广告了解到这个商品的存在,利用搜索,进一步了解这个商品,然后在某一渠道上看到这个产品的软文等等,这些因素的综合,让一个人下定决心购买。


因此,单一广告渠道并不是你打开客户的闸门,而是多种渠道作用的结果。


常见的归因模型:


  1. 最终互动模型:100%分配给转化前用户最后一次接触的媒体,这样也容易测量,但属于单触点模式,不完善,适合转化型广告主。

  2. 首次互动模型:100%分配给第一次接触的渠道,只考虑最初的品牌认知、不考虑转化,适合全新品牌。

  3. 时间衰退互动模型:配比按时间递减,适合临时促销广告。

  4. 自定义互动模型:自定义个阶段配比,适合销售和品牌同样重视的广告。


归因分析的前提是设置目标——各渠道共同的目标,目标在各种分析工具中都能够较为简单的定义;归因分析的各个渠道,应该有共同的目标才可以进行归因。


4. 溯源


经过反复的细分对比后,基本上可以确定问题所在,这时就需要和业务方确认是否因为某些业务动作导致的数据一出去,包括新版本上线,运营活动策划优化等等。


如果仍没有透彻,那么从细粒度查起,如:


  1. 用户日记分析

  2. 用户访谈

  3. 网络调研

  4. 工作坊


四、为什么做数据分析


数据分析以量化的方式来分析业务问题并提出解决方案。


  1. 建立量化体系——设计指标,建立指标体系,按照指标维度进行收敛。

  2. 明确数据量化重点

  3. 确保数据准确

  4. 站在业务场景角度分析


量化数据是为了统一认知,并且保证路径可回溯,可复制。


指标设计——以准确易懂为准则,集合统计学和业务效果的方法论。


常用的统计学工具:


  • 业务概括——平均数、中位数、众数

  • 业务差异性——方差、标准差

  • 业务分布——频数


以电商顾客质量分析为例:概况是我们看下顾客的平均支付金额,或者支付中位数,来了解顾客概括。


如果想要了解这批顾客质量是都比较好还是参差不齐,则需要通过方差和标准差来描述。


如果想要知道更详细的内容,可以了解每个区间的用户数是多少来判断。


五、怎么使数据分析更有效果


在做数据分析的过程中,我们需要了解什么样的数据展示才是对结果的最好展示。


如果单纯地去看一个数据是没有太大意义的,数据本身也具有相应的欺骗性;比如从运营同学那得到了日新增用户数1W,那么单纯看这个数据没有什么意义——我们可以说这个数据很好,因为看上去很大,但是你可能没有看到同期的数据,有可能昨天的数据达到了2W。


1. 好文配好图——要明确要表达的信息、根据数据选择合适的图标类型;


2. 好的数据一定是首先最好是以比率的形式存在的,不要绝对数,要相对数据。


对比才能更好的展现数据的可用性,对比的数据可以从互联网资讯网站获取也可以从竞品数据中获取,还可以从咨询公司获取,这样经过对比分析以及得到的对比率是最具有说服力的。


3. 通过对比来判断数据的好坏。


我们将数据的日增长量做成一个折线图,从折线图我们就能看出这个数据是在高点还是在低点。


通过对比,我们就会得知这个数据所处的位置是什么样的。


另外,通过对比不同的渠道,对比不同的版本,对比不同的用户群等不同纬度的数据,都可以从侧面反映出这个数据的真实情况。


4. 数据不是一成不变的情况,要动态的去看数据。


单纯只看一个点的数据情况是没有意义的,我们要在数据中加入时间的纬度。


引入一段单位的时间去看待数据整体的变化趋势,这样才能更为客观的判断产品的健康程度。


5. 根据数据分析场景进行数据展示


六、怎样成为优秀数据分析师


1. 分析要有深度


深度是指数据分析对企业的支持程度,当企业面临决策难题时,数据分析若要有深度,则要全面回答3个问题:


  1. 企业的现状和问题是什么?

  2. 问题为什么会产生?

  3. 企业该怎么办?


这3个问题若未答全,则分析的深度就会有所缺失。缺失深度,也就只看到表面的数据累计却看不到本质的问题。


可以从问题的本质出发,从“是什么”“为什么”“怎么办”3个角度思考。


提问是思考的翅膀,善于提问,勤于思考,我们就能达到数据分析的深度,只有不断的锻炼和学习才能在深度深耕。


2. 数据要有可信度


可信度是指分析结果的可靠程度。要有信度,需满足三个条件:对比要可比、差异要显著、描述要全面。


(1)对比要可比


基础数据基数要具有可比性,不能将基础数据与其他数据进行混合对比,缺少对比的可能性。


(2)差异要显著


在做精细化营销时,往往要用数据来理解不同用户的差异;根据差异性制定运营策略。


差异化的数据更能描述问题,差异化的数据需要进行检验,常用的显著性检验有T检验和方差分析。


以方差分析举栗子,操作如下:


2.1 将不同类型的分类进行编码


2.2 选择不同的数据因子


2.3 根据不同组间数据计算



  • 组间差异用组间离差平方和SSA(每组均值与总均值之差的平方和)度量;

  • 组间自由度为K-1(K为组数);

  • 组内差异用组内离差平方和SSE(每组中的个案与相应组的均值之差的平方和)度量;

  • 组内自由度为N-K(N为总个案数);

  • 用于方差检验的是F统计量。


要通过检验,即要得到组间存在显著差异的结论,就要使差异主要来自于组间,使得SSA越大越好,SSE越小越好,反映在F统计量上,就是要F越大越好。


大于多少?大于F的临界值,相应的,F的相伴概率小于显著性水平(默认显著性水平为0.05)。


根据技术的计算与对比,方差分析告诉我们,透过现象看本质。


(3)描述要全面


当刻画一组数据时,描述要全面——不仅要描述这组数据的一般水平,还要考虑到这组数据的波动水平。


如果波动很大,一般水平对数据总体的代表性就会很差。


只考虑一般水平而不考虑波动和差异,会使数据的可信度大大缩水。


所以,数据分析要有深度和宽度。


挖掘够深,反过来看,就会出现一种漏斗模型;从深度看宽度,以两种不同角度看问题,分析问题,使得结果更具有说服力。


(4)分析要有效度


效度,指的是效率和速度。数据分析速度越快、成本越低,则效度越高,成效越显著。社交网络分析能成为趋势,是因为与传统分析方法相比,社交网络分析更效度。


社交网络分析思路是处在社交网络中心且连接数目较多的中心群体比随机人群更容易影响外界和受到外界的影响。


社交网络分析由于在社交网络中,中心群体比随机人群更容易影响他人,因此只要使中心群体进行分析,就解决了源头问题。


社交网络分析之所以优于传统方法,在于它能够抓住重点:中心群体和随机人群相比,中心群体更重要;因此,社交网络分析以中心群体作为研究对象。


用重点单位来发现规律和趋势,就能事半功倍,产生效度。


在效度方面,社交网络分析之所以优于传统方法,在于它能够抓住重点。中心群体和随机人群相比,中心群体更重要,因此,社交网络分析以中心群体作为研究对象。用重点单位来发现规律和趋势,就能事半功倍,产生效度。


(5)分析要有通度


在数据分析前要找到分析的目标,带着问题去分析,也就是了解前期数据分析的需求,后期,需要做数据回报才具有针对性,目的性。


沟通的顺畅度即通度,通度高低直接影响数据价值的发挥水平。


如何提高沟通效率不影响进度,有“三用三不用”原则:能用图表就不用数据;能用图片就不用文字;能用动态呈现就不用静态展示。


  1. 能用图表就不用数据:一图抵千言,图比数据跟具有说服力。

  2. 能用图片就不使用文字:文字多了就容易误导用户,看着头晕,跟不能形象表达目标。

  3. 能用动态呈现不用静态展示:在表达事物随着时间的变化而变化时,动态呈现能还原真实,比静态展示更能让人们产生身临其境之感。


———— / END / ————


本文由 @唐先生 原创发布于人人都是产品经理。未经许可,禁止转载


点击“阅读原文”下载APP

收藏 已赞