数据分析做什么
数据分析的定义,在百度百科上是这样介绍的:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。这句话的理解比较费劲,那么简单一点讲,数据分析就是发现有用的信息,提供结论并支持决策。
有道是数据在手,天下我有,但如何寻找出数据中潜在的价值,就是分析师的重要工作了。
数据分析大概有两种不同的发展方向,一种是偏向业务分析,需要对业务有比较深的理解,在此基础上,通过数据来寻找业务增长的套路,例如用户增长、网站分析、经营分析等;另一种是偏向数据挖掘,更加注重技术、尤其是算法能力的应用,需要对常见算法的应用熟练掌握。实际工作中,由于数据挖掘需要非常好的技术功底,因此绝大多数人都是偏向业务进行分析。
数据分析的工作内容
那么数据分析的童鞋,日常主要在做什么呢?简而言之,在做三件事:业务的现状是什么、为什么会发生、未来将要如何(或如何改进)。
现状分析,就是告诉业务决策者,过去发生了什么事情,并且通常以报表的形式呈现出来。所以分析师不光要能够做日报、周报,还需要自己来搭建报表平台,通过分析关键的指标,来掌握业务的运营情况。
原因分析,是在业务现状的基础上,分析为什么会发生这些事情。比如指标上升或者下降了,是因为什么原因造成的;或者是分析不同渠道对于最终转化的贡献情况。分析的过程,通常会通过专题的形式展示出来。
预测分析,则是告诉业务,未来会发生什么。预测其实是一件很重要的工作,不论是企业经营目标的制定,或者是相关策略的落实,都需要预测未来可能的情况,来保证业务的健康可持续发展。例如电商大促的到来,销量会得到很大的提升,那么对应的预算、物流、商家要做怎样的应对,都依赖于数据来提供预测。
相关概念的解释
还是有人会产生疑问:数据分析、数据科学、数据驱动、商业智能,这些概念都有怎样的不同呢?
首先说一下商业智能,英文是BUSineSS Intelligence,这是我们常说的BI,其主要价值,在于通过一系列的数据技术,从数据中挖掘隐藏的客观规律,总结这些规律背后的原因,并用于指导公司业务的发展。大多数情况下,BI分析师的工作,就是通过SQL、Python等语言,将已经统计好的数据,结合数据模型或者是分析框架,来对业务进行各种分析,并做成有价值的报表或者报告的形式,供业务方进行分析。
再讲讲数据科学,这个概念就要宽泛的多,通常指在跨学科的领域中,通过数据来寻找到解决问题的方法。数据科学的概念其实比较模糊,属于宽口径的概念,在不同的行业里所做的事情,可能是截然不同的。在互联网行业中,数据科学大约代表:先通过探索分析发现问题,然后再用数据建模去解决问题。
那么数据驱动又如何理解?数据驱动的字面意思是将数据来作为生产资料,通过科学的方法,来推动业务的优化提高。在互联网行业里,数据驱动又可以分为数据驱动产品、数据驱动业务两个方向,比如通过A/B测试来寻找最优的推荐算法,或者是设计实验来指导产品迭代更新的方向,等等。
因此,在一家公司中,不同数据岗位的分工大体如下:数据工程师负责数据平台的搭建、数据仓库的建设,以确保数据被正确的计算和方便的获取;数据分析师根据数据来描述或者是分析相应的问题,这其中包括商业智能来做报表,或者是数据科学来寻找数据模型,最终都是数据驱动业务增长或产品迭代。
如何来做数据分析
数据分析虽然需要的基础知识非常多,属于入门门槛比较高的那一种,但实际的工作却大体遵循如下的步骤,细节可以有不同:
明确分析目的 – 确定思路框架 – 准备数据 – 分析数据 – 展示数据 – 报告撰写。
一,明确分析目的,非常重要,目的不明确会导致分析的过程十分盲目。这里会有一个假设,即分析师需要懂业务,并且有自己对于业务的理解,如果没有相应的专业知识,通常分析的结果就没有特别大的价值。那么什么是懂业务?大体上就是需要明白企业的商业模式是怎样的,通过什么样的关系能够产生商业价值。如果是2B方向,还需要懂一些管理学的内容,了解数据如何辅助公司的经营管理。
二,确定思路框架,是通过怎样的指标、哪些角度来进行分析。其实业界有一些非常通过的方法,可以让我们快速开展业务的同时,能够保证MECE原则,即对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并成为有效解决问题的方法。
常见的思路框架包括:决策树管理分析法、PEST行业分析法、5W2H问题分析法、4P营销理论、SWOT竞争力分析模型 这里的方法论非常多,一些细分方向也有自己的成套理论,比如用户增长常用的AARRR漏斗模型、RFM理论等。这里就不一一展开了,网上能够搜到大把的资源,但有一点需要注意,就是掌握模型切记只掌握个大概,因为每个模型是相应知识体系的总结,只能交给你思路,而无法交给你哪些坑应该避免、什么情况下不起作用,等等。
三,准备数据,这个工作通常由数仓团队完成,一些流量场景,需要采集数据的,也可以通过数据埋点平台来自动完成。当然,成熟的团队会通过建立自己的指标体系,来灵活的支持业务的发展。
四,分析数据,以上文提到的现状、原因与预测分析为例,可以衍生出很多相应的分析方法。我们日常听到比较多的假设检验、回归分析、聚类分析等,都是在分析数据阶段需要用到的专业知识。
常见的分析方法有:A/B测试、描述分析、假设检验、信度分析、推断分析、相关分析、回归分析、聚类分析、时间序列分析 在使用分析方法时,需要注意的一点是口径要一致,例如指标的口径范围、计算方法、计量单位等进行检查。
五,展示数据,一般情况下是通过图表和表格来展示数据,通常是能用图说明的,就不要用表格,除非表格能够提供更多的信息。
所以有句话说道:数据分析无非四种方法:比较、分布、构成、联系。
六,报告撰写,根据分析框架,图文并茂的写一个好故事吧,记得要有清晰的结论。
A/B测试
俗话说,增长团队有三宝:埋点、漏斗、AB测,埋点是数据平台的功能,漏斗是分析问题的思路,但为什么要单独提一下A/B测试?是因为有了数据分析的方法之后,我们还需要数据分析的平台,来对分析的成果快速的进行实验。可以说,A/B测试是支持数据决策最有力的工具。
A/B测试针对2种以上的方案,不论是一整套产品方案,还是一个小元素的改动,只要变量是唯一的,那么我们就可以对同一组人群,进行随机的分组,在同等的时间维度内,将实验组和对照组的结果进行对比,来衡量那种方案更好。
其实很多开发与测试的同学不太理解A/B测试的重要性,因为从开发的视角出发,这些内容确实会增加很多的动作量。但如果从业务的角度出发,那作用可就大了,不论是争议方案的对比、还是产品转化率的提升、亦或是多个数据策略的贡献分配、再或者是产品功能保持简洁的方法,都需要大量的实验来验证我们的想法。在互联网公司中,我们并不缺少想法,但我们需要验证想法的工具,让数据来消除我们的收益淹没、认知偏差、侥幸心理和收益分配矛盾。
在实际的工作中,A/B测试并不简单的代表分成两个实验组,就完事了,因为我们需要考虑辛普森悖论的存在。辛普森悖论是指在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。如果不了解辛普森悖论,盲目的解读试验结论,很容易得出错误的结论。因此,我们通常会设计更多的参照,以验证我们想法的正确性,比如AA测试,或者AAB测试,这都需要一些经验的累积。
36KR曾在一篇报道中写道,头条发布一个新app,其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定,张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?
数据化运营
数据分析如果持续的做下去,那么它的目标就不仅仅是运营看板或者是分析报告了,而是走向数据化运营的发展路线中。
数据化运营的概念很火,但其实很多人对它有误解,认为这就是将运营的工作线上化了而已,但其实不然。在百度百科中,对数据化运营的定义是:数据化运营是指通过数据化的工具、技术和方法,对运营过程中的各个环节进行科学的分析,为数据使用者提供专业、准确的行业数据解决方案,从而达到优化运营效果和效率、降低运营成本、提高效益的目的。
但在互联网行业中,数据化运营的核心思路在于,基于用户的行为和属性,对用户进行运营。因为互联网产品的生命周期,就是一个闭环的模型:用户获取、用户活跃、用户留存、口碑传播、付费转化。这其中的每一个环节,都是一个漏斗,通过对数据进行分析,来运营指标的增长,或者是指导产品成长。例如最经典的啤酒与尿布的故事,就是一个典型的场景,通过发现用户行为的关联,来设置合理的运营策略,提升最终的产品销量。
就像精益创业中提到的MVP理论一样,不论是数据分析制定的各种策略,或者是企业的不同战术打法,其实都不一定是奏效的,而在执行策略的同时,通过数据的沉淀,来不断验证策略打法的有效性,最终发现那个最合适的MVP功能,是数据化运营的核心导向。
现在的数据化运营体系已经变得更加复杂,不仅是因为业务场景的设计越来越复杂,也因为机器学习、因果推断等新技术的应用,使得一些感性的数据能够被利用起来,让我们的运营能够更加清楚的看到业务与目标的