互联网技术 / 互联网资讯 · 2024年1月6日

数据分析的解密之旅

数据分析做什么

数据分析的定义,在百度百科上是这样介绍的:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。这句话的理解比较费劲,那么简单一点讲,数据分析就是发现有用的信息,提供结论并支持决策。

有道是数据在手,天下我有,但如何寻找出数据中潜在的价值,就是分析师的重要工作了。

数据分析大概有两种不同的发展方向,一种是偏向业务分析,需要对业务有比较深的理解,在此基础上,通过数据来寻找业务增长的套路,例如用户增长、网站分析、经营分析等;另一种是偏向数据挖掘,更加注重技术、尤其是算法能力的应用,需要对常见算法的应用熟练掌握。实际工作中,由于数据挖掘需要非常好的技术功底,因此绝大多数人都是偏向业务进行分析。

数据分析的工作内容

那么数据分析的童鞋,日常主要在做什么呢?简而言之,在做三件事:业务的现状是什么、为什么会发生、未来将要如何(或如何改进)。

现状分析,就是告诉业务决策者,过去发生了什么事情,并且通常以报表的形式呈现出来。所以分析师不光要能够做日报、周报,还需要自己来搭建报表平台,通过分析关键的指标,来掌握业务的运营情况。

原因分析,是在业务现状的基础上,分析为什么会发生这些事情。比如指标上升或者下降了,是因为什么原因造成的;或者是分析不同渠道对于最终转化的贡献情况。分析的过程,通常会通过专题的形式展示出来。

预测分析,则是告诉业务,未来会发生什么。预测其实是一件很重要的工作,不论是企业经营目标的制定,或者是相关策略的落实,都需要预测未来可能的情况,来保证业务的健康可持续发展。例如电商大促的到来,销量会得到很大的提升,那么对应的预算、物流、商家要做怎样的应对,都依赖于数据来提供预测。

相关概念的解释

还是有人会产生疑问:数据分析、数据科学、数据驱动、商业智能,这些概念都有怎样的不同呢?

首先说一下商业智能,英文是BUSineSS Intelligence,这是我们常说的BI,其主要价值,在于通过一系列的数据技术,从数据中挖掘隐藏的客观规律,总结这些规律背后的原因,并用于指导公司业务的发展。大多数情况下,BI分析师的工作,就是通过SQL、Python等语言,将已经统计好的数据,结合数据模型或者是分析框架,来对业务进行各种分析,并做成有价值的报表或者报告的形式,供业务方进行分析。

再讲讲数据科学,这个概念就要宽泛的多,通常指在跨学科的领域中,通过数据来寻找到解决问题的方法。数据科学的概念其实比较模糊,属于宽口径的概念,在不同的行业里所做的事情,可能是截然不同的。在互联网行业中,数据科学大约代表:先通过探索分析发现问题,然后再用数据建模去解决问题。

那么数据驱动又如何理解?数据驱动的字面意思是将数据来作为生产资料,通过科学的方法,来推动业务的优化提高。在互联网行业里,数据驱动又可以分为数据驱动产品、数据驱动业务两个方向,比如通过A/B测试来寻找最优的推荐算法,或者是设计实验来指导产品迭代更新的方向,等等。

因此,在一家公司中,不同数据岗位的分工大体如下:数据工程师负责数据平台的搭建、数据仓库的建设,以确保数据被正确的计算和方便的获取;数据分析师根据数据来描述或者是分析相应的问题,这其中包括商业智能来做报表,或者是数据科学来寻找数据模型,最终都是数据驱动业务增长或产品迭代。

如何来做数据分析

数据分析虽然需要的基础知识非常多,属于入门门槛比较高的那一种,但实际的工作却大体遵循如下的步骤,细节可以有不同:

明确分析目的 – 确定思路框架 – 准备数据 – 分析数据 – 展示数据 – 报告撰写。

一,明确分析目的,非常重要,目的不明确会导致分析的过程十分盲目。这里会有一个假设,即分析师需要懂业务,并且有自己对于业务的理解,如果没有相应的专业知识,通常分析的结果就没有特别大的价值。那么什么是懂业务?大体上就是需要明白企业的商业模式是怎样的,通过什么样的关系能够产生商业价值。如果是2B方向,还需要懂一些管理学的内容,了解数据如何辅助公司的经营管理。

二,确定思路框架,是通过怎样的指标、哪些角度来进行分析。其实业界有一些非常通过的方法,可以让我们快速开展业务的同时,能够保证MECE原则,即对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并成为有效解决问题的方法。

常见的思路框架包括:决策树管理分析法、PEST行业分析法、5W2H问题分析法、4P营销理论、SWOT竞争力分析模型 这里的方法论非常多,一些细分方向也有自己的成套理论,比如用户增长常用的AARRR漏斗模型、RFM理论等。这里就不一一展开了,网上能够搜到大把的资源,但有一点需要注意,就是掌握模型切记只掌握个大概,因为每个模型是相应知识体系的总结,只能交给你思路,而无法交给你哪些坑应该避免、什么情况下不起作用,等等。

三,准备数据,这个工作通常由数仓团队完成,一些流量场景,需要采集数据的,也可以通过数据埋点平台来自动完成。当然,成熟的团队会通过建立自己的指标体系,来灵活的支持业务的发展。

四,分析数据,以上文提到的现状、原因与预测分析为例,可以衍生出很多相应的分析方法。我们日常听到比较多的假设检验、回归分析、聚类分析等,都是在分析数据阶段需要用到的专业知识。

常见的分析方法有:A/B测试、描述分析、假设检验、信度分析、推断分析、相关分析、回归分析、聚类分析、时间序列分析 在使用分析方法时,需要注意的一点是口径要一致,例如指标的口径范围、计算方法、计量单位等进行检查。

五,展示数据,一般情况下是通过图表和表格来展示数据,通常是能用图说明的,就不要用表格,除非表格能够提供更多的信息。

我们一起解密数据分析

所以有句话说道:数据分析无非四种方法:比较、分布、构成、联系。

六,报告撰写,根据分析框架,图文并茂的写一个好故事吧,记得要有清晰的结论。

A/B测试

俗话说,增长团队有三宝:埋点、漏斗、AB测,埋点是数据平台的功能,漏斗是分析问题的思路,但为什么要单独提一下A/B测试?是因为有了数据分析的方法之后,我们还需要数据分析的平台,来对分析的成果快速的进行实验。可以说,A/B测试是支持数据决策最有力的工具。

A/B测试针对2种以上的方案,不论是一整套产品方案,还是一个小元素的改动,只要变量是唯一的,那么我们就可以对同一组人群,进行随机的分组,在同等的时间维度内,将实验组和对照组的结果进行对比,来衡量那种方案更好。

其实很多开发与测试的同学不太理解A/B测试的重要性,因为从开发的视角出发,这些内容确实会增加很多的动作量。但如果从业务的角度出发,那作用可就大了,不论是争议方案的对比、还是产品转化率的提升、亦或是多个数据策略的贡献分配、再或者是产品功能保持简洁的方法,都需要大量的实验来验证我们的想法。在互联网公司中,我们并不缺少想法,但我们需要验证想法的工具,让数据来消除我们的收益淹没、认知偏差、侥幸心理和收益分配矛盾。

在实际的工作中,A/B测试并不简单的代表分成两个实验组,就完事了,因为我们需要考虑辛普森悖论的存在。辛普森悖论是指在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。如果不了解辛普森悖论,盲目的解读试验结论,很容易得出错误的结论。因此,我们通常会设计更多的参照,以验证我们想法的正确性,比如AA测试,或者AAB测试,这都需要一些经验的累积。

36KR曾在一篇报道中写道,头条发布一个新app,其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定,张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?

数据化运营

数据分析如果持续的做下去,那么它的目标就不仅仅是运营看板或者是分析报告了,而是走向数据化运营的发展路线中。

数据化运营的概念很火,但其实很多人对它有误解,认为这就是将运营的工作线上化了而已,但其实不然。在百度百科中,对数据化运营的定义是:数据化运营是指通过数据化的工具、技术和方法,对运营过程中的各个环节进行科学的分析,为数据使用者提供专业、准确的行业数据解决方案,从而达到优化运营效果和效率、降低运营成本、提高效益的目的。

但在互联网行业中,数据化运营的核心思路在于,基于用户的行为和属性,对用户进行运营。因为互联网产品的生命周期,就是一个闭环的模型:用户获取、用户活跃、用户留存、口碑传播、付费转化。这其中的每一个环节,都是一个漏斗,通过对数据进行分析,来运营指标的增长,或者是指导产品成长。例如最经典的啤酒与尿布的故事,就是一个典型的场景,通过发现用户行为的关联,来设置合理的运营策略,提升最终的产品销量。

就像精益创业中提到的MVP理论一样,不论是数据分析制定的各种策略,或者是企业的不同战术打法,其实都不一定是奏效的,而在执行策略的同时,通过数据的沉淀,来不断验证策略打法的有效性,最终发现那个最合适的MVP功能,是数据化运营的核心导向。

现在的数据化运营体系已经变得更加复杂,不仅是因为业务场景的设计越来越复杂,也因为机器学习、因果推断等新技术的应用,使得一些感性的数据能够被利用起来,让我们的运营能够更加清楚的看到业务与目标的

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册