数据分析必备的统计学知识(二)

本文介绍了数据分析中统计学的重要性,并详细讲解了AB测试流程、流量分割策略、第一类和第二类错误的理解,以及分类回归模型的评估指标。此外,还探讨了欧氏距离与余弦距离的区别和主成分分析PCA的概念,旨在帮助数据分析师更好地理解和运用统计学知识。

写在前面

数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学!无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识。

为什么对于数据分析师来说统计学那么重要?其实答案显而易见,数据分析的价值就是通过数据去洞察业务背后的信息,避免之前的“一拍脑袋决定,二拍胸脯保证,三拍屁股走人”的主观误判,一切用数据说话!数据怎么能说话呢,算出一个数据,怎么知道这个数据是好还是坏?有多好有多坏?两组数据呈现在你面前,怎么判断这两组数据是否有明显差异?要回答这些问题,就必须要用到统计学知识,而不是相信自己的眼睛,因为眼睛有时候也会说谎,你看到的“好”不一定是好,你看到的“没有差异”不代表没有差异。

但是很多刚入门的数据分析师在学习统计学知识时都很头疼(也包括我哈哈哈),因为统计学的书籍里都是写晦涩难懂的公式,真不是一般人能看懂的。其实,对于大部分数据分析师来说,我们并不需要掌握的那么全面和深入,我们只需要掌握部分知识点,理论看不懂,但是知道在什么场景下用就行,用起来你才会慢慢地搞懂!

所以为了让大家更容易学习掌握统计学的基础知识,这里整理了数据分析工作中最常见的一些统计学基础知识,尽量用简单白话的形式去解释,这样无论是在面试中还是以后的工作中,都能把统计学的知识用起来!

02数据分析中的统计学

Q1、AB测试的主要流程是什么?如何进行合理的流量分割?
1、一般在开始实验之前,我们首先需要和相关的产品或者项目经理确定这个实验所要验证的改动点是什么。
2、在确认改动点之后,数据分析师需要设计实验中所需要去观测的一些核心指标,比如点击率、转化率等。
3、确定完核心指标之后,下一步就是计算实验所需的最少样本流量,实验样本越大,我们的结果越可信,但是对我们用户的不良影响就越大。所以我们需要计算能够显著地证明我们的策略有效的最少样本量。
4、然后还要结合目前的日均活跃的用户量,计算实验持续的时间周期。
5、在计算完所需样本量之后,就要设计流量分割策略,根据实验需要对样本流量进行分流分层,保证样本的随机和均匀分布,避免出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值