数据分析中可能存在的错误

开课吧小一2021-04-06 15:33

在提起数据一词的时候,相信很多人都听过“数据不会骗人”这句话,这就代表着,人们对于数据的相信程度。那么数据分析中常见的错误有哪些?

数据分析中可能存在的错误

控制变量谬误:在做A/B测试时没有控制好变量,导致测试结果不能反映实验结果。或者在进行数据对比时,两个指标没有可比性。

样本谬误:

1、样本量不够:统计学的基础理论基石之一就是大数定律,只有当数据量达到一定程度后,才能反映出特定的规律。如果出现样本量极少的情况,建议把时间线拉长,获得足量的样本。或者将不重要的限定条件去掉,增加样本数。

2、存在选择性偏见或者幸存者偏见:统计学的另一大理论基石是中心极限定理。简单描述就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。

3、混入脏数据:这种数据的破坏性比较大,可能得出错误的结论。通常我们会采用数据校验的手段,屏蔽掉校验失败的数据。同时,在分析具体业务时,也要针对特定业务,对所使用的数据进行合理性限定,过滤掉异常离群值,来确保拥有比较好的数据质量。

数据分析中可能存在的错误

因果相关谬误:会误把相关当因果,忽略中介变量。

辛普森悖论:简单来说,就是在两个相差较多的分组数据相加时,在分组比较中都占优势的一方,会在总评中反而是失势的一方。

个人认知谬误:主观臆断、经验当事实、个体当整体、特征当全貌、眼见当事实。

在数据分析中,无论是多小的一点失误,都会引起数据分析的不准确性,并且影响分析结果与价值,所以需要做好数据收集与统计,并且采用合理的方法进行分析。对于数据分析技术知识以及相关信息有兴趣的同学,可以去开课吧数据分析教程频道,了解更多数据分析相关信息。

有用
分享