您好,欢迎来到行行出状元 登录 免费注册

“数据说谎”常见的3类形态

来源:http://info.hhczy.com 编辑:Candy 2014-05-07 | 标签: 数据 数据分析 |
浏览:1297

常生活工作中,处处都会与数据打交道,但你知道数据是会“说谎”的,即你看到的数据结果并不是事实。本文介绍一些常见的说谎场景以及如何避免。

第一种图表欺骗

图表通常用来增强需要文字和数据的说服力,通过可视化的图表更容易让受众接受信息。但图表有时候会表现的不是数据的本质:

1.图表拉伸

如果没有特殊用途,通常图表的长(横轴)与高(纵轴)的比例为1:1到1:2之间,如果在这个范围之外,数据现实的结果会过于异常。比如:

2.坐标轴特殊处理

在很多场合下,如果两列数据的取值范围差异性过大,通常在显示时会取对数,这时原来柱状图间的巨大差异会被故意缩小。通常,严谨的分析师在讲解之前会进行告知。比如:

3.数据标准化

数据标准化也是一个让数据落在相同区间内常用的方法,常用Z标准化或0-1标准化,如果不提前告知,可能会误以为两列数据取值异常接近,不符合实际业务场景,比如:

隐秘层次:★★☆☆☆

破解方法:询问分析师的图表各个含义,了解基本图表查看常识。

第二种 数据处理欺骗

数据处理中的欺骗方法通常包括抽样方法欺骗、样本量不同、异常值处理欺骗等。

1.抽样方法欺骗

整体样本的维度,粒度和取数逻辑相同的情况下,不用的样本抽样规则会使数据看来更符合或不符合“预期”。比如在做用户挽回中,假如做的两次活动的抽样样本分别是最近6个月未购物和最近6个月未购物但有登陆行为的用户,不用做什么测试,基本上可以确定后者的挽回效果更佳。要识破这个“骗局”只需要询问数据取样方法即可,需要细到具体的SQL逻辑。

2.样本量不同

严格来说样本量不同并不一定是故意欺骗,实践中确实存在这种情况。(遇到这种情况可以用欠抽样和过抽样进行样本平衡)样本量不同分为两种情况:样本量数量不同。比如要做效果差异对比,第一步是做效果比对,假如两个数据样本量分别是几千和几万的级别,可比性就很小。尤其是对于样本分布不均的情况下,数据结果可信度低。样本主体不同。这是非常严重的数据引导错误,通常存在于为了达到某种结果而故意选择对结果有利的样本。比如做品类推广,一部分用户推广渠道为广告,另一部分是CPS可以遇见相同费用下后者的效果必然更好。相同样本不同的客观环境。比如做站内用户体验分析,除了用随机A/B测试以外,其他所有测试方法都没有完全相同的客观环境,因此即使选的是相同样本,不同时间由于用户,网站本身等影响,可信度较低。3.异常值处理欺骗

通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。其中的极值很可能是异常值,此时如何处理异常值会直接影响数据结果。比如某天的销售数据中,可能存在异常下单或行单,导致品类销售额和转化率异常高。如果忽视该情况,结论就是利好的,但实际并非如此。通常我们会把异常值拿出来,单独做文字说明,甚至会说明没有异常值下的真实情况。

隐秘层次:★★★☆☆

破解方法:在跟数据分析师沟通中,多询问他们在数据选取规则,处理方法上的方法,如果他们吞吞吐吐或答不上来,那很有可能是故意为之。同时,业务人员也要增强基本数据意识,不能被这种不可见的底层错误欺骗。

第三种 意识上的欺骗

这种欺骗是等级最高也是最严重的欺骗和错误,通常存在于数据分析师在做数据之前就已经下结论,分析过程中只选取有利于证明其论断的方法和材料,因此会在从数据选择,处理,数据表现等各个方面进行事实上的扭曲,是严重的误导行为!数据分析师需要有中立的立场,客观的态度,任何有立场的分析师的结论都会失之偏颇。

隐秘层次:★★★★★

破解方法:在跟该分析师沟通中,查看其是否有明显立场或态度,如果有,那么该警惕;然后通过上面的方法逐一验证。

综上,当你遇到以下数据情形,就需要警惕数据的真实性了:数据报告从来不注明数据出处,数据时间,数据取样规则,数据取得方法等。现在市场上很多报告都属于这一类。数据报告在做市场调研中说明全样本共1000,其中北京可能只有100,基于这100个样本出来的结论显然不可信。事实上很多市场研究报告就是这样出来的。数据报告中存在明显的观点,对于事物的分析只讲其优势或劣势,不全面也不客观。现在很多互联网分析师就是属于这类,大家注意辨别。



【版权声明】行行出状元平台欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源:;同时,我们倡导尊重与保护知识产权,如发现本站内容存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至service@hhczy.com,我们将及时沟通与处理。

热门文章

  • 1688运营解答贴:店铺不够50个宝贝有影响吗?店铺权重怎么查看?
    1688运营解答贴:店铺不够50个宝贝有影响吗?店铺权重怎么查看?

    1688运营解答贴:店铺不够50个宝贝有影响吗?店铺权重怎么查看?

    经常有用户在社群中询问“问产品是优化到七星好,还是主图带营销文案比较好?”、“产品突然被大批量下架是什么原因?”……大泽收集了一些常见问题,希望能给商友一些启发~

  • 1688生意参谋市场洞察在哪里看?如何查找蓝海关键词?
    1688生意参谋市场洞察在哪里看?如何查找蓝海关键词?

    1688生意参谋市场洞察在哪里看?如何查找蓝海关键词?

    1688生意参谋市场洞察在哪里查看?很多1688卖家不知道市场洞察在哪里查看。订购付费版生意参谋后,进入生意参谋后台,如图所示点击“市场竞争”就可以看到市场洞察的各项数据了。

  • 超级物种将关闭除福州外的所有店铺?永辉超市回应了
    超级物种将关闭除福州外的所有店铺?永辉超市回应了

    超级物种将关闭除福州外的所有店铺?永辉超市回应了

    2月26日消息,日前,有消息称,超级物种将关闭全国除福州外的所有店铺,具体关闭时间暂未确定。对此,永辉超市官方否认了这一消息,并回应称,超级物种的部分闭店属于正常的业态调整。

  • 苏宁易购股权即将变更,股票已停牌
    苏宁易购股权即将变更,股票已停牌

    苏宁易购股权即将变更,股票已停牌

    2月26日消息,日前,苏宁易购发布公告称,公司实际控制人、 控股股东张近东以及股东苏宁电器集团有限公司拟筹划转让股份,预计转让比例20%-25%,可能涉及公司控制权变化。苏宁易购股票自2月25日起停牌,预计停牌时间不超过5个交易日。

  • 数字人民币再试点,成都将发放4000万元红包
    数字人民币再试点,成都将发放4000万元红包

    数字人民币再试点,成都将发放4000万元红包

    2月24日消息,日前,成都发布微信公众号消息,成都“数字人民币 红包迎新春”活动将于2021年2月24日正式开启。此次活动向在蓉个人发放总额4000万元的数字人民币消费红包,红包数量约20万个,中签个人可获得178元或238元金额红包。

  • 小米要造车?已拥有多项相关专利
    小米要造车?已拥有多项相关专利

    小米要造车?已拥有多项相关专利

    2月21日消息,近期,有媒体透露,已从多个渠道获悉小米确认要造车,并视其为战略级决策,公司创始人雷军或将亲自带队。

  • 苹果被曝开启6G研发:正在招聘工程师
    苹果被曝开启6G研发:正在招聘工程师

    苹果被曝开启6G研发:正在招聘工程师

    2月21日消息,据彭博社相关消息透露,苹果公司在最近发布了一则招聘广告,旨在为下一代移动网络招募无线系统研发工程师,即6G网络。据悉,此次苹果要招募岗位的工作地点位于硅谷和圣地亚哥。

人物观点

更多 >
  • 卢捷:创新创业要考虑自身造血赚钱
    卢捷:创新创业要考虑自身造血赚钱

    卢捷,厦门创客猫网络科技有限公司创始人,热衷创新创业,是一位名副其实的有为创业青年,主要从事互联网相关行业,自双创热潮出现后,投身于为互联网活动、创新创业活动的主办方做线下活动的图文直播、现场采访、媒体报道等这样的一个现场媒体服务。

  • 林超:平行进口车为汽车市场添活力
    林超:平行进口车为汽车市场添活力

    恒基瑞驰科技创始人,美国天马迅达快递副董事长。2007年赴美留学,进修工商管理硕士。2010年5月创立了美国迅达快递,致力于为海外华人和国内海淘用户提供优质的物流服务。2014年5月份联合创立了美国天马迅达快递。在全美30多个州开设了100多家加盟店,服务于全美华人,电商以及海淘客户。2016年开始投资创立“恒基瑞驰供应链管理平台”,全面服务于平行进口车的各个贸易商与经销商。

人物最强打工人:苹果CEO库克获8亿年终奖!
人物马斯克资产缩水近千亿,不再是全球最富有的人
人物福布斯公布中国杰出商界女性榜:董明珠第五
人物罗永浩回应坚果手机被放弃:嗯,好事
人物马云近3个月来首露面,阿里股价强势反弹!

推荐专题

更多 >

合作协会

  • 福建电子商务协会
  • 德化县电子商务协会