找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 583|回复: 4

[【学术茶座】] 大数据时代的数据分析陷阱

[复制链接]
发表于 2014-2-10 08:20:57 | 显示全部楼层 |阅读模式
据说大数据时代寻找各类数据的相关性可以发现很多被忽略的问题
例如××的销售和客户的××有关等等,然后在各方面做工作,就可以获取利益
但数据分析得到的结果一定是把人引上正路的吗?

有人做了大量数据分析,得出一个结论
冰淇淋的销量和犯罪率有明显的正相关
冰淇淋销售的越多,犯罪率也就高
因此给出了建议,冰淇淋里面可能有某种物质,
会促使人犯罪……

这个数据分析结果应该是没有问题的
甚至不用很多的数据依靠常识都能想得到
结论确实是有问题的

但谁能保证每个分析都恰好有合适的常识在支撑着
避免各种错误呢
回复

使用道具 举报

发表于 2014-2-10 08:55:22 | 显示全部楼层
首先要确保样本选取的代表性,其次就是数据来源的可靠性,还要保证分析方法的正确性,在这些基础上结果的解释也要比较谨慎,滥用统计只会导致错误的决策。

同样的数据分析,可能在不同的超市或区域会有不同的分析结果,并不能代表全部情况,更不能由此将解释结论推及到全世界。
回复

使用道具 举报

发表于 2014-2-10 09:08:28 | 显示全部楼层
数据是死的,人是活的
数据是表相,他所代表的意义,不是数据本身可以展示的
回复

使用道具 举报

发表于 2014-2-10 10:04:50 | 显示全部楼层
在我看来,冰淇淋销售量增加,说明气温高,气温高人的脾气相对急躁,实际上可能是气温高造成的犯罪率上升。
统计里面很多数据都是相关的,但是不是因果关系就要仔细分析了,用数字说话,但不等于不用大脑。
回复

使用道具 举报

 楼主| 发表于 2014-2-10 11:20:28 | 显示全部楼层
引用第3楼starrynight于2014-02-10 10:04发表的 :
在我看来,冰淇淋销售量增加,说明气温高,气温高人的脾气相对急躁,实际上可能是气温高造成的犯罪率上升。
统计里面很多数据都是相关的,但是不是因果关系就要仔细分析了,用数字说话,但不等于不用大脑。


确实如此
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-5-20 19:22 , Processed in 0.391073 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表