大数据都有价值吗?
大数据不一定等于好数据,越来越多的专家坚信大数据不会自动产生好的分析结果。如果数据不完整、断章取义或被破坏,就可能导致企业的错误决策,从而削弱企业的竞争力或影响用户的日常生活。
——哈佛大学教授、美国数量社会科学研究所所长Gary King曾经断章取义,得出了错误的结果。他启动了一个大数据分析项目,通过检测推特和其他社交媒体帖子中的“工作”、“失业”、“分类”等关键词来预测美国的失业率。
通过使用情绪分析的技术,该组织收集了包含这些关键词的推特和其他社交媒体帖子,以查看这些帖子的增加或减少是否与每月的失业率有关。
在监控这些内容时,研究人员发现包含其中一个关键词(“工作”)的帖子数量急剧增加,但随后他们发现这与失业率无关,因为他们忽略了乔布斯(其名字也有“工作”的意思)去世的消息。我们应该从这个例子中吸取教训,不要完全依赖“神奇”的大数据来指导决策。
金说,“乔布斯”的双重含义只是许多类似事件中的一个,在这个领域工作的人都遇到过类似的经历。他说:“这些关键词列表在短期内可能是可行的,但从长期来看,它们往往会导致灾难性的失败。你可以通过添加额外的关键词来解决问题,但这需要大量的人类参与。”
你可以在Bing社交页面输入一些关键点,你会看到一些相关或者不相关的东西。如果不改变查询,随着时间的推移,你会发现包含这些关键词的话题在某种程度上逐渐偏离主题,有时偏离很小,有时很大。"
但金表示,总体而言,大量的大数据分析产生了有用的内容。Vantiv首席安全官兼高级副总裁金·琼斯(Kim Jones)表示,这并不是一个新问题,但如果人们认为大量数据能够奇迹般地产生良好的分析结果,这个问题可能会变得严重。他指出:“乔布斯的例子是经典案例,数据本身不等于智慧。”
King认为内容是关键。他是大数据分析公司Crimson Hexagon的首席科学家和联合创始人。用营销执行副总裁韦恩·圣·阿曼的话说,该公司旨在为在线对话提供“内容、意义和结构”。
然而,越来越多没有内容的数据正在推动决策过程。华尔街日报在2月份报道说,医疗保险公司使用大数据为他们的用户创建档案。该公司跟踪的信息之一是购买特大号衣服的历史,这可能会导致推荐减肥计划。
没有人认为鼓励人们过更健康的生活是错误的,但这方面涉及的隐私问题令人不安。这个人可能会给另一个家庭成员买特大号的衣服。而这个隐私问题可能会产生更严重的影响。2008年,彭博商业周刊报道,有人因为有购买处方药的历史记录而被投保公司拒绝医疗保险,而此人的购药历史记录显示此人有轻微的精神健康问题。
亚当·弗兰克(Adam Frank)在他的博客中指出,在某些情况下,银行会因为用户在社交网站LinkedIn或脸书上的联系而拒绝向他们提供贷款。如果你的朋友违约,你的声誉也可能受到他们声誉的影响。美国公民自由联盟的高级政策分析师杰伊·斯坦利(Jay Stanley)指出,“信用卡公司有时会因为其他消费者的信用记录而降低消费者的限额。”
金·琼斯说,在没有进一步分析的情况下从相关性中得出结论给他带来了麻烦。“在20世纪80年代末和90年代初,数据显示,年龄在20至27岁之间、驾驶入门级豪车的西班牙裔和黑人男性最有可能是毒贩。而我正好符合这个标准。我是非裔美国人,年龄在这个范围内。那时候我也开过这样的车,但我不是毒贩。”
他说,“我们不能仅仅依靠数据分析,这可能会导致一些不好的结果。如果你忽略了人的分析因素,那么你的错误率会非常高。”
简而言之,大数据是一种工具,但不应被视为解决方案。“它可以帮助你把范围从几百万缩小到150左右,”琼斯说。“但是我们不能让计算机来做所有的判断,因为最后可能会给你带来麻烦。”