网站首页 设为首页  收藏本站  注册  登录
要闻 城事 娱乐 文化 财富 房产 爆料 社会 时事 旅游 体育 教育 女性 汽车 视觉 龙江 健康家园 专题 生活社区
您当前的位置 :体育 正文
小心大数据陷阱:有时数据未必能说有价值的话
http://pidaih.cn 2019-05-15

小心大数据陷阱:有时数据未必能说有价值的话

点击上方蓝色字体关注。

您还可以搜索公众号“D1net”选择关注D1net旗下的各领域(包括云计算,智慧城市,数据中心,大数据,视频会议,视频监控,服务器,存储,虚拟化,软件等)的子公众号。

=======

这几年, 大数据的 “出镜率” 颇高。 连带着, “数据科学家” 成为了新的高薪一族。 人气、 财气的提升也带动了士气, 有人开始高估大数据的神通, 仿佛只要积累了足够多数据, 请 “数据科学家” 们坐在电脑前——就像福尔摩斯坐在太师椅上——敲一通键盘, 各种问题就都能迎刃而解。

大数据真有如此神通吗? 回顾一段小历史对我们也许不无启示。

那是在 1936 年, 美国共和党人艾尔弗·兰登与民主党人富兰克林·罗斯福竞选总统。 当时很有影响力的《文摘》杂志 决定搞一次超大规模的民意调查, 调查人数高达 1,000 万, 约为当时选民总数的 1/4, 最终收到的回复约有 240 万份, 对于民意调查来说可谓是 “大数据”——事实上, 哪怕在今天, 一些全国性民意调查的调查对象也只有几千。 通过对这组 “大数据” 的分析,《文摘》杂志预测兰登将以 55% 比 41% 的显著优势获胜。 但不久后揭晓的真正结果却是罗斯福以 61% 比 37% 的优势大胜。《文摘》杂志的 “大数据” 遭到了惨败。

当然, 那是陈年旧事了。 区区 240 万份回复作为民意调查是超大规模的, 从数据角度讲, 以今天的标准来衡量却实在小得可怜。 不过, 今天的 “大” 在几十年后也未必不会如昔日的 “小” 一样可怜。 那段小历史的真正启示在于: 数据已大到了统计误差可以忽略的地步, 结果却错得离谱。 这种类型的错误对于大数据是一种警示。

现在让我们回到当代。 2008 年 8 月, 大数据 “成功偶像” 之一的谷歌公司领衔在《自然》(Nature) 杂志上发表论文, 推介了一个如今被称为 “谷歌流感趋势” 的系统。 这一系统能利用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患者数目。 谷歌表示, 这一系统给出的估计不仅比美国疾病控制与预防中心 (Centers for Disease Control and Prevention——简称 CDC) 的数据更快速, 而且还有 “不依赖于理论” 的特点。

但是, 这个一度引起轰动的系统经过几年的运行后, 却引人注目地演示了大数据可能带来的陷阱。

2013 年 2 月,《自然》杂志资深记者巴特勒 (Declan Butler) 发表了一篇题为 “当谷歌弄错了流感” 的文章, 指出 “谷歌流感趋势” 对 2012 年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的数据高了约一倍。 不仅如此, “谷歌流感趋势” 在 2008-2009 年间对瑞士、 德国、 比利时等国的流感类疾病患者数目的估计也都失过准。

大数据在这些例子中为什么会失败呢? 人们很快找到了原因。 比如《文摘》杂志对 1936 美国总统竞选预测的失败, 是因为该杂志的调查对象是从汽车注册资料及电话簿中选取的, 而汽车及电话在当时的美国尚未普及, 使得由此选出的调查对象缺乏代表性。 而谷歌对 2012 年底美国流感类疾病患者数目的估计失败, 则是因为媒体对那段时间的美国流感类疾病作了渲染, 使得很多非患者也进行了有关流感的搜索, 从而干扰了 “谷歌流感趋势” 的估计。 在统计学中, 这被称为系统误差 , 只要存在这种误差, 数据量再大也无济于事。

当然, 原因一旦找到, 对结果进行修正也就不无可能了。 比如在有关流感的搜索中, 来自患者的搜索往往随疫情的爆发而迅速增加, 随疫情的缓慢结束而缓慢降低, 呈现出前后的不对称, 而媒体渲染引来的非患者的搜索则前后比较对称。 利用这一区别, 原则上可对结果进行校正。

但另一方面, 原因之所以很快找到, 是因为失败已成事实, 从而有了明确的分析对象, 在千变万化的大数据分析中要想每次都 “先发制人” 地避免失败却是极其困难的。 比如大数据分析对数据间的相关性情有独钟, 其所津津乐道的 “不依赖于理论” 的特点却在很大程度上排斥了对相关性的价值进行甄别——就如知名技术类刊物《连线》(Wired) 杂志的主编安德森 ) 曾经宣称的: “只要有足够多数据, 数字自己就能说话” (。 数字也许是能说话, 但说出的未必都是有价值的话。 事实上, 未经甄别的相关性可谓处处是陷阱。 比如 2006-2011 年间, 美国的犯罪率和微软 IE 浏览器的市场占有率就明显相关 (同步下降), 但却是毫无价值的相关性——这是纽约大学计算机教授戴维斯 举出的例子。 在统计学中, 这是所谓 “相关性不蕴含因果性” (的一个例子。

无论是系统误差还是 “相关性不蕴含因果性”, 大数据的这些陷阱其实都是统计学家们熟知的。 只不过, 太急于赶路时, 人们有时会忘掉曾经走过的路。

(来源:科学画报)


相关阅读:
和记娱乐 www.jnny155.com
编辑:何双印
22.8K
相关报道
小心大数据陷阱:有时数据未必能说有价值的话
社会实践评语怎么写
调查:食品安全查询机为何成了摆设
孕晚期性生活注意事项
健康养生:对抗雾霾天,养生食谱都在这儿!
《极限挑战》播到美国!男人帮云南度假“拉飞机”起飞
教你制订一个可以实施的学习计划
红屁股(尿布性皮炎)?不用激素,用这种草抹一抹就好
一次性喷雾染发剂黑色
被蜱虫咬了怎么办
 
 
 热门新闻排行
· 孕晚期性生活注意事项
· 写给天才的书信
· 行政人力资源部周工作总结
· 董事长致全体员工的春节感谢信
· 团员入党自我鉴定范文
· 清洁工为老伴治病花光积蓄 将馒头晒干吃称挡饿 图
· 天津一鸣香精香料有限公司生产的鸡肉精膏抽查合格
· 描写生活的作文:生活在别处
· 适合户外拓展的游戏
· 三峡电站今年发电量有望居世界各水电站之首
 推荐
· 调查:食品安全查询机为何成了摆设
· 一次性喷雾染发剂黑色
· 被蜱虫咬了怎么办
· 售存储业务30%股权 冯军“贱卖”华旗资讯
· 怎样看四维彩超分性别
· 关于教师个人自我评价
· 那儿,有您
· 浙江农林大4名男生获大学生山地户外挑战赛冠军
· 房企自筹资金达年内最高 下半年房价或实质性下跌
· 潮之美服饰加盟项目100%是个骗子
要闻 | 龙江新闻 | 时事 | 社会 | 娱乐 | 文化 | 财富 | 房产 | 汽车 | 健康 | 论坛 | 旅游 | 体育 | 教育 | 女性 | 视觉新闻 | 金色夕阳 首页
武安日报报业集团版权所有,未经允许不得镜像、复制、下载
武安日报报业集团
黑ICP备11001326号-2