大数据分析概要(上)

字号:  | [关闭本页]
时间:2013年7月24日 | 点击(1952)

  译自:2013年6月25日【美国】Datamation
  编译:工业和信息化部国际经济技术合作中心 戴未琰

  大数据分析面临的主要挑战

  大数据是一项艰巨的挑战。众所周知,当今时代,数据正以爆炸式的速度增长,世界上总共有多少数据,没人能给出确切的答案。

  谷歌前首席执行官埃里克·施密特称,“我们现在创造出来的信息量相当于过去整个人类历史创造出来的文明。从数字时代开始到2003年,我们只创造出5艾字节的信息。但是,我们现在每两天就能创造出5艾字节的信息,而且信息增长的速度还在不断加快。”

  这个数据似乎有些言过其实。RJMetrics首席执行官Robert J. Moore,在最近的TEDx演讲栏目中提到,2002年,只有23艾字节的信息被记录和复制,但我们现在每七天就能更新和转移这么多数据。

  Gartner称,企业数据在未来5年内将增长650%。IDC的说法是,全世界的信息在一年半内即可翻一倍。IDC称,2011年,我们创造了1.8泽字节(1.8兆GBs)的信息,若要将这些信息储存在电子设备中,则需要575亿台规格为32G的iPad,将如此多的iPad连接起来,长度是万里长城的两倍。

  数据的创造脚步势必加快,尤其是当今机器对机器通讯技术的成本降低,人们获取技术更为便捷。试想一下,所有传感器网络、防盗警报器、车辆远程通讯系统等加在一起,将会创造出多么庞大的数据。

  IBM称,我们每一天都能创造出2.519字节的信息。数据正在指数式增长,并且,当今世界上90%的数据都是在过去两年内创造出来的。这些数据来自各个地方,比如传感器收集气象信息上传到社交网站,数字图像和数字视频,电子商务交易记录,GPS坐标等等。

  当然,在早期人类历史上,像推特之类的简短信息没有记录下来,所以对比只能到此为止。实际生活中,每一天每一分钟我们都在创造:

  图片来源于:DOMO

  ·超过2.04亿封电子邮件消息

  ·超过200万的谷歌查询

  ·48小时更新的YouTube视频

  ·68.4万条分享在Facebook上的内容

  ·10万余条推特

  ·27.2万美元的电子商务投资

  ·3600张分享在Instagram新照片

  ·将近350篇新发布的WordPress博客

  大数据面临的挑战在于,不同系统中到处都能储存数据。打破相互独立的数据系统,标准化操作是当今面临的主要任务。另外一个主要任务是创建大数据平台,可以存储结构化数据和非结构化数据。

  当你进入大数据这块领域时,你会发现更多神秘的挑战。比如,传统数据库最初并没有用到多核处理器。因此,它们在处理数据的时候速度较慢。这导致“快速数据”概念的出现,像ParStream之类的小型公司正试图克服数据库遗留的问题。

  从累积到分析

  我们需要处理许多数据。积累数据是一回事,而处理数据则是另外一回事。收集报纸、吞拿鱼空罐子和小野猫的人,不会被人们视作为一个有辨别力的收集者。想象一下,你也不会到废物囤积者家中学习历史,因为那儿可用的信息不多。相反,我们一般会去从古董收藏家那获得知识。

  尽管有了数据,这个世界上还是有很多囤积者。当今数字储存价格低廉,因此人们把所有数据都储存起来。确切地说,他们从不会自找麻烦,删除数据。网络存储方面也是一样,在开始低收费之前,在线存储供应商甚至还会定期免费放出几个GB的数据,供客户使用。

  当今,许多企业正在努力处理无止境扩张的数据,因为如果不这么做的话,企业将失去竞争力。

  IBM称,数据的指数化增长将给许多企业留下严重的盲点。IBM研究发现,企业领导经常许可一些无数据支撑的决策,或者他们的决策是基于置信度不高的信息之上。更令人惊讶的是,半数企业领导者表示,他们尚未找到可以让工作效率变高的信息途径。

  虽然大多数企业领导者和有关人员知道,工作相关的数据确实存在,但不知道哪里可以获得这些数据。即使他们已经有一个大致的想法,他们还不清楚如何将想法提炼,应用到实际生活中。他们试图寻找这些相关数据,但始终没法确定数据的实时性和准确性。

  大数据分析旨在处理上述问题。我们追求的不只是原始数据,而是分析这些数据的技术。

  分析学

  当技术达到能将数据独立性打破、数据分析能力提高时,商业即可转换成各种形式。分析大数据技术的进步能让研究人员在数分钟之内解码人体DNA,这项技术让基因公司(如23andme公司)成功运转。

  同时,研究人员能够预测恐怖分子预谋的袭击地点,特定的疾病是由哪种基因引起,分析你在Facebook上最有可能回复的广告内容。

  事实上,由PNAS发布的最新研究显示,你在Facebook上点击“赞”的内容表明了自己的性格特征,比如你的智力、性别、性取向、政治倾向或者其他个人信息。

  然而,部分商业观察并没有令人惊讶,比如喜欢“小商业星期六”的人可能比典型Facebook用户的年龄要大;有些商业观察让人困惑,比如喜欢油条与智商高有关。当然,关联并不等于因果关系,这有可能是随机的统计噪声。但是,大数据分析能识别统计噪声。

  经营大数据的商业案例比喜欢油条更有说服力。例如,为提高最近热门剧集《纸牌屋》的收视率,网飞公司(Netflix)挖掘用户数据,从中加入一些必要的因素。运用用户数据,同样促使他们的情景喜剧《发展受阻》起死回生。

  另外一个例子是来自世界上最大的移动运营商之一——法国电信,该运营商发布了Data for Development项目,为象牙海岸的客户提供用户数据。数据有共计25亿条匿名记录,包括500万人之间的通话记录和互通短信。

  许多研究人员访问数据集,给法国电信发出建议,认为这些数据可以成为公司发展项目的基础。在所提议的项目中,有一项是通过追踪手机数据,了解人们在紧急情况下的去向,以此来提高公共安全。另一个项目是怎样用手机数据来了解疾病的传播。事实上,推特已在海地霍乱爆发时成功运用了该项功能。

  美国国家安全局的Prism项目就是依赖大数据分析而运行的。这个项目将手机通话记录、电子邮件来往、即时通讯聊天、社交媒体等数据元导出,并进行处理。

  政府官员支持这个项目,因为他们认为大数据分析是关键的防御措施。如果某人被认定为恐怖组织的嫌疑人,他的通话记录可以显示出其他恐怖分子的行踪,帮助国土安全部的官员锁定最有可能即将被袭击的目标。

  (未完待续)

相关文章
2024/04/10工业和信息化部国际经济技术合作中心(中国国际贸易促进委员会电子信息行业分会)2024年度部门预算
2018/12/28俄罗斯2018年互联网经济盘点
2018/05/18数字经济为中国与中东欧16+1机制开辟新合作领域
2018/05/18普京颁布新五月命令, 第四任期经济政策向去原材料化倾斜
2018/05/08英国政府发布网络安全出口战略
最新文章
2024/04/10工业和信息化部国际经济技术合作中心(中国国际贸易促进委员会电子信息行业分会)2024年度部门预算
2023/11/072023工业绿色发展成果展圆满落幕
2023/11/07中国企业强势回归2023中东电力展
2023/11/07中英职业技能与教育交流研讨会在常州武进成功举办
2023/05/12中国企业亮相俄罗斯国际电子元器件展