大数据分析概要(下)
译自:2013年6月25日【美国】Datamation
编译:工业和信息化部国际经济技术合作中心 戴未琰
大数据分析市场
当今,大数据分析市场仍处于起步阶段。Software AG、Oracle、IBM、Microsoft、SAP、EMC、HP等大型软件公司互相争抢充满生机的新企业,如Datameer、Alpine Data Labs、SiSense、Cloudmeter。
大型公司花费数十亿美元,收购数据管理和分析的软件公司,如Apema、Jacada、More IT Resources、Vertica、Vivisimo等,这些新公司都是依靠风险投资基金得以运行。
更为复杂的是,一些老公司在市场中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。
许多研究大数据分析的新型企业也有其市场定位,如分别定位于社会营销(DataSift),电视广告购物(Rocket Fuel),应用性能(Cloudmeter),求职招聘(Bright.com)等领域。
根据Wikibon的调查,2012年大数据市场总额将达到114亿美元。2013年则将达到181亿美元,比2012年增长61%。到2017年,总额将达470亿元。以上数字意味着,在2012—2017年,大数据市场总额在以年均31%的速度增长。
显然,投资商们还有很大空间,因为市场领域仍是商家抢占的地盘。他们希望,在不久的将来,有更多数据能被整合。
这就是大数据的目标,我们追求的不只是初始数据,而是分析数据的技术。
图片来源于:DataLanscape.com
展望未来——大数据的趋势
开放源代码
大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop和NoSQL数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。
毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。
市场细分
当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台(如Hadoop、NoSQL)。
人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等等。
同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析做为基础。
预测分析
建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。例如,中间选民改变投票决定的决定性因素。
但是,当数据累加,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新设计购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。
当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。
当然,即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007年和2008年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。
另一方面,预测分析在许多领域流行起来,例如欺诈发现(比如在外省使用信用卡时会接到的诈骗电话),保险公司和顾客维系的风险管理。
重新聚焦于人为决策?
机器学习能力不断提升,逐步成为分析套件里的必要工具。此时,不要惊讶,人类因素正渐渐淡化。
企业主经常尝试限制人为误差。任何网络安全专家,通过详细讨论后指出,安全漏洞是由人为误差而引起的,比如过度依赖弱口令,不慎进入钓鱼网站或其他安全系数低的网站。
然而,即使机器学习能力不断提升,机器也只能提问我们事先设定的问题。这会给我们带来很大限制:若依赖于机器,我们究竟可以得到多少。
人为因素对大数据的出现十分关键。大数据领域最有名的两位预言家和先驱者是Billy Beane和Nate Silver。Beane曾推广一个想法:将各种各样的数据联系起来,这些数据都是关于被低估的运动员的特质。接着把这些运动员召集起来,组成一支棒球队上场比赛。这支较为经济的团队竟能与实力雄厚的队伍(比如洋基队)进行抗衡。
有部分人不相信Nate Silver的预测,开发出不依赖于数据分析的软件,比如Unskewed Polls(中文译为非倾斜民意调查,但其实不然)。因为许多人认为Silver只是数据库轮询方面的专家,但实际上他在大数据分析领域也十分在行。
在不同情况下,最重要的不是机器搜集数据、得到初始数据,而是人为顶端分析,只有人为因素才使这些数据有意义。人们可以将民意调查的数据视为罗夏墨迹测验的结果。
Silver则不然,他输入大量数据,观察各种民意调查在不同阶段的情况,并参考影响差误范围的因素,最后他能做出惊人的准确预测。
相似地,每个棒球队经理十分看重占垒率和其他得分统计,但是很少能像Beane领导的A’s队伍一样,他用如此少的资金就能抗衡实力雄厚的球队。寻找被低估的运动员比寻找天才球员更需要投入精力。你需要知道怎样合理地和其他球队经纪人协商、交易,你还需要思考,究竟哪一位球员能适应新创建的队伍。
当大数据分析逐渐成为主流,它将会变得和其它早期的技术一样普遍。大数据分析也会逐步成为一种日常工具,但关键还在于人为操作。
(完)
- 相关文章
- 2024/04/10工业和信息化部国际经济技术合作中心(中国国际贸易促进委员会电子信息行业分会)2024年度部门预算
- 2018/12/28俄罗斯2018年互联网经济盘点
- 2018/05/18数字经济为中国与中东欧16+1机制开辟新合作领域
- 2018/05/18普京颁布新五月命令, 第四任期经济政策向去原材料化倾斜
- 2018/05/08英国政府发布网络安全出口战略
- 最新文章
- 2024/04/10工业和信息化部国际经济技术合作中心(中国国际贸易促进委员会电子信息行业分会)2024年度部门预算
- 2023/11/072023工业绿色发展成果展圆满落幕
- 2023/11/07中国企业强势回归2023中东电力展
- 2023/11/07中英职业技能与教育交流研讨会在常州武进成功举办
- 2023/05/12中国企业亮相俄罗斯国际电子元器件展