互联网原理与“带围墙的花园”——开放数据的霸权之争

字号:  | [关闭本页]
时间:2011年6月3日 | 点击(2992)

  译自:2011年6月1日【日本】enterprisezine.jp
  编译:中国贸促会电子信息行业分会 王喜文

  目前好像大家都认同一个观点:Facebook是Google的挑战者。事实上,两者一个是搜索引擎、一个是社交网络,开展着性质完全不同的服务。“搜索”与“社交”其实构不成竞争。尽管如此,不知道为什么Google与Facebook之间还是展开着激烈的竞争。原因在于两者在“数据方法”上的根本对立。

  Google VS Facebook

  互联网到现在只有短短20 年的历史,却不断地发生着变化与竞争。过去,曾经有Netscape和Internet Explorer之间的浏览器份额之争,Google、Yahoo、Microsoft的搜索引擎主导权之争等各种竞争关系,而2011年最受关注的是Google与Facebook之间的竞争。调查显示,美国的Facebook访问量与停留时间均超过了Google,两者经常被视为互联网新潮流的代表而被加以比较。

  Google是搜索引擎的霸主。其以搜索广告业务为主的季度收入超过70多亿美元,而且这一数值还在不断地增加。

  而因发布视频“社交网络”成为世界焦点的Facebook在2004年刚刚开始服务不久就备受欢迎,目前拥有超过6亿人的用户,增长成为一个巨大网络。尽管并未上市,但是Facebook2011年初举办增资时,其资产价值被评估为500亿美元。

  Facebook挑战Google

  目前好像大家都认为Facebook是Google的挑战者。但是,两者一个是搜索引擎、一个是社交网络,开展着性质完全不同的服务。与浏览器竞争或搜索引擎竞争不同,不是让用户选择使用哪一个的问题。对用户来说,输入搜索关键字获得的信息、通过朋友获得的信息同样重要。Google、Facebook本来可以根据不同的需求来分别使用。

  “搜索”与“社交”其实构不成竞争。尽管如此,不知道为什么Google与Facebook之间还是展开着激烈的竞争。原因在于两者在“数据方法”上的根本对立。

  互联网原理与“带围墙的花园”

  以往,互联网是一个以供研究人员自由发布与共享信息为初衷发展起来的平台。为此,互联网体系架构的主要部分,如HTTP、URI、HTML等关键技术被设计成开放式。假如,想参考某个网页的设计,通过打开浏览器菜单查看源代码,就能够看到所有的标记信息。网站既不能隐藏源代码,也不能防止源代码被复制。谁都可以公开信息,公开的信息也谁都可以使用。这种开放式是建立在研究人员的道德修养基础之上的。可是这一原理一直保留至今,发展到了2010 年代的互联网阶段。

  从某种意义上说,Google是受益于这一互联网原理实现增长的服务商之一。Google业务因收集其他网站内容,进行分类整理,从而产生参考价值。如果其他网站信息不公开,Google的服务就无法实现了。因此,Google希望互联网上的信息继续更多地公开,为此Google进行着长远的投资。Google在各国与图书馆合作推进书籍的电子化等就是一个典型的投资例子。

  而互联网中,还存在一些被称为“带围墙的花园”的非公开空间。“带围墙的花园”原先是指英国人为了防止冷风或者动物入侵,而在花园四周搭建装饰性外墙,这样的花园被称为“带围墙的花园”。

  受此启发,信息技术领域中也使用了“带围墙的花园”一词,意为“限定用户”。这是一种针对限定用户提供更便捷的服务,同时采取信息不外泄或者不易外泄的技术方式。

  互联网上“带围墙的花园”包括此前出现的许多会员制网站。如果不登陆,就无法浏览这种网站内的信息,不具有开放性。因此,这些网站也不是搜索引擎的收集对象。对于搜索引擎来说,这类网站的存在有损于信息的搜集广度。但是另一方面,小规模社区信息基本上只对其成员有价值,没有必要提供给所有互联网用户。通过这样一种需求平衡,搜索引擎与限定于墙内的社区网站在互联网上一直共同存在着。

  但是,如今的社区网站很多都有上百万、上千万的会员,而Facebook的用户甚至超过了6亿。因此,随着人与人之间的交流大量在墙内进行,重要信息也大量产生并消费于墙内。

  对这种信息方式的巨大变化,墙外的搜索引擎无法触及,束手无策。对于通过提供搜索信息吸引着用户的搜索引擎来说,如果无法搜索的内容不断增加,将直接影响其存亡。Twitter与Facebook一样拒绝来自搜索引擎的访问。2009年,Microsoft、Google相继与Twitter签订协议,使Twitter成为这些巨头的搜索对象。他们为此支付给了Twitter 2500万美元。由此,经常被指出缺乏盈利模式的Twitter一举逆转亏损而备受关注。但是,也一直未成为搜索引擎的搜索对象的Facebook不同于Twitter,它已经通过网站内广告等建立了盈利模式。

  结构化数据与开放数据的霸权之争

  Google与Facebook之争会走向何方?开放信息与墙内信息的比率注定会发生变化,互联网信息依然会有一半是开放的。Google将不断调整自己的平台、Facebook将不断迎合用户的兴趣而研究开放信息。

  Google2009年提出了丰富网页摘要 (Rich Snippets)、Facebook2010年提出了开放图谱协议(Open Graph protocol),两家纷纷呼吁网站开发者采用自己的方法。这些均是使网页中的信息结构化的新数据格式。由于网页描述所用的HTML语言主要是规定显示部分的,计算机读取HTML文档时,不能识别哪一部分是标题、哪一部分是作者等“内容”信息。针对这一问题, Rich Snippets中,HTML的内容部分基于microformats、RDFa等社区标准结构,能够附加各类信息;Open Graph protocol中,提出了在开头部分枚举各类信息的独自数据格式。如果网站开发者在自己的网站上采用了这种格式来描述,就能够向各种应用服务传达详细的信息。从而,在Google的搜索结果中引用Facebook的页面时,就能够显示出该网站的详细信息。

  可以认为,Google与Facebook两者都希望提升开放信息的质量,使自身服务更加完美,并推出了各自的解决方案。而对于网站开发者来说,方法比内容更具有说服力,更愿意采用好的方式方法来描述数据信息。目前,互联网技术的不断创新,往往需要借助网站开发者的应用、完善与推动。开发者会集中支持哪种格式还是一个未知数,但是已经产生了Google与Facebook关于如何开放数据的主导权之争。有意思的是,这一争执无论如何结局,开放数据都会朝向结构化方向推进,信息会更加广泛自由的被使用。

  此外,关于开放数据方面,采用结构化格式共享各种网站数据库内的数据的“关联数据(LinkedData)”也正在快速发展。以用XML形式发布Wikipedia信息的DBpedia为代表的网站将保存于各种数据库内的数据互联,能够让用户轻易跨网站获取相关信息。2010年,LinkedData支持的网站如图1所示。

  就像随着用户快速增多而在互联网上变得举足轻重的社交网络那样,当结构化数据超过一定数量时,使用这些数据的新挑战者也将现身。所以,互联网的变化与竞争在未来还会持续下去,但是竞争主角不是个别的互联网巨头,而是更加巨大化、更加多样化、更加结构化的数据。

相关文章
2024/04/10工业和信息化部国际经济技术合作中心(中国国际贸易促进委员会电子信息行业分会)2024年度部门预算
2018/12/28俄罗斯2018年互联网经济盘点
2018/05/18数字经济为中国与中东欧16+1机制开辟新合作领域
2018/05/18普京颁布新五月命令, 第四任期经济政策向去原材料化倾斜
2018/05/08英国政府发布网络安全出口战略
最新文章
2024/04/10工业和信息化部国际经济技术合作中心(中国国际贸易促进委员会电子信息行业分会)2024年度部门预算
2023/11/072023工业绿色发展成果展圆满落幕
2023/11/07中国企业强势回归2023中东电力展
2023/11/07中英职业技能与教育交流研讨会在常州武进成功举办
2023/05/12中国企业亮相俄罗斯国际电子元器件展