登陆注册
5253900000011

第11章 生活无处不数据,大数据真的能算命?(1)

大数据不是未来的某个概念,而是一步步出现在人们生活的每一个角落中,它已经对人们的生活开始产生重大的影响。敏感的企业、政府正在着手为统计、分析海量的数据,认识数据产生的统计分析结果而转变自己的工作方式方法。

未来的先兆——大数据

凡事发生前都会有先兆。现实生活当中,许多事情由于无法实时记录,看上去就好像是“人似秋鸿有来信,事如春梦了无痕”那样。互联网在实时记录方面则是“处处痕迹处处痕”。如果上网买东西,一定会先浏览、对比,再询价,如果上网搞活动的话,一定要经过征集、讨论和策划的整个过程。互联网通过服务器实现了“请求”+“响应”机制,人们大量带有先兆性质的行为数据被保留了下来。搜集完这些数据要进一步进行分析,而这些大量数据后面隐藏着的因果关系也就会被计算出来了。因此这当中的规律或被神秘化,或被庸俗化。

一切事情一定是在蛛丝马迹的先兆出现后才会发生。试想人们买一只股票之前一定会先关注一下它的走势;人们要买一样东西,也一定要先去询问一下商品的价格;人们很难会没有事先沟通而聚在一起;倾盆大雨下下来之前一定是非常闷热的天。很多书籍和文章更是大肆渲染地震前的各种奇怪的先兆。

倘若这些先兆都能被一种技术全部记录下来的话,那么显然人们都可以成为预言家。这种技术其实就是大数据技术,它们能够收集各种类型的数据,并基于数据进行分析统计,还能预测未来。和一般的信息技术相比,大数据影响的范围更广,程度更深。

IBM公司曾有一则广告,它说道:“曾经我觉得追捕罪犯是我的工作,可是现在我重新认识了我的工作。通过分析犯罪数据来识别犯罪的模式,并由此来部署警力。这样一来美国大部分城市的重大犯罪率可以降低30%。案发之前,终结犯罪。”显然它是在利用大数据的宣传企图构筑智慧的地球。

在阿里巴巴平台的网站数据中发现,很多买家在购买商品之前会在众多供应商中货比三家,特别是查询点击的数量和购买的指数两者之间会总结出一个相对的比例,例如“2008年初,阿里巴巴网站上买家的询问量锐减,欧美的中国采购数量也随之下滑。我们比海关提前半年就已经从买家询问的数据中推算出来了世界贸易的变化,海关则必须卖了货才能得到数据。”历史上买家、卖家询问和成交的数据,统计后就能形成询问、成交的指数,两者之间有着密切的相关。作为先兆性的数据询问指数,有了活跃的询问指数才会出现巨大的成交量。马云开始发现询问指数有了异常的下滑之后,就自然而然地能预测成交量一定会萎缩。要是没有大数据的统计和分析的话,这种推测是很难做出的。马云因为向中小制造商提前预告了这一趋势而获得了非常高的声誉。

2012年6月28日,中国建设银行推出了自己的电子商务金融平台——“善融商务”。建设银行对此项业务的宣传语是:“顺应电子商务发展潮流,建设银行推出善融商务,它结合了传统金融服务优势和新兴电子商务服务的优势,从而搭建了最具综合性,涵盖全流程的电子商务服务平台。”建行内部花了很大的气力推广这项业务,尤其是分行,它们甚至是牺牲成本也要将中小商家引入平台。尽管银行推出电子商务平台,看似并非其主业,但实际上这当中正是醉翁之意不在酒。银行通过交易平台来收集各类中小商家的经营数据,推测其还款能力和贷款需求,这样就能避免小额贷款的风险。无论建行这一次是否能成功,都说明银行的高层已经意识到大数据的重要性以及其作为先兆对于结果的预测。建行已经认识到了大数据的统计分析可以为其带来低风险和高收益,这几乎是每一家金融机构的梦想。俗话说:富贵险中求,以往必须是高风险才会带来高收益。但是当大数据的时代来临,低风险也能带来高收益,这也难怪有那么多金融机构趋之若鹜了。金融机构如果还不重视大数据背后的巨大价值的话,那么在21世纪的今天就很难在激烈的竞争中有自己的一片立足之地。

截止到2011年,互联网全球用户量已经超过了20亿。2005年RFID标签保有量仅为13亿个,这一数字到2010年就已经增加到了300亿个。从2003年到2006年,资本市场的数据增长了17.5倍。新浪微博现在每天发布的微博数量已经超过了1亿条,Facebook每天处理的数据大概为10TB,世界气象中心所积累的Web数据约为220TB,还有其他类型的数据也有8PB,等等。

国际数据公司(IDC)的《数据宇宙》报告指出,2008年全世界的数据量只有0.5ZB,到了2010年就增长到1.2ZB,从此人类走进了ZB时代。更可怕的是,从现在开始到2020年,全球数据量的年增长量都将保持在40%左右,也就是说大概每两年数据量就会翻一番。IT界此前有一个摩尔定律众人皆知,这个“大数据爆炸定律”与之极为相似。预计到了2015年全球的数据量总数要达到7.92ZB,2020年会超过35ZB,那时候的总量会是2008年的70倍,2011年的29倍。

互联网数据中心发布的《中国互联网市场洞见:互联网大数据技术创新研究2012》报告指出,到2011年底,中国国内的互联网行业已经持有1.9EB的数据总量,而这一数据到2015年将达到8.29EB以上。

人类社会的数据量随时间流逝不断地在刷新数据量级单位,从最初的TB、PB、一直到现在的EB、ZB。那么35ZB和8.29EB到底意味着什么呢?这样,先来看看数量量级单位之间的进制吧。

1B=8 bit

1KB=1024B≈1 000 byte

1MB=1024 KB≈1 000 000 byte

1GB=1024 MB≈1 000 000 000 byte

1TB=1024 GB≈1 000 000 000 000 byte

1PB=1024 TB≈1 000 000 000 000 000 byte

1EB=1024 PB≈1 000 000 000 000 000 000 byte

1ZB=1024 EB≈1 000 000 000 000 000 000 000 byte

1YB=1024 ZB≈1 000 000 000 000 000 000 000 000 byte

《红楼梦》整本书含标点的话共有87万字,依照数据计算方式的话,一个汉字等于是2B,这样的话,1EB就大概是6626亿部《红楼梦》的数据量。美国国会图书馆是全球最重要的一个图书馆,也是美国四个官方图书馆之一。一直到2011年4月,该图书馆共有1.5亿册藏书量,大致数据量为235TB,那也就是说1EB相当于4462个美国国会图书馆的所有馆藏数据量。

大数据带来的经营理念的转变

一部关于奥克兰运动家棒球队的电影《点球成金》中就有球队通过统计学和数学建模的方式来获得比赛胜利的桥段。其中有一个非常有意思的场景。几个灰白头发的老球探坐在一起开始对球员进行评头论足。观众看到这里难免会有畏缩,因为人类在做决定的时候,往往非常草率。

其中一个球探说道:“这个很有天赋,不错,而且外在也不错。”

“他击打动作也很好,只要碰到球就会弹出去很远。”一个满头白发,还戴着助听器的老人附和着说。

还有另一个球探也说:“击打声音很大。”

“不过他女朋友不够漂亮。”一位球探打断了他们的谈话。

会议负责人听了后说:“这是什么意思呢?”

这个人听完肯定地说道:“女朋友不漂亮就说明缺乏自信啊!”

负责人似乎很满意这个答案,说道:“很好!”随后会议继续。

玩笑了一会儿之后,之前始终沉默的一个球探说:“这人的气场很强大。我要说的意思是我在他上场之前就已经感受到了他的气场了。”

“他的长相也不错,通过了长相测试。他需要的只是时间,因为他随时都能成为一名好的球员。”还有一个人附和着说道。

那个经常都有不同意见的人一直在说:“我的意思是他女朋友的长相实在一般。”

这场景中的所有判断都说明了人类判断的误区,事实上,这个推断完全是在毫无实际标准的情况下做出的,尽管它披上了理智讨论的外衣。一个拥有几百万美元身价的球员,决定是否签约似乎也没有客观的依据,而是依靠感觉。这个场景虽然只是电影中的场景,不过日常生活中也非常常见。之所以说此场景有趣,正是由于其具体现实中普遍存在的特点,无论是曼哈顿的会议室,美国总统办公室,或是街角咖啡馆,各种凭感觉推断的情形皆存在。

电影《点球成金》中的故事来源于迈克尔·刘易斯的小说《魔球——逆境中制胜的智慧》。小说讲述的是一个关于奥克兰运动家棒球队(还有人称之为绿帽队或是白象队)真实的故事,主要介绍了棒球队的经理比利·比恩(Billy Beane)的经营哲学,他在经营球队的过程中摒弃了以往挑选球员的传统方法,换用了一种依靠数学建模和电脑程序的数据来挑选球员的做法。他的这个方法看似很奇怪,有些类似于“上垒率”的标准,而不是以往所用的“棒球击球率”的惯用标准。这方法虽然挖掘了这个项目的一个方面,却忽略了另一个始终存在的方面。球员的上垒其实并非最重要的,不论是地滚球还是三垒跑,无非只要是上垒即可。因此,当比赛非常精彩,可是数据表明透垒不是太管用的时候,比利也不会太关心这项中看不中用的技能的。

比利所推行的“赛伯计量学”(Sabermetrics)尽管招来了众多的质疑,但还是在奥克兰运动家棒球队中被严格执行着,它的命名是来自在美国高级棒球研究协会(Society for Advanced Baseball Research)工作时的体育新闻记者比尔·詹姆斯(Bill James)。一直到现在,在美国高级棒球研究协会当中始终存在着非常奇妙的亚文化中心。比利和当年用“太阳中心说”来挑战天主教权威的伽利略一样,打破了所有惯例。最后,比利的奥克兰运动家棒球队在2002年的美国联盟西部赛中摘得桂冠,此外还取得了20场不败的骄人战绩。也就是从那时起,球探不再吃香,取而代之的是统计学家,他们成为了成了棒球专家,不少球队都将“赛伯计量学”用于球队的运作。

大数据所做出的贡献还包括了从依赖自身判断转化为依赖数据做判断。统计学家和数据分析家的出现使得很多行业专家和技术专家的光芒黯淡了许多,前者摆脱了传统观念的束缚,依靠数据进行统计分析得出判断。在数据相互关系基础上,判断是不会受到偏见和成见的影响的,这和莫里中校从来不认为在酒吧中喝酒的干瘦船长所说的航道信息为真是一样的道理。他们的判断来自收集的所有数据背后隐藏着的信息,也就是说一切分析都有根有据。而莫里的方法当中对于风向和水流为什么如此并没有具体解释,可是一次安全的航海旅程,似乎“去哪里”和“是什么”远比“为什么”重要得多。

现在,各种专家在自己领域的影响力逐渐削弱,这是我们每个人都能看得到的。媒体界,如“赫芬顿邮报”(Huffington Post)和高客网(Gawker)网站上的新闻已经同编辑的新闻敏感度不再有关,而是来自数据的结果。相比资深的记者,数据选出来的新闻似乎更合大众口味。一家名为Coursera的网络教育公司,对其收集来的数据进行深度分析,如哪个讲座的片段是学生重放最多的,他们会找出其中的原因,或讲得不够明确或是不够吸引人,再将最终的结果反馈给课程设计团队。这在以前是难以想象的,而现在教学方法也因此必须发生改变。如前文提到的,贝索斯在发现销量增加由算法来推动的时候,就已经放弃了公司的书籍评论员了。

这说明要在职业领域取得成功,必须做到与时俱进,只有做到这一点的员工才是公司最想要的员工。安大略的麦格雷戈医生所采用的治疗方法来自近十年以来病患数据进行电脑分析处理之后所推荐的,尽管她不是医院医术最为高明的医生,更不是产前护理的世界权威,但总能通过该方法为早产儿提供最好的护理和治疗。事实上,她是一名计算机科学专业毕业的博士。

事实上,最初在大数据上尝到甜头的人似乎都不来自他们做出巨大贡献的领域,他们可能是数据分析家、数学家、统计学家、人工智能学家等等,可是这项技能却在他们的推广之下运用到了各个领域当中。Kaggle的首席执行官安东尼·戈德布鲁姆(Anthony Goldbloom)曾提到,通常来说,在大数据竞争平台上获得成功的人和自己做出成绩的领域总是不相关的。

曾有英国的物理学家差一点就通过设计一个算法系统用于预测保险索赔和二手车质量问题之间的关系而获得成功,还有一个来自新加坡的精算师,也通过预测人体对化合物的生理反应项目大获成功,在谷歌的机器翻译团队中,很多工程师翻译出来的语言甚至他们自己也不懂。除此以外,还有来自微软翻译部门的统计学家,他们经常谈论的居然是只要有语言学家离开他们的团队,他们所得到的翻译质量就会提升一点。

因此行业专家的主导地位会逐渐被动摇,只不过他们不会完全消亡。未来同他们平起平坐的是那些大数据人才,这就好比是清高的因果关系和卑微的相互关系两者终于站在了同一高度一般。关于知识的价值要重新审视,尽管从前专业人才似乎要比全才更受重视,大众普遍认为财富来源于深度。可是这或许是小数据时代的产物,专业技能就代表着精确性,那时候人们还无法掌握和获得足够多的数据,也不够准确,所以直觉和经验都是判断的依据。那是个经验先决的时代,唯有从书本和别人口中,以及在潜意识中的知识积累才是做出明智决定的最终依据。

当海量数据开始冲击人们的时候,人们就可以从数据当中挖掘出更多的信息。大多数数据学家都将以往的方式视为迷信,这并非他们不屑,而是他们手中掌握了从前不具备的财富来源——大数据。作为一个外行人,行业内本身存在的争论无法将他们束缚,他们同行业专家不同的是他们绝不会因为自己支持的那一方观点而导致偏见。这样的结果也证明了衡量员工对公司所做的贡献多寡的标准也在发生着改变。这也意味着每个在职场上的人,要学什么,了解什么,甚至是为职场要做什么准备等等都有了改变。

同类推荐
  • 中国网络传播研究2009(第三辑)

    中国网络传播研究2009(第三辑)

    本文以传统社区研究的“场域论”为基础,探讨网络传播中场域性互动对社会舆论的影响。文章首先从传统社区传播的场域性特征出发,探讨网络传播的社区性和场域性。然后分别分析了传统门户、BBS论坛和私人博客等三种主流的网络传播的场域性互动、意见表达和舆论形成的特点。最后结合“张殊凡事件”、“王石捐款”事件以及“黑砖窑”事件,探讨网络传播中的场域性互动对社会舆论从虚拟到现实的影响。
  • 玩转手机

    玩转手机

    本书主要包括:手机的发展历史、手机知识、手机的选购与巧用、手机与网络、手机短信等内容。
  • 三维动画审美谈

    三维动画审美谈

    数字时代,美的标准充满更多的不确定性。而三维动画以数字图像形式成为这个图时代的代表。三维动画及三维图像不仅仅是由于应用了仿真数字图像技术而带来的虚拟空间,还有更多的是由三维图像技术所引发或引导的被扩展的图像技术,这些技术无不应用在现代视觉设计领域的各个方面,并且,由此引起社会的追热,引起审美观念的改变。这些改变是在进行中的,变化中的,也是在发展中的。对于未知的美,我们做的只是追寻和记录,我们不知道以后的美将会是什么样,尽管我们苦苦追寻,孜孜探讨,同时也在默默审视。我们在追寻中享受美,在探讨中认知美,在审视中体验美……
  • 现代企业财务软件应用教程

    现代企业财务软件应用教程

    本书内容包括财务软件概论、系统管理、企业应用平台、总账管理、报表管理、薪资管理、固定资产管理、应收款管理、应付款管理等。
  • 信息革命

    信息革命

    随着经济社会的快速发展,电子产品走进了千家万户,与电子产品相伴的信息技术也已渗透到人们生产生活的方方面面。加强信息技术普及,已成为业内人士的共识。鉴于此,在有关部门的大力支持下,经过认真筹划,我们编辑出版了《信息革命》一书。该书以时间为经,在记述信息技术发展历程的同时,深入浅出地介绍了信息技术的相关知识,对人们更好地利用现代信息技术服务经济社会建设和个人生产生活必将产生积极作用。本书由李大东主编。
热门推荐
  • 明伦汇编人事典命运部

    明伦汇编人事典命运部

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 火澜

    火澜

    当一个现代杀手之王穿越到这个世界。是隐匿,还是崛起。一场血雨腥风的传奇被她改写。一条无上的强者之路被她踏破。修斗气,炼元丹,收兽宠,化神器,大闹皇宫,炸毁学院,打死院长,秒杀狗男女,震惊大陆。无止尽的契约能力,上古神兽,千年魔兽,纷纷前来抱大腿,惊傻世人。她说:在我眼里没有好坏之分,只有强弱之分,只要你能打败我,这世间所有都是你的,打不败我,就从这世间永远消失。她狂,她傲,她的目标只有一个,就是凌驾这世间一切之上。三国皇帝,魔界妖王,冥界之主,仙界至尊。到底谁才是陪着她走到最后的那个?他说:上天入地,我会陪着你,你活着,有我,你死,也一定有我。本文一对一,男强女强,强强联手,不喜勿入。
  • 恋爱81天

    恋爱81天

    本书讲的是一个小女生的恋爱故事,酸甜苦辣,所有小心思都包含在这81天里,烦恼着大多数女生烦恼事情,任性,无畏。
  • 凤凰剑

    凤凰剑

    少女冷淡身负血海深仇,独自报仇而引起武林纷争,复杂的身世之谜,令人惊惧的剑法,在神剑江公子的帮助下,她一步步查清楚幕后黑手,制止争斗......她冷若冰霜的道:“在这世上,我只配拥有剑,其它的没有资格拥有!”他只是微笑的看着她,但笑不语。她的神情冷漠神秘,眼里一抹悲伤与落寞!
  • 神蛮

    神蛮

    剑疯癫,心骄狂,破障以行,名动八荒!…大荒世界,万道争锋,这是一个强者辈出的热血时代!桀骜少年从莽山走出,不问正邪是非,只求万法随心,便看这一双巧手,轻轻搅乱了乾坤……
  • 往生界

    往生界

    曾经繁华昌盛的世界…仅仅在那一个晚上变得面目全非。仅仅在那一个晚上,文明退化,整个世界被改变,现实不断冲击着人类的认知,让人类感觉地球,周围的一切,都是那么的陌生…十年前的那个晚上,天空中出现了巨大的黑色大门,出现了让人胆寒的怪物——妖魂。不仅如此,地球上也开始凝聚出妖魂、游魂,甚至具现化出只有远古传说中才存在的英灵、神灵。整个世界,一片混乱…
  • 网络与安全常识手册(校园安全常识手册)

    网络与安全常识手册(校园安全常识手册)

    中小学生的人身安全是关系家庭、学校和社会稳定的一件大事。中小学生作为一个特殊的群体, 他们的健康成长涉及千家万户, 保护中小学生的安全是我们全社会的共同责任。
  • 天亮,因为你的脚步

    天亮,因为你的脚步

    小说的特点是思想清浅。半亩方塘,一湾溪水,浅而不露。小小说应当有一定程度的朦胧性。朦胧不是手法,而是作者的思想本来就不是十分清楚。有那么一点意思,但是并不透彻。“此中有真意,欲辩已忘言”。世界上没有一个人真正对世界了解得十分彻底而且全面,但只能了解他所感知的那一部分世界。一起来翻阅《天亮因为你的脚步》吧!
  • 寻仙如梦

    寻仙如梦

    仙魔共存世,人与妖之抗,人应寻仙问道也。
  • 一见定终身:冰山王爷纨绔妃

    一见定终身:冰山王爷纨绔妃

    她!沐陌陌出生在现代医学世家!一朝穿越却变成了将军府的傻子嫡女,还要遭受庶妹欺辱,姨娘陷害。真是欺人太甚!看她怎么亲手毁了她们的一切!让她们也尝尝被欺负的感受!他是一国太子,却爱她如命,为她可以放弃天下!可以不顾一切!只是他冷冷冰冰的性格,不爱言谈。他默默地守护她,陪伴着她!可是时间越长他就越心慌!!!幸好等到你,还好我没放弃。。。。。。