登陆注册
10750300000002

第2章 认识大数据的基本常识(1)

大数据时代悄然而至

我们每天坐在电脑前在网上搜索、购物、发信息、发图片,用手机打电话、发彩信……很多人都在不经意中制造和使用着数据。因此,产生的数据量正在以惊人的速度增长——数据已经渗透到生活和工作的方方面面,成为时代的特征。

2003年,刚进大学的小强还没有自己的电脑,他省吃俭用花600元买了一个不知名品牌的MP3播放器,容量只有128M。拿到MP3播放器后他非常欣喜,因为这个MP3播放器能存储大约50首普通压缩率的MP3歌曲,还能当软盘用。而他之前一直使用3.5寸的软盘来存储数据,一张软盘的容量仅为1.44M。之前他用来听歌的设备是一台索尼随身听,要听新歌只能花钱买磁带,每盘磁带大约30元,只能存储10首歌,而且没法自己挑选想要听的歌。

10年后的2013年,小强已经参加工作多年,他平时使用智能手机听歌、上网,使用平板电脑玩游戏、购物、看电影,家里的笔记本电脑反而用得越来越少了。最近他想买一个移动硬盘来存储高清电影,他在网上花600元买了一个2T的移动硬盘。这个2T的移动硬盘大约能存储1000部高清电影,如果用来存储普通压缩率的MP3歌曲,大约能存储80万首。

不考虑货币购买力变化及产品功能等问题,只考虑数据容量,同样是600元,2013年购买到的容量是2003年的1600倍。可是,小强还是觉得容量不够用,这10年里到底是哪里出了问题呢?是什么促进了存储介质的发展呢?

不仅是小强,几乎所有的个人、单位都已经觉得原来购买的存储设备容量不够用。随着互联网的逐渐成熟和发展,移动带宽迅速提升,云计算、互联网应用更加丰富。更多的传感设备、移动终端接入网络,由此产生的数据及数据增长速度迅速攀升。数据已经渗透到世界每一个角落、每一个行业和每一个业务职能领域,逐渐成为重要的生产因素和时代的标志;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

大数据时代已经悄然来临。在这样的背景下,人们逐渐认识到大数据给自己带来的作用,大数据的概念也逐渐在人们的脑海中凸显。这就让人们需要一个巨大容量的存储设备。所以,大数据产生的一个显著标志就是:为了满足市场的要求,数据存储设备的容量越来越大,处理数据的速度越来越快。

以“脸谱”为例。2012年10月,“脸谱”声称其用户量已突破10亿人——近乎世界总人口的1/6。仅仅是用户量就是一个巨大的数字,这让“脸谱”接待这些客户有些吃力,“脸谱”不得不开发各种各样的新技术以跟上用户暴涨的脚步,而这些都需要数据去支撑。

数据暴涨的不仅是人数,更有因人数剧增而产生的一些技术性数据。时代的发展让“脸谱”以惊人的速度处理这些数据,据统计,“脸谱”每天需要处理近30亿个“赞”、25亿次内容分享以及3亿张上传照片。也就是说,这家公司每天存储的数据超过100PB,将这些数据分析处理后,得到超过500PB的新数据。这就相当于2000台苹果电脑硬盘驱动器存储的数据量。你可能还不了解“PB”是什么样的数据单位,这个单位究竟有多大,接下来的内容会让你知道这是个多么庞大的数字量。

权威机构的一项调查发现,90%的企业的数据量在迅速上涨,其中近20%的企业的数据量每年增长一半甚至更多。

国际数据公司2011年6月的报告显示,全球数据量在2011年已达到1.8ZB,在5年里增加了5倍。1.8ZB有多大呢?如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球的一个半来回,也就是大约72万英里,相当于每位美国人每分钟写3条推特,要不停地写2.6976万年。IDC预测全球数据量大约每两年翻一番,2015年全球数据量将达到近8ZB,到2020年,全球将达到35ZB。我们可以想象,这是一个多么庞大的数据。当然,这也让我们发现,大数据时代已经悄然而至。事实上,今天的全球互联网巨头都已意识到大数据时代数据的重要意义。包括易安信、惠普、IBM、微软在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整合,这足以看出它们对大数据的重视。

大数据产生的背景

为什么大数据似乎在一夜之间悄然而至,并迅速走红呢?为什么人们会把2012年称为“大数据的跨界年度”?大数据之所以会在2012年进入主流大众的视野,我们分析得知,缘于三种趋势的合力。

第一,随着互联网的发展,许多高端消费公司为了提供更先进的、更完美的服务,加大了对大数据的应用。

比如“脸谱”就使用大数据来追踪用户,然后通过“搜索和识别你所熟知的人”,“脸谱”可以给出好友推荐建议。用户的好友数目越多,他对“脸谱”的信任度就越高。好友越多同时也就意味着用户分享的照片越多、发布的状态更新越频繁、玩的游戏也越多样化。后文会提到,“脸谱”因此在和同行的竞争中占得先机。

商业社交网站领英则使用大数据为求职者和招聘单位建立关联。有了领英,猎头公司就不再需要对潜在人才进行繁琐的识别和访问。只需一个简单的搜索,他们就可以找到潜在人才,并与他们进行联系。同样,求职者也可以通过联系网站上的其他人,将自己推销给潜在的人力资源负责人,入职自己中意的公司。

杰夫·韦纳是领英的首席执行官,他在谈到该网站的未来发展时谈到一个经济图表,这是一个能实时识别“经济机会趋势”的全球经济数字图表,他说,实现该图表及其预测能力时所面临的挑战就是一个大数据问题。

可以看出,大家都在利用大数据产生利益,反过来,利用大数据的人就成了催生大数据时代到来的力量之一。

第二,人们在无形中纷纷为大数据投资。

还是以实际的公司为案例。“脸谱”与领英两家公司都是在2012年上市的。“脸谱”在纳斯达克上市,领英在纽约证券交易所上市。从表面上来看,谷歌和这两家公司都是消费品公司,而实质上,它们都是利用大数据吃饭的企业。除了这两家公司以外,一家为大中型企业提供运营智能的大数据企业Splunk也在2012年完成了上市。这些企业的公开上市使华尔街对大数据业务的兴趣非常浓厚。因此,硅谷的一些风险投资家们开始前赴后继地为大数据企业提供资金,这给大数据的发展提供了前所未有的良机。大数据将引发下一波重大转变,在这场转变中,硅谷有望在未来几年取代华尔街。

作为“脸谱”的早期投资者,加速合伙公司在2011年年底宣布为大数据提供一笔不小的投资,2012年年初,加速合伙公司支出了第一笔投资。著名的风险投资公司格雷洛克合伙公司也针对这一领域进行了大量的投资。

第三,商业用户和其他以数据为核心的消费产品,也开始期待以一种同样便捷的方式来获得大数据的使用体验。

我们在网上看电影、买产品——这些已经成为现实。既然互联网零售商可以为用户推荐一些阅读书目、电影和产品,为什么这些产品所在的企业却做不到呢?举个例子说,为什么房屋租赁公司不能明智地决定将哪一栋房屋提供给租房人呢?毕竟,该公司拥有客户的租房历史和现有可用租房屋库存记录。随着新技术的出现,公司不仅能够了解到特定市场的公开信息,还能了解到有关会议、重大事项及其他可能会影响市场需求的信息。通过将内部供应链与外部市场数据相结合,公司可以更加精确地预测出可租的房屋类型和可用时间。

类似地,通过将这些内部数据和外部数据相结合,零售商每天都可以利用这种混合式数据确定产品价格和摆放位置。通过考虑从产品供应到消费者的购物习惯这一系列事件的数据(包括哪种产品卖得比较好),零售商就可以提升消费者的平均购买量,从而获得更高的利润。

所以,商业用户也成为了推动大数据发展的动力之一。

从我们所举的例子看,好像是少数的几家公司推动大数据的产生,的确是这样。但总的来说,大数据的产生既是时代发展的结果,也是利益驱使的结果。当然,那些小公司的发展,乃至个人的服务需求也在为大数据的产生添砖加瓦,只是单个个体的效果不明显,但反映在整个大数据产业中依然是巨大的,其中的道理不再多说了。

一切都可以数据化

很多传统观念告诉我们,有些东西是可以量化的,而有些东西不能够量化。比如,一个面点师一天做了多少个馒头是可以量化的,数数就知道了,而馒头好不好吃是没办法量化的,因为每个人的口味不一样;一个水池里有多少鱼是可以量化的,数数就知道了,而整条河流里有多少鱼是没法量化的。现在,我们需要转变这个观念,因为很多东西是可以量化的。

阿基米德曾经说:“给我一个支点,我就能撬动地球。”从某种意义上我们也可以说:“给我一组数据,我就能复制地球。”为什么这么说呢?数据到底能告诉我们多少信息呢?

2014年5月,黑龙江境内相继发现10个不明坠落物,假如其中一个不明物体是一个规则的长方体。我们手上惟一的工具是尺子,现在我们量出了它的长、宽、高,也就能够在纸上画出这个长方体并算出它的体积。接着,我们发现这个长方体实际上是一个实心的大金块,那么根据黄金的密度我们可以算出它的质量,并根据当前黄金的价格给其估价;如果我们发现这块金块是贵重的文物,却不知道具体是什么时候的,我们可以把它带到实验室对它做碳14鉴定,了解它具体制造于哪一年,进而推测是当代人制造的,还是来自遥远的太空……

从一开始我们只知道它是一个长方体到后来我们掌握了它的来龙去脉,在一步步里我们是如何增加对它的认识的?其实,我们只是逐步采集到了以下这些数据:

(1)这是一个长方体;

(2)这个长方体的长、宽、高的值;

(3)我们已知的知识告诉我们:体积=长×宽×高,质量=体积×密度,黄金的密度=19.3克/立方厘米,由此得出金块质量;(4)由当时的金价,我们可以计算出这个金块值多少钱;(5)碳14的半衰期为5700年,计算出这个金块的碳14含量,就知道它的制造年代。

这一过程中,我们采集到的具体数据越来越多,最后得到的信息也越来越多。我们采集到的数据的多少,决定了我们准确描绘它的程度。对一个金块是如此,对这个地球同样是如此。当我们掌握的数据足够多,多到我们足以完美描绘出这个地球的任何一个特征,我们就能够将它数据化了。同样,我们采集到一个人的数据足够多时,就能很好地用数据描绘这个人。

2011年12月,英国一家电视台播出了一部名为《黑镜》的迷你电视剧,全剧共两季,每季3集,每集都是一个独立的故事。

虽然每集都有不同的演员上演不同的故事,但所有故事都是围绕我们当今的生活展开的。在《黑镜》第二季里,编剧查理·布鲁克为大家讲了3个故事,其中第一个故事是这样的:女主角是一个叫玛莎的女孩,她深爱的男友艾什因车祸意外去世。刚刚怀孕的玛莎痛不欲生,每天都沉浸在过去,怀念着有艾什的日子。艾什生前沉迷于各种社交网络,在网络上留下了不少东西,包括照片、视频、聊天记录、电子邮件等。而此时,一种新的电脑软件出现了,只要将艾什生前散落在网络上的各种内容全部整合在一起,经过一系列复杂的数据分析,这个软件就能够准确地掌握艾什的各种特征,包括形象、语言风格等。通过这些数据,这个软件可以再造出一个“艾什”。玛莎接受了这项服务。这样,玛莎可以像过去一样与虚拟的艾什进行网络聊天、手机通话等。

同类推荐
  • 住宅市场与政府管制

    住宅市场与政府管制

    本书内容包括:住宅经济理论述评、住宅需求、住宅的供给、住宅的价格、住宅市场与投机、土地财政与管制失灵、普通住宅的政府管制、其他住宅的政府管制等。
  • 货币政策研究

    货币政策研究

    开放经济意味着一国资源能够借给其他国家使用。如果一国能从外部借到资源,这个国家的支出就可高于其所拥有的资源禀赋和生产能力;在随后的某个时间,这个国家需要偿还先前从其他国家所借的资源,导致其偿还时的支出低于其所拥有的资源和生产能力。资源跨期跨境的使用和配置涉及利率、汇率、贸易条件等相对价格,与各国金融机构、货币当局、政府、住户部门、企业部门和国外部门的资产负债总量和结构密切相关。本书考察利率、汇率、贸易条件等相对价格以及货币供应、信贷等数量与实体经济之间的相互影响,分析货币政策传导的规律,将理论分析与定量分析结合,为提高我国货币政策的科学性、有效性和针对性提供参考。
  • 人文旅游(第3辑)

    人文旅游(第3辑)

    休闲与人的生活品质、生存境界内在相关,直接影响到和谐社会的构建。所谓休闲,就是人的自在生命及其自由体验状态,自在、自由、自得是其最基本的特征,“从心所欲不逾矩”是其最基本的规范,人生境界的休闲与社会状态的和谐内在相关。休闲文化即是人的休闲体验、休闲活动、休闲境界,社会的休闲方式、休闲状态、休闲理念所体现出来的各种文化现象。就广义的层面而言,休闲文化可以涵盖休闲理论和休闲学科;就狭义的层面而言,休闲文化的涵义侧重于社会的、现象的领域,休闲理论侧重于意识的、思辨的领域,休闲学科则侧重于规范的、系统的教育领域。
  • 最神奇的经济学定律

    最神奇的经济学定律

    无论你是什么样的人,从事着怎样的职业,生活在怎样的人生状态里,总会遇到各种各样的问题,当然,也总有针对各种问题总结出的原理或定律。本书介绍了80个神奇的定律,从生活化的场景出发,从经济学家的视角分类解读,力图为读者呈现浅显易懂的经济学定律。
  • 市场竞争中的企业投资行为:理论与实证研究

    市场竞争中的企业投资行为:理论与实证研究

    本书主要分析了现有的度量模型是否可以准确地度量中国上市公司的非效率投资程度问题、市场竞争中的代理问题和信息不对称如何影响中国上市公司的投资行为问题等。
热门推荐
  • 艳医修行录

    艳医修行录

    争斗场上沉浮,医界纵横;一代杰出青年张小寒,因为其身世的神秘和不平凡,注定了他一生的不平凡,在不平凡中他被迫不断奋斗,在奋斗中艳遇不断,最终他成为了人中之龙,医界泰斗、世上最强大的天医战神,同时更因艳遇的频繁,从而被人冠以名副其实的“艳医”之名。
  • 解情:一刀两断好吗

    解情:一刀两断好吗

    “我爱对人了是吗?”空郁笑着看向解祈。“是的,你很有眼光。”说着将空郁搂进自己怀里。“嘿嘿……能娶到我你捡到宝了!”“可不是么,一个愿意陪我这么久不离不弃的可不是宝么?”“万一我哪天离开你了呢?”“不要相信自己能逃走,我有把握让你不出现这个念头。”“放心……全世界我都可以抛弃,但我不会抛弃你……”
  • 盛世魔召师

    盛世魔召师

    高空中有名黑衣女子狂飞着,她时不时的往身后望去。突然黑衣女子神色一凛,加快了飞行的速度,没过多久身后就多了一道白色身影转瞬即逝的一把揽住了黑衣女子的纤腰。“离歌,你逃不掉的!不管你逃到哪里我都会把你给绑回来。”白色身影道。“你个死妖孽!快放开我!不就是捡到了一块你的破石头何必一直追着我不放!”对!就是因为一块石头她和他才能相遇相爱。且看男主如何成为出的了厅堂,入得了厨房,打得过流氓,斗得过情敌的苦逼追妻之路。
  • 衡山英杰传

    衡山英杰传

    抗金名将韩世忠为整合江湖的抗金力量,创立了衡山武林大会。传承一千多年的“墨教”,武功博大精深,墨教教主在每次的衡山武林大会上,都技压群雄,夺得武林盟主。然而,中了进士,未能出仕的文安武,仇恨宋廷,暗中勾结金国,设计毒死墨教教主徐匡义,杀死“浙东派”掌门明高义,并诬栽于坚持抗金,但又是江湖邪派的道青教教主张森奎。群豪不明真相,误推文安武为武林盟主,文安武与金国合谋,欲设计将抗金群豪一网打尽。江湖侠士孔杰、魏中义和李克猛,逐渐怀疑文安武,他们终于查清了真相,阻止了文安武的阴谋,还了张森奎的清白,诛杀了文安武。孔杰被宋帝封为通直郎,魏中义被墨教尊为教主,并被推为武林盟主。后武仙之役,李克猛被擒降金;皇帝欲纳魏中义的女友胡燕为妃。使魏中义深感人生的无常和曲折。江湖的正邪道义,侠士的民族激情,男女的复杂感情,让您尽情一览无余。
  • 普贤菩萨发愿文

    普贤菩萨发愿文

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 所谓伊人.A

    所谓伊人.A

    所谓伊人,在水一方。总觉得这个意境很美,所以借用了。——这是一个故事:身负国恨家仇的公主,惊才绝艳的丞相,矢志守护的伴读......强国纷争,成王?败寇?
  • IT精英的修真之路

    IT精英的修真之路

    在各国家竞相发展高科技背后,竟是当权者为追求大道而进行的角逐。都市IT精英谢丁意外收到厂商入侵挑战信,被异世神秘人选中,开始了一段IT精英的修真之路。修真,在这个快速文化盛行的年代,又有怎么样的发展呢?请关注IT精英的修真之路
  • 相思谋:妃常难娶

    相思谋:妃常难娶

    某日某王府张灯结彩,婚礼进行时,突然不知从哪冒出来一个小孩,对着新郎道:“爹爹,今天您的大婚之喜,娘亲让我来还一样东西。”说完提着手中的玉佩在新郎面前晃悠。此话一出,一府宾客哗然,然当大家看清这小孩与新郎如一个模子刻出来的面容时,顿时石化。此时某屋顶,一个绝色女子不耐烦的声音响起:“儿子,事情办完了我们走,别在那磨矶,耽误时间。”新郎一看屋顶上的女子,当下怒火攻心,扔下新娘就往女子所在的方向扑去,吼道:“女人,你给本王站住。”一场爱与被爱的追逐正式开始、、、、、、、
  • 重生之豪门婚姻手册

    重生之豪门婚姻手册

    陆柠十九岁跟了秦攸,一直以为自己只是他众多情人中不起眼的一个,却不知全世界都在盛传,秦氏总裁将一个女人捧在手心,如珠如宝。重生一回,她以为自己可以跳出原本的命运,却猝不及防的被这个男人逼了婚。秦攸:“秦太太,嫁入豪门的感觉如何?”陆柠:“跟以前好像也没什么区别。”
  • 传宗接代

    传宗接代

    七十年代初期,一个重男轻女的父亲让侄子顶替了大女儿进城的机会,他畅想着在城里为家族传宗接代。然而留在乡下的大女儿因骗婚被逼而亡,妻子救女心切失足落水命归黄泉……多年后,他又在儿子和侄子及女儿的孩子身上寄托着无限希望……