登陆注册
2906500000003

第3章 大数据,你还不知道的部分(1)

FB数据单元--信息导航图

数据是由什么组成的?一个数据单元有多大?怎样产生和传送?

这是我们首先要知道的基本问题。曾经有人把数据比喻成花粉,蜜蜂搬运花粉使果实得以产生。每一个花朵都是数据产生源,蜜蜂承担着数据搬运工的工作。我认为这个比喻非常恰当,但有更好的概括--数据就像人体的血红细胞,一个数据单元就是一组营养单元,由肝脏产生,输送到身体各处,供应器官的需要。

数据单元是信息传输的基本单位。特别是在网络中,一般的网络连接不会允许将任意大小的数据包进行传送,它有严格的规则,采用分组技术将一个数据分成若干个很小的数据包,并且给每一个小数据包都加上它的属性。这个属性是与传输有关的,包括源IP地址、目的IP地址、数据的长度等。

和血液一样,它有固定的目的地。所以,我们把一个这样的小数据包称作数据单元,也可以称为数据帧或帧。如此一来,数据信息流的特点就明确了,每次要传送的数据都是特点鲜明的“包裹”,它们的规格和封装方式都是相同的。这有利于数据传输的标准化,也简化了它的产生、加工、包装和传送方式,使得大规模应用数据成为了可能。

我们发现,任何一个数据组织都有它的既定体系。在这个体系中,可以划分为位、字符、数据元、记录、文件和数据库六个层级。前一个层级的数据元组合产生了后一个层级,最终实现了更大规模的数据集合。

在这六个层级中,“位”数据处于第一层,一般的用户不需要探究,但后面五个层级则需要我们掌握,因为它们是人们在输入和请求数据时要应用到的。

当不同的数据包或数据元素之间存在着特定关系(一种或很多种)时,它们就构成了数据结构,也就产生了“电脑存储和组织数据”的特定方式。人们认真选择的数据结构能够带来更高的运行或者存储效率。这时,检索和索引技术的需求就随之产生了。更好的技术可以让我们的检索更加高效。

我的朋友沙尼尔是一位任职于谷歌公司的大数据专家,他在去年出版的名为《数据算法与应用》的书中对于数据的性质这样解释:

“数据结构代表着一种联系,它是数据对象及存在于该对象的实例和构成该实例的数据元素之间的各种联系。同时,这些联系可以通过定义有关的函数给出并量化。”

数据对象又是什么呢?沙尼尔认为,一个数据对象是实例或者值的集合,而数据结构是抽象数据类型(ADT)的物理实现。他将一个数据结构的设计过程分成抽象层、数据结构层和实现层这三个层级。在这其中,抽象层是指抽象数据的类型层,它讨论的是数据的逻辑结构及其运算,数据结构层和实现层则更贴近于形象化和实用性,它们讨论的是一个数据结构的表示和在电脑中的存储细节以及这种运算的实现。

如果我们结合现实应用,将数据结构解剖开来,会看到什么?你立刻就会发现自己已经漂浮在数据王国的海洋之上,它们离你是如此之近,并时时刻刻与你的生活发生着关系。

●字符

当我们输入一个字符时(通过键盘或其他设备),系统会直接将字符译成某特定的编码系统中的一串位的组合。一个字符在电脑中占8位,即一个字节。这就是字符,也是一般而言数据的最基本单位。同时,电脑系统可以使用不只一种编码体制来处理字符。比如,某些系统将ASCII编码体制用于数据通信,而把EBCDIC编码体制用于数据的存储。广义上,我们在纸上写下一个汉字单词、一个阿拉伯数字,也可视作“数据”中的一个字符。

●数据元

数据元是数据的层次体系中最低一层的逻辑单位。我们为了形成一个逻辑单位,需要将若干位和若干的字节(字符)组合在一起。比如一句完整的话,一段完整的富有逻辑的代码,一个最小的信息流等。因此,数据元也可称作字段。它是泛指的,其中的数据项才是数据实体,比如一个完整的手机号是一个数据元,138或后面的数字按段分开,则是具有单独存在意义的数据项。

●记录

数据元以逻辑相关的形式组合在一起,就形成了一个数据记录。价值在这时候开始陡然提升。比如一条员工记录--编号、姓名、性别、职称、所属部门--包含了若干的数据元,它们之间有逻辑相关性,再加上辅助性的数据项,就构成了完整的记录。这是数据库中存取的最低一层的逻辑单位。

●文件

一个完整的文件是由信息和介质构成的,它是被命名的、存储在某种介质上的一组信息的集合体。比如一篇文章、一张唱片、一份合同,甚至于一本书,都可称为数据元件。一个文件在逻辑上可划分成若干的记录,那么文件就以记录序列的形式体现。文件与存储介质无关,介质的改变不会改变文件的性质和它的价值。

●数据库

数据库是最大的层级,它是一组有序数据的集合。在这组有序数据中,包含大量的文件--这些文件之间互相又具有逻辑相关性,并以某种检索价值被标注。根据不同的应用需求和不同的领域,人们有时也将数据库分成若干段,而不是唯一存在。数据库有备份,可以随时检索、整理和利用,也可以随时被有权限的人更改。

核心:整理、分析、预测、控制

“大数据”的核心并不是我们拥有了多少数据,而是我们拿数据去做了什么。如果只是堆积在某个地方,数据是毫无用处的。它的价值在于“使用性”,而不是数量和存储的地方。任何一种对数据的收集都与它最后的功能有关。如果不能体现出数据的功能,大数据的所有环节都是低效的,也是没有生命力的。

☆整理

整理有两个目的,一是将所有的数据归类,把它们放到该去的地方;二是利于我们检索,随时调取数据进行利用。这和我们整理书架的目的是一样的。面对同样的数据,不同的整理方法决定着我们的效果是好还是坏。

美国国会图书馆的检索工程更新很能说明“整理”的重要性。在国会图书馆,人们曾经经历过一段困难时期,因为信息量随着网络技术的发达不断暴涨,就连保存的推特(Twitter)信息(只是图书馆数据中很小的一部分)就达到了接近两千亿条,存储文件的体积更达到133TB。删除是不可能的,因为每一条信息都已经在这套社交网络中获得了读者的分享与转载--那么,如此庞大的数据应该如何整理?

技术团队需要想尽一切办法、穷尽所有智慧才能拿出切实可行的检索方案,让图书馆的用户可以方便地利用这些信息。也就是说,技术人员必须着手建立一套帮助研究人员(包括其他用户)快速访问社交平台数据的系统,因为随着网络工具和文化潮流的不断发展,人们都在趋向于电子阅读而不是来看纸质书。

从2000年开始,图书馆就启动了整理归档的工作--那时的难度较小,因为尚未接入社交网站,政府内部的系统储存的数据在一定时间内是静态的,增长速度较慢。虽然数据的总量也超过了300TB,但工作人员觉得:“总有一天可以整理清楚。”

然而,推特的出现令图书馆的归档工作陷入了痛苦的僵局。图书馆方面实在找不到合适的办法来保证信息易于搜索,在这个过程中还不能出现无法容忍的错误。如果继续使用旧的方式--磁带存储,那么仅查询一条2006年到2010年之间的推特信息可能就要耗费一天,如果查询期限再加上一年,所要的时间就要增加四倍。

国会图书馆的一位工作人员费舍尔说:“我们在庞大的数据面前感到头疼,整理成为了一个不可能完成的工作。如果无法把它们归类,这些数据就变成了包袱,需要它们的人检索不到,我们却又不得不保管它们。”

推特的信息之所以难于整理,一方面是由于它的数据量过于庞大,另一方面的原因则十分现实,因为每天都会有新数据不断地加入进来。就像我们的微博一样,每分钟都有大量的新信息产生,人们不断在发微博。所以,这种增长速度会不断地提升,要用传统方法把它整理好,几乎是不可能的。

此外,这类信息的种类也越来越多样,比如普通的推特信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的数据等等。经常使用微博的人对此心知肚明。传统方法在新的数据更新特点面前,根本无从下手。

费舍尔说:“如何寻找解决方案?道路是曲折的。我们开始的时候考虑分布式及并行计算方案,但这两类系统实在太过昂贵。要想真正地实现搜索时间的显著降低,就需要构建起由数百台甚至几千台的服务器构成的庞大的基础设施。天!想想都不可能,这对于我们这种毫无商业收益的机构来说,成本实在太高了,一点也不符合实际。”

图书馆最后找到了大数据工程师。专家针对图书馆的具体情况,给出了一系列的实用方案。开源数据库工具Raik的创始人菲利普斯建议采取分类处理的方式,即利用一款工具处理数据存储、一款工具负责检索工作,另一款则用于回应查询请求,非常简单有效地完成了整理的工作,让海量的新信息与庞大的旧数据完美融合,也保证国会图书馆实现了数据库的更新换代。

在整理完成以后,数据的总量增加了几十倍(每时每刻仍在增加),检索速度反而比以前更快,甚至已经实现了检索结果瞬间到位。

☆分析

分析是指对于数据进行“有效分析”。数据往往规模巨大,成分复杂,且来源不一。尤其在大数据时代,数据往往同时具有四个特点,简称4个V:数据量(Volume)大、速度(Velocity)快、类型(Variety)杂、价值密度(Value)低。怎样在最短的时间内做出最有效的分析,就成了一项核心工作。

随着大数据时代的来临,大数据分析也紧跟着应运而生。而且,传统的数据分析也在与大数据分析进行融合。

目前人们对于数据的解决方法主要还是这几个方向:数据怎么做预处理?归档的文档怎么能够及时查询?如何使用你的挖掘和分析技术来看到视野范围内的全息的大数据内容?在海量数据面前,传统的分析方式是做不到的。

数据分析的弱点也是需要我们警惕和谨慎思考的。去年六月份,有一位投行的华人高管蔡先生找到我。他正在考虑是否要退出欧洲市场,因为经济形势太不景气了。他觉得将来一定会发生欧元危机,一旦危机爆发,公司就会陷入破产的困境。

没错,经济有可能低迷,这是一个潜在的事实。但是,我提醒蔡先生注意另一个事实,那就是这家投行在欧洲已有近五十年的经营史,树大根深,有了很庞大的市场,也有大量的老用户。假如这时退出欧洲,会不会让人们觉得这家投行一遇到风吹草动就弃械投降、根本不值得信任呢?

蔡先生恍然大悟,他马上决定不能清算公司在欧洲的业务,不管未来有什么危机都要坚持下去,即便在短期内付出巨大的代价,也在所不惜。在做出这个决策时,蔡先生并没有忽视那些经济层面的数据,在我的建议下,他采用了另一种不同的思维方式,在数据的考量中纳入了更多更全面的信息。在困境中做出正确决策的人和机构,往往能够赢得更多的尊敬,而这不是传统的数据分析可以捕捉到的。

蔡先生的故事在告诉我们数据分析的威力之外,也充分体现了数据分析的短处和局限。虽然人类的生活现在由收集数据的电脑在调控指挥,当人的大脑无法及时理解和判断情况时,数据也可以帮我们解读和分析它的意义,并且帮助我们弥补对于直觉、情感的过分依赖,减轻我们内心欲望对于理性的扭曲。但归根结底,数据并不能代替人的思考,只有明确数据的真实价值,才有助于我们摆脱对数据的完全依赖。

真正的大数据分析就是要帮我们搞明白数据的真实价值,它在研究大量数据的过程中寻找模式、相关性和其他的有用信息,来帮助人们和企业更好地适应变化,并且做出那些真正明智的决定。

在大数据的层面上,对海量数据有四个不同的方向和解决工具:1.技术上解决了廉价数据的问题;

2.几乎可以实时地对数据进行分析,而不会有任何滞后,保证了数据的实效性;

3.大数据的可视化和发现性,使得搜索与可视化成为热门应用,也让数据更加精确;

4.在设备层面,拥有了经过优化的一体机设备,使得数据制造和分析更加便捷,成本也更低。

即便拥有最好的技术,在对数据进行分析前,人们也应该先了解数据的真实含义--就像了解自己一样。如果你对于数据是陌生的,那么作为一个决策者来说,你对于自己的事业就是十分危险的。现在许多产品经理、设计师和高管在没有完全理解数据的真实含义的情况下,就直接根据数据来修改自己的产品设计、做出完全基于数字逻辑的决策,结果往往事与愿违,导致糟糕的结果。

☆预测

大数据技术就像一面细致入微的显微镜,不但能够收集和分析最不起眼的信息,而且能够基于这些信息之间的逻辑关系做出科学决策。就像我们可以根据人的表情与言词判断他接下来的行为、量度他内心的情感状态一样,预测功能在商业、经济乃至其他领域都有助于政府和企业管理者做出更多的理性决定,而不仅仅是依靠直觉和经验。

IBM公司的能源电力应用部门经理布兰德说:“我们运用大数据预测风电和太阳能,精确地预测来自太阳能和风能的电力产出,取得了很好的效果。这是一种前所未有的创新模式,将使能源电力行业解决可再生能源的间歇性缺陷。”

IBM公司开发了一种结合天气和电力预测的智能系统,提高了系统的可用性并优化了电网的性能。它是足够改变游戏规则的新发明,结合大数据分析和天气建模技术而成,是现在全世界最先进的能源电力解决方案,可以提高可再生能源的可预测性。

这项名为“HyRef”(混合可再生能源预测)的大数据预测技术,利用天气建模能力、先进的云成像技术和天空摄像头,接近实时地去跟踪云的移动,并且通过传感器来监测风速、温度和方向。通过精确的分析,能为风电企业提供未来30天的区域内的精准天气预测,或者未来15分钟的风力增量。这就使能源公司有条件将更多的可再生能源并入生产线,减少碳排放量,然后制造更多的清洁能源。

这种预测能力让我们的生产模式得到真正的升级,而且可以应用到其他领域,比如天然气、煤炭或其他传统行业。不仅在实体产业,非制造业的服务产业对于大数据预测的需求更盛,也有着更广阔的市场。例如,可以帮助企业和政府机构进行业务(服务)分析与预测,对工作量身定制,降低成本,事先应对危机;再比如,可以对房地产销售的价格走势进行预测,它的精确性远远超过传统的房地产分析师。我们每个人都将从中受益无穷。

☆控制

同类推荐
  • 激活你的团队

    激活你的团队

    激励的技巧像一团云雾,很难掌握。同一个人,以同样的语速,对不同的人说同样的话,产生的影响可能是不同的。本书中,我们从14个方面对激励的技巧进行了全面的剖析,并且针对不同的人和企业设计了个性化的激励方案。希望能通过这些激励的技巧给企业的管理者一些启示。
  • 经营一家最赚钱的餐馆、超市、服装店全集

    经营一家最赚钱的餐馆、超市、服装店全集

    随着社会就业形势日益严峻,越来越多的人选择开店创业,但是如何开店,开一家什么样的店,怎样经营,以及怎样才能赚钱是很多创业者都非常想解决的问题。目前,创业者开店的方向主要分为餐饮、生活和服饰三种,那么如何经营一家赚钱的餐馆、超市和服装店呢?本书将以通俗的语言和丰富的案例传达店铺经营的理念。这是一本为各类创业者提供的人人皆可学、人人有收获的提升店铺经营的行动指南,也是店铺经营者提升经营能力的必备宝典。
  • 成就出色的领导者

    成就出色的领导者

    本书将帮助你成为出色的领导者。只要有可能,自觉寻找并担当一个领导者,做一个无冕的领导者。做别人无私的教师和热情的帮助者,其他人就会乐于接受你的领导。发展专长,专长是领导力量的源泉。运用成功的意念。在头脑中预想成功的排练,它们被精神解释为真实存在的经历,因此如同真实发生的一样,会助长你的领导自信心。
  • 销售圣经

    销售圣经

    在金融危机袭来的时候,我听见越来越多身边的人在谈论销售。毋庸置疑,销售在经济社会中是一种及其重要的社会活动。没有销售,就没有订单,机器就无法运转,工人就没有工资,企业就没有利润。可以说销售在任何一家企业都是核心部门。在经济危机中,销售的重要性更加鲜明地凸显出来。因为,面对经济危机,最可怕的是销售员丧失了信心。正如温家宝总理反复强调的一点:“信心比货币和黄金更重要。”这句话对中国的8000万伟大的销售员来说同样适用。
  • 超级CEO成功哲学课:李彦宏

    超级CEO成功哲学课:李彦宏

    本书立足于李彦宏的思想境地和他的发展历程,为读者展示了一位成功企业家的精神世界。
热门推荐
  • 快穿之女配智商不在线

    快穿之女配智商不在线

    没有记忆,木容梓表示,没关系,记忆什么的,以后会有的,但记忆深处的那东西,却一直不安稳,无奈,她只好和快穿局签订契约。条款如下:①完成一定量的任务,就可恢复记忆。②若失败两个任务,则进行抹杀。③成为主神的妻子……当完成任务的木容梓再看契约时,exm,第三条,为什么当初她签订契约时没有……某系统:明明是你自己没看清楚,好吗?
  • 孟婆平安

    孟婆平安

    人离世后,都要喝一碗孟婆汤,散去前世的记忆,洗去一身的沧桑,干干净净的投入下一场故事。熬汤的是孟婆,喝汤的是离人,每个人都有一段故事,包括孟婆。孟婆神是平安,阿奶给她取这个名字,原意是不涉红尘,平平安安的修行,或许有朝一日,九天之上,还会有平安的位置。可是阎摩,幽冥之主,你还会再放开平安的手吗?
  • 迷糊的你

    迷糊的你

    两名年过花甲的老人,互相搀扶着前行。在路灯的映衬下,他们显得格外的单薄,“阿昱这么多年,你等我不累吗?”张扬轻声问到。韩以昱,看着定定的眼前的人,仿佛要把他刻进自己的生命:“对呀,这么多年我真的好累,我以为要等一辈子,幸好你回来了,我没有白等。”张扬笑了,眼泪也流了下来。韩以昱轻轻擦掉张扬脸上的泪:“傻瓜,都一把年纪了还哭,也不怕丢人。”“我哪有。”两人对视的笑了,亦如从前……
  • 快穿之炮灰女配不狗带

    快穿之炮灰女配不狗带

    柠檬是位美丽又可爱的学霸,但她却以倒霉蛋的名声闻名全校,她之所至,全校退散。出生被抛弃,收养被抛弃,几经折腾,好不容易长大了,又被竹马劈腿。最倒霉的是,她竟然在生日许愿时,被从天而降的东西,给砸死了!!!她被一女配逆袭系统契约,询问被选上的原因。系统:难道不是宿主许愿的时候说的吗?本系统是听见宿主许愿的声音,发现宿主符合本系统的要求,所以准备满足宿主的愿望。柠檬:呵呵……所以你就砸死我喏?
  • 异界学霸系统

    异界学霸系统

    你是魔纹大师?呵呵你是药剂大师?呵呵你是圣域法师?呵呵你们这群战斗力只有5的渣渣们!我是学霸,膜拜我吧!
  • 邪王追妻:腹黑小医妃

    邪王追妻:腹黑小医妃

    来自现代的呆萌吃货小兽医,因为送了一次盒饭,就华丽丽的穿越了,真是世界之大无奇不有……某日,白草草仰天长啸,神啊!你咋能这样对我啊!你让我穿越就穿越吧,我认还不行!可为嘛会穿越到一个不受宠的废柴傻王妃身上……要啥啥没有,饭都吃不饱,我的发财梦,我的美男梦啊……逆天空间,呆萌兽宠,绝世神兵,华丽医术,银针在手,天下我有。要问什么本领强?腹黑,吃货,耍流氓……且看爆笑穿越的她如何华丽逆袭。只不过这身后,何来惹来这么多桃花飘……某日,白草草大叫,大哥你至于么,我不就是蹭了蹭饭拿了点财,又顺便劫了点色,你至于追我半个大陆啊!某男邪笑……
  • 邪王追妻,逆宠小狂妃

    邪王追妻,逆宠小狂妃

    “我们来生宝宝吧”“不好”她说,要掏心掏肺的对我好。他却说,爱她,就要“一不小心”帮她省去月事的痛苦,没有一丝犹豫的娶她为妻。她说,想娶我,你就得掐掉你身边的那些白莲花。“如果我不呢?”“那我只好帮你净净身,下下毒,让你无法在花丛中逍遥”“怎么会呢,只爱你一人,再无其他”。
  • 挖掘机帝国

    挖掘机帝国

    挖掘机技术哪家强,华夏山东找蓝翔。这是一个蓝翔毕业的逗比少年在异界搞强拆的故事。当然除了挖,美食、泡妞、发财一样都不能少。“总有一天,我会把龙王的窝给拆了!”——摘自李翔语录!(滴滴滴,友情提示:上车请刷收藏卡,推荐卡!)
  • 异者为王余为寇

    异者为王余为寇

    小小少年,机缘巧合之下接触修炼之法,入门之后却发现,众人皆会的他却不会!拥有奇怪体质的他到底是怪胎,还是异类?修炼途中无意间得到的破损武器居然交给他一件不可能完成的任务!难道注定是必死之局吗?但是无论怎样,他即使跪着,也要走完这条修炼之路。这一切,只为保护那些与他一路走来,不离不弃的朋友们。艰难旅途中,他比人多狂,比兽多智。人又怎样?兽又怎样?他不能为人,也不愿做兽,只是凭借着自身的实力与运气,一步一步踏上了顶峰,战胜了“终极”,在世间留下异王的名号。武学、美女、炼器、炼丹、魔兽、升级……尽在此书。
  • 乾坤独掌

    乾坤独掌

    一个8岁的小童,一天之内接连痛失双亲,凭着偶然得到的小黑球,背井离乡,孤身踏入对他来说全然陌生的世界,生死间徘徊,爱恨间别离,成就武者,踏足修仙界。弱肉强食的修仙界他是否能走下去,而步入巅峰?修仙,仙到底在那里?是了。活下去,坚强的活着。一切才能成为可能!终有一天能掌握自己的命运,成为执宰命运的强者,创造属于自己的世界。独掌乾坤!