<-- home

凡是过去,皆为序曲

dashuju

看完《大数据时代》,对经常听到的“大数据”一词有了基本认识。尽管该书的推荐人不同意,但我还是认为“大数据”就是“数据大”。

简而言之,大数据就是当今社会各领域各种数字化数据的集合,包括但不限于文字、图片、影音及各种信息化数据。我们经常吐槽的微博、推特、博客、评论等信息,网站、电商公司后台统计的流量、营销、用户数据,政府机构进行的人口普查、市政建设、财税统计等等。

称之为“大数据”,是因为与传统统计学中的相关概念有所不同。传统统计学在以前信息处理工具落后的前提下,只能采取“抽样”的形式进行数据统计和分析,而大数据则是在电脑运算处理能力高度发达的今天,可以快速的对所有数据进行分析,这意味着“样本数据=全部数据”,即非抽样的那一小部分,而是所有的数据。

因此,传统统计学追求的是对小部分数据的分析结果的精准性,并据此研究事物的因果关系,而该书认为大数据追求的是对所有数据的分析结果的普适性,并据此研究事物的相关关系。这对人们观念的冲击是比较大的,人们原本追求的“为什么”已经不太重要了,更重要的是“是什么”。大数据因为有充分的数据分析,其最大的优势就是对未来事物的预测,就像是给了你一个能洞见未来的“水晶球”,让人热血沸腾,激动不已。

书的最后部分阐述了在大数据席卷一切的汹涌浪潮之中,人类最可贵的部分,即创意、直觉和冒险精神,仍是大数据无法代替的,算法之外,仍是以人为本。全书仅这部分让我感觉人类还有存在的价值。

该书虽然涉及不少专业知识,但读来并不晦涩难懂,一是例举了大量事例进行阐述,二是该书译者水平很高,据说是位仅二十来岁的首席科学家,真正的英雄出少年啊!

莎士比亚曾写道:“凡是过去,皆为序曲。” 无论你过去了不了解大数据,它都已经来了,做好准备拥抱这个新的时代吧!


以下是我阅读本书的标注,对大数据的相关观点,可先窥一二:

人类学家克利福德·吉尔兹(Clifford Geertz)在其著作《文化的解释》中曾给出了一个朴素而冷静的劝说:“努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。”我想,这应该是所有人面对一个新领域或新概念时应有的态度。

大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。

适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。

统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

如果把一个在社区内有很多连接关系的人从社区关系网中剔除掉,这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网很快就会破碎成很多小块。

假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测量仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。

据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。

就像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你就会发现这是一幅伟大的作品,因为你退后一步的时候就能看出画作的整体思路了。

相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。

建立在相关关系分析法基础上的预测是大数据的核心。

在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有时他们认为,这是与自由意志相对立的。

就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。

大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。

公司账面价值和市场价值之间的差额被记为“无形资产”。

在新产品发布的时候,旧一代的产品可能会经历一个短暂的价格上浮。

未来的信用卡公司不会再对交易收取佣金,而是免费提供支付服务。作为回报,它们会获得更多的数据,而对这些数据进行复杂的分析之后,它们又可以卖掉分析结果以取得利润。

与时俱进才是在职业领域取得成功的必备技能;这样的员工能随时满足公司对他们的期望。

在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。

公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。

人类最伟大之处正是运算法和硅片没有揭示也无法揭示的东西,因为数据也无法捕捉到这些。

发明的火花却往往存在于数据未显示出的信息之中,因为它并非真实存在,是多大量的数据都永远无法确定或证实的。

大数据的世界中,包括创意、直觉、冒险精神和知识野心在内的人类特性的培养显得尤为重要,因为进步正是源自我们的独创性。

西方谚语有云:“预测未来最好的办法就是创造未来。”这句话在大数据时代亦应当铭记。在福特时代,任何人都无法从数据中看到汽车将替代马车,福特所创造的是无法预测的全新篇章。