图书背景
本书系《Everybody Lies: Big Data, New Data, and What》译著 ,主要通过案例科普大数据的一些概念。
本书论述稍显散乱,案例因为文化背景的原因,读起来可能有点乏味,但总体来讲可以打及格分。
绪论
谷歌趋势,它可以告诉使用者任何一个词语或短语在不同时间、不同地点的使用频率。
人们搜寻信息这一行为本身就是信息。事实证明,他们何时何地搜寻真相、格言、笑话、地点、人物、事件或帮助,可以在很大程度上反映他们真实的想法、欲望、恐惧和职业,其程度之高是任何人都想象不到的。
谷歌数据的功能不在于说明那些数据中显而易见的结果,而在于人们会向这个巨大的搜索引擎倾吐他们不会告诉任何人的事情。
"性相关的调查结果"案例表明人们会在调查时隐藏真实想法。因此,人人都在说谎,唯一的不同就是说谎程度的大小。
“美国大选”案例表明不能只研究哪位候选人的搜索频率最高。很多人搜索某位候选人是因为喜爱他,但是有几乎同等数量的人搜索某位候选人是因为讨厌他。作者的研究表明,在一条包含两位候选人姓氏的搜索中,选民更有可能将其支持的候选人姓氏放在前面。
人们常常说谎,对自己说谎,也对别人说谎。
首先,我得承认我无法准确定义究竟什么是大数据。为什么?因为这本来就是一个模糊的概念。多大才算大?如果18 462个观测值是小数据,那么18 463个就算大数据吗?
我们正在经历各种可用信息数量和质量的双重激增。
很多人都曾对大数据的影响做过很高的评价,但是他们缺乏证据。 这导致为数众多的大数据怀疑者对更大数据集的搜索不予理睬。作家兼统计学家纳西姆·塔勒布(Nassim Taleb)曾写道:“我不是说大数据中没有信息,事实上它包含很多信息,但问题是,提取信息比大海捞针还难,而这也是主要问题。”
本书的主要目标之一,便是要就大数据能做什么这一问题提供一些缺失的证据。我希望可以提供足够多的大数据案例,为人类心理及行为提供新的见解。
证明那些你本就怀疑却缺乏证据的事情不可谓没价值,**但怀疑某事是一回事,证明它又是另一回事。**如果所有大数据能做的只是证实你的怀疑,那么这些数据也就不会那么具有革命性了。
正如卓别林所言:“笑声是滋补品,是缓解和去除痛苦的灵药。”实际上,人们在生活平顺(而非不顺)时搜索笑话的可能性更大。
有时新数据会体现我从前不曾考虑过的文化差异。
今天仍有很多数据科学家正在积累大量的数据集,却很少阐明其重要性。太多的企业被淹没在数据中,它们有TB级的数据,却很少有主见。我认为数据集的大小总会被高估。
对此,还有一个很微妙却很重要的解释,即**一种事物的影响越大,有必要观察它的次数就越少。**你只需要触碰一次高温火炉就会意识到它很危险,但是你可能需要喝数千次咖啡才能确定它是否会让你头痛。
事实上,最明智的大数据公司常缩减其数据。在谷歌公司,很多重大决定都是基于其全部数据中极少量的样本做出的。
**谷歌搜索如此有价值的一个主要原因不是这些数据的量有多大,而是人们对谷歌很诚实。**人们会对朋友、爱人、医生、调查人员乃至他们自己说谎,但在谷歌网站,他们可能会分享令人尴尬的信息。
**最重要的是,为了从大数据中获得见解,问题必须问到点上。**正如你不能随意用望远镜望向夜空就发现冥王星一样,你也不能下载一大堆数据就指望可以发现人性的秘密。
本书将会展示如何最合理地使用大数据,并详细解释大数据为什么会这么强大。在探讨这些话题之前,我们需要讨论一个更加基本的问题:我们到底为什么需要数据?
第一部分 大数据,小数据
第一章 你的直觉出错了
好的数据科学远没有人们想象的那么复杂。事实上,最好的数据科学便是一种出乎意料的直觉。为什么数据科学可以凭直觉感知呢?数据科学的核心在于发现不同模式以及预测一个变量如何影响其他变量。人们一直在做这类事情。
如果最好的数据科学的方法通常既具有本能性又具有直觉性,那么一个关于大数据价值的根本问题就来了。如果人类天生就是数据科学家,如果仅凭直觉就能研究数据科学,那么为什么我们还需要电脑或统计软件呢?为什么我们还需要KS –检验呢?我们就不能相信直觉吗?
哥伦比亚大学和微软的研究提供了严谨的数据科学与电脑相结合的明显例证**,该例证告诉我们有些事仅凭直觉是永远无法了解的。这个例子也说明数据集大小的重要性。有时候我们的经验不足,无法通过直觉得出结论。**
尽管直觉也许常常让我们感觉很了解这个世界的运作方式,但这种感觉往往是不确切的。我们需要用数据使其清晰化。
在没有电脑帮助的情况下,我们的直觉有时确实让人眼前一亮,但直觉有可能酿成大错,我们倾向于夸大个人经验的作用。用数据科学家的话说就是,我们总会给自己的数据加权,总是过于重视一个特别的数据点——我们自己。
**我们总会高估所有令人印象深刻的事物的作用。**换句话说,**当我们凭借自己的亲耳所闻或亲身经历来判定这个世界的运作模式时,通常都会出错。**虽然最好的数据科学方法通常是具有直觉性的,但其结果多是反直觉的。数据科学采用既具本能性又具直觉性的人工流程(先发现模式,而后理解其内涵)并向其中注入更多功能,这样我们可能会看到这个世界的运作方式与我们之前想象的完全不同。
NBA球员家庭背景案例:是在贫穷家庭长大的孩子更有可能进入NBA,还是在中产阶层家庭长大的孩子更有可能? 第一个相关数据就是每名运动员的出生地。我记录了20世纪80年代美国每个县出生的黑人男孩和白人男孩的数量。随后,我又记录了其中有多少人成功进入了NBA。我将这一数字和每个县的平均家庭收入做了对比,还掌握了各县的种族人口统计数据(这是另一本书的主题),最后我发现黑人进入NBA的可能性比白人大40倍。数据显示,如果一个孩子出生在富裕的县,他就有更多的机会进入NBA。
我又调查了NBA球员的家庭背景。这些信息是从新闻报道和社交网络中找到的。这种方法相当耗时,不论是县级的出生数据还是作为特定样本的那些球员的家庭背景都无法提供所有NBA球员童年的完美信息。
后来我又想起了一个数据点,这个数据点可以为个人背景调查提供有效线索,是由罗兰·弗赖尔(Roland Fryer)和史蒂芬·列维特(Steven Levitt)这两位经济学家在一篇论文中提出的——黑人的名字能够体现其社会经济背景。富裕家庭的父母倾向于给孩子取一个常见的名字,而那些贫困家庭的单身母亲则更有可能给孩子取一个独特的名字。
截至目前,我们已经搜集了三份不同的证据:出生地、得分王母亲的婚姻状况和球员的名字。三份证据都不够完美,但都印证了相同的结果——社会经济地位越高,意味着进入NBA的可能性就越大。也就是说,传统的观念是错误的。
数据科学家的目标是了解世界。一旦发现了反直觉性的结果,我们就可以运用更多的数据科学知识来解释为什么世界并非我们看到的那样。
第二部分 大数据的力量
第二章 弗洛伊德是正确的吗
西格蒙德·弗洛伊德的理论是正确的吗?有奥地利裔英国哲学家卡尔·波普尔(Karl Popper)对这一问题做出了明确回答,他高调宣称我们无法验证弗洛伊德的理论。也就是说,没有任何办法可以验证这些理论的真伪。
过去我们没有办法将弗洛伊德的理论应用于实际测试中。现在有办法了。数据科学证实弗洛伊德的许多理论是毫无根据的——这门科学将他的许多著名理论应用于测验中。
再来看看弗洛伊德式失言。弗洛伊德假定人们用失误(口误或笔误)来表达自己的潜意识,通常和性相关。
可以使用大数据来检验这一理论吗?有这样一种办法:看看我们的失误(失言)是否有性的倾向。这就是我要研究微软研究人员搜集的那4万多个打字错误的数据集的原因。这个数据集中包含人们打错字后立即纠正的错误。
为了找到答案,我首先使用了微软的数据集来模拟人们错误替换特定字母的频率。我计算了用字母s替换字母t和用字母h替换字母g这两种情况的频率。其次,我创建了一个模拟人类犯错方式的计算机程序,我们可以称之为Error Bot。
通过比较Error Bot和粗心的人类,我们能了解到什么呢?在以人类替换字母的方式制造出数百万个错误之后,Error Bot犯了许多弗洛伊德性质的错误。
重点来了,毫无潜意识的Error Bot和人类一样,也会犯与性相关的错误。这个研究警示我们,就像许多社会学家常说的一样,我们还需要做更多的研究。也就是说,这种与性相关的错误并不是人们故意为之的,而是无意间发生的。
弗洛伊德关于失误可以揭示人们潜意识需求的理论被证实是毫无根据的——并且根据我的数据分析,这个理论根本就是错误的。
请记住,我们已经说过,单纯的一堆堆数据,其本身并不会自动生成任何见解。数据大小本身被高估了。那么,为什么大数据又如此强大呢?为什么它又可以掀起一场“如何看待自己的革命”呢?我认为,大数据有四大独特功能,对弗洛伊德的这一分析提供了一个很好的例证。
提供新型数据是大数据的第一大功能。有关各种主题的独特数据来源为我们打开了一扇窗,通往过去仅存在于我们猜测中的领域。
提供可靠的数据是大数据的第二大功能。在前数字时代,人们在人前掩饰着自己羞于启齿的想法。在数字时代,他们在人前仍然将这些想法隐藏起来,但没能瞒过互联网,尤其是谷歌和色情网站这种保护他们隐私的网站。
允许我们放大人群子集是大数据的第三大功能。因为现在有了如此多的数据,所以即便只有一小群人也可以提取有意义的信息。
允许我们进行许多因果试验是大数据的第四大功能。不仅可以测试相关性,而且可以测试因果性。
第三章 数据重构
谷歌搜索能否像房价和流感的晴雨表一样,成为失业率调查的试纸呢?仅仅依靠谷歌搜索,我们能否得知有多少人失业,能否在政府核对出调查结果之前统计出可靠数据呢?
我发现,与消遣相关的综合性搜索可以追踪失业率,并能成为预测失业率的完美模板的一部分。这个例子说明了大数据的第一个功能——提供新型数据。通常,大数据的价值不在于它的大小,而在于它可以为你的研究提供新的信息,提供过去从未有人搜集到的信息。
谷歌的成功是建立在对一种新型数据的搜集之上的。与谷歌一样,所有人都试图使用数据来了解世界。大数据革命并不在于数据的量,而在于数据的质。
本章的要点:**新的非常规数据的巨大价值。**其中传达的原理也有助于我们理解这场以数字为根基的数据革命。
以身体为数据
马主如何才能选到一匹能赚大钱的马呢?过去,人们认为预测一匹马能否成功的最好办法是分析它的血统。除了血统外,赛马代理人还会考虑其他信息。例如,他们会分析两周岁马的步态,并以眼观马。
塞德对传统的相马方式毫无兴趣,他只对数据感兴趣。他计划要测量赛马的各种属性,看看其中哪些与它们的表现相关。
塞德发现,一般来说,赛马的左心室越大,在比赛中成绩就越好,但是,如果左心室如此之大,其他器官却很小,则可能是患有疾病的征兆。美国法老王所有关键器官的大小都高于平均水平,左心室更是超大。数据表示,85号是十万里挑一甚至百万里挑一的好马!
数据科学家可以从塞德的项目中学到什么呢?**首先,或许也是最重要的一点,如果你想尝试使用新的数据来革新一个领域,那么最好是进入一个旧方法不见效的领域。**被塞德击败的那些沉迷于血统的赛马代理人为该领域留下了很大的改进空间。被谷歌打败的那些痴迷于数据的搜索引擎也为该领域留下了进步空间。 其次,试图做预测时,不必太担心模型的工作原理。塞德在做的是预测工作,而不是解释工作。在预测工作中,你只需要知道什么东西有用,无须知道为什么。
**最后一个启示是,在确定什么是数据时,你必须抱有开放而又灵活的心态。**传统的赛马代理人并非不知道数据。他们也会仔细检查比赛次数和血统图表。塞德的天才之处在于,**他会寻找他人从未关注过的数据,还会考量非传统的数据来源。**对一位数据科学家来说,一个全新的独特视角是一定会带来回报的。
文字数据
两位学者想知道语言到底是不是理解偏好的关键点?
从“美利坚合众国”(TheUnited States are…)与“美国”(The United States is…)在不同年份出现在书中的频率说明美国民族认同感是如何形成的。
通过男性和女性首次约会时说话的方式,我们就能预测他们会不会还有第二次约会。
|