编辑推荐内容简介作者简介目录书摘插图讨论
生动而严谨地对定量分析和决策方法运用的描述……社会科学家和商业人士都能受益颇丰。
——肯尼思·约瑟夫·阿罗
诺贝尔经济学奖得主,斯坦福大学荣誉教授
生动的、令人愉悦的……艾瑞斯娴熟地展现了数据分析在我们生活中的重要性,尤其是当技术使其以一种从未想象到的规模发挥影响……
——《出版者周刊》
过去,直觉和经验就够用了。时代忆经变了。现在,游戏的名字叫做数据。伊恩·艾瑞斯在这本开拓之作《超级数字天才》中告诉我们为什么以及变化的形式。这本书不仅充满了阅读的乐趣,而且能改变你的思维方式。
——史蒂芬·列维特
《魔鬼经济学》作者
有人在葡萄酒酿造出之前就能知道酒的品质好坏
有人在看到运动员比赛之前就能判断出其水平
有人在购买机票之前就能知道机票价格会涨还是跌他们有特异功能吗?
交友网站能测出什么样的异性适合你
亚马逊可以告诉你“和你类似的人还喜欢”的东西谷歌可以根据你的搜索把你最想看到的东西排列到最前面
他们如何做到的呢?
意到了吗?数据分析正在以我们从未想象过的方式影响着生活。本书中,作者向我们展示了当今最优秀、最出色的组织正在以闪电般的速度分析规模庞大的数据,以便更加准确地掌握人类的行为。这些人就是“超级数字天才”。从互联网站如谷歌、亚马逊能比你自己更了解自己的爱好,到医生的诊断和孩子的教育,再到政府、法院,这种新型的决策者逐渐掌控了世界。艾瑞斯以生动、轻松的方式向我们展示:
超级数字分析在商业、医院、法院等社会各个角落的崛起。
超级决策与经验直觉决策的对峙
超级数字分析崛起的原因
哪些人会因此受益,哪些人会因此受损
未来将属于谁
仅仅依靠直觉决策的时代已经一去不复返。任何想要走在时代前列的商业人士、消费者、学生都应该阅读这本书。
伊恩·艾瑞斯,计量经济学家、律师,耶鲁管理学院教授。他是《福布斯》杂志的专栏作家,目前是《法律、经济学和组织机构期刊》(Journal of Law,and Organization)的编辑,曾著有8本书,发表过100多篇文章。
序:超级数字天才的崛起
谁在替你思考
抛硬币创建数据
政府也做随机试验
循证医学之争
专家与议程的对峙
为什么是现在崛起
谁将是受损者
直觉和经验的未来
致谢
谁在替你思考
人的建议可以让你生活得更轻松。想知道该租哪部影片来看吗?常用的方法是问问朋友的看法,或者看看影评们对它的评价如何。
当今的人们往往上网去根据大家的行为来寻找参考意见。有些“偏好引擎”列出了最受欢迎的东西的简单清单。《纽约时报》列出了“转载次数最多的章”。iTunes列出了下载次数最多的歌曲。Del.ici0.US列出了最受欢迎的互联网书签。这些简单的过滤常常帮助网友们特别关注这些最受欢迎的事物。
有些推荐软件更进一步,它们试图让你知道跟你相似的人都喜欢什么。亚马逊会告诉你买了《达芬奇密码》(The Da Vinci Code)的人也买了《圣血,圣杯》(Holly Blood,HoUy Grail)。DVD租赁公司Netflix会根据你以前推荐过的电影来给你推荐影片。这是真正的“合作筛选”,因为你对影片的评级可以使Netflix更好地给别人推荐,而别人的评价也可以使Netflix更好地为你推荐。互联网是实现这一服务的完美工具,因为零售商在网络上用非常低廉的成本就可以追踪消费者的行为,自动加总、分析他们的信息,并把这些信息显示给后继消费者。
这些程序当然也不可能完美无缺。如果有人想在沃尔玛找马丁·路德·金的《我有一个梦想》(I Have a Dream),却被告知他们也许也该欣赏一下DVD影片《决战猩球》(Planet of the Apes),那么沃尔玛就必须为此道歉。亚马逊也类似地得罪过消费者,他们搜索有关“堕胎”的书,而亚马逊却问“你想搜的是领养吗”?(译者注:在英文中,“堕胎”和“领养”形近,分别是abortion和adoption。)“领养”问题之所以会自动出现,是因为以前搜索过“堕胎”的很多顾客也搜索了“领养”。
尽管如此,通过网络进行的“合作筛选”已经使消费者和零售商都受到了很大的裨益。在Netflix,租出去的影片中大概有三分之二得到网上推荐。而且(在Netflix的五星评级体系中)被推荐过的电影的评级都比在这一推荐系统之外租到的影片提高了半个星。
最常转载的文章和畅销书等评比使消费变得集中,而更个性化的推荐则可以使消费变得分散。Netflix可以为不同人推荐不同的电影。因此,Netflix的50000类不同的影片中至少每个月都有90%以上可以被租出。“合作筛选”可以使卖方接触到克里斯·安德森(Chris Anderson)所说的偏好分布的“长尾”。Netflix的推荐可以使顾客定位更精准,而这在过去很难实现。
音乐方面也存在类似的现象。在Pandora.corn,用户只需输入他们喜爱的歌曲名或者歌手名,几乎在同时,这个网站就开始一首接一首地涌出风格类似的歌曲。你喜欢辛迪·劳博尔(Cyndi Lauper)和破嘴合唱团(SmashMouth)吗?瞧,Pandora.com为你创建了一个电台,专门播放劳博尔或者破嘴合唱团以及跟他们风格类似的歌曲。每一首歌播放的时候,你还可以点击“我确实非常喜欢这首歌”或者“下次不要再播放这首歌”,让这个电台更多地了解你的喜好。
这个网站对我和我的孩子来说实在是太有用了。它不仅可以播放我们大家都喜欢的音乐,而且还能找到许多我们从没听说过的音乐。例如,我告诉Pandora.corn我喜欢布鲁斯·斯普林斯汀(Bruce Springsteen),所以它就为我创建了一个电台,播放Boss乐队和其他著名歌手的音乐。但是播了几首歌后,我就沉浸在它为我选出的基顿·西蒙斯(Keaton Simons)的《现在》(Now)中了(而且它有快速链接,因此可以很方便地在iTunes或者亚马逊上买到这首歌或唱片)。这就是长尾,因为像我这样的书呆子是不可能自己找到基顿·西蒙斯的。Rhapsody.om也有类似的偏好系统,这使得他们100万首歌单中90%以上的歌曲每个月都能被播放。
MSNBC.corn最近增添了“故事推荐”功能。这个功能使用一个cookie文件来跟踪你最近阅读过的l6篇文章,并利用自动文本分析工具预测你还想读什么样的故事。让人吃惊的是,这样的16个故事的记录几乎一定能够促使你养成早晨阅读的习惯。令我有点尴尬的是,它自动推荐给我的是《美国偶像》(Amer/can Id01)。
不过芝加哥大学的法律系教授卡斯·桑斯坦(Cass Sunstein)担心开发长尾偏好会带来社会成本。这些个性化的筛选系统越成功,我们共同体验的就越少。麻省理工学院的教授尼克拉斯·尼葛洛庞帝(Nicholas Negroponte)是传媒技术的专家,从这些“个性化新闻”特写中,他看到了“我的日报”(DailyMe)——让市民们只接触迎合他们狭隘偏好的新闻出版物——的出现。当然,自我筛选新闻这一现象已经出现很长时间了。副总统切尼只看福克斯新闻(Fox News)。拉夫·纳达尔只读琼斯夫人(Mother Jones)的文章。不同之处在于,当今的科技正在创造着更强大的听众审核体系。Excite.corn和Zats0.net等网站开始允许用户为自己创立“我的报纸”和“个性化的新闻广播”。这样做的目的是创建一个“由你决定新闻”的平台。Gooste新闻(GoosleNews)允许用户个性化设定自己的新闻群。邮件提醒功能和RSS阅读允许你选择“这是我想要的新闻”。现如今,如果愿意的话,对于那些自己毫不关心的社会问题的新闻报导,我们连看都不用看一眼。
所有这些合作筛选系统都是詹姆斯·索罗维基(Janles Surowiecki)所说的“群众的智慧”的例子。在某些情况下,大家一起做出的预测比由其中任何一个成员做出的估计要准确得多。例如,假设能够准确猜出罐子里硬币数目的大学生,可以得到100美元奖励。把大家的估计简单地求一下平均数,就得出“群众的智慧”。无数次的实验表明,平均估计比任何个人的估计都更接近真实值。有人猜得过高,有人猜得过低;但是一经加总,过高的和过低的估计就相互抵消了。集体往往能够比个人做出更好的预测。
电视节目“谁想成为百万富翁”(Who Wants to Be a Millionaire)中,“征求观众意见”得到的答案正确率超过90%(而打电话给朋友得到的答案只有不到三分之二是正确的)。合作筛选是一种特别的观众投票方式。跟你相似的人可以很正确猜出你喜欢什么样的音乐和电影。需求偏好数据库能有效地改善个体决策过程。
eHarmony谱写新的篇章
新近兴起一种新的预测方式,它利用集体智慧来分析潜意识的偏好。eHarmony的兴起是集体智慧的一种新发现,而这种发现依靠的是超级数字分析。传统的婚姻媒介引导人们有意识地表达自己的偏好,并根据这种偏好把人们配对。与此相反,eHarmony努力弄清楚你是什么样的人,然后再把你配给从数据分析中得知最为匹配的人。eHarmony从一个包含大量信息的数据库里查询什么性格类型的人结为夫妻会真正幸福。
20世纪90年代后期,eHarmony的创始人和推动者尼尔·克拉克·沃伦(Neil Clark Warren)对5000多对夫妻进行了研究,并首次提出一个用来预测适应性的统计模型,这个模型包括29个与个人情感秉性、社会风格、认知模式以及关系技巧等相关的不同变量。
eHarmony使用的是数据分析中最早的工具——回归分析。回归分析是使用历史数据估计不同的原因变量对某个感兴趣的变量的影响大小。对eHarmony来说,感兴趣的变量是夫妻之间的适应程度,而原因变量就是反 映夫妻二人的感情、社会及认知特征的29个变量。
回归技术是100多年前由查尔斯·达尔文(Charles Darwin)的表兄弟弗朗西斯·高尔顿(Francis Galton)建立的。高尔顿1877年就拟合了第一条回归直线。还记得奥利·阿什菲尔特用来预测葡萄酒品质的那个方程式吗?那就是由回归得到的。高尔顿的第一个回归方程也是农业方面的。他的回归方程是用甜豌豆的亲本种子的大小来预测其种子大小。他发现大种子的后代往往比中等或小种子的后代要大,但是其后代不会像其亲本种子那么大。
高尔顿用另一个回归方程发现,儿子和父亲的身高有类似的趋同现象。高个父亲的儿子身高一般高于平均水平,但不像他父亲那样高。这意味着用于预测儿子身高的回归方程需要在父亲的身高上乘以一个小于1的因子。实际上,高尔顿估计出父亲每高于平均值1英寸,儿子的预测身高就能高出三分之二英寸。
当他计算预测父母和孩子IQ之间的关系的回归方程时,再次发现了这个现象。聪明父母的孩子比智力一般的父母的孩子聪明,但却没有他们的父母那么聪明。“回归”这个词语与技术本身没有任何关系。高尔顿之所以把这个技术称为回归,是因为他正好预测的第一组对象显示了这种趋势——高尔顿称之为“走向平庸的回归”,我们现在称为“向平均的回归”。 回归产生了一个最适合这些数据的方程式。尽管回归方程是根据历史资料来估计的,但是它可以用于预测未来。高尔顿最早的回归方程是把种子的大小作为其亲本种子大小的函数,把孩子的身高或智商作为他们父母的身高或智商的函数。奥利·阿什菲尔特关于葡萄酒的方程式预测了温度和雨水对葡萄酒品质的影响。
eHarmony也建立了一个用于预测偏好的公式。与Netflix或亚马逊的偏好引擎不同,eHarmony的回归方程通过使用人们甚至不了解、无法说出的个性和性格特征把最适合的人相互匹配。的确,eHarmony可能会把你与你从没想过会喜欢的人匹配在一起。这就是集体智慧,它超越个体的意识选择,能够看到人的潜意识的、隐藏于内心的活动。
使用数据分析进行匹配的不只有eHarmony一个。Perfectmatch使用迈尔斯一布里格斯(Myers—Briggs)性格测试量表修订版来匹配用户。20世纪40年代,伊莎贝尔·布里格斯·迈尔斯(Isabel Briggs Myers)及其母亲凯瑟琳·布里格斯(Katherine Briggs)根据心理分析学家荣格(Carl Jung)的性格类型理论开发了一个量表。迈尔斯一布里格斯量表把人的性格分成l6种不同的基本类型。Perfectmatch就根据M—B分类法把最有可能形成持久关系的人配在一起。
True.tom也不甘示弱。它收集了其客户关于99个关系因素的数据,并把这些数据输入一个回归方程,从而计算出任意两人之间的适应性指数。True.com实际上就是在告诉你,你跟其他人会相处得怎么样。
尽管这三个服务商都利用数据分析做出人与人之间适应性程度的预测,但是它们得出的结果却迥然不同。eHarmony相信要找到与自己非常相近的人。“我们的研究一直强调的是,”沃伦说,“要找到这样一个人,他(她)的智商与你相近,抱负与你相近,精力与你相近,精神与你相近,好奇心也与你相近。总之,我们的模型就是一个相似性模型。”
与此相反,Perfectmatch和Trun.corn寻找的是互补性的性格。“我们不仅从内心里知道,而且也都有过这样的经历,有时会被那些与我们性格不同的人所吸引,并与他们相处得更好,”Perfectmatch的实证分析学家派博·施瓦茨(Pepper Schwartz)说。“因此迈尔斯一布里格斯量表最妙的不在于描述了性格的特征,而在于性格之间如何能够彼此适应。”
这种分析结果的差异并不是数据分析应有的目的。数据应该能够决定出个性相近的和互补的人哪个匹配更好些。但是很难说谁对谁错,因为行业分析会保留在本行业内部,用来分析的数据也是高度保密的。我所做过的许多研究(包括出租车小费、防种族与性别歧视行为、密携枪支)的数据都可以从互联网上免费下载,而关于“网上约会服务”的匹配规则的数据是私密的。
创立“雅虎友缘人”的马克·汤普森(Mark Thompson)说,用社会科学的标准去衡量市场是不现实的。“在市场上,同行评审体系不适用,”汤普森说。“我们用了两个月建立雅虎友缘人系统。那可是真正的不分昼夜。我们对50000人做过研究。”
与此同时,配对网站已经开始争先恐后地证明自己结果的有效性。True.coin强调他们是唯一经过独立审计师审核的网站。曾任True.corn首席心理学家的詹姆斯·赫安(James Houran)对于eHarmony的数据结果非常不以为然。“我看不到任何证据表明他们在形成量表时做过什么研究,”赫安说,“如果自诩所做的是科学研究,那是给学术界看的。”
eHarmony对此做出了回应。他们提供证据表明他们的配对系统是管用的。eHarmony主办了一个哈利斯(Harris)调查,表明他们现在一天能够促成90对婚姻(一年就是30000多对)。这当然比一对也成不了要好,但是与eHarmony的500万会员相比,这算不上大的成功,因为这意味着你花了50美元手续费后最终能够走入婚姻殿堂的概率仅仅为1%。其他竞争对手很快就公布了促成的婚姻数目。雅虎的汤普森说过,要想找到你未来的另一半,更好的方式是“去逛逛Safeway超市。”
eHarmony还声称有证据表明他们促成的婚姻确实更和谐。该网站的研究人员去年在向美国心理学协会(American Psychological Society)做报告时称,经过eHarmony找到彼此并结婚的夫妻比结婚同样时间但是通过其他方式认识的夫妻过得更幸福。尽管这项研究有些严重的缺陷,但这传达给我的重要信息是,现在主要的交友网站不仅仅通过数据分析得出匹配规则,而且也利用数据分析来证明自己的匹配规则是正确的。
然而,这些服务商的匹配规则并不完全依赖数据。它们至少部分地依靠顾客的有意识的偏好(不管这些偏好是否适合用来预测适应性)。
eHarmony允许用户对未来伴侣的种族有区别对待。尽管这种区别对待只是基于顾客的需求,但是交友服务提供商根据种族来区别对待的做法也许违背了独立战争中规定的签订合同时禁止种族歧视的法律。要慎重点儿。
eHarmony拒绝给同性恋配对,这使它陷入了更大的麻烦。网站创立者的妻子兼高级副总裁玛丽恩·沃伦(Marylyn Warren)曾经说过,“eHarmony是面向所有人的。我们不以任何方式进行任何歧视。”显然这话是假的。即使两个男子都回答了网站的436个问题且电脑程序算出来他们俩最适合,eHarmony也不会把他们两个配在一起。这是一个悲哀的讽刺。eHarmony跟它的竞争对手的不同之处就在于强调相似性,但是当遇到性别问题时,它却坚持认为异性相吸。eHarmony是十大交友网站中唯一不提供同性匹配服务的网站。
为什么eHarmony非要如此独具一格呢?即使在同性结婚是合法的马萨诸塞州,它拒绝为同性恋联姻的做法,也似乎与该公司所宣称的“帮助人们找到持久、满意的婚姻伴侣”的目标相悖。沃伦自称是一名“热情的基督教徒”,多年来他密切参与詹姆斯·杜布森(James Dobson)的爱家协会(Focuson the Family)活动。不管统计数据结果如何,eHarmony只愿意协助达成合法的婚姻。由于计算程序是不公开的,eHarmony实际上有可能在他们的计算程序上加上某种偏爱某些顾客的规范标准。如果有餐馆不允许西班牙顾客坐在“白人专座”的话,那它麻烦就大了。
不过,隐含在所有这些新兴交友网站背后的重要信息——也是他们都认可的看法——是,数据决策不一定受限于人们有意识的偏好。恰好相反,有可能通过研究决策的结果,从数据中找出引致成功的因素。本章讲的就是简单的回归方程如何通过改善预测来改变人们决策的。通过筛选加总数据,回归技术可以揭示出普通人甚至连专家也观察不到的隐含的因果关系。有时专家们会认为某个因素对于某个结果来说是重要的,但回归技术实际上会排除掉。
加思·桑德姆(Garth Sundem)在著作《逻辑怪谈》(Geek togik)中,纯粹为了好玩,回归了一个用于预测名人婚姻持久期的方程式。(结果发现使用Google搜索次数越多,婚姻持续时间越短——尤其是当最常搜索的内容里包含有色情暗示的照片时!)eHarmony,Perfectmatch,以及True.com做的也是同样的事情,只不过它们是营利性的。这些服务都在进行一种全新的数据分析竞争。这场博弈已经开始了,而且是一场特殊博弈。哈拉斯能察觉到你的痛苦
类似地,卢氏装饰材料零售商(Lowe’s)和电路程电器连锁店(CircuitCity)等公司内部也在根据数据进行匹配,他们利用数据分析来挑选职位应聘者。雇主希望预测哪些应聘者能够更好地投入到工作中。与传统推测应聘者智商的能力倾向测试不同,现代测试更类似于eHarmony的问卷,目的在于估计出应聘人员的三个潜在的性格特征:道德心、亲和力以及外向性。数据挖掘的结果发现这三个性格特征能比传统的能力测试更好地预测工人的生产率(尤其是营业额)。巴巴拉·埃瑞里奇(Barbara Ehrenreich)接受明尼阿波利斯的一个沃尔玛超市面试测试时,被问到命题“不墨守陈规的人在每个公司都有生存空间”。巴巴拉同意该命题的说法,但却吃惊地得知自己的答案是错的。不过这是回归方程的结果:认为沃尔玛适合不墨守陈规的人是不适合呆在沃尔玛的,他们往往跳槽率更高。而如果辩解称沃尔玛及其他雇主应该把那些令人头脑麻木的工作变得有趣些,那就是另外一码事了。但是当今世界里,令人头脑麻木的工作并不违法,因此我很难看出这些统计上有效的测试有什么不好,因为它们可以帮助工人找到最合适的工作岗位。
挖掘不明显的预测关系并不仅仅关系到能否雇佣到好员工。它还能够帮助企业降低成本,尤其是库存积压的成本。如果企业能够更准确地预测需求量,那么就能更好地判断出什么时候会用完什么。当然,企业还应该知道另一个同等重要的事情:什么时候不会用完什么。数据分析可以帮助企业即时采购,从而不必承担积压大量库存的成本。沃尔玛和Target等超市努力尽可能地保证零库存。“摆在货架上的就是所有的产品,”数据分析公司泰克劳斯软件公司(Teradata)的总经理斯科特·葛瑙(Scott Gnau)说。“如果我买了6罐黄玉米后货架上只剩3罐了,马上就会有人知道并确保有小车到我这边来再放上一些。几乎当你把商品放在自己购物车上的那一瞬间。
……