首页 > 大数据 > 正文

政治界的大数据时代:奥巴马竞选背后的数据挖掘

2012-11-12 09:13:54  来源:新浪科技

摘要:奥巴马竞选阵营的数据挖掘团队为竞选活动搜集、存储和分析了大量数据,给予竞选团队的高级助手,帮助其成功“策划”多场活动,为奥巴马竞选筹集到10亿美元资金。
关键词: 数据挖掘 数据仓库

    美国《时代》杂志周四撰文,揭秘数据挖掘在奥马巴竞选中起到的重要作用。奥巴马竞选阵营的数据挖掘团队为竞选活动搜集、存储和分析了大量数据,给予竞选团队的高级助手,帮助其成功“策划”多场活动,为奥巴马竞选筹集到10亿美元资金。


    今年春天晚些时候,奥巴马竞选阵营的数据挖掘团队注意到,影星乔治·克鲁尼(George Clooney)对美国西海岸40岁至49岁的女性具有非常大的吸引力。她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰包的一个群体。


    在过去两年内,他们为奥巴马的连任竞选活动搜集、存储和分析了大量数据,同以往处理这些数据的做法一样,奥巴马在竞选团队的高级助手决定再次听取数据挖掘团队的意见。他们希望在东海岸找到一位对这个女性群体具有相同号召力的名人,从而复制“克鲁尼效应”的成功经验。克鲁尼在自家豪宅举办的筹款宴会上,为奥巴马筹集到数百万美元的竞选资金。


    奥巴马竞选团队的一位高级顾问说:“我们面临无数的选择,但最终定了莎拉·杰西卡·帕克(Sarah Jessica Parker,美国知名影星)。”于是,一个与奥巴马共进晚餐的“竞争”便诞生了,那就是争夺在杰西卡·帕克的纽约West Village豪宅美餐的机会。


    对于普通民众而言,他们根本不知道这次活动的想法源于奥巴马数字挖掘团队对帕克粉丝研究的重大发现:这些粉丝喜欢竞赛、小型宴会和名人。但从总统大选一开始,奥巴马竞选团队主管吉姆·梅斯纳(Jim Messina)便希望打造一个以数据驱动、完全不同于以前的竞选活动:政治是目标,但天分可能不再是实现政治抱负的手段。


    梅斯纳在成为竞选主管后说:“我们会在此次竞选活动中测量每一件事情。”他打造了一个规模五倍于2008年竞选时的数据分析部门,让拉伊德·加尼(Rayid Ghani)出任芝加哥竞选团队总部的“首席科学家”,此人在数据挖掘领域的经验非常丰富。


    这个由几十人组成的数据挖掘团队的具体工作被严格保密。奥巴马竞选团队发言人本拉·波尔特(Ben LaBolt)在问到数据挖掘团队的职责时说:“他们是我们的核代码。”


    在办公室里,该团队会给各个数据挖掘实验进行神秘代码命名,比如“独角鲸”、“追梦人”等。他们在远离竞选团队剩余工作人员的地方办公。这些“科学家”为身在白宫罗斯福厅的总统及其高级助手制作日常简报,而有关这个团队的更多细节是不会对外透露的,因为奥巴马竞选阵营牢牢固守着他们自认为比罗姆尼竞选阵营有优势的地方:即数据。


    11月4日,奥巴马竞选团队多位高级顾问答应以匿名形式向《时代》杂志谈一谈他们的工作。他们的确披露了一些鲜为人知的故事,例如,如何通过分析海量数据帮助奥巴马筹集到10亿美元资金,如何改变了电视广告投放策略,以及如何制作出摇摆州选民的详细模型等等。


    如何筹资10亿美元


    在2008年的竞选中,奥巴马团队对技术的应用赢得了不少赞扬,但其成功的背后却掩盖了一个巨大的弱点:过多的数据库。当时,通过奥巴马网站打 电话的志愿者使用的名单与在竞选办公室打电话人所用的名单是不一样的,而动员投票名单也从不会与资金筹集名单重合。这就好像911之前的FBI(美国联邦 调查局)和CIA(中央情报局):这两大机构从不会共享数据。其中一位官员说:“我们很早就意识到,民主党策略的问题是数据库太多,彼此之间从不沟通。” 因此,在前18个月,竞选团队就创建了一个单一的庞大系统,可以将来自民意调查者、捐资者、现场工作人员、消费者数据库、社交媒体,以及“摇摆州”主要的 民主党投票人的信息整合在一起。


    这个整合后的巨大数据库不仅能告诉竞选团队如何发现选民并获得他们的注意,还允许数据处理团队进行一些测试,从而来预测哪些类型的人有可能被某 种特定的事情所说服。例如,在竞选办公室里的电话名单上,不仅仅列出了姓名和电话号码,还按照他们被说服的可能性和重要性对姓名进行排序。在排序的决定性 因素中,约75%是基本信息,如年龄、姓别、种族、邻居和投票记录等。一位高级顾问称:“我们可以预测哪些人会通过网络捐款,哪些人会汇款。我们还可以为 志愿者建模,建模可以对让我们的工作效率更高。”[page]
    例如,竞选团队早期就发现,在个人注意力最容易被重新吸引回来的人群中,在2008年大选中曾退订了竞选电子邮件的那部分人是首要目标。为此, 战略家们为特定人群制订了相应的测试。例如,测试一个本地志愿者打来的电话的效果如何优于一个从非摇摆州(如加州)志愿者打来的电话。正如竞选总指挥吉 姆·梅西纳(Jim Messina)所说,在整个竞选活中,没有数字做支撑的假设很少存在。


    这个庞大的数据库还能让竞选团队筹集到比他们预期的更多的资金。截至8月份,奥巴马团队里的每个人都认为他们达不到10亿美金的筹集目标。其中一位高级官员称:“我们曾经反对过,因为连9亿美元的目标都不能接受。”但另一位官员称:“结果到了夏天,互联网效应爆发了。”


    在通过网络筹集到的资金中,很大一部分是通过电子邮件营销而来。因此,数据收集与分析至关重要。发送给支持者的邮件中很多只是测试,它们采用了 不同的主题、发送人与内容。到了春天,米歇尔·奥巴马(Michelle Obama)的电子邮件表现得最好。有时,梅西纳表现得比副总统拜登 (Joe Biden)要好。很多时候,募集资金最多的人能比欠佳者多出10倍。


    芝加哥总部还发现,签署了“快速捐献”计划的人所捐献的资金是其他捐献者的4倍。因此,该计划后来被大力推广,并进行激励。到10月底,该计划已经成为竞选团队向支持者传递信息的重要部分,首次捐献者可以得到一个免费的保险杆贴纸。


    结果的预测


    这种协助筹款的技术随后又被用于预测投票结果。奥巴马的数据分析团队建立了4条投票数据流,以了解关键州选民的详细情况。一名官员表示,过去1个月中,仅在俄亥俄州,数据分析团队就获得了约2.9万人的投票倾向数据。这是一个包含1%选民的巨大样本,使他们可以准确了解每一类人群和每一个地区选民在任何时刻的态度。这带来了巨大的优势。当第一次电视辩论结束后,选民的投票倾向发生改变。而数据分析团队可以立即知道什么样的选民改变了态度,什么样的选民仍坚持原来的投票选择。


    在10月份选情扑朔迷离的情况下,这一数据库确保了奥巴马竞选活动的稳定。通过数据,奥巴马竞选团队发现,大部分摇摆不定的俄亥俄州选民原本并非奥巴马的拥趸,而是罗姆尼的支持者。在9月份罗姆尼出现失误之后,这些选民的态度出现动摇。一名官员表示:“我们比其他人更冷静。”每天晚间,投票倾向和选民数据被反复处理,以考虑多种不同情况。另一名高级官员则表示:“我们每晚模拟6.6万次大选,并于每天上午获得结果,了解在这些州胜出的可能性,从而针对性地分配资源。”


    奥巴马竞选团队还首次利用Facebook进行大规模的投票动员,这模仿了现场组织者挨家挨户敲门的方式。在竞选活动的最后几周,下载某一款应用的用户收到了多条消息,其中包含他们在“摇摆州”好友的照片。他们被告知,可以通过点击按钮,呼吁这些目标选民采取行动,例如进行投票注册、更早地投票,以及参与到投票中。奥巴马竞选团队发现,大约1/5收到Facebook请求的选民做出了响应,这在很大程度上是因为请求来自他们熟悉的人。


    数据还帮助奥巴马竞选团队进行广告购买决策。在选择广告投放渠道时,他们没有依靠外部媒体顾问,而是基于内部数据。一名官员表示:“我们可以通过复杂的建模来找到目标选民。例如,如果迈阿密戴德郡的35岁以下女性是我们的目标,那么这里有如何覆盖她们的方式。”因此,奥巴马竞选团队在一些非传统节目中购买了广告,例如4月23日的电视剧《混乱之子》、《行尸走肉》和《23号公寓的坏女孩》。以往,竞选广告通常出现在本地新闻节目中。那么,在广告投放方面,奥巴马竞选团队2012年的表现比2008年好多少?芝加哥有这样的数据:“在电视平台上,我们的购买效率提升了14%,确保与能够被说服的选民保持交流。”


    根据数据分析,奥巴马竞选团队在大选的最后阶段也采取了不同以往的方式。今年8月,奥巴马决定在社交新闻网站Reddit上回答问题,当时多名总统高级助理并不清楚此事。一名官员表示:“我们为何将奥巴马放在Reddit上?因为我们发现很大一部分目标选民在Reddit上。”


    这种由数据驱动的决策方式在奥巴马成功连任的过程中发挥了重要作用,也将成为外界研究2012年美国大选的一个重要元素。这再次表明,依赖预感和经验的华盛顿特区竞选专家地位正在迅速下降,被善于利用大批量数据的数量分析专家和计算机程序员所取代。正如一名官员所说,“人们坐在密室抽着雪茄,简单地说‘我们总是会买《60分钟》广告”的时代已经结束。在政治界,大数据时代已经到来。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangyexi

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。