随着大数据分布式计算和分布式存储等新技术的广泛应用,数据分析挖掘、共享交易等新应用场景的出现,导致数据在创造价值、提高政府治理能力的同时,面临数据安全和个人隐私泄露等问题。近年来,数据泄露事件频繁发生,从雅虎公司因黑客入侵导致共30亿用户账号信息被窃取,到京东因内部恶意员工作案致使共50亿条公民信息被泄露,泄露的数据越来越多,造成的影响越来越大,数据安全形势日益严峻。
一、数据泄露事件发生的原因
大数据时代,数据已经资产化和业务化,成为国家基础战略资源。谁拥有数据,谁就掌握主动权,谁能够利用数据,谁就掌握决策权,实现数据驱动决策、数据驱动发展。因此,数据不可避免成为不法分子攻击窃取的重要对象。同时,由于目前的数据泄露防护技术(DLP)主要是通过关键字、正则表达式和数据指纹等对存储、传输和使用过程中的数据进行内容匹配发现违规数据泄露,达到数据泄露防护的目的。但是,该技术主要是防护内部员工无意泄密,不能防护内部员工有意泄密和外部黑客攻击窃密等。而且,由于数据分析挖掘、交换共享等新的应用场景出现,数据在动态使用过程中新增数据泄露风险。
1. 内部员工有意泄露数据
内部员工因对组织不满或者在利益驱动下,利用工作便利条件,与外部商业竞争对手或数据需求方相互勾结,在日常对业务系统的操作运维过程中越权查看、违规下载数据,对数据进行加密等处理后,绕过基于内容匹配的数据泄露防护技术的检测,导致数据泄露。据金雅拓(Gemalto)发布的《2017年上半年数据泄露水平指数报告》统计,由内部员工造成的数据泄露事件共166起,虽然只占全部事件的18%,却造成了超过16亿条数据泄露,占上半年泄露数据总量的86%。由此可见,内部员工是数据泄露的主要原因,造成的危害更大。
2. 外部黑客网络攻击窃取数据
外部黑客可分为国家支持型黑客、商业间谍、有组织犯罪团伙等,利用基础设施层、网络层和应用层等在技术实现上存在的安全漏洞或者安全配置缺陷对系统进行远程入侵,未授权访问、查看和下载数据。通过加密等技术手段对数据内容进行变形处理,规避基于内容匹配的数据泄露防护技术的检测,达到窃取数据的目的。美国威瑞森电信公司(Verizon)对65个不同组织最近10年泄露的数据进行综合分析指出,外部黑客仍然是数据泄露的罪魁祸首,占数据泄露事件的75%。
3. 数据处理交换等新应用场景泄露数据
拟定国家标准“信息安全技术 数据安全能力成熟度模型”可知,大数据的数据生命周期包括数据采集、传输、存储、处理、交换和销毁等六个阶段。数据处理和数据交换是大数据特有的应用场景,在数据处理阶段,通过对收集的多源异构数据进行分析挖掘,形成新的、价值更高的数据产品;在数据交换阶段,通过把收集的原始数据、分析结果数据等跟组织内部进行共享或外部组织进行交易,使数据由静态信息载体变成动态流转的生产资料,在流动过程中实现数据价值化。但是,在数据处理和数据交换等新的应用场景中,由于权限控制和数据脱敏等安全防护机制不健全,导致用户隐私、企业和组织的机密数据违规泄露。
二、数据泄露防护面临的问题
在数据全生命周期各阶段中,核心是数据通过分析挖掘创造价值和共享交易实现价值。但是,数据在使用和流动过程中,不再局限于组织内部,而是从一个网络域的数据控制者流向其他网络域的数据控制者。新的特点亦存在新的数据泄露问题。
1.大数据基础设施不能安全可控
目前,建设大数据系统主要有以下三种方式:第一,基于开源产品。采用hadoop、spark、MongoDB等开源软件搭建大数据平台;第二,开源产品二次封装。国内大数据厂商基于hadoop、spark、MongoDB等开源软件进行二次开发和封装,或者通过跟国外大数据厂商合作,基于其提供的API接口进行二次开发和封装,形成新的产品;第三,采购国外产品和服务。采购国外大数据厂商Cloudera、Amazon、EMC、Google等提供的大数据产品搭建大数据平台,并由国外厂商提供日常运营等服务。以上三种模式的核心还是离不开开源产品和国外产品,关键技术不能安全可控,大数据基础设施面临安全风险。根据国家漏洞库(CNNVD)统计数据显示,仅2017年,Apache、Cloudera等产商提供的hadoop存在权限控制、输入验证、目录遍历、信息泄露等共8个漏洞,spark存在跨站脚本等3个漏洞。仅2017年1月,由于MongoDB数据库因默认配置存在缺陷而发生数据泄露事件,导致全球3万多个数据库受到影响,600多TB数据发生泄露。由此可见,基础设施不能安全可控,数据安全无法保障。
2.分析挖掘过程中用户隐私泄露
大数据价值的释放在于分析挖掘,通过分析挖掘能够得到更有价值的数据。但是,在分析挖掘过程中也存在用户隐私泄露问题。第一,过度披露用户隐私信息。通过知识挖掘、机器学习、人工智能等技术,将过去分离的信息进行关联、碰撞和整合,可以重新刻画用户的兴趣爱好、政治倾向和人格特征等,使原始数据中被隐藏的信息再次显现出来,甚至分析挖掘后得到的信息远远大于原始数据所拥有的信息;第二,越权访问用户隐私数据。数据分析员利用职务之便,在分析挖掘过程中,由于权限分配过大或者权限控制存在安全缺陷,能够查看、下载与业务工作无关的、权限范围之外的数据。如南京某机关单位主任科员,利用职务之便,超越职权下载共计82万条公民个人信息,造成大量公民个人隐私信息泄露;第三,违规分析挖掘隐私数据。数据分析人员在开展业务的过程中,没有严格按照业务目标和业务要求进行数据分析和挖掘,基于授权的数据进行违规操作,开展与业务目标不相关的分析挖掘,导致用户隐私泄露。如某电子商务网站要求基于用户的购买历史数据和查看商品记录预测用户感兴趣的产品,业务目标是对用户可能购买的产品进行自动推荐。但是,数据分析员可以基于这些数据对用户的职业、兴趣爱好等进行分析,导致用户隐私数据泄露。
3.开放共享过程中数据违规泄露
随着物联网等信息化技术的快速发展和应用,各行业和领域积累了大量的数据,数据开放共享是数据价值化的基础和前提。数据按照重要程度分为敏感数据和一般数据等,按照开放共享条件可分为无条件开放共享、有条件开放共享、不开放共享等。通过数据治理制定严格的开放共享策略,在数据开放共享过程中,根据相应的策略控制待开放共享的数据和目标对象。但是,由于海量数据治理困难,以及对分析过程中新产生的数据很难及时制定开放共享策略,使开放共享过程中存在不合规的开放和共享,导致数据泄露。同时,在有条件开放共享的情况,数据只能共享给特定对象,该对象不能再把共享的数据开放或者共享给第三方。但是,由于数据已经脱离所有者的控制,数据追踪溯源技术并不成熟,无法跟踪数据的最终去向和使用情况,使数据处于失控状态。
4.交易流通过程中数据安全不可控
交易流通是数据价值体现的基本途径,更是盘活数据、用好数据的关键环节。目前,典型的数据交易模式是代理商模式,由数据提供者、数据代理商(中介)和数据消费者等三个角色组成。数据提供者拥有数据资源,把数据卖给数据代理商。数据代理商既可以把交易的原始数据卖给数据消费者,又可以把基于原始数据进行挖掘分析得到价值更高的分析结果数据卖给数据消费者。在数据交易流通过程中,数据已经脱离数据拥有者的掌控,数据代理商取代数据拥有者,成为数据的掌控者。因此,代理商的数据安全防护能力决定数据在分析挖掘、数据运维等过程中的安全性。怎样保证数据交易流通过程中不因数据代理商等第三方的过失而造成数据泄露,成为一大挑战。
5.数据产品使用过程中易被复制窃取
数据是未来社会的新“石油”,数据价值的实现需对“数据石油”进行挖掘和分析,形成类似工业社会汽油的报告、模型、算法等数据产品,数据价值才能体现,数据红利才能释放。目前,信息系统整合共享等一系列举措的实施和推进,海量数据资源进一步共享和汇聚,为数据产品的开发打好基础,数据的下一站即是数据应用——数据产品。但是,由于数据产品作为商品在交易过程中存在再次转手交易的情况,以及数据产品具有易复制、修改等特点,怎样保障数据产品在使用、流通过程中的知识产权,防止数据产品被非法复制、非法传播和非法篡改等数据泄露行为的发生,成为又一大挑战。
三、数据泄露防护对策和建议
针对数据泄露防护存在的安全问题,为切实保障数据安全,应正确理解认识大数据泄露防护的本质,研发大数据关键技术,建设一套以数据安全为核心的动态防护体系,重点保障数据在使用和流动过程中的安全。
1.正确理解认识大数据泄露防护
第一,把握数据的动态特征。应把握大数据环境中数据安全的本质和特点,从静态数据防泄露,过渡到分析挖掘和交易共享等动态使用和数据流动过程中的数据泄露防护。第二,由被动安全防护转向主动风险控制。应以数据为核心,以用户对数据的操作、访问行为为分析对象,通过对数据应用过程中的风险分析,挖掘数据泄露行为,主动识别数据泄露风险。第三,突出数据泄露防护的全面性。应根据数据泄露原因和数据泄露防护面临的问题,建立涵盖无意数据泄露、有意数据泄露、黑客攻击窃取和新的应用场景导致数据泄露等全方位的安全防护机制。
2.鼓励研发大数据关键技术
大数据核心技术不能安全可控是我国现在乃至将来一段时间面临的主要安全问题。为实现“自主创新、持续发展”的目标,应尽快建立一套完善的制度法规保护大数据安全。第一,科研和专项经费支持。通过科研和专项经费等推动科研机构和产业界开展大数据关键技术研究,提高自主创新能力;第二,依托大数据国家工程实验室。通过发改委批准的11个大数据国家工程实验室,提升大数据计算技术、分析技术等关键技术研发能力和在医疗、交通、教育、安全等领域的应用推广;第三,政府扶持。在能够满足业务需求的情况下,政府行业的用户优先采用本国研发和设计的产品,支持本国产品的研发,为大数据关键技术的发展提供舒适的环境。
3.建设以数据为核心的泄露防护体系
针对大数据泄露防护面临的问题,构建以数据安全为核心的动态安全防控体系,通过数据治理、安全机制、风险识别和审计溯源等重点识别和控制数据访问、应用和流转等动态过程中的安全风险。第一,数据治理。通过大数据治理实现数据分类分级、数据溯源,能够从全域的角度“看得见、看得清”所有的数据,包括数据存储、使用流转情况和对应的数据安全策略。掌握数据流动情况,包括表与表之间的流动、系统之间的流动、部门之间的流动、单位之间的流动等等;第二,部署安全防护措施。在大数据基础设施、数据挖掘分析和共享交易等方面采取安全防护措施,保障数据安全;第三,主动识别和控制风险。通过收集基础设施、用户操作、数据流转等方面的日志数据,对数据的访问操作和数据流转为核心,识别用户对数据的异常操作风险和数据的异常流动风险;第四,安全审计与溯源分析。通过细粒度的数据行为审计与溯源能力建设,形成事后可审计、可溯源、可追责的威慑体系。
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:kongwen
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。