首页 > CIO > 正文

数据删除:您数据的最好防御策略

2019-07-12 14:28:00  来源:企业网D1Net

摘要:如果说数据是一种新的石油,那么安全处理对于避免类似于数字版的有毒泄漏来说是至关重要的。而这一切都可以从一个强大的数据删除策略开始。
关键词: 数据删除
  如果说数据是一种新的石油,那么安全处理对于避免类似于数字版的有毒泄漏来说是至关重要的。而这一切都可以从一个强大的数据删除策略开始。
 
  在曝光了超过65万名顾客的个人信息之后,连锁酒吧Wetherspoon决定删除它所存储的几乎所有客户的信息,以降低风险。毕竟,你所没有的数据是不需要进行合规性检查的,也不需要在GDPR主题访问请求中进行披露或者是在数据泄露后进行道歉。
 
  事实上,数据的毒性是如此之大,以至于加州律师协会互联网与隐私法委员会主席Joshua de Larios-Heiman建议将其视为铀而非石油。“废铀棒该怎么处理?”当它们变成了有毒资产的时候,要想摆脱它们真的很难。如果你处理不当,人们就会起诉你,”他说。
 
  如果你已经开始考虑这方面的风险,你需要知道你的组织存储了哪些数据,以及如果没有这些数据,你的情况是否会更好?
 
  不要收集你不需要的数据
 
  有很多人为生产的数据,你可能无法从中获得任何价值,而保留这些数据还会增加你的风险。微软Azure和企业安全副总裁Julia White表示:“如果人们还没有发现他们不想要的东西,并且出于GDPR的原因而清除这些东西,我会感到震惊。”
 
  ACLU高级技术研究员Jon Callas表示,不要被存储成本的下降所迷惑而认为保存数据是廉价的。
 
  “保存数据的成本比你想象的要高,收益也更低。虽然它可能是有用的,并有助于分析。但它也很有可能是有害的--比如会因违约而导致损失惨重,或者在诉讼中被传唤,”他表示。“随着时间的推移,它有用的几率会下降,但危害值却保持不变。如果你丢失了某人五年前居住的地址,欧盟不会在意你保存的是否是你不想要的不准确数据,它也不会对你的生意有帮助;但丢失它的危害却依然不变。在某一点上,这些线将会交叉。而你应该在数据交叉之前把它们扔掉。”
 
  Callas指出,传票或主题访问请求的成本远远高于存储媒体的成本。“某些事情发生的可能性,以及因为你拥有一些数据而导致你被拖入其他事情的可能性,都高于这些数据的价值。”当你说,‘我只会保存我知道有理由保存的数据’时,你必须采取的程序也会把你置于一个截然不同的境地。”
 
  高风险的数据
 
  Veritas的高级主管Jasmit Sagoo告诉记者,数据中心中所存储的大约三分之一的数据可能是冗余的、过时的或琐碎的。
 
  “这些数据几乎没有商业价值,应该主动删除,尤其是考虑到数据的暴露程度和风险水平时,”他说。“例如,前雇员和前客户的数据风险是很高的。它可能包含个人身份信息,因此只有出于法律原因时才值得保存这些数据。财务记录尤其容易受到黑客攻击,这是需要谨慎管理的敏感数据的另一个例子。”
 
  如何找到那些不需要且应该删除的数据?“作为一个起点,企业需要能够识别数据中的特定细节,准确定位风险区域及其潜在价值,”Sagoo说。“了解存储的内容,访问者以及访问频率也很重要。只有这样才能了解存在哪些数据,并开始根据定制的数据保留策略对其进行分类。对这些文件的删除应该至少每季度执行一次。”
 
  ISG的首席分析师Blair Hanley Frank表示,有些数据你永远不应该储存起来并用于分析。“任何在2019年仍然以纯文本形式存储用户密码的机构都是在自找麻烦。”
 
  删除与不再使用的生产系统相关的数据。例如,Weatherspoon泄露的用户数据便是来自一个老网站,因此它就不应该继续存在。Adobe的密码数据泄露也是来自一个较老的非生产系统。Frank指出:“企业不能仅仅因为它们是遗留IT基础设施的一部分,就忽视过时或很少使用的系统。”
 
  你需要特别注意跟踪已提取的客户数据库副本(通常为XLS或CSV文件),尤其是将其交付给开发人员作为示例数据使用的时候。
 
  你应该在这些地方使用屏蔽数据。通过屏蔽数据,你可以保留数据的相关统计分布,以便在没有暴露风险的情况下用于测试。
 
  Delphix的董事Benjamin Ross指出:“尽管非生产开发和测试环境是至关重要的,但它们也极大地增加了风险程度,而且往往是GDPR合规性的软肋。”
 
  不要标识信息;及时删除
 
  只应该出于当前的业务原因而保存数据,而不是模糊地希望机器学习系统能从中发现一些有用的东西。Callas指出,就连人工智能初创企业的投资者Andreessen Horowitz也对收集大量数据的价值提出了质疑。“有一种神秘的信念认为,拥有这种‘数据护城河’将具有可持续的竞争优势,而实际上作为投资者,他们早就已经从历史的长河中认识到,这不是真的,”Callas说。“你可能认为这件事会让你的企业变得更好,但事实并非如此。”
 
  微软研究院的高级研究员Mary L. Gray表示,当你在考虑将其用于训练机器学习模型的数据集中时,尤其不能用苹果来识别个人信息(PII)。“现在我们有了GDPR,对于PII公司可以收集什么,允许谁可以访问它有非常严格的限制,必须有审计来说明PII将在哪里、何时以及如何被重新调整用途并出售给收集它的公司之外的某个实体,以及公司可以保存多久,“她说。
 
  并且“去标识”数据也并不能保证安全,因为只要有了足够多的数据,你会发现你仍然可以识别出个人--即使你不想这么做。她警告说:“认为‘去标识’收集的数据都是无法识别的,这是无稽之谈。
 
  以数据为中心的科技行业还没有想出如何放弃数据,更不用说确定哪些数据是可以完全停止收集的了。”该行业最终同意了使用散列PII:相当于在它上面运行了一个黑色标记,”她表示。“但他们依然可以收集我们所做的一切。如果你可以预测自己在做什么和在哪里做什么,那么你仍然是在创造一个数字足迹,这与你在图片中使用PII时的样子没有太大不同。”
 
  尽管删除明显的标识(如姓名和出生日期)很简单,但“未标识”的数据仍然可以包含PII,比如用户会将全名添加到未标记名称的字段,诸如此类的情况,她补充说。
 
  “这就是为什么数据泄露很难被堵住的原因,”Gray解释说。“你可以获取一组电子邮件地址、一组地理位置元数据以及一组搜索查询的数据集,并对这些数据进行组合,以便在搜索字符串上生成名称,生日和重新识别人员的位置并与特定电子邮件地址相关联。”
 
  Frank警告说,这些潜在的有害数据甚至可能减慢你的数据策略。“拥有一大堆本质上无用的信息,会增加人们花在构建和测试模型上的时间,从而使分析有用数据变得更加困难。要解决这个问题,企业应该积极判断这些信息所带来的价值,并测试这些数据是否真的具有预测价值,”他表示。
 
  微软云计算和人工智能集团执行副总裁Scott Guthrie建议,尽量减少你存储的数据,并尽可能多地使用匿名。“如果你在网络搜索中使用了遥测技术,那么你是否存储了进行网络搜索的人的确切住所?”或者你是否在街道或其他单位上对它进行了匿名化,是否无论你的数据是否被泄露,你都不会侵犯隐私?”
 
  如果你没有数据,没有人可以不恰当地使用它。
 
  “不要问,‘我为什么要扔掉这些数据?而要问:‘我为什么要留着它?’”Callas说。“除非你知道自己为什么想要保存数据,否则你应该扔掉它,因为我们生活在一个需要收集更多数据的世界里--数据越新鲜则越便宜。”它可能是你在网站上的一个选择,一个填写调查问卷的奖励,或者一个测试版软件程序的遥测。(你应该立即删除任何你不能证明你确实需要的数据。)
 
  扔掉PII也可以得到统计数据,“不管怎样,这就是你想要的,”他指出。
 
  “如果一个交通机构正在运行的一项调查,因为他们想要知道人们在做什么,为你真正想要的准确数据付费是有意义的,但你需要通过一些数据研磨机把原始数据处理掉,然后在一年内处理掉这些磨碎的数据,”Callas说。“如果你只是想弄清楚要修复哪条道路,你就不需要关于那条路的数据--或者特别是--如果数据显示你应该修别的路的话。而关于你刚刚修复的道路的每一项数据都是有害的:没有好处,只有坏处。”
 
  对数据的保存时间要有一个明确的策略,比如日志文件的保存时间不要超过一周(调试时除外)。callas建议建立一些“强制功能”,以确保做出这些决定。“如果我说,‘如果你不告诉我为什么要保存它,十年后我就会删除你放在我数据仓库里的所有东西。’那么我就会让你思考为什么要把东西放进数据仓库了。”

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:yangjl

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。