首页 > 大数据 > 正文

大数据:高端安全检测的必由之路

2013-05-26 14:15:00  来源:互联网

摘要:信息安全的检测中有一部分是高端安全检测,高端安全检测涉及对检测模式的重新认识,这就涉及到大数据。大数据通常分为两类:一类是天然大数据问题,如基因计算、矿物勘测......
关键词: 大数据 信息安全

    信息安全的检测中有一部分是高端安全检测,高端安全检测涉及对检测模式的重新认识,这就涉及到大数据


    探寻高端检测


    从检测方面来看,有三个境界:


    第一种是“检测足”,属于简单检测,比如:有阈值限制,超过了什么值,系统就会告警;再比如,包过滤规则;这些检测都相对简单。


    第二种是“检测腰”,基于单一特征的检测,比如:漏洞特征、病毒特征、攻击特征、URL黑白名单等等特征库检测。单一特征强调的是可表达、可处理和可操作性。所谓特征(或者称某种模型),我们使用它的计算复杂度要大大低于提炼获取它的复杂度。这里比喻成检测腰,就是因为它有一个收紧计算复杂度的作用。传统安全公司技术能力的竞争,主要就是看你能获取和积累多少特征。


    第三种是“检测颈”,属于高端检测,包括APT检测或者宏观态势感知等。另外,检测腰中部分特征的提炼和分析其实也属于高端检测的范畴。


    安全的三种境界


    谈到高端安全检测问题,可以简单地分为两类,一类是宏观安全检测,典型问题就是网络宏观态势感知;一类是微观安全问题,典型问题就是APT(Advanced Persistent Threat,高级持续性威胁)攻击发现。


    关于宏观态势感知,如城域网的网络事件态势感知,目前方法还相对较少。关于APT攻击,目前常见的提出的APT应对方法,很多是在APT中的A(高级)上下功夫。也就是如何深入分析隐蔽性很深的恶意代码和行为。确实,当我们拿到一段值得怀疑的代码和数据集,对其进行深入分析是可行的;但是难的就是,从茫茫数据中,我怎么能够确定哪段数据值得怀疑并进行深入的分析呢?


    试解高端检测中的大数据问题


    上面提到的这两种高端信息安全检测问题,最终都导向了大数据方法。


    面对宏观态势感知和预测问题,归结起来就是在海量的数据中发现宏观的波动趋势。哪怕是细微的波动,也是宏观问题。宏观态势感知和预测,就是要发现这些波动,并且判断出来哪些波动会演变成灾难性的网络风暴,以便及时加以遏制。要发现和描述这样的态势,仅仅靠局部数据计算得出的简单统计指标是非常不够的,即使是地址熵这样的精妙指标也是不够的。在这方面的研究中,可以类比的其他学科就是天气预报、股票期货金融品分析预测等等。这种分析活动,自然而然就是大数据


    而面对APT攻击发现问题,最终也是大数据问题。


    APT的A高级,不仅仅是某些具体攻击手法隐藏很深,还包括APT攻击在空间上的不确定性;而APT的P所代表的时间上的长期持续性或者断续性,更是APT的检测难点。


    攻击的空间拓展变化包括持续性、蔓延性、传播性、渗透性等等,这一变化带来了安全模式的变化。求检对象隐藏在一个检测环境里,你采集过来进行检测计算的就是一个“被检测域”。你并不确切地知道你所要找的求检对象在哪里;于是检测者就希望“被检测域”尽可能地多覆盖求检对象,也就是要先扩大被检测域。被检测域变大了数据变多了,自然而然就变成了大数据问题。APT检测的出路可能就在大数据上。


[page]    APT有很大的空间不确定性。APT攻击走哪条路径不得而知,这就是信息不对称。防御者不知道攻击者从哪条路径来进行攻击,这是非常头疼的事情。但路是防御者的路,攻击者一定会通过防御者的路并靠近防御者,这就是防御者的优势。我们讲从空间角度来扩展被检测域,只要扩展更多的有效检测点,总能获得更高概率来截获攻击路径。更多的检测点、更多样的检测点、更多的数据,有利于解决APT问题。


    在信息安全检测的采集上,可以考虑给被检测域数据提前打标签,可以称之为轻干扰检测(轻破坏检测)。这可以使其具有某种全息性。这种干扰的不同处理,都是分析目的和过程对于前端采集技术链条施加影响。当然,这样很可能会进一步增加检测过程的复杂程度,也可能让检索变得更快捷。


    新安全检测思路——四阶段检测


    原先我们的安全检测都是三步检测——采集、分析、关联。而有了上面阐述的“大”思路,就变成了一个四步检测——扩大、浓缩、精确、场景。也就是将原先三步中的“采集”,变成了“扩大”——扩大被检测域以便更可能覆盖求检对象,以及“浓缩”——将海量被检测域数据中的有用数据浓缩下来。


    浓缩、筛选、抽样等等可以理解为分析过程中的物理处理过程,所谓物理过程就是不改变被检测域数据的原有性质和形态,就如同炼铁过程中的选矿筛矿。比如渲染+半衰的处理算法:对于被检测域进行数据分块,对数据块的疑似程度进行打分渲染;然后再一个周期中对所有数据块进行半衰式处理;之后在进行打分再半衰,低于某一个阈值的数据块被丢弃。如此循环下去,留下的数据块集合就是被浓缩的被检测域。


    精确检测就是借助传统的误用检测和异常检测来进一步分析。在这个阶段我常常将之比喻成分析过程的化学反应。这个时候提取出来的结论数据,其数据性质和形态都与被检测域的数据大大不同了。


    场景步骤是对于检测结果的组合性分析。分析出的场景,可能来自对于精确检测的细微时间的组合,也可能来自于浓缩过程的提炼。


    信息安全大数据


    大数据通常分为两类:一类是天然大数据问题,如基因计算、矿物勘测、空间探测等,这类是客观存在的大数据问题;还有一类是人参与的大数据问题,如购物数据,社交网络数据等,这一类可以通过检测目的对这些数据进行前端影响。安全属于第二类。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhaona

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。