【2017CIO时代中国行深圳站】黄俊毅:智能运维与海量日志分析

2017-09-18 09:24:49  来源:CIO时代网

摘要:2017年9月9日,日志易售前技术总监黄俊毅在“2017CIO时代中国行深圳站”活动上发表了题为《智能运维与海量日志分析》的主题演讲。
关键词: 智能运维
  2017年9月9日,由中国新一代IT产业推进联盟指导,CIO时代学院与北京大学香港科技大学深圳研修院联合主办,Plug and Play、转型家、广东省首席信息官协会、大华南IT高管共赢圈、中山CIO联盟协办,CIO时代APP承办的“2017CIO时代中国行深圳站”活动在深圳成功举行。大会上,日志易售前技术总监黄俊毅作了题为《智能运维与海量日志分析》的主题分享,以下为演讲实录:
 
\
  日志易售前技术总监  黄俊毅
 
  大家上午好!今天给大家分享的主要内容是怎么通过海量日志做智能运维。
 
  大家可能有疑问,什么叫做日志?传感器的数据,芯片门电路发出的数据,这些可以称为日志;手机上网流量记录,系统里面产生的日志,以及网管监控的性能数据,这些也可以称为日志。只要带时间序列的,可读的不会再被修改的文本,都可以称为日志。
 
  一、IT运维分析
 
  如今各行业陆续进入ITOA时代,2014年使用ITOA的企业还只有5%,到了2017年,这个数字已经上升到了15%。
 
  1.ITOA数据源对比
 
  什么是ITOA?ITOA(IT Operation Analysis)是IT运维管理的一种手段。如今的大数据技术已经相当成熟,很多企业想把大量数据变现,就需要进入ITOA阶段。ITOA涉及的数据分为四大类:机器数据、网络抓包(流量数据)、插入代码和模拟检测。我们来分析一下这四种数据有什么不同,分别能应用什么场合。
 
  探针数据,可以简单理解为在全国部署一些点,然后进行模拟访问,监测一些系统和网站,分析业务可靠性,但它并非真正的业务数据。现在金融和运营商行业已经进入到“端”到“端”业务探测的时代,模拟探测的手段在一定程度上可以代表业务性能的好坏,但是不能真实反应单笔业务的性能情况,再加上还有流量和机器数据等手段,颗粒度细到每笔交易都能进行实时监控,因此该手段使用率逐渐降低。
 
  另外网页插码目前更多应用于网页浏览器的监控,所以ITOA时代应用得较多是机器数据和网络抓包。而网络抓包受限于某些业务交互不一定经过物理的交换设备,尤其是如今云化和容器的进一步成熟,网络抓包方式难以满足用户需求。而越来越多的企业会发现所有的数据和业务系统都能打印日志,包括物联网、传感器、智能设备等,我们做芯片测试时,电路也会打印很多数据,所以日志成了对故障分析最直接的手段。
 
  2.智能运维
 
  上面我们可以看到,目前各行业仍处于ITOA的发展阶段,但是Gartner 宣称到2019年,将有25%的企业进入新的领域:智能运维。那是在监控手段以及自动化手段不断成熟,服务体系也不断完善的情况下,将大数据、机器学习以及人工智能应用在运维领域的产物。
 
  二、日志平台的演进
 
  日志平台实现以上从ITOA到AIOps的转变,经历了四个阶段:
 
  1、网管类,用数据库存储数据
 
  最早是用数据库存储数据,但是日志是千变万化的,例如物联网一类的设备日志格式还不一样,且数据量大,数据库很难适配多变的日志。
 
  2、用Hadoop等工具处理数据,有一定的局限性
 
  Hadoop更擅长做有限的数据挖掘,其次是数据查询。运维除查询外,很多时候需要涉及实时、复杂的计算,尤其是机器学习领域。
 
  3、日志3.0时代,实时搜索引擎
 
  现在ITOA阶段的典型代表就是实时搜索,未来会应用机器学习和人工智能实现日志平台。以传统的中间件日志为例,它的日志包括IP地址、时间、请求方法等字段。我们可以构思一些分析思路,比如网站受到攻击能否通过日志发现,非结构化日志能否发现攻击信息和漏洞扫描;能不能通过状态和访问时长分析哪个区域访问网站较慢,哪些网页访问网站总是出错;通过分析每个URL和访问购物车时间来做运营分析,这一系列数据都可以从日志里面得到。
 
  4,我们正在走入AIOps时代
 
  如果要构建AIOps平台,靠非结构化的日志实现以上场景,需要具备处理所有非结构化日志的能力,平台必须适配所有格式。另外,还需要够快的速度,具备百万条日志处理能力,秒级返回。同时灵活也是非常重要的特点,很多日志格式都是自己产生的,我们的平台该如何适应你们的格式?以前的方式是先把数据放到数据库里写SQL来查询,查询数据非常灵活,最后再通过SQL查询完结果到界面展示,构建出完整的业务系统。现在我们更多面对的是非结构化数据,必须提供非结构化数据的查询理念来替代原来数据库里面的SQL,像处理结构化数据一样来使用非结构化的数据。
 
  三、日志的功能场景
 
  接下来我们举一些场景来体现日志的强大之处。在业务环节,做业务分析不需要看CPU、内存有没有问题,比如说用手机自动充值话费的时候,会收到充值成功的短信。但也会遇到1个小时话费没有到帐的情况,那运营商能否一键定位到哪里出了问题?很难。现在运营商面临的问题是,要看到每个环节交易的成功率,且可以给客服人员快速定位问题,通过手机号定位交易是否成功,同时还可以给运维人员分析哪个环节会失败。
 
  充值业务最大的问题是钱扣了而话费没有到账,通过收集所有模块日志,这里不需改动任何日志格式,收集日志之后就可以实时监控每个环节,包括重点环节的交易有没有突变,或某个大范围区域是否出现交易失败等。客服人员收到投诉后,输入相应手机号可以看到充值时间,告诉客服人员什么时间充值,什么环节出现问题。客服人员只是一线记录人员,实际分析人员为运维,通过界面点击可以看到日志明细,融合通过分析日志,从宏观到微观一步观察到所有结果。整个手机充值过程不会超过1分钟,在几十TB的数据量下,一分钟之内把所有环节串联在一起,目的就是为了减少投诉的情况,改善用户体验。
 
  刚才提到中间件日志,包含IP地址和运营商,有多少用户访问以及哪些URL和域名访问比较快,只要靠日志就能全部展现出来,同时哪些运营商访问较多,这里也做了简单的总结。通过数据分析,我们可以统计出每个页面的点击次数、停留时长、切换次数及后台处理时长等,比如发现页面点击次数较多,切换比较多,原因有可能为页面效率稍慢,则系统需要优化;若发现页面停留较长,同时前后台交互比较多,同样需要优化,通过日志分析为系统优化和系统接口优化提供依据。
 
  日志可以做业务分析,同时也能满足一些国家法规的要求,《网络安全法》就有三部分和日志有关:1,用户的数据需要保存、脱敏;2,需要备份6个月;3,提供查询日志所需要等级保护的落地。若收集这种敏感的数据,不能拿普通工具或者是开源软件收集,除非得到国家的认证,才可存储敏感数据。
 
  日志易从网络设备、安全设备、中间件到业务系统,包括传感器、物联网等在内的所有数据都可以收集,同时也满足《网络安全法》的收集要求。比如在业务系统软件界面上,运维人员可能查不了敏感信息,但日志不同,运维人员可通过日志导出所有人的账号及手机号的对应关系。所以这时候,作为统一日志收集平台,重点在于把敏感数据脱敏掉。日志易既满足《网络安全法》的要求,还能做日志生命周期的管理,不同数据有不同周期,数据需要自动保存、恢复以及备份。
 
  日志收集完之后,还可以进行内网高级威胁的分析。我们认为黑客会绕过所有安全设备,进入用户系统,但在系统内部肯定会留下痕迹,这个痕迹如果不实时收集起来,就会面临擦除或改掉痕迹的情况,导致事后无法溯源。如果我们实时收集系统日志,就可以分析出有没有隐藏账号,新增定时任务或者暴力破解等情况。又比如内网合规人员,内部的人需要防范有没有僵尸账号及有没有人经常提权,做高级权限的切换,上班时间用危险的高级命令等,这是对内部人的合规安全监控。
 
  日志还可以实现业务合格分析,不需要任何生产数据库,不对业务系统产生任何影响。例如单个交易每天出现5次每秒5笔,可能是异常的正面交易,但5秒内申报了又同时撤销,时间很短,我们则认为是异常交易。类似的一些情况例如某些异常交易一天出现三次,一天申报两千笔,大量的订单出现同时撤单又占40%等等,所有的策略都可以通过日志进行分析,用户的每个idea不用更改任何程序,通过日志易配置策略只需要10分钟就可以实现,而且随时可以进行调整。
 
  在智能运维方面,一些性能数据比如说CPU、内存监控数据都是日志,以前大多做的阀值告警,或者动态极限告警。而我们做的是异常点告警,通过历史数据发现3 ‰以外的数据,则认为是异常。机器学习的算法都是开源的,难点在于不知道该用哪种算法,而且机器学习复杂的调参会让机器学习难以“平民化”使用,日志易将机器学习算法融在一起,改成指数平滑的算法。大家只需要把网络时延字段改掉,将数字型数据融入进去,不需选任何机器学习算法,就可以看7天或者30天内的参数。另外一个方面就是根因分析,例如判断业务变慢是否和CPU、数据库是有关系,我们把业务监控数据和CPU指标放在模型里面,通过分析发现数据库请求时长的变化趋势和业务请求时长趋势是一样的,我们则认为业务请求时长和数据库有关系。
 
  四、总结
 
  最后来总结一下日志易平台的几个特点:
 
  1、日志易面对五花八门的日志都没有问题,就算是传感器或者芯片的日志都可收集,不需要做任何改造。
 
  2、秒级返回,分析人员任何一个疑点或者规划思路,只需要点几下鼠标就可以很快得到分析策略。
 
  3、可视化,所有的展示都有图形和报表的展示,同时数据可长期保存。一句话总结,日志易做非结构化数据的思路,改变了原来结构化数据用SQL的思路,非结构化数据时代日志易通过一种新的语言SPL(Search Processing Language)构造出机器数据实时搜索分析平台,通过鼠标点击既能实现各种分析和计算场景。

        大家可扫一下下面的二维码,关注以下我们的微信公众号,谢谢大家!
\

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:yulina

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。