CIO时代APP微讲座:西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

2017-03-09 14:05:14  来源:CIO时代网

摘要:3月8日,西南科技大学教授张晖在CIO时代APP微讲座栏目作了题为《大数据和人工智能在高校舆情处理中的应用》,详细介绍了舆情处理方面所利用的技术。
关键词: CIO时代APP 微讲座
\

  3月8日,西南科技大学教授张晖在CIO时代APP微讲座栏目作了题为《大数据和人工智能在高校舆情处理中的应用》,详细介绍了舆情处理方面所利用的技术。

\

  目前,计算机已非常普及。据统计,西南科技大学70%的学生每天上网的时间达到2-5个小时,30%的学生的上网时间达到5个小时以上。在这种情况下舆情一旦发生并快速传播,将会对学校造成无法挽回的损失。

  西南科技大学在舆情管理方面有三支队伍:第一,党委宣传部中有一个网络管理科,负责网络舆情的内容审查,以及学校官方微博、微信的维护;团委中有一个队伍,当发现舆情后,进行正面宣传;还有就是自行开发的信息化系统,负责网络舆情的自动发现及学校舆情的自动监控。

  一、舆情系统架构

  系统的架构大概分为三个部分:

  1.系统逻辑结构

\


  第一,数据采集层。采集的数据对象有新闻、网页信息、BBS信息及微博信息等,采集信息使用了网络爬虫技术,将信息采集后放在服务器上。由于所采集的网站多、信息量大,我们使用了分布式爬虫技术与大数据的技术,通过一个刀片服务器里的十个服务器同时进行采集,采集后放到学校的大型存储之上。对存储的数据进行数据清洗和抽取后,存入舆情数据库,再进行多维数据分析、情感分析、热点分析等分析工作,分析后的数据将形成舆情报告,并发送到微信上,为宣传部的工作提供指导。

  2.系统业务结构

\


  在基础架构上,主要使用了以下几种平台:第一,大数据技术平台。上述提到的分布式爬虫技术综合应用了redis和mongodb进行数据存储,redis快速将爬虫爬到的数据进行预处理,处理好后的数据存入到mongodb中。中间的一层是基于统计机器学习和复杂网络理论的舆情处理层,主要的技术是话题的演化(对已经发生话题、如何发展、正面的话题、负面的话题信息进行分析),分析后的数据在一段时间后需形成摘要,如一周的舆情摘报,传给宣传部整理后发送给相关部门,在此过程中也需要个性化推荐技术。对外发布基于SaaS的云服务,在服务器上发布后,其他高校的宣传部无需安装服务器,只需一个账号即可直接看到其舆情信息。

  3.分布式网络数据采集

  目前的分布式爬虫技术已做到近200个网站的实时监测,通过基于大数据的分布式采集,其响应时间为3~5分钟,如果网页上有变化,3~5分钟便可察觉,每天的信息增量为8000~10000条。除爬虫之外,为方便了解其他搜索引擎所用到的一些搜索结果,也使用了元素引擎,将学校的主题发送到百度等搜索引擎中,将搜索出的结果与自己爬虫搜索的结果进行组合使用。

  舆情系统的功能及核心技术便是分层的处理结构。在信息获取到后,关键在于舆情分析,具体分为三层:最简单的浅层便是用户所设定的关键词,如学校、学院、校领导的名字等浅层信息,以及与这些浅层信息相似的本体组合到一起。接着在关键词和本体上计算与主题的相关性,具体是以主题模型来实现,将一周的舆情做一个文本摘要提供给宣传部使用。通过这些摘要可以发现学校的活跃话题,以及发现关于舆情的发展,是否会形成某一个话题,是否最终会变为一个舆情。然后需要对舆情的舆情正负面进行分析。

\
\

  这是早期实现的系统4.0,其中未应用到大数据处理技术,但用了人工智能技术,当时的爬虫是基于单机做的一个效果。

\
\

  这是目前做的系统5.0,其中应用了大数据处理技术,已达到比较好的性能,满足了学校对于舆情处理的需要。

  二、舆情系统的特点

  爬虫7×24小时不停监测与学校相关的信息,响应速度能达到3~5分钟。

  97%以上的信息抽取准确率,提高舆情发现的精度。

  基于机器学习的自然语言处理,深入分析舆情倾向、热点、趋势等信息。

  多维度统计分析,深入理解舆情的传播过程。

  整合高校微信公众平台,让相关工作人员及时掌握舆情动态。

  采用云计算模式,监测信息及时,节约用户开支。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:张晖

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。