首页 > 数字政府 > 正文

【干货分享】黄罡:软件定义的新型智慧城市

2016-06-30 14:50:12  来源:CIO时代网

摘要:2016年6月26日,以 "新一代信息技术与新型智慧城市建设 "为主题的 "第十届中国电子政务高峰论坛 "在北京大学英杰交流中心隆重举行。
关键词: 智慧城市 顶层设计 云计算 信息孤岛
  2016年6月26日,以"新一代信息技术与新型智慧城市建设"为主题的"第十届中国电子政务高峰论坛"在北京大学英杰交流中心隆重举行。本次论坛由北大信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,光明网和北达软协办,CIO时代网承办。北京大学软件所副所长、中国新一代IT产业推进联盟技术分委会主任黄罡先生发表了题为《软件定义的新型智慧城市》的精彩演讲。以下为演讲实录:

\

  尊敬的杨老师,各位来宾,早上好,非常高兴能够来到这里和大家分享一下我对于智慧城市的一些想法。在听杨老师报告之前我还比较忐忑,因为我个人是做软件的,不是做智慧城市的,也不怎么做应用,所以我在想到底什么是智慧城市,尤其是什么是新型智慧城市。所以在我的整个报告里面跟杨老师讲的比较类似,我也是希望从技术角度,尤其是从软件技术角度来探讨到底是什么新型智慧城市。更加巧合的是,我总结出来是说,技术上新型智慧城市它的一个问题,我认为是信息孤岛问题,而这个问题恰恰就像杨老师说的,这是一个老问题。为什么到今天我们做智慧城市时发现它变成一个孤岛危机,这是非常有意思的。接下来就介绍一下,学术界,在技术上有没有一种工程上可实现的方式打通信息孤岛,最后给大家分享一下我们北京大学在这方面的产学研的实践。
 
  首先,什么是新型智慧城市?
 
  其实我的这个(PPT),因为我做技术我是从大数据角度来看这个事情。为什么?因为大家也知道大数据,尤其是学术界说这是个老东西,大家又在炒新概念。但是我们回过头来看非常有意思,在1997年的时候“大数据”这个词已经由学术界提出来了。数据已经大到难以理解、难以获取、难以处理、难以组织,所以说要发展新的超级计算技术。大家可以看到,他提的这些技术问题跟我们今天在做所谓的大数据面前的很多技术问题是一样的。那我们反思说,是不是在97年提出的大数据挑战,结果时隔将近10年之后我们再重新拿起来炒作,是不是炒作。
 
  大数据的第二个提法,就是2007年微软的前首席科学家提出的“第四范式”。由于计算机处理达到一定程度,所以他说世界上自古以来我们的科学研究和科学发现,从以前的实验观测到理论推演到计算仿真已经发展到通过数据驱动方式来发现新的科学真理。也就是说以后很多时候都是通过“数据+计算机+算法模型”就可以发现客观世界中以前很多没有发现的东西。由此他认为说计算或者说大数据给大家提供了一个人类发现客观世界的第四种手段,就叫“第四范式”。当时在学术界引起了较大反响。但是这和97年当时提出的一样,没有多大的实际上的,对于老百姓、产业界能感知的。
 
  那么什么时候我们知道了大数据呢?2012年提到“大数据时代”这本书,它通过大量商业案例说明大数据的商业价值。其中随机样本、精确求解、因果关系,其实这些东西都在前两次提法当中都能看到。所以从我个人角度,我认为实际上大数据也好,智慧城市的新型也好,我们最开始做智慧城市,我查了一下,IBM2008年提的。其实经过将近8年的探索,我们回过来一看,不能仅仅从技术角度来看,应该是从需求的角度来看。我个人理解,我认为所谓的新型智慧城市实际上就是指我们从应用角度看这个事情,而不是从技术的角度看这个事情。这是我个人的一些观点。
 
  那么新一代信息技术会有什么样的应用趋势?云大移物智。目前我们有一个判断是说,从2010年提出新一代信息技术开始到2020年,我们认为这10年是云计算、大数据的时代。这个时代是什么呢?首先是利用云计算和大数据,与现有的IT和应用领域做深度组合。第二是做优化。也就是跨界、碰撞。这点大家也很好理解。第二部分才是2020年,可能那个时候,人机物融合。还有我们今天所担心、所憧憬的具有推理型的人工智能才能看到一点曙光。至于今天的机器学习全是基于统计、归纳出来的东西,不会产生我们所恐惧的人工智能。
 
  我个人认为,至少在中国所谓的智慧城市应该是通过政务或者说电子政务来驱动的智慧城市。因为毕竟中国是政府主导的城市管理。所以我个人认为在2020年以前我们要考虑的是怎么通过云计算、大数据、互联网+,实现好互联网+政务,再实现智慧城市。等到人机物融合,或者人工智能时代真正来临时再考虑真正的智慧城市3.0什么时候开始出现。
 
  那么新型智慧城市面临什么?就是从技术角度来看。我认为首先是面临着数据资源的危机。我们先不说大数据,反正我们现在真正要做一些管理时一定要基于数据的整合和流动。但是我们可以看一下,(PPT)这是硅谷的一家调研公司,就是真正做大数据的公司90%的时间花在数据收集和清洗上,只有10%的时间才用来建好模型,进行分析。所以说“信息孤岛”已经成为大数据时代的危机。对于智慧城市而言危险是非常大的。它到底有什么问题?主要就是信息孤岛。尤其是在我国政务领域体现的非常明显。信息孤岛就是因为技术、管理体制、具体的团队等等各种所导致的孤岛之间不能互相连通,数据拿不出来,业务也不能进行整合。目前我们有个统计,通过神州数码、中软、太极、东软的统计,基本上他们在做政府、央企典型的信息孤岛的业务要把他的数据开采出来时,至少要花1000人天,光人力成本要花1000万人民币。所以说这个非常难。第二个,信息孤岛数据开采出来还有什么问题,就是多元异构问题。比如说湖南和湖北的税务局,尽管都是遵循同样的税务标准,但也可能是两个不同的公司开发的,也有可能一个是1.0版本,一个是2.0版本。这个时候他们的数据大同小异。但是当我们做数据整合时这个“异”就非常难。比如一个数据库里存的是“姓名”,另外一个数据库里存的是“名姓”,甚至有时候偷懒用了汉语拼音,这时候数据采集出来就非常难以对照起来。当我们真正把多个信息孤岛与数据开采出来,把它们之间的异构性去掉之后,还会有第三个更挑战的问题,就是融合。也就是所谓的知识库。我们的智慧城市管理一定是针对一个具体的实体,一个人或者一家公司、一个房间、一个地址来进行分析,跟这个主体相关的所有的存在各个政务系统里的数据以一个有序网状的形式展现出来,但是这个从技术挑战和工程挑战来讲是非常难的。所以我们真正要把政务系统里面的数据开采出来,有效的输送到智慧城市里面应用起来,会面临三大技术挑战。这个问题不解决会很严重的。反正“孤岛”这个问题,习总和克强总理也都反复提到过。
 
  我个人做了一个比较粗略的估计,比如说10万的业务信息系统,一个要一千人天,那么意味着效果一亿人天,这意味着什么?如果按照大数据行动纲要,2018年就要实现政务内网互通的话,那就需要20万个中高端的软件工程师不休息才能把所谓的这些政务系统开放出来,所以这个量是非常大的。除了数据孤岛问题还有一个应用业务孤岛问题。现在有一个“API经济”,大家知道每个系统开发出来就希望做出一个手机App,绞尽脑汁希望你安装我的App,用我提供的功能。因为大家也知道App本身推广非常难,而且也有各种风险。目前在国际上出现,实际上国内也出现了,就是说当我做了一个非常好的单点功能时,我可以开发一个App,但是更多的是我考虑的是能不能开发一个服务,这个服务API,它能够嵌入到别人的应用里面去,然后别人在用他的应用时顺便就把我的功能用了。大家说,这怎么可能呢?那我们看一下,Google和Facebook每天有50亿次的调用,不是从它的App或者它的应用里面过来的。而Twitter,有75%的流量不是通过TwitterApp来的,而是通过别人那来的。那么我们做的查水电、个人征信,我们更多的不是说要做一个所谓的网站或者App,而是说要做好一个API,个人、企业或者其他应用,他想用这个功能就可以从API出去了,这样我们在后台是非常庞大、非常高效的一组政务的API,前面智慧城市的应用就按需调用我们后台API就可以了,这是比较合理的方式。
 
  还有云计算本身所带来的孤岛问题。今天很多人都说希望大家把平台搬到云计算平台上就能消除信息孤岛,其实是错误的。为什么?前面已经讲了,真正的信息孤岛是数据藏在数据库里面,业务逻辑藏在代码里面。我把业务系统搬到云计算上面,不解决这两个的任何问题,而且更可怕的是,现在的云计算,由于云计算本身是一套资源管理系统,所以我们说,公有云,像阿里云、亚马逊云、腾讯云、百度云,以及私有云,像OpenStack、VMware等。它们所有管理系统的组织架构里面的具体实现,里面的接口全不一样。这就意味着当我们的应用部署到一个云上,你很难迁移到其他的云上面。而且我们开发的是云原生应用,就是你的应用里面调用了云平台提供的一些API或者一些功能,这个时候你的应用一定被这个云锁死了,所以我个人认为云计算不仅不解决信息孤岛的问题而且还加剧了,是因为云管理孤岛加剧这个问题。如果我们不好好思考这个问题,冒然上到朵云上,就可能被这朵云锁定。
 
  我们做智慧城市时会发现一堆孤岛,从基础设施到数据到应用逻辑。从软件角度一看,其实都是我前面反复强调的接口。要么没有接口,要么是有接口就是不够,或者大家用的不一样。那么有一个什么方法去解决呢?比如说斯坦福大学,他们想做什么呢,就是在2007年他们就看到说,我是不是在任何一个应用,我的数据、代码可以在我的手机、PC、后台云里面都可以来回的流动。他叫“天地人合一”。为此他们成立了一个小组,斯坦福的十几个教授,其中一个教授就是网络基础设施组的迈克教授提出了软件定义网络。我们知道软件定义到今天成为云计算管理的主流模式,由此可以看到它的作用。除了这个以外,还有另外的计算和设施组,他们分了七个小组。还有一个组是希望把网页里面蕴含的设计知识挖出来,实际上本质是要把网站系统动态的内容给挖出来,也是所谓的数据开采。因此本质上软件定义,实际上就是希望做到打破互联网上的资源孤岛。
 
  那我们国家现在在做什么呢?我们北大、南大还有中科院做软件的顶级团队,就在2000年提出互联网这么多资源,如果变成一台计算机,那上面的软件一定是翻天覆地的变化。到底是什么?不知道。所以我们起了一个名字“网络软件”。这一套东西应该说我们去看,从网络软件的角度,互联网上所有的资源变成一台计算机,那软件上会有什么问题?首先就是看到信息孤岛的问题。为什么?因为信息孤岛意味着什么,如果我们开采一个数据,不可能把淘宝后台数据库打开。甚至在政务系统里面,可能连开发的公司都已经不见了。那我到哪找那个公司!如果这个项目给了中软,结果开发用友、金蝶的ERP、CRM系统,他们怎么会买账。所以说从这些角度我们就认为,其实传统的网络爬虫、数据导库、网络抓包,从这个角度我们认为唯一可行的方式就是从应用的前端去看这个事情。
 
  什么意思呢?只要你给我一套应用前端能够合法访问的账号,我们就能自动学习出来你整个应用系统里面有什么数据,这些数据上面有什么功能,功能之间有什么样的业务流程。有了这些以后就可以生成相应接口开放出来。达到的效果是什么?首先我们对于一个一个信息孤岛会给你自动生成组接口或者API。把你每一个具体信息孤岛系统变成一张表,这个表开采出来以后,同一个领域,比如说都是税收或者都是房产管理系统,这些不同的系统它是因为不同信息孤岛来的,所以它的表会有异构性。这个时候我们会半自动的把这个给去除掉,做一些不一致的调换,最后还会支持你查询知识图谱的东西。比如说要查一个人,这个时候这个人在所有信息孤岛里面出现的他的信息,我可以给你实时抓取出来给你展现出来,从而可以系统的解决信息孤岛的问题、语义缺失的问题,还有无序共享的问题。现在政府害怕数据开放,因为害怕失控。我们有一套数据是说,当你数据开放之后,我们可以兼顾到对方是用什么方式在用,而且我们还有一套数据处理平台。就是说数据你拿不走,但是你可以把你要处理的算法、模型、程序上传到我的平台里,我这个平台会把后台的政务数据拿出来进行处理,我们把处理结果拿走。但是原始数据留在我这里。这就是说数据开放,别人可以用,但是拿不走。做到有序使用。
 
  达到的效果是什么呢?首先我们颠覆了传统的信息孤岛开放的思路。只要在我系统里面,你用合法的方式来申请我们就把所有的数据和逻辑学习出来生成一个KPI。传统思路是不管怎么样你先把数据交出来再说,我建一个平台,买一堆存储存起来,怎么用以后再说。但是我们的思路不一样,你要解决什么问题,然后这个问题需要哪一些后台的政务系统甚至是物联网上的一些数据,你告诉我,我就直接把这些数据抽取给你,你就可以用。除了信息共享还可以做业务之间的互动。现在点进去,你填了一组你的个人身份认证信息,就可以自动传播到后台几十个系统里。还可以做公共服务,比如我们要做快速的流动化,我先把你的数据变成KPI以后,随你用。还有一个是所见即所得,这意味着各位信息办主任甚至你的手下不需要懂编程,你知道怎么用,知道里面的东西是什么,就可以取出来。还有一个好处就是不破坏原有体系,对于原有系统来说我是正常客户端,遵循你所有的控制和通道。而且我们也在我们的平台里做了一些缓存,所以真有很大量访问并发也不会冲垮原来系统。
 
  这就类似于刚才杨老师说的,就是规划和设计。因为我们做的是,一定是你现在能看到什么样的政务系统或者互联网上的服务,有什么东西,然后你用我们的东西把它接口化以后,然后这个接口上做你自己的政务应用或者智慧城市应用。它不是传统的自顶向下的分解,而是自底向上的融合迭代。你可能发现这个政务服务不好,可以换另外一个。我个人认为它一定是有用的,而且它可以快速进行替换。比如我们给神州数码做的,一个App,不管到哪个城市,我们都可以快速的给他适应到不同城市的政务服务。
 
  最后再简单介绍一点,关于数据质量问题。我们这个数据质量大家可以看到,我们的核心是说,传统我们做数据质量一定是技术市场,数据库管理员、程序开发者,跟技术团队坐在那说,这个数据是什么意思,那些数据之间是什么关系,取出来会有什么问题。但是我们完全是抛开这些,完全是从用户和业务的角度去考量。比如说内蒙古有一个不动产系统,要把房产局、水利局,土地相关的数据拿出来。我们拿出来非常有意思,其中有一个数据非常有意思。它其中有很多7到8月,实际上代表的是7-8层。更有意思的是,这个数据抽出来,这个公司是在四川做的,我们要为他提供这个服务,结果那边的房产信息和内蒙古的房产信息是完全不一样的。所以我们这时候也给它做了一个匹配。当我们做数据整合或者把数据开放出来做智慧城市时,数据质量在语义适配上非常重要。我们有一套系统完全从用户和业务角度可以帮助你快速解决这个问题。
 
  目前我们这套东西,我们有一个因特睿公司,目前已为23个省249个政府系统生成API,覆盖公安、司法、教育、农业、通信、能源、电力、交通等多个行业。工程效率平均提审100倍,人力成本平均节省90%。采用我们这套系统对于国家价值,尤其是时间成本和人力成本价值上是极大的节约。
 
  北京大学软件这个团队一直是强调做产学研研究。所以我们不断的还会有新的技术出来。我们现在有接口自动生成技术,还有基础混合云的IaaS管理系统,也做一些相应的在PaaS上面的系统。这些都是通过跟这些公司还有跟在座的各位一起探讨、一起摸索出来的。接下来我们会有一个比较大的动作,神州数码给我们支持了2.4亿人民币,成立了一个研究中心。所以我们相信,通过我们自己的努力,还包括各位在座的,如果能够支持和理解的话,我相信中国至少在软件定义、智慧城市上走出自己的一条路。谢谢大家!
 
  主持人:非常感谢黄老师的精彩演讲!大家知道,我们过去政府部门不管是电子政务还是智慧城市的建设,我们在考虑解决信息孤岛的问题上,或者说信息共享的角度,大家都做数据共享交换平台这样一个思路,效果怎么样呢?在座的都知道。黄老师给大家一个新的方法和思路,是从软件定义的思想去通过技术的手段重新构建一种结构,去自动生成API供业务使用。那么这种思路,我相信在我们互联网这样一种思路的模式下面,是不是可以解决信息孤岛,在数据共享、数据开放方面过去一直比较头疼的问题,我相信既然得到神州数码这么大的支持,应该在实践中已经得到了非常成功的应用。再次掌声感谢黄老师的精彩演讲!

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:黄罡

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。