首页 > 大数据 > 正文

【干货分享】数美时代梁堃:机器学习与人工机器

2016-07-19 18:15:53  来源:CIO时代网

摘要:2016年7月17日,以“大数据与人工智能”为主题的第五届中国大数据应用论坛在北京大学英杰交流中心成功举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,数美时代、章鱼大数据和北达软协办,CIO时代网承办。此次活动主要讨论了大数据与机器学习技术,以及这些技术在各个行业的应用。
关键词: 梁堃 机器 机器
  2016年7月17日,以“大数据与人工智能”为主题的第五届中国大数据应用论坛在北京大学英杰交流中心成功举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,数美时代、章鱼大数据和北达软协办,CIO时代网承办。此次活动主要讨论了大数据与机器学习技术,以及这些技术在各个行业的应用。数美时代联合创始人兼CTO、第二届北大互联网CIO-CTO班学员梁堃分享了题为《机器学习与人工智能》的主题演讲,以下为演讲实录:
\
 
  先做下自我介绍,我是梁堃,数美时代的联合创始人兼CTO。很荣幸有机会给大家介绍机器学习和人工智能。这次介绍分为三个部分:第一部分,机器学习是什么;第二部分,机器学习能做什么;第三部分,企业机器学习应用趋势。
 
  我们先看机器学习是什么。大数据的概念还是其他的技术报告,大家从各个方面都了解了机器学习,这次我从另外一个方面来介绍机器学习,就是从机器学习的目标或者业务要做什么来介绍。机器学习最大的是计算机科学,其中有一个很重要的分支是人工智能。人工智能里面有两种实现人工智能的方法,这两种方法分别对应于人类智能的两种思考模式,一种思考模式叫做演绎法,就是我从已知的规则和事实推导新的规则和事实。这个系统是之前60-80年代用的比较多的系统,叫专家系统。而第二种在人类思考叫做归纳法,通过对事实观察归纳来归纳总结出来新的规律、新的事物的本质,然后再把它应用到新的事物里面去。把这个是现在计算之中就叫做机器学习。当然最近几年非常热的机器学习的方法叫做深度学习,它是机器学习里面的一个领域。
 
  从一九四几年开始发展出来计算机科学,它在做什么?本质就是尝试对业务进行自动化处理。刚出来的时候完全是针对数字计算,大规模的计算,如果要靠人来做这个事情是很困难的,需要花费大量的精力和时间。那么能否让机器像做成流水线计算呢?这就是最早的计算。我们不断的去探究,不单单数据计算自动化了,普通企业各个行业的企业里面的流程以及业务也在被信息化、自动化。这是关于数据库出现之后包括订单的转移、ERP财务等等都被自动化。随着计算机越来越火,可以自动化越来越多的东西,互联网自动化很多东西,比如对资料的检索等。当我们进一步拓展可以自动化的范围时我们发现了一些困难,举个例子,比如说自动驾驶一辆汽车,这件事情就非常困难。因为计算机本质上它是一个程序,需要得到明确的指令,第一步做什么、第二步做什么,它才能做。而自动驾驶汽车,这个无法用一个明确的指令描述,因为这个过程非常复杂。还有一个非常一经典问题就是有一只小猫,连一个三岁的孩子都可以非常容易辨别出来,但是写一段程序让计算机系统认知就很复杂。所以就提出来第二个分支:人工智能,就是想对非常复杂的问题或业务进行智能的自动化。为什么叫智能的自动化?因为很难用一个确定的公式或算法来一步步的做出来。我们需要这个系统可以去观察世界,可以像人一样思考来智能、理性做决策,最大化目标。比如我要驾驶汽车,在最短时间内到达那个地方同时又不出任何事故,这就是人工智能。人工智能就是把原本机器学习里面简单程序、无法自动化的东西,用一种像人一样智能的把它做出来。
 
  人工智能在业界使用的方法有两个,一个是演绎法,这种方法的核心概念就是有一个专家会把已知的知识和里面的推理规则放到这里面,当出现新的状况时,系统会根据已知的知道推演出新的规则。比如说大楼里都有防火器,其实它就是一个特别简单的专家系统,它只知道一个事实,温度达到一定高度时、有烟雾的时候就会启动。这种系统有一个好处就是只需要专家的支持,而不需要那么多数据的支持。而业务系统,就是我们说得机器学习,归纳法。这时候没有专家告诉他推理的规则,而是给他一大堆数据,这就是对世界的描述,然后会有个算法,无论是神经网络算法还是其他,这个算法本身是观察数据、探索数据,它会自动的根据统计学规则从数据中总结出来一些规则和事实。当一份新的数据过来,就可以应用到其中,机器学习本身还是把复杂的业务系统自动化。
 
  而深度学习是机器学习的一个分支,我们可以做点击率预估,这个是互联网购盈利的两大核心之一。当一个用户来了,我应该给他出什么样的广告,这个用户才最可能点这个广告让我盈利。深度学习解决的是,对这个世界做一种更抽象的解读。比如说传统的是无法形成多级的抽象,深度学习不一样,深度学习是给他一个图片就行。深度学习主要是基于神经网络,神经网络的前几层是在学习这张图片里面或者学习人脸的边边角角的特征,这是不是有一个弧线或者阴影,比如说一些特征组合出来眼睛这个概念,一些特征组合出来鼻子这个概念。再往上这个神经网络就会形成一个非常高级的抽象,这是一个人脸。这种高级的概念对我们而言是非常自然的,但是对于计算机而言,你想把它描述准确极其困难。
 
  比如说“马”这个概念,我们可以看到有各种各样的马,白色的马、黑色的马或者有的马少一条腿甚至是一个玩具的马、木马,当把这个东西方在你面前,任何一个人都明确知道这是马。但是你想给一个机器去描述的时候,什么样的东西是马,这个概念极其复杂。你很难描述出来。两个耳朵、四条腿、能跑的就是马?不对。深度学习要解决的就是这个问题。希望通过深度学习让计算机认识之前只有人才认识的高级概念。
 
  深度学习这两年做的非常火,但其实这个概念很早就有了。70年代的时候银行就开始使用了,目前演进为“深度学习”,银行就做个人信用得分的预测。比如说收入、年龄、消费组成、职业,预测输出如期还款概率或者延期还款概率等等。
 
  机器学习在今天越来越重要,为什么?因为这些年信息化程度非常之高,存储成本又非常便宜,广泛的互联网化让大量数据出现在我们的存储、出现在计算机世界当中。这样就有机会用更加复杂的机器学习的算法,因为它有大量事实、数据可以学习。它是归纳法,本身就依赖于这个条件。所以这两年发展非常快速。
 
  机器学习能做什么?
 
  算法交易、欺诈检测、信用评估...这是非常经典的应用,都是预测的东西。我把前的两个提出来,前两个就是去年到今天为止整个互联网行业盈利最大的两个算法,一个是在线广告,在线广告贯穿了整个PC端。打开任何一个网页,都会发现这些广告。有些是广告主直接跟网站签订投放协议,但更多的是通过京东、淘宝这样的中介去投放。当你投放广告时,只有用户点击了,广告主才会付账。所以广告出现在这个页面时,你一定要把他最可能点的广告放在上面。这里面就涉及到非常复杂的东西。这里面涉及到方方面面,包括你要对用户建立画像,你要了解你的用户,性别、年龄、住在什么地区什么小区。第二是个性化推荐,相信大家对这个非常熟悉。在互联网上我们每个人都在享受定制化的服务,你在听音乐,它会把你感兴趣的音乐推给你,你看今日头条,他也会把你感兴趣的新闻推给你。当然还有算法交易、欺诈检测、信用评估等等,比如说我们的员工,实时检测一个人,他是真的人还是机器人。另外,现在机器人特别高级,他们自己都会相互聊天。
 
  那么新兴应用呢?机器学习其实能做很多事情,我挑了几个非常震惊的例子,比如说实时翻译,一个路牌,你把摄像头对准它,它就会给你实时翻译成你认识的语言。又比如微软的一个软件,是同声传译的东西,他只要说英语就行,他说出来的话就被实时的翻译成中文,你说出来的话在他听到的时候已经被实时翻译成英文。这件事情让我极其震惊。因为我大学有一个同学就是学同声传译的,当时他学的时候非常辛苦,但是现在机器就可以做到了。自动驾驶,一两年前还是在实验阶段,但今天已经开始上路。第一个真正路上跑的。包括特斯拉、Google、百度。相信自动驾驶将来会成为一个中高端车的标配。为什么今天可以做到这点?很简单,因为特斯拉有数亿英里的驾驶数据。
 
  从刚才几个例子来看,我们想象一下机器学习可以深入到生活的方方面面。金融、制造业、机器人工厂、医疗、教育、服务等方方面面。为什么?因为机器学习或者说基于机器学习的人工智能,它最本质的目标就是在某一个任务上做到像人一样有智能、像人一样可以对这个问题进行分析并做出快速的预测。在我看来机器学习会在其他方面成为核心。
 
  企业机器学习应用趋势。
 
  我们来看Google公司的一个数据,在2002年的时候Google公司全部署了机器学习模型,大几十个,或者一百出头的样子。但是到2016年年初的时候,他们部署的机器学习的模型已经接近3000个。在他的每一个业务里都有Gmail、读书、翻译等都部署了机器学习。其实很多公司,尤其是比较早的互联网公司都是这样的趋势。在我看来可能几年之后几乎所有大规模的业务都将用机器学习自动处理,几乎所有的。我加了“几乎”只是为了严谨,因为很有可能是“所有”。首先,随着业务广泛的数字化、互联网化,无论是工业4.0还是互联网+都是把人的衣食住行各个方面的业务数字化、互联网化。这会导致什么?会导致我们有非常大量的数据产生。包括打车的数据、吃饭的数据、穿衣服的数据、医疗数据等等都会出现。同时,存储和计算成本在不断降低。几年之后,每个企业都将成为数据企业,都将积攒自己的核心数据,这些数据是非常宝贵的财富。因为这些数据提供了机器学习、人工智能的基石。第二,这些数据不能仅仅出些报表而已,每一个企业都将大规模部署机器学习,去把自己企业里面尽可能多的大规模业务自动化。能用机器学习代替的东西,为什么不呢,所以每个企业都会在自己的核心业务上部署机器学习。当然机器学习还是个挺麻烦的事情,对于有实力的大企业可以建设自己的专家团队、机器学习团队来进行定制化服务,但是这件事情是富人游戏,一般的企业并不适用。现在无论是亚马逊、微软、阿里都在集成标准学习模块,以及共享行业的信息模块。在我看来,中小型的企业也会部署机器学习模型,只不过他们的不是定制化的,而是一种基于云的机器学习。它就像App标准服务一样被使用。第三,每个企业提供的每个应用服务都是智能化的,它不再是说我要定制一个服务需要昂贵的成本。每一个客户都在享受定制化服务、享受定制应用。这是之后两三年企业机器学习应用的趋势分析。当然了,三年搞不定可能会是五年。
 
  我的介绍就到这里,谢谢大家!

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:梁堃

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。