大数据和AI：要警惕披着科学外衣的伪科学

2017-07-26 17:12:03 来源：搜狐科技抢沙发

2017-07-26 17:12:03 来源：搜狐科技

摘要：科学原理的重要作用是告诉我们：什么是不可能的。根据万有引力定律，我们会知道：武侠小说中那些飞檐走壁、水上漂的大侠是不存在的。
关键词：大数据 AI

　　最近，关于人工智能、大数据的很多案例近乎神话。在我看来，这些“神话”是违反科学的。有些朋友不理解，我大体说说我的想法。

　　科学原理的重要作用是告诉我们：什么是不可能的。根据万有引力定律，我们会知道：武侠小说中那些飞檐走壁、水上漂的大侠是不存在的。能量（质能）守恒定律告诉我们：能量只能发生转化，不可能凭空产生、也不可能无缘无故地消失。

　　更有意思的是热力学第二定律。它告诉我们：尽管能量可以转化，却不可以任意转化。例如，热量不可能自发地从温度低的物体传递到温度高的物体。但这种说法不严格，严格的说法是：孤立系统的熵永不减小。这个定律告诉我们：虽然“永动机”不违反能量守恒定律，现实中却是不存在的。

　　1948年，申农将统计物理中熵的概念，引申到通信领域并开创了“信息论”这门学科。申农的理论，不仅可以完美地描述热力学第二定律，还拓展了人们对物理世界的认识：对“麦克斯韦妖”的解释，将信息熵和物理学的熵完美地融合在一起。

　　对于智能制造，熵的概念应该有更大的用处。我认为：根据封闭系统“熵”不可能增加的原则，用通用算法处理数据，所包含的信息量不可能增加。

　　我们知道，数据分析和人工智能都与知识相关。其中，知识就是一种必然的联系。联系，就意味着变量不独立。例如，F=Ma意味着：用1牛顿的力推动1千克的质量，加速度就会为1。不独立，就意味着信息可以压缩。我们从大数据集合中发现知识，其实是在做“信息压缩”或者“降维”的尝试。如果这种“信息压缩”或者“降维”在大数据之外仍然合适，就可以看作一种知识。利用这种知识，就可以用少的信息获得更多的信息。

　　显然，信息是不是“可压缩”是客观规律决定的，非人力所谓。在《三国演义》中，司马懿看到蜀国大营中落下一颗流星，就判断“将星陨落”、诸葛亮死了。这种联系是不是客观规律，故而只能是迷信。

　　多少数据才能发现规律呢？理论上将，如果问题真的很复杂，所需数据应该是自变量的指数函数。这就是大数据能发挥作用的原因。所以，从数据中发现规律很难、相关因素越多越复杂。这里有个特例：一种是规律本质是简单的。另外，加入了人已有的认识，也会把问题简化——从某种意义说，相当于加入了新的数据进行降维处理。

　　现在回到文章的主题。我对大数据、人工智能领域的许多报道嗤之以鼻，一个重要的原因是：少量数据，一般得不到规律性的结果——除非这个问题本身就很简单。但如果问题本身就很简单、规律很明晰，过去的人就发现不了吗？我更倾向于另一种可能：这些文章是“高射炮打蚊子”，用复杂方法解决简单问题，就像任正非所言：用展示锄头代替种地。第三种可能就是把偶然联系当作规律，而不用科学的态度去论证。

　　有人自称他的数据分析方法用了阿尔法狗的算法，得到了规律。但阿尔法狗关键首先是计算量的问题、不是信息量的问题。信息不足是算不出来的。两者怎么能相提并论呢？我听到一种说法：现在的骗子都改名叫大师了。有些大师的工作，真的和算命差不多。

第三十八届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：yulina

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。