Facebook和Netflix都为之着迷的实时机器学习算法，到底是怎么工作的？

2018-11-15 13:26:50 来源：脑极体抢沙发

2018-11-15 13:26:50 来源：脑极体

摘要：最近，Facebook宣布开发出了一种新的算法Spiral，可以为网站上的数十亿用户提供实时调节的服务。能够在短短几分钟内预测并将新结果输出给用户，而不是依靠好几周的数据来优化和更新服务。
关键词：机器学习

　　最近，Facebook宣布开发出了一种新的算法Spiral，可以为网站上的数十亿用户提供实时调节的服务。能够在短短几分钟内预测并将新结果输出给用户，而不是依靠好几周的数据来优化和更新服务。

　　举个例子，如果一个用户突发奇想，想要知道“我的哪些朋友赞过此贴”，传统算法的解决方案是，创建一个庞大而持续的长时间记录，精心观察和记录每个相关用户行为对结果的影响。

　　但Spiral只需要几分钟就能收集反馈，自动学习并立即获得精准推断。

　　听起来是不是很神奇？

　　最近，这种能够随数据获取实时调整模型的实时机器学习，正在成为媒体技术领域的新“网红”。曾经连续两年，都被FTI评为传媒业的重要技术趋势之一，与自然语言理解NLU、机器阅读理解MRC、音视频算法等共享金字塔顶端的荣光。

　　实时机器学习技术的深入应用，将解锁很多超乎想象的媒体功能和应用场景。但是，尽管学界已经在算法上提出了几种理想的架构，但产业端却未迎来蓬勃的质变。这究竟是为什么？

　　什么是实时机器学习

　　在开启扒皮模式之前，我们先来了解一下，实时机器学习究竟在哪些地方比传统的机器学习更强？

　　传统的机器学习（ML）正在媒体领域得到越来越多的应用，利用算法实现内容的“个性化推荐”，已经成为主流媒体的标配。

　　但过去的算法，主要侧重于使用静态模型和历史数据进行训练并提供预测。比如用户在浏览网站时，可以根据用户历史行为数据来推送新闻。

　　而一些新的涉及动态实施决策的业务，比如具备时效性的热点新闻，或是用户想要看点新东西，这就需要用一种新的算法来实现，即实时机器学习Real-Time Machine Learning。

　　以头条的核心技术“个性化推荐算法”为例，其核心原理就是根据用户对文章的历史行为数据反馈，进行统计挖掘和判断。

　　比如具有相同偏好的三个用户，分别选择了自己喜欢的文章，得到最高票数的文章就会被推荐给被系统打上同一属性标签的第四个人……以此类推。

　　不难发现，传统机器学习算法的成功，依赖于对用户的“知根知底”，需要用户不断开放自己的私人领地。

　　而实时机器学习，更擅长对用户的当下需求体察入微，让用户在保持隐私安全感的同时，获得如沐春风的浏览体验。

　　显然，实时机器学习算法将主导一个令人期待的新世界，也有越来越多的媒体在为此做着准备。

　　带来的新挑战

　　实时机器学习虽然很美好，但要让机器在数据获取过程中实时调整模型，也带来了不同维度的技术挑战，让工程师们为之秃头：

　　1. 高吞吐量与低延迟的平衡。

　　媒体平台的海量用户需求，决定了实时机器学习要在每秒处理数百万任务量级。以这样的速度进行大规模的信息分发，需要细致到毫秒级的任务执行能力。

　　2. 动态异构任务模块的高效唤醒。

　　对于Facebook这样体量庞大的平台来说，其服务是由成千上万个不同模块构建而成的，流量调节、图像转码、存储编码等等。在实时任务中，会伴随生成很多不同资源支持的新任务，增加系统的响应和处理难度。

　　如何对这些重要且不一样的特性进行预测，十分具有挑战性。

　　3. 实时算法与业务场景的融合。

　　实时响应和预测，意味着留给系统的容错空间更小。要保障这一技术在实际应用场景中的稳定性，就要在完成高吞吐量任务的同时，能够快速模拟真实世界的交互，然后精准地判断出，哪些是结果的决定性因素，从而做出正确的响应。

　　举个例子，如果想给用户推荐“哪些朋友赞过此贴”，实时算法会快速判断出“最近一次查看”这一数据集对完成该任务毫无意义，然后快速修改关联并重新学习。这种自适应调整，可以有效防止用户收到的结果中出现明显的错误点。

　　以上这些问题，似乎说明媒体们挑战实时机器学习的难度还是蛮大的。那么，有必要做这么吃力不讨好的事吗？

　　实时机器学习的N种可能

　　尽管在刚刚问世时，基于静态模型的机器学习算法，展现出了很高的分发效率优势，目前看来，也仍旧能够满足大部分用户的需求。但在某些场景下，还是会有鞭长莫及的地方：

　　首先，是高质量流媒体体验带来的技术要求。目前主流内容平台都在向音视频业务推进，面对多元化内容和行为数据的及时分发，高延迟的解决方案就变得不太理想了。

　　另外，传统的机器学习算法，往往会为用户打上各种各样的偏好标签，难以对即时或潜在的信息需求及时洞察与响应。这就会使用户在“贴心”之余幸福地进入信息茧房，习惯性地被既有兴趣所引导，失去了探索未知的动力和可能性。

　　更为重要的是，静态模型对历史数据的规模化处理，只是一种理想状态的假设。由于技术能力和隐私授权等重重限制，实现“全样本”的数据分析几乎不可能，结果就是其统计结果往往“以偏概全”。

　　因此，作为一种更加高效的解决方案，实时机器学习自然成为了接下来媒体平台提升用户体验的主战场。

　　其中，又分为了三个主要议题：

　　1. 常规信息流与突发新闻实时推送的相互补充。目前，常规信息流依然在主流媒体的内容呈现中占据主要位置。而借由实时机器学习，可以将用户偏好与突发的热点事件相结合，方便读者及时了解其他事件；

　　2. 对历史缓存机制的合理规避。为了应对用户的查询和需求，传统的机器学习系统需要进行大量的数据库更新。实际上，只有很小一部分数据才是真正影响输出结果的，这无疑增加了很多不必要的工作量。通过更高效的算法来降低资源存储和管理成本，自然吸引了媒体们用脚投票；

　　3. 主动挑战意外和偏见。媒体的本质是建立一个汇集各种不同观点的公共平台，而个性化算法总会让人们停留在认知的舒适区。未来的新闻服务，如果想要挑战读者的偏见，又不愿激怒用户，就需要运用实时算法来小心试探。未来，商业服务与新闻意志之间的矛盾，可能会被新的算法所消融，这种结果无疑会让媒体的生存环境变得更好。

　　总体来说，实时机器学习虽然还是个新生事物，已经吸引了众多媒体巨头们为它消得人憔悴，不仅因为它比此前的算法有着更低的成本与更好的疗效，更因为它代表了一种媒体与AI融合更光明的前景：让技术的革新为人类创造更多的可能性，而不是相反。
第三十八届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：zhangxuefeng

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。