首页 > 大数据 > 正文

最受欢迎的5种数据科学工具

2018-11-01 13:52:08  来源:今日头条

摘要:最近我们采访了各个行业中经验丰富的数据科学家,询问他们最常使用的工具。下面是我们从中精心挑选的5个工具。
关键词: 数据科学
  数据和分析为数字化转型提供了燃料,而企业充分发挥这些燃料的唯一途径是,为其统计学家、数据专家和企业分析专家提供正确的数据科学工具,从而为企业提供宝贵的洞察力。

\
  无论是用于直接统计分析、机器学习建模还是可视化,数据科学工具对于建设数据驱动的企业文化都至关重要。

  最近我们采访了各个行业中经验丰富的数据科学家,询问他们最常使用的工具。下面是我们从中精心挑选的5个工具。

  1. Python

  与用于创建自定义算法的编程方法不同,Python不是一种独特的软件,但它是很多数据科学家的首选。在最近数据科学网站KDnuggets对2052名用户进行的分析/数据科学软件调查中,Python被65.6%的受访者列为首选工具。

  Cindicator公司首席数据科学家Alexander Osipenko表示:“我们将Python用于数据科学和后端,这为我们提供了快速开发和机器学习模型部署。对于我们来说,同样重要的是确保部署工具的安全性。”

  Katie Malone最初是一名粒子物理学家,现在她是Civis Analystic公司的数据科学研究团队的负责人之一,她指出,Python是她作为物理学家首选的数据科学工具,而现在她在商业世界也在继续使用它。对于她而言,最吸引她的是围绕Python强大的开源生态系统,这使她能够利用各种数据科学库来帮助她解决特定的分析问题。

  她表示:“这个社区拥有非常充满活力的开源人群,他们使用Python来解决有趣的数据科学问题。”

  Wovenware公司创新总监兼首席数据科学家Leslie De Jesus对此表示赞同,她非常依赖Python库。

  “我们使用 Python库(包括Scrapy)用于网络抓取,并能够从互联网上提取数据并将其上传到数据框架进行分析,”De Jesus说。 “同时,我们使用Pandas和NumPy Python库进行数据分析和矩阵操作。这些都有助于我们更快创建代码,而NumPy还允许复杂的广播功能。”

  Tiger Analytics公司数据科学和创新主管Niranjan Krishnan解释说,Python的用例非常多。

  Krishnan说:“我们已经成功部署Python数据科学模型,用于优化直接面向客户的营销活动和人寿保险承保,以及改善在线广告的实时定价。”

  这里的缺点是,Python是基于代码,这里需要高水平的编程和分析技能。

  他指出:“而Knime和Alteryx是优秀的菜单驱动的低代码替代品,也可供一般数据科学家和业务分析师使用。”

  2. R

  与Python类似,R是很多数据科学专业人员喜爱的另一种编程语言,它更加简单且更专注于数据科学。在KDnuggets调查中,R排名第三,48.5%的受访者将其列为首选数据科学工具之一。

  Civis Analytics公司的Malone表示,R具有非常复杂的机器学习和统计功能,这是她的团队成员除Python之外的常用选择。

  她指出:“这取决于具体情况,我们有多种需求,所以这两个我们都喜欢。从统计和定量社会科学方面来看,R更多一些。”

  根据Untapt公司首席数据科学家Jon Krohn的说法,R是他的首选数据探索工具。

  他指出:“我可以快速查看平均值、中位数和四分位数等摘要统计数据;快速创建不同的图表;以及创建测试数据集,这些可轻松地共享并导出位CSV格式。”

  3. Jupyter Notebook

  从数据可视化和数据通信来看,很多数据科学团队的数据科学工具列表中还会有Jupyter Notebook。

  HackerRank公司数据科学副总裁SofusMacskássy表示:“Jupyter Notebook支持R和Python,对数据访问和可视化提供强大库支持。该工具还使团队能够轻松导出工作簿用于演示,它正成为数据科学领域的标准。”

  对于Anexinet公司数字和分析服务高级副总裁Michael Golub而言,Jupyter的另一个好处是,可灵活使用最受欢迎的数据科学库。Golub解释说Jupyter是他团队最喜欢的协作开发环境。

  Golub称:“Jupyter Notebook是我们协作数据科学项目工作的首选工具,在涉及需要教育的时候,它也非常有用。”

  此外,Untapt公司的Krohn称,Jupyter Notebook是交互式构建原型模型的绝佳工具。

  他表示:“在Untapt,我们利用Jupyter Notebook来编写原型代码,也用于打印数据表、摘要指标和图表。”

  4. Tableau

  在硬数据科学团队和更多以业务为中心的分析人员之间,Tableau可提供良好的桥梁。

  Entersoft Security公司的SEO高级主管Pooja Pandey表示:“对于数据科学家和数据科学新手来说,这是很棒的工具。这是一个快速仪表板工具,可提供可视化洞察力和分析数据,它有着非常短的学习曲线。”

  Tableau的可视化和报告功能的速度可为各种用户提供洞察力。

  QuotesAdvisor.com首席执行官Sophie Miles表示:“它可以很快部署、易于学习且非常直观。通过Tableau,该公司的不同部门可根据需要制定详尽的报告。

  Miles解释称,由于该仪表板非常灵活,因此对数据组合的临时请求数量有所减少。因此,QuotesAdvisor.com的效率提高了95%。她说道:“现在人们花更多的时间来思考问题,而不是生成报告。”

  5. Keras

  根据日立Vantara公司首席技术官办公室首席数据科学家Wei Lin表示,他最常用的数据科学工具是Python、R和Keras。他使用Python和R用于上述所有原因,而利用Keras的深度学习功能。

  Lin称:“Keras是使用Python编写的开源神经网络库,以快速通过深度神经网络进行实验。并且,它能够运行在TensorFlow、微软Cognitive Toolkit或Thea。”

  Kera的优势在于高维模式匹配。

  他表示:“例如,图像和自然语言处理以及支持完善的深度学习分析模型,包括卷积神经网络和短期记忆。”

  根据Cindicator公司的Osipenko表示,Keras的最大吸引点在于它可帮助节省大量时间。

  他指出:“我们添加新工具的主要标准是,它是否能让你作为数据科学家的工作变得更轻松。这里的例子就是Keras,这个开源高级包装器,可大大加快开发神经网络的过程。任何在TensorFlow编写神经网络的人都会明白我在说什么。即使Keras不完美,但它可以改变这个开发流程,让你的代码对其他开发人员更具可读性。”成都加米谷大数据培训机构,小班教学,免费试听。
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。