首页 > 大数据 > 正文

数据之美:可视化会给你意想不到的答案!

2020-08-31 11:14:50  来源:读芯术

摘要:作为数据科学家或分析师、人工智能或机器学习工程师,我们大部分的工作都是向同事或主管解释事物,报告个人的工作和发现,数据可视化已经成为我们生活中必不可少的一部分。
关键词: 数据 可视化
  作为数据科学家或分析师、人工智能或机器学习工程师,我们大部分的工作都是向同事或主管解释事物,报告个人的工作和发现,数据可视化已经成为我们生活中必不可少的一部分。
 
  而对于不了解或不感兴趣的人来说,原始数据就是长串随机数字、图像或音频文件。我们的工作是让这些人理解数据,并引导他们从这些数据中作出有用的推论。
 
  罗伯特·科萨拉说:“数据可视化是挖掘和利用数据的关键。即便是最简单的可视化,也能够消除数据提供者对自己的数据被低估、误解或歪曲的忧虑。数据可视化能够改变人们对数据的理解方式,提高大众对数据的兴趣,并推动更多更好的数据开发。”
 
  我们用数据描述历史和未来,但如果没有可视化,在外行眼里就和预言家或古老先知无甚区别。本文将带你了解数据可视化的重要性,分享一些专业的可视化技巧,以及一些创建精美可视化的工具、库和软件。
 
  数据可视化的定义及其重要性
 
  数据可视化是将数据视觉化或图像化的过程。这个过程很重要,它可以通过图像表达不同数据之间的关联。人脑善于理解信息图表,而电子表格、CSV文件或数据库中上百行的原始数据则往往令人焦头烂额。
 
  数据可视化可以让趋势和模式显而易见,这在数据科学的探索性数据分析阶段尤为重要。数据可视化不仅对数据科学家、分析师和人工智能/机器学习(AI/ML)工程师很重要,在技术领域内外所有和数据打交道的人都应该学习这一技能。
 
  数据可视化的应用
 
  正如约翰·图基所说:图像最大的价值在于迫使我们关注到意想不到的东西。
 
  数据可视化可以应用于几乎所有领域,每当需要洞察或推断数据时,就离不开数据可视化。但是,数据可视化并不仅仅是为了美观。以图像形式展示数据有如下几个原因:
 
  寻找关联:在没有数据可视化的情况下,尝试确定两个或多个事物之间的相关性是非常困难的。在数据分析中寻找关联是非常关键的,因此,若想对数据做出最深刻的理解,数据可视化是至关重要的。
 
  观察变化:通过数据可视化,可以使用时间序列图观察既定时间内的趋势或模式变化。这有助于回顾历史数据,对未来可能发生的事件做出关键的预测或假设,这可以帮助组织或个人调整产品或服务。
 
  识别频率:频率识别是视觉图表最基本的作用之一。它有助于我们确定自己的办事频率,以便知道要在哪里投入更多的努力、时间和精力,而在哪里可以放松。企业也可以使用频率图表来核对并洞悉特定时间的销量,调整营销流程,以满足消费者的需求。
 
  可视化图表类型
 
  既然知道了什么是可视化,那么就必须了解各种可视化图表的类型,以便讲述数据背后的故事。可视化图表有成百上千种,有些我们很可能永远不会碰到。我将分享几种我所了解的热门图表,排名不以重要性和兴趣为先后。
 
  折线图:又称线条图、线状图或曲线图,是一种将一系列数据点(即“标记”)用直线段连接来呈现信息的图表。它是许多领域中常见的一种基本图表类型。它与散点图类似,但是它的测量点是有序的(通常按x轴排序),并用直线段连接。折线图通常用于将数据在一段时间(时间序列)内的趋势可视化,因此,线条通常是按时间顺序画的。在这种情况下,它们被称为趋势图。
 
  条形图:亦称条状图,是一种用矩形条表示分类数据的图表,矩形条的高度或长度与其所代表的数值成正比。条形图可以横置或纵置,纵置时也称为柱形图。条形图可比较不同类别的离散数值。一个轴表示比较的类别,另一个轴显示数值。一些条形图有多组聚合的矩形条,可显示多个变量的值。
 
  直方图:直方图可以大致显示数量分布的情况。它形似条形图,但衡量的是频数而非走势。
 
  散点图:散点图是一种图表或数学图形,通常使用笛卡尔坐标系(Cartesian coordinate,又称直角坐标系)来显示两个变量下的两组数据。如果为数据点编码(设置颜色/形状/大小),则可以添加其他变量。数据显示为一组点,每个点都有两个变量,分别确定其在水平轴和垂直轴上的位置。
 
  饼图/圆环图:饼图是一种圆形的统计图,它被分成多个区块来说明数字比例。在饼图中,每个区块的弧长(以及相应的中心角和面积)与其所代表的数值成正比。虽然饼图因形似一个被切成块的饼而得名,但它有多种呈现方式,比如圆环图就是一个空心的饼图,不仅能清楚地显示区块或比例,还美化了传统的饼图样式。
 
  热力图:热力图是一种数据可视化技术,这种二维图像用颜色显示某现象的量级。颜色可能有色调或深浅的不同,使读者对某现象的聚集情况,或其在空间上的变化情况一目了然。
 
  地图:利用包含位置信息的数据,可以绘制精美的可视化世界地图。这类地图用颜色编码,以较暗的阴影显示强度更高的区域,反之亦然。它非常适用于可视化病毒的传播情况,广泛应用于新冠病毒影响区域的可视化。
 
  数据可视化的注意事项
 
  “通过可视化,我们把信息变成了一个可以用眼睛探索的景观,一种信息地图。当你迷失在信息里时,信息地图能有所帮助。”——大卫·麦坎德利斯
 
  有效的数据可视化是数据分析的最后关键一步,否则你可能会丢失重要的理解和信息。有很多事是寻求专业可视化的人必须知道的:
 
  选择最合适的可视化类型:在可用于数据可视化的多种图表中,你需要选择出最能代表数据的图表。如果想从数据中获得有用的见解,这一点非常重要。这就意味着你必须善于挑选颜色,色彩编码的可视化对于轻易地识别强度、模式和群集有很大帮助。
 
  运用对比:这也许是最简单的数据可视化方法,但其用处却不可小觑。在展示自己的信息和见解时,你应该尽可能多地进行具体的比较。同时展示两幅图表,每个图表都显示了同一信息在特定时间段内的对比版本,例如并排呈现的2016年和2017年的月度销售记录,这样就能清晰地指出该数据的影响,突出优势、劣势、趋势、峰值和低谷,以便斟酌并行动。
 
  了解受众:在进行可视化时,确定需要从中得出推论或见解的目标受众。谁会看这些数据?他们面临哪些挑战,有哪些障碍阻止他们克服这些挑战?了解这些,并努力构建有足够吸引力的可视化,使受众能够最大限度地洞察或理解数据。
 
  最佳的数据可视化工具和软件
 
  只有运用好的工具或软件,才会有好的可视化效果。下面推荐几款个人使用过的最好的工具和软件:
 
  开源库:有很多免费的编程语言开源库可以用来做数据可视化,它们通常能轻松上手,并且快速操作,因其灵活性而备受喜爱,是多数程序员首选的可视化方法。热门的开源库包括Matplotlib、Seaborn、Bokeh、Plotly和GGPlot。
 
  电子表格应用程序:虽然总被忽略,但是像Microsoft Excel和Google Sheets这样的电子表格应用程序有内置的可视化工具,确实非常适合以图形或视觉形式展示数据。对于那些几乎没有编程技能,也无力负担可视化工具的人来说,这应该是最好的选择。
 
  Tableau:若要制作各种高级而美观的可视化和分析仪表盘,Tableau是最值得推荐的软件。使用Tableau可以轻松快捷地制作精美的气泡图、饼图、折线图、热力图或地球投影图。Tableau易于使用,有许多教程可以指导你如何更好地使用它来让工作效率最大化。
 
  Power BI:Power BI是微软的一项业务分析服务。它旨在提供交互式可视化和商业智能功能。其界面简洁,终端用户可以创建自己的报表和仪表盘。
 
  数据可视化不是锦上添花的“外衣”,而是讲好故事的关键,希望本文分享的方法和资源能让你利用可视化更好地描述数据。

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangwenwen

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。