首页 > 大数据 > 正文

如何成为数据分析师系列(二):可视化图表进阶

2018-12-27 11:53:10  来源:知乎

摘要:继上一篇如何成为数据分析师系列(一):可视化图表初阶整理了折线图、柱形图、散点图、饼图4种基本图表的特性及其使用场景,这次整理了一些平常不太使用,但在合适的场景的使用它们,往往能为你的分析报告加分不少的图表。
关键词: 数据分析师
继上一篇如何成为数据分析师系列(一):可视化图表初阶整理了折线图、柱形图、散点图、饼图4种基本图表的特性及其使用场景,这次整理了一些平常不太使用,但在合适的场景的使用它们,往往能为你的分析报告加分不少的图表。

需要说明的是,这次演示的图表几乎都是用Tableau制作的「因自身学习的原因」,不再是Excel制作的图表。其中有部分图,仍旧能用Excel制作,有部分已经不适合使用Excel制作了。

树状图(TreeMap)

如何成为数据分析师系列(二):可视化图表进阶

功能&应用场景

主要功能用于可视化整体与部分关系,以区块表示部分层级(不同区块用颜色区分),用矩形面积表示大小关系。

缺点

以面积表示大小,当数值相近时人眼难以辨别,当然可通过填充数值弥补。

漏斗图(FunnelPlot)

如何成为数据分析师系列(二):可视化图表进阶

应用场景

适用于关键业务环节数据比较,将各环节串联起来构成漏斗,量化流程内环节,追踪各环节转化率。转化是漏斗图主要表达信息。

  1. 电商类:访问 -> 注册 -> 购物车 -> 下单 -> 付款;
  2. 营销推广:展现 -> 点击 -> 访问 -> 咨询 -> 下单 -> 付款;
  3. CRM:潜在客户阶段 -> 意向客户阶段 -> 谈判阶段 -> 成交签约。

以上只是常见漏斗,实际各种业务流程都可构建漏斗。

缺点

漏斗图在实际分析中并不常见,但在PPT中用作信息描述却明显优于干巴巴的数字

  • 追踪流程较困难,而企业是结果导向的,我们更在意整个流程的转化率,有时不会深究细节;
  • 有时候我们更关心某环节转化率在时间维度上的变化。

漏斗图 vs 行为路径分析

漏斗图要区分于行为分析路径图,行为分析路往往是你对用户的访问路径未知,而漏斗图则是基于已知关键流程构建。

样式变种:将面积形式变种为柱形图样式,显得更加清晰

如何成为数据分析师系列(二):可视化图表进阶

雷达图(RadarChart)

如何成为数据分析师系列(二):可视化图表进阶

应用场景

雷达图主要用于静态的多维对比,它直观地呈现几个观察对象在多个指标上对比情况。

缺点

能表达的静态数据信息有限,线条不宜超过5条,指标不宜超过8个。

注意事项

雷达图中的指标必须是正向且可以比较的,也就是指标代表越好,且当指标差异较大时,需要进行标准化,消除单位影响。

  1. 指标必须是相同表征含义:如都是越大代表越好,或越小代表越好;
  2. 雷达图的数据必须进行标准化;
  3. 雷达图是静态数据很量,不可能有时间维度。

制作过程

数据如图

如何成为数据分析师系列(二):可视化图表进阶

  • 数据源-第一个指标要重复一列,作为环形的起点和终点;
  • 在Tableau中要进行透视表操作;
  • 生成路径: CASE [数据透视表字段名称]

WHEN '认证两分钟回复率' then 1

WHEN '认证数' then 2

WHEN '消息两分钟内回复率' then 3

WHEN '消息回复率' then 4

WHEN '回复消息数' then 5

WHEN '质检得分' then 6

ELSE 7

END

  • 生成弧度:IF [路径]=7 THEN pi()/2 ELSE PI()/2 - ([路径]-1)*2*PI()/6 END
  • 生成X = [数据透视表字段值]*COS([弧度])、Y = [数据透视表字段值]*SIN([弧度])

如何成为数据分析师系列(二):可视化图表进阶

箱线图/盒须图(Box plot)

如何成为数据分析师系列(二):可视化图表进阶

箱线图是利用五个统计量:最小值、第1分位数、第2分位数、第3分位数、最大值 来描述数据的图形。

应用场景

主要用于观察数据分布:观察分布&异常值&偏态等

  1. 箱线图可直观明了地观察数据的分布情况,对不同数据批的数据分布进行对比;
  2. 箱线图可直观明了地识别数据批中的异常值;
  3. 箱线图可初步判断数据批中的偏态和尾重; 异常值出现于一侧的概率越大,中位数也越偏离上下四分位数的中心位置; 异常值集中在较小值一侧,则分布呈现左偏态;异常值集中在较大值一侧,则分布呈现右偏态。

图形元素说明

如何成为数据分析师系列(二):可视化图表进阶

矩盒两端的位置分别对应数据的Q1、Q3分位数,矩形盒内部绘制一中位数线

  • 内限=Q1-1.5*IQR、=Q3+1.5*IQR IQR(四分位矩)=Q3-Q1,它反映了中间50%数据的离散程度(数值越小,中间50%数据越集中)
  • 外限=Q1-3*IQR、=Q3+3*IQR 内限以外位置都是异常值,其中在内限与外限之间的为温和异常值(Mild outliers),外限以外的称为极端异常值(extreme outliers)。

应用举例

如何成为数据分析师系列(二):可视化图表进阶

甘特图(Gantt chart)

如何成为数据分析师系列(二):可视化图表进阶

应用场景:项目管理

甘特图对于说明项目各元素的起始与终止日期效果非常好,清楚看到需要完成的内容和截止时间对于项目的成功非常关键。 多数情况下,我们把甘特图和项目管理联系到一起,不过它其实还可以用来表现随时间推移事物的变化(人员、机器、订单等)。

  • 显示项目进度。例如:说明关键可交付成果、所有者、截止期限。
  • 显示随时间推移的其他事物使用事项。例如:机器使用的持续时间、团队成员有空与否,订单发货时间等。

桑基图(Sankey diagram)

如何成为数据分析师系列(二):可视化图表进阶

桑基图,即桑基能量分流图,也叫桑基能量平衡图。

起源

  • 1898年Matthew Henry Phineas Riall Sankey绘制的“蒸汽机的能源效率图”而闻名世界,此后便以其名字命名为“桑基图”。

应用场景

  1. 展示分类维度间的相关性,以流的形式呈现同一类别的元素数量;
  2. 表示集群的发展,比如特定人群的分布,如:杏仁活跃医生在一段时间的活跃状态变迁;
  3. 具有流程图的性质,表示能量/物质流转。

核心特征

最明显的特征是始末端的分支宽度总各相等,即所有主支宽度的总和应与所有分出去的分支宽度的总和相等,保持能量的平衡。

图形制作

  • 1.S型曲线-sigmoid Fuction

如何成为数据分析师系列(二):可视化图表进阶

该函数图像的特点有: 1. 连续,光滑,严格单调; 2. 关于(0, 0.5)中心对称; 3. 值域为(0,1).

1. 简单桑基图 数据格式如下。左为Data,右为模型Model,要求制作桑基图表示用户ID从position 1变化为position 2的路径。

如何成为数据分析师系列(二):可视化图表进阶

如何成为数据分析师系列(二):可视化图表进阶

  • a. 连接Excel文件,将Data与Model均拖入数据,并由Link进行inner join连接;
  • b. 创建计算字段Sigmoid Function代表S曲线函数:1/(1+EXP(1)-[t]);
  • c. 创建计算字段Curve代表曲线:[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function]);
  • d. 将t拖拽至[列],Curve拖拽至[行],并调整为连续的维度; e. 将Name、ID拖到详细信息,Name拖拽到颜色;
  • f. 选择标记类型为 线,一个简单的桑基图就完成了,示例可参见Tableau文件。

如何成为数据分析师系列(二):可视化图表进阶

难点理解:曲线是如何生成的!

每一个用户有position 1、position 2,以ID=1的用户为例:


  1. position 1=1  
  2. position 2= 100  
  3. [Position 2]-[Position 1]=99  
  4. ([Position 2]-[Position 1])*[Sigmoid Function

将上式记作A,根据S曲线特性,当t->负无穷时,函数s->0,A->0;因s函数严格单调,当t增大时,s增大;当t->正无穷时,s->1,A->([Position 2]-[Position 1])。所以curve=[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function])可生成一条S曲线.

难点是设置position,让每个类别的点靠近。不仅是大类别要靠近,细分类别也要靠近

词云

如何成为数据分析师系列(二):可视化图表进阶

应用场景

词云图是为了描述事物的主要特征,要求能够让人一眼看出一个事物的主要特征,越明显的特征越要突出显示。不要为了词云而词云,要关注制作词云要表达什么信息(包括数据的关系是什么)

  1. 内容型网站对内容关键词提取制作词云作为网站导航;
  2. 人物肖像刻画、事物肖像刻画、小说核心主题刻画,总之对于各种事物进行某种主题的刻画,可以选用词云,如果是表现层次化关系,则不建议使用词云。(下图就不是词云最合适的运用场景)

如何成为数据分析师系列(二):可视化图表进阶

主要特征

词云是可视化中较为艺术化的图表。 Word直接展示对象,Word字体大小表示某种度度量。

以上就是图表类型的介绍了。其实图表类型还有很多很多,如基于鼠标点击的热力图、基于网络传播的关系图等等,但它们都不再适合用Excel或Tableau制作,需要用R/Python进行绘图,暂时用不上,故没有再往下写的必要。

此外,图表制作还有很多主意事项,比如:背景色的使用

黑色背景给人以震撼,但它的情感色调是郑重、悲伤、紧张 白色背景比较单调,但它的情感色调是以轻松

具体的图表如何使用,它是非常灵活的,见仁见智。这些基础理论只是将图形的特征介绍清楚,具体如何用仍需要结合业务场景、分析目标等。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。