主题:数据之美:一文打尽数据可视化
By:马林
阅读时间:约 12000 字,阅读时间预计 9 分钟
阅读收获:
数据可视化,是产品经理思维里的一道美丽的墙,抵御非本质问题的干扰和诱惑,更专注于需求本身,数据分析旅程是美妙的,数据可视化输出结果是美丽的,真正理解了数据蕴含的本质,你会发现思维里那道关于数据的墙根本是不存在的。
本文带你读懂数据可视化发展、数据可视化实现,及数据可视化的常用工具和图表。
数据,是思维里的一道墙;数据可视化是一道美丽的墙,你会被吸引,也有可能被束缚……
数据(及数据能力),相对 99% 的产品经理来说会认为非常重要,市场调研、产品设计、灰度发布、A/B 测试、产品运营(用户增长)等各个环节都会关注到。
数据,是产品经理思维里的一道墙,帮你抵御非本质问题的干扰和诱惑,更专注于用户需求本身;而针对数据的可视化,则是思维里一道美丽的墙……
数据可视化,是通过图形、表格、线条、符号、色彩等形式将数据蕴含的寓意呈现出来,更好地表达出事物背后的真相和本质。
利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术称为可视化,它将不可见或难以分析的数据转化为可感知的图形、符号、线条、颜色、纹理等等,以提高数据识别和信息传递的效率。
我们拿到的原始数据,可能是半结构化,甚至非结构化的,经过数据清洗和 ETL (数据仓库技术)过程,我们得到规整的结构化数据表,再通过视觉映射,得到需要展示的视觉结构,即按照什么维度、展示什么指标,最后,将视觉结构通过图像转换,转化为最终的可视化图像,呈现给决策者。
ETL,是 Extract-Transform-Load 缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。
数据仓库技术 - 知乎
1. 百度百科 释义
- 数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽离出来的信息,包括相应信息单位的各种属性和变量。- 数据可视化,它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
2. Microsoft Power BI 释义
- 企业每天都会产生销售收入、市场营销业绩、客户资料、库存状况、生产指标、人员编制水平、成本和其他 KPI 的数据。但是,由于要筛选的数据这么多,因此人们很难看清它描述的真实情况。- 数据可视化,可将所有这些粒度数据变为容易理解、具有视觉吸引力并且有用的业务信息。- - 通过利用外部数据源,结合数据可视化工具,经过分析可以更清楚地看到 KPI 状况,还汇集数据并应用 AI 驱动的分析以揭示 KPI、市场与全世界之间的各种关系。
从价值角度、或者从产品经理实践角度,数据可视化可以分成三个层次:
• 基础:以可视化的形式呈现数据,要比单纯的看百分比、表格,数字比大小直观得多;
• 进阶:通过使用图形化、立体化、多维度等方式呈现,恰如其分、重点突出,具有视觉锤效果,强化说服力;
• 镀金:为突出视觉效果刻意为之,所谓高大上(吊炸天)的特效,已经超出了表现数据结果的本身定义。例如:项目汇报、公司总结、绩效考评、toG 信息大屏幕等。
善意提醒(敲黑板):如果是个人评级答辩 PPT、投标文件、甲方项目汇报等此类场景,请把所有的可视化特效都用上。
• 数据空间:是由 N 维属性和 M 个元素组成的数据集所构成的多维信息空间;
• 数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;
• 数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据。
数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。
数据可视化的基本思想,是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
数据中往往隐藏着有助于推动业务发展的重要见解。但问题在于,只是凭借原始数据,无法洞悉真相。当您观察以可视化形式呈现的数据时,脑海中就会出现在其他情况下发现不了的模式、关联和其他顿悟式的见解。
数据可视化可以生动地呈现数据,让您成为讲述数字背后见解的高手。通过实时数据仪表板中交互式报表、图表、图形和其他可视化表示形式,数据可视化可帮助用户快速而有效地形成强大的业务思路。
1. 视觉的力量
尝试找出图中数字 “7”:
换种视觉呈现的方式,是不是很容易找到数字 “7”:
2. 可视化辅助决策
研究表明,人眼是一个高带宽大量视觉信号并行 GPU,带宽在 2.339G/s,相当于一个两万兆网卡,具有超强的模式识别能力,且对可视符号的处理速度比数字或者文本快多个数量级,在大数据时代,数据可视化是人们洞察数据内涵、理解数据蕴藏价值的有力工具。
因此,可视化常常被用来辅助决策,如上图,中间的一张密密麻麻的客户表,到底能得出什么有价值的信息指导决策呢?光看一行行一列列的数据,可能需要很久才能得出一些结论,但是经过可视化,我们可以轻松地以各种形式的可视化快速掌握结论,从而辅助决策。
这就是:可视分析,即将信息提炼为知识,起到“观物至知”的作用,便于决策者从复杂、大量、多维度的数据中快速挖掘出有效信息。
细数数据可视化的发展过程,是信息技术与计算技术的进步,从 1854 年伦敦宽街霍乱到 2020 年全球新冠病毒,从中国人发明火药始于炼丹术,到欧洲人却用它直接终结了冷兵器时代,推动人类科技和文明进步的两大武器是:疫病和战争。
本章节记录数据可视化发展过程,在组织本章节内容时发现,数据、数据可视化这种形式来源生活、平常而真实存在,在我们的生活中、所看到的无处不在。诚然,当我们理解了数据其背后的本质、数据可视化在实际案例中运用才会恰如其分。
原则:学以致用,从剖析本质中找到学习、应用的兴趣和快乐。
1. 死亡地图与 COVID-19
2. 17 世纪之前:图表萌芽
3. 17 世纪:物理测量
4. 18 世纪:图形符号
5. 19 世纪:数据图形
6. 20 世纪:多维数据
7. 1970s - 21 世纪:交互可视化
8. 2004s 至今:可视分析学
John Snow 大概永远不会想到,自己在排查霍乱传播途径时,在地图上标记死于霍乱病人的“霍乱地图”居然会被后人评为历史上十佳数据可视化的案例,并且成为了医药地理学和传染病学中一项基本的研究方法。John Snow(约翰·斯诺,1813 年 3 月 15 日-1858 年 6 月 16 日),英国内科医生,曾经当过维多利亚女王的私人医师,因在 1854 年伦敦宽街霍乱爆发事件研究中作出重大贡献,被认为是麻醉医学和公共卫生医学的开拓者。
John Snow 生活的年代,对霍乱的起因的主流意见是空气污染论(认为霍乱像黑死病一样通过空气传播),另一方意见是未被广泛接受病菌学说。通过深入研究,在与当地居民的沟通中加上亨利·怀特海德的协助,John Snow 判断出宽街的公共水泵是污染源,随后使用点示图去解释霍乱案例爆发点是以水泵为中心。John Snow 通过连接霍乱事件与地理信息的关联,创制了著名的 “霍乱地图”。
John Snow 将该地区的每一个水泵,以及四周的水井都标注到图中,最后他发现最多的霍乱患者围绕的水泵位于宽街。
死亡地图
始于 2020 年全球爆发的 COVID-19 ,我们每天都会查看疫情地图,要感谢祖师爷 John Snow 的伟大成就。
图片来源:全球在COVID-19肆虐下,活动又有什么变化呢? - Garmin
这是引用 Garmin 官网数据有意思的图表(2019 年 4 月 - 2020 年 4 月),说明大家都在居家,户外的行为也转为室内的器材训练。全球在 COVID-19 肆虐下,全球整体步数在 2020 年 4 月下降了约 12%,全球步数从“训练活动中”增加 24%。在中国、墨西哥、南非以及其他很多国家,器材训练相比于其他活动增加更多。以全球来说,室内有氧训练占其中的 50%;而去年同时期则是超过 50% 的比例为重量训练,这可以视为健身房结构的训练转向以家庭为主的替代训练。
人类早在公元前 6200 年就掌握了观测和绘制的能力,此后也一直通过手工的方式制作可视化作品。可视化萌芽出自地图和一些简单的图表,数据也不是测量而来,目的大多是展示一些重要的信息。
人类第一幅地图(公元前 6200 年)
公元950年,欧洲人画出了基于时间变化的折线图,用于展示太阳,月亮等行星的位置变化趋势,开始出现如今的数据图表的雏形。
17 世纪以后,随着对物理基本量(时间、距离等)的测量理论和设备的完善,制图学理论也随着分析几何、概率论等学科迅速发展,17 世纪末产生了基于真实测量数据的可视化作品。
人类第一幅天气图( 1686 年)
这幅图是谁画的呢?Edmond Halley(1656 - 1742),埃德蒙·哈雷,是不是挺耳熟,就是发现哈雷彗星的那个哈雷。
图上绘制了信风和季风的方向,“一目了然地显示了这些风的所有不同地段和路线;据此,有可能比任何口头描述都更容易理解”。
Edmond Halley
进入 18 世纪,人类不再满足于地图上的几何信息,随着统计理论、实验数据分析等学科的发展,现在我们所熟悉的函数图、抽象图被广泛发明。
丹麦和挪威的进出口贸易时间序列(1780 年)
此图来自 威廉·普莱费尔( William Playfair,1759 - 1823 ),他是来自苏格兰的工程师和政治经济学家,今天我们使用的折线图、条形图、饼图和面积图都是他发明的。图中,红线是出口额,黄线是进口额,通过两条折线可以很明显地看出,1754 年前,出口额小于进口额,之后出口额反超。
19 世纪,统计图、概念图等迅猛爆发,此时人们已经掌握了众多统计数据可视化工具,包括柱状图、饼图、折线图、时间线、轮廓线等。政府规划和运营也越来越多地采用可视化方法,19 世纪下半叶,迎来了数据可视化的黄金时期。这个时期的数据可视化代表作,除了上文中提到的“霍乱地图”,还有下面这张拿破仑东征流图。
1812-1813 对俄战争中,法军人力持续损失示意图(1869 年,被誉为史上最佳可视化图表)
这张图的信息量极大,是 1969 年法国工程师 Charles Joseph Minard 制作的,描绘了拿破仑 1812 年率军攻占莫斯科的行军图。
其中,最底层是地图,深黄色图形表示行军规模,黑色图形表示撤军规模,线条宽度代表了军队的人数,可以看出从出发时开始的 42 w 大军,行军规模逐渐缩减,撤军规模逐渐增加,到达莫斯科时只剩 1 w 人。当然,线条的走势也是行军/撤军路线。
同时,底部既有横向的时间轴,也有纵向的刻度标识了当时的气温。此图可以直观感受到,拿破仑的 40 万大军是如何在长途跋涉和寒冬中消耗殆尽,此次东征也视为拿破仑由盛转衰的转折点。
南丁格尔玫瑰图(1855 年)
南丁格尔玫瑰图,就是那位护士弗罗伦斯·南丁格尔( Florence Nightingale ),护理学的奠基人,她的另一个身份是统计学家。
19 世纪 50 年代,英国、法国、土耳其和俄国进行了克里米亚战争。南丁格尔主动申请,自愿担任战地护士。当时的医院卫生条件极差,士兵死亡率高达 42%,直到 1855 年卫生委员会来到医院改善整体的卫生环境后,死亡率才戏剧性地降至 2.5% 。
当时,南丁格尔注意到这件事,认为政府应该改善战地医院的条件来拯救更多年轻的生命,“南丁格尔玫瑰图”直观展示了卫生条件对死亡人数的影响,因而争取到了更好的医疗条件。
Florence Nightingale
进入 20 世纪,数据可视化的黄金时期终结,主要原因是随着数理统计的诞生,追求数理统计的数学基础成为数据科学行业的首要目标,而图形和可视化作为其辅助,没有得到太多重视,多维数据可视化是这个时期可视化的重要特点。
1904 年,关于太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性
随着计算机的发明和应用,人们开始采用计算机编程完成可视化过程。70 年代以后,随着人机交互界面、图形显示设备的普及,人们获得了将更复杂、更高维数据的可视化能力。
谷歌人体浏览器
自 80 年代末开始,Windows 系统的问世使得人们能够直接与信息交互,也极大地提升了人们对于可视化的热情。同时,随着高维数据和高性能计算的进一步普及,对于多维、时变、非结构化数据呈现和分析的需求也更加强烈,可交互的可视化产品开始登上历史舞台。
进入 21 世纪,人们并不满足现有可视化技术对于数据的呈现和表示,开始将可视化和数据挖掘、图形学结合起来,以辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘出有用的信息,以便有效做出决策,这门学科就称为可视分析学。
大数据公司 Palantir 为美军分析的亚丁湾海盗概率热点图
进入“大数据时代”,复杂、异构、大尺度的数据中经过分析所得的知识,和人类所掌握知识的差异是导致新知识发现的根源,但如此复杂的数据也往往会让人感到困惑。
利用人的强大视觉识别能力和推理分析来表达、分析、检验这些差异正是“大数据时代”数据可视化的新思路。这就要求我们在进行数据可视化时必须理解数据含义、目标明确。
数据可视化本身并没有多么高级,但为什么从可视化的角度去观察、审视数据时,总能让我们叹为观止。 数据可视化没有天花板,只有更“适合”,在所谓“适合”的标准上没有答案。我们在进行数据可视化时,结合数据分析目标、受众对象综合考虑。
1. 获取数据并清洗
2. 明确目标(理解数据含义)
3. 定义(选择)适合的呈现形式
4. 常见的数据可视化形态
定义获取数据的功能,并验证上报准确数据,俗称:“数据打点”。同时,为了提升后续处理数据的效率,尽量在前期按照结构化、干净的数据目标准备。
再漂亮的可视化,没有准确的数据支撑,也是空中楼阁。不光是可视化,基于数据的分析,模型,支撑风控、营销和运营,在缺少数据质量支撑的前提下几乎都无从谈起。
做可视化,最容易进入的误区就是,拿到一堆数据,还没有理解数据有什么含义,直接就开始套用图形进行展示,把大部分时间用在美化图表上,而完全忽略数据本身传达的意义。
下面这张图信息量很大,可以帮助大家评估一个可视化作品是否成功。比如:把数据按照一个故事线组织起来,那多半是一个研究文档或者提纲,再加上特定的目标和功能介绍,这时可以画出线框图,再加上视觉形式,最终有可能变成一个成功的可视化作品。
比如:只有数据和视觉形式,只能是纯粹的数据艺术,看起来很美,其实没有价值,就算加上一个故事,也没有什么特定的用途,给不了任何启发,只有赋予它一个特定的目标,才有可能成为一个成功的可视化。
所以,明确一个可视化作品的目标是很重要的,知道要传达什么信息,达到什么目标,才知道要选择什么展现形式。不同的图表类型适合表达不同的含义,如果要比较趋势,折线图就比柱状图更合适;要表达占比,饼图不一定比堆积柱状图好用。
根据我们需要表达的可视化目标,选择合适的可视化呈现图形,这里并没有完全绝对完全正确的标准或规则,有个原则:挑选最恰当最合适的图表形式来呈现目标。
引入 Andrew Abela 博士在 2009 年创建的图表选择图,您想用数据表示什么,通常有 4 种主要类型:
• 比较:当我们想要比较数据中的不同值或属性时。有一些变体,具体取决于数据。例如:数据是否包含时间变量?多少个时间段?数据存在多少变量和类别?
• 组成:当我们想知道数据是如何组成时,即数据集中存在哪些一般特征。有一些变体,具体取决于数据。例如:随着时间的推移是否有变化?有多少个时间段?在静态数据中,是否有累积的值?
• 分布:当我们想了解单个数据点如何在整个数据集中分布时。根据我们要分析分布的变量数量,我们可以选择条形图、折线图或散点图。
• 关系:在这种情况下,我们有兴趣了解值和属性如何相互关联。面对数值,当涉及两个变量时,通常使用散点图,当涉及三个变量时,使用气泡图。
在这四种类型中,大多数情况下最有可能使用前两种,比较和组合,除非有高级统计分析需求。
如果以上流程图看起来复杂,那么可以看一个简单的列表,有前辈们已经归纳好了。搬运自 FT中文网 提供的 可视化词典 参看下图。FT 中文网 可视化词典,打印出来贴墙上吧,抬头就可以知道选用哪种图表合适。
图片可能被网络压缩后模糊,原图非常大,建议下载后看大图,需要原图可以私信。
1. 软件生成分析图
Excel、Python、Matlab 和 SAS 等数据分析软件经常自带数据可视化包或工具,科研人员或技术人员可借此对数据进行初步可视化制作,以继续深入分析和挖掘,维度相对简单,对视觉要求较低,适合技术人员初步分析或学者发表研究论文。下图是针对 2016 年美国大选选民学历的可视化分析,未接受高等教育的白人比例越大(相比 4年前),Trump 的胜算越大,而这个比例在男性中更为明显。
2016 年美国大选选民学历的可视化分析
2. 静态分析图
由设计人员根据清洗过的数据,充分分析其含义后,利用 illustrator、Corel Draw、PS 等平面设计软件进行手动加工,同时加入注解信息获得。可读性趣味性很强,但相对数据准确度不高,常出现于媒体资讯或者公司行业报告中,也就是大家经常看到的“一图看懂 XXXX”。
服装行业外贸洞察报告-阿里巴巴-2019
3. 动态 BI 系统
可借由 HTML5、JS 等技术动态地、可交互地展示高维数据,非技术背景的普通用户也可以对自己感兴趣的数据进行选取和下钻。常由多个网页构成商业智能(BI)系统,但近年来也被媒体广泛采用展示热点数据。
在众多前人对可视化技术研究的基础上,形成了很多成熟的方法论。
对于我们来讲,需要时刻明确 2 个要点:为什么要可视化、可视化要表现什么,然后依据前文提到的方式进行选取即可。
划重点:
1. 按照 Andrew Abela - 图表选择图 选择对应的可视化形态
2. 按照 FT 中文网 - 可视化辞典 选择对应可视化形态
1. 柱状图 (Basic Column Chart)
2. 横向柱状图 (Bar Chart)
3. 分组柱状图 (Multi-set Bar Chart)
4. 双向条形图 (Bi-directional Bar Chart)
5. 子弹图 (Bullet Graph)
6. 折线图 (Line Chart)
7. 面积图 (Area Chart)
8. 漏斗图 (Funnel Chart)
9. 雷达图 (Radar Chart)
10. 南丁格尔玫瑰图 (Nightingale Rose Chart)
11. 饼状图 (Pie Chart)
12. 环形图 (Donut Chart)
13. 堆叠面积图 (Stacked Area Chart)
14. 堆叠柱状图 (Stacked Bar Chart)
15. 瀑布图 (Waterfall Chart)
16. 散点图 (Scatter Graph)
17. 气泡图 (Bubble Chart)
18. 地图类 (Map)
柱状图用于不同分类的数据之间对比情况,是一种以长方形的长度为变量的统计图表,有且仅有一个变量,其中一个轴表示需要对比的分类维度,另一个轴代表相应的数值 。柱状图适用于描述分类数据(大小,数值)之间的对比。
矩形数量控制在 12 条以内最佳,分类太多建议使用横向柱状图
横向柱状图,也有叫做条形图,和柱状图相似只是交换了 X 轴和 Y 轴,用于描述分类数据之间的对比,如果条目较多,比如大于 12 条,更适合用条形图,也常见用于手机端,Top 排行或分类名称较长的情况。
当条目较多,如大于 12 条,且移动端显示需求较大时,更适合用条形图( Y 轴一定从 0 开始的) ,也常用于排行榜或名称较长的情况。
数量一般不超过 30 条,否则易带来视觉和记忆负担。
分组柱状图,又叫聚合柱状图或者分组条形图,可以在同一个轴上显示各个分类下不同数据情况, 跟柱状图类似,使用条柱的高度来展示和对比数据值,每个分组中的条柱用不同的颜色或相同颜色不同透明度区分类别,每组分组数据之间需要保持相应的间距。
根据分组数量,可以使用横向分组条形图(类目超过 10 个)也可以使用纵向分组条形图。同一个分组内,矩形用不同的颜色或相同颜色的不同透明图做区分。类似于柱状图,间距和大小并没有严格的规范,可根据实际业务内容进行调整,避免过粗或者过细,间距也要适中 。
双向柱状图(又名正负条形图),使用正向和反向的条柱显示类别之间的数值比较。其中分类轴表示需要对比的分类维度,连续轴代表相应的数值,分为两种情况,一种是正向刻度值与反向刻度值完全对称,另一种是正向刻度值与反向刻度值反向对称,即互为相反数。和柱状图相似,最明显的区别是有正反数据的区分,更加强调其对比性 ,适用于两组以上分类数据比较,常见于收入和支出。
子弹图的样子很像子弹射出后划出的轨道,所以称为子弹图 ,其无修饰的线性表达方式使我们能够在狭小的空间中表达丰富的数据信息,相对于圆形构图的信息表达,在信息传递上有更大的效能优势。
子弹图的使用场景是对比分类数据的数值大小以及是否达标。
折线图是常用到的图表之一,又称为趋势图,是用于显示数据在一个连续时间区间或时间跨度上的变化,它的特点是反映事物随时间或有序类别而变化的趋势。
横轴为连续类别(如时间)且注重变化趋势时,适用折线图 。横轴需表示连续数值,否则折线图意义不大。在使用折线图时,不建议在曲线下方着色,曲线下方着色容易让人联想到面积图,有时为了视觉辅助加成,可以在下面做一个微渐变。同一图表内同时展示的折线数量不宜超过 4 个,太多可以分开列表展示 。为了视觉的美观可以将折线转换成平滑曲线。
面积图又叫区域图,是在折线图的基础上形成的,它将折线图中的折线与自变量坐标轴之间的区域用颜色或者纹理填充,需要注意的是颜色要有一定的透明度。这样的填充区域称作面积,可以更易突出趋势信息。
面积图和折线图一样,用于强调数量随时间而变化的程度,常用于表现趋势和关系,而不是表现特定的值。
• 面积图和折线图都是展示时间或者连续数据上的趋势,折线图相互之间不进行遮盖,可以用于显示更多的记录。
• 面积图可以进行层叠,非常适合观察总量和分量的变化。
漏斗图,随着流程的推进,每个环节所要达成的成功数(或到达数)在逐渐减少,整个过程像漏斗一样逐步流失。漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策 。
漏斗图从上到下,有逻辑上的顺序关系,表现了随着业务流程的推进业务目标完成的情况,适用于流程流量分析 ,漏斗图最常用在增长链路分析。漏斗图总是开始于一个 100% 的数量,结束于一个较小的数量,所以在设计时,图形面积是逐步变小 。不同的环节用不同的颜色或者同一种颜色不同透明度进行区分,帮助用户更好区分各个环节之间的差异。
雷达又叫戴布拉图、蜘蛛网图,常出现在游戏或动漫人物属性介绍中(大家常说的六边形战士就是雷达图,六边即是 6 种属性),它将多个维度的数据量映射到坐标轴上,在坐标轴设置恰当的情况下雷达图所围面积能表现出一些信息量。
雷达图,常用于一些多维的性能数据,如综合评分,也可用于多组多维度对比。在使用中,一般会将多个坐标轴都统一成一个度量,比如统一成分数、百分比等,这样就成了一个二维图。
坐标轴可以是圆形或是多边形,具体可根据整体页面进行调整;不同数值之间需要用不同颜色或者相同颜色不同透明度区分。
南丁格尔玫瑰图又名鸡冠花图、极坐标区域图,是南丁格尔在克里米亚战争期间提交的一份关于士兵死伤的报告时发明的一种图表,前文已经描述过。
南丁格尔玫瑰图是在极坐标下绘制的柱状图,使用圆弧的半径长短表示数据的大小(数量的多少)。
由于半径和面积的关系是平方的关系,南丁格尔玫瑰图会将数据的比例大小夸大,尤其适合对比分类数据的数值大小。图表中,不同数值颜色进行区分;不适用于分类过少的场景,或者部分分类数值过小的场景 ,最多不超过 30 条分类数据。
饼状图通过扇形区块的面积、弧度和颜色等视觉标记,用来表示不同分类的占比情况,整个圆饼代表数据的总和,每个区块(圆弧)表示该分类占总体的比例大小。
饼状图中,表示不同分类的占比情况,整个饼图代表数据的综合。
2 组以上分类数据,最多不超过 9 个,分组过多很难清晰对比各数据占比;分类占比差别不明显时,建议使用柱状图;当空间足够时,图例可以在扇形内,或者靠近扇形。
环形图,又称甜甜圈图,其本质是饼图中间区域留空,相较于饼状图关注面积占比情况,环形图更关注角度和弧长的对比。
与饼状图一样,用于对比分类数据的数值大小,当同一页面有多组数据需要进行对比时,建议使用环形图 。
饼图的整体性更强,适用于要将注意力集中在比较饼图内各个扇形之间占比整体比重的关系;环图相对于饼图控件利用率更高,适用于同个页面内重复使用,对其他元素干扰较小。
堆叠面积图和面积图一样,唯一的区别就是除了表达趋势外,也表达总量和分量的构成情况以及部分与整体的关系。
优先对比每个分组数据变化的趋势,其次表达总量和分量的构成情况;和折线图一样,横轴表示连续数值,否则意义不大;分类指标的纵轴起点,并不是从 0 开始,而是在上一个分类基础上叠加。
堆叠柱状图将每个柱进行分割以显示相同类型下各个数据的大小情况。它可以形象展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示的是单个项目与整体之间的关系。
表达一级分类的对比,以及二级分类的占比构成;分类指标的纵轴起点是在上一个分类基础上叠加 ;分类不超过 12 个,分组颜色不超过 6 个,分类分组过多,数据识别度会相对降低。
瀑布图,是由麦肯锡顾问公司所独创的图表类型,因为形似瀑布流水而称之为瀑布图,也被称为飞行砖图或马里奥图,瀑布图有助于理解依次引入正值或负值的累积效应。
瀑布图,用于表达多个数值之间的变化过程,通常用于了解初始值如何受到一系列中间正值或负值的影响。瀑布图,在使用时可参照柱状图设计,但要注意正值和负值的区分。
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定 。也有一种情况,根据数据的分类将坐标象限进行调整,表达数据在不同象限内的情况。
散点图,可以结合颜色来标记不同的类别,如果分类过少不推荐用散点图。
气泡图是一种多变量图表,是散点图的变形,气泡图最基本的用法是使用三个值来确定每个数据序列,气泡的大小是映射的面积而不是半径或者直径绘制的。
气泡图,适合观察数据的分布情况,对比各个分类字段对应的数值大小;气泡图,可以结合颜色表达数据的分类;绘制时,气泡的大小是映射的面积而不是半径或者直径。
按照地图的形式,显示地理区域上的数据。在实际可视化中,使用地图作为背景,通过图形的位置来表现数据的地理位置,通常来展示数据在不同地理区域上的分布情况。
地图可以结合散点图、气泡图等,分为:带气泡的地图 (Bubble Map)、分级统计地图 (Choropleth Map)、点描法地图 (Dot Map) 三类常见的地图。
地图,多用于各地区的分布情况;地图,可以结合多种不同的可视化方式,比如结合远点动画,增强位置效果,结合飞线图表达起始点和重点的流向。
注意:《地图管理条例》(2015 年 11 月 26 日国务院令第 664 号公布)第十五条明确说明:“国家实行地图审核制度。向社会公开的地图,应当报送有审核权的测绘地理信息行政主管部门审核。但是,景区图、街区图、地铁线路图等内容简单的地图除外。” 在设计中运用地图元素一直是一个风险度极高的事情,主要是因为它的合规性和完整性非常的专业,容易触发红线,所以在遇到需要使用地图的情况时,设计前期可先向有关部门了解相关审批流程。
建议:我们在设计地图类的可视化图表时,借鉴地图的表现思维,而不是生搬地图具体样式。比如,我们经常看到热力图的用法,就是地图类图表的变形,借鉴地图的表现力。
某数据分析案例:电商平台用户购买行为与所在地域的关系,图表颜色深浅表现销量多少
眼动研究中,针对网页布局与视觉焦点浏览关系热力图
数据可视化目录
https://datavizcatalogue.com/
FT 视觉辞典
http://ft.com/vocabulary
数据可视化入门
https://observablehq.com/@didoesdigital/links
Chartio Data Tutorials (数据图表指南)
https://chartio.com/learn/charts/
图之典 - 数据图表收录
http://tuzhidian.com/
Microsoft Power BI - 微软数据可视化平台工具
https://powerbi.microsoft.com
网易数帆 - 数据可视化平台工具
https://sf.163.com/
终于把数据可视化相关的内容整理完了,记得开篇时提到,数据可视化是思维里的一道墙……
回到原点:我们想通过数据、数据可视化讲述什么故事,想向人们表达什么;我们分析研究数据,想通过数据可视化在数据的迷阵里找到什么;我们不断的调整变量、调整图表样式,时间、指标、数值、比值、增长、流失等等,试图从他们中间找到哪些微妙的关系。
数据分析旅程是美妙的,数据可视化输出结果是美丽的,真正理解数据蕴含的本质之后,你会发现思维里那道关于数据可视化的墙根本是不存在的。
参考资料:
什么是数据可视化?
https://powerbi.microsoft.com/zh-cn/data-visualization/
数据可视化简史
https://www.secrss.com/articles/36649
数据可视化图表选择篇
http://www.boxui.com/ued/design-idea/46431.html
数据可视化:如何选择图表类型
https://uxdesign.cc/data-visualization-how-to-choose-a-chart-type-7886dc0fe590
数据可视化目录
https://datavizcatalogue.com/#google_vignette
数据可视化项目 - datavizproject.com
https://datavizproject.com/data-type/donut-chart/
How to choose the right chart for your data
https://biuwer.com/en/blog/how-to-choose-the-right-chart-for-your-data/
FT 数据辞典
https://github.com/Financial-Times/chart-doctor/tree/main/visual-vocabulary
数据的视觉表达:15款数据可视化软件盘点 https://www.36dianping.com/dianping/5557510010
图之典
http://tuzhidian.com/