概述

工作时有时候有些数据在用Python处理完直接作图比较方便。下面叙述一下日常作图的步骤和常用的图表实现方式。玫瑰图等比较帅的图的做法后续补上。可视化要是做的好还是挺能吸人眼球的,而且python也能实现比较复杂的作图。

选图_根据目的

想要呈现的关系画图第一步就是要决定使用哪种图,使用哪种图取决于作图目的,上面列出9种,每种下面都有对应的基础图形(哪些就不用说了),根据需求选择。

选图_根据数据关系

如果上面的方式没办法掌握,就按照想要呈现的数据关系进行选择。
比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图。
联系:查看两个或两个以上变量之间的关系,比如散点图。
构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图。
分布:关注单个变量,或者多个变量的分布情况,比如直方图。

常用图介绍及代码实现

在这里插入图片描述

散点图

特点:非常适合展示两个变量之间的关系。当然,除了二维的散点图,还有三维的散点图。具体实现如下:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# 数据准备
N = 1000
x = np.random.randn(N)
y = np.random.randn(N)
# 用Matplotlib画散点图
plt.scatter(x, y,marker='x',c = 'g')
plt.show()
# 用Seaborn画散点图
df = pd.DataFrame({'x': x, 'y': y})
sns.jointplot(x="x", y="y", data=df, kind='scatter',);
sns.set_style('whitegrid')
plt.show()
  • Matplotlib:marker 代表了标记的符号。比如“x”、“>”或者“o”
  • Seaborn:其中 x、y 是 data 中的下标。data 就是我们要传入的数据,一般是 DataFrame 类型。kind 这类我们取 scatter,代表散点的意思。 kind 还可以取其他值,后面说,不同的 kind 代表不同的视图绘制方式。

Matplotlib:
在这里插入图片描述
Seaborn:
在这里插入图片描述
区别:Matplotlib 默认情况下呈现出来的是个长方形。而 Seaborn 呈现的是个正方形,而且不仅显示出了散点图,还给了这两个变量的分布情况。

折线图

特点:可以用来表示数据随着时间变化的趋势。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# 数据准备
x = [2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019]
y = [5, 3, 6, 20, 17, 16, 19, 30, 32, 35]
# 使用Matplotlib画折线图
plt.plot(x, y)
plt.show()
# 使用Seaborn画折线图
df = pd.DataFrame({'x': x, 'y': y})
sns.lineplot(x="x", y="y", data=df)
plt.show()
  • Matplotlib:需要提前把数据按照 x 轴的大小进行排序,要不画出来的折线图就无法按照 x 轴递增的顺序展示。

Matplotlib:
在这里插入图片描述
Seaborn:
在这里插入图片描述
区别:在 seaborn 中标记了 x 和 y 轴的含义,散点图也是加了坐标轴含义。

直方图

特点:侧重于分布,直方图是比较常见的视图,它是把横坐标等分成了一定数量的小区间,这个小区间也叫作“箱子”,然后在每个“箱子”内用矩形条(bars)展示该箱子的箱子数(也就是 y 值),这样就完成了对数据集的直方图分布的可视化。


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
a = np.random.randn(100)
s = pd.Series(a) 
# 用Matplotlib画直方图
plt.hist(s)
plt.show()
# 用Seaborn画直方图
sns.distplot(s, kde=True)
plt.show()
sns.distplot(s, kde=False)
plt.show()

Matplotlib:
在这里插入图片描述
Seaborn(核密度估计)
在这里插入图片描述
Seaborn(无核密度估计)
在这里插入图片描述
区别:Seaborn带核密度估计,默认颜色比较小清新,低饱和度。

条形图

特点:如果说通过直方图可以看到变量的数值分布,那么条形图可以帮我们查看类别的特征(频数)。做成动态排行会很好看。

import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]
# 用Matplotlib画条形图
plt.bar(x, y)
plt.show()
# 用Seaborn画条形图
sns.barplot(x, y)
plt.show()
  • Seaborn:sns.barplot(x=None, y=None, data=None),还是可以用DataFrame格式,感觉这是Seaborn的通用格式。

Mathplotlib:
在这里插入图片描述
Seaborn:
在这里插入图片描述
区别:Seaborn默认不是单色

箱线图

特点:又称盒式图,由五个数值点组成:最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。它可以帮我们分析出数据的差异性、离散程度和异常值等。可以应用在去除噪声数据。

# 数据准备
# 生成10*4维度数据
data=np.random.normal(size=(10,4)) 
lables = ['A','B','C','D']
# 用Matplotlib画箱线图
plt.boxplot(data,labels=lables)
plt.show()
# 用Seaborn画箱线图
df = pd.DataFrame(data, columns=lables)
sns.boxplot(data=df)
plt.show()
  • numpy.random.normal(loc=0.0, scale=1.0, size=None),概率分布的均值,scale:概率分布的标准差(对应于分布的宽度,scale越大越矮胖,scale越小,越瘦高)size:输出的shape,默认为None,只输出一个值。loc=0.0, scale=1.0就是正态分布。

Matplotlib:
在这里插入图片描述
Seborn:
在这里插入图片描述
区别:Style不同。

饼图

特点:常用在统计学模块,可以显示每个部分大小与总和之间的比例。在 Python 数据可视化中,它用的不算多。我们主要采用 Matplotlib 的 pie 函数实现它。

import matplotlib.pyplot as plt
# 数据准备
nums = [25, 37, 33, 37, 6]
labels = ['High-school','Bachelor','Master','Ph.d', 'Others']
# 用Matplotlib画饼图
plt.pie(x = nums, labels=labels)
plt.show()

在这里插入图片描述

热力图

特点:热力图是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色就能直观地知道某个位置上数值的大小。

import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
flights = sns.load_dataset("flights")
data=flights.pivot('year','month','passengers')
# 用Seaborn画热力图
sns.heatmap(data)
plt.show()
  • 这里我们使用 Seaborn 中自带的数据集 flights,该数据集记录了 1949 年到 1960 年期间,每个月的航班乘客的数量。
    在这里插入图片描述
    在这里插入图片描述

蜘蛛图

特点:显示一对多关系的方法。在蜘蛛图中,一个变量相对于另一个变量的显著性是清晰可见的。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.font_manager import FontProperties
%matplotlib inline
# 数据准备
labels=np.array([u"推进","KDA",u"生存",u"团战",u"发育",u"输出"])
stats=[83, 61, 95, 67, 76, 88]
# 画图数据准备,角度、状态值
angles=np.linspace(0, 2*np.pi, len(labels), endpoint=False)
stats=np.concatenate((stats,[stats[0]]))
angles=np.concatenate((angles,[angles[0]]))
# 用Matplotlib画蜘蛛图
fig = plt.figure()
ax = fig.add_subplot(111, polar=True)   
ax.plot(angles, stats, 'o-', linewidth=2)
ax.fill(angles, stats, alpha=0.25)
# 设置中文字体
font = FontProperties(fname=r"C:\Windows\Fonts\simhei.ttf", size=14)  
ax.set_thetagrids(angles * 180/np.pi, labels, FontProperties=font)
plt.show()
  • 需要在原有 angles 和 stats 数组上增加一位,也就是添加数组的第一个元素,加上之后才可以构成一个环。
  • 字符前加u是用unicode编码,中文需要,英文一般不用。
  • np.linspace(start,end,num,endpoint)用于生成等差数列,endpoint=False代表不排除终点。
  • flt.figure 是创建一个空白的 figure 对象,这样做的目的相当于画画前先准备一个空白的画板。然后 add_subplot(111) 可以把画板划分成 1 行 1 列。再用 ax.plot 和 ax.fill 进行连线以及给图形上色。
  • 中文字体simhei.ttf下载链接:http://www.downcc.com/font/7665.html
  • ax.fill(angles, stats, alpha=0.25) ,alpha=0.25代表蛛网部分透明度。

在这里插入图片描述

二元变量分布

特点:如果我们想要看两个变量之间的关系,就需要用到二元变量分布。在 Seaborn 里,使用二元变量分布非常方便, sns.jointplot(x, y, data=None, kind) 函数即可。其中用 kind 表示不同的视图类型:“kind=‘scatter’”代表散点图,“kind=‘kde’”代表核密度图,“kind=‘hex’ ”代表 Hexbin 图,它代表的是直方图的二维模拟。

import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
tips = sns.load_dataset("tips")
print(tips.head(10))
# 用Seaborn画二元变量分布图(散点图,核密度图,Hexbin图)
sns.jointplot(x="total_bill", y="tip", data=tips, kind='scatter')
sns.jointplot(x="total_bill", y="tip", data=tips, kind='kde')
sns.jointplot(x="total_bill", y="tip", data=tips, kind='hex')
plt.show()
  • 这里我们使用 Seaborn 中自带的数据集 tips,这个数据集记录了不同顾客在餐厅的消费账单及小费情况。代码中 total_bill 保存了客户的账单金额,tip 是该客户给出的小费金额。我们可以用 Seaborn 中的 jointplot 来探索这两个变量之间的关系。
    在这里插入图片描述
    散点图:
    在这里插入图片描述
    核密度图:
    在这里插入图片描述
    Hexbin 图:
    在这里插入图片描述

成对关系

特点:探索数据集中的多个成对双变量的分布,可以直接采用 sns.pairplot() 函数。它会同时展示出 DataFrame 中每对变量的关系,另外在对角线上,你能看到每个变量自身作为单变量的分布情况。pairplot 函数的使用,就像在 DataFrame 中使用 describe() 函数一样方便,是数据探索中的常用函数。

import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
iris = sns.load_dataset('iris')
# 用Seaborn画成对关系
sns.pairplot(iris)
plt.show()
  1. 这里我们使用 Seaborn 中自带的 iris 数据集,这个数据集也叫鸢尾花数据集。鸢尾花可以分成 Setosa、Versicolour 和 Virginica 三个品种,在这个数据集中,针对每一个品种,都有 50 个数据,每个数据中包括了 4 个属性,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。通过这些数据,需要你来预测鸢尾花卉属于三个品种中的哪一种。import matplotlib.pyplot as plt
    -在这里插入图片描述

总结:

  1. Seaborn 是基于 Matplotlib 更加高级的可视化库。
  2. pairplot() 的使用,相好比 Pandas 中的 describe() 使用一样方便。
    在这里插入图片描述
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐