分箱与聚合¶

我们已经讨论了数据、标记、编码和 编码类型。Altair API 的下一个重要部分是其数据分箱和聚合的方法。

import altair as alt

from vega_datasets import data
cars = data.cars()

cars.head()

	名称 (Name)	每加仑英里数 (Miles_per_Gallon)	气缸数 (Cylinders)	排量 (Displacement)	马力 (Horsepower)	重量（磅）(Weight_in_lbs)	加速度 (Acceleration)	年份 (Year)	产地 (Origin)
0	雪佛兰 Chevelle Malibu	18.0	8	307.0	130.0	3504	12.0	1970-01-01	美国 (USA)
1	别克 Skylark 320	15.0	8	350.0	165.0	3693	11.5	1970-01-01	美国 (USA)
2	普利茅斯 Satellite	18.0	8	318.0	150.0	3436	11.0	1970-01-01	美国 (USA)
3	AMC Rebel SST	16.0	8	304.0	150.0	3433	12.0	1970-01-01	美国 (USA)
4	福特 Torino	17.0	8	302.0	140.0	3449	10.5	1970-01-01	美国 (USA)

Pandas 中的 Group-By¶

数据探索中的一个关键操作是 group-by，这在《Python Data Science Handbook》的第 4 章中有详细讨论。简而言之，group-by 将数据根据某种条件进行分割，在这些组内应用一些聚合操作，然后将数据重新合并在一起。

对于汽车数据，您可以按产地（Origin）进行分割，计算每加仑英里数（Miles per Gallon）的平均值，然后将结果合并。在 Pandas 中，该操作如下所示：

cars.groupby('Origin')['Miles_per_Gallon'].mean()

Origin
Europe    27.891429
Japan     30.450633
USA       20.083534
Name: Miles_per_Gallon, dtype: float64

在 Altair 中，这种分割-应用-合并的操作可以通过将聚合运算符作为字符串传递给任何编码来实现。例如，我们可以通过以下方式展示上述聚合操作的可视化：

alt.Chart(cars).mark_bar().encode(
    y='Origin',
    x='mean(Miles_per_Gallon)'
)

注意，分组操作隐式地在编码中完成：在这里，我们仅按产地（Origin）分组，然后计算每个组的平均值。

分箱最常见的用途之一是创建直方图。例如，这是每加仑英里数的直方图：

alt.Chart(cars).mark_bar().encode(
    alt.X('Miles_per_Gallon', bin=True),
    alt.Y('count()'),
    alt.Color('Origin')
)

Altair 声明式方法的一个有趣之处在于，它允许我们将这些值分配给不同的编码，以查看同一数据的其他视图。

例如，如果我们我们将分箱后的每加仑英里数映射到颜色上，我们将得到以下数据视图：

alt.Chart(cars).mark_bar().encode(
    color=alt.Color('Miles_per_Gallon', bin=True),
    x='count()',
    y='Origin'
)

这让我们更好地理解了每个国家内部每加仑英里数（MPG）的比例。

如果需要，我们可以将 x 轴上的计数进行归一化，以便直接比较比例。

alt.Chart(cars).mark_bar().encode(
    color=alt.Color('Miles_per_Gallon', bin=True),
    x=alt.X('count()', stack='normalize'),
    y='Origin'
)

我们可以看到，美国汽车中有超过一半属于“低油耗”类别。

再次改变编码，这次我们将颜色映射到计数上：

alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=20)),
    color='count()',
    y='Origin',
)

现在我们看到了同一个数据集的热力图！

这正是 Altair 的一个美妙之处：它通过其 API 语法向您展示了不同图表类型之间的关系：例如，一个二维热力图与一个堆叠直方图编码的是相同的数据！

聚合也可以用于仅隐式分箱的数据。例如，请看这张随时间变化的每加仑英里数（MPG）图：

alt.Chart(cars).mark_point().encode(
    x='Year:T',
    color='Origin',
    y='Miles_per_Gallon'
)

点的重叠如此之多，使得很难看清数据的重要部分；我们可以通过绘制每个组的平均值（这里是每个年份/国家组合的平均值）使其更清晰。

alt.Chart(cars).mark_line().encode(
    x='Year:T',
    color='Origin',
    y='mean(Miles_per_Gallon)'
)

不过，mean 聚合只说明了一部分情况：Altair 还提供了内置工具来计算均值置信区间的下限和上限。

在这里，我们可以使用 mark_area()，并使用 y 和 y2 指定区域的下限和上限。

alt.Chart(cars).mark_area(opacity=0.3).encode(
    x='Year:T',
    color='Origin',
    y='ci0(Miles_per_Gallon)',
    y2='ci1(Miles_per_Gallon)'
)