探索数据集

既然我们已经了解了 Altair API 的基本构成,是时候练习使用它来探索新数据集了。与你的搭档一起,从下面详细介绍的四个数据集中选择一个。

在探索数据时,回顾我们讨论过的构成要素:

  • 各种标记(marks):mark_point()(点标记), mark_line()(线标记), mark_tick()(刻度标记), mark_bar()(条形标记), mark_area()(面积标记), mark_rect()(矩形标记)等。

  • 各种编码(encodings):x, y, color(颜色), shape(形状), size(大小), row(行), column(列), text(文本), tooltip(工具提示)等。

  • 分箱与聚合(binning and aggregations):Altair 文档中提供了可用聚合的列表

  • 堆叠与分层(stacking and layering)(alt.layer <-> +, alt.hconcat <-> |, alt.vconcat <-> &

从简单开始,然后逐步深入。哪些编码最适合定量数据?哪些适合分类数据?使用这些工具可以从你的数据集中学到什么?

我们将留出大约 20 分钟的时间,让你和搭档一起完成这项工作。

from vega_datasets import data

西雅图天气

这份数据包含 2012 年至 2015 年间西雅图每日的降水量、温度范围、风速和天气类型,按日期函数排列。

weather = data.seattle_weather()
weather.head()
日期 降水量 最高温度 最低温度 风速 天气类型
0 2012-01-01 0.0 12.8 5.0 4.7 毛毛雨
1 2012-01-02 10.9 10.6 2.8 4.5
2 2012-01-03 0.8 11.7 7.2 2.3
3 2012-01-04 20.3 12.2 5.6 4.7
4 2012-01-05 1.3 8.9 2.8 6.1

Gapminder

这份数据包含世界上许多国家随时间变化的人口、生育率和预期寿命。

请注意,尽管你可能倾向于对年份使用时间编码,但这里的年份只是一个数字,而不是日期戳,因此时间编码在此处并非最佳选择。

gapminder = data.gapminder()
gapminder.head()
年份 国家 聚类 人口 预期寿命 生育率
0 1955 阿富汗 0 8891209 30.332 7.7
1 1960 阿富汗 0 9829450 31.997 7.7
2 1965 阿富汗 0 10997885 34.020 7.7
3 1970 阿富汗 0 12430623 36.088 7.7
4 1975 阿富汗 0 14132019 38.438 7.7

人口

这份数据包含从 1850 年至今,美国每十年按年龄和性别划分的人口数据。

请注意,尽管你可能倾向于对年份使用时间编码,但这里的年份只是一个数字,而不是日期戳,因此时间编码并非最佳选择。

population = data.population()
population.head()
年份 年龄 性别 人数
0 1850 0 1 1483789
1 1850 0 2 1450376
2 1850 5 1 1411067
3 1850 5 2 1359668
4 1850 10 1 1260099

电影

电影数据集包含 3200 部电影的数据,包括上映日期、预算以及在 IMDB 和烂番茄上的评分。

movies = data.movies()
movies.head()
片名 美国票房 全球票房 美国 DVD 销量 制作预算 上映日期 MPAA 评级 片长(分钟) 发行商 来源 主要类型 创意类型 导演 烂番茄评分 IMDB 评分 IMDB 投票数
0 乡下姑娘 146083.0 146083.0 NaN 8000000.0 1998 年 6 月 12 日 R NaN Gramercy NaN 6.1 1071.0
1 初恋,最后的仪式 10876.0 10876.0 NaN 300000.0 1998 年 8 月 7 日 R NaN Strand 剧情 NaN 6.9 207.0
2 我娶了个怪人 203134.0 203134.0 NaN 250000.0 1998 年 8 月 28 日 NaN Lionsgate 喜剧 NaN 6.8 865.0
3 谈论性 373615.0 373615.0 NaN 300000.0 1998 年 9 月 11 日 NaN Fine Line 喜剧 13.0 NaN NaN
4 Slam 1009819.0 1087521.0 NaN 1000000.0 1998 年 10 月 9 日 R NaN Trimark 原创剧本 剧情 当代虚构 62.0 3.4 165.0