探索数据集¶
既然我们已经了解了 Altair API 的基本构成,是时候练习使用它来探索新数据集了。与你的搭档一起,从下面详细介绍的四个数据集中选择一个。
在探索数据时,回顾我们讨论过的构成要素:
各种标记(marks):
mark_point()
(点标记),mark_line()
(线标记),mark_tick()
(刻度标记),mark_bar()
(条形标记),mark_area()
(面积标记),mark_rect()
(矩形标记)等。各种编码(encodings):
x
,y
,color
(颜色),shape
(形状),size
(大小),row
(行),column
(列),text
(文本),tooltip
(工具提示)等。分箱与聚合(binning and aggregations):Altair 文档中提供了可用聚合的列表。
堆叠与分层(stacking and layering)(
alt.layer
<->+
,alt.hconcat
<->|
,alt.vconcat
<->&
)
从简单开始,然后逐步深入。哪些编码最适合定量数据?哪些适合分类数据?使用这些工具可以从你的数据集中学到什么?
我们将留出大约 20 分钟的时间,让你和搭档一起完成这项工作。
from vega_datasets import data
西雅图天气¶
这份数据包含 2012 年至 2015 年间西雅图每日的降水量、温度范围、风速和天气类型,按日期函数排列。
weather = data.seattle_weather()
weather.head()
日期 | 降水量 | 最高温度 | 最低温度 | 风速 | 天气类型 | |
---|---|---|---|---|---|---|
0 | 2012-01-01 | 0.0 | 12.8 | 5.0 | 4.7 | 毛毛雨 |
1 | 2012-01-02 | 10.9 | 10.6 | 2.8 | 4.5 | 雨 |
2 | 2012-01-03 | 0.8 | 11.7 | 7.2 | 2.3 | 雨 |
3 | 2012-01-04 | 20.3 | 12.2 | 5.6 | 4.7 | 雨 |
4 | 2012-01-05 | 1.3 | 8.9 | 2.8 | 6.1 | 雨 |
Gapminder¶
这份数据包含世界上许多国家随时间变化的人口、生育率和预期寿命。
请注意,尽管你可能倾向于对年份使用时间编码,但这里的年份只是一个数字,而不是日期戳,因此时间编码在此处并非最佳选择。
gapminder = data.gapminder()
gapminder.head()
年份 | 国家 | 聚类 | 人口 | 预期寿命 | 生育率 | |
---|---|---|---|---|---|---|
0 | 1955 | 阿富汗 | 0 | 8891209 | 30.332 | 7.7 |
1 | 1960 | 阿富汗 | 0 | 9829450 | 31.997 | 7.7 |
2 | 1965 | 阿富汗 | 0 | 10997885 | 34.020 | 7.7 |
3 | 1970 | 阿富汗 | 0 | 12430623 | 36.088 | 7.7 |
4 | 1975 | 阿富汗 | 0 | 14132019 | 38.438 | 7.7 |
人口¶
这份数据包含从 1850 年至今,美国每十年按年龄和性别划分的人口数据。
请注意,尽管你可能倾向于对年份使用时间编码,但这里的年份只是一个数字,而不是日期戳,因此时间编码并非最佳选择。
population = data.population()
population.head()
年份 | 年龄 | 性别 | 人数 | |
---|---|---|---|---|
0 | 1850 | 0 | 1 | 1483789 |
1 | 1850 | 0 | 2 | 1450376 |
2 | 1850 | 5 | 1 | 1411067 |
3 | 1850 | 5 | 2 | 1359668 |
4 | 1850 | 10 | 1 | 1260099 |
电影¶
电影数据集包含 3200 部电影的数据,包括上映日期、预算以及在 IMDB 和烂番茄上的评分。
movies = data.movies()
movies.head()
片名 | 美国票房 | 全球票房 | 美国 DVD 销量 | 制作预算 | 上映日期 | MPAA 评级 | 片长(分钟) | 发行商 | 来源 | 主要类型 | 创意类型 | 导演 | 烂番茄评分 | IMDB 评分 | IMDB 投票数 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 乡下姑娘 | 146083.0 | 146083.0 | NaN | 8000000.0 | 1998 年 6 月 12 日 | R | NaN | Gramercy | 无 | 无 | 无 | 无 | NaN | 6.1 | 1071.0 |
1 | 初恋,最后的仪式 | 10876.0 | 10876.0 | NaN | 300000.0 | 1998 年 8 月 7 日 | R | NaN | Strand | 无 | 剧情 | 无 | 无 | NaN | 6.9 | 207.0 |
2 | 我娶了个怪人 | 203134.0 | 203134.0 | NaN | 250000.0 | 1998 年 8 月 28 日 | 无 | NaN | Lionsgate | 无 | 喜剧 | 无 | 无 | NaN | 6.8 | 865.0 |
3 | 谈论性 | 373615.0 | 373615.0 | NaN | 300000.0 | 1998 年 9 月 11 日 | 无 | NaN | Fine Line | 无 | 喜剧 | 无 | 无 | 13.0 | NaN | NaN |
4 | Slam | 1009819.0 | 1087521.0 | NaN | 1000000.0 | 1998 年 10 月 9 日 | R | NaN | Trimark | 原创剧本 | 剧情 | 当代虚构 | 无 | 62.0 | 3.4 | 165.0 |