在课程开始之前,请大家下载
习题资源。
1. 分别计算每年的电影数量
解决这道题很简单,我们只需要使用groupby将数据按年份分组,然后对分组后的每个表格求某一列的非个数,就是对应年份生产的电影总量:
import pandas as pd
from matplotlib import pyplot as plt
data = pd.read_excel('aiqiyi.xlsx')
start=data.loc[:,'上映时间'].min()
data=data.groupby('上映时间')
quan = data.count()
sta=quan.count()
y=[]
for i in range(quan.shape[0]):
y.append(quan.iloc[i,1])
print('{}年出产电影数量为{}部'.format(i+start,y[i]))
先看看书出结果: 看起来好像完成了要求,但是细看之下,原数据的截止年份是2016,可是我们输出的是2015。这是为什么呢?因为表格里本没有1987年的数据,然而我们是用i+start的方法求得的年份,i是个连续递增的数字,进而导致输出中1986你按之后的数据都出现了问题。解决这一问题最好的办法就是把表格中所有的数据按年份升序排列,然后取出年份一列,去重并保存为列表。而且y也可以直接使用iloc方法获得quan表格中的随意一列数据,随后通过values方法将这一列数据的内容除存起来:
import pandas as pd
from matplotlib import pyplot as plt
data = pd.read_excel('aiqiyi.xlsx')
df = data.sort_values(by='上映时间').loc[:,'上映时间']
df=list(set(df))
data=data.groupby('上映时间')
quan = data.count()
sta=quan.count()
y=quan.iloc[:,1].values.tolist()
for i in range(quan.shape[0]):
print('{}年出产电影数量为{}部'.format(df[i], y[i]))
这样一来,问题就解决了:
2. 根据电影年份和数量画出折线图。
由于之前我们已经拿到了年份和电影数量的列表,所以完成这个问题只需要一个plot方法即可:
for i in range(quan.shape[0]):
print('{}年出产电影数量为{}部'.format(df[i], y[i]))
plt.plot(df, y, color='green',linewidth=1,marker='o')
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\msyh.ttc", size=10)
plt.xlabel('年份',fontproperties=font)
plt.ylabel('电影数量',fontproperties=font)
plt.title('1985-2016出产电影数量表',fontproperties=font)
plt.show()
这次的练习就到这里了,设置中文标题我们会在下节的内容中详细讲到,大家拭目以待吧
|