Python数据分析初学之分析表格
任务要求
1)使用 pandas 读取文件 data.csv 中的数据 ,创建 DataFrame 对象,并删除其中所有缺失值; 2)使用 matplotlib 生成折线阁,反应该饭店每天的营业额情况,并把图形保存为本 地文件first.png ; 3)按月份进行统计,使用matplotlib绘制柱状图显示每个月份的营业额,并把图形保存为本地文件second.png; 4)按月份进行统计,找出相邻两个月最大涨幅,并把涨幅最大的月份写入文件maxMonth.txt; 5)按季度统计该饭店2017年的营业额数据,使用matplotlib生成饼状图显示2017年4个季度的营业额分布情况,并把图形保存为本地文件third.png。
代码实现
import pandas as pd
import numpy as np
import matplotlib
from matplotlib import pyplot as plt
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('max_colwidth',100)
df = pd.read_csv("./data.csv", encoding='gbk')
matplotlib.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'FangSong']
matplotlib.rcParams['font.size'] = 12
matplotlib.rcParams['axes.unicode_minus'] = False
date = df["日期"]
num = df["销量"]
plt.title("销量折线图")
plt.xlabel("日期")
plt.ylabel("销量")
plt.plot(date, num)
plt.savefig("first.png")
plt.clf()
df["月份"] = df['日期'].map(lambda x: x[:x.rfind('-')])
df_month = df.groupby("月份").sum()
df_month.plot.bar(title="销量-月份柱状图", xlabel="月份", ylabel="销量")
plt.savefig("second.png")
change = df_month.diff()
max_diff_month = change["销量"].argmax() + 1
print(f"销量增长最大的月份是:{max_diff_month}")
f = open('./maxMonth.txt', 'w+')
f.write(f"销量增长最大的月份是:{max_diff_month}")
f.close()
one = df_month[:3]["销量"].sum()
two = df_month[3:6]["销量"].sum()
three = df_month[6:9]["销量"].sum()
four = df_month[9:12]["销量"].sum()
plt.clf()
plt.pie([one, two, three, four], labels=["one", "two", "three", "four"], autopct='%.3f%%')
plt.savefig("./third.png")
plt.show()
data.csv数据表格(截取部分):
日期,销量
2017-01-01,389
2017-01-02,338
2017-01-03,395
2017-01-04,361
2017-01-05,329
2017-01-06,334
2017-01-07,334
2017-01-08,349
2017-01-09,364
2017-01-10,399
2017-01-11,352
2017-01-12,439
2017-01-13,441
2017-01-14,374
2017-01-15,460
2017-01-16,392
2017-01-17,419
2017-01-18,453
2017-01-19,483
2017-01-20,468
2017-01-21,405
2017-01-22,456
2017-01-23,447
2017-01-24,471
|