一、背景介绍
某餐饮店8月份的订单数据分别存储在order1,order2,order3三个表中,现餐饮店经理想要了解8月份本餐厅的营业额情况。
二、实现目标
1、读取和合并order1,order2,order3三个表,获得该餐饮店的8月份的所有订单数据。
2、计算8月餐饮的每日销售额,并绘制折线图分析8月餐饮销售额趋势。
3、计算星期一~星期日的销售额并绘制柱状图分析星期与销售额的情况。
4、绘制圆环图分析星期与销售额占比情况。
5、绘制气泡图分析时间,订单量,销售额关系。
三、数据预处理
1.导入库
采用pandas库,对三个表格进行分别读取
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
order1 = open('order1.csv')
order2 = open('order2.csv')
order3 = open('order3.csv')
data1 = pd.read_csv(order1)
data2 = pd.read_csv(order2)
data3 = pd.read_csv(order3)
2.数据合并
data = pd.concat([data1,data2,data3],axis=0)
data
3.获取表格字段
data.columns
四、目标实现
1.读取和合并order1,order2,order3三个表,获得该餐饮店的8月份的所有订单数据。
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei']
order1 = open('order1.csv')
order2 = open('order2.csv')
order3 = open('order3.csv')
data1 = pd.read_csv(order1)
data2 = pd.read_csv(order2)
data3 = pd.read_csv(order3)
data = pd.concat([data1,data2,data3],axis=0)
data
2.计算8月餐饮的每日销售额,并绘制折线图分析8月餐饮销售额趋势。
data['price'] = data['counts'] * data['amounts']
data['price']
week = pd.DatetimeIndex(data['place_order_time'])
data['weekday_name'] = week.weekday_name
data['day'] = pd.DatetimeIndex(data['place_order_time']).day
计算出8月份餐饮的每日销售额
import numpy as np
data_gb = data[['day', 'price']].groupby(by='day')
number = data_gb.agg(np.sum)
number
绘制折线图
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 7))
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.scatter(range(1, 32), number, marker='D')
plt.plot(range(1, 32), number)
plt.title('2016年8月餐饮销售额趋势示意图')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.xticks(range(0, 32)[::7], range(0, 32)[::7])
plt.show()
3.计算星期一至星期日的销售额并绘制柱状图分析星期与销售额的情况。
import numpy as np
data_gb = data[['weekday_name', 'price']].groupby(by='weekday_name')
outcome = data_gb.agg(np.sum)
outcome
计算出星期一至星期日的销售额
sort = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
outcome2 = outcome.loc[sort, 'price']
outcome2
绘制柱状图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.bar(range(1, len(outcome2)+1),outcome2, width=0.5, alpha=0.5)
plt.xticks(range(1, len(outcome2)+1), outcome2.index)
plt.title('星期与销售额的数量情况')
for i, j in zip(range(1, len(outcome2)+1),outcome2):
plt.text(i, j, '%i'%j, ha='center', va='bottom')
plt.show()
4、绘制圆环图分析星期与销售额占比情况。
绘制圆环图
import matplotlib.pyplot as plt
plt.figure(figsize=(5, 5))
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.style.use('Solarize_Light2')
plt.pie(outcome2, labels=outcome2.index, autopct='%.2f %%', wedgeprops=dict(width=0.6, edgecolor='w'))
plt.title('星期销售额占比情况')
plt.show()
5、绘制气泡图分析时间,订单量,销售额的关系。
进行分组聚合
data_gb = data[['order_id', 'price', 'day']].groupby(by='day')
def sort(data):
return len(np.unique(data))
outcome3 = data_gb.agg({'price': np.sum, 'order_id': sort})
outcome3
绘制气泡图
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(10, 6))
plt.scatter(range(1, 32), outcome3['price'], s=outcome3['order_id'])
plt.title('订单量、销售额与时间的关系')
plt.xlabel('时间')
plt.ylabel('销售额')
plt.show()
五、总结
本文主要采用了Python中的pandas库实现了对表格的读取和合并,在通过numpy库实现了对于表格数据的分组聚合,最后通过numpy处理后的数据,使用matplotlib库,绘制出折线图,柱状图,圆环图和气泡图,完成对于目标的实现。
|