上一节我们介绍的是利用网络完成分类任务,即将输入的数据分为十个类别。那么今天,我们来介绍回归任务,即根据输入数据得到一个结果。
数据处理
今天我们要完成的任务就是根据以往的气温数据对当下以及之后的气温进行估计的任务。我们先来引用库,然后再来看看我们的数据长什么样子:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torch
import torch.optim as optim
import warnings
warnings.filterwarnings("ignore")
features = pd.read_csv('temps.csv')
print(features.head())
不难发现,我们要根据temp_2和temp_1等中的数据去预测真实值。在测试集中,预测的数据会与对应的真实值对比,得到损失值。最后一列的数据我们现在用不到。另外,时间数据我们也需要具体处理一下:
import datetime
years = features['year']
months = features['month']
days = features['day']
dates = [str(int(year)) + '-' + str(int(month)) + '-' + str(int(day)) for year, month, day in zip(years, months, days)]
dates = [datetime.datetime.strptime(date, '%Y-%m-%d') for date in dates]
大家可以打印一下查看我们的日期数据变成了什么样子。 接下来我们来绘图看看关键数据的折线图:
plt.style.use('fivethirtyeight')
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows=2, ncols=2, figsize = (10,10))
fig.autofmt_xdate(rotation = 45)
ax1.plot(dates, features['actual'])
ax1.set_xlabel(''); ax1.set_ylabel('Temperature'); ax1.set_title('Max Temp')
ax2.plot(dates, features['temp_1'])
ax2.set_xlabel(''); ax2.set_ylabel('Temperature'); ax2.set_title('Previous Max Temp')
ax3.plot(dates, features['temp_2'])
ax3.set_xlabel('Date'); ax3.set_ylabel('Temperature'); ax3.set_title('Two Days Prior Max Temp')
ax4.plot(dates, features['friend'])
ax4.set_xlabel('Date'); ax4.set_ylabel('Temperature'); ax4.set_title('Friend Estimate')
plt.tight_layout(pad=2)
plt.show()
另外,还有一个问题表格中的week列都是字符串类型,我们需要把它变换一下。变换的方法就是独热编码。所谓独热编码,就是根据这一列数据的不同种类(这里是七个种类)进行编码,比如Fri就会被编码成1000000:
features = pd.get_dummies(features)
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
print(features.head())
之前的week列被拆成了七列,每一列都是一个二进制数。 前面讲过actual列在测试集中需要用于检验的,所以不能作为输入,因此我们要进行以下调整:
labels = np.array(features['actual'])
features= features.drop('actual', axis = 1)
print(features.head())
feature_list = list(features.columns)
print(features.columns)
features = np.array(features)
这样一来,我们就得到了学习所需要的所有数据了。但是由于计算机会把数值大理解为特征明显,因此我们还需要把数据进行标准化,让所有的值都分布在0点附近,这样才能得到较好的学习效果。这一处理方法与正态分布标准化方法类似:
from sklearn import preprocessing
input_features = preprocessing.StandardScaler().fit_transform(features)
print(type(input_features))
print(input_features[0:5])
网络模型构建
至此,我们已经把数据处理成方便计算机学习的格式了,下面就来编写网络结构了(以下代码与前文独立):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torch
import torch.optim as optim
import warnings
import datetime
from sklearn import preprocessing
warnings.filterwarnings("ignore")
features = pd.read_csv('temps.csv')
years = features['year']
months = features['month']
days = features['day']
dates = [str(int(year)) + '-' + str(int(month)) + '-' + str(int(day)) for year, month, day in zip(years, months, days)]
dates = [datetime.datetime.strptime(date, '%Y-%m-%d') for date in dates]
features = pd.get_dummies(features)
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
labels = np.array(features['actual'])
features= features.drop('actual', axis = 1)
feature_list = list(features.columns)
features = np.array(features)
input_features = preprocessing.StandardScaler().fit_transform(features)
'''断点'''
x = torch.tensor(input_features, dtype=float)
y = torch.tensor(labels, dtype=float)
weights = torch.randn((14, 128), dtype=float, requires_grad=True)
biases = torch.randn(128, dtype=float, requires_grad=True)
weights2 = torch.randn((128, 1), dtype=float, requires_grad=True)
biases2 = torch.randn(1, dtype=float, requires_grad=True)
learning_rate = 0.001
losses = []
for i in range(1000):
hidden = x.mm(weights) + biases
hidden = torch.relu(hidden)
predictions = hidden.mm(weights2) + biases2
loss = torch.mean((predictions - y) ** 2)
losses.append(loss.data.numpy())
if i % 100 == 0:
print('loss:', loss)
loss.backward()
weights.data.add_(- learning_rate * weights.grad.data)
biases.data.add_(- learning_rate * biases.grad.data)
weights2.data.add_(- learning_rate * weights2.grad.data)
biases2.data.add_(- learning_rate * biases2.grad.data)
weights.grad.data.zero_()
biases.grad.data.zero_()
weights2.grad.data.zero_()
biases2.grad.data.zero_()
让我们来看看结果:
网络模型简化
上一个完整的代码,我们是自己构建的网络,对于网络的参数更新、反向传播等都可以调包实现,而且我们的回归任务大部分也都需要使用batch来分解学习任务,这些都是可以通过调用轻松实现的:
input_size = input_features.shape[1]
hidden_size = 128
hidden_size2=256
output_size = 1
batch_size = 16
my_nn = torch.nn.Sequential(
torch.nn.Linear(input_size, hidden_size),
torch.nn.Sigmoid(),
torch.nn.Linear(hidden_size,hidden_size2),
torch.nn.Sigmoid(),
torch.nn.Linear(hidden_size2, output_size),
)
cost = torch.nn.MSELoss(reduction='mean')
optimizer = torch.optim.Adam(my_nn.parameters(), lr = 0.001)
losses = []
for i in range(1000):
batch_loss = []
for start in range(0, len(input_features), batch_size):
end = start + batch_size if start + batch_size < len(input_features) else len(input_features)
xx = torch.tensor(input_features[start:end], dtype=torch.float, requires_grad=True)
yy = torch.tensor(labels[start:end], dtype=torch.float, requires_grad=True)
prediction = my_nn(xx)
loss = cost(prediction, yy)
optimizer.zero_grad()
loss.backward(retain_graph=True)
optimizer.step()
batch_loss.append(loss.data.numpy())
x = torch.tensor(input_features, dtype = torch.float)
predict = my_nn(x).data.numpy()
true_data = pd.DataFrame(data = {'date': dates, 'actual': labels})
predictions_data = pd.DataFrame(data = {'date': dates, 'prediction': predict.reshape(-1)})
plt.plot(true_data['date'], true_data['actual'], 'b-', label = 'actual')
plt.plot(predictions_data['date'], predictions_data['prediction'], 'ro', label = 'prediction')
plt.xticks(rotation = '60');
plt.legend()
plt.xlabel('Date'); plt.ylabel('Maximum Temperature (F)'); plt.title('Actual and Predicted Values');
plt.show()
我们就可以查看预测值和真实值的对比图了: 可以看到,学习的效果与真实的数据之间差距已经属于我们能够接受的范围之内了。当然,由于这里的数据量很小,我们再去增加迭代次数或者再增加网络的层数就可能引起过拟合。当然,作为一个练习,我们并不用太过在意这些。 今天给大家介绍了利用深度学习完成简单的回归任务,代码很多但并不复杂,小伙伴们要多多练习~
|