前言
对于一个马上要毕业的大四学生来说,突然由后端转学机器学习,学起来好难,尤其是回归那里,数学好难!!!!!!!! 因为回归的公式太难搞了,这里先整理一手分类的入门算法,KNN。
算法简介
KNN是啥? 官方的话咱就不整了,通俗来说就是找出距离某个点最近的k个点(这k个点已经分好类了),找出k个点中出现次数最多的分类,就是我们预测的分类。
从上面的描述可以直到,算法总共有这几个步骤
- 计算出目标点到其他点的距离
- 将所有的距离值正序排序
- 在排序结果中找出前k个值,并找出出现次数最多的分类
感觉还是蛮简单的,接下来来写代码吧。
代码实现
计算距离
两个计算距离的方法,分别是曼哈顿公式,欧拉公式
这里介绍一下几个函数 np.sum 求和函数,相比其他的求和公式,这个求和公式支持向量和向量的加法,也支持矩阵和向量的加法(前提是矩阵的列数应该等于向量的维数)。
axis=1表示最终的矩阵应该是一列的,即在进行向量加法之后的结果为[1,2,4]时,设置了axis之后结果就是[7].
np.abs 求绝对值
def distance1(a, b):
sum = np.sum(np.abs(a - b), axis=1)
return sum;
def distance2(a, b):
sum = np.sqrt(np.sum(np.abs(a - b) ** 2, axis=1))
return sum;
引入和切分数据集
用惯了java之后,再用python,就会觉得,python,你是我的神! 切分数据集不需要自己写代码,引入一个库就完事了
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
df['target'] = df['target'].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})
x = iris.data
y = iris.target
y = y.reshape(-1, 1)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1, stratify=y)
分类器(预测目标点属于哪个分类)
class KNN(object):
def __init__(self, k_neighbors=1, disufunc=distance1):
self.k_neighbors = k_neighbors
self.disufunc = disufunc
def fit(self, x, y):
self.x_train = x
self.y_train = y
def predict(self, x):
y_pred = np.zeros((x.shape[0], 1), dtype=self.y_train.dtype)
for index,x_val in enumerate(x):
distance=self.disufunc(self.x_train,x_val)
nn_index=np.argsort(distance)
nn_y=self.y_train[nn_index[:self.k_neighbors]].ravel()
y_pred[index]=np.argmax(np.bincount(nn_y))
return y_pred
测试
knn=KNN(k_neighbors=5)
knn.fit(x_train,y_train)
y_pred=knn.predict(x_test)
accuracy=accuracy_score(y_test,y_pred)
print(accuracy)
这样所有的代码就实现了,还是蛮简单的
总结
学到了很多numpy的函数的用法,确实觉得python真好用,全给写好了。
很多东西还需要在复习,写个博客总结下。
|