sklearn全称为scikit learn 专门提供了python机器学习的模块 是一个高效的数据分析算法工具 建议在numpy scipy matplotlib上
对于大多数机器学习 通常有以下四个数据集
1:train_data? 训练数据集
2:train_target? 训练数据的真是结果集
3:test_data 测试数据集
4:test_target? 测试数据对应的真是结果 用来检测预测的正确性
sklearn模块提供了一个强大的数据库 包括鸢尾花 波士顿房价等等 下面用鸢尾花数据集做演示
鸢尾花(iris)数据集 是常用的分类实验数据集 由fisher在1936年收集整理,包含150个数据集 分为三类 每类五十条数据 每条数据包含4个属性。
效果图如下
?代码如下
from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
import matplotlib; matplotlib.use('TkAgg')
import pandas as pd
import matplotlib.pyplot as plt
data=load_iris()
print("以下是鸢尾花数据集")
data =pd.DataFrame(data=load_iris().data,columns=load_iris().feature_names)#转换为dataframe对象
print(data)
x=data.iloc[:,[0,2]].values
plt.scatter(x[:50,0],x[:50,1],color='red',marker='o',label='setosa')
plt.scatter(x[50:100,0],x[50:100,1],color='blue',marker='x',label='versicolor')
plt.scatter(x[100:,0],x[100:,1],color='green',marker='+',label='Virginica')
plt.xlabel('sepal length')
plt.ylabel('petal length')
plt.legend(loc=2)
plt.show()
觉得有帮助请点赞收藏
|