数据集
可用数据集de介绍和sklearn的安装
安装
pip install -U scikit-learn
查看是否安装成功的命令:
import sklearn
- 注意安装scikit-learn需要numpy、scipy等库
scikit-learn数据集
- sklearn数据集
- sklearn.datasets
- load_* 获取小规模数据集
小数据集:sklearn.datasets.load_iris() - fetch_* 获取大规模数据集
大数据集:sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
subset:“train"或者"test”,"all"可选,选择要加载的数据集 训练集的“训练”,测试集的“测试”,两者的“全部”
sklearn数据集返回值介绍
load和fetch返回的数据类 datasets.base.Bunch(字典格式) * data: 特征数据数组,是 [n_samples *n_features]的二维 numpy.ndarray 数组 target:标签数组,是 n_samples 的一维numpy.ndarray 数组 DEACR:数据描述
from sklearn.datasets import load_iris
def datasets_demo():
'''
sklearn数据集使用
:return:
'''
iris = load_iris()
print("鸢尾花数据集:\n",iris)
print("查看数据集的描述:\n",iris["DESCR"])
print("查看特征值的名字:\n",iris.feature_names)
print("查看特征值:\n",iris["data"])
return None
if __name__ == "__main__":
# sklearn()数据集的使用
datasets_demo()
数据集的划分
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验是使用,用于评估模型是否有效(20%-30&)
数据集划分api
sklearn.model_selection.train_test_split(arrays,*options)
×数据集的特征值 y数据集的标签值 test_size测试集的大小,一般为float random_state随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。 return训练集特征值(x_train),测试集特征值(x_test),训练集目标值(y_train),测试集目标值(y_test)
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
'''
sklearn数据集使用
:return:
'''
# 1. 获取数据集
iris = load_iris()
print("鸢尾花数据集:\n",iris)
print("查看数据集的描述:\n",iris["DESCR"])
print("查看特征值的名字:\n",iris.feature_names)
print("查看特征值:\n",iris["data"])
#数据集划分
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
print("训练集的特征值:\n",x_train,x_train.shape)
return None
if __name__ == "__main__":
# sklearn()数据集的使用
datasets_demo()
|