提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
看了吴恩达老师的视频,想着要实现里面的算法,把学习过程记录下来。欢迎大家一起交流
提示:以下是本篇文章正文内容,下面案例可供参考
一、数据集
数据集有很多种,由公司内部的数据集,比如百度,阿里等,也有许多数据接口,不过是需要花钱的。还有的就是适合我们学习用的数据集。
二、Sklearn-learn数据集的介绍
2.1 sklearn数据集
sklearn.datasrts
load_* 获取小规模数据集
fetch_*获取大规模数据集
数据集的返回值 datasets.base.Bunch(继承自字典) 可以用两种方式获取其中的而数据 1、dict[“key”] = values 2、bunch.key = values
from sklearn.datasets import load_iris
def dataset_demo():
'''
sklearn 数据集使用
'''
#获取数据集
iris = load_iris()
print("鸢尾花数据集\n",iris)
print("查看数据集描述",iris["DESCR"])
print("查看特征值名字\n",iris.feature_names,"\n",iris.data,iris.data.shape)
return None
if __name__ =="__main__":
dataset_demo()
2.数据集的划分
训练数据集:用于训练、构建模型 测试数据集:在模型检验时候使用,用于评估模型是否有效 测试集一般在20%~30% 左右 sklearn数据集提供给我们划分数据集的API
train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
返回值分别是训练集特征值、测试集特征值、训练集目标值、测试集目标值
|