本博客参考:sklearn官方api
数据集简介
乳腺癌数据集 经典的二分类数据集
569个样本,每个样本30个特征,阳性样本357,阴性样本212
关于乳腺癌数据集 乳腺癌数据集的原型是一组病灶造影图片,该数据集的提供者在收集到这些图片的初期,首先对图片进行了分析,从每张图片中提取主要的特征,然后编写图片处理程序,从图片中抽取这些特征。本数据集只关注了10个原始特征,然后又求得每个原始特征的标准差和最大值作为两个衍生特征,这样,最终数据集呈现出的效果便是30个特征 关于衍生特征 实际上,通过处理原始特征得到的衍生特征能够体现出事物间的内在逻辑。比如现在有多台主机,我们知道了每台主机的cpu占用率、内存占用率、网络吞吐量等三个特征,我们想要将其分类为(正常运行/不正常运行)两种状态,然而我们知道,仅仅凭借其中的任意一个特征判断主机状态都是不合理的,那么怎么办? 我们可以构造衍生特征:cpu占用率/内存占用率,cpu占用率/网络吞吐量作为新的特征,这些特征能够更好地反映出主机状态
函数参数
sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)
return_X_y
若为True,则返回(data,target) 若为False,则返回一个Bunch对象
返回值
return_X_y=True
return_X_y=False
Bunch对象
Dictionary-like object
data:{ndarray, dataframe} of shape (569, 30)
数据矩阵,as_frame设置为True时,该属性将是一个DataFrame对象
target: {ndarray, Series} of shape (569,)
分类标签,as_frame设置为True时,该属性将是一个Series对象
feature_names: list
数据集每一列的名称
target_names: list
目标标签名称
frame: DataFrame of shape (569, 31)
只有当as_frame设置为True时,该属性才会生效,是一个DataFrame对象,里面包含了data和target
DESCR: str
关于数据集的完整描述
filename: str
breast_cancer数据集的本地的存储位置
使用示例
from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()
x=cancer.data
y=cancer.target
x.shape,y.shape
>>> ((569, 30), (569,))
cancer.target_names
>>> array(['malignant', 'benign'], dtype='<U9')
y[10:20],y[90:99]
>>> (array([0, 0, 0, 0, 0, 0, 0, 0, 0, 1]), array([1, 0, 1, 1, 0, 0, 1, 1, 1]))
y[y==0].shape,y[y==1].shape
>>> ((212,),(357,))
cancer.feature_names
>>> array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
'mean smoothness', 'mean compactness', 'mean concavity',
'mean concave points', 'mean symmetry', 'mean fractal dimension',
'radius error', 'texture error', 'perimeter error', 'area error',
'smoothness error', 'compactness error', 'concavity error',
'concave points error', 'symmetry error',
'fractal dimension error', 'worst radius', 'worst texture',
'worst perimeter', 'worst area', 'worst smoothness',
'worst compactness', 'worst concavity', 'worst concave points',
'worst symmetry', 'worst fractal dimension'], dtype='<U23')
len(cancer.feature_names)
>>> 30
|