IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 数据集--load_breast_cancer()函数 -> 正文阅读

[人工智能]数据集--load_breast_cancer()函数

本博客参考:sklearn官方api

数据集简介

乳腺癌数据集
经典的二分类数据集

569个样本,每个样本30个特征,阳性样本357,阴性样本212

关于乳腺癌数据集
乳腺癌数据集的原型是一组病灶造影图片,该数据集的提供者在收集到这些图片的初期,首先对图片进行了分析,从每张图片中提取主要的特征,然后编写图片处理程序,从图片中抽取这些特征。本数据集只关注了10个原始特征,然后又求得每个原始特征的标准差和最大值作为两个衍生特征,这样,最终数据集呈现出的效果便是30个特征
关于衍生特征
实际上,通过处理原始特征得到的衍生特征能够体现出事物间的内在逻辑。比如现在有多台主机,我们知道了每台主机的cpu占用率、内存占用率、网络吞吐量等三个特征,我们想要将其分类为(正常运行/不正常运行)两种状态,然而我们知道,仅仅凭借其中的任意一个特征判断主机状态都是不合理的,那么怎么办?
我们可以构造衍生特征:cpu占用率/内存占用率,cpu占用率/网络吞吐量作为新的特征,这些特征能够更好地反映出主机状态

函数参数

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)

return_X_y

若为True,则返回(data,target)
若为False,则返回一个Bunch对象

返回值

return_X_y=True

return_X_y=False

Bunch对象

Dictionary-like object

data:{ndarray, dataframe} of shape (569, 30)

数据矩阵,as_frame设置为True时,该属性将是一个DataFrame对象

target: {ndarray, Series} of shape (569,)

分类标签,as_frame设置为True时,该属性将是一个Series对象

feature_names: list

数据集每一列的名称

target_names: list

目标标签名称

frame: DataFrame of shape (569, 31)

只有当as_frame设置为True时,该属性才会生效,是一个DataFrame对象,里面包含了data和target

DESCR: str

关于数据集的完整描述

filename: str

breast_cancer数据集的本地的存储位置

使用示例

from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()
x=cancer.data
y=cancer.target
x.shape,y.shape
>>> ((569, 30), (569,))

# 查看标签名称
cancer.target_names
>>> array(['malignant', 'benign'], dtype='<U9')

# 查看target中的数据是什么样子的
y[10:20],y[90:99]
>>> (array([0, 0, 0, 0, 0, 0, 0, 0, 0, 1]), array([1, 0, 1, 1, 0, 0, 1, 1, 1]))

# 查看阳性和阴性样本数量
y[y==0].shape,y[y==1].shape
>>> ((212,),(357,))

# 查看每个特征的名称
cancer.feature_names
>>> array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')
# 查看特征数量
len(cancer.feature_names)
>>> 30
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-07 11:11:01  更:2022-05-07 11:14:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/4 16:04:36-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码