IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习入门基础(1) -> 正文阅读

[人工智能]机器学习入门基础(1)

该专栏会完整讲述机器学习的基础知识,包括一些基础概念、基础算法以及一些进阶的算法,每次都会更新一点,每一次更新的章节号都是按照一开始的顺序来的,直到这部分内容讲完。

在一部分内容完事之后会统一放代码。

人工智能、机器学习与深度学习的关系:

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。

1、数据集构成

机器学习的数据一般存储在文件中,而不是在mysql这种数据库中。可用数据集:

常用数据集结构组成:

?机器学习数据集中的重复值不需要进行处理,不需要进行去重。

机器学习数据中对特征的处理:

1、pandas:一个数据读取非常方便以及基本的处理格式的工具

2、sklearn:对于特征的处理提供了强大的接口

2、 特征工程

特征工程目的就是对数据集中的特征进行处理。特征工程会直接影响预测的结果、效果。

2.1 特征工程是什么

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对位置数据的预测的准确性。

2.2 特征抽取

2.2.1 概念

特征抽取是对文本等数据进行特征值化,特征值化是为了计算机更好的去理解数据。示例代码:

# 特征抽取
# 导入包
from sklearn.feature_extraction.text import CountVectorizer
# 实例化CountVectorizer
vector = CountVectorizer()
# 调用fit_transform输入并转换数据
res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
# 打印结果
print(vector.get_feature_names())
print(res.toarray())

结果:

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]

2.2.2?sklearn特征抽取API

采用sklearn.feature_extraction

(1)字典特征抽取:对字典数据进行特征值化。

字典特征抽取的目的:把数据当中以类别、字符串标记出来的,转化成one-hot编码形式。

?DictVectorizer语法:

?

?如果拿到的数据有类别特征,要先将数据转化成字典形式再进行特征抽取。

(2)文本特征抽取:对文本数据进行特征值化

?CountVectorizer语法:

?2.3 特征预处理

特征预处理:通过特定的统计方法(数学方法),将数据转换成算法要求的数据。不同类型数据预处理方法如下:

?sklearn特征预处理API:sklearn.preprocessing

2.3.1 归一化

特点:通过对原始数据进行变换把数据映射到(默认[0,1])之间。公式如下:?

注:作用于每一列,max为一列的最大值,min为一列的最小值,那么x‘’为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0。

举例:

?sklearn归一化API:sklearn.preprocessing.MinMaxScaler

MinMaxScaler语法:

?归一化步骤:(1)实例化MinMaxScalar

? ? ? ? ? ? ? ? ? ? ? ?(2)通过fit_transform转换

归一化总结:注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。

2.3.2 标准化

特点:通过对原始数据进行变换把数据变换到均值为0,方差为1的范围内。公式如下:

?注:作用与每一列,mean为平均值,σ为标准差

? ? ? ? var成为方差,

? ? ? ? ?其中:方差(考量数据稳定性)

结合归一化谈谈标准化?

sklearn特征化API:sklearn.preprocessing.StandardScaler

StandardScaler语法:

?标准化总结:在已有样本足够多的情况下比较稳定,适合现代大数据场景。

2.3.3 缺失值

sklearn缺失值API:sklearn.preprocessing.Imputer

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-14 01:58:30  更:2022-01-14 01:58:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 17:17:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码