什么是机器学习?
;官方解释: ??·机器学习就是从“数据”中自动分析获得规律,利用规律对未知的数据进行预测。 - 模型:算法模型,是一个特殊的对象,该算法模型对象中已经集成了或封装好了某种形式的算法/方程(还没有求出解) - 模型的作用: ?? - 预测:可以通过方程或者算法产生一个新的位置的数据/事物 ?? - 分类:可以将一个未知归类的事物给其归属到一个已有的类群中 ?? - 注意:算法模型对应的算法或者方程求出的解就是预测或者分类的结果 - 样本数据: ?? - 模型的训练,将样本数据带入到模型中,对其进行训练(给方程进行求解),模型训练好了后,则模型方程就有唯一解或者最优解。有解后则模型就可以实现分类或者预测功能 - 构成: ?? - 特征数据:自变量 ?? - 标签/目标数据:因变量 - 模型的分类: ?? - 有监督学习 ?? - 如果模型需要的样本数据必须包含特征数据和标签数据,则该模型为有监督学习分类 - 无监督学习 ??- 模型样本只需要要特征数据即可,目标数据有或者无都可以 - 数据集的获取途径: ?? - kaggle:数据竞赛平台 ?? - UCI数据集 ?? - sklearn 机器学习工作流程: ?? ·获取数据 ?? ·数据基本处理 ?? ·特征工程 ?? ·机器学习 ?? ·模型评估 特征工程: ?? ·定义:把数据转换为机器更容易识别的数据 ?? ·特征抽取 ?? ·数据特征预处理–特征降维 ?? ·选择特征 ·为什么需要特征工程? ?? - 样本数据中的特征工程可能会存在缺失值,异常值等等,那么我们是需要对特征工程中的相关的噪点进行数据处理的,那么处理的目的就是为了营造出一个更纯净的样本,让模型基于这个数组可以有更好的预测能力,当然特征工程不是单单只是处理上述操作。 特征工程的意义: ?? ·直接影响模型预测的结果 如何实现特征工程? ?? ·工具:sk-learn
sklearn介绍:
?? - 是python语言中机器学习的工具,包含了许多知名的机器学习算法的实现,其文档完善,容易上手。
?? - 功能: ?? ?? ·分类模型 ?? ?? ·回归模型 ?? ?? ·聚类模型 ?? ?? ·特征工程 ·特征抽取目的: ?? ·我们所采集到样本中的特征往往是字符串或者其他类型的数据,而我们知道电脑只能识别二进制数值型的数据,如果把字符串给电脑,电脑是看不懂的。 ·机器学习算法分类: ?? ·监督学习 ?? ·无监督学习 ?? ·半监督学习 ?? ·强化学习 ·监督学习:输入的数据由目标值和特征值组成 ?? ?? ·回归:函数的输入可以是一个连续的值 ?? ?? ·分类:输出是有限个离散值 ·半监督学习:有特征值,但是一部分数据有目标值,一部分没有 ·无监督学习:仅有特征值 ·强化学习:agent action environment rewaed ·模型评估: ·分类模型评估 ?? ·准确率: ?? ?? ·预测正确的数占样本总数的比例 ?? ·精确率 ?? ?? ·正确预测为正确占全部预测为正的比例 ?? ·召回率 ?? ?? ·正确预测为正占全部样本的比例 ?? ·F1-score ?? ?? ·主要用于评估模型的稳健性 ?? ·AUC指标 ?? ?? ·主要用于评估样本不均衡的情况 ·回归模型评估 ?? 均方根误差 ?? 相对平方误差 ?? 平均结对误差 ?? 相对绝对误差 ?? 决定系数 ·拟合: ?? 欠拟合:机器学习的特征太少了,区分标准粗糙,不能准确识别 ?? 过拟合:机器学习的特征太多了,验证数据及其测试数据中表现不佳
|