机器学习
1、什么是机器学习
在进行特定的编程的情况下,给与计算机学习能力的领域。机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
2、机器学习与人工智能
2.1人工智能发展的三个阶段
1980年代是正式形成时期 1990-2010是蓬勃发展事情 2012年后是深度学习的时期
2.2人工智能的起源(网上有很多的案例,大家记得两个就可以了) 图灵测试 达特茅斯会议 2.3人工智能的一些经典例子 1997年“深蓝”击败了国际象棋世界冠军卡斯帕罗夫 2012年图像分类连创新高超过人类识别的能力 2016年发改委“互联网+”人工智能实数方案 2017年AplhaGo围棋战胜世界冠军 (至于终结者,天网会不会出现就不知道了啊) 总体来说,人工智能领域的研究前沿正逐渐从探索、知识和推理领域转向机器学习、深度学习、计算机领域和机器人领域。 2.4人工智能的主要分支 1、计算机视觉 计算机视觉关于图像识别中有四大任务: **·**分类(classification) 包含什么类别的目标 **·**定位(Location) 定位出图像中这个目标的位置 **·**检测(Detection) 定位目标位置并且知道目标物是什么 **·**分割(segmentation)解决每一个像素属于哪个目标物或‘场景’的问题
2、自然语言处理 语音识别 语义识别(人机交互) 3、机器人 小度小度,给我讲个笑话,小度小度,说一下明天的天气 2.5人工智能发展必备三要素 1、数据 2、算法 3、计算力 先给大家介绍一个人认识,吴恩达,大家都应该听说过他,人工智能领域的泰斗级别的人物,百度公司首席科学家,斯坦福大学计算机科学系和电子科学系的副教授,人工智能实验室主任,具体的大家可以去往上自行百度一下,这是我记得的。吴恩达说过:“数据和特征决定了机器学习的上限,而模型和算法只是逼近了这个上限而已。” 2.6CPU与GPU CPU主要是负责读写文件I/O运行,数据文件读写,GPU主要负责数据计算 什么类型的程序适合在GPU上运行。 1、 计算密集的程序,就是其大部分运行时间花在了寄存运算器上,寄存运算器的速度和处理器的速度相当。 2、 易于并行的程序,CPU其实是一种SIMD构架,他有成百上千个核,每一个核在同一时间内最好能做同样的事情,高运行高并发。
3、机器学习工作流程
举个例子,大家对于一件没有见过的东西或者未知的事情的解决方法是什么?
这是我的个人的解决的方法,当然也可以去请教别人。 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测 3.1机器学习工作流程 1、获取数据 2、数据基本处理 3、特征工程 4、机器学习(模型训练) 5、模型评估 supervised监督 unsupervised非监督 简单说一下啊这张图片,就是训练集里面的数据进行特征提取之后,送入到了机器模型中进行训练,得到预测模型和目标类别。当有一个新的数据送进来后,经过特征提取之后,就可以利用训练好的模型进行预测结果。 3.2数据 一行数据就称之为一个样本 一列数据就称之为一个特征 数据类型的构成: 数据类型一:特征值+目标值(目标值是连续和离散的) 数据类型二:只有特征值,没有目标值 数据类型的分割: 训练数据:用于训练,构建模型,训练集:70%-80% 测试数据:在模型检验时使用,用于评估模型是否有效 20%-30% 3.3特征工程 特征工程就是使用专业知识和技巧处理数据(labelme和labelimg),使得特征能在机器学习算法上发挥更好的作用的过程,通俗来说就是转换成机器更加容易识别的数据。 特征工程可以分为一下的三个模块: 特征提取:将任意数据(文本或图像)转换为可用于机器学习的数字特征 数据预处理:通过一些转换函数将特征数据转换成更适合算法模型的特征数据过程。(映射到0-1之间) 特征降维:指在某些限定条件下,降低随机变量(特征)的个数,得到一组‘不相关‘主变量的过程。 总之,大家了解机器学习的过程有一定的了解了吧
4、算法
算法是无穷无尽的,当你在看博客的时候,世界上的某个角落里说不定就有一套新的算法出来了。根据数据集组成不同,可以把机器学习算法分为: 监督学习、半监督学习、无监督学习和强化学习
4.1监督学习 意指给出一个算法,需要数据集已有输入特征值和目标值,函数的输出可以是一个连续的值(回归),也可以是有限个离散值(分类) 4.2无监督学习 输入数据没有标记,也没有确定的结果,样本数据类型未知,需要根据样本之间的相似性来对样本集进行分类(聚类)试图使类内差距最小化,类间差距最大化。 比如:要将以下的数据进行分类就是属于输入数据没有标记,也没有确定的结果。 监督学习,通过分类、回归,输入数据有特征有标签,即有标准答案 无监督学习,通过聚类,输入数据有特征无标签,即无标准答案。 4.3半监督学习 半监督学习当中的半,可以这样理解,一部分是监督学习,一部分是非监督学习。 即训练数据集同时包含样本数据和未标记的样本数据,有特征值,但是一部分数据有目标值,一部分没有目标值。 4.4强化学习(这个我没有接触过) 实质是:make decisions 问题,即自行进行决策,并且可以连续做决策。动态规划,上一步数据的输出是下一步数据的输入。(这个貌似没有接触过)
5、模型评估
我们做任何事情都会有一个结果,这个结果可好可坏,关键是有一个评价的标准,机器学习也同样如此。按照数据集的目标值的不同,可以把模型评估分为分类模型评估和回归模型评估。 分类模型评估: ·准确率:预测正确的数占样本总数的比例 ·精确率:正确预测为正占全部预测为正的比例 ·召回率:正确预测为正占全部正样本的比例 ·F1-score:主要用于评估模型的稳健性 ·AUC指标:主要用于评估样本不均衡的情况 例:13种动物的样本——8只猫和5只狗 回归模型评估(这里就需要一定的数学基础,尤其是高等数学的基础)
6、拟合
模型评估用于评价训练好的模型的表现效果,可以分为:过拟合和欠拟合 **欠拟合:**机器学习到的特征太少了,导致区分标准太粗糙,不能准确识别出物体
**过拟合:**所建的机器学习模型或者深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集表现不佳。 总结:机器学习其实就是寻找一个能够描述整个数据集状态的函数,这个函数可以是线性的,也可以是非线性的。机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来。接下来会继续讲解人工智能有关的内容,并且通过代码的形式讲解更多的深度学习的例子。 这次也给大家推荐b站的一些学习视频吧,希望对大家的学习有所帮助。 BV1DU4y15719 BV1A44y167hY
|