简单介绍机器学习,看这一篇就够啦!
小编是从阿里云大学机器学习专题学习而来,针对阿里云的机器学习怀着非常大的兴趣。后续的内容都是小编我一字一句码出来,希望大家多多支持。
1.机器学习等相关简述
1.1.云计算大数据及其人工智能简介
在工作时,经常会使用计算机。比如通过计算机来查看当前CPU、内存使用状况。大部分时,计算机的主要资源仍然处于空闲状态…。那么,针对内存、CPU等内存资源合理的分配出来。简单来说,就是虚拟化的由来。
云计算
云计算,简单来说就是用计算机网络,通过虚拟化成不同的单位,将资源分配给计算机网络之外有需求的人们。(下面的定义部分篇幅更多表现于资源分配优点,上面是个人对云计算更加简单的讲解。)
more官方的定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务提供商进行很少的交互。
云计算的优点:
- 资源分配使用量付费。
- 服务大众,一切都可以服务化
大数据
大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉,管理和处理的数据集合。
相对于普通的数据,大数据需要新的处理模式才能具有更加强大的决策力、洞察发现力和流程优化能力的海量、高增长和多样化的信息资产。
信息采集、存储与计算、分析运用
云计算提供存储和计算基础,大数据运行在其上的实际应用。
云计算就像电线,而大数据就是接在电线上的电灯泡
人工智能
人工智能:简而言之,就是学习的计算机程序。它被分为弱人工智能、强人工智能、超人工智能。
人工智能在发展时,更多与棋类游戏相结合。这跟棋类游戏的特性相关联。比如人类需要不断的学习以增强棋类的知识。人工智能也是如此,通过对棋类的学习,实现接近人类的高峰甚至超过人类。
1.2.机器学习定义
机器学习就是不直接针对问题进行编程的情况下,赋予计算机系学习能力的一个研究领域–Arthur Samuel,1959
在网上有很多针对机器学习以不同的笔墨或者面描述。但究其本质,就是赋予计算机能够不断通过学习完善自身的能力。它针对其自身的任务进行不断的总结学习。
同样以下棋为例子。按照人自身对于围棋的学习中,印象中应该是形成自己长期锻炼的“棋谱”。通过自己所想的“棋谱”来判断自己下一步该怎么解围。
但是机器学习运用数学方法,形象将若干个变量参与进来,使用机器自身的算法来评估当前局面的优劣。如下图所示:
上文中,计算机在状态中列举出六个影响棋盘局面的变量。通过合理使用六个变量进行数学方法运算,来为自己后续的方法进行铺垫。
特点:
- 无需传统模式编程
- 定义任务、性能、经验以及目标函数。提供目标函数数学方式
- 随着数据变化能够灵活应用
- 利用”自己与自己“下棋,来优化自身
几个相关常见的概念:
数据挖掘、机器学习、模式识别、统计学习、计算机视觉、自然语言处理、语音识别
1.3.机器学习发展历程
关于计算机的发展历程,本文总结比较简略。读者有兴趣的话可以详细参考百度百科即可~
其中,机器学习在人工智能范围内,深度学习属于机器学习的范畴。
1.基础奠基时期
- 图灵测试:将人与人隔离开来,让其中一个人发分辨出另一方是人还是机器
- hebb学习规则:这跟类似于条件反射类似。通过多次的、反复的一个事件的出现来产生条件反射
- 跳棋程序:跳棋程序能够通过自我提升,会出现“超越创建写程序人的存在”。
- 感知机:感知机能够模拟人的感知等特性来解决问题。
- 线性不可分问题:咋子前面的感知机基础上,来提出感知机只能解决“线性可分”的问题
2.停滞期
略
3.复兴期
- 多层感知器:能够解决”线性不可分“的问题
- MLP、BP训练
- SVM(支持向量机)
- 随机森林
- Boosting
4.蓬勃发展期
1.4.机器学习的应用
- 垃圾邮件检测
- 信用卡欺诈检测
- 人脸识别
- 无人线下超市
- 医疗诊断(辅助医生进行诊断)
- 智能客服
- 无人驾驶
- …
发展趋势:
- 人类学习机制研究
- 学习方法研究与发现
- 建立实用的学习系统
- 有关理论的应用与研究
2.机器学习常用算法
算法:就是利用计算机解决特定问题的处理步骤,是有限操作集合。
例如:通过人的脚印的长度评估判断一个人的身高,西洋棋的下法等等。
常见的机器学习的分类:
2.1.有监督学习
利用一组已知类别的样本训练模型,使其达到性能要求。特点是输入数据均有一个明确的标识或者结果。即提供样例教计算机如何进行学习。
2.1.1 有监督学习算法
分类
如上图所示,分类的本质较为简单。即通过年龄来进行初步分类,并且还有单身和信用的分类。
回归
回归在前面介绍的**“通过脚印判断身高”**体现的较为明显。
分类算法
分类算法在于通过已知训练集的分析,从中发现其中的规则
KNN
KNN的核心思想在于如果离某一个样本最近的k个样本大多数属于某一个类别时,则该样本也属于这个类别。KNN不仅可以预测分类,还可以做回归分析。
- 确立计算公式:欧式距离、曼哈顿距离、余弦相似度。注意:K的取值不能太大
- 计算r和所有样本点的距离
- 固定符合相应范围内的样本
- 统计分类样本
优点:原理简单,容易理解。代价较低
缺点:得到结果的及时性较差。k值对结果影响大等等
决策树
决策树,要明确自变量和因变量;明确信息度量方式:信息增益(熵、基尼系数);明确分支终止条件:纯度、记录条数、循环次数。
信息熵
信息熵是用来描述混乱程度的度量,其取值范围为0~1,值越大,越混乱。
信息增益
信息增益是确定性的增加,他从一个状态到另一个状态信息的变化。
信息增量越大,对确定性贡献越大。
ID3
ID3系列算法有以下问题:
CART
- 它的核心是基尼系数
- 分类属于二叉树
- 支持连续值和离散值
- 后剪枝进行修剪
- 支持回归
2.2.无监督学习
无监督学习就是从没有标记的训练数据中推断结论。特点在于输入数据不存在明确的标识或者结果。常见的监督学习为聚类。聚类通过发现隐藏的模式或者对数据进行分组,形成我们提供材料后**“自动学习”**。给定数据,寻找隐藏的结构。
2.2.1 无监督学习算法
聚类算法
聚类就是将相似的事物聚集在一起。而将不相似的事物划分到不同的类别。
比如:层次、划分、密度聚类。
比如对于不同种类的花。根据一些数据判断其中的共同点。来判断出最后的“这个花是哪种花”。
K-MEANS
即K均值聚类。根据初始化的聚类中心信息,计算每个样本到这些中心的距离,来判断每个样本是属于那个类别。如下是K-MEANS的步骤:
聚类个数方法:观察法、枚举法、其他技术手段
定义距离公式:欧式距离(一般)
- K-MEANS优点:原理简单、容易理解;聚类结果相对好解释;聚类结果相对较好
- 缺点:k需要事先确定,且k值的不同对聚类结果相差较大。异常值敏感。能识别的类簇只有球类,非球状的聚类效果很差。
关联规则
反映事物与事物相互关联的依存关系。比如通过分析顾客购物篮中不同商品之间的关系,分析顾客的购买习惯。
2.3 其他学习算法
半监督学习:训练数据有部分被标识,部分没有被标识。这种模型首先需要学习数据的内在结构,以方便合理的组织数据来进行预测。
常见学习方法:半监督分类、回归
集成学习
针对同一数据集,训练多种学习器来解决同一问题。
1.Bagging
比如在进行投票时,通过将投票模型进行统一生成最终模型以提高投票成功率。
2.Boosting
3.AdaBoost
4.随机森林
随机森林由许多决策树组成。树采用了随机的方法。
生成步骤:
- 随机采样,生成多个样本集。
- 对每一个样本集构建决策树
深度学习:其概念源于人工神经网络。含有多隐层的多层感知器就是一种深度学习结构。
增强学习:一个能感知环境的自治。
迁移学习:将已经训练好的模型迁移到新的模型进行应用。初衷是节省人工标注样本的时间。
本文暂时介绍到这里。谢谢大家阅读,也还请读者多多批评指正,新人小编一定多多听话~~
|