相关概念
显著式编程:需要人为地根据周围的环境、规则、经验等给计算机规定一些机械化步骤或判断依据,例如识别菊花和玫瑰,显著式编程就需要人为规定黄色的是菊花,红色的是玫瑰。 非显著式编程:通过数据、经验自动学习。无需人为给出所有的步骤和约束计算机必须总结什么规律,只需要定义收益函数,计算机会通过与环境的互动总结经验、调整策略,从而实现最大化收益(最优策略)。因此,非显著编程更加灵活,适用范围更广。
机器学习定义
Tom Mitshell在他的书《Machine L earning》中的定义 A computer program is said to learn from experience E with respect to some class of tasksT and performance measureP if its performance at tasks inT, as measured by P, improves with experience E.
一个计算机程序被称为可以学习,是指她能够针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。
以识别菊花和玫瑰为例
任务T:编写一个计算机程序来识别菊花和玫瑰 经验E:海量的菊花和玫瑰的图片(称之为“训练样本”) 性能指标P:识别率(识别结果的正确率) 这种算法的特点就是随着图片(经验/训练样本)的增加,识别率(性能指标)也会越来越高。(泛化)
最优化问题
根据经验E来提高性能指标P的过程。
机器学习的分类
按照数据标签存在与否:传统的监督学习、非监督学习、半监督学习 按照任务是否需要和环境交互获得经验:监督学习、强化学习
传统监督学习(Traditional Supervised Learning)
每个训练数据都有对应的标签。 所有经验都是人为搜集起来并输入计算机的,最终为训练数据打上标签或者进行预测。例如识别垃圾邮件、人脸识别、图像识别、天气预测、污染物浓度预测等。
分类
标签是离散值,例如“垃圾邮件”和“正常邮件”。
回归
标签是连续值,例如污染物浓度1.5%,4.8%。 注:分类和回归的界限是很模糊的,因为连续和离散也是可以相互转化的。一个解决分类问题的机器学习模型稍微改造就可以解决回归问题,反之亦然。
传统监督学习算法
支持向量机SVM(Support Vector Machine) 人工神经网络(Neural Networks) 深度神经网络DNN(Deep Neutral Network)
非监督学习(Unsupervised Learning)
所有训练数据都没有对应的标签,只有特征。 即给定数据,‘寻找隐藏/潜在的结构和信息,进行分类。例如聚类、社交网络分析、群体分类。
无监督学习算法
聚类(Clustering) EM算法(Expectation-Maximization algorithm) 主成分分析(Principle Component Analysis)
半监督学习(Semi-supervised Learning)
训练数据中一部分有标签,一部分没有标签。 由于标注数据是成本巨大的工程,因此,利用少量标注的数据和大量未标注的数据一起训练出一个更好的机器学习方法,即半监督学习算法,是一种趋势。
强化学习(Reinforcement Learning)
计算机通过与环境的互动,逐渐强化自己的行为模式,从而实现最大化收益的学习过程称为强化学习。
机器学习算法的研究过程
机器学习的重点,不是特征提取,而是假设在已经提取好特征的前提下,如何构造算法获得更好的性能,或者说研究合理的算法使得学习系统获得更好的性能。
特征提取(Feature Extraction)
通过训练样本获得的,对机器学习任务有帮助的多维度数据。
特征选择(Feature Selection)
从若干个特征中选取对机器学习任务帮助显著的特征,即有效特征。
基于特征构造算法
若选取了N个特征构成N维的特征空间(Feature Space),则机器学习算法需要做的就是对特征空间中的样本进行划分,尽可能将不同特征的样本数据区分开。
- 不同的算法对特征空间做不同的划分得出不同的结果。
- 因为无法穷尽世界上所有样本,所以不能得出一个绝对意义的好坏标准。
- 在设计机器学习算法的时候,有一个先验假设:在特征空间上距离较近的样本,它们属于同一个类别的概率会更高。(这种先验假设可能是错的)
机器学习领域重要的理论问题
如何针对不同应用场景选择合适的机器学习算法? 如何构造新的机器学习算法解决目前无法解决的应用场景?
哪种算法更好?没有免费午餐定理(No Free Lunch Theorem)
任何一个预测函数,如果在一些训练样本上表现好,那么必然在一些训练样本上表现不好。也就是说,如果不对数据在特征空间的先验分布有一定的假设,那么表现好和表现不好的概率一样多(所有算法的表现都一样)。
机器学习的本质
有限的已知数据下,在复杂高维特征空间中,预测未知的样本。 再好的算法也存在犯错的风险。 没有放之四海而皆准的最好算法,因为机器学习算法的评价涉及对特征空间先验分布的假设,但没有人知道特征空间先验分布的真实样子。
|