【ML·机器学习】S1·统计学习方法,为:
【ML·机器学习】系列博客第一部分内容,内容主要相关数学、统计学等理论与计算机知识的结合。
本节S1P1主要内容为介绍统计学习的相关概念,特点,对象,目的等。
大纲
正文
统计学习的特点
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析的一门学科。所以,统计学习,也称为统计机器学习。
统计学习的主要特点为:
- ① 统计学习以数据为研究对象,是数据驱动的学科。
- ② 统计学习的目的是对新数据进行预测与分析。
- ③ 统计学习以方法为中心,构建模型并应用模型进行预测以及分析。
- ④ 统计学习涉及数学概率论、统计学、信息论、计算理论、最优化理论以及计算机科学等多个领域的交叉学科。
- ⑤ 统计学习基于计算机及网络为平台。
统计学习的对象
统计学习的对象是数据。由图可知,统计学习基于数据构建模型,从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,再运用模型进行预测与分析。
数据多样性。数据具有多样性。数据具有很多不同种类,比如结构化数据 (Structured Data) 以及非结构化数据 (Unstructured Data)。结构化数据,包含列表、数据库等;非结构化数据,包含图片、视频、声音等数据。而所有这些数据,最终都可以以二进制的形式最终被计算机识别并处理。
统计学习关于数据的基本假设是数据存在一定统计规律。数据具有统计规律性,那么,就可以用概率统计的方法来加以处理。
统计学习的目的
统计学习用于对数据进行预测与分析。统计学习的目的是考虑选择什么样的模型与怎样构建模型,从而使得模型可以对数据进行准确而高效的预测与分析。
对数据的预测,是构建模型的目的。对数据的分析,是对模型的选择以及如何构建模型。
统计学习的方法
统计学习的方法可以概括如下: 从训练集中训练出优秀的模型,使得对训练集和测试集都有很好的拟合。
统计学习的方法可以总结如下: 从给定的、有限的、用于学习的训练数据 (Training data) 集合出发,假设数据是独立分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间。应用某个评价准则 (evaluation criterion),从假设空间中选择一个最优的模型,使模型对已知训练数据以及未知测试数据,在给定的评价准则下有最优的预测。
概括来说,统计学习对于模型的选择,在于三点:模型的假设空间、模型的选择的策略与模型训练的算法。
统计学习的研究
统计学习主要研究三个方面,方法 (method),理论 (theory),应用 (application)。
- 统计学习的方法的研究,旨在开发新的学习方法;
- 统计学习的理论的研究,旨在探求统计学习方法的有效性与效率,以及统计学习的基本理论问题
- 统计学习的应用的研究,旨在考虑如何将统计学习方法应用到实际问题中去,解决世纪问题。
统计学习的重要性
统计学习已被成功应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索等许多计算机应用领域中,并且称为这些领域的核心技术。
统计学习的重要性主要体现在以下三个方面:
- ① 统计学习是处理海量数据的有效方法。 我们处于一个信息爆炸的时代,海量数据的处理与利用是人们必然的需求。现实中的数据具有:规模大、不确定性两个特点。统计学习是处理这类数据强有力的工具。
- ② 统计学习是计算机智能化的有效手段。 智能化是计算机发展的必然趋势,也是计算机技术研究与开发的主要目标。利用统计数据学习和模仿人类智能的方法,虽然具有一定的局限性,但是仍然是现今最有效的手
- ③ 统计学习是计算机科学发展的一个重要组成部分。 计算机科学由系统、计算和信息三维组成,统计学习主要属于信息一维,并起核心作用。
END
|