机器学习初始之路

机器学习是？

在认识世界过程，类似于从一个已知量再到未知的函数。机器学习，就是预测这个函数，且使得预测结果尽量准确。
收集一大堆数据，然后用训练数据集去预测一个值，称为回归问题。例如旧手机回收，根据手机的机型、机况和行情，给出一个价格走势；
从一大堆数据中，找到属于某一类的那些，就是分类问题。

机器学习(Machine Learning,ML) 使用计算机来彰显数据背后的真实含义，是把无序的数据转换成有用的信息。其涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。包括研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。也是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，主要使用归纳、综合而不是演绎。
1）海量的数据
2）获取有用的信息

机器学习场景

在目标识别动物猫

模式识别: 通过大量图像的数据特征，得到结论，从而判断它就是猫。
机器学习（数据学习）: 人们通过阅读进行学习，观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴，得到结论，从而判断它就是猫。
深度学习（深入数据）: 人们通过深入了解它，发现它会’喵喵’的叫、与同类的猫科动物很类似，得到结论，从而判断它就是猫。（深度学习常用领域: 语音识别、图像识别）
环境与客体统称为“模式”，识别是对模式的一种认知，是如何让一个计算机程序去做一些看起来很“智能”的事情。
通过融于智慧和直觉后，通过构建程序，识别一些事物，而不是人，例如: 识别数字。
机器学习是最基础的（当下初创公司和研究实验室的热点领域之一）。通过更有效地构建模式识别算法的方法，用大量数据（通过廉价劳动力采集集标注获得）去替换专家（具有很多图像方面知识的人）。
“机器学习”强调的是，在给计算机程序（或者机器）输入一些数据后，它必须做一些事情，那就是学习这些数据，而这个学习的步骤是明确的。
机器学习（Machine Learning）是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科。
机器学习已应用于多个领域，远远超出大多数人的想象，横跨: 计算机科学、工程技术和统计学等多个学科。
eg：
搜索引擎: 根据用户搜索点击，优化下次的搜索结果,是机器学习来帮助搜索引擎判断哪个结果更适合用户（也判断哪个广告更适合用户）。
垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
邮局邮寄: 手写软件自动识别寄送贺卡的地址。
申请贷款: 通过最近的金融活动信息进行综合评定，决定用户是否合格。

机器学习组成

1.主要任务

分类（classification）: 将实例数据划分到合适的类别中。
应用实例: 判断网站是否被黑客入侵（二分类），手写数字的自动识别（多分类），多目标分类（多分类）。
回归（regression）: 主要用于预测数值型数据。
应用实例: 股票价格波动的预测，房屋价格的预测等

2.监督学习（supervised learning）

必须确定目标变量的值，以便算法可以发现特征和目标变量之间的关系。在监督学习中，给定一组数据，正确的输出结果是明确的，并且知道在输入和输出之间有着一个特定的关系。 (包括: 分类和回归)
样本集: 训练数据 + 测试数据
训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
特征通常是训练样本集的列，独立测量得到的。
目标变量: 目标变量是机器学习预测算法的测试结果。
在分类算法中目标变量的类型通常是标称型(如: 真与假)，而在回归算法中通常是连续型(如: 1~100)。
在监督学习需要注意的问题:
偏置方差权衡
功能的复杂性和数量的训练数据
输入空间的维数
噪声中的输出值

3.非监督学习（unsupervised learning）

在机器学习，无监督学习的问题是，在未加标签的数据中，试图找到隐藏的结构。提供数据的实例是未标记的，没有错误或报酬信号来评估潜在的解决方案。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求，总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。数据没有类别信息，也不会给定目标值。
非监督学习包括的类型:
聚类: 在无监督学习中，将数据集分成由类似的对象组成多个类的过程称为聚类。
密度估计: 通过样本分布的紧密程度，来估计与分组的相似性。
此外，无监督学习还可以减少数据特征的维度，以便使用二维或三维图形更加直观地展示数据信息。

机器学习开发流程

1）收集数据: 收集样本数据
2）准备数据: 注意数据的格式
3）分析数据: 为了确保数据集中没有垃圾数据；
4）如果是算法可以处理的数据格式或可信任的数据源，则可以跳过该步骤；
另外该步骤需要人工干预，会降低自动化系统的价值。
5）训练算法: [机器学习算法核心]如果使用无监督学习算法，由于不存在目标变量值，则可以跳过该步骤
6）测试算法: [机器学习算法核心]评估算法效果
7）使用算法: 将机器学习算法转为应用程序

1.数据集的划分

训练集（Training set） —— 学习样本数据集，通过匹配一些参数来建立一个模型，主要用来训练模型。
验证集（validation set） —— 对学习出来的模型，调整模型的参数，如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。
测试集（Test set） —— 测试训练好的模型的分辨能力。

2.模型

分类问题 —— 将一些未知类别的数据分到现在已知的类别中去。比如，根据已知的一些信息，来做判断。评判分类效果好坏的三个指标: 正确率，召回率，F值。
回归问题 —— 对数值型连续随机变量进行预测和建模的监督学习算法。回归往往会通过计算误差（Error）来确定模型的精确性。
聚类问题 —— 聚类是一种无监督学习任务，该算法基于数据的内部结构寻找观察样本的自然族群（即集群）。聚类问题的标准一般基于距离: 簇内距离（Intra-cluster Distance）和簇间距离（Inter-cluster Distance）。簇内距离是越小越好，也就是簇内的元素越相似越好；而簇间距离越大越好，也就是说簇间（不同簇）元素越不相同越好。一般的，衡量聚类问题会给出一个结合簇内距离和簇间距离的公式。

3.特征工程

特征选择 —— 也叫特征子集选择（FSS，Feature Subset Selection）。是指从已有的 M 个特征（Feature）中选择 N 个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。
特征提取 —— 特征提取是计算机视觉和图像处理中的一个概念。使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点，连续的曲线或者连续的区域。

机器学习专业术语

模型（model）: 计算机层面的认知
学习算法（learning algorithm），从数据中产生模型的方法
数据集（data set）: 一组记录的合集
示例（instance）: 对于某个对象的描述
样本（sample）: 也叫示例
属性（attribute）: 对象的某方面表现或特征
特征（feature）: 同属性
属性值（attribute value）: 属性上的取值
属性空间（attribute space）: 属性张成的空间
样本空间/输入空间（samplespace）: 同属性空间
特征向量（feature vector）: 在属性空间里每个点对应一个坐标向量，把一个示例称作特征向量
维数（dimensionality）: 描述样本参数的个数（也就是空间是几维的）
学习（learning）/训练（training）: 从数据中学得模型
训练数据（training data）: 训练过程中用到的数据
训练样本（training sample）:训练用到的每个样本
训练集（training set）: 训练样本组成的集合
假设（hypothesis）: 学习模型对应了关于数据的某种潜在规则
真相（ground-truth）:真正存在的潜在规律
学习器（learner）: 模型的另一种叫法，把学习算法在给定数据和参数空间的实例化
预测（prediction）: 判断一个东西的属性
标记（label）: 关于示例的结果信息，比如我是一个“好人”。
样例（example）: 拥有标记的示例
标记空间/输出空间（label space）: 所有标记的集合
分类（classification）: 预测是离散值，比如把人分为好人和坏人之类的学习任务
回归（regression）: 预测值是连续值，比如你的好人程度达到了0.9，0.6之类的
二分类（binary classification）: 只涉及两个类别的分类任务
正类（positive class）: 二分类里的一个
反类（negative class）: 二分类里的另外一个
多分类（multi-class classification）: 涉及多个类别的分类
测试（testing）: 学习到模型之后对样本进行预测的过程
测试样本（testing sample）: 被预测的样本
聚类（clustering）: 把训练集中的对象分为若干组
簇（cluster）: 每一个组叫簇
监督学习（supervised learning）: 典范–分类和回归
无监督学习（unsupervised learning）: 典范–聚类
未见示例（unseen instance）: “新样本“，没训练过的样本
泛化（generalization）能力: 学得的模型适用于新样本的能力
分布（distribution）: 样本空间的全体样本服从的一种规律
独立同分布（independent and identically distributed，简称i,i,d.）:获得的每个样本都是独立地从这个分布上采样获得的。