1.什么是机器学习?
1.1 机器学习定义
机器学习的诞生来源于两个领域: 1.人工智能(artificial intelligence)。 ML是AI四象限中的一个(think optimal)。人工智能主要包括机器学习和深度学习。深度学习是机器学习的一个分支。 2.数据科学(data science)。 机器学习(Machine Learning):根据已有的经验(数据),找(算法)出规律(模型),并用于预测未知的数据,重视模型的泛化generalization能力。即对于一个任务T,根据经验E,有一个表现的衡量P,随着E的增加,P在T上表现更好。
机器学习的技术定义:在预先定义好的可能性空间中,利用反馈信号的指引来寻找输入数据的有用表示。
2.理解
- 机器学习可以理解为计算应用统计学;ML是关于归纳induction(特殊/具体到一般/抽象),而不是演绎deduction(一般/抽象到特殊/具体)或者 溯因abduction。
- 学习机器学习这门学科,主要是学习思想,公式和算法是对思想进行量化的工具。
- 数据(指做了数据预处理和特征工程的数据)决定了模型的上限,而算法只是逼近这个上限。
- 机器学习和深度学习的核心问题在于有意义的变换数据,即学习输入数据的有用表示(representation)。所谓“表示”,就是用不同的方式来查看数据(数据编码或表证数据)。所谓“学习”,就是寻找更好数据表示的自动搜索过程。
- 机器学习(尤其是深度学习)呈现出相对较少的数学理论,是以工程为导向,是一门需要上手实践的学科。
- 想要控制一件事物,首先需要能够观察它。对于机器学习来说,观察点就是损失函数(loss function)。
- 面对一个尚没有已知解决方案的新问题,可先尝试一种**基于常识的基准(baseline)**方法,它可以作为合理性检查,而更高级的机器学习模型需要打败这个基准才能表现其有效性。
3.历史
4.归纳、演绎、溯因
归纳、演绎、溯因是推理的三种常见形式,而机器学习中任务是关于归纳的。
5.抽象理解
【模型假设】确定Model(funtion set)或者 假设空间(hypothesis space)>>> 【模型评估】确定评估Model的方法:衡量一种参数的好坏 L(w,b) >>> 【最佳模型】选出最佳模型:梯度下降
|