本学习笔记只对阅读过程中产生的一些感悟进行记录。
1. 关于人工智能、机器学习与深度学习的浅薄理解(序言)
人工智能:让事物具有人类的智慧。 机器学习:人工智能中的事物为计算机的那一部分。 深度学习:机器学习在当前阶段的表现。机器学习最初为符号学习,在概率统计理论的提出下发生转变,统计学习成为机器学习的主体,而深度学习可以认为是统计学习搭上硬件快速发展的浪潮情况下的连接主义。
2. 机器学习的学习过程理解(P5第二段)
机器学习的学习目的是归纳(induct),从样例中找到普遍的规律。具体的说,把所有可能的假设看作是一个假设空间,我们拥有一个训练集,里面有很多样本,学习的过程就是根据训练集的信息排除掉假设空间中不符合的假设,所有留下的假设就组成了版本空间。 感觉和历史上很多历史发现很类似,科学家根据实验结果作出假设,并设计新的实验去验证这一假设,并总结出一般规律。但也会出现规律不对被后人推翻的情况,是因为版本空间中假设过多,人脑计算能力不够,并不能完全枚举所有假设,或是采集的数据太局限,所提出的这一假设可能只满足这些局限数据的情况,所以假设并不存在于所有数据所在的版本空间中。
3.关于机器学习中P问题和NP问题的理解(2.1 P23 最后一段)
过拟合:在训练过程中,不仅学习了样例的一般特征,还学习了样例本身的一些特性,过拟合是无法避免的,只能尝试缓解。 多项式时间:时间复杂度较低,不包含指数级和阶乘级的 P问题:Polynomial问题,指的是可以在多项式时间内可求解的判定问题,用大白话说就是可以直接判断的问题。 非确定性算法:包含猜测阶段和验证阶段,猜测阶段以一种非确定的形式进行,验证阶段使用一种确定算法在多项式时间内对猜测阶段产生的假设进行判断。 NP问题: Non-deterministic问题,指的是多项式时间内验证的判定问题,为非确定性算法。 机器学习的训练过程就是一个NP问题(包含猜测和验证),无法在多项式时间内达到最优解,同时所得到的解仅是经过经验误差最小化(在训练集上获得最好性能),并不能由此同时得到泛化误差最小化。机器学习的测试阶段就是个P问题,只有为最优解时才为P,即在测试集上获得最好性能。由于NP不等于P,故过拟合固然存在。
4. 关于混沌矩阵和PR曲线的理解(2.3.2P30)
查全率(召回率 Recall):真P查的全不全 TP/TP+FN 查准率(准确率Precision):预测的P准不准 TP/TP+FP 当前对PR曲线还有疑惑,为何对于同一个模型查全率和查准率会从0-1之间变动。书中的解释为“根据学习器的预测结果对样例进行排序,排在前面的为最可能是正例的样本,排在最后的是最不可能是正例的样本,按此顺序逐个把样本作为正例进行预测”,这里不是很能理解。 假设第一个为正例,则TP=1,FP=FN=0,则R和P都为1,但显然图中没有这个点。 挖个坑,后边填~
|