1、人工智能的实现:机器学习 机器学习的一个方法人工神经网络,深度学习由此发展而来。 2、数据集的构成:特征值+目标值 3、机器学习算法分类: 监督学习: ?????目标值:类别——分类问题(图片区别猫和狗) ?????目标值:连续性的数据——回归问题(预测房屋价格) 目标值:无——无监督学习 算法: 分类算法:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归 回归算法:线性回归、岭回归 无监督学习: 聚类 、k-means 4、机器学习开发流程 1)获取数据 2)数据处理 3)特征工程 4)机器学习算法训练 5)模型评估 6)应用 5、可用数据集: 1)sklearn特点:数据量小、方便学习 2)kaggle:大数据竞赛平台、数据量巨大 3)uci:收录360个数据集、数据量几十万 6、特征工程: 1)特征提取: ?????机器学习算法——统计方法——数学公式 文本类型->数值 字典->数值 图像特征提取 例如:文本特征提取:关键词,区分文章类型。使用Tf-idf(原理、公式)提取 可以找到一篇文章中词的重要程度 2)特征预处理 归一化:通过对原始数据进行变换把数据映射到(默认[0,1])之间 原理、公式 归一化的缺点:容易受到异常点的影响,适合精确小数据场景。 标准化:通过对原始数据进行变换把数据变换到均值为0,标准差为1的范围内 公式 3)特征降维 降低随机变量的个数 效果:特征与特征之间不相关 ?????filter过滤式: ??????????方差选择法:低方差特征过滤 ??????????相关系数:特征与特征之间的相关程度 ????? 原理、公式 ??????????特征与特征之间相关程度高:选取其中一个、加权求和 ?????enbeded嵌入式: ??????????决策树 ??????????正则化 ??????????深度学习 主成分分析(PCA): 将高维数据转化为低维数据,可能舍弃原有数据,创造新的变量 7、sklearn的转换器和预估器 特征工程的接口叫做转换器(特征工程的父类) 估计器:sklearn机器学习算法的实现 1)用于分类的估计器: ??????????sklearn.neighbors k—近邻算法 ??????????sklearn.naive_bayes 贝叶斯 ??????????sklearn.linear_model.LogisticRegression 逻辑回归 ??????????sklearn.tree 决策树与随机森林 2)用于回归的估计器 ??????????sklearn.linear_model.LogisticRegression 线性回归 ??????????sklearn.linear_model.Ridge 岭回归 ?????????? 3)用于无监督学习的估计器 sklearn.cluster.KMeans 聚类 估计器使用方法: ????????实例化一个estimator ????????estimator.fit(x_train,y_train)计算 ??????????——调用完毕,模型生成 ??????模型评估: ??????????直接比对真实值和预测值(estimator.predict())、计算准确率(estimator.score())
|