[人工智能] 周学习笔记（2021.7.19-2021.7.25）

文章目录

周学习笔记（2021.7.19-2021.7.25）

7.19

1. Colab 画图中文为乱码

（2）调用绘图函数时设置对应属性（双引号引用中文，且前面用u）

2. python 函数

3. 得到字典中最大值对应的键

4. 离散数据编码

5.表示学习

6. 数据EDA

7.20

1.机器学习中的偏差和方差

偏差指的是算法在大型训练集上的错误率；方差指的是算法在测试集上的表现低于训练集的程度。

2. GBDT

CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器，都是在GBDT算法框架下的一种改进实现

3. 高基数类别特征 catogory_encoder

（1）目标编码

（2）平均数编码

（3）留一法编码

4.何时不需要编码

将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。（如Titanic中的age特征）
有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。 Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

5. python 字符串连接

6.欠采样和过采样

7. dataframe获得列名和行名称

8. drop()的使用

7.21

1.python相关

（1）list.index() 用于从列表中找出某个值第一个匹配项的索引位置

（3）可以复用的封装函数放在上面，即xxx外面，但是针对本程序执行的代码需要放在此判断条件里面，表示不被其他引言该模块的代码执行

2. C++相关

（2）在函数声明中，参数的名称并不重要，只有参数的类型是必需的

可以接收空格；三个参数，依次是接受字符串的变量、接收字符的个数、结束字符。当第三个参数省略时，系统默认为’\0’

（8）strlen 计算字符串的长度，以结束符0x00 为字符串结束，头文件为string.h

? sizeof() 计算的则是分配的数组 str[20]所占的内存空间的大小，不受里面存储的内容改变

3. 大二上学业知识

4. RNN & LSTM &双向LSTM

关键在于连接先前的信息到当前的任务上，但相关信息和预测的词位置之间的间隔应该是很小的。随着间隔不断增大，ＲＮＮ会丧失学习到连接如此远的信息的能力

３）再度改进——双向ＬＳＴＭ网络，因为有的时候不能只靠前面的信息推测，还需要综合后面的信息

5. 定积分的分部积分公式

6. PTA相关

Map<int,int> 是数组的升级版，如果int a[0xffffff]肯定不行，但是map可以。

7. 模型参数和超参数

随机森林中超参数的例子有:森林中拥有的决策树的数量、每次分割时需要考虑的最大特征数量，或者树的最大深度

8. k-fold交叉验证

只将数据分成一组训练数据和一组验证数据，则模型性能指标高度依赖于这两组数据

机器学习模型只进行一次训练和评估，则性能就取决于那一次评估。而且在对同一数据的不同子集进行训练和评估时，学习模型的表现可能会非常不同，这仅仅是因为选取的子集不同。

如果我们把这个过程分解为多次训练和验证测试，每次训练和评估我们的模型都是在不同的数据子集上，最后在多次评估中观察模型的平均表现

9. 贝叶斯优化

10. 缺失值的处理方式

11. loc & iloc

12. sklearn 常用模块

13. 常见的填充方法

train_data.fillna(train_data.mean(),inplace=True) # 填充均值
（3）填充中位数

train_data.fillna(train_data.median(),inplace=True) # 填充中位数
（4）填充众数

对每一列的缺失值，填充当列的众数。由于存在某列缺失值过多，众数为nan的情况，因此这里取的是每列删除掉nan值后的众数。

train_data.fillna(train_data.mode(),inplace=True) # 填充众数,该数据缺失太多众数出现为nan的情况

正确写法：train_data.Embarked[train_data.Embarked.isnull()] = train_data.Embarked.dropna().mode()

具体某个属性有两种写法，一种是train_data.Embarked,另外一种是train_data[‘Embarked’]

14. 数挖竞赛相关

15. .count() & .sum() & .value_counts()

dataframe.count(axis=0/1) 计算每列或每行的非na单元格默认为0 （统计一整列） 1则为统计一整行

16. 分类&回归常见的评估指标

17. bug——" ‘tuple’ object is not callable"

18. np.nan

19. 可视化

偏度（skewness），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征

20. any()

由于isnull() 会在缺失值处返回true，所以凡是出现缺失的列都会被筛出来

7.22

1. format格式化 & f_string

2. .endswith()

判断字符串是否以指定字符或子字符串结尾，返回值为布尔类型

str.endswith(“suffix”, start, end) 或 str[start,end].endswith(“suffix”)

3. df.dtypes & astype() & .select_dtypes()

4. set_index(’’) & reset_index()

将表格中自动生成的从0开始的行序号换掉，换成表格中的一列数据

5. GBDT

对于不合理的数据，做一个降低权重的处理（对LightGBM而言，见参数sample_weight）

6. 特征选择

Boruta采用随机森林的办法抽取特征、打乱特征顺序计算特征的重要性

Boruta的目标就是选择出所有与因变量相关的特征集合，而不是针对特定模型选择出可以使得模型cost function最小的特征集合。Boruta算法的意义在于可以帮助我们更全面的理解因变量的影响因素，从而更好、更高效地进行特征选择。

Boruta算法思想:
将原特征real features进行shuffle构造出shadow features，将real features与shadow features拼接作为特征矩阵进行训练，最后以shadow features的feature importance得分最为参考base, 从real features中选出与因变量真正相关的特征集合。

7. 样本增强

8. 数据预处理

EDA发现，将其删除或者将其当缺失值。很正常，可能存在记录异常，还有比较难判断的异常值，利用统计分布，3sigma原则等对于数据进行异常值识别，在识别出异常情况后分析对应是真实异常还是记录异常等

线性类的模型，需要对类别特征进行特殊处理，连续的值也需要进行简单的Normalize，方便模型更好的吸收数据

GBDT类的模型，需要考虑特征的相对大小，而不需要过多处理缺失值

（3）结构性的文本类数据展开；时间序列类将数据进行pivot操作

（4）产生新变量：用户月均、年均消费金额和消费次数；家庭人均年收入；用户在线交易终止的次数占用户在线交易成功次数的比例；用户下单付费的次数占用户下单次数的比例；用户在制定商品类目的消费金额占其他全部消费金额的比例

通过取对数，开平方根，取倒数，开平方，取指数的方法使得不对称分布的数据呈现（或近似）正态分布，并形成倒钟形曲线

当自变量与因变量之间有比较明显的非线性关系时，分箱操作可用于探索和发现这些相关系性

为了消除不同特征之间不同量纲差异的一种方式，而归一化方式也有多种，比如0-1归一化，最大值归一化，也有做log特征分布调节等等，各种方式达到的效果也不同

部分比如电力负荷数据可能存在高频噪声，用傅里叶或者小波去噪有时会达到不错的效果

9. 缺失值的处理

（3）若已知缺失值和某些特征存在很强的关联，也可以做关联填充

（4）有时缺失值本身可能存在意义，也可以额外增加一列isnull特征，从而保留该信息

10. 收敛&泛化能力

收敛是指这个算法有能力找到局部的或者全局的最小值，一般形容基于梯度下降算法的模型

泛化能力是指一个机器学习算法对于没有见过的样本的识别能力

11. 过采样 & 欠采样——SMOTE

12. sklearn中的pipeline

13. ubuntu

14. df.melt()

如果说 df.pivot() 将长数据集转换成宽数据集，df.melt() 则是将宽数据集变成长数据集

7.23

1. 长尾分布

长尾分布在某种程度上可以说是比正态分布更加广泛存在的一种自然分布，头部几类更为常见，数量较多

2. 数据分箱

4. 插值法

5. pd.cut() & pd.qcut()

6. L1正则化 & L2正则化

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）

7. 自回归问题

回归是建立模型，是输入输出之间的固定关系。而自回归是时间序列模型，训练得到的模型表示了随时间变化的 y 之间的相互依赖性与相关性

未来的一个时点可以用之前的时点来进行回归预测，还是那一串数字，但是时间状态不同了，存在不同阶的时滞

8. np.random.randn() & np.random.rand() & np.random.randint()

没有参数返回一个浮点数；有一个参数返回秩为1的数组；有两个或两个以上参数则返回对应维度的数组

返回随机整数或整型数组，范围区间为[low,high)，如果high没有填写，则默认生成随机数的范围是[0,low)

9.损失函数 & 目标函数 & 代价函数

10. 最小二乘

7.24

1. 方差和偏差

Bias是用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。

Variance是不同的训练数据集训练出的模型输出值之间的差异。

噪声的存在是学习算法所无法解决的问题，数据的质量决定了学习的上限。假设在数据已经给定的情况下，此时上限已定，我们要做的就是尽可能的接近这个上限。

2. np.quantile()

3. plt.subplot() & add_subplot()

4.[调参]贪心调参网格调参贝叶斯调参

网格搜索适合于小数据集，数据量比较大的时候可以使用一个快速调优的方法——坐标下降，一种贪心算法，拿当前对模型影响最大的参数调优。直到最优化；再拿下一个影响最大的参数调优，直到所有参数调整完毕

bayes优化只能优化连续超参数，因此要加上int()转为离散超参数

5. 字典items()

6. cross_val_score()

7. 模型融合