[人工智能] python：机器学习（四）（特征工程及模型聚合）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> python：机器学习（四）（特征工程及模型聚合） -> 正文阅读

[人工智能]python：机器学习（四）（特征工程及模型聚合）

文章所用数据：https://download.csdn.net/download/m0_64596200/86513715

特征工程：

最大限度地从原始数据中提取特征以供算法和模型使用
数据和特征决定了机器学习的上限，模型和算法只是逼近这个上限

特征工程方法：
数据预处理

缺失值处理（均值，众数，中位数）
字符编码数据处理（独热编码）
归一化处理

1、空值处理（均值、众数、中位数）

对得到的数据进行查看：

data_df = pd.read_csv("data/train.csv")
print(data_df.head(),data_df.shape)

在这里插入图片描述
结果看出共有1460行，81列
查看数据存在的空值

print(data_df.isnull().sum())

在这里插入图片描述
LotFrontage列存在259行，数据间。。。省略了多条数据

显示数据所有行

pd.set_option("display.max_rows", None)
# 显示所有列
pd.set_option("display.max_columns", None)

发现其他列也具有空值：
LotFrontage 259
Alley 1369
BsmtQual 37
BsmtCond 37
BsmtExposure 38
BsmtFinType1 37
BsmtFinType2 38
FireplaceQu 690
GarageType 81
GarageYrBlt 81
GarageFinish 81
GarageQual 81
GarageCond 81
PoolQC 1453
Fence 1179
MiscFeature 1406
当数据空值超过了1/3行都是空值删除列（共1460行）

data_df.drop(columns=['Alley', 'FireplaceQu', 'PoolQC', 'Fence', 'MiscFeature'], axis=1, inplace=True)

在这里插入图片描述
这里只剩76列

均值填充（数据是数字）

data_df['LotFrontage'].fillna(data_df['LotFrontage'].mean(), inplace=True)

中位数填充（int或float）

data_df['GarageYrBlt'].fillna(data_df['GarageYrBlt'].median(), inplace=True)

独热编码（字符）

# 这一列有空的放入list容器中
mis_col_list = data_df.isnull().any()[data_df.isnull().any().values == True].index.tolist()

得到哪些列为空
在这里插入图片描述
获取它们的数据也放入容器中

mis_list = []
for i in mis_col_list:
# 数据要进行拍平
    mis_list.append(data_df[i].values.reshape(-1, 1))

在这里插入图片描述
字符可以进行众数填充，并替换至原来的数据中

for i in range(len(mis_list)):
    im_most = SimpleImputer(strategy="most_frequent")
    # 众数填充
    im_most.fit_transform(mis_list[i])
    # 替换
    data_df.loc[:, mis_col_list[i]] = im_most

在这里插入图片描述
对字符集进行独热编码
找到字符的列

ob_feature = data_df.select_dtypes(include=['object']).columns.tolist()

在这里插入图片描述
此处共39列
提取这些列进行独热编码
提取：

ob_data = data_df.loc[:, ob_feature]

在这里插入图片描述
独热编码：

OneHot = OneHotEncoder(categories='auto')
res = OneHot.fit_transform(ob_data).toarray()

在这里插入图片描述
字符串变数字
将这些数据重新并入原数据中

OneHotnames = OneHot.get_feature_names().tolist()
onehot_df = pd.DataFrame(res, columns=OneHotnames) #39列多出194列
# 独热编码结束
# 删除原来字符了列，并入编码后的列
data_df.drop(columns=ob_feature, inplace=True)
data_df = pd.concat([onehot_df, data_df], axis=1)  # 行合并

提取主要特征方法
1、方差过滤

var_index = VarianceThreshold(threshold=0.1)
data = var_index.fit_transform(data_df)

获取留下的列索引

index_ = var_index.get_support(True).tolist()
data_df = data_df.iloc[:, index_]

2、相关系数分析前面特征列与label的相关系数
收集相关系数大于0.5的列名

fname_list = []
for i in range(0, len(feature_name)-1):
    if abs(pearsonr(data_df[feature_name[i]], data_df[feature_name[-1]])[0]) > 0.5:
        fname_list.append(feature_name[i])

在这里插入图片描述
共12列
3、热力图----每一列之间的关系

plt.figure(figsize=(12,12))
sns.set(font_scale=1.5)
corr = np.corrcoef(data_df[fname_list].values.T)
sns.heatmap(corr,cbar=False,annot=True,square=True,fmt='0.2f',yticklabels=fname_list,xticklabels=fname_list)
plt.show()

在这里插入图片描述
删除相关度超过80%的，相似度较高

fname_list.append('SalePrice')
data_df = data_df[fname_list]
data_df.drop(columns=['GarageArea', 'TotRmsAbvGrd', '1stFlrSF'], inplace=True)

数据分割获取前9列

feature_data = data_df.iloc[:, :-1].values
label_data = np.ravel(data_df.iloc[:, -1:].values)  # 拍平
x_train, x_test, y_train, y_test = train_test_split(feature_data,label_data,test_size=0.3,random_state=6)

数据的归一化处理：有写数据大，有些数据小，模型训练时w，b算不准确

std = StandardScaler()
x_std_train = std.fit_transform(x_train)
x_std_test = std.fit_transform(x_test)

之后再做：

选择算法
超参调试
模型训练
模型评分

后面步骤可间之前的文章

所有代码：

import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.feature_selection import VarianceThreshold
from scipy.stats import pearsonr
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split

# 显示数据所有行
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", None)
# 加载数据
data_df = pd.read_csv("data/train.csv")
# print(data_df.head(),data_df.shape)
# 删除空值超过1/3的列
data_df.drop(columns=['Alley', 'FireplaceQu', 'PoolQC', 'Fence', 'MiscFeature'], axis=1, inplace=True)
# print(data_df.head(),data_df.shape)
# 空值查看
# print(data_df.isnull().sum())
# 剩余列填充  均值填充
data_df['LotFrontage'].fillna(data_df['LotFrontage'].mean(), inplace=True)
# 中位数填充
data_df['GarageYrBlt'].fillna(data_df['GarageYrBlt'].median(), inplace=True)
# 缺失值列   集中处理----独热编码 值--字符
mis_col_list = data_df.isnull().any()[data_df.isnull().any().values == True].index.tolist()
# print(mis_col_list)
# 将它们的数据也放入
mis_list = []
for i in mis_col_list:
    mis_list.append(data_df[i].values.reshape(-1, 1))
# print(mis_list)

for i in range(len(mis_list)):
    im_most = SimpleImputer(strategy="most_frequent")
    # 众数填充
    im_most.fit_transform(mis_list[i])
    # 替换
    data_df.loc[:, mis_col_list[i]] = im_most
# print(data_df.isnull().sum())
# print(data_df.shape)
# 找到字符的列
ob_feature = data_df.select_dtypes(include=['object']).columns.tolist()
# print(ob_feature,len(ob_feature))
# 得到字符列进行独热编码
ob_data = data_df.loc[:, ob_feature]
# print(ob_data)
# 独热编码
OneHot = OneHotEncoder(categories='auto')
res = OneHot.fit_transform(ob_data).toarray()
# print(res)
# print(res.shape)
# 并入原数据中
OneHotnames = OneHot.get_feature_names().tolist()
# print(OneHotnames,len(OneHotnames))
onehot_df = pd.DataFrame(res, columns=OneHotnames) #39列多出194列
# 独热编码结束
# 删除原来字符了列，并入编码后的列
data_df.drop(columns=ob_feature, inplace=True)
data_df = pd.concat([onehot_df, data_df], axis=1)  # 行合并
# print(data_df.shape)
# 方差过滤
var_index = VarianceThreshold(threshold=0.1)
data = var_index.fit_transform(data_df)
# print(data, len(data))
# 获取留下的列的索引
index_ = var_index.get_support(True).tolist()
data_df = data_df.iloc[:, index_]
# print(data.shape)

# 获得剩下的列
feature_name = data_df.columns.tolist()
# print(feature_name, len(feature_name))
fname_list = []
# 相关系数分析 前面特征列与label的相关系数
for i in range(0, len(feature_name)-1):
    if abs(pearsonr(data_df[feature_name[i]], data_df[feature_name[-1]])[0]) > 0.5:
        fname_list.append(feature_name[i])
print(fname_list, len(fname_list))
# 删除超80%的
fname_list.append('SalePrice')
data_df = data_df[fname_list]
data_df.drop(columns=['GarageArea', 'TotRmsAbvGrd', '1stFlrSF'], inplace=True)
# print(data_df.shape)
# 数据分割
feature_data = data_df.iloc[:, :-1].values
label_data = np.ravel(data_df.iloc[:, -1:].values)  # 拍平
x_train, x_test, y_train, y_test = train_test_split(feature_data,label_data,test_size=0.3,random_state=6)
# 数据归一化处理
std = StandardScaler()
x_std_train = std.fit_transform(x_train)
x_std_test = std.fit_transform(x_test)


# 绘制热力图
# plt.figure(figsize=(12,12))
# sns.set(font_scale=1.5)
# corr = np.corrcoef(data_df[fname_list].values.T)
# sns.heatmap(corr,cbar=False,annot=True,square=True,fmt='0.2f',yticklabels=fname_list,xticklabels=fname_list)
# plt.show()

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-09-13 11:15:05 更:2022-09-13 11:20:28

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/28 0:07:58-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码