IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 数据预处理 -> 正文阅读

[人工智能]数据预处理

一、标准化:将每个特征做均值为0,标准差为1处理。

import numpy as np
import pandas as pd
import sklearn.preprocessing as ps
a = np.array([[17,100,4000],
             [20,80,5000],
              [23,75,5500]])

one_process = ps.scale(a)
print(one_process )

在这里插入图片描述

二、范围缩放:将整列数据缩放到某个范围之间。

mss = ps.MinMaxScaler(feature_range=(0,1))
mss_tm = mss.fit_transform(a)
print(mss_tm)
#范围缩放手写实现
new = []
num = 0
for i in a.T:
    s = i.min()
    b = i.max()
    arr1 = np.array([[s,1],[b,1]])
    arr2 = np.array([0,1])
    solve = np.linalg.solve(arr1,arr2)
    new.append(i*solve[0]+solve[1])
    num += 1
new = np.array(new).T
print(new)

在这里插入图片描述
三、归一化:为了找出样本之间的相似性,即每个特征在样本中的比重。
在sklearn中l1范数指每个特征除以各个特征的绝对值之和,l2范数指每个特征除以各个特征的平方之和。

b = np.array([[12,3,9],[20,5,15],[1,3,20]])
p = ps.normalize(b,norm="l1")
print(p)

在这里插入图片描述
由此可见:样本一和样本二较像。
四、二值化:有些业务并不需要分析矩阵的详细完整数据(比如图片边缘识别只需要分析出图片边缘即可)
可以根据一个事先给定的阈值,用0和1表示特征不高于或高于阈值。二值化后的数组中每个元素非0即1。
达到简化模型的目的。

bins = ps.Binarizer(threshold=81)
anay = bins.transform(a)
print(anay)

在这里插入图片描述

from sklearn.datasets import fetch_olivetti_faces
import matplotlib.pyplot as plt
feaces = fetch_olivetti_faces()
plt.imshow(feaces.images[0],cmap="gray")

在这里插入图片描述

one = feaces.images[0]
mid = np.median(one)
ones = ps.Binarizer(threshold=mid)
ones_data = ones.fit_transform(one)
print(ones_data)

在这里插入图片描述

plt.imshow(ones_data,cmap="gray")

在这里插入图片描述
五、独热编码(OneHotEncoding):为样本特征的每个值建立一个由一个1和若干个0组成的序列,用该序列对所有的特征值进行编码。

simple = np.array([[1,3,2],
                  [7,5,4],
                  [1,8,6],
                  [7,3,9]])
#当sparse=False时按照相应的数组形式输出。
ohe = ps.OneHotEncoder(sparse=False,dtype="int64")
rult = ohe.fit_transform(simple)
print(rult)
print(ohe.categories_)#显示每个离散值的顺序

在这里插入图片描述
在这里插入图片描述

#当sparse=FTrue时按照稀疏矩阵形式输出,即输出每个1的坐标。
simple = np.array([[1,3,2],
                  [7,5,4],
                  [1,8,6],
                  [7,3,9]])
ohe = ps.OneHotEncoder(sparse=True,dtype="int32")
rult = ohe.fit_transform(simple)
print(rult)

在这里插入图片描述
六、标签编码:根据字符串形式的标签在标签序列中的位置,为其指定一个数字标签,用于提供给基于数值算法的学习模型。

label = np.array(["香蕉","苹果","西瓜","香蕉","橙子","西瓜","西瓜","葡萄","杏子","梨子","猕猴桃"])
le = ps.LabelEncoder()
le_label = le.fit_transform(label)
print(le_label)

在这里插入图片描述

#inverse_transform():通过已经fit_transform()后的数字标签返回原始的标签。
i_list = [0,5,6,7]
inverse = le.inverse_transform(i_list)
print(inverse)

在这里插入图片描述
七、特征编码:根据字符串形式的特征值在特征序列中的位置,为其指定一个数字标签,用于提供给基于数值算法的学习模型。

"""
feathers = np.array([["香蕉","猫","鸡"],
                    ["葡萄","狗","鸭"],
                    ["桃子","猫","鹅"],
                    ["梨子","狗","鹅"]])
oe = ps.OrdinalEncoder(dtype="int64")
oe_feather = oe.fit_transform(feathers)
print(oe_feather)

在这里插入图片描述
八、k近邻缺失值填补:用k近邻算法填补缺失值。

from sklearn.impute import KNNImputer 
df = np.array([[1,2,np.NaN,9],
              [4,np.NaN,3,8],
              [np.NaN,5,6,7],
              [6,4,9,np.NaN]])
KI = KNNImputer(n_neighbors=3)
k_t=KI.fit_transform(df)
print(k_t)

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-26 08:51:52  更:2021-11-26 08:52:03 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 4:31:27-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码