IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 异常值检验的一些方法 -> 正文阅读

[人工智能]异常值检验的一些方法

1.局部离群因子检测(LOF)

LOF算法对数据分布假设没什么要求,能够量化每个数据点的异常程度,是一种基于密度的检测异常值的方法。LOF算法认为非离群点对象周围的密度与其邻域周围的密度类似,而离群点对象周围的密度显著不同于其邻域周围的密度。其核心思想就是看局部的密度与周围的密度相比较,如果局部密度相对稀疏,则可认为是离群值,即异常值。
具体可以参考一文读懂异常检测 LOF 算法(Python代码)讲的还是比较清楚的。

调用sklearn可以较快的实现:

from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
from sklearn.decomposition import PCA
# 导入鸢尾花的数据集
iris = datasets.load_iris()
# PCA降维至2维
X = PCA(n_components=2).fit_transform(iris.data)
# 定义一个LOF模型,contamination能够自己定义异常比例,默认自动选取
model = LocalOutlierFactor(n_neighbors=10)
# 训练模型
model.fit(X)
# 预测模型
# 这里是训练数据中就包含着异常值的话,那么适用训练时novelty默认为False,给训练数据打标签使用fit_predict(x)
y = model.fit_predict(X)  # 若样本点正常,返回1,不正常,返回-1

# 可视化预测结果
plt.scatter(X[:, 0], X[:, 1], c=y)  # 样本点的颜色由y值决定
plt.show()

黑色的点即为检测出的异常值。
在这里插入图片描述

2.MADe法

在这里插入图片描述

from sklearn import datasets
import pandas as pd
import numpy as np
iris = datasets.load_iris()
X = iris.data[:, 0]  # 换成需要检测的一维数据即可
X = pd.DataFrame(X)
col = 0  # 需要检验的dataframe的列
M = X[col].median()
MAD = (np.abs(X[col] - X[col].median())).median()
down = M - 3 * MAD * 1.483
up = M + 3 * MAD * 1.483
error = X[(X[col] < down) | (X[col] > up)]
print(down)
print(up)
if len(error) == 0:
    print("此方法未检测出异常值")
else:
    print(error)

运行结果
在这里插入图片描述

3.修正的Z得分法

在这里插入图片描述

from sklearn import datasets
import pandas as pd
import numpy as np
iris = datasets.load_iris()
X = iris.data[:, 0]  # 换成需要检测的一维数据即可
X = pd.DataFrame(X)
col = 0
MAD = (np.abs(X[col] - X[col].median())).median()
M = np.abs(0.6745 * (X[col] - X[col].median()) / MAD)
if len(M[M > 3.5]) == 0:
    print("检测无异常值")
else:
    print(M[M > 3.5])

在这里插入图片描述
说明此方法在此数据中没有检测出异常值

4.boxplot法

在这里插入图片描述
在这里插入图片描述

import numpy as np
from statsmodels.stats.stattools import medcouple
import pandas as pd
np.random.seed(0)
data = np.random.rand(10000)
data[0] = data[0] * 3
data = pd.DataFrame(data)
col = 0  # 所选需要检验的dataframe的列
des = data[col].describe()

Q1 = des.loc["25%"]
Q3 = des.loc["75%"]
IQR = Q3 - Q1

I_L = Q1 - 1.5 * IQR
I_U = Q3 + 1.5 * IQR

O_L = Q1 - 3 * IQR
O_U = Q3 + 3 * IQR

error = data[(data[col] < O_L) | (data[col] > O_U)]
error_may = data[((data[col] > O_L) & (data[col] < I_L)) | ((data[col] < O_U) & (data[col] > I_U))]
if len(error) == 0 and len(error_may) == 0:
    print("未检测出异常值")
if len(error_may) != 0:
    print("可能为异常值:")
    print(error_may)
if len(error) != 0:
    print("检测出异常值为")
    print(error)



结果
在这里插入图片描述

5.修正的boxplot法

在这里插入图片描述

import numpy as np
from statsmodels.stats.stattools import medcouple
import pandas as pd
np.random.seed(0)
data = np.random.rand(10000)
data[0] = data[0] * 3

data = pd.DataFrame(data)
col = 0
if len(data[col]) > 10000:  # 大于10000就抽样计算估计数据的MC
    samples = data[col].sample(n=10000)
else:
    samples = data[col]

MC = medcouple(samples)
des = data[col].describe()

Q1 = des.loc["25%"]
Q3 = des.loc["75%"]
IQR = Q3 - Q1

L = 0
U = 0
if MC >= 0:
    L = Q1 - 1.5 * np.exp(-3.5 * MC) * IQR
    U = Q3 + 1.5 * np.exp(4 * MC) * IQR
else:
    L = Q1 - 1.5 * np.exp(-4 * MC) * IQR
    U = Q3 + 1.5 * np.exp(3.5 * MC) * IQR

print(L)
print(U)

error = data[(data[col] < L) | (data[col] > U)]
if len(error) == 0:
    print("未检测出异常值")
else:
    print("检测出的异常值为")
    print(error)

结果
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-13 21:47:25  更:2022-03-13 21:50:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 16:18:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码