IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习实验之肿瘤预测(AdaBoost) -> 正文阅读

[人工智能]机器学习实验之肿瘤预测(AdaBoost)

# 肿瘤预测(AdaBoost)

【实验内容】

 基于威斯康星乳腺癌数据集,使用AdaBoost算法实现肿瘤预测。

【实验要求】

 1.加载sklearn自带的数据集,使用DataFrame形式探索数据。
 
 2.划分训练集和测试集,检查训练集和测试集的平均癌症发生率。
 
 3.配置模型,训练模型,模型预测,模型评估。
 
  (1)构建一棵最大深度为2的决策树弱学习器,训练、预测、评估。
  
  (2)再构建一个包含50棵树的AdaBoost集成分类器(步长为3),训练、预测、评估。   
  
      参考:将决策树的数量从1增加到50,步长为3。输出集成后的准确度。
      
  (3)将(2)的性能与弱学习者进行比较。
  
 4.绘制准确度的折线图,x轴为决策树的数量,y轴为准确度。

AdaBoostClassifier参数解释:

  • base_estimator:弱分类器,默认是CART分类树:DecisionTressClassifier
  • algorithm:在scikit-learn实现了两种AdaBoost分类算法,即SAMME和SAMME.R, SAMME就是AdaBoost算法,指Discrete。AdaBoost.SAMME.R指Real AdaBoost,返回值不再是离散的类型,而是一个表示概率的实数值。SAMME.R的迭代一般比SAMME快,默认算法是SAMME.R。因此,base_estimator必须使用支持概率预测的分类器。
  • n_estimator:最大迭代次数,默认50。在实际调参过程中,常常将n_estimator和学习率learning_rate一起考虑。
  • learning_rate:每个弱分类器的权重缩减系数v。fk(x)=fk?1?ak?Gk(x)f_k(x)=f_{k-1}a_kG_k(x)f k(x)=f k?1?a k?G k(x)。较小的v意味着更多的迭代次数,默认是1,也就是v不发挥作用。
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn import tree # 导入决策树包
from sklearn.ensemble import AdaBoostClassifier # 导入 AdaBoost 包
from sklearn.metrics import accuracy_score # 导入准确率评价指标
import numpy as np
from sklearn.metrics import accuracy_score # 导入准确率评价指标

加载sklearn自带的数据集,使用DataFrame形式探索数据

cancers = load_breast_cancer()
df = pd.DataFrame(cancers.data, columns=cancers.feature_names)
df
mean radiusmean texturemean perimetermean areamean smoothnessmean compactnessmean concavitymean concave pointsmean symmetrymean fractal dimension...worst radiusworst textureworst perimeterworst areaworst smoothnessworst compactnessworst concavityworst concave pointsworst symmetryworst fractal dimension
017.9910.38122.801001.00.118400.277600.300100.147100.24190.07871...25.38017.33184.602019.00.162200.665600.71190.26540.46010.11890
120.5717.77132.901326.00.084740.078640.086900.070170.18120.05667...24.99023.41158.801956.00.123800.186600.24160.18600.27500.08902
219.6921.25130.001203.00.109600.159900.197400.127900.20690.05999...23.57025.53152.501709.00.144400.424500.45040.24300.36130.08758
311.4220.3877.58386.10.142500.283900.241400.105200.25970.09744...14.91026.5098.87567.70.209800.866300.68690.25750.66380.17300
420.2914.34135.101297.00.100300.132800.198000.104300.18090.05883...22.54016.67152.201575.00.137400.205000.40000.16250.23640.07678
..................................................................
56421.5622.39142.001479.00.111000.115900.243900.138900.17260.05623...25.45026.40166.102027.00.141000.211300.41070.22160.20600.07115
56520.1328.25131.201261.00.097800.103400.144000.097910.17520.05533...23.69038.25155.001731.00.116600.192200.32150.16280.25720.06637
56616.6028.08108.30858.10.084550.102300.092510.053020.15900.05648...18.98034.12126.701124.00.113900.309400.34030.14180.22180.07820
56720.6029.33140.101265.00.117800.277000.351400.152000.23970.07016...25.74039.42184.601821.00.165000.868100.93870.26500.40870.12400
5687.7624.5447.92181.00.052630.043620.000000.000000.15870.05884...9.45630.3759.16268.60.089960.064440.00000.00000.28710.07039

569 rows × 30 columns

划分训练集和测试集,检查训练集和测试集的平均癌症发生率

x_train, x_test, y_train, y_test = train_test_split(cancers.data, cancers.target, test_size=0.30)
print("train: {0:.2f}%".format(100 * y_train.mean()))
print("test: {0:.2f}%".format(100 * y_test.mean()))
train: 62.06%
test: 64.33%

配置模型,训练模型,模型预测,模型评估

构建一棵最大深度为2的决策树弱学习器,训练、预测、评估。

tr = tree.DecisionTreeClassifier(max_depth=2) #加载决策树模型
tr.fit(x_train, y_train)
DecisionTreeClassifier(max_depth=2)
predictions = tr.predict(x_test)
WeakLearnersAccuracy = accuracy_score(y_test, predictions)

再构建一个包含50棵树的AdaBoost集成分类器(步长为3),训练、预测、评估。

clf = AdaBoostClassifier(base_estimator=tree.DecisionTreeClassifier(),n_estimators=50,learning_rate=3)
clf
AdaBoostClassifier(base_estimator=DecisionTreeClassifier(), learning_rate=3)
clf.fit(x_train, y_train)
AdaBoostClassifier(base_estimator=DecisionTreeClassifier(), learning_rate=3)
predictions = clf.predict(x_test)
StrongLearnersAccuracy = accuracy_score(y_test, predictions)

将强学习者的性能与弱学习者进行比较

print("StrongLearnersAccuracy: {0:.2f}%".format(StrongLearnersAccuracy))
print("WeakLearnersAccuracy: {0:.2f}%".format(WeakLearnersAccuracy))
StrongLearnersAccuracy: 0.89%
WeakLearnersAccuracy: 0.92%

绘制准确度的折线图,x轴为决策树的数量,y轴为准确度

accuracys = []
for i in range(1,50,3):
    clf = AdaBoostClassifier(base_estimator=tree.DecisionTreeClassifier(),n_estimators=50,learning_rate=3)
    clf.fit(x_train, y_train)
    predictions = clf.predict(x_test)
    temp = accuracy_score(y_test, predictions)
    accuracys.append(temp)
accuracys= np.array(accuracys)
accuracys
array([0.88888889, 0.89473684, 0.89473684, 0.89473684, 0.89473684,
       0.89473684, 0.9005848 , 0.89473684, 0.88888889, 0.88888889,
       0.89473684, 0.9005848 , 0.88888889, 0.89473684, 0.88888889,
       0.89473684, 0.9005848 ])
plt.figure(figsize=(20,8)) 
plt.grid(True,linestyle='-',alpha=0.5)
plt.plot(range(1,50,3),accuracys)
plt.show()

【实验内容】

 基于威斯康星乳腺癌数据集,使用AdaBoost算法实现肿瘤预测。

【实验要求】

 1.加载sklearn自带的数据集,使用DataFrame形式探索数据。
 
 2.划分训练集和测试集,检查训练集和测试集的平均癌症发生率。
 
 3.配置模型,训练模型,模型预测,模型评估。
 
  (1)构建一棵最大深度为2的决策树弱学习器,训练、预测、评估。
  
  (2)再构建一个包含50棵树的AdaBoost集成分类器(步长为3),训练、预测、评估。   
  
      参考:将决策树的数量从1增加到50,步长为3。输出集成后的准确度。
      
  (3)将(2)的性能与弱学习者进行比较。
  
 4.绘制准确度的折线图,x轴为决策树的数量,y轴为准确度。

AdaBoostClassifier参数解释:

  • base_estimator:弱分类器,默认是CART分类树:DecisionTressClassifier
  • algorithm:在scikit-learn实现了两种AdaBoost分类算法,即SAMME和SAMME.R, SAMME就是AdaBoost算法,指Discrete。AdaBoost.SAMME.R指Real AdaBoost,返回值不再是离散的类型,而是一个表示概率的实数值。SAMME.R的迭代一般比SAMME快,默认算法是SAMME.R。因此,base_estimator必须使用支持概率预测的分类器。
  • n_estimator:最大迭代次数,默认50。在实际调参过程中,常常将n_estimator和学习率learning_rate一起考虑。
  • learning_rate:每个弱分类器的权重缩减系数v。fk(x)=fk?1?ak?Gk(x)f_k(x)=f_{k-1}a_kG_k(x)f k(x)=f k?1?a k?G k(x)。较小的v意味着更多的迭代次数,默认是1,也就是v不发挥作用。
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn import tree # 导入决策树包
from sklearn.ensemble import AdaBoostClassifier # 导入 AdaBoost 包
from sklearn.metrics import accuracy_score # 导入准确率评价指标
import numpy as np
from sklearn.metrics import accuracy_score # 导入准确率评价指标

加载sklearn自带的数据集,使用DataFrame形式探索数据

cancers = load_breast_cancer()
df = pd.DataFrame(cancers.data, columns=cancers.feature_names)
df
mean radiusmean texturemean perimetermean areamean smoothnessmean compactnessmean concavitymean concave pointsmean symmetrymean fractal dimension...worst radiusworst textureworst perimeterworst areaworst smoothnessworst compactnessworst concavityworst concave pointsworst symmetryworst fractal dimension
017.9910.38122.801001.00.118400.277600.300100.147100.24190.07871...25.38017.33184.602019.00.162200.665600.71190.26540.46010.11890
120.5717.77132.901326.00.084740.078640.086900.070170.18120.05667...24.99023.41158.801956.00.123800.186600.24160.18600.27500.08902
219.6921.25130.001203.00.109600.159900.197400.127900.20690.05999...23.57025.53152.501709.00.144400.424500.45040.24300.36130.08758
311.4220.3877.58386.10.142500.283900.241400.105200.25970.09744...14.91026.5098.87567.70.209800.866300.68690.25750.66380.17300
420.2914.34135.101297.00.100300.132800.198000.104300.18090.05883...22.54016.67152.201575.00.137400.205000.40000.16250.23640.07678
..................................................................
56421.5622.39142.001479.00.111000.115900.243900.138900.17260.05623...25.45026.40166.102027.00.141000.211300.41070.22160.20600.07115
56520.1328.25131.201261.00.097800.103400.144000.097910.17520.05533...23.69038.25155.001731.00.116600.192200.32150.16280.25720.06637
56616.6028.08108.30858.10.084550.102300.092510.053020.15900.05648...18.98034.12126.701124.00.113900.309400.34030.14180.22180.07820
56720.6029.33140.101265.00.117800.277000.351400.152000.23970.07016...25.74039.42184.601821.00.165000.868100.93870.26500.40870.12400
5687.7624.5447.92181.00.052630.043620.000000.000000.15870.05884...9.45630.3759.16268.60.089960.064440.00000.00000.28710.07039

569 rows × 30 columns

划分训练集和测试集,检查训练集和测试集的平均癌症发生率

x_train, x_test, y_train, y_test = train_test_split(cancers.data, cancers.target, test_size=0.30)
print("train: {0:.2f}%".format(100 * y_train.mean()))
print("test: {0:.2f}%".format(100 * y_test.mean()))
train: 62.06%
test: 64.33%

配置模型,训练模型,模型预测,模型评估

构建一棵最大深度为2的决策树弱学习器,训练、预测、评估。

tr = tree.DecisionTreeClassifier(max_depth=2) #加载决策树模型
tr.fit(x_train, y_train)
DecisionTreeClassifier(max_depth=2)
predictions = tr.predict(x_test)
WeakLearnersAccuracy = accuracy_score(y_test, predictions)

再构建一个包含50棵树的AdaBoost集成分类器(步长为3),训练、预测、评估。

clf = AdaBoostClassifier(base_estimator=tree.DecisionTreeClassifier(),n_estimators=50,learning_rate=3)
clf
AdaBoostClassifier(base_estimator=DecisionTreeClassifier(), learning_rate=3)
clf.fit(x_train, y_train)
AdaBoostClassifier(base_estimator=DecisionTreeClassifier(), learning_rate=3)
predictions = clf.predict(x_test)
StrongLearnersAccuracy = accuracy_score(y_test, predictions)

将强学习者的性能与弱学习者进行比较

print("StrongLearnersAccuracy: {0:.2f}%".format(StrongLearnersAccuracy))
print("WeakLearnersAccuracy: {0:.2f}%".format(WeakLearnersAccuracy))
StrongLearnersAccuracy: 0.89%
WeakLearnersAccuracy: 0.92%

绘制准确度的折线图,x轴为决策树的数量,y轴为准确度

accuracys = []
for i in range(1,50,3):
    clf = AdaBoostClassifier(base_estimator=tree.DecisionTreeClassifier(),n_estimators=50,learning_rate=3)
    clf.fit(x_train, y_train)
    predictions = clf.predict(x_test)
    temp = accuracy_score(y_test, predictions)
    accuracys.append(temp)
accuracys= np.array(accuracys)
accuracys
array([0.88888889, 0.89473684, 0.89473684, 0.89473684, 0.89473684,
       0.89473684, 0.9005848 , 0.89473684, 0.88888889, 0.88888889,
       0.89473684, 0.9005848 , 0.88888889, 0.89473684, 0.88888889,
       0.89473684, 0.9005848 ])
plt.figure(figsize=(20,8)) 
plt.grid(True,linestyle='-',alpha=0.5)
plt.plot(range(1,50,3),accuracys)
plt.show()

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-18 23:24:41  更:2022-06-18 23:27:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/30 1:33:31-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码