IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> Kaggle竞赛:Titianic——随机森林(8.4) -> 正文阅读

[数据结构与算法]Kaggle竞赛:Titianic——随机森林(8.4)

目录

参考资料

知识点——遍历目录和文件

1. 导入包

2. 读入数据

3. 查看前5行数据

4. EDA:筛选特定值和某个列

5. 分类变量转化为哑变量

6. 随机森林

7. 预测

8. 导出

随机森林全文代码


参考资料

知识点——遍历目录和文件

  • 获取当前文件夹下面的所有文件(不含文件夹)
import os
# os.walk("name")中的"name"为当前工作目录下的文件夹的名字!
for curDir, dirs, files in os.walk(".idea"):
 ? ?for file in files:
 ? ? ? ?print(os.path.join(curDir, file))
# curDir表示当前文件夹的目录,dirs表示子文件夹,files表示文件
  • 获取当前文件夹下的所有子文件夹和文件
import os
# 扫描文件夹下的所有子目录和文件
for curDir, dirs, files in os.walk(".idea"):
 ? ?print("====================")
 ? ?print("现在的目录:" + curDir)
 ? ?print("该目录下包含的子目录:" + str(dirs))
 ? ?print("该目录下包含的文件:" + str(files))
  • 自底向上获取该文件夹下的目录

import os
# 自底向上扫描该文件夹下的目录
for curDir, dirs, files in os.walk(".idea", topdown=False):
 ? ?print("====================")
 ? ?print("现在的目录:" + curDir)
 ? ?print("该目录下包含的子目录:" + str(dirs))
 ? ?print("该目录下包含的文件:" + str(files))
  • 获取特定后缀(如.txt)的文件

# 使用os.walk输出某个特定后缀(比如.txt)的文件
import os
?
for curDir, dirs, files in os.walk(".idea"):
 ? ?for file in files:
 ? ? ? ?if file.endswith(".txt"):
 ? ? ? ? ? ?print(os.path.join(curDir, file))
  • 获取所有子文件夹的名字

# 使用os.walk输出所有的文件夹名字
import os
for curDir, dirs, files in os.walk(".idea"):
 ? ?for dir in dirs:
 ? ? ? ?print(dir)

1. 导入包

import numpy as np ?# 处理矩阵
import pandas as pd ?# 数据处理、导入导出

2. 读入数据

train = pd.read_csv('E:/【桌面】/titanic/train.csv')
test = pd.read_csv('E:/【桌面】/titanic/test.csv')

3. 查看前5行数据

print(train.head())
print(test.head())

4. EDA:筛选特定值和某个列

  • 多少女士获救?

women = train.loc[train.Sex == 'female']['Survived']
# 选取性别为female的所有列,再筛选其中的一列“Survived”
# print(women)
rate_women = sum(women)/len(women)
# 获救为1,死为0。可得获救占比
print(rate_women)
  • 多少男士获救?

man = train.loc[train.Sex == 'male']['Survived']
rate_man = sum(man)/len(man)
print(rate_man)

5. 分类变量转化为哑变量

features = ["Pclass", "Sex", "SibSp", "Parch"]
# 筛选出分类变量用来建模
X = pd.get_dummies(train[features])
# 把分类变量转化为哑变量
X_test = pd.get_dummies(test[features])
# 测试集同理
print(X_test)

6. 随机森林

from sklearn.ensemble import RandomForestClassifier
y = train["Survived"]
# 获取模型拟合的Y
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
# n_estimators 随机森林中树的数量
# max_depth 树的最大深度
# random_state 类似随机种子,每次构建的模型是相同的,生成的数据集是相同的,每次拆分的结果也是相同的
model.fit(X, y)

7. 预测

predictions = model.predict(X_test)
# 导入测试集的X,得到Y
# 这时的Y是一个列表,没有列名
print(predictions)

8. 导出

output = pd.DataFrame({'PassengerId': test.PassengerId, 'Survived': predictions})
# 调整输出格式,左列为测试集的ID,右列为预测的值,把字典转化为dataframe
output.to_csv('my_submission_RandomForest.csv', index=False)
# 输出为csv
print("Your submission was successfully saved!")

随机森林全文代码

# 1.导入包
import numpy as np ?# 处理矩阵
import pandas as pd ?# 数据处理、导入导出
?
# import os
# # os.walk("name")为当前工作目录下的文件夹的名字!
# for curDir, dirs, files in os.walk(".idea"):
# ? ? for file in files:
# ? ? ? ? print(os.path.join(curDir, file))
# # curDir表示当前目录,dirs表示包含子目录,files表示文件
# # 获取当前目录下的所有文件
#
# import os
# # 扫描文件夹下的所有子目录和文件
# for curDir, dirs, files in os.walk(".idea"):
# ? ? print("====================")
# ? ? print("现在的目录:" + curDir)
# ? ? print("该目录下包含的子目录:" + str(dirs))
# ? ? print("该目录下包含的文件:" + str(files))
#
# import os
# # 自底向上扫描该文件夹下的目录
# for curDir, dirs, files in os.walk(".idea", topdown=False):
# ? ? print("====================")
# ? ? print("现在的目录:" + curDir)
# ? ? print("该目录下包含的子目录:" + str(dirs))
# ? ? print("该目录下包含的文件:" + str(files))
#
#
# # 使用os.walk输出某个特定后缀(比如.txt)的文件
# import os
#
# for curDir, dirs, files in os.walk(".idea"):
# ? ? for file in files:
# ? ? ? ? if file.endswith(".txt"):
# ? ? ? ? ? ? print(os.path.join(curDir, file))
#
# # 使用os.walk输出所有的文件夹名字
# import os
# for curDir, dirs, files in os.walk(".idea"):
# ? ? for dir in dirs:
# ? ? ? ? print(dir)
?
# 2.读入数据
train = pd.read_csv('E:/【桌面】/titanic/train.csv')
test = pd.read_csv('E:/【桌面】/titanic/test.csv')
?
# 3.查看前六行
# print(train.head())
# print(test.head())
?
# 4.EDA筛选特定列:某列特定值&某个列
# 多少女士获救?
women = train.loc[train.Sex == 'female']['Survived']
# 选取性别为female的所有列,再筛选其中的一列“Survived”
# print(women)
rate_women = sum(women)/len(women)
# 获救为1,死为0。可得获救占比
print(rate_women)
#
# 多少男士获救?
man = train.loc[train.Sex == 'male']['Survived']
rate_man = sum(man)/len(man)
print(rate_man)
?
# 5.分类变量转化为哑变量
features = ["Pclass", "Sex", "SibSp", "Parch"]
# 筛选出分类变量用来建模
X = pd.get_dummies(train[features])
# 把分类变量转化为哑变量
X_test = pd.get_dummies(test[features])
# 测试集同理
# print(X_test)
?
# 6.随机森林
from sklearn.ensemble import RandomForestClassifier
y = train["Survived"]
# 获取模型拟合的Y
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
# n_estimators 随机森林中树的数量
# max_depth 树的最大深度
# random_state 类似随机种子,每次构建的模型是相同的,生成的数据集是相同的,每次拆分的结果也是相同的
model.fit(X, y)
?
# 7.预测
predictions = model.predict(X_test)
# 导入测试集的X,得到Y
# 这时的Y是一个列表,没有列名
print(predictions)
?
# 8.导出
output = pd.DataFrame({'PassengerId': test.PassengerId, 'Survived': predictions})
# 调整输出格式,左列为测试集的ID,右列为预测的值,把字典转化为dataframe
output.to_csv('my_submission_RandomForest.csv', index=False)
# 输出为csv
print("Your submission was successfully saved!")

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-08-05 17:36:08  更:2021-08-05 17:38:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 1:19:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计