哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211230,学习网址如下: 课程链接 备份链接
任务5
5.1 学习python下os模块处理文件和目录的函数
python 中 os 模块异常强大,提供非常多的处理方法,都记住确实困难,可以用到时再查询,下表列出了64种方法,可以参考。
序号 | 方法 | 描述 |
---|
1 | os.access(path, mode) | 检验权限模式 | 2 | os.chdir(path) | 改变当前工作目录 | 3 | os.chflags(path, flags) | 设置路径的标记为数字标记。 | 4 | os.chmod(path, mode) | 更改权限 | 5 | os.chown(path, uid, gid) | 更改文件所有者 | 6 | os.chroot(path) | 改变当前进程的根目录 | 7 | os.close(fd) | 关闭文件描述符 fd | 8 | os.closerange(fd_low, fd_high) | 关闭所有文件描述符,从 fd_low (包含) 到 fd_high (不包含), 错误会忽略 | 9 | os.dup(fd) | 复制文件描述符 fd | 10 | os.dup2(fd, fd2) | 将一个文件描述符 fd 复制到另一个 fd2 | 11 | os.fchdir(fd) | 通过文件描述符改变当前工作目录 | 12 | os.fchmod(fd, mode) | 改变一个文件的访问权限,该文件由参数fd指定,参数mode是Unix下的文件访问权限。 | 13 | os.fchown(fd, uid, gid) | 修改一个文件的所有权,这个函数修改一个文件的用户ID和用户组ID,该文件由文件描述符fd指定。 | 14 | os.fdatasync(fd) | 强制将文件写入磁盘,该文件由文件描述符fd指定,但是不强制更新文件的状态信息。 | 15 | os.fdopen(fd[, mode[, bufsize]]) | 通过文件描述符 fd 创建一个文件对象,并返回这个文件对象 | 16 | os.fpathconf(fd, name) | 返回一个打开的文件的系统配置信息。name为检索的系统配置的值,它也许是一个定义系统值的字符串,这些名字在很多标准中指定(POSIX.1, Unix 95, Unix 98, 和其它)。 | 17 | os.fstat(fd) | 返回文件描述符fd的状态,像stat()。 | 18 | os.fstatvfs(fd) | 返回包含文件描述符fd的文件的文件系统的信息,像 statvfs() | 19 | os.fsync(fd) | 强制将文件描述符为fd的文件写入硬盘。 | 20 | os.ftruncate(fd, length) | 裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。 | 21 | os.getcwd() | 返回当前工作目录 | 22 | os.getcwdu() | 返回一个当前工作目录的Unicode对象 | 23 | os.isatty(fd) | 如果文件描述符fd是打开的,同时与tty(-like)设备相连,则返回true, 否则False。 | 24 | os.lchflags(path, flags) | 设置路径的标记为数字标记,类似 chflags(),但是没有软链接 | 25 | os.lchmod(path, mode) | 修改连接文件权限 | 26 | os.lchown(path, uid, gid) | 更改文件所有者,类似 chown,但是不追踪链接。 | 27 | os.link(src, dst) | 创建硬链接,名为参数 dst,指向参数 src | 28 | os.listdir(path) | 返回path指定的文件夹包含的文件或文件夹的名字的列表。 | 29 | os.lseek(fd, pos, how) | 设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix,Windows中有效 | 30 | os.lstat(path) | 像stat(),但是没有软链接 | 31 | os.major(device) | 从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。 | 32 | os.makedev(major, minor) | 以major和minor设备号组成一个原始设备号 | 33 | os.makedirs(path[, mode]) | 递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。 | 34 | os.minor(device) | 从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。 | 35 | os.mkdir(path[, mode]) | 以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。 | 36 | os.mkfifo(path[, mode]) | 创建命名管道,mode 为数字,默认为 0666 (八进制) | 37 | os.mknod(filename[, mode=0600, device]) | 创建一个名为filename文件系统节点(文件,设备特别文件或者命名pipe)。 | 38 | os.open(file, flags[, mode]) | 打开一个文件,并且设置需要的打开选项,mode参数是可选的 | 39 | os.openpty() | 打开一个新的伪终端对。返回 pty 和 tty的文件描述符。 | 40 | os.pathconf(path, name) | 返回相关文件的系统配置信息。 | 41 | os.pipe() | 创建一个管道. 返回一对文件描述符(r, w) 分别为读和写 | 42 | os.popen(command[, mode[, bufsize]]) | 从一个 command 打开一个管道 | 43 | os.read(fd, n) | 从文件描述符 fd 中读取最多 n 个字节,返回包含读取字节的字符串,文件描述符 fd对应文件已达到结尾, 返回一个空字符串。 | 44 | os.readlink(path) | 返回软链接所指向的文件 | 45 | os.remove(path) | 删除路径为path的文件。如果path 是一个文件夹,将抛出OSError; 查看下面的rmdir()删除一个 directory。 | 46 | os.removedirs(path) | 递归删除目录。 | 47 | os.rename(src, dst) | 重命名文件或目录,从 src 到 dst | 48 | os.renames(old, new) | 递归地对目录进行更名,也可以对文件进行更名。 | 49 | os.rmdir(path) | 删除path指定的空目录,如果目录非空,则抛出一个OSError异常。 | 50 | os.stat(path) | 获取path指定的路径的信息,功能等同于C API中的stat()系统调用。 | 51 | os.stat_float_times([newvalue]) | 决定stat_result是否以float对象显示时间戳 | 52 | os.statvfs(path) | 获取指定路径的文件系统统计信息 | 53 | os.symlink(src, dst) | 创建一个软链接 | 54 | os.tcgetpgrp(fd) | 返回与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组 | 55 | os.tcsetpgrp(fd, pg) | 设置与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组为pg。 | 56 | os.tempnam([dir[, prefix]]) | 返回唯一的路径名用于创建临时文件。 | 57 | os.tmpfile() | 返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口,没有文件描述符,将会自动删除。 | 58 | os.tmpnam() | 为创建一个临时文件返回一个唯一的路径 | 59 | os.ttyname(fd) | 返回一个字符串,它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联,则引发一个异常。 | 60 | os.unlink(path) | 删除文件路径 | 61 | os.utime(path, times) | 返回指定的path文件的访问和修改的时间。 | 62 | os.walk(top[, topdown=True[, οnerrοr=None[, followlinks=False]]]) | 输出在文件夹中的文件名通过在树中游走,向上或者向下。 | 63 | os.write(fd, str) | 写入字符串到文件描述符 fd中. 返回实际写入的字符串长度 | 64 | os.path 系列 | 用来获取文件的属性信息的一系列方法,详情请参考:https://www.runoob.com/python/python-os-path.html |
5.2 学习python下sys模块和传参函数
sys模块提供了一系列有关Python运行环境的变量和函数。 具体如下:
序号 | 方法 | 描述 |
---|
1 | sys.argv | 获取当前正在执行的命令行参数的参数列表(list) | 2 | sys.path | 返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值 | 3 | sys.platform | 获取当前执行环境的平台,如win32表示是Windows系统,linux2表示是linux平台 | 4 | sys.exit(n) | 调用sys.exit(n)可以中途退出程序,当参数非0时,会引发一个SystemExit异常,从而可以在主程序中捕获该异常。 | 5 | sys.version | 获取Python解释程序的版本信息 | 6 | sys.getrefcount | 获取一个值的应用计数 | 7 | sys.getrecursionlimit | python默认支持的递归数量 | 8 | sys.getdefaultencoding() | 获取系统当前编码 | 9 | sys.getfilesystemencoding() | 获取文件系统使用编码方式,Windows下返回’mbcs’,mac下返回’utf-8’ | 10 | sys.modules | sys.modules是一个全局字典,该字典在python启动后就加载在内存中。每当程序员导入新的模块,sys.modules将自动记录该模块。当第二次再导入该模块时,python会直接到字典中查找,从而加快了程序运行的速度。它拥有字典所拥有的一切方法。 | 11 | sys.stdout.write | 可以做输出重定向,如果需要更好地控制输出,而 print 不能满足你的需求时, 它就是你需要的。 |
5.3 os、sys 函数使用实践
接下来,编写 test5.py 来实现如下功能:
- 打印命令行参数
- 使用os模块打印/usr/bin/路径下所有以m开头的文件
根据前面学习的内容,使用 sys.argv 方法即可获得命令行参数;使用 os.listdir(path) 可以获取目录下所有文件和文件夹,而题目要求打印的只是文件,还需要 os.path.isfile(xxx) 判断一下,至于 m 开头可以使用 str.startswith 方法。
完整代码如下:
import os,sys
print(sys.argv[0])
print(sys.argv[1])
print(sys.argv[2])
print('*' * 100)
dir_name = '/usr/bin'
for f in os.listdir(dir_name):
fullname = os.path.join(dir_name, f)
if os.path.isfile(fullname) and f.startswith('m'):
print(f)
任务6
6.1 学习python模块化
模块是一个包含函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 python 标准库的方法。
在任务5中创建的 test5.py 就是一个模块。
6.2 创建指定文件夹
创建脚本如下:
mkdir affairs
6.3 python模块化代码实践
根据要求,读取网络文件要写成方法,就是说这个 url 要作为一个参数,而不是常量,正好可以用到任务5学到的 sys.argv[1] 方法来向python模块传入参数。
功能1:affairs.py 代码完成 https://mirror.coggle.club/dataset/affairs.txt 文件的读取,这里可以直接用 pd.read_csv('https://mirror.coggle.club/dataset/affairs.txt') 来完成。这一部分建议写为函数。 功能2:test6.py 可以导入 affairs.py 代码 功能3:test6.py 可以进行命令行解析,输出 affairs.txt 具体的第几行内容。
affairs.py 代码如下
import pandas as pd
def read_url(url):
df = pd.read_csv(url)
print(df.head()
由于目录层级是这样的,import 引入 affairs 模块时,因为 affairs.affairs
/home/datawhale/mba1398/datawhale/
test6.py
affairs/
affairs.py
test6.py 代码如下
import sys
from affairs.affairs import read_url
url_para = sys.argv[1]
read_url(url_para)
执行效果如下:
任务7
7.1 sleep实现程序休眠
在没有学习后台执行任务的方法之前,我能想到的让程序一直运行的方法就是 while true 了。( Ctrl + C 终止程序)
import time
while True:
time.sleep(10)
print(time.ctime())
7.2 学习 & 和 nohup后台执行的方法
为继续进行本次学习,特将 sleep.py 文件名修改为 sleep_mba1398.py 。 使用 nohup 命令后,依次使用 Ctrl + Z bg jobs -l kill -9 PID 即可看到进程后台挂起又被杀死的过程。
- 同时使用
nohup & 同时使用 nohup & ,既可以实现输入命令之后还是接受输入,又可以保持程序一直运行(即使窗口关闭)
此处实验效果较差
7.3 学习tmux的使用
使用 tmux 可以创建一个虚拟的会话终端,shell 终端的关闭不会影响虚拟终端的任务执行,这样我们就可以把耗时较长的任务放到虚拟终端里去执行。 tmux 主要有以下用法:
序号 | 功能 | 命令 |
---|
1 | 创建会话 | tmux new -s sessionName | 2 | shell终端查看 tmux 会话列表 | tmux ls | 3 | 虚拟会话终端查看 tmux 会话列表 | ctrl+b s | 4 | shell终端进入会话 | tmux a -t sessionName | 5 | 退出会话 | ctrl+b d | 6 | 销毁会话 | tmux kill-session -t sessionName | 7 | shell终端重命名会话 | tmux rename -t old_session_name new_session_name | 8 | 虚拟终端重命名会话 | ctrl + b $ ,设置完敲回车即可保存 |
下面使用 tmux 将步骤1的程序进行后台运行,并将输出结果写入到txt文件。( -u 参数比较关键,代表程序不启用缓存,也就是把输出直接放到目标文件中,否则容易出现看不到数据的情况)
退出 tmux 并关闭 shell终端窗口,然后再次打开 shell终端窗口 由上图可以看到,python程序在持续运行,tmux 挺强大,学习了。
至此,本次任务学习完毕。
|