| 哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211230,学习网址如下:课程链接
 备份链接
 任务55.1 学习python下os模块处理文件和目录的函数python中os模块异常强大,提供非常多的处理方法,都记住确实困难,可以用到时再查询,下表列出了64种方法,可以参考。
 | 序号 | 方法 | 描述 | 
|---|
 | 1 | os.access(path, mode) | 检验权限模式 |  | 2 | os.chdir(path) | 改变当前工作目录 |  | 3 | os.chflags(path, flags) | 设置路径的标记为数字标记。 |  | 4 | os.chmod(path, mode) | 更改权限 |  | 5 | os.chown(path, uid, gid) | 更改文件所有者 |  | 6 | os.chroot(path) | 改变当前进程的根目录 |  | 7 | os.close(fd) | 关闭文件描述符 fd |  | 8 | os.closerange(fd_low, fd_high) | 关闭所有文件描述符,从 fd_low (包含) 到 fd_high (不包含), 错误会忽略 |  | 9 | os.dup(fd) | 复制文件描述符 fd |  | 10 | os.dup2(fd, fd2) | 将一个文件描述符 fd 复制到另一个 fd2 |  | 11 | os.fchdir(fd) | 通过文件描述符改变当前工作目录 |  | 12 | os.fchmod(fd, mode) | 改变一个文件的访问权限,该文件由参数fd指定,参数mode是Unix下的文件访问权限。 |  | 13 | os.fchown(fd, uid, gid) | 修改一个文件的所有权,这个函数修改一个文件的用户ID和用户组ID,该文件由文件描述符fd指定。 |  | 14 | os.fdatasync(fd) | 强制将文件写入磁盘,该文件由文件描述符fd指定,但是不强制更新文件的状态信息。 |  | 15 | os.fdopen(fd[, mode[, bufsize]]) | 通过文件描述符 fd 创建一个文件对象,并返回这个文件对象 |  | 16 | os.fpathconf(fd, name) | 返回一个打开的文件的系统配置信息。name为检索的系统配置的值,它也许是一个定义系统值的字符串,这些名字在很多标准中指定(POSIX.1, Unix 95, Unix 98, 和其它)。 |  | 17 | os.fstat(fd) | 返回文件描述符fd的状态,像stat()。 |  | 18 | os.fstatvfs(fd) | 返回包含文件描述符fd的文件的文件系统的信息,像 statvfs() |  | 19 | os.fsync(fd) | 强制将文件描述符为fd的文件写入硬盘。 |  | 20 | os.ftruncate(fd, length) | 裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。 |  | 21 | os.getcwd() | 返回当前工作目录 |  | 22 | os.getcwdu() | 返回一个当前工作目录的Unicode对象 |  | 23 | os.isatty(fd) | 如果文件描述符fd是打开的,同时与tty(-like)设备相连,则返回true, 否则False。 |  | 24 | os.lchflags(path, flags) | 设置路径的标记为数字标记,类似 chflags(),但是没有软链接 |  | 25 | os.lchmod(path, mode) | 修改连接文件权限 |  | 26 | os.lchown(path, uid, gid) | 更改文件所有者,类似 chown,但是不追踪链接。 |  | 27 | os.link(src, dst) | 创建硬链接,名为参数 dst,指向参数 src |  | 28 | os.listdir(path) | 返回path指定的文件夹包含的文件或文件夹的名字的列表。 |  | 29 | os.lseek(fd, pos, how) | 设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix,Windows中有效 |  | 30 | os.lstat(path) | 像stat(),但是没有软链接 |  | 31 | os.major(device) | 从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。 |  | 32 | os.makedev(major, minor) | 以major和minor设备号组成一个原始设备号 |  | 33 | os.makedirs(path[, mode]) | 递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。 |  | 34 | os.minor(device) | 从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。 |  | 35 | os.mkdir(path[, mode]) | 以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。 |  | 36 | os.mkfifo(path[, mode]) | 创建命名管道,mode 为数字,默认为 0666 (八进制) |  | 37 | os.mknod(filename[, mode=0600, device]) | 创建一个名为filename文件系统节点(文件,设备特别文件或者命名pipe)。 |  | 38 | os.open(file, flags[, mode]) | 打开一个文件,并且设置需要的打开选项,mode参数是可选的 |  | 39 | os.openpty() | 打开一个新的伪终端对。返回 pty 和 tty的文件描述符。 |  | 40 | os.pathconf(path, name) | 返回相关文件的系统配置信息。 |  | 41 | os.pipe() | 创建一个管道. 返回一对文件描述符(r, w) 分别为读和写 |  | 42 | os.popen(command[, mode[, bufsize]]) | 从一个 command 打开一个管道 |  | 43 | os.read(fd, n) | 从文件描述符 fd 中读取最多 n 个字节,返回包含读取字节的字符串,文件描述符 fd对应文件已达到结尾, 返回一个空字符串。 |  | 44 | os.readlink(path) | 返回软链接所指向的文件 |  | 45 | os.remove(path) | 删除路径为path的文件。如果path 是一个文件夹,将抛出OSError; 查看下面的rmdir()删除一个 directory。 |  | 46 | os.removedirs(path) | 递归删除目录。 |  | 47 | os.rename(src, dst) | 重命名文件或目录,从 src 到 dst |  | 48 | os.renames(old, new) | 递归地对目录进行更名,也可以对文件进行更名。 |  | 49 | os.rmdir(path) | 删除path指定的空目录,如果目录非空,则抛出一个OSError异常。 |  | 50 | os.stat(path) | 获取path指定的路径的信息,功能等同于C API中的stat()系统调用。 |  | 51 | os.stat_float_times([newvalue]) | 决定stat_result是否以float对象显示时间戳 |  | 52 | os.statvfs(path) | 获取指定路径的文件系统统计信息 |  | 53 | os.symlink(src, dst) | 创建一个软链接 |  | 54 | os.tcgetpgrp(fd) | 返回与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组 |  | 55 | os.tcsetpgrp(fd, pg) | 设置与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组为pg。 |  | 56 | os.tempnam([dir[, prefix]]) | 返回唯一的路径名用于创建临时文件。 |  | 57 | os.tmpfile() | 返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口,没有文件描述符,将会自动删除。 |  | 58 | os.tmpnam() | 为创建一个临时文件返回一个唯一的路径 |  | 59 | os.ttyname(fd) | 返回一个字符串,它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联,则引发一个异常。 |  | 60 | os.unlink(path) | 删除文件路径 |  | 61 | os.utime(path, times) | 返回指定的path文件的访问和修改的时间。 |  | 62 | os.walk(top[, topdown=True[, οnerrοr=None[, followlinks=False]]]) | 输出在文件夹中的文件名通过在树中游走,向上或者向下。 |  | 63 | os.write(fd, str) | 写入字符串到文件描述符 fd中. 返回实际写入的字符串长度 |  | 64 | os.path 系列 | 用来获取文件的属性信息的一系列方法,详情请参考:https://www.runoob.com/python/python-os-path.html | 
 5.2 学习python下sys模块和传参函数sys模块提供了一系列有关Python运行环境的变量和函数。具体如下:
 | 序号 | 方法 | 描述 | 
|---|
 | 1 | sys.argv | 获取当前正在执行的命令行参数的参数列表(list) |  | 2 | sys.path | 返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值 |  | 3 | sys.platform | 获取当前执行环境的平台,如win32表示是Windows系统,linux2表示是linux平台 |  | 4 | sys.exit(n) | 调用sys.exit(n)可以中途退出程序,当参数非0时,会引发一个SystemExit异常,从而可以在主程序中捕获该异常。 |  | 5 | sys.version | 获取Python解释程序的版本信息 |  | 6 | sys.getrefcount | 获取一个值的应用计数 |  | 7 | sys.getrecursionlimit | python默认支持的递归数量 |  | 8 | sys.getdefaultencoding() | 获取系统当前编码 |  | 9 | sys.getfilesystemencoding() | 获取文件系统使用编码方式,Windows下返回’mbcs’,mac下返回’utf-8’ |  | 10 | sys.modules | sys.modules是一个全局字典,该字典在python启动后就加载在内存中。每当程序员导入新的模块,sys.modules将自动记录该模块。当第二次再导入该模块时,python会直接到字典中查找,从而加快了程序运行的速度。它拥有字典所拥有的一切方法。 |  | 11 | sys.stdout.write | 可以做输出重定向,如果需要更好地控制输出,而 print 不能满足你的需求时, 它就是你需要的。 | 
 5.3 os、sys 函数使用实践接下来,编写 test5.py来实现如下功能: 打印命令行参数使用os模块打印/usr/bin/路径下所有以m开头的文件
 根据前面学习的内容,使用 sys.argv方法即可获得命令行参数;使用os.listdir(path)可以获取目录下所有文件和文件夹,而题目要求打印的只是文件,还需要os.path.isfile(xxx)判断一下,至于m开头可以使用str.startswith方法。 完整代码如下: 
import os,sys
print(sys.argv[0])
print(sys.argv[1])
print(sys.argv[2])
print('*' * 100)
dir_name = '/usr/bin'
for f in os.listdir(dir_name):
    fullname = os.path.join(dir_name, f)
    if os.path.isfile(fullname) and f.startswith('m'):
            print(f)
 
 任务66.1 学习python模块化模块是一个包含函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 python 标准库的方法。 在任务5中创建的 test5.py就是一个模块。 6.2 创建指定文件夹创建脚本如下: mkdir affairs
 
 6.3 python模块化代码实践根据要求,读取网络文件要写成方法,就是说这个 url要作为一个参数,而不是常量,正好可以用到任务5学到的sys.argv[1]方法来向python模块传入参数。  
 功能1:affairs.py代码完成https://mirror.coggle.club/dataset/affairs.txt文件的读取,这里可以直接用pd.read_csv('https://mirror.coggle.club/dataset/affairs.txt')来完成。这一部分建议写为函数。功能2:
 test6.py可以导入affairs.py代码功能3:
 test6.py可以进行命令行解析,输出affairs.txt具体的第几行内容。 affairs.py 代码如下 
import pandas as pd
def read_url(url):
    df = pd.read_csv(url)
    print(df.head()
 由于目录层级是这样的,import 引入 affairs模块时,因为affairs.affairs /home/datawhale/mba1398/datawhale/        
                                 test6.py        
                                 affairs/            
                                 affairs.py
 test6.py 代码如下 
import sys
from affairs.affairs import read_url
url_para = sys.argv[1]
read_url(url_para)
 执行效果如下:
  任务77.1 sleep实现程序休眠在没有学习后台执行任务的方法之前,我能想到的让程序一直运行的方法就是 while true了。( Ctrl + C 终止程序) import time
while True:
    time.sleep(10)
    print(time.ctime())
 
 7.2 学习 & 和 nohup后台执行的方法为继续进行本次学习,特将 sleep.py文件名修改为sleep_mba1398.py。使用
 nohup命令后,依次使用Ctrl + Zbgjobs -lkill -9 PID即可看到进程后台挂起又被杀死的过程。
  同时使用 nohup &同时使用
 nohup &,既可以实现输入命令之后还是接受输入,又可以保持程序一直运行(即使窗口关闭)
  
 此处实验效果较差 7.3 学习tmux的使用使用 tmux可以创建一个虚拟的会话终端,shell终端的关闭不会影响虚拟终端的任务执行,这样我们就可以把耗时较长的任务放到虚拟终端里去执行。
 tmux主要有以下用法: | 序号 | 功能 | 命令 | 
|---|
 | 1 | 创建会话 | tmux new -s sessionName |  | 2 | shell终端查看 tmux会话列表 | tmux ls |  | 3 | 虚拟会话终端查看 tmux会话列表 | ctrl+b s |  | 4 | shell终端进入会话 | tmux a -t sessionName |  | 5 | 退出会话 | ctrl+b d |  | 6 | 销毁会话 | tmux kill-session -t sessionName |  | 7 | shell终端重命名会话 | tmux rename -t old_session_name new_session_name |  | 8 | 虚拟终端重命名会话 | ctrl + b $,设置完敲回车即可保存 | 
 下面使用 tmux将步骤1的程序进行后台运行,并将输出结果写入到txt文件。(-u参数比较关键,代表程序不启用缓存,也就是把输出直接放到目标文件中,否则容易出现看不到数据的情况)
  退出 tmux并关闭 shell终端窗口,然后再次打开 shell终端窗口
  由上图可以看到,python程序在持续运行,
 tmux挺强大,学习了。 至此,本次任务学习完毕。 |