任务5

5.1 学习python下os模块处理文件和目录的函数

python 中 os 模块异常强大，提供非常多的处理方法，都记住确实困难，可以用到时再查询，下表列出了64种方法，可以参考。

序号	方法	描述
1	os.access(path, mode)	检验权限模式
2	os.chdir(path)	改变当前工作目录
3	os.chflags(path, flags)	设置路径的标记为数字标记。
4	os.chmod(path, mode)	更改权限
5	os.chown(path, uid, gid)	更改文件所有者
6	os.chroot(path)	改变当前进程的根目录
7	os.close(fd)	关闭文件描述符 fd
8	os.closerange(fd_low, fd_high)	关闭所有文件描述符，从 fd_low (包含) 到 fd_high (不包含), 错误会忽略
9	os.dup(fd)	复制文件描述符 fd
10	os.dup2(fd, fd2)	将一个文件描述符 fd 复制到另一个 fd2
11	os.fchdir(fd)	通过文件描述符改变当前工作目录
12	os.fchmod(fd, mode)	改变一个文件的访问权限，该文件由参数fd指定，参数mode是Unix下的文件访问权限。
13	os.fchown(fd, uid, gid)	修改一个文件的所有权，这个函数修改一个文件的用户ID和用户组ID，该文件由文件描述符fd指定。
14	os.fdatasync(fd)	强制将文件写入磁盘，该文件由文件描述符fd指定，但是不强制更新文件的状态信息。
15	os.fdopen(fd[, mode[, bufsize]])	通过文件描述符 fd 创建一个文件对象，并返回这个文件对象
16	os.fpathconf(fd, name)	返回一个打开的文件的系统配置信息。name为检索的系统配置的值，它也许是一个定义系统值的字符串，这些名字在很多标准中指定（POSIX.1, Unix 95, Unix 98, 和其它）。
17	os.fstat(fd)	返回文件描述符fd的状态，像stat()。
18	os.fstatvfs(fd)	返回包含文件描述符fd的文件的文件系统的信息，像 statvfs()
19	os.fsync(fd)	强制将文件描述符为fd的文件写入硬盘。
20	os.ftruncate(fd, length)	裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。
21	os.getcwd()	返回当前工作目录
22	os.getcwdu()	返回一个当前工作目录的Unicode对象
23	os.isatty(fd)	如果文件描述符fd是打开的，同时与tty(-like)设备相连，则返回true, 否则False。
24	os.lchflags(path, flags)	设置路径的标记为数字标记，类似 chflags()，但是没有软链接
25	os.lchmod(path, mode)	修改连接文件权限
26	os.lchown(path, uid, gid)	更改文件所有者，类似 chown，但是不追踪链接。
27	os.link(src, dst)	创建硬链接，名为参数 dst，指向参数 src
28	os.listdir(path)	返回path指定的文件夹包含的文件或文件夹的名字的列表。
29	os.lseek(fd, pos, how)	设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix，Windows中有效
30	os.lstat(path)	像stat(),但是没有软链接
31	os.major(device)	从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。
32	os.makedev(major, minor)	以major和minor设备号组成一个原始设备号
33	os.makedirs(path[, mode])	递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。
34	os.minor(device)	从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。
35	os.mkdir(path[, mode])	以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。
36	os.mkfifo(path[, mode])	创建命名管道，mode 为数字，默认为 0666 (八进制)
37	os.mknod(filename[, mode=0600, device])	创建一个名为filename文件系统节点（文件，设备特别文件或者命名pipe）。
38	os.open(file, flags[, mode])	打开一个文件，并且设置需要的打开选项，mode参数是可选的
39	os.openpty()	打开一个新的伪终端对。返回 pty 和 tty的文件描述符。
40	os.pathconf(path, name)	返回相关文件的系统配置信息。
41	os.pipe()	创建一个管道. 返回一对文件描述符(r, w) 分别为读和写
42	os.popen(command[, mode[, bufsize]])	从一个 command 打开一个管道
43	os.read(fd, n)	从文件描述符 fd 中读取最多 n 个字节，返回包含读取字节的字符串，文件描述符 fd对应文件已达到结尾, 返回一个空字符串。
44	os.readlink(path)	返回软链接所指向的文件
45	os.remove(path)	删除路径为path的文件。如果path 是一个文件夹，将抛出OSError; 查看下面的rmdir()删除一个 directory。
46	os.removedirs(path)	递归删除目录。
47	os.rename(src, dst)	重命名文件或目录，从 src 到 dst
48	os.renames(old, new)	递归地对目录进行更名，也可以对文件进行更名。
49	os.rmdir(path)	删除path指定的空目录，如果目录非空，则抛出一个OSError异常。
50	os.stat(path)	获取path指定的路径的信息，功能等同于C API中的stat()系统调用。
51	os.stat_float_times([newvalue])	决定stat_result是否以float对象显示时间戳
52	os.statvfs(path)	获取指定路径的文件系统统计信息
53	os.symlink(src, dst)	创建一个软链接
54	os.tcgetpgrp(fd)	返回与终端fd（一个由os.open()返回的打开的文件描述符）关联的进程组
55	os.tcsetpgrp(fd, pg)	设置与终端fd（一个由os.open()返回的打开的文件描述符）关联的进程组为pg。
56	os.tempnam([dir[, prefix]])	返回唯一的路径名用于创建临时文件。
57	os.tmpfile()	返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口，没有文件描述符，将会自动删除。
58	os.tmpnam()	为创建一个临时文件返回一个唯一的路径
59	os.ttyname(fd)	返回一个字符串，它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联，则引发一个异常。
60	os.unlink(path)	删除文件路径
61	os.utime(path, times)	返回指定的path文件的访问和修改的时间。
62	os.walk(top[, topdown=True[, οnerrοr=None[, followlinks=False]]])	输出在文件夹中的文件名通过在树中游走，向上或者向下。
63	os.write(fd, str)	写入字符串到文件描述符 fd中. 返回实际写入的字符串长度
64	os.path 系列	用来获取文件的属性信息的一系列方法，详情请参考：https://www.runoob.com/python/python-os-path.html

5.2 学习python下sys模块和传参函数

sys模块提供了一系列有关Python运行环境的变量和函数。
具体如下：

序号	方法	描述
1	sys.argv	获取当前正在执行的命令行参数的参数列表(list)
2	sys.path	返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值
3	sys.platform	获取当前执行环境的平台，如win32表示是Windows系统，linux2表示是linux平台
4	sys.exit(n)	调用sys.exit(n)可以中途退出程序，当参数非0时，会引发一个SystemExit异常，从而可以在主程序中捕获该异常。
5	sys.version	获取Python解释程序的版本信息
6	sys.getrefcount	获取一个值的应用计数
7	sys.getrecursionlimit	python默认支持的递归数量
8	sys.getdefaultencoding()	获取系统当前编码
9	sys.getfilesystemencoding()	获取文件系统使用编码方式，Windows下返回’mbcs’，mac下返回’utf-8’
10	sys.modules	sys.modules是一个全局字典，该字典在python启动后就加载在内存中。每当程序员导入新的模块，sys.modules将自动记录该模块。当第二次再导入该模块时，python会直接到字典中查找，从而加快了程序运行的速度。它拥有字典所拥有的一切方法。
11	sys.stdout.write	可以做输出重定向，如果需要更好地控制输出,而 print 不能满足你的需求时, 它就是你需要的。

5.3 os、sys 函数使用实践

接下来，编写 test5.py 来实现如下功能：

打印命令行参数
使用os模块打印/usr/bin/路径下所有以m开头的文件

根据前面学习的内容，使用 sys.argv 方法即可获得命令行参数；使用 os.listdir(path) 可以获取目录下所有文件和文件夹，而题目要求打印的只是文件，还需要 os.path.isfile(xxx) 判断一下，至于 m 开头可以使用 str.startswith 方法。

完整代码如下：

#! /usr/bin/env python3

import os,sys
print(sys.argv[0])
print(sys.argv[1])
print(sys.argv[2])

print('*' * 100)
dir_name = '/usr/bin'
for f in os.listdir(dir_name):
    fullname = os.path.join(dir_name, f)
    if os.path.isfile(fullname) and f.startswith('m'):
            print(f)

任务5输出结果

任务6

6.1 学习python模块化

模块是一个包含函数和变量的文件，其后缀名是.py。模块可以被别的程序引入，以使用该模块中的函数等功能。这也是使用 python 标准库的方法。

在任务5中创建的 test5.py 就是一个模块。

6.2 创建指定文件夹

创建脚本如下：

mkdir affairs

在这里插入图片描述

6.3 python模块化代码实践

根据要求，读取网络文件要写成方法，就是说这个 url 要作为一个参数，而不是常量，正好可以用到任务5学到的 sys.argv[1] 方法来向python模块传入参数。

功能1：affairs.py 代码完成 https://mirror.coggle.club/dataset/affairs.txt 文件的读取，这里可以直接用 pd.read_csv('https://mirror.coggle.club/dataset/affairs.txt') 来完成。这一部分建议写为函数。
功能2：test6.py 可以导入 affairs.py 代码
功能3：test6.py 可以进行命令行解析，输出 affairs.txt 具体的第几行内容。

affairs.py 代码如下

#affairs.py
import pandas as pd

def read_url(url):
    df = pd.read_csv(url)
    print(df.head()

由于目录层级是这样的，import 引入 affairs 模块时，因为 affairs.affairs

/home/datawhale/mba1398/datawhale/        
                                 test6.py        
                                 affairs/            
                                 affairs.py

test6.py 代码如下

#test6.py
import sys
from affairs.affairs import read_url

url_para = sys.argv[1]
read_url(url_para)

执行效果如下：
在这里插入图片描述

任务7

7.1 sleep实现程序休眠

在没有学习后台执行任务的方法之前，我能想到的让程序一直运行的方法就是 while true 了。( Ctrl + C 终止程序）

import time

while True:
    time.sleep(10)
    print(time.ctime())

在这里插入图片描述

7.2 学习 & 和 nohup后台执行的方法

命令末尾加上 & 参数可以让程序在后台执行，缺点是窗口关闭后程序就会终止（Ctrl + D 也会终止程序），优点是执行命令之后，终端仍可以接受输入

直接关闭窗口之后，使用 ps -ef 命令查看进程，发现该进程已经不存在。
nohup 可以让程序一直在后台运行，即使窗口关闭，缺点是使用 nohup 命令后，终端不再接受输入（使用 exit 命令退出 nohup 进程）

关闭窗口之后，去查看 nohup 命令输出文件 nohup.out 发现程序并没有终止，一直再打印信息

小插曲，由于执行 nohup 命令时未显示进程号，而本次组队学习场景，好多同学使用了相同的命令，导致使用 ps -ef 命令也找不到自己的进程，无奈只能 kill 了所有的跟我命令一样的进程，kill 之后发现还是不好使，尴尬了。。。自己目录下的文件一直在打印内容，文件大小一直在变大，眼看要 60M 了，看着好揪心，删除 nohup.out 文件之后居然没自动创建，哈哈哈，看来这次是干掉了。

为继续进行本次学习，特将 sleep.py 文件名修改为 sleep_mba1398.py。
使用 nohup 命令后，依次使用 Ctrl + Z bg jobs -l kill -9 PID 即可看到进程后台挂起又被杀死的过程。
在这里插入图片描述

同时使用 nohup &
同时使用 nohup & ，既可以实现输入命令之后还是接受输入，又可以保持程序一直运行（即使窗口关闭）

此处实验效果较差

7.3 学习tmux的使用

使用 tmux 可以创建一个虚拟的会话终端，shell 终端的关闭不会影响虚拟终端的任务执行，这样我们就可以把耗时较长的任务放到虚拟终端里去执行。
tmux 主要有以下用法：

序号	功能	命令
1	创建会话	`tmux new -s sessionName`
2	shell终端查看 `tmux` 会话列表	`tmux ls`
3	虚拟会话终端查看 `tmux` 会话列表	`ctrl+b s`
4	shell终端进入会话	`tmux a -t sessionName`
5	退出会话	`ctrl+b d`
6	销毁会话	`tmux kill-session -t sessionName`
7	shell终端重命名会话	`tmux rename -t old_session_name new_session_name`
8	虚拟终端重命名会话	`ctrl + b $`，设置完敲回车即可保存