# 获取url并返回response值
# 参数1：想要获取的url 参数2：爬取的页数
def get_url(m_url, m_page_cnt):
    headers = {
        # UA伪装，这里用"xxx"表示
        "User-Agent": "xxx",
    }
    m_resp = requests.get(url=m_url, headers=headers)
    return m_resp

?2. save_csv()函数就是对数据进行本地保存的操作，这里简单的调用了csv库进行实现，需要导入第三方库。

import csv

至于为什么需要返回值m_f，主要是我们需要在主函数将其关闭，但有人说Python中会自动关闭文件描述符，所以也可以不添加返回值。?

# 将文件保存成.csv形式，并返回文件描述符m_f
# 参数1：文件路径 参数2：读写类型 参数3：编码格式 参数4：将单次提取的数据放入暂存列表
def save_csv(m_csv_file, m_rw, m_encoding, m_save_list):
    with open(m_csv_file, m_rw, encoding=m_encoding) as m_f:
        writer = csv.writer(f)
        writer.writerows(m_save_list)
        return m_f

?3. 基本事件的封装，要想去对庞大数据进行分析的话，首先要了解子事件的分析过程，这里的子时间就是爬取一个页面中的电影信息，所以就不难理解为什么要循环(1, 26)，别问，问就是一个页面就有25条信息。

我这次采用的是xpath解析，不太会xpath解析的可以去抓包工具中直接复制，自己改一改也行。这里注意的就是xpath()函数以列表形式返回，想要做字符串处理操作需要列表转换成字符串，然后就是一些Python基础操作，最后存储返回即可。

# 对网页数据进行解析
def deal_events():
    for i in range(1, 26):

        info_list = []

        # 这些返回值是列表的形式
        mv_name = tree.xpath(f'//*[@id="content"]/div/div[1]/ol/li[{i}]/div/div[2]/div/a/span[1]/text()')
        mv_kind = tree.xpath(f'//*[@id="content"]/div/div[1]/ol/li[{i}]/div/div[2]/div[2]/p[1]/text()[2]')
        mv_people = tree.xpath(f'//*[@id="content"]/div/div[1]/ol/li[{i}]/div/div[2]/div[2]/div/span[4]/text()')

        # 我们将列表转换成字符串，再做简单处理
        str_kind = ''.join(mv_kind).replace('\n', '').replace('/', '').lstrip().rstrip()
        str_name = ','.join(mv_name)
        str_people = ''.join(mv_people)

        info_list.append(str_name)
        info_list.append(str_kind.replace('\xa0\xa0', ' '))
        info_list.append(str_people.replace('人评价', ''))

        save_info_list.append(info_list)

?4. 主函数主要是对其他函数的调用、变量的初始化并给予一些提示信息。

可能看到这里有人会疑问为什么有循环操作，因为这里我提取了250个电影的信息，deal_events()函数只提取了一页的信息，至于为什么url会这么写，不理解的小伙伴可以看看拿第一页的网址和第二页的网址比较一下就会得到答案。

if __name__ == '__main__':
    f = ""
    for page_cnt in range(0, 226, 25):
        url = f"https://movie.douban.com/top250?start={page_cnt}&filter="
        resp = get_url(m_url=url, m_page_cnt=page_cnt)

        tree = etree.HTML(resp.text)

        save_info_list = []
        deal_events()

        # 参数2以追加的形式存储，防止爬取数据被覆盖
        f = save_csv("./movie_info_demo.csv", 'a', 'utf-8', save_info_list)

        resp.close()
        print(f'第{page_cnt}页信息提取成功')
        time.sleep(2)

    f.close()
    print("提取完毕")

三、代码实现

import requests
from lxml import etree
import csv
import time


# 获取url并返回response值
# 参数1：想要获取的url 参数2：爬取的页数
def get_url(m_url, m_page_cnt):
    headers = {
        # UA伪装
        "User-Agent": "xxx",
    }
    m_resp = requests.get(url=m_url, headers=headers)
    return m_resp


# 将文件保存成.csv形式，并返回文件描述符m_f
# 参数1：文件路径 参数2：读写类型 参数3：编码格式 参数4：将单次提取的数据放入暂存列表
def save_csv(m_csv_file, m_rw, m_encoding, m_save_list):
    with open(m_csv_file, m_rw, encoding=m_encoding) as m_f:
        writer = csv.writer(m_f)
        writer.writerows(m_save_list)
        return m_f


# 对网页数据进行解析
def deal_events():
    for i in range(1, 26):

        info_list = []

        # 这些返回值是列表的形式
        mv_name = tree.xpath(f'//*[@id="content"]/div/div[1]/ol/li[{i}]/div/div[2]/div/a/span[1]/text()')
        mv_kind = tree.xpath(f'//*[@id="content"]/div/div[1]/ol/li[{i}]/div/div[2]/div[2]/p[1]/text()[2]')
        mv_people = tree.xpath(f'//*[@id="content"]/div/div[1]/ol/li[{i}]/div/div[2]/div[2]/div/span[4]/text()')

        # 我们将列表转换成字符串，再做简单处理
        str_kind = ''.join(mv_kind).replace('\n', '').replace('/', '').lstrip().rstrip()
        str_name = ','.join(mv_name)
        str_people = ''.join(mv_people)

        info_list.append(str_name)
        info_list.append(str_kind.replace('\xa0\xa0', ' '))
        info_list.append(str_people.replace('人评价', ''))

        save_info_list.append(info_list)


if __name__ == '__main__':
    f = ""
    for page_cnt in range(0, 226, 25):
        url = f"https://movie.douban.com/top250?start={page_cnt}&filter="
        resp = get_url(m_url=url, m_page_cnt=page_cnt)

        tree = etree.HTML(resp.text)

        save_info_list = []
        deal_events()

        # 参数2以追加的形式存储，防止爬取数据被覆盖
        f = save_csv("./movie_info_demo.csv", 'a', 'utf-8', save_info_list)

        resp.close()
        print(f'第{page_cnt}页信息提取成功')
        time.sleep(2)

    f.close()
    print("提取完毕")