[网络协议] 爬虫快速入门案例——

爬虫：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是模拟浏览器发送网络请求，接收请求响应，自动提取网页，然后按照一定的规则，自动地抓取互联网信息的程序

1、导入需要模块

import requests               #用于请求网页
from lxml import etree        #用于xpath提取数据
import csv                    #用于储存为csv格式文件数据

?2、请求头设置：

为了不被反爬虫，认为是机器人在发送请求，这里需要设置请求头信息

右击网页——检查（进入开发人员工具）——网络——标头

?这里需要用到User-Agent（用户代理，网站可以通判断来给不同的操作系统、不同的浏览器发送不同的页面）：Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53

和Referer（记录你在访问一个目标网站时，在访问前你的原网站的地址，这里为了方便，设置为每个网页网址）

#请求头
header = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53',
    'Referer': ''
}

header['Referer'] = url

3、分析网址

第一页：

?第二页：

?这里可以看到每一页共25条电影信息，共10页，网址规律start=0,25,50...。所以我们可以这样遍历每一页网址

for n in range(0, 250, 25):
        url = 'https://movie.douban.com/top250?start=' + str(n) + '&filter='

4、分析排行网页源代码

右击网页——检查，进入开发者工具。点击第一个工具（查找元素工具），点击网页中第一个电影。这里可以看到电影的详细信息在<a href="https://movie.douban.com/subject/1292052/">中，我们要提取这里的网址。

这里采用xpath，这里就不详细讲解xpath,右击这个标签——复制——复制xpath

//*[@id="content"]/div/div[1]/ol/li[1]/div/div[1]/a

这里每个电影都在一个li标签下面，而且我们要得到的是a标签中的href属性值，所以xpath改为

//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/@href

?附上代码

def search(url):
    #爬取电影链接
    header['Referer'] = url                                                   #设置referer
    html = requests.get(url, headers=header)                                  #请求网页
    text = html.text                                                          #获取网页内容
    xp = etree.HTML(text)                                                     #用xpath解析网页
    ul = xp.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/@href')   #获取电影链接
    return ul                                                                 #返回电影链接

5、分析电影详细网页

?跟上一步一样的方式，打开开发者工具，通过查找元素工具，这里我们可以得到电影名字，复制xpath：//*[@id="content"]/h1/span[1]

电影名字在<span>[1]标签下的文本内容“肖申克的救赎 The Shawshank Redemption”，所以xpath改为：//*[@id="content"]/h1/span[1]/text()

同样的道理可得到电影的评分、导演、主演等信息。

?附上代码

def crawl(url):
    #爬取电影信息
    header['Referer'] = url                                                        #设置referer
    html = requests.get(url, headers=header)                                       #请求网页
    text = html.text                                                               #获取网页内容
    xp = etree.HTML(text)                                                          #用xpath解析网页
    item['name'] = xp.xpath('//*[@id="content"]/h1/span[1]/text()')                #获取电影名称
    item['score'] = xp.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()') #获取电影评分
    item['actor'] = xp.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')           #获取电影演员
    item['director'] = xp.xpath('//*[@id="info"]/span[2]/span[2]/a/text()')        #获取电影导演

?6、储存数据

这里使用csv格式来储存

f = open('douban.csv', 'w', encoding='utf-8', newline='')              #打开csv文件
writer = csv.writer(f)                                                 #创建csv写入器
writer.writerow(['name', 'score', 'director', 'actor'])                #写入表头

writer.writerow([item['name'], item['score'], item['director'], item['actor']])  #写入数据
f.close()                                                              #关闭文件

7、附上整体代码

import requests               #用于请求网页
from lxml import etree        #用于xpath提取数据
import csv                    #用于储存为csv格式文件数据


#请求头
header = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53',
    'Referer': ''
}

# 定义一个字典，用于储存爬取的数据
item = {
    'name': '',
    'score': '',
    'director': '',
    'actor': '',
}


def search(url):
    #爬取电影链接
    header['Referer'] = url                                                   #设置referer
    html = requests.get(url, headers=header)                                  #请求网页
    text = html.text                                                          #获取网页内容
    xp = etree.HTML(text)                                                     #用xpath解析网页
    ul = xp.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[1]/a/@href')   #获取电影链接
    return ul                                                                 #返回电影链接

def crawl(url):
    #爬取电影信息
    header['Referer'] = url                                                        #设置referer
    html = requests.get(url, headers=header)                                       #请求网页
    text = html.text                                                               #获取网页内容
    xp = etree.HTML(text)                                                          #用xpath解析网页
    item['name'] = xp.xpath('//*[@id="content"]/h1/span[1]/text()')                #获取电影名称
    item['score'] = xp.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()') #获取电影评分
    item['actor'] = xp.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')           #获取电影演员
    item['director'] = xp.xpath('//*[@id="info"]/span[2]/span[2]/a/text()')        #获取电影导演



def main():
    print("豆瓣电影Top250")
    print('爬虫开始')
    print("==========================")
    f = open('douban.csv', 'w', encoding='utf-8', newline='')              #打开csv文件
    writer = csv.writer(f)                                                 #创建csv写入器
    writer.writerow(['name', 'score', 'director', 'actor'])                #写入表头
    for n in range(0, 250, 25):
        url = 'https://movie.douban.com/top250?start=' + str(n) + '&filter='
        urls = search(url)
        for url in urls:
            crawl(url)
            print(item)
            writer.writerow([item['name'], item['score'], item['director'], item['actor']])  #写入数据

    print("爬取完成")
    f.close()                                                                #关闭文件


if __name__ == "__main__":
    main()

运行结果：

??用Excel打开：

[网络协议]爬虫快速入门案例———豆瓣电影Top250