IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> 爬虫入门(五):下载豆瓣电影信息 -> 正文阅读

[网络协议]爬虫入门(五):下载豆瓣电影信息

哈喽,大家好,我是小爬虫,上一节我们讲了如何爬取百度翻译实现自己的翻译程序,没有学习过的可以进入专栏读进行学习。今天我们再次使用requests来实现一个案例:下载豆瓣电影喜剧排行榜信息,包含电影名称,上映时间,评分

豆瓣页面分析

首先我们打开豆瓣电影喜剧排行榜页面,查看我们需要的数据是在页面源代码里面还是在js中请求的。
在这里插入图片描述

我们首先进入源代码页面,搜索关键字‘美丽人生’,发现源代码里面并没有电影相关的信息,说明我们需要的数据是经过js请求而来的。

在这里插入图片描述

接下来我们进入浏览器调试工具,寻找这些电影信息是通过哪个接口请求而来的,很容易就可以找到我们需要的接口。
在这里插入图片描述

我们发现这个接口是一个GET请求,并且请求中还带了一些参数。
在这里插入图片描述

进入Payload页面观察这些参数,可以看到有5个参数,其中前面3个不需要关心,最重要的是后面2个,start表示请求从第几个电影开始,limit表示本次请求最多返回多少个电影信息。
在这里插入图片描述

我们再进入Preview页面观察返回结果,发现我们需要的电影信息都在里面。
在这里插入图片描述

实现豆瓣电影信息的爬取

经过以上分析,我们基本确定了我们的实现思路:

  1. 请求相关接口
  2. 解析返回的json数据
  3. 将解析的结果写入csv文件

接下来给出源代码:

import requests
import csv

url = "https://movie.douban.com/j/chart/top_list"
params = {
    "type": 24,
    "interval_id": "100:90",
    "action": "",
    "start": 0,
    "limit": 20
}
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"
}

resp = requests.get(url, headers=headers, params=params)
movie_list = resp.json()

f = open("豆瓣电影喜剧排行榜.csv", mode="w")
writer = csv.writer(f)

for movie in movie_list:
    movie_name = movie['title']
    movie_time = movie['release_date']
    movie_score = movie['score']
    writer.writerow([movie_name, movie_time, movie_score])

f.close()

运行之后打开同级目录下‘豆瓣电影喜剧排行榜.csv’这个文件,可以看到电影信息都正确地写入了。
在这里插入图片描述

这里只下载了前20条数据,如果你想下载更多,只需要循环去执行,改变参数中的start就行了。同样的道理,我们可以下载豆瓣电影其他排行榜的电影信息,大家可以自己下去实践。

本节的豆瓣电影信息下载就到这里,接下来我们将会继续学习爬虫的新知识,敬请期待。记得关注小爬哦~

本文首发于公众号:小爬虫,欢迎关注
在这里插入图片描述

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2021-11-29 16:38:29  更:2021-11-29 16:38:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年7日历 -2024/7/6 7:52:01-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码