IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> 【无标题】爬取豆瓣“热门电影”数据 -> 正文阅读

[开发工具]【无标题】爬取豆瓣“热门电影”数据

爬取豆瓣“热门电影”数据:ID,电影名,评分

写入CSV文件

?

上代码:

import requests

import re

import csv

def getting(url):

? ? resp = requests.get(url,headers=header)

? ? resp.encoding = 'utf-8'

? ? #print(resp.status_code)

? ? #print(type(resp))

? ? return resp


?

def info_r(resp):

? ? obj_id = re.compile(r'rate":"(?P<sore>.*?)".*?title":"(?P<name>.*?)".*?id":"(?P<id>.*?)","cover_y',re.S)

? ? result = obj_id.findall(resp.text)

? ? return result ? ? ##这是个列表

? ?

ef writing(list):

? ? for i in list:

? ? ? ? with open("movie_list.csv","a+") as f:

? ? ? ? ? ? writer = csv.writer(f)

? ? ? ? ? ? writer.writerow(i)

def main():

? ? result_0 =[]

? ? ###豆瓣热门电影主网页0-20-40

? ? for i in range(0,101,20):

? ? ? ? url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=" ? ##F12的network找到的XHR文件

? ? ? ? url = url + str(i)

? ? ? ? #url = f"https://movie.douban.com/explore#!type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start={i}" for i in range(0,101,20)

? ? ? ? resp = getting(url)

? ? ? ? print(type(resp.text))

? ? ? ? result = info_r(resp)

? ? ? ? for l in result:

? ? ? ? ? ? result_0.append(l)

? ? # print(result_0)

? ? # print("列表长度:" + str(len(result_0)))

? ? writing(result_0)


?

if __name__ =='__main__':

? ? header = {

? ? ? ? "User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36"

? ? }

? ? main()

计划把豆瓣电影的电影都爬一遍,怕把我的IP的直接拉黑,以后没得玩了。除了代理IP,慢慢爬数据可以吗?

我的CSV文件不知道为什么都隔了一行,我还得再调调。

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2022-01-08 14:14:09  更:2022-01-08 14:14:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 12:47:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码