| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 开发工具 -> 【无标题】爬取豆瓣“热门电影”数据 -> 正文阅读 |
|
[开发工具]【无标题】爬取豆瓣“热门电影”数据 |
爬取豆瓣“热门电影”数据:ID,电影名,评分 写入CSV文件 ? 上代码: import requests import re import csv def getting(url): ? ? resp = requests.get(url,headers=header) ? ? resp.encoding = 'utf-8' ? ? #print(resp.status_code) ? ? #print(type(resp)) ? ? return resp
def info_r(resp): ? ? obj_id = re.compile(r'rate":"(?P<sore>.*?)".*?title":"(?P<name>.*?)".*?id":"(?P<id>.*?)","cover_y',re.S) ? ? result = obj_id.findall(resp.text) ? ? return result ? ? ##这是个列表 ? ? ef writing(list): ? ? for i in list: ? ? ? ? with open("movie_list.csv","a+") as f: ? ? ? ? ? ? writer = csv.writer(f) ? ? ? ? ? ? writer.writerow(i) def main(): ? ? result_0 =[] ? ? ###豆瓣热门电影主网页0-20-40 ? ? for i in range(0,101,20): ? ? ? ? url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=" ? ##F12的network找到的XHR文件 ? ? ? ? url = url + str(i) ? ? ? ? #url = f"https://movie.douban.com/explore#!type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start={i}" for i in range(0,101,20) ? ? ? ? resp = getting(url) ? ? ? ? print(type(resp.text)) ? ? ? ? result = info_r(resp) ? ? ? ? for l in result: ? ? ? ? ? ? result_0.append(l) ? ? # print(result_0) ? ? # print("列表长度:" + str(len(result_0))) ? ? writing(result_0)
if __name__ =='__main__': ? ? header = { ? ? ? ? "User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" ? ? } ? ? main() 计划把豆瓣电影的电影都爬一遍,怕把我的IP的直接拉黑,以后没得玩了。除了代理IP,慢慢爬数据可以吗? 我的CSV文件不知道为什么都隔了一行,我还得再调调。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/25 8:54:43- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |