IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 大批量爬取彼岸图网内容遇到的问题 -> 正文阅读

[Python知识库]大批量爬取彼岸图网内容遇到的问题

用多进程配套多进程短时间大量爬取图网25000张图.

问题:出现程序无结果不出问题也不报错,正常结束的异常,经多方检查调试.

原因:彼岸图网cookie隔30min刷新一次,用旧的cookie爬第一级页面只能爬到含有"跳转中"的源代码,导致xpath什么都解析不到,,而不用cookie也是如此.

解决:唯一解决办法是将旧的cookie换成新的cookie,若不用多线程多进程,则不会出现此问题.推测是因为cookie能跳过含有"跳转中"的页面,直接请求目标页面,应该不是网站站长主动反扒的措施,而就算用多进程套多线程,30min内只能爬到15000张图片,与目标数量相差甚远,所以换成使用selenium.目前正在尝试中....

这是第一版的代码,错误和算法问题最多,留录在此,方便往后再次观摩.--1.23记录

# -*- coding: UTF-8 -*-
"""
@Author: 王散 Creative
@Time: 2022/1/22 18:50
@IDE_Name/Software: PyCharm
@File: 应对彼岸图网的极限反爬
"""
import requests
from lxml import etree
import time
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor
import threading
from multiprocessing import Lock


def task(url):
    # lock = threading.Lock()
    Squence = 0
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.469"
                      "2.99 Safari/537.36",
        
    }
    resp1 = requests.get(url=url, headers=header)
    resp1.encoding = 'gbk'
    # print(resp1.text)
    tree = etree.HTML(resp1.text)
    analysis1 = tree.xpath('//*[@id="main"]/div[3]/ul/li//a/@href')
    analysis2 = tree.xpath('//*[@id="main"]/div[3]/ul/li/a/b/text()')
    for ItemTwo in analysis1:
        url_two_page = 'https://pic.netbian.com' + ItemTwo
        resp2 = requests.get(url=url_two_page, headers=header)
        # time.sleep(0.5)
        resp2.encoding = 'gbk'
        tree_two = etree.HTML(resp2.text)
        analysis3 = tree_two.xpath('//*[@id="img"]/img/@src')
        for ItemThree in analysis3:
            url_image_page = 'https://pic.netbian.com' + ItemThree
            resp3 = requests.get(url=url_image_page, headers=header)
            # lock.acquire()
            image_file = open(f'D:\python_write_file\爬虫NumberTwo\Image\彼岸网爬的好图2\\{analysis2[Squence]}.jpg', 'wb')
            image_file.write(resp3.content)
            image_file.close()
            # lock.release()
            print(f'{analysis2[Squence]}==>爬取完毕')
            # lock.acquire()
            Squence = Squence + 1
            # lock.release()


# def main(num):
#     with ThreadPoolExecutor(252) as exe_Pool:
#         for item in range(num, num+126):
#             lock.acquire()
#             if item == 1:
#                 exe_Pool.submit(task, 'https://pic.netbian.com/new/')
#                 lock.release()
#             else:
#                 exe_Pool.submit(task, f'https://pic.netbian.com/new/index_{item}.html')
#                 lock.release()
#         return num+30


if __name__ == "__main__":
    # num = 1
    # lock = Lock()
    with ProcessPoolExecutor(45) as Process_Pool:
        for item in range(1, 1261):
            if item == 1:
                Process_Pool.submit(task, 'https://pic.netbian.com/new/')
            else:
                Process_Pool.submit(task, f'https://pic.netbian.com/new/index_{item}.html')
        # for number in range(1, 11):
        #     lock.acquire()
        #     num = Process_Pool.submit(main, num)
        #     lock.release()

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-01-24 10:47:36  更:2022-01-24 10:48:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 1:45:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码