IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> Xpath实现-分页爬取彼岸图网 -> 正文阅读

[开发工具]Xpath实现-分页爬取彼岸图网

准备:

环境安装:

本文使用python,pycharm软件进行

首先在pycharm里面确保模块已经安装,本次需要使用的模块是requests模块和lxml模块

????????

?

在pycharm里面点击左下角的Terminal,在里面分别输入pip install requests,pip install lxml即可

至此环境搭建完毕!!!接下来直接上代码

import requests
import os
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}

# 爬取多页
dirName = "GirlsLib"
if not os.path.exists(dirName):
    os.mkdir(dirName)
    
# 定义一个通用的url模板:不可变
url = 'https://pic.netbian.com/4kmeinv/index_%d.html'
for page in range(1,6):
    if page == 1:
        new_url = 'https://pic.netbian.com/4kmeinv/'
    else:
        new_url = format(url%page)
    response = requests.get(url=new_url,headers=headers)
    response.encoding = 'gbk'
    page_text = response.text

    # 图片名称+图片数据
    tree = etree.HTML(page_text)
    # 存储的是定位到的指定的li标签
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    for li in li_list:
        # print(type(li)) # li的数据类型和tree的数据类型一样 li也可以调用xpath方法
        title = li.xpath('./a/img/@alt')[0] +'.jpg' # 进行局部数据解析
        img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]
#         print(title,img_src)
        img_data = requests.get(url=img_src,headers=headers).content
        imgpath = dirName + '/' + title
        with open(imgpath,'wb')as fp:
            fp.write(img_data)
        print(title,'保存成功!!!')

根据你pycharm存放的路劲在自己的计算机找到存储的地方,找到GirlsLib即可,效果如下只是爬取其中美女那一部分的前六页,有兴趣可以对代码进行改写爬取另外的分类图片,爬多少页都可以自己制定,就是这么简单!!!赶快学起来,再也不用一个个点着下载了!!!

效果:

后续更多内容请多关注~~~~

?

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-11-26 09:03:29  更:2021-11-26 09:03:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 18:29:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码