IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> 爬取漂亮小姐姐(萌新的第一个爬虫小程序) -> 正文阅读

[开发工具]爬取漂亮小姐姐(萌新的第一个爬虫小程序)

最近学习了python爬虫的基础,作为爬虫领域的萌新,写下此篇来做一下记录。

首先在进行爬虫前要做好如下准备:

  1. 安装python环境(本人安装的3.10最新环境),安装链接如下:python官网
  2. 安装并会使用开发工具如pycharm,下载链接:pycharm官网
  3. 安装需要用到的库。
  4. 了解正则表达式,beautifulsoup,xpath。

本次爬取的网址为:分类 风之领域 下的文章 - 阿七美图馆

正则表达式(获取照片集的链接):

re.compile(r'<a class="item-link" href="(?P<href>.*?)">',re.S)

子页面正则表达式(获取照片的下载链接):

re.compile(r'data-original="(?P<img>.*?)"',re.S)

图片下载:

#下载图片
         img_resp = requests.get(img,headers=headers)
         img_name=img.split("/")[-1]    
         with open("img/"+img_name,mode="wb") as f:
            f.write(img_resp.content)
         print("over!",img_name)
         time.sleep(1)
     print("all over!!!")

完整代码:
?

import requests
import re
import time

ul = "https://a7i.cn/category/fzly/"
headers ={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
}
resp = requests.get(ul,headers = headers)
# print(resp.text)
obj1 = re.compile(r'<a class="item-link" href="(?P<href>.*?)">',re.S)
obj2 = re.compile(r'data-original="(?P<img>.*?)"',re.S)
result1 = obj1.finditer(resp.text)
for it in result1:
    href = it.group('href')
    # print(href)
    resp2 = requests.get(href,headers = headers)
    result2 = obj2.finditer(resp2.text)
    for itt in result2:
        img = itt.group('img')
        print(img)

        #下载图片
        img_resp = requests.get(img,headers=headers)
        img_name=img.split("/")[-1]
        with open("img/"+img_name,mode="wb") as f:
            f.write(img_resp.content)
        print("over!",img_name)
        time.sleep(1)
    print("all over!!!")

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-10-22 11:08:47  更:2021-10-22 11:10:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/23 19:45:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计