[开发工具] 爬取漂亮小姐姐（萌新的第一个爬虫小程序）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 开发工具 -> 爬取漂亮小姐姐（萌新的第一个爬虫小程序） -> 正文阅读

[开发工具]爬取漂亮小姐姐（萌新的第一个爬虫小程序）

最近学习了python爬虫的基础，作为爬虫领域的萌新，写下此篇来做一下记录。

首先在进行爬虫前要做好如下准备：

安装python环境（本人安装的3.10最新环境)，安装链接如下：python官网
安装并会使用开发工具如pycharm,下载链接：pycharm官网
安装需要用到的库。
了解正则表达式，beautifulsoup，xpath。

本次爬取的网址为：分类风之领域下的文章 - 阿七美图馆

正则表达式（获取照片集的链接）：

re.compile(r'<a class="item-link" href="(?P<href>.*?)">',re.S)

子页面正则表达式（获取照片的下载链接）：

re.compile(r'data-original="(?P<img>.*?)"',re.S)

图片下载：

#下载图片
         img_resp = requests.get(img,headers=headers)
         img_name=img.split("/")[-1]    
         with open("img/"+img_name,mode="wb") as f:
            f.write(img_resp.content)
         print("over!",img_name)
         time.sleep(1)
     print("all over!!!")

完整代码：
?

import requests
import re
import time

ul = "https://a7i.cn/category/fzly/"
headers ={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
}
resp = requests.get(ul,headers = headers)
# print(resp.text)
obj1 = re.compile(r'<a class="item-link" href="(?P<href>.*?)">',re.S)
obj2 = re.compile(r'data-original="(?P<img>.*?)"',re.S)
result1 = obj1.finditer(resp.text)
for it in result1:
    href = it.group('href')
    # print(href)
    resp2 = requests.get(href,headers = headers)
    result2 = obj2.finditer(resp2.text)
    for itt in result2:
        img = itt.group('img')
        print(img)

        #下载图片
        img_resp = requests.get(img,headers=headers)
        img_name=img.split("/")[-1]
        with open("img/"+img_name,mode="wb") as f:
            f.write(img_resp.content)
        print("over!",img_name)
        time.sleep(1)
    print("all over!!!")

开发工具最新文章

Postman接口测试之Mock快速入门

ASCII码空格替换查表_最全ASCII码对照表0-2

如何使用 ssh 建立 socks 代理

Typora配合PicGo阿里云图床配置

SoapUI、Jmeter、Postman三种接口测试工具的

github用相对路径显示图片_GitHub 中 readm

Windows编译g2o及其g2o viewer

解决jupyter notebook无法连接/ jupyter连接

Git恢复到之前版本

VScode常用快捷键

加:2021-10-22 11:08:47 更:2021-10-22 11:10:51

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/20 3:43:06-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码