IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> 为了帮学长学习美女穿搭我连夜写了这篇:爬虫之旅(五) -> 正文阅读

[网络协议]为了帮学长学习美女穿搭我连夜写了这篇:爬虫之旅(五)

目录

前言:

代码展示:

效果展示:

??

代码解析:


前言:

??????? 实验室师兄有着独特的穿搭品味,前段日子便催促过我写一下爬虫帮他爬取一下有关网站上的美女穿搭,刚开始我是拒绝的,奈何他实在是给的太多,外加实验室一也想学爬虫的师兄上次抱怨我爬虫豆瓣数导致其IP被警告,于是今天我便来分享一种新的方法。

代码展示:

import requests
from  bs4 import BeautifulSoup
import  time
url="https://www.umei.cc/meinvtupian/meinvxiezhen/"
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:92.0) Gecko/20100101 Firefox/92.0'
}
response=requests.get(url=url,headers=headers)
resp=requests.get(url)
resp.encoding='utf-8'#处理乱码
# print(resp.text)

#把源代码交给bs
main_page=BeautifulSoup(resp.text,"html.parser")
alist=main_page.find("div",class_="TypeList").find_all("a")
# print(alist)
for a in alist:
    href=a.get('href')
    real_href='https://www.umei.cc'+href
    #拿到子页面代码
    child_page_resp=requests.get(real_href,headers=headers)
    child_page_resp.encoding='utf-8'
    child_page_text=child_page_resp.text
    # #从子页面拿到图片的下载路径
    child_page=BeautifulSoup(child_page_text,"html.parser")
    img_id=child_page.find("div",id="ArticleId{dede:field.reid/}")
    img=img_id.find("img")
    src=img.get("src")
#下载图片
    img_resp=requests.get(src,headers=headers)
    img_resp.content#这里拿到的是字节
    img_name=src.split("/")[-1] #拿到url中的最后一个/以后的内容
    with open(img_name,mode="wb") as f:
        f.write(img_resp.content)#图片内容写入文件
    print("over!!!",img_name)
    time.sleep(1)
print("all_over")

效果展示:

效果图就不再展示了(主要是过不了审)

代码解析:

?其实主要代码还是没有太大变化的,这次我主要使用的方法是引入了time库,设定每一秒爬取一次数据,以防网站进行反爬处理,其次就是反复的使用get和find操作不断从页面源代码中提取我们需要的网址

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2021-11-23 12:43:57  更:2021-11-23 12:45:34 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 7:28:10-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码