IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> python爬虫练习:漫展图爬取 -> 正文阅读

[开发工具]python爬虫练习:漫展图爬取

本文案例只供练习学习,不做其他用途!

在这里插入代码片
```import requests
import os

# 全局变量
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
m=1

def true_text(n1): #获取真实页面内容
    global headers
    url=f'https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=47&gids=5&is_good=false&is_hot=false&last_id={n1}&page_size=20&sort_type=2'
    resp1=requests.get(url,headers=headers)
    resp=resp1.json()
    return resp

def true_url(true_resp): #获取真实图链
    if true_resp['retcode']==0:
        trueurl=true_resp['data']['list']
        for trueurl1 in trueurl:
            trueurl2=trueurl1['post']['images']
            for trueurl3 in trueurl2:
                # yield trueurl3
                # print(trueurl3)
                if(trueurl3.find('weigui'))<0:
                    storage(trueurl3)

def storage(url):#存储图片
    global headers
    global m

    file=os.path.exists('漫展图')
    if not file:
        try:
            os.mkdir('漫展图')
        except NotADirectoryError:
            print('漫展图已经创建成功')
    resp=requests.get(url,headers=headers)
    file1 =os.path.join('漫展图','第'+str(m)+'张'+'.jpg')

    with open(file1,'wb') as f:
        f.write(resp.content)
        print('第'+str(m)+'张'+'保存成功!')
        m+=1


def main(n):#递归函数持续获取last_id:因为你要提取的最后一页的key值:last_id是上一页的last_id,用递归函数即可不断获取此值
    global header
    url=f'https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=47&gids=5&is_good=false&is_hot=false&last_id={n}&page_size=20&sort_type=2'
    resp1=requests.get(url,headers=headers)
    resp=resp1.json()
    if resp['retcode'] == 0:
        n1 = resp['data']['last_id']
        true_resp=true_text(n1)#赋值给获取页面函数
        true_url(true_resp)#赋值给获取图链函数
        print(n1)
        return main(n1)

if __name__ == '__main__':
    main(6716779)

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-11-29 16:30:44  更:2021-11-29 16:32:43 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/24 3:11:09-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计