[开发工具] python爬虫练习：漫展图爬取

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 开发工具 -> python爬虫练习：漫展图爬取 -> 正文阅读

[开发工具]python爬虫练习：漫展图爬取

本文案例只供练习学习，不做其他用途！

在这里插入代码片
```import requests
import os

# 全局变量
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
m=1

def true_text(n1): #获取真实页面内容
    global headers
    url=f'https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=47&gids=5&is_good=false&is_hot=false&last_id={n1}&page_size=20&sort_type=2'
    resp1=requests.get(url,headers=headers)
    resp=resp1.json()
    return resp

def true_url(true_resp): #获取真实图链
    if true_resp['retcode']==0:
        trueurl=true_resp['data']['list']
        for trueurl1 in trueurl:
            trueurl2=trueurl1['post']['images']
            for trueurl3 in trueurl2:
                # yield trueurl3
                # print(trueurl3)
                if(trueurl3.find('weigui'))<0:
                    storage(trueurl3)

def storage(url):#存储图片
    global headers
    global m

    file=os.path.exists('漫展图')
    if not file:
        try:
            os.mkdir('漫展图')
        except NotADirectoryError:
            print('漫展图已经创建成功')
    resp=requests.get(url,headers=headers)
    file1 =os.path.join('漫展图','第'+str(m)+'张'+'.jpg')

    with open(file1,'wb') as f:
        f.write(resp.content)
        print('第'+str(m)+'张'+'保存成功！')
        m+=1


def main(n):#递归函数持续获取last_id：因为你要提取的最后一页的key值：last_id是上一页的last_id,用递归函数即可不断获取此值
    global header
    url=f'https://bbs-api.mihoyo.com/post/wapi/getForumPostList?forum_id=47&gids=5&is_good=false&is_hot=false&last_id={n}&page_size=20&sort_type=2'
    resp1=requests.get(url,headers=headers)
    resp=resp1.json()
    if resp['retcode'] == 0:
        n1 = resp['data']['last_id']
        true_resp=true_text(n1)#赋值给获取页面函数
        true_url(true_resp)#赋值给获取图链函数
        print(n1)
        return main(n1)

if __name__ == '__main__':
    main(6716779)

开发工具最新文章

Postman接口测试之Mock快速入门

ASCII码空格替换查表_最全ASCII码对照表0-2

如何使用 ssh 建立 socks 代理

Typora配合PicGo阿里云图床配置

SoapUI、Jmeter、Postman三种接口测试工具的

github用相对路径显示图片_GitHub 中 readm

Windows编译g2o及其g2o viewer

解决jupyter notebook无法连接/ jupyter连接

Git恢复到之前版本

VScode常用快捷键

加:2021-11-29 16:30:44 更:2021-11-29 16:32:43

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/29 23:22:29-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码