IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python简易爬虫,获取王者皮肤高清图(仅供学习,请勿用于商用) -> 正文阅读

[Python知识库]python简易爬虫,获取王者皮肤高清图(仅供学习,请勿用于商用)

大家好,今天分享一个简易爬虫的编写过程,内容附有详细代码讲解

1、找目标URL

先来到王者的官网,找到【游戏资料】—【英雄资料】
王者官网---英雄资料---英雄资料
可以看到这里列出了王者的所有英雄,所以这里我们思考一个问题,这么多的英雄是怎么管理的呢?一般大厂在管理这些英雄的时候,都是有编号的,只需要找对应的编号的就行了。此时就需要使用最常用的操作F12了。请看图
F12开发者界面
这里的img表示是html的图片标签,所以这里还需多嘴一句,自己寻找的时候还是需要具有一定的前端知识的,若是没有前端知识也没有关系,读过这篇文章之后你多少会有点提升。

<img src="//game.gtimg.cn/images/yxzj/img201606/heroimg/540/540.jpg">

分析一下这个代码的意思,src的值则是该图片的站内相对地址(URL),所以现在就显而易见了,该图片是存在于game.gtimg.cn的服务器内images/yxzj/img201606/heroimg/540/的文件夹下,图片名称是540.jpg
我们可以做个验证,用新的标签页打开这个图片,如图
金蝉的头像
我们就拿金蝉这一个英雄举例,点击进去之后我们可以看到有两个皮肤,一个是人物原型默认的
皮肤1
皮肤2
再次F12,我们来分析一下,这里除了序号不一样之外,其他的值均一样,此时我们可以联想,其他英雄的皮肤图片是不是也是这样?

在这里插入图片描述

在这里插入图片描述
我们再随便选几个英雄看看
黄忠1
黄忠2
黄忠3
通过对比发现,图片都是放在不同编号的文件夹里面,并且每张图仅有序号不同而已,所以我们现在就明白了该怎么来找图片的地址了

2、分析文件结构、命名方式、下载方式

通过第一个阶段,我们知道要找每个英雄对应的图片,得先找到英雄的编号,此时我们演示怎么来找这个编号,并且还要弄清楚,每个编号之间的联系,还是F12–网络(它提供了将网页内容录制的功能)
在这里插入图片描述
结果在翻找的过程中找到了一个叫做英雄列表的json文件herolist.json
在这里插入图片描述
然而很不幸,浏览器的预览功能看不了具体是什么,那我们把这个文件下载下来看一下里面具体是什么,复制连接用浏览器打开可直接下载

https://pvp.qq.com/web201605/js/herolist.json

结果一看豁然开朗,ename则是英雄的编号,cname是英雄名称,可以看到他的编号是从105廉颇开始,504金蝉结束。
在这里插入图片描述
拿到这部分之后我们就可以开始编程了,先引入我们需要的模块,因为这里设计到文件操作和URL请求

import os
import requests

先按照我们前面的步骤,获取所有英雄编号的json文件

url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)  # 获取英雄列表json文件
herolist_json = herolist.json()  # 转化为json格式
hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

3、提取文件、保存文件

拿到所有英雄的编号之后就不难找他的皮肤图片了,我们可以看到每个英雄的图片命名规则是【编号-bigskin-序号.jpg】,那么我们拿着这个规则去找就行,这里还要一个问题,就是每个英雄的皮肤数其实是不一样的,我们只需要将循环次数放大点就行,找不到文件它自然是下载不了的,仅仅是占用一些时间而已。

def downloadPic():
    i = 0
    for j in hero_number:
        # 创建文件夹
        os.mkdir(hero_name[i])
        # 进入创建好的文件夹
        os.chdir(hero_name[i])
        i += 1
        for k in range(20):
            # 拼接url
            onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(j) + '-bigskin-' + str(k) + '.jpg'
            im = requests.get(onehero_link)  # 请求url
            if im.status_code == 200:
                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件
        print(hero_name[i] + "写入成功")
        os.chdir("C:\\Users\\phy\\Desktop\\qwe")
        print("当前目录:" + os.getcwd())

downloadPic()

完整代码:

import os
import requests

url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)  # 获取英雄列表json文件

herolist_json = herolist.json()  # 转化为json格式
hero_name = list(map(lambda x: x['cname'], herolist.json()))  # 提取英雄的名字
hero_number = list(map(lambda x: x['ename'], herolist.json()))  # 提取英雄的编号

# 下载图片
def downloadPic():
    i = 0
    for j in hero_number:
        # 创建文件夹

        os.mkdir(hero_name[i])
        # 进入创建好的文件夹
        os.chdir(hero_name[i])
        i += 1
        for k in range(20):
            # 拼接url
            onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(
                j) + '-bigskin-' + str(k) + '.jpg'
            im = requests.get(onehero_link)  # 请求url
            if im.status_code == 200:
                open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件
        print(hero_name[i] + "写入成功")
        os.chdir("C:\\Users\\phy\\Desktop\\qwe")
        print("当前目录:" + os.getcwd())

downloadPic()

这里其实有个小坑,虽然我很想一次性解决好,让大家复制即用,但是还是留给了大家,希望在复制的时候即使修改。

os.chdir("C:\\Users\\phy\\Desktop\\qwe")#每次返回当前目录

文件的路径是一个坑哦,同时我没有写创建文件夹,所以在运行代码前要在当前文件所在的目录下载创建qwe文件夹,当然可以修改成自己想要的路径。
下载的文件如图:
在这里插入图片描述
在这里插入图片描述

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-11-23 12:17:56  更:2021-11-23 12:18:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 0:23:58-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码