完成目标: ??获取王者官网英雄介绍页面高清图片
一、前言
??王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了。我们今天的重点是爬取王者荣耀所有英雄的所有皮肤!
二、环境准备
编辑器:pycharm
用到的库:requests、lxml
三、具体实现
1、所有英雄信息获取
??打开官网,进入英雄资料页面,通过开发者工具,得到所有的英雄的数据
??每一个英雄资料为json格式,共106个,其中一个显示如下: ??解码后,名称如下:
{
'cname': '廉颇',
'ename': 105,
'hero_type': 3,
'new_type': 0,
'skin_name': '正义爆轰|地狱岩魂',
'title': '正义爆轰'
}
??这里主要需要的是 cname、ename、skin_name,skin_name用于获取皮个数
2、分析图片url
??打开一个英雄的详情页,打开开发者工具,以为云樱为例,一共两个皮肤,分别在两个li标签中,因此循环两次就可以全部拿到,也就是为什么之前要获取skin_name的原因 ??观察url,寻找规律,其中前面的【//game.gtimg.cn/images/yxzj/img201606/skin/hero-info/】都是固定的,后面的是每个英雄的ename,然后ename-bigskin-skin_name的长度,因此,只要对这个url进行请求就可以得到高清壁纸
//game.gtimg.cn/images/yxzj/img201606/skin/hero-info/538/538-bigskin-1.jpg
//game.gtimg.cn/images/yxzj/img201606/skin/hero-info/538/538-bigskin-2.jpg
3、具体实现
from pprint import pprint
import requests
if __name__ == '__main__':
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84"
}
baseurl = 'https://pvp.qq.com/web201605/js/herolist.json'
r = requests.get(url=baseurl, headers=headers)
data = r.json()
for i in data:
pprint(i)
cname = i["cname"]
ename = i["ename"]
try:
skin_name = i["skin_name"].split("|")
except Exception as e:
print(e)
for skin_num in range(1, len(skin_name) + 1):
sk_url = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(ename) + "/" + str(
ename) + "-bigskin-" + str(skin_num) + ".jpg"
try:
data = requests.get(url=sk_url, headers=headers).content
with open("img/" + cname + "-" + skin_name[skin_num - 1] + ".jpg", "wb")as fp:
fp.write(data)
except Exception as e :
print(e)
print(ename,"下载完成...")
4、结果
四、最后
??中间会有skin_name异常,一定要捕获异常,保证程序一直执行下去,并且出现了几次IP异常,下次尝试使用代理。
|