大家好,今天分享一个简易爬虫的编写过程,内容附有详细代码讲解
1、找目标URL
先来到王者的官网,找到【游戏资料】—【英雄资料】 可以看到这里列出了王者的所有英雄,所以这里我们思考一个问题,这么多的英雄是怎么管理的呢?一般大厂在管理这些英雄的时候,都是有编号的,只需要找对应的编号的就行了。此时就需要使用最常用的操作F12了。请看图 这里的img表示是html的图片标签,所以这里还需多嘴一句,自己寻找的时候还是需要具有一定的前端知识的,若是没有前端知识也没有关系,读过这篇文章之后你多少会有点提升。
<img src="//game.gtimg.cn/images/yxzj/img201606/heroimg/540/540.jpg">
分析一下这个代码的意思,src的值则是该图片的站内相对地址(URL),所以现在就显而易见了,该图片是存在于game.gtimg.cn的服务器内images/yxzj/img201606/heroimg/540/的文件夹下,图片名称是540.jpg 我们可以做个验证,用新的标签页打开这个图片,如图 我们就拿金蝉这一个英雄举例,点击进去之后我们可以看到有两个皮肤,一个是人物原型默认的 再次F12,我们来分析一下,这里除了序号不一样之外,其他的值均一样,此时我们可以联想,其他英雄的皮肤图片是不是也是这样?
我们再随便选几个英雄看看 通过对比发现,图片都是放在不同编号的文件夹里面,并且每张图仅有序号不同而已,所以我们现在就明白了该怎么来找图片的地址了
2、分析文件结构、命名方式、下载方式
通过第一个阶段,我们知道要找每个英雄对应的图片,得先找到英雄的编号,此时我们演示怎么来找这个编号,并且还要弄清楚,每个编号之间的联系,还是F12–网络(它提供了将网页内容录制的功能) 结果在翻找的过程中找到了一个叫做英雄列表的json文件herolist.json 然而很不幸,浏览器的预览功能看不了具体是什么,那我们把这个文件下载下来看一下里面具体是什么,复制连接用浏览器打开可直接下载
https://pvp.qq.com/web201605/js/herolist.json
结果一看豁然开朗,ename则是英雄的编号,cname是英雄名称,可以看到他的编号是从105廉颇开始,504金蝉结束。 拿到这部分之后我们就可以开始编程了,先引入我们需要的模块,因为这里设计到文件操作和URL请求
import os
import requests
先按照我们前面的步骤,获取所有英雄编号的json文件
url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)
herolist_json = herolist.json()
hero_name = list(map(lambda x: x['cname'], herolist.json()))
hero_number = list(map(lambda x: x['ename'], herolist.json()))
3、提取文件、保存文件
拿到所有英雄的编号之后就不难找他的皮肤图片了,我们可以看到每个英雄的图片命名规则是【编号-bigskin-序号.jpg】,那么我们拿着这个规则去找就行,这里还要一个问题,就是每个英雄的皮肤数其实是不一样的,我们只需要将循环次数放大点就行,找不到文件它自然是下载不了的,仅仅是占用一些时间而已。
def downloadPic():
i = 0
for j in hero_number:
os.mkdir(hero_name[i])
os.chdir(hero_name[i])
i += 1
for k in range(20):
onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(j) + '-bigskin-' + str(k) + '.jpg'
im = requests.get(onehero_link)
if im.status_code == 200:
open(str(k) + '.jpg', 'wb').write(im.content)
print(hero_name[i] + "写入成功")
os.chdir("C:\\Users\\phy\\Desktop\\qwe")
print("当前目录:" + os.getcwd())
downloadPic()
完整代码:
import os
import requests
url = 'https://pvp.qq.com/web201605/js/herolist.json'
herolist = requests.get(url)
herolist_json = herolist.json()
hero_name = list(map(lambda x: x['cname'], herolist.json()))
hero_number = list(map(lambda x: x['ename'], herolist.json()))
def downloadPic():
i = 0
for j in hero_number:
os.mkdir(hero_name[i])
os.chdir(hero_name[i])
i += 1
for k in range(20):
onehero_link = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(
j) + '-bigskin-' + str(k) + '.jpg'
im = requests.get(onehero_link)
if im.status_code == 200:
open(str(k) + '.jpg', 'wb').write(im.content)
print(hero_name[i] + "写入成功")
os.chdir("C:\\Users\\phy\\Desktop\\qwe")
print("当前目录:" + os.getcwd())
downloadPic()
这里其实有个小坑,虽然我很想一次性解决好,让大家复制即用,但是还是留给了大家,希望在复制的时候即使修改。
os.chdir("C:\\Users\\phy\\Desktop\\qwe")
文件的路径是一个坑哦,同时我没有写创建文件夹,所以在运行代码前要在当前文件所在的目录下载创建qwe文件夹,当然可以修改成自己想要的路径。 下载的文件如图:
|