逆向爬虫20 Scrapy-Splash入门
一. Splash
在学习Splash之前,先要明白为什么要学它,它能帮我们完成什么工作,什么情况下适合使用Splash?
splash是一个可以动态渲染js的工具. 有助于我们完成复杂的js内容加载工作. 你可以理解为另一个没有界面的selenium。
由于Selenium经常被用于爬虫,越来越多的网站开始针对Selenium做反爬技术,因此Splash算是Selenium的一个替代品,但它又不能完全替代Selenium,Splash无法处理登录验证,人机校验等反爬手段。
Splash的速度比Selenium还慢,它的访问过程有点类似与代理IP,如果还要加上代理IP的话,就更慢了。
那为什么还要学Splash呢,一是它可以作为Selenium的备用方案,二是Splash可以将浏览器抓包的全过程输出为字典,这是Selenium做不到的,拿到抓包全过程,可以方便我们后续优化爬虫性能。
1.1 splash安装
splash的安装过程十分复杂. 复杂到官方都不推荐你去手动安装它.
官方建议. 用docker去安装splash. 所以. 你需要先去安装docker. 但是docker这玩意在windows上支持非常不好. 各种各样的问题. 外加上后期我们要把爬虫部署到linux. 那干脆. 我们就安装一个linux. 在linux上搞docker是非常easy的.
有能力, 不怕苦的同学可以在windows上搞一个docker试试. 我这里就不带你们找坑踩了. 直接上Linux.
1.1.1安装VM
data:image/s3,"s3://crabby-images/cc3a3/cc3a38ad139510880662cc1e1bb1d291ffc12027" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/b0471/b04711a3fd0b2f2a9308155f35af77f5c2808e9a" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/fca7c/fca7cc8e2b6b62e294428491c515e94104941da8" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/9f05f/9f05f9a558de3599dcbbfdb91bb1e92968ca6184" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/79ae4/79ae4b96a6d34de0adfba2fbfd64ef8c5cebf932" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/4e5c5/4e5c5c2d37d6db3f9cb1b15ce24520d63fb4fd01" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/ecfe6/ecfe61d1d3d0b7831462ea47f1b04465a7f4c962" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/62115/621153dbfce114cc82601db77a3502b5d0707a65" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/f06c7/f06c7db8581b9e2458568f7be2c2951d94b0418d" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/4ef17/4ef172df8433d4571ebb992957a216995a0d2795" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/88c3a/88c3a3fa2d9d1e82ae4375b1af07701905d6a6dd" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/19062/19062065e339a956d553e5e6948753a73783048c" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/dd1ab/dd1ab56ec89bd376262f9581e78a99cea84396c8" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/8bf54/8bf54c59c496cc8869d5cc4730080ac3f9c18e56" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/b5853/b5853fbcd7c3e0ae965934dbe659f9b844ec8d81" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/3d00a/3d00aba14f64e3ff77dcac6378e395b476feab06" alt="在这里插入图片描述"
1.1.2 安装Linux
data:image/s3,"s3://crabby-images/32c15/32c1552dd5c95ced4dc1078e8cf26985f61e153c" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/dc050/dc0505b5e729c7b6ce015c8e60e09aaa76c76aad" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/95f3b/95f3b823a7f6ef26907ac837b01f8257519769a4" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/04ebe/04ebe8c5136b1f4fd4f6ea928af9f5462856021d" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/03744/03744e12ff657d6af346fb8ac4a98457ba69e11d" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/dfccc/dfcccae94fb61527fcae7031da1cd51bf82af442" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/9e6fc/9e6fccc5d4747ea40315fe116f82d2a58090bd4f" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/b4683/b4683d76524ae20c8a9f9ac698ee7dc9001e0ccd" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/8003a/8003a72c9b0e47e32ed52f0d71ad933c4bf44412" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/5cd91/5cd916198eb5705eab4c50109b2eb8e21a69c97d" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/208f7/208f7df7e677b721f3c44a67ad0b089b8b837d7a" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/a16d8/a16d807643d7296c41fa6c3b52f8b84bfeb45949" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/d4210/d421006fba425d695414fa8fb0137fb60bdf4074" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/b6e73/b6e73ceb294eb833f5747ff0a6edda6ae7a2d840" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/321bf/321bf6223a83fa1c425946cc998baa72c1387b1f" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/b2487/b2487c299e450e211cff0ea5d11602f1ae8bf34c" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/95b26/95b26c703b579672676c6297143b65bae2f8851a" alt="在这里插入图片描述"
安装好的linux后,我们需要学会使用linux的一个工具. 叫yum, 我们需要用它来帮我们完成各种软件的安装. 十分的方便. 我们先用ifconfig 来做一个测试.
yum search ifconfig // 搜索出ifconfig的包
yum install net-tools.x86_64 // 安装该软件, 安装过程中会出现很多个询问. 直接y即可
发现了吧, 在linux这个破黑窗口里. 属实难受+憋屈. 所以, 我们这里选择用ssh远程连接linux.
mac版本: 打开终端. 输入
ssh root@服务器ip地址
输入密码
就可以顺利的链接到你的linux服务器. 接下来. 我们可以使用各种命令来操纵linux了.
Windows: data:image/s3,"s3://crabby-images/8a41c/8a41c84a4fb18c87df70058d6279b6994fb24dfa" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/42658/4265838e1e1eb752e592bab8a2641347a021f5f6" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/1535a/1535a59cf1b2724851bf3d9b24cb8e28d3525307" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/658b6/658b68aefaa4fa1fa7abc59a48948788bae2f17b" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/4acde/4acde5f114dd366c1c4d9d2c7d2b4e8d9c1a4e2e" alt="在这里插入图片描述"
1.1.3 安装docker
? 安装docker就一条例命令就好了
[root@sylar-centos-2 ~]
? 配置docker的源,这里要使用国内的源,否则会慢死
[root@sylar-centos-2 ~]
{
"registry-mirrors": ["https://9cpn8tt6.mirror.aliyuncs.com"]
}
[root@sylar-centos-2 ~]
[root@sylar-centos-2 ~]
如需关闭或者重新启动docker:
systemctl stop docker
systemctl restart docker
Vm -> cenos -> ssh -> docker -> splash
1.1.4 安装splash
-
拉取splash镜像 docker pull scrapinghub/splash
splash比较大. 大概2个G左右. 有点儿耐心等会儿就好了 -
运行splash docker run -p 8050:8050 scrapinghub/splash
-
打开浏览器访问splash http://192.168.31.82:8050/ data:image/s3,"s3://crabby-images/ae9f2/ae9f2e08f5e338139afb92b836d8a6746a9c59da" alt="在这里插入图片描述"
1.2 splash简单使用
? 我们可以在文本框内输入百度的网址. 然后点击render. 可以看到splash会对我们的网页进行动态的加载. 并返回截图. 运行状况. 以及页面代码(经过js渲染后的) data:image/s3,"s3://crabby-images/bf24c/bf24cdcaa7aa592177c4457cc707746ae1ebc696" alt="在这里插入图片描述" data:image/s3,"s3://crabby-images/574ab/574ab650abe4ed2665514978ac68b28be0acb454" alt="在这里插入图片描述"
快速解释一下, script中的脚本. 这里面用的是lua的脚本语法. 所以看起来会有些难受.
function main(splash, args)
assert(splash:go(args.url))
assert(splash:wait(0.5))
return {
html = splash:html(),
png = splash:png(),
har = splash:har(),
}
end
有必要说明一下. 在lua中, . 表示的是属性(变量), : 表示的是方法(函数)的调用.
常见操作符都一样. 剩下的. 我们到案例里看.
1.3 splash的http-api接口
splash提供了对外的http-api接口. 我们可以像访问一个普通url一样访问splash. 并由splash帮助我们渲染好页面内容.
http://192.168.31.82:8050/render.html?url=http://www.baidu.com
虽然看不出任何差别. 但是你心里要清楚一个事情. 此时拿到的直接是经过js渲染后的html
我们换个url你就知道了
http://192.168.31.82:8050/render.html?url=https://www.endata.com.cn/BoxOffice/BO/Year/index.html&wait=5
endata这个网站. 它的数据是后期经过ajax请求二次加载进来的. 我们通过splash可以等待它后期加载完再拿html.
综上, splash的工作机制:
data:image/s3,"s3://crabby-images/85492/854925cf2071cd8e9d8ff0b8005ab2ff4284fe68" alt="在这里插入图片描述"
整个一个代理服务器的逻辑. ~~~~
二. python中使用splash
"""
# splash提供的api接口
渲染html的接口
http://192.168.63.128:8050/render.html?url=你的url&wait=等待时间&time_out=超时时间
截图的接口
http://192.168.63.128:8050/render.png 参数和render.html基本一致, 可选width, height
加载过程接口
http://192.168.63.128:8050/render.har 参数和render.html基本一致
json接口
http://192.168.63.128:8050/render.json 参数和render.html基本一致
执行lua脚本的接口
http://192.168.31.184:8050/execute?lua_source=你要执行的lua脚本
"""
2.1 调用render接口
很简单,发送一个requests.get请求,把get的参数放进params中
import requests
resp = requests.get(
url='http://192.168.63.128:8050/render.html',
params={
"url":'https://www.endata.com.cn/BoxOffice/BO/Year/index.html',
"wait": 5
}
)
with open("log.html", mode="w", encoding="utf-8") as f:
f.write(resp.text)
2.2 调用execute接口
调用execute接口就可以执行相对比较复杂的浏览器操作了,这里用 https://news.163.com/ 来说明怎么模拟浏览器操作,利用splash来抓取ajax动态加载来的数据。
下图是网易新闻主页拉到最下面的样子,有一个 “加载更多” 按钮。
data:image/s3,"s3://crabby-images/47e52/47e5238c5a4241bece723e47bfc44f2099f45855" alt="在这里插入图片描述"
点击该按钮后,URL没有改变,但显示了更多的新闻,这就是ajax动态加载来的数据。
data:image/s3,"s3://crabby-images/29579/29579fd157f39ff79411466cadcd56ffa8ca9e20" alt="在这里插入图片描述"
再点击一次 “加载更多” 按钮,拉到最下面发现展示完了。 data:image/s3,"s3://crabby-images/4c750/4c750a859834a8617b580952e9d5f60db523081a" alt="在这里插入图片描述"
要用execute接口实现这个功能,就必须编写Lua脚本和Javascript脚本,这里的代码本身的功能并不复杂,但是设计到多门语言混合编程,因此比较唬人。 data:image/s3,"s3://crabby-images/decd5/decd5f468a0e928ebd1a3c5e916fbf35ee050357" alt="在这里插入图片描述"
import requests
from lxml import etree
lua_source = """
function main(splash, args)
assert(splash:go("https://news.163.com/"))
assert(splash:wait(2))
-- 准备一个js函数. 预加载
-- jsfunc是splash预留的专门为了js代码和lua代码结合准备的
get_btn_display = splash:jsfunc([[
function(){
return document.getElementsByClassName('load_more_btn')[0].style.display;
}
]])
while(true)
do
splash:runjs("document.getElementsByClassName('load_more_btn')[0].scrollIntoView(true)")
splash:select(".load_more_btn").click()
splash:wait(1)
-- 判断load_more_btn是否是none.
display = get_btn_display()
if(display == 'none')
then
break
end
end
return splash:html() -- 直接返回页面源代码
end
"""
resp = requests.get(
url='http://192.168.63.128:8050/execute',
params={
"lua_source": lua_source
}
)
with open("log2.html", mode="w", encoding="utf-8") as f:
f.write(resp.text)
tree = etree.HTML(resp.text)
divs = tree.xpath('/html/body/div[1]/div[3]/div[2]/div[3]/div[2]/div[5]/div/ul/li[1]/div[2]/div')
for div in divs:
a = div.xpath('./div/div/h3/a')
if not a:
continue
a = a[0]
print(a.xpath("./@href")[0])
print(a.xpath("./text()")[0])
三. Scrapy_splash模块
实现和2.2一样的功能
开始动手
scrapy startproject news
cd news
scrapy genspider wangyi 163.com
wangyi.py文件
data:image/s3,"s3://crabby-images/932f0/932f074506a5c720f3e65a0f10b60868409eff0d" alt="在这里插入图片描述"
settings.py文件
data:image/s3,"s3://crabby-images/5e573/5e573740d936765509ca7b77c708fe907a4d5aa7" alt="在这里插入图片描述"
wangyi.py源码
import scrapy
from scrapy_splash.request import SplashRequest
lua_source = """
function main(splash, args)
assert(splash:go(args.url))
assert(splash:wait(2))
-- 准备一个js函数. 预加载
-- jsfunc是splash预留的专门为了js代码和lua代码结合准备的
get_btn_display = splash:jsfunc([[
function(){
return document.getElementsByClassName('load_more_btn')[0].style.display;
}
]])
while(true)
do
splash:runjs("document.getElementsByClassName('load_more_btn')[0].scrollIntoView(true)")
splash:select(".load_more_btn").click()
splash:wait(1)
-- 判断load_more_btn是否是none.
display = get_btn_display()
if(display == 'none')
then
break
end
end
return splash:html() -- 直接返回页面源代码
end
"""
class WangyiSpider(scrapy.Spider):
name = 'wangyi'
allowed_domains = ['163.com']
start_urls = ['http://news.163.com/']
def start_requests(self):
yield SplashRequest(
url=self.start_urls[0],
callback=self.parse,
endpoint='execute',
args={
"lua_source": lua_source
}
)
def parse(self, resp):
divs = resp.xpath('/html/body/div[1]/div[3]/div[2]/div[3]/div[2]/div[5]/div/ul/li[1]/div[2]/div')
for div in divs:
a = div.xpath('./div/div/h3/a')
if not a:
continue
a = a[0]
print(a.xpath("./@href").extract_first())
print(a.xpath("./text()").extract_first())
settings.py源码
BOT_NAME = 'news'
SPIDER_MODULES = ['news.spiders']
NEWSPIDER_MODULE = 'news.spiders'
ROBOTSTXT_OBEY = False
LOG_LEVEL = "WARNING"
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
SPLASH_URL = 'http://192.168.63.128:8050'
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
|