前言
当工作上在处理爬虫任务的时候,经常会遇到一个情况。当爬取的数据就在网页的某个区域时,除了正常的爬虫代码之外,还有没有其他方面将这些数据获取下来?
当然有,或许就是本文提到的,我们用python将数据所在区域的地方用截图的方式保存下来,之后再用文字识别的方法,识别图片中的内容。其实这一点,也可以应用到反爬虫当中,比如说,文字验证码等等。
那么,用python如何截图呢?
python截图的方法
本文的截图核心点——Puppeteer
代码如下:
import asyncio
from pyppeteer import launch
async def main():
browser = await launch()
page = await browser.newPage()
# 需要截图的url,这里以百度为例
await page.goto('https://www.baidu.com')
# 设置截图区域的宽和高 ,单位像素
await page.setViewport({'width': 1000, 'height': 1000})
# 将截取的图片保存为需要的格式,这里为png
await page.screenshot({'path': 'browser.png'})
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
运
|