一、背景故事
那会儿,作者正在...冥想,微信突然弹出前领导的消息,顿时心里有点小激动,以为是要拉兄弟一把,升职加薪!!!
结果一看,嗯,原来是个活儿,发来一个视频,类似爬虫的桌面应用,从某音爬取数据,并找到对应评论的某人私信!
可以是说是批量给视频评论的人私信推销产品,如果他们找过来,然后完成交易,达成转化!问我实现的成本有多大?
二、说干就干
- 第一点,对于爬虫这类事情,作者是即开心又紧张,心理总有些小兴奋<牢饭怎么样?>。
骗人的!!!
其实脑海里面立即给出多个解决方案:使用什么技术呢?怎样才能更出色的做好呢?
2.1、python熟知的scrapy爬虫框架,使用起来真的很棒、很不错!!!
但是作者是个测试工程师,不是爬虫工程师,爬虫只是偶尔的兴趣爱好!!!
重点是作者仅仅粗略自学过一段scrapy框架,现在要用起来还得从零开始。
2.2、那么通过F12浏览器调试工具,可以使用接口来爬取数据吗?结果大失所望!!!
因为直接requests.get(url)请求会提示错误,并没有数据返回。
仔细一看发现请求参数中有个加密参数,所以每次浏览器请求都会不一样,如果不知道规则,也就无法通过这种方式爬数据。
2.3、既然作者是枚测试人员,那么UI自动化测试中的selenium工具,是不是可以用呢?
是的,办法总比困难多。再不济,连接口请求都能拿来做爬虫呢。
三、使用selenium来爬取某音的视频数据
- 前提条件:使用者必须有python基础及xpath语法且有自动化思想
from selenium import webdriver
driver=webdriver.Chrome(executable_path="../chromedriver.exe")
driver.implicitly_wait(30)
driver.maximize_window()
driver.get("http://www.baidu.com")
driver.quit()
- 如果是目标明确,直接在浏览器中打开官网,搜索关键字得到url<如下代码演示>
'''
Created on 2021年7月22日
@author: qguan
'''
import re
from time import sleep
from selenium import webdriver
driver=webdriver.Chrome(executable_path="../chromedriver.exe")
driver.implicitly_wait(30)
driver.maximize_window()
url="https://www.xxxxyin.com/search/%E4%B8%8A%E6%B5%B7%E6%95%B4%E5%9E%8B"
driver.get(url)
sleep(5)
video_pic=driver.find_elements_by_xpath("//div[@style='display: block;']/ul/li/div/a[1]")
i=1
for video in video_pic:
video.click()
handlers=driver.window_handles
driver.switch_to_window(handlers[-1])
titles=driver.find_elements_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/h1/span[2]/span/span/span/span")
if len(titles)>0:
title=""
for tit in titles:
title+=tit.text
else:
title="没有获取到完整的title"
praise=driver.find_element_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/div/div[1]/div[1]/span").text
comment=driver.find_element_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/div/div[1]/div[2]/span").text
open_time=driver.find_element_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/div/div[2]/span").text
username=driver.find_element_by_xpath("//div/div[2]/div[1]/div[2]/div/div[1]/div[2]/a/div/span/span/span/span/span")
username.click()
c_url=driver.current_url
driver.close()
param_url=c_url.split("?")[1]
author_id=re.findall("(\d{11})",param_url)[0]
group_id=re.findall(r"(\d{19})",param_url)[0]
print("第{}条,视频title:{},作品id:{},用户id:{},评论数:{},点赞数:{},发布时间:{}".format(i,title,group_id,author_id,comment,praise,open_time))
driver.switch_to_window(handlers[0])
i+=1
driver.quit()
和领导发过来视频的操作的数据基本匹配
四、总结
- 从工具易用(完整)性来讲爬虫,selenium工具不如scrapy框架,主要体现在scrapy方便数据库操作,功能更直接。
学习selenium工具成本更大:需要熟知元素定位方案,还需要解决更多ui层的问题;
连数据库建表都需要亲力亲为;可能还需要搭配其他框架来解决某些特定场景的问题。
- 从功能实现上来说,只要能快速解决问题的工具就是好工具,专业的工具做专业的事情,欢迎读者更多交流。
|