IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发测试 -> 爬虫中使用selenium实现对斗鱼直播的各个房间标题、主播id,直播内容类型和热度信息的爬取 -> 正文阅读

[开发测试]爬虫中使用selenium实现对斗鱼直播的各个房间标题、主播id,直播内容类型和热度信息的爬取

每日分享:

千万不要因为别人的否定就开始自我否定,人生本来就是一个主观的过程,别人是否喜欢你,其实是对方世界的事,所以面对别人的不喜欢,不要自卑不要刻意讨好,你要专注的做自己

思路分析:

  1. url(网页的url)
  2. 创建driver对象
  3. 发送get请求
  4. parse data(分析处理数据)
  5. save data(保存数据)
  6. 翻页

在一个循环中反复执行4、5、6操作,如果到最后一页则跳出循环。

再说一些我写代码遇到的一些问题:

  1. 用xpath可以找到你想找的元素,但如果要对其进行点击操作,需要先下滑页面至页面内有该元素之后才可以点击
  2. 关于斗鱼中每个房间的封面图片的爬取,花了很多时间尝试,感觉应该设置有反爬,直接爬取,爬到了三张图片,后来设置了休眠时间,爬到图片多了几张,20s爬一张也只爬了不到十张。(因为自己也是初学者,还没有学习反爬、反反爬,所以就放弃了)
  3. 下滑操作前的time.sleep(1)是一定要写的(休眠时间自己设定),当时我是在这卡了很长的时间,因为发现网页并不下滑,所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒,仔细看会发现,并不是页面不下滑,是页面下滑了之后又回到了顶部,可能这是一种反爬吧。
  4. 建议下一页的xpath自己用一个靠谱的方法写,比如用内容查找;当时直接复制的标签的xpath,翻页到第四页就出错了,原因可能是xpath未找到
  5. 源码注释比较详细
  6. 如果全部爬取(我当时是200多页),爬取时间会挺长的

源码如下:

from selenium import webdriver
import time


class Dou_yu(object):

    def __init__(self):
        self.url = 'https://www.douyu.com/directory/all'
        self.driver = webdriver.Chrome()

    def parse_data(self):
        # 建议加上这个休眠,不然可能会因为网速问题,导致页面未加载完毕,爬取失败
        time.sleep(3)
        # 每一页的所有房间存入列表
        room_list = self.driver.find_elements('xpath', '//*[@id="listAll"]/section[2]/div[2]/ul/li/div')
        # 120个,证明没出错
        # print(len(room_list))
        # 创建列表,暂时存放爬取的信息
        data_list = []
        for room in room_list:
            # 将爬取的各个信息放入字典
            tmp = {}
            tmp['title'] = room.find_element('xpath', './a/div[2]/div[1]/h3').get_attribute('textContent')
            tmp['type'] = room.find_element('xpath', './a/div[2]/div[1]/span').get_attribute('textContent')
            tmp['owner'] = room.find_element('xpath', './a/div[2]/div[2]/h2/div').get_attribute('textContent')
            tmp['popularity'] = room.find_element('xpath', './a/div[2]/div[2]/span').get_attribute('textContent')
            data_list.append(tmp)
            # tmp['picture'] = room.find_element('xpath', './a/div[1]/div[1]/picture/img').get_attribute('src')
            # print(tmp)
        return data_list

    def save_data(self, data_list):
        # 先转换为str,方便写入文件
        data_list = str(data_list)
        with open('斗鱼.txt', 'a', encoding='utf-8')as f:
            f.write(data_list+'\n')

    def run(self):
        self.driver.get(self.url)
        # url
        # 创建driver
        # 发送get
        # parse-data
        while True:
            data_list = self.parse_data()
            # save-data
            self.save_data(data_list)
            # 翻页
            # 这个time.sleep(1)是一定要写的(休眠时间自己设定),当时我是在这卡了很长的时间,因为发现网页并不下滑,所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒,仔细看会发现,并不是页面不下滑,是页面下滑了之后又回到了顶部,可能这是一种反爬吧。
            time.sleep(1)
            # 直接设置一个比较大的值,下滑到底部
            js = 'scrollTo(0,10000)'
            # 执行js代码
            self.driver.execute_script(js)
            # 仔细观察斗鱼直播的第一页和最后一页,他们所属的li标签内的aria-disabled值不一样,不是尾页为faule,尾页为true,到尾页后跳出循环
            if self.driver.find_element('xpath', '//li[@title="下一页"]').get_attribute('aria-disabled') == 'true':
                break
            # 找到下一页按钮并点击
            self.driver.find_element('xpath', '//span[contains(text(),"下一页")]').click()


if __name__ == '__main__':
    dou_yu = Dou_yu()
    dou_yu.run()

部分结果如下:

?

  开发测试 最新文章
pytest系列——allure之生成测试报告(Wind
某大厂软件测试岗一面笔试题+二面问答题面试
iperf 学习笔记
关于Python中使用selenium八大定位方法
【软件测试】为什么提升不了?8年测试总结再
软件测试复习
PHP笔记-Smarty模板引擎的使用
C++Test使用入门
【Java】单元测试
Net core 3.x 获取客户端地址
上一篇文章      下一篇文章      查看所有文章
加:2021-11-27 10:12:06  更:2021-11-27 10:13:28 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/18 4:21:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码