IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 自学python爬虫(第二天学习笔记) -> 正文阅读

[Python知识库]自学python爬虫(第二天学习笔记)

爬取糗事百科视频--自娱自乐

使用的库文件

import requests
import re
from pyquery import PyQuery

代码如下

import requests
# from lxml import etree
import re
from pyquery import PyQuery



def send_requests():
    global url
    url = 'https://www.qiushibaike.com/video/page/4/'
    global heads
    heads = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3875.400 QQBrowser/10.8.4492.400'}

    res = requests.get(url,headers = heads)
    return res
'''<source src="//qiubai-video.qiushibaike.com/HT36G8LI1MBFJD8R_hd.mp4" type="video/mp4">'''
def parse():
    res = send_requests()

    # info = re.findall('<source src="(.*)" type=\'video/mp4\' />', res.text)
    info = re.findall('<source src="(.*)" type=\'video/mp4\' />',res.text)
    lat = []
    for i in info:
        lat.append('https:'+ i)
    # print(lat)
    return lat

#xpath 方法
# def parse_name():
#     res = send_requests()
#     e =etree.HTML(res)
#     name = e.xpath('//div[@class="conten"]/text()')
#     lst = []
#     for i in range(len(name)):
#         lst.append(name[i])
#     print(lst)

def name():
    res1 = PyQuery(send_requests().text)
    name = [a.text for a in res1('div.content span')]
    lst = []
    for i in range(len(name)):
        lst.append(name[i].split())
#     intab = "?/|\.><:*"
#     for s in intab:
#         if s in lst:
#             title = lst.remove(s)
    return lst
# #
#
def down():
    lst = name()
    count = 0
    for i in parse():
        count+=1
        resp = requests.get(i,headers = heads)
        with open(r'void/' + str(lst[count-1]) + '.mp4', 'wb+') as fi:
            fi.write(resp.content)
    print("下载完成")




def start():
    parse()
    down()

    # print(send_requests())
    # # print(parse())


if __name__ == '__main__':
    start()

成果展示:

?总结:

有bug

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-09-14 13:17:25  更:2021-09-14 13:19:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 14:49:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码