IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> Python爬虫学习笔记(四)之requests库 -> 正文阅读

[开发工具]Python爬虫学习笔记(四)之requests库

进行了学习之后,使用request进行爬取小说实验,用request获取网页,bs4提取目标信息,re解析数据清洗。代码很水,仅供参考。

import requests
import re
import os
import time
import random
from fake_useragent import UserAgent
from bs4 import BeautifulSoup

class NovelSpider(object):
    def __init__(self):
        self.url='网址'#占位
        self.spider_end = ''
        
    def get_html(self,url):
        headers = { 'User-Agent': UserAgent().random}
        res=requests.get(url = url,headers = headers, timeout=(3,7))       
        html=res.text
        return html
    
    def parse_html(self,html,expression):
        parse_html = BeautifulSoup(html, 'html.parser')
        text = parse_html.select(expression)
        return text
        
    def save_html(self,filename,html):#1文件保存地址,需要创建request文件夹
        with open(r"D:/request/"+filename,'w',encoding='utf-8') as f:
            for i in html:
                j = str(i)
                j = j[3:-4]
                j=j+'\n'
                f.write(j)
            
    def run(self):
        url1 = '小说书名网址'#2小说网址
        name = '小说名字'#3小说名字
        expression1 = '#content p'
        expression2 = '#list dd'
        html2 = self.get_html(url1)
        html2 = self.parse_html(html2, expression2)
        re_list = []
        re_list2 = []
        for i in html2:
            pattern1 = re.compile('"(.*?)"', re.S)
            re_list.append(pattern1.findall(str(i)))
        number = len(re_list)
        for i in html2:
            pattern1 = re.compile('>(.*?)<', re.S)
            re_list2.append(pattern1.findall(str(i)))

        file_count=0#读取文件数量
        for dirpath, dirnames, filenames in os.walk(r'D:/request'):
           for file in filenames:
              file_count=file_count+1
        begin = 1
        if file_count != 0:
            begin = file_count
        for page in range(begin, number+1):
            re_list_middle = str(re_list[page-1])
            re_list_middle2 = str(re_list2[page-1])
            url = '小说主网址'+re_list_middle[2:-2]
            html=self.get_html(url)
            html = self.parse_html(html,expression1)
            prohibit_str = ['\\','/',':','?','*','|','"',"'",'.']
            re_list_middle3 = ''
            for i in re_list_middle2:
                if i in prohibit_str :
                    pass
                else:re_list_middle3 = re_list_middle3+i                   
            filename=r'{}-{}.txt'.format(name,re_list_middle3[3:-3])
            self.save_html(filename,html)
            print(filename)
            time.sleep(random.randint(1,2))
        self.spider_end = '1'
            
if __name__=='__main__': 
    start=time.time()
    while(1):
        try:
            spider=NovelSpider()
            spider.run()
            if spider.spider_end == '1':
                break
        except:
            pass
    end=time.time()
    print('爬取完毕')
    print('执行时间为:%.2f'%(end-start))

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-11-22 12:33:04  更:2021-11-22 12:34:07 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 18:26:08-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码