[开发工具] Python爬虫学习笔记(四)之requests库

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 开发工具 -> Python爬虫学习笔记(四)之requests库 -> 正文阅读

[开发工具]Python爬虫学习笔记(四)之requests库

进行了学习之后，使用request进行爬取小说实验,用request获取网页，bs4提取目标信息，re解析数据清洗。代码很水，仅供参考。

import requests
import re
import os
import time
import random
from fake_useragent import UserAgent
from bs4 import BeautifulSoup

class NovelSpider(object):
    def __init__(self):
        self.url='网址'#占位
        self.spider_end = ''
        
    def get_html(self,url):
        headers = { 'User-Agent': UserAgent().random}
        res=requests.get(url = url,headers = headers, timeout=(3,7))       
        html=res.text
        return html
    
    def parse_html(self,html,expression):
        parse_html = BeautifulSoup(html, 'html.parser')
        text = parse_html.select(expression)
        return text
        
    def save_html(self,filename,html):#1文件保存地址，需要创建request文件夹
        with open(r"D:/request/"+filename,'w',encoding='utf-8') as f:
            for i in html:
                j = str(i)
                j = j[3:-4]
                j=j+'\n'
                f.write(j)
            
    def run(self):
        url1 = '小说书名网址'#2小说网址
        name = '小说名字'#3小说名字
        expression1 = '#content p'
        expression2 = '#list dd'
        html2 = self.get_html(url1)
        html2 = self.parse_html(html2, expression2)
        re_list = []
        re_list2 = []
        for i in html2:
            pattern1 = re.compile('"(.*?)"', re.S)
            re_list.append(pattern1.findall(str(i)))
        number = len(re_list)
        for i in html2:
            pattern1 = re.compile('>(.*?)<', re.S)
            re_list2.append(pattern1.findall(str(i)))

        file_count=0#读取文件数量
        for dirpath, dirnames, filenames in os.walk(r'D:/request'):
           for file in filenames:
              file_count=file_count+1
        begin = 1
        if file_count != 0:
            begin = file_count
        for page in range(begin, number+1):
            re_list_middle = str(re_list[page-1])
            re_list_middle2 = str(re_list2[page-1])
            url = '小说主网址'+re_list_middle[2:-2]
            html=self.get_html(url)
            html = self.parse_html(html,expression1)
            prohibit_str = ['\\','/',':','?','*','|','"',"'",'.']
            re_list_middle3 = ''
            for i in re_list_middle2:
                if i in prohibit_str :
                    pass
                else:re_list_middle3 = re_list_middle3+i                   
            filename=r'{}-{}.txt'.format(name,re_list_middle3[3:-3])
            self.save_html(filename,html)
            print(filename)
            time.sleep(random.randint(1,2))
        self.spider_end = '1'
            
if __name__=='__main__': 
    start=time.time()
    while(1):
        try:
            spider=NovelSpider()
            spider.run()
            if spider.spider_end == '1':
                break
        except:
            pass
    end=time.time()
    print('爬取完毕')
    print('执行时间为:%.2f'%(end-start))

开发工具最新文章

Postman接口测试之Mock快速入门

ASCII码空格替换查表_最全ASCII码对照表0-2

如何使用 ssh 建立 socks 代理

Typora配合PicGo阿里云图床配置

SoapUI、Jmeter、Postman三种接口测试工具的

github用相对路径显示图片_GitHub 中 readm

Windows编译g2o及其g2o viewer

解决jupyter notebook无法连接/ jupyter连接

Git恢复到之前版本

VScode常用快捷键

加:2021-11-22 12:33:04 更:2021-11-22 12:34:07

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/1 21:50:07-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码