IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Python爬虫——实战:爬取博客园指定信息 -> 正文阅读

[人工智能]Python爬虫——实战:爬取博客园指定信息

Python爬虫——实战:爬取博客园指定信息

用正则表达式提取数据

# 课程内容:爬虫实战博客园
# 开发时间: 16:25
import requests
import re
def get_one_page(url,page):
    headers = {}
    html_txt = ''
    headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
    response = requests.get('http://www.baidu.com', headers=headers)
    if response.status_code == 200:
        html_txt = response.text
    return html_txt

def parse_one_page(html_txt):
    html_str = html_txt.replace('\n','')
    pat_all = r'<div class="day">(.*?)编辑'
    blogs = re.findall(pat_all,html_str)
    print(blogs)
    for blog in blogs:
        posdate = ''
        title = ''
        match = re.findall(r'<span>(.*?)</span>',blog)
        if len(match) == 1:
            title = match[0]
        com_count,read_count,digg_count = re.findall(r'\((\d+)\)',blog)
    return (title,read_count,com_count,digg_count)

if __name__=='__main__':
    base_url = 'https://www.cnblogs.com/pinard/default.html?page='
    urls = [base_url+str(i) for i in range(1,15)]
    #获取分页连接
    for urls in urls:
        #1、想获取一页的内容
        html_txt = get_one_page(url)
        #2、解析每一页的内容
        cont = parse_one_page(html_txt)
        #3、保存提取数据
        save2txt(cont)

    #4、重复步骤1,2
    #5、保存提取的数据
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-29 16:19:21  更:2021-11-29 16:21:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 4:01:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码