IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 爬虫数据提取-正则表达式re提取网页数据信息 -> 正文阅读

[Python知识库]爬虫数据提取-正则表达式re提取网页数据信息

经过上一期我们介绍了xpath和beautifulsoup4提取数据之后,本章我们介绍一种新的提取数据的方法,就是正则表达是提取数据。
首先我们介绍什么是正则表达式,正则表达式就是按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式。
import re#这个就是正则表达式的库
对于单字符匹配

import re
text='abc'
result=re.match('a',text)#从text中匹配a元素

下面我介绍一下所有的正则表达式的规则

. -表示匹配任意字符
\D - 表示匹配任意非数字
\d - 表示匹配任意数字
\s - 表示空白字符
\S - 表示非空白字符(包括\n,\t,\r,空格)
\w - 表示匹配是a-z,A-Z以及数字和下划线
\W - 表示和\w相反

  • 号表示前一个字符匹配0次或者无限次
  • 号表示前一个字符匹配一次或者无限次

正则表达式小案例:
1.验证手机号

import re 
text='13166892143'
result=re.match('1[34587]\d{9}',text)
print(result.group())

手机号必须第一步,第二位数字是34578,剩下9位随意匹配。

2.验证身份证号

import re
text='220122199605197535'
result=re.match('\d{17}[\d|x|X]',text)
print(result.group())
#有一些不严谨,在这里当作举例子用

接下来进入到我们今天正则表达式的案例,爬取58同城长春的租房信息
首先我们找到url,然后找到headers,cookie,思想还是遵循前面的案例想法,但是为了避免重复我们只爬取标题,这样就不用进入到详情页面了。
在这里插入图片描述

import requests
import re
import time

def parse_url(page_url):
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36',
             'cookie': 'f=n; commontopbar_new_city_info=319%7C%E9%95%BF%E6%98%A5%7Ccc; time_create=1651833783126; userid360_xml=5073453BC3F3378103306C5DD6313438; id58=CocNFmJMOjoRG6UpINqoAg==; 58tj_uuid=5f522b57-b5db-4c1e-91ad-dfaed5c54613; wmda_uuid=54945059623630baccf9ce2d19024bac; wmda_new_uuid=1; als=0; xxzl_deviceid=xZ3mzvUzZb7MfhlyfMjWDI43qItjOZEkCkzdMGVensviE4ufnO3TcSmfwuhOkOHN; 58home=cc; fzq_h=3668e23feed5ff34f5121533cacf4d11_1649165482837_aafa871639e1455faddcea1b2dcf0d7d_3688452105; aQQ_ajkguid=6909E4DE-8AC0-44AB-AAFD-564594183E03; sessid=29D9E48F-B91B-4704-B93F-802F0D536267; ajk-appVersion=; ctid=1; wmda_visited_projects=%3B2385390625025%3B11187958619315%3B1732038237441%3B10104579731767; xxzl_smartid=5258ec92b30a083b9c24b7abe6264f22; city=cc; xxzl_cid=2ac14936668549eba3f2d1267e499d31; xzuid=4b6daf1b-8235-4524-8294-5fadcc7a622c; f=n; commontopbar_new_city_info=319%7C%E9%95%BF%E6%98%A5%7Ccc; new_uv=3; utm_source=; spm=; init_refer=https%253A%252F%252Fcc.ganji.com%252F; wmda_session_id_2385390625025=1649241775503-9c4d1068-5b20-9030; commontopbar_ipcity=cc%7C%E9%95%BF%E6%98%A5%7C0; BAIDU_SSP_lcr=https://cc.ganji.com/; wmda_session_id_11187958619315=1649241776620-b94e118e-74a3-f619; new_session=0; wmda_session_id_10104579731767=1649242260725-d1698ea5-3e31-69e3; crmvip=; dk_cookie=; PPU=UID=50008179919636&UN=257yg0ij5&TT=85b0ddff390e2ad1cf9197b62a43bab6&PBODY=BtmW68AazGVFi-8GfV47Vx-GOH6uoejYuGjh242TlAQsKHxfn1ESmJKILSjwsl1eGTKKujjhFXG7bcNstnACkx6zImJtTYqABCmtaElOgYoYTqGN0qPRlsoWi1jNzJ-Te9xmrgFLIe2PNMQpN717DBCX7sZBka6WllSCVoaFwhE&VER=1&CUID=-PPNBXDEohf4g5_5jbNtDg; www58com=UserID=50008179919636&UserName=257yg0ij5; 58cooper=userid=50008179919636&username=257yg0ij5; 58uname=257yg0ij5; passportAccount=atype=0&bstate=0'}
#在这里我们找到了页面的headers和cookie
    proxy={'http':'http://120.220.220.95:8085'}
    resp=requests.get(page_url,headers=headers,proxies=proxy)
    #在这里我们换了一下ip,也相当于复习一下之前的知识
    text=resp.text
    houses=re.findall(r"""
        <div.+?des.+?<a.+?strongbox.+?>(.+?)</a> 
    """,text,re.VERBOSE|re.DOTALL)#获取房子的标题
    #从上面的图中我们看到属于该标题的标签,然后我们从div属性为list-box标签开始匹配,.+?属于匹配中间任意字符(.+?)就是我们需要的东西,加上re.DOTALL参数后,就是真正的所有字符。使用re.VERBOSE来编写注释,使用re.IGNRECASE来忽略大小写
    for house in houses:
        print(house)
        time.sleep(2)
      #这样我们就可以把标题进行提取下来了
def main():
    base_url='https://cc.58.com/chuzu/pn{}/?PGTID=0d3090a7-0013-f36b-4062-dd5eb66bbf85&ClickID=2'
    for x in range(1,11):
        page_url=base_url.format(x)
        parse_url(page_url)
   #base_url就是网页的规律,然后我们准备爬取10页的数据,进行爬取
if __name__ == "__main__":
    main()

同样我们也可以对其进行详情页面进行数据提取,就是在上面的函数中获取到详情页面的url,然后在提取详情信息。我们把主体框架写出来,各位有需求的可以在这个基础上继续提取。

<div.+?des.+?<a.+?="(.+?)".+?ass.+?strongbox.+?>.+?</a> 

这里我们写了一下提取详情页面的url,写的比较草率,但是可以提取到。谢谢各位大佬的观看!

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-05-10 11:52:00  更:2022-05-10 11:53:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 14:23:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码