[Python知识库] 爬虫数据提取-正则表达式re提取网页数据信息

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> 爬虫数据提取-正则表达式re提取网页数据信息 -> 正文阅读

[Python知识库]爬虫数据提取-正则表达式re提取网页数据信息

经过上一期我们介绍了xpath和beautifulsoup4提取数据之后，本章我们介绍一种新的提取数据的方法，就是正则表达是提取数据。
首先我们介绍什么是正则表达式，正则表达式就是按照一定的规则，从某个字符串中匹配出想要的数据，这个规则就是正则表达式。
import re#这个就是正则表达式的库
对于单字符匹配

import re
text='abc'
result=re.match('a',text)#从text中匹配a元素

下面我介绍一下所有的正则表达式的规则

. -表示匹配任意字符
\D - 表示匹配任意非数字
\d - 表示匹配任意数字
\s - 表示空白字符
\S - 表示非空白字符（包括\n,\t,\r,空格）
\w - 表示匹配是a-z，A-Z以及数字和下划线
\W - 表示和\w相反

号表示前一个字符匹配0次或者无限次

号表示前一个字符匹配一次或者无限次

正则表达式小案例：
1.验证手机号

import re 
text='13166892143'
result=re.match('1[34587]\d{9}',text)
print(result.group())

手机号必须第一步，第二位数字是34578，剩下9位随意匹配。

2.验证身份证号

import re
text='220122199605197535'
result=re.match('\d{17}[\d|x|X]',text)
print(result.group())
#有一些不严谨，在这里当作举例子用

接下来进入到我们今天正则表达式的案例,爬取58同城长春的租房信息
首先我们找到url，然后找到headers，cookie，思想还是遵循前面的案例想法，但是为了避免重复我们只爬取标题，这样就不用进入到详情页面了。
在这里插入图片描述

import requests
import re
import time

def parse_url(page_url):
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36',
             'cookie': 'f=n; commontopbar_new_city_info=319%7C%E9%95%BF%E6%98%A5%7Ccc; time_create=1651833783126; userid360_xml=5073453BC3F3378103306C5DD6313438; id58=CocNFmJMOjoRG6UpINqoAg==; 58tj_uuid=5f522b57-b5db-4c1e-91ad-dfaed5c54613; wmda_uuid=54945059623630baccf9ce2d19024bac; wmda_new_uuid=1; als=0; xxzl_deviceid=xZ3mzvUzZb7MfhlyfMjWDI43qItjOZEkCkzdMGVensviE4ufnO3TcSmfwuhOkOHN; 58home=cc; fzq_h=3668e23feed5ff34f5121533cacf4d11_1649165482837_aafa871639e1455faddcea1b2dcf0d7d_3688452105; aQQ_ajkguid=6909E4DE-8AC0-44AB-AAFD-564594183E03; sessid=29D9E48F-B91B-4704-B93F-802F0D536267; ajk-appVersion=; ctid=1; wmda_visited_projects=%3B2385390625025%3B11187958619315%3B1732038237441%3B10104579731767; xxzl_smartid=5258ec92b30a083b9c24b7abe6264f22; city=cc; xxzl_cid=2ac14936668549eba3f2d1267e499d31; xzuid=4b6daf1b-8235-4524-8294-5fadcc7a622c; f=n; commontopbar_new_city_info=319%7C%E9%95%BF%E6%98%A5%7Ccc; new_uv=3; utm_source=; spm=; init_refer=https%253A%252F%252Fcc.ganji.com%252F; wmda_session_id_2385390625025=1649241775503-9c4d1068-5b20-9030; commontopbar_ipcity=cc%7C%E9%95%BF%E6%98%A5%7C0; BAIDU_SSP_lcr=https://cc.ganji.com/; wmda_session_id_11187958619315=1649241776620-b94e118e-74a3-f619; new_session=0; wmda_session_id_10104579731767=1649242260725-d1698ea5-3e31-69e3; crmvip=; dk_cookie=; PPU=UID=50008179919636&UN=257yg0ij5&TT=85b0ddff390e2ad1cf9197b62a43bab6&PBODY=BtmW68AazGVFi-8GfV47Vx-GOH6uoejYuGjh242TlAQsKHxfn1ESmJKILSjwsl1eGTKKujjhFXG7bcNstnACkx6zImJtTYqABCmtaElOgYoYTqGN0qPRlsoWi1jNzJ-Te9xmrgFLIe2PNMQpN717DBCX7sZBka6WllSCVoaFwhE&VER=1&CUID=-PPNBXDEohf4g5_5jbNtDg; www58com=UserID=50008179919636&UserName=257yg0ij5; 58cooper=userid=50008179919636&username=257yg0ij5; 58uname=257yg0ij5; passportAccount=atype=0&bstate=0'}
#在这里我们找到了页面的headers和cookie
    proxy={'http':'http://120.220.220.95:8085'}
    resp=requests.get(page_url,headers=headers,proxies=proxy)
    #在这里我们换了一下ip，也相当于复习一下之前的知识
    text=resp.text
    houses=re.findall(r"""
        <div.+?des.+?<a.+?strongbox.+?>(.+?)</a> 
    """,text,re.VERBOSE|re.DOTALL)#获取房子的标题
    #从上面的图中我们看到属于该标题的标签，然后我们从div属性为list-box标签开始匹配，.+?属于匹配中间任意字符（.+?）就是我们需要的东西，加上re.DOTALL参数后，就是真正的所有字符。使用re.VERBOSE来编写注释，使用re.IGNRECASE来忽略大小写
    for house in houses:
        print(house)
        time.sleep(2)
      #这样我们就可以把标题进行提取下来了
def main():
    base_url='https://cc.58.com/chuzu/pn{}/?PGTID=0d3090a7-0013-f36b-4062-dd5eb66bbf85&ClickID=2'
    for x in range(1,11):
        page_url=base_url.format(x)
        parse_url(page_url)
   #base_url就是网页的规律，然后我们准备爬取10页的数据，进行爬取
if __name__ == "__main__":
    main()

同样我们也可以对其进行详情页面进行数据提取，就是在上面的函数中获取到详情页面的url，然后在提取详情信息。我们把主体框架写出来，各位有需求的可以在这个基础上继续提取。

<div.+?des.+?<a.+?="(.+?)".+?ass.+?strongbox.+?>.+?</a>

这里我们写了一下提取详情页面的url，写的比较草率，但是可以提取到。谢谢各位大佬的观看!

Python知识库最新文章

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2022-05-10 11:52:00 更:2022-05-10 11:53:00

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/6 22:44:26-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码