IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python使用beautifulsoup中select方法爬虫时使用join和split方法配合处理特殊字符 -> 正文阅读

[Python知识库]python使用beautifulsoup中select方法爬虫时使用join和split方法配合处理特殊字符

问题参考

python如何去掉字符串‘\xa0’
Python split()方法

Python join()方法
python中join()函数的使用方法

问题背景

使用python对百度网页进行爬取时,爬取的摘要标签中,时间和文章内容在同一标签下,但属于同一标签,抓取的数据本身如果有空格,在编译的时候会输出字符\xa0 ,使用join和split的组合方法去掉

想要爬取目标数据:
在这里插入图片描述
使用beautifulsoup的select方法爬取出来的效果如下:
在这里插入图片描述
想要的输出的结果:
在这里插入图片描述

问题解决

使用join和split的组合方法去掉

  • split() 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串
    参考网址Python split()方法
  • split()方法输出的是列表
a = 'abcv '
a.split()  # split方法输出的是列表

在这里插入图片描述

  • join方法输出的是字符串,刚好配合起来
''.join(i.get_text().split())  
# split方法输出的是列表
# join方法输出的是字符串,刚好配合起来

在这里插入图片描述
实际代码效果,只截取了片段

#     2 匹配摘要
    date = soup.select('.c-abstract')
#     print(len(date))
#     print(date)
#     摘要部分包含了时间,但时间后面带了一个空格,
# 在编译的时候会输出字符\xa0 ,使用join和split的组合方法去掉
    dict['date'] = [''.join(i.get_text().split()) for i in date]
#     print(dict['date'])
    print('摘要个数:',len(dict['date']))
    
#     3 匹配时间
    t = soup.select('span[class="newTimeFactor_before_abs c-color-gray2 m"]')
#     print(t)
    dict['time'] = [''.join(i.get_text().split()) for i in t]
#     print(dict['time'])
    print('时间个数:',len(dict['time']))

得到想要的在这里插入图片描述
效果
在这里插入图片描述

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-27 12:47:35  更:2021-10-27 12:49:47 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/30 4:01:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码