IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Python Newspaper爬虫库 -> 正文阅读

[Python知识库]Python Newspaper爬虫库

pip3 install newspaper3k

1.提取新闻列表(标题,URL等)

import newspaper
url = 'https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/index.html'
paper = newspaper.build(url, language="zh", memoize_articles=False)
for article in paper.articles:
    print(article.title,article.url)

结果:

中华人民共和国噪声污染防治法 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1044/20211229/57ad41586f2e4b3d95cc6fcabfb5fc54.html
中华人民共和国湿地保护法 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1044/20211229/89a89da3c9ba4e6da3a56468e1dc50b5.html
企业环境信息依法披露管理办法 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20211222/c30ba2d93f084e8d8c2b4e4073fe9c2c.html
危险废物转移管理办法 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20211222/7bc56782b62149ae9408ef02500faa4d.html
关于修改部分部门规章的决定(2021年) https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20211222/93ffcda185a7403ebb98e1f1f36048b1.html
关于废止固体废物进口相关规章和规范性文件的决定 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20210122/811a0d6a365c4a37b3d5dbef1f2f7361.html
放射性物品运输安全许可管理办法 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20201019/9a4b18a6c3434f118b86d8d7b1332c65.html
放射性同位素与射线装置安全许可管理办法 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20201019/ccf956fb2522442296faa9c57322ea35.html
关于废止、修改部分生态环境规章和规范性文件的决定 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20210111/a011899956414f948da73d057f6850a3.html
碳排放权交易管理办法(试行) https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20210106/1d7cd8449ac94a20841bbb4a57d70ce4.html
生态环境标准管理办法 https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20201231/c6bd784ac55e4b998fe781ecc69ccd7d.html
建设项目环境影响评价分类管理名录(2021年版) https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/20201230/87e10258568d4f3281f84f8572104232.html

2.提取新闻分类

or category in paper.category_urls():
    print(category)

3.提取新闻内容:Article

import newspaper
from  newspaper import Article

url = 'https://sthj.sh.gov.cn/hbzhywpt1013/hbzhywpt1041/index.html'
news = Article(url, language='zh')
news.download()
news.parse()

print(news.url)
# news.url为获取网址的url
print(news.text)
# news.text为获取页面的所有text文字
print(news.title)
# news.title为获取页面的所有标题
print(news.html)
# news.html为获取页面的所有源码
print(news.authors)
print(news.top_image)
print(news.movies)
print(news.keywords)
print(news.summary)
print(news.images)
print(news.imgs)

以上为简单部分使用,更多参考:新闻类爬虫库:Newspaper

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-05-24 18:07:23  更:2022-05-24 18:09:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 14:06:07-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码