IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试? -> 正文阅读

[Python知识库]Python3,爬虫有多简单,一个库,一行代码,就OK, 你确定不来试试?

1、 引言

小屌丝:鱼哥, 我最近在练习写爬虫, 你有没有什么便捷的方式…
小鱼:比如呢?
小屌丝:比如,一句话就可以搞得定爬取整个网站。
小鱼:我不是写过挺多的爬虫案例嘛,你咋还问这个问题,
小屌丝:你写的哪些教程,像我这种比较懒散的人,不适用!
小鱼:我擦~ ~ 你这…
小屌丝:鱼哥,你就像这篇《只用1行代码就下载全网视频》,就一行代码, 我保证妥妥的会。
小鱼:Let me 想一下。
在这里插入图片描述

2、Scrapeasy

按照小屌丝的想法, 我想到了一个库:Scrapeasy
小屌丝:这是不是第三方库。
小鱼:必须的,python自带库,能有这么强大的功能吗?
在这里插入图片描述

2.1 简介

2.1.1 Scrap

关于Scrapeasy 大家可能了解的不多,
但是 Scrap 爬虫大佬肯定了解。
那什么是Scrap呢?

Scrapy

Scrapy是一个功能强大的网络爬虫类库,通过命令pip install scrapy进行安装,爬取的海量数据可以通过MongoDB进行存储。

我上一个架构图:

在这里插入图片描述
关于Scrap的其他功能,
可以移步 Scrap官网进行阅读,这里不做过多介绍。

2.1.2 Scrapeasy

我们再来了解 Scrapeasy。
Scrapeay 是Python的一个第三方库,主要功能:

  • 可以抓取网页数据;
    • 从单网页提取数据;
    • 多网页提取数据;
  • 可以从PDF和HTML表格中提取数据;

听着是很牛的样子,
接下来,我们就去代码中实践,看看到底有多牛。

2.2 安装

涉及到第三方库,肯定就需要安装
老规矩,pip 安装

pip install scrapeasy

其它安装方式,直接看这两篇:

2.3 代码示例

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-10-31
# @Author : Carl_DJ

'''
实现功能:
    通过scrapeasy 来实现爬取数据

'''

from scrapeasy import Website,Page

#创建网站对象

#这里我就以我博客的地址为例子
webs = Website("https://blog.csdn.net/wuyoudeyuer?type=blog")

#获取所有子链接
urls = webs.getSubpagesLinks()
#输出信息
print(f'打印所有链接信息:{urls}')


#查找图片

images = webs.getImages()

print(f'打印所有的图片信息:{images}')

#下载图片
webs.download('img','./data')

#下载pdf
webs.download('pdf','./data')


#获取链接
main_urls = webs.getLinks(intern=False,extern=False,domain=True)

#获取链接域
domain = webs.getLinks(intern=False,extern=True,domain=False)

# 下载其他类型的文件
cal_urls = webs.get("php")


解析

  • 下载所有链接: getSubpagesLinks() 方法;
  • 查找图片:getImages()方法;
  • 下载:webs.download()方法;
  • 下载其他格式文件:get(“文件类型”);

3、总结

看到这里,今天的分享差不多就该结束了。
今天主要是针对scrapeasy这个库进行简单的分享。
学会scrapeasy,你算是迈入的爬虫的 门槛。
其实关于爬虫,我也写过一些教程和案例,例如:

这里就不过多列举了,更多的示例,可以看小鱼的爬虫实战专栏的

我是小鱼

关注我,带你学习Python领域更多更专业的技能。

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-11-05 00:24:53  更:2022-11-05 00:26:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/26 3:40:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计