IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python 抓取网页数据 -> 正文阅读

[Python知识库]python 抓取网页数据

python 抓取网页数据

此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用。

在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦。有的网页涉及个人隐私或其他敏感信息,是不允许被爬取的,硬爬的话是违法的。

??爬虫协议说明

但是一般的网页都是公开可爬取的啦,要注意网站的爬虫协议,查看爬虫协议的方法也很简单:在所要爬取网站的后面加上/robots.txt字样,如果跳转到一个新的网页,上面会标注本网站的哪个部分不能被爬取,然后自己注意不要碰那些敏感内容就好啦!


??requests库的一般用法

#导入request库
import requests

#得到目标网页的response
r = requests.get('目标网页的url')

#确认是否成功获取response,若返回“200”则说明正常获取
r.status_code

#显示抓取的文本内容
r.txt
  • 解释一些关于网页的response的问题:这是建立在TCP协议的著名“三次握手”上面的。

    • 一般上网都是你的客户端向服务器发送一些数据包,这可以理解为第一次握手;

    • 服务器接收到你的数据包之后,就给你一个response(其实也是一些数据包),服务器在说“嗨呀~我收到你的hi啦~”,这也就是第二次握手;

    • 你的客户端收到服务器的“hi”之后,再发一次数据包,说“行行行,我听的见~”,这是第三次握手。

    • 所有的联网都是建立在这看似简单的三次握手上的。上文说的网页的response其实就是第二次握手

  • requests库一般是用于中小型数据的。大型数据用scrapy库


👍反爬虫网页的爬取

有一些网页有翻爬虫设置,下面是常见的一种——需要用户代理信息才能进行爬取操作的。

实际操作如下:

  1. 在目标网址后输入/robots.txt查询爬虫协议,查看所需信息是否禁止爬取。

  2. 在浏览器网址栏输入about:version,可以看到有user agent的信息,这个就是你客户端的用户信息,划重点,这个要考!

  3. 你的爬虫程序要伪装成一个客户端,“骗”过目标网页,它才会跟你“说话”,不然就给你拒之门外(status_code不等于200)。

  4. 设置header,伪装成客户端。

    header = {'User_Agent':'刚刚划重点的内容'}
    

    这里header其实是一个字典,它将会作为参数输入,给你的python程序加上伪装面具。可以理解header是一个伪装面具。

  5. 戴上伪装面具:用requests.get('目标网页的url',header = header)方法,这里的header就是第4点的header

    这样就可以顺利跟目标网页进行“握手”啦!

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-08-19 19:00:11  更:2022-08-19 19:01:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 9:57:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码