IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> 爬虫日记-采集 快代理 免费 代理ip 并 清洗 ip 附源码gitee,可运行 -> 正文阅读

[网络协议]爬虫日记-采集 快代理 免费 代理ip 并 清洗 ip 附源码gitee,可运行


title: 爬虫日记-采集 快代理 免费 代理ip 并 清洗 ip
tags: [‘requests’,‘python’,‘lxml’,‘代理ip’,‘proxy’]
date: 2021-12-08
categories: “磨刀不误砍柴工”


环境
window10
python3
使用到的库
requests	网络请求
lxml		网页源码解析

源码地址

摘要

写爬虫被封ip是很正常的,所以代理ip也是爬虫生活必不可少的一部分,今天写一个网络上公开的免费的代理ip。

首先理一下逻辑,我要先写一个爬虫,去把网站上的公开的代理ip给采集过来,然后保险起见,对数据进行一定的清洗,获得可以使用的ip。

ok,开始写爬虫。

1 采集代理ip

1.1 观察目标网页

快代理免费ip展示的数据如下:

请添加图片描述

而我们程序进行网络访问所需要的部分为ipport类型,举个例子:

url = "https://www.baidu.com"
proxies = {'http': "http://111.231.86.149:7890"}
requests.get(href, proxies=proxies)

所以我们要采集的就是每个代理ip的ipport类型

1.2 采集

爬虫很简单,直接上代码。

# 目标网址
url = "https://www.kuaidaili.com/free/"
payload = {}
# 构造请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
    'Accept': 'application/json, text/javascript, */*; q=0.01',
}
# 获取网页源码
response = requests.request("GET", url, headers=headers, data=payload)
# 存放结果的列表
res = []
_ = etree.HTML(response.text)
# 格式化代理的中间变量
type_dct = {
    "HTTP": "http://",
    "HTTPS": "https://"
}
data_list = _.xpath("//tbody/tr")
for data in data_list:
    # 获取ip
    ip = data.xpath("./td[1]/text()")[0]
    port = data.xpath("./td[2]/text()")[0]
    type = data.xpath("./td[4]/text()")[0]
    # 存到结果中
    res.append(type_dct[type] + ip + ':' + port)
print(res)

2 清洗代理

2.1 目的及原理

毕竟是网络上公开的数据,要是百分百好用的话,那为什么还要有付费的代理呢。

直接获取到的代理一般会有一定的时效,真假的缺陷,直接放进项目中去用的话,效率可能堪忧,所以在使用之前,最好对获取到的代理进行一定的清洗,获取暂时有效的代理。

清洗的方法也很简单,就是检测这个代理是否有效。

我们可以构造一个请求,用这个代理去进行访问,如果能访问的到,拿得到数据,那这个代理暂时是有效的,可以放到项目中去使用,如果直接404或者其他的一些问题出现,那这个代理可能已经坏了,或者质量不行,就直接放弃。

2.2 清洗ip的代码

href = 'https://www.baidu.com'
if 'https' in proxy:
    proxies = {'https': proxy}
    else:
        proxies = {'http': proxy}
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'
        }
        try:
            r = requests.get(href, proxies=proxies, timeout=5, headers=headers)
            if r.status_code == 200:
                print "代理有效"
            except:
                print "代理失效"

3 完善代码

import requests
from lxml import etree


# 获取快代理首页的代理
def get_proxy_list():
    url = "https://www.kuaidaili.com/free/"
    payload = {}
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
        'Accept': 'application/json, text/javascript, */*; q=0.01',
    }
    response = requests.request("GET", url, headers=headers, data=payload)
    res = []
    _ = etree.HTML(response.text)
    type_dct = {
        "HTTP": "http://",
        "HTTPS": "https://"
    }
    data_list = _.xpath("//tbody/tr")
    for data in data_list:
        ip = data.xpath("./td[1]/text()")[0]
        port = data.xpath("./td[2]/text()")[0]
        type = data.xpath("./td[4]/text()")[0]
        res.append(type_dct[type] + ip + ':' + port)
    return res


# 测试代理
def check(proxy):
    href = 'https://www.baidu.com'
    if 'https' in proxy:
        proxies = {'https': proxy}
    else:
        proxies = {'http': proxy}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'
    }
    try:
        r = requests.get(href, proxies=proxies, timeout=5, headers=headers)
        if r.status_code == 200:
            return True
    except:
        return False


if __name__ == '__main__':
    proxy_list = get_proxy_list()
    print(proxy_list)
    for p in proxy_list:
        print(p, check(p))

写在最后

代码并不完善,直接应用到像样的项目上还是不行的,也没有做一些奇怪操作、情况的处理,只是提供一个思路和一个demo。

实力有限,才疏学浅,如有错误,欢迎指正。

  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2021-12-09 12:01:41  更:2021-12-09 12:02:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年10日历 -2024/10/5 6:58:47-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码