IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 2021-08-30-CR-006 Python爬虫 使用requests和BeautifulSoup爬取网站上的代理服务器列表,每天一个爬虫小技巧 -> 正文阅读

[Python知识库]2021-08-30-CR-006 Python爬虫 使用requests和BeautifulSoup爬取网站上的代理服务器列表,每天一个爬虫小技巧

这里爬取西拉代理的高匿服务器列表
先分析页面的格式

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

这里可以看出来页面的第几页就是链接后面加数字和斜杠
然后测试下第一页也是可以的,2000页就是一个循环即可调整url
需要的数据在网页源代码的table里面,用BeautifulSoup即可选择 出来

代码:

import codecs
import re

import requests
from bs4 import BeautifulSoup as bfs

import   csv
#T1
f = codecs.open('daili.csv','a','gbk')
w = csv.writer(f)
w.writerow(["IP",'协议'])


#T2
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

for ii in range(1,2001):




    r = requests.get("http://www.xiladaili.com/gaoni/"+str(ii)+'/')
    # print(r.text)
    # print(r.text)
    soup=bfs(r.text,'html.parser')
    trs=soup.select('tbody > tr')
    # print(trs)
#T3
    for tr in trs:
        tds=  tr.find_all('td')
        ip=tds[0].get_text()
        type=tds[1].get_text()
        #http
        http = ''.join(re.findall(r'[A-Za-z]', type))
        print(http)
        if http=='HTTPHTTPS':
            http='HTTP'

#T4
        proxies = {http: f'{http}://' + ip}

        try:
            r = requests.get('https://www.ip.cn/', headers=headers,
                             proxies=proxies, timeout=3)
            html = r.text
        except:
            print('fail-%s' % ip)
        else:
            print('success-%s' % ip)
            soup = bfs(html, 'lxml')
            div = soup.find(class_='well')
            if div:
                print(div.text)
            w.writerow([ip, http])
            print(ip + '写入成功')




解析:

T1部分是设置保存到的文件
T2开始爬取,设置用户代理,爬取每一个页面里面的tbody下面的tr列表,这是根据页面的格式选择的
在这里插入图片描述

T3开始逐个解析这个tr,这里相当于解析每页上面的这个表格
取出前两个单元格的值
第二的格子表示的是代理的类型,提取其中的英文,或者直接根据网页上的几个字进行判断来区分类型
T4测试这个代理,如果成功就把这个代理写入到文件里
步骤就是这样了

这个测试有时候一个ip会有问题,第一次不通过,第二次又能通过,所以 并不能保证所有的可用ip都被保存了下来
这里可以先不写进文件里,保存到 列表里,然后通过循环多运行几遍,每次 判断是否存在或者 直接最后转换为集合,再写入到文件里面 。
如果追求的是高质量ip,那么可以对取得的ip再重新测试几遍 ,去掉出过错的ip,这样留下来的就 都是好用的ip了。

ip的通畅与否和当前时点的状态有关,所以 不保证以后用起来是一样的。

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-09-01 11:52:42  更:2021-09-01 11:52:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/26 23:16:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计