IPProxy_Pool
🚀 Building Ip Proxy Pool
相关知识点
- multiprocessing 【爬取数据】
- threading【校验数据有效性】
- lxml【解析 html】
Project Structure
├── LICENSE
├── Makefile
├── README.md
├── app.py
├── config.py
├── data
├── db_helper
│ ├── __init__.py
│ └── mongo_db.py
├── dev.dockerfile.yml
├── dockerfile
├── requirements.txt
├── spider
│ ├── __init__.py
│ ├── crawl.py
│ ├── html_downloader.py
│ └── html_parse.py
├── utils
│ ├── __init__.py
│ ├── request.py
│ └── validator.py
└── web
├── __init__.py
├── app.py
├── conf.py
├── tem_filters
│ └── timer.py
├── templates
│ └── index.html
└── util.py
How to start
该项目提供两种启动方式
-
docker 容器启动
- 在项目根目录下执行:make start-dev
-
本机启动
- pip install -r ./requirement.txt
- cd web && python app.py【启动 web 服务同时开启爬虫定时任务】
- 如果仅想启动爬虫可以在项目根目录使用:python app.py
Feature
- 提供 web proxy html
- http://159.75.80.164:50000/home
- 提供开放 API 开放调用,获取有效代理服务列表
- http://159.75.80.164:50000/api/proxys
- 项目会在每天晚上 12:00 更新代理
爬取数据源
demo
- web proxy html
- Open API
Tips:
欢迎大家提供更多数据源地址
项目地址
|