1、人性化的Requests
Python 中 Requests 实现HTTP请求的方式,是Python爬虫开发中最为常用的方式。Requests实现HTTP请求非常简单,操作比较人性化。
pip install requests
2、强大的BeautifulSoup
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过转换器实现文档导航、查找、修改文档。
pip install beautifulsoup4
使用:
from bs4 import BeautifulSoup
BeautifulSoup支持Python标准库中的HTML解析器,还支持lxml等第三方的解析器。lxml解析速度比标准库中的HTML解析器的速度要快的多。
pip install lxml
3、Python报“TypeError: a bytes-like object is required, not ‘str’ ”解决办法
解决办法非常的简单,只需要用上python的bytes和str两种类型转换的函数encode()、decode()即可!
str通过encode()方法可以编码为指定的bytes;
反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法;
self.file.write(line.encode())
|