爬虫练习—urllib库的使用
你好! 欢迎阅读 计算机练习生 的博客文章。 如果你想学习相关内容, 可以关注博主 计算机练习生,与博主交流讨论问题。 urllib库基本使用
import urllib.request
url = 'http://www.baidu.com'
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
print(content)
content1 = response.read()
content2 = response.read(5)
content3 = response.readline()
content4 = response.readlines()
content5 = response.getheaders()
code = response.getcode()
urll = response.geturl()
以上内容为基本使用,读者可自行运行,查看结果。有问题可进行留言交流。
urllib库下载百度图片和视频
- 找到视频或图片的链接地址
图片链接地址为右键点击,直接复制地址到程序中 视频链接地址如下图所示寻找(步骤均为左键点击): 找到src,即为视频的链接地址。将其复制到程序中即可。 - 使用urlretrieve进行下载
urlretrieve为下载的函数,使用方法为:urlretrieve(视频/图片的链接地址, ‘保存路径’)
from urllib.request import urlopen, urlretrieve
url = 'http://www.baidu.com'
url_img = 'https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fimg.jj20.com%2Fup%2Fallimg%2F4k%2Fs%2F02%2F2109242129504953-0-lp.jpg&refer=http%3A%2F%2Fimg.jj20.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1646899077&t=6585c66ba1ae162ac19a4665f8120aea'
urlretrieve(url_img, 'F://python-入门/爬虫练习/girl.jpg')
url_video = 'https://vd4.bdstatic.com/mda-kkefq6gkpfrcniwa/sc/cae_h264_nowatermark/1605409952/mda-kkefq6gkpfrcniwa.mp4?v_from_s=hkapp-haokan-nanjing&auth_key=1644309721-0-0-3296c254900172089ec79be4faf7c27e&bcevod_channel=searchbox_feed&pd=1&pt=3&logid=0721124788&vid=5479348676568395032&abtest=100534_1&klogid=0721124788'
urlretrieve(url_video, 'F://python-入门/爬虫练习/美女.mp4')
请求头的定制——UA的反爬
- 右键鼠标,点击检查,刷新网页
点击Network,按图示找到网址点击,下滑至UA,复制到程序中。
from urllib.request import urlopen, Request
url = 'http://www.baidu.com/'
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
request = Request(url=url, headers=header)
response = urlopen(request)
content = response.read().decode('utf-8')
print(content)
以上为爬虫入门的实战操作,有任何问题可以联系作者进行交流。 关注作者可以学习和了解到更多程序实战操作。
|