[开发工具] python爬虫笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 开发工具 -> python爬虫笔记 -> 正文阅读

[开发工具]python爬虫笔记

1.将百度网页存为html文件

from urllib.request import urlopen

url = "http://www.baidu.com"



resp = urlopen(url)

with open("mybaidu.html", mode = "w", encoding = "utf-8") as f:

?	f.write(resp.read().decode("utf-8")

2.批量抓取网站图片

import requests
import re
import time
headers = {
    'User-Agent': 'asd', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'
}
target = 'https://www.baidu.com'

resp = requests.get(target, headers = headers)
html = resp.text
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">', html)
print(urls)
i = 0
for url in urls :
    i = i+1
    time.sleep(1)
    url = 'http:' + url
    print(url)
    resp = requests.get(url, headers = headers)
    file_name = str(i) + '.jpg'
    with open(file_name, 'wb') as f:
        f.write(resp.conten

开发工具最新文章

Postman接口测试之Mock快速入门

ASCII码空格替换查表_最全ASCII码对照表0-2

如何使用 ssh 建立 socks 代理

Typora配合PicGo阿里云图床配置

SoapUI、Jmeter、Postman三种接口测试工具的

github用相对路径显示图片_GitHub 中 readm

Windows编译g2o及其g2o viewer

解决jupyter notebook无法连接/ jupyter连接

Git恢复到之前版本

VScode常用快捷键

加:2022-01-08 14:14:09 更:2022-01-08 14:14:14

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 9:40:09-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码