[Python知识库] python-第一个爬虫程序实战

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python-第一个爬虫程序实战 -> 正文阅读

[Python知识库]python-第一个爬虫程序实战

自学内容，仅供参考！

'''
第一步，获取页面
第二步，提取需要的数据
第三步，存储数据
'''
import requests  # 引入包
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup
link = "http://www.santostang.com/"  # 定义link为目标网页地址
# 定义请求头的浏览器代理，伪装成浏览器
headers = {'User-Agent': 'Mozilla/5.0(Window;U;Windows NT '
                         '6.1; en-US;rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers=headers)  # 请求网页
soup=BeautifulSoup(r.text,"html.parser") #使用BeautifulSoup解析
'''
找到第一篇文章标题，定位到class是“post-title"的h1元素，提取a，提取a里面的字符串，strip()去除左右空格
'''
title=soup.find("h1",class_="post-title").a.text.strip()
print(title)  # r.text是获取的网页内容HTML代码
'''
存储数据,打开一个空白的txt,然后使用f.write写入刚刚的字符串title
'''
with open('title_text.txt',"a+") as f:
    f.write(title)

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-12-06 15:12:29 更:2021-12-06 15:13:59

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/15 10:51:23-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码