IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> 爬虫之需要爬取登录之后的界面(cookie) -> 正文阅读

[开发工具]爬虫之需要爬取登录之后的界面(cookie)

1.在登录界面打开检查,从检查network里捕捉login登录信息login_url

登录信息即是from_data

2.将登录信息作为python字典data里元素

3.调用session = requests.session()

4.session.post(login_url,data)

post 或 get根据检查里信息看

获取cookie信息

5.在登录以后的界面找到要爬取的信息

刷新 页面,在检查里看network的preview找到文字内容后,在preview旁边的headers找到url

用resp = session.get(url)爬取信息,可以将爬取的信息存到字符串中

6.用xpath,re,bs4继续爬取信息

import requests
import re

login_url = "xxxxxxxxxxxx"

data = {
:,
:
}

session = requests.session()

session.post(login_url,data)

url = 'xxxxxxxxxxxxxxxxxxx'
resp = session.get(url)

#print(resp.text)

com1 = re.compile('"authorPenName":"(?P<a_name>.*?)",',re.S)

com2 = re.compile('"bookName":"(?P<b_name>.*?)",',re.S)
a_list = []
b_list = []
au_list = com1.finditer(resp.text)
bo_list = com2.finditer(resp.text)

for a in au_list:
    a_list.append(a.group("a_name"))
for b in bo_list:
    b_list.append(b.group("b_name"))
i = 0
for i in range(len(a_list)):
    print(a_list[i],"  ",b_list[i])
  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-10-03 17:15:42  更:2021-10-03 17:16:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 1:44:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码