IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 当陪玩真能月入过万?Python获取陪玩数据 -> 正文阅读

[Python知识库]当陪玩真能月入过万?Python获取陪玩数据

前言

一 、数据来源分析:

  • 确定需求, 采集那个网站上面什么数据
  • 抓包分析, 通过开发者工具进行抓包分析

二、代码实现步骤过程:

  • 发送请求, 对于刚刚分析得到url地址发送请求
  • 获取数据, 获取服务器返回响应数据
  • 解析数据, 提取我们想要数据内容, 音频试音, 陪玩照片, 基本陪玩数据
  • 保存数据, 保存本地文件夹

开发环境

  • python 3.8
  • pycharm

模块使用

  • import os: 文件操作
  • import re: 正则
  • import requests: 数据请求
  • import json: json数据转换
  • import csv: 保存csv数据

代码实现

请求数据

对于分析得到url地址发送请求
headers是否添加, 看网站, 网站没什么反爬的话, 可以不用加

url = 'https://www.peiwantv.com/api'
# 请求参数
data = {
    'act': 'userList',
    'page': page,
    'type': '1',
    'sex': '2',
    'voice': '1',
    'order': '1',
}
# 发送请求
response = requests.post(url=url, data=data)

解析数据

提取我们想要数据内容, 音频试音, 陪玩照片, 基本陪玩数据
键值对取值:返回数据字典数据类型, 字典取值 根据冒号左边的内容[键], 提取冒号右边的内容[值]

for index in response.json()['data']['rows']:
    # 基本数据获取 --> 保存表格里面
    dit = {
        '昵称': index['nickname'],
        '价格': index['price'],
        '热度': index['exp'],
        # replace() 字符串替换的方法 replace('替换之前的内容', '替换之后的内容')
        '简介': index['summary'].replace('\n', ''),
        # f'{}' 字符串格式化方法 format
        '详情页': f'https://www.peiwantv.com/user/{index["uid"]}',
    }
    audio_url = 'https://static.peiwan.tv/' + json.loads(index['voice'])['url']
    img_url = f'https://www.peiwantv.com/user/avatar/{index["uid"]}?image…ew2/1/interlace/1/ignore-error/1/w/100/format/jpg'

保存数据

陪玩详情数据

import os.path
c = open('data.csv', mode='a', encoding='utf-8-sig', newline='')
# c 文件对象 fieldnames 字段名
csv_writer = csv.DictWriter(c, fieldnames=[
    '昵称',
    '价格',
    '热度',
    '简介',
    '详情页',
])
# 写入表头
csv_writer.writeheader()
# 保存表格数据
csv_writer.writerow(dit)
print(dit)

保存试音音频、图片数据

img_content = requests.get(url=img_url).content  # 图片二进制数据
audio_content = requests.get(url=audio_url).content  # 音频二进制数据
title = index["nickname"]
# 自动创建文件夹 data\\憨憨\\
file = f'data\\{title}\\'
# 判断如果没有文件夹
if not os.path.exists(file):
    # 自动创建文件夹
    os.makedirs(file)
with open(file + title + '.jpg', mode='wb') as img:
    img.write(img_content)
with open(file + title + '.mp3', mode='wb') as audio:
    audio.write(audio_content)

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇
  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-10-22 21:11:19  更:2022-10-22 21:13:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 6:42:29-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码