IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 网络协议 -> Python爬虫中级(2):Youdao翻译(一)上传表单 -> 正文阅读

[网络协议]Python爬虫中级(2):Youdao翻译(一)上传表单

概述

  • 我们的一些爬虫需要向后台请求数据后才能得到所需要的数据,在不使用Selenium的情况下,需要向网页传递后台参数,以便得到正确的反馈。
  • 具体来讲,我们需要注意使用POST方法进行请求的链接,他们往往携带者Form表单内容,而表单中则携带着数据。这些数据可能是加密的,也可能很简单。

Youdao翻译爬虫实例

  • 打开Youdao翻译网站,F12检查,清空network栏目,在翻译栏左侧输入英文单词“hi”,可以观察到网页向后台请求了如下图中的数据。
    五项请求
  • 检查各项请求,如下图可发现第一项请求的Preview中含有Json格式数据,且其为翻译结果。
    翻译结果
  • 在此请求的Headers栏中可发现其请求方式为POST,单独请求Request URL仅会显示{“errorCode”:50},此即缺少数据。在Payload栏中可找到其Form Data请求附带表单数据,如下图。
    Form Data
  • 在使用requests请求网站时,将此表单内容捎带上,即可获取翻页结果的JSON文件。

代码

import requests

appVersion = "5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36"

def youdao():
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    headers = {
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'no-cache',
        'Connection': 'keep-alive',
        'Content-Length': '242',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'Cookie': 'OUTFOX_SEARCH_USER_ID=-1270532315@112.28.191.238; _ntes_nnid=dd32e418bcc6e0bb2ae87c7ef2a74e43,1582685944025; OUTFOX_SEARCH_USER_ID_NCOO=1448366101.8020096; UM_distinctid=17245fd071a226-0081a02b10c39f-46531b29-1fa400-17245fd071b4d; JSESSIONID=aaaYkkUvQE5KD6ybVGVox; ___rl__test__cookies=1596377462367',
        'Host': 'fanyi.youdao.com',
        'Origin': 'http://fanyi.youdao.com',
        'Pragma': 'no-cache',
        'Referer': 'http://fanyi.youdao.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest'
    }
    FormData = {
        'i': 'hi',
        'from': 'AUTO',
        'to': 'AUTO',
        'smartresult': 'dict',
        'client': 'fanyideskweb',
        'salt': '16475935793238',
        'sign': 'b89a9e1bbe2e5caca0ea99d73d4a382b',
        'Its': '1647593579323',
        'bv': '866ddc825824adb95a25e4ff4107f5a0',
        'doctype': 'json',
        'version': '2.1',
        'keyfrom': 'fanyi.web',
        'action': 'FY_BY_CLICKBUTTION'
    }
    response = requests.post(url, data=FormData, headers=headers)
    return response.json()

result = youdao()
print(result)
  • 学如逆水行舟,不进则退!
  • (? ??-??)?
  网络协议 最新文章
使用Easyswoole 搭建简单的Websoket服务
常见的数据通信方式有哪些?
Openssl 1024bit RSA算法---公私钥获取和处
HTTPS协议的密钥交换流程
《小白WEB安全入门》03. 漏洞篇
HttpRunner4.x 安装与使用
2021-07-04
手写RPC学习笔记
K8S高可用版本部署
mySQL计算IP地址范围
上一篇文章      下一篇文章      查看所有文章
加:2022-03-21 21:30:49  更:2022-03-21 21:33:12 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:39:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码