概述
- 我们的一些爬虫需要向后台请求数据后才能得到所需要的数据,在不使用Selenium的情况下,需要向网页传递后台参数,以便得到正确的反馈。
- 具体来讲,我们需要注意使用POST方法进行请求的链接,他们往往携带者Form表单内容,而表单中则携带着数据。这些数据可能是加密的,也可能很简单。
Youdao翻译爬虫实例
- 打开Youdao翻译网站,F12检查,清空network栏目,在翻译栏左侧输入英文单词“hi”,可以观察到网页向后台请求了如下图中的数据。
- 检查各项请求,如下图可发现第一项请求的Preview中含有Json格式数据,且其为翻译结果。
- 在此请求的Headers栏中可发现其请求方式为POST,单独请求Request URL仅会显示{“errorCode”:50},此即缺少数据。在Payload栏中可找到其Form Data请求附带表单数据,如下图。
- 在使用requests请求网站时,将此表单内容捎带上,即可获取翻页结果的JSON文件。
代码
import requests
appVersion = "5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36"
def youdao():
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
headers = {
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'no-cache',
'Connection': 'keep-alive',
'Content-Length': '242',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Cookie': 'OUTFOX_SEARCH_USER_ID=-1270532315@112.28.191.238; _ntes_nnid=dd32e418bcc6e0bb2ae87c7ef2a74e43,1582685944025; OUTFOX_SEARCH_USER_ID_NCOO=1448366101.8020096; UM_distinctid=17245fd071a226-0081a02b10c39f-46531b29-1fa400-17245fd071b4d; JSESSIONID=aaaYkkUvQE5KD6ybVGVox; ___rl__test__cookies=1596377462367',
'Host': 'fanyi.youdao.com',
'Origin': 'http://fanyi.youdao.com',
'Pragma': 'no-cache',
'Referer': 'http://fanyi.youdao.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest'
}
FormData = {
'i': 'hi',
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '16475935793238',
'sign': 'b89a9e1bbe2e5caca0ea99d73d4a382b',
'Its': '1647593579323',
'bv': '866ddc825824adb95a25e4ff4107f5a0',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_CLICKBUTTION'
}
response = requests.post(url, data=FormData, headers=headers)
return response.json()
result = youdao()
print(result)
|