简述一下今天 大概干了啥,主要再看爬虫 没看js明天学习一下js,然后有一些问题力扣今天是bfs,dfs搜索题还没写今天要补一下,说一下爬虫把 就豆瓣的,这个案例我原先一直再错后面看评论 ,对参数的理解和get 请求更深一步把 ,感觉还行一步步分析下去就好了
# 经典案例 爬取 豆瓣电影数据
import requests
import json
url ='https://movie.douban.com/j/chart/top_list'
param = {
'type_name':'喜剧',
'type':'24',
'interval_id':'100:90',
'action':'',
'start':'0',
'limit':'20',
}
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) ucko/20100101 Firefox/94.0'}
response = requests.get(url=url,params=param,headers=headers)
list_data = response.json()
fp = open('douban.json','w',encoding='utf-8')
json.dump(list_data,fp = fp,ensure_ascii=False)
print('over')
# 简单说一下这个案例 自己调试 懂了一些参数 和网址 ,总体来说还是算简单 前面几次都错了 ,然后空列表注意了一些小细节 还算可以
然后就是看完的视频作业了,试了一下前面代码错了 得到-1000,后看评论懂了一些得到了数据,但只是第一页的数据 留坑,以后要补充爬取全部数据,然后提出我的问题,为什么post请求后面的参数全部要写 ? 2? 如何获取爬取信息的全部页数 如网址搜索后 出来的页数,
import requests
# 作业 kfc 餐厅位置查询
# 第一步分析 请求头 POST请求消息 看数据内容 ,传回来的是 text 文本 ajax请求 不刷新网址
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0'
}
kw = input()
params = {
'keyword':kw,
'cname':'',
'pid':'',
'pageIndex':'1',
'pageSize':'10',
}
response = requests.post(url=url ,data=params,headers=headers)
page_text = response.text
with open(kw+'.text','w+',encoding='utf-8') as fp:
fp.write(page_text)
print('over')
# 第一次结果 -1000
# 补充全部参数
# 总结 现在如果要我获取10页的所有信息 我只会循环 ,但应该是js里的索引页数,js还是不会, 留坑
?此代码只能获取第一页, 然后后面的要补充 我问题处红🖊圈一下希望有大佬解答 ,要四级了 要写试卷了
为什么要? 后面的东西 ,还有如何获得页数
?
大概就这些 看看能写出今天的力扣吗?
|