IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Python 爬取任意指定城市的天气预报,总共1万字??解决重要的“任意指定城市”的问题哦 -> 正文阅读

[Python知识库]Python 爬取任意指定城市的天气预报,总共1万字??解决重要的“任意指定城市”的问题哦

上一篇做了一个新闻类爬虫,积累了一些小经验。学到一点:在写文章时最好不要把网站名称和爬取到的新闻文本一起发来,可能会被CSDN下架的。这次准备好爬取天气预报网站,内容应该不像新闻类的可能涉及政治,但网站名称嘛还是不要写得太明白,反正“天气”么英文就是 weather 总之本文中出现的网址url字符串都用****打上马赛克了,自行补齐吧。

爬虫原理简介

爬虫流程:

爬取、解析、美化输出或者存储到文件

常用的库:

请求库:requests,urllib.request,selenium ...
解析库:re,lxml.tree,bs4.BeautifulSoup ...

网页获取方法:

使用requests.get()比较方便,相关参数有:网址、参数字典、请求头、验证、代理、校验等

>>> from requests import get
>>> help(get)
Help on function get in module requests.api:

get(url, params=None, **kwargs)
    Sends a GET request.
    
    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary, list of tuples or bytes to send
        in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response

>>> 

常见的爬虫类:

class Spider(): 

    def __init__(self):
        self.url = 'http://www.****.com.cn'
        self.headers = {'User-Agent':'Mozilla/5.0 ***********'}
        self.auth = ('id','passward')
        self.proxies = { 'http':'http://IP:端口号', 'https':'https://IP:端口号' }

    def getHtml(self):
        html = requests.get(url=self.url,
                    proxies=self.proxies,
                    auth=self.auth,
                    headers=self.headers
                    )
        return html.text

    def parseHtml(self):
        text = self.getHtml()
        #根据需要,用各种方法来解析网页的标签获取想要的内容#
        ......
        

天气网站不用登录就能获取内容,只需网站加上请求头即可。请求头都是非必需的,其作用是模拟浏览器,告诉网站发来的请求是正常合法的。

请求头的获取:

网上有很多方法,最简单的就在浏览器地址栏里键入“about:version”后回车。用户代理那一行就是所要的字符串,复制后写成字典格式:headers = {'User-Agent':“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36”}

解析过程:

解析网页有多种方法,目前我自己也不是很拿手就先不说了。我挑选用BeautifulSoup查找自己想要的网页标签,上一篇的爬虫中已有些摸索了,请见:

Python “今日新闻”一个小程序,拿走就能用!_汉阳Hann's Home-CSDN博客今天做了一个爬虫程序:“今日新闻”,拿走就能用!https://blog.csdn.net/boysoft2002/article/details/120549021?spm=1001.2014.3001.5501这次我要实战一个天气预报类的爬虫——
?

爬取城市七日天气预报

先来爬取我们大苏州的,来瞅瞅大昆山的天气预报吧

from bs4 import BeautifulSoup as bs
from requests import get

Agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'

def weather(url):
    res = []
    try:
        data = get(url,headers = {'User-Agent':Agent})
        data.encoding='uft-8'
        soup = bs(data.text,'html.parser')
        city = soup.find('div',class_='crumbs fl').get_text().strip()
        List = soup.select("ul[class='t clearfix'] li")
        for li in List:
            try:
                data = li.select('h1')[0].text
                text = li.select("p[class='wea']")[0].text
                temp = li.findAll('span')[0].text + '/' + li.findAll('i')[0].text
                res.append((city.split()[-1],data,text,temp))
            except Exception as err: print(err)
    except Exception as err: print(err)
    return res


url = 'http://www.*******.com.cn/weather/'
ext = '.shtml'

city = {'苏州':'101190401','昆山':'101190404','太仓':'101190408','常熟':'101190402','张家港':'101190403'}

#方法一:遍历已知的城市代码
suzhou = 101190401
for i in range(suzhou,suzhou+12):
    print(i,'\n',weather(url+str(i)+ext),'\n')

print('='*80)

#方法二:遍历事先做好的城市代码字典
for i in city:
    print(i,'\n',weather(url+city[i]+ext),'\n')

返回的爬取结果:?

101190401?
?[('城区', '1日(今天)', '多云', '/22℃'), ('城区', '2日(明天)', '多云转晴', '33℃/22℃'), ('城区', '3日(后天)', '晴', '33℃/23℃'), ('城区', '4日(周一)', '晴', '34℃/25℃'), ('城区', '5日(周二)', '晴转多云', '34℃/24℃'), ('城区', '6日(周三)', '多云', '30℃/23℃'), ('城区', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190402?
?[('常熟', '1日(今天)', '多云', '/21℃'), ('常熟', '2日(明天)', '多云转晴', '32℃/23℃'), ('常熟', '3日(后天)', '晴', '33℃/24℃'), ('常熟', '4日(周一)', '晴', '33℃/23℃'), ('常熟', '5日(周二)', '晴转多云', '34℃/24℃'), ('常熟', '6日(周三)', '多云', '31℃/23℃'), ('常熟', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190403?
?[('张家港', '1日(今天)', '多云', '/20℃'), ('张家港', '2日(明天)', '多云转晴', '31℃/22℃'), ('张家港', '3日(后天)', '晴', '32℃/23℃'), ('张家港', '4日(周一)', '晴', '33℃/23℃'), ('张家港', '5日(周二)', '晴转多云', '34℃/24℃'), ('张家港', '6日(周三)', '多云', '29℃/23℃'), ('张家港', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190404?
?[('昆山', '1日(今天)', '多云', '/21℃'), ('昆山', '2日(明天)', '多云转晴', '32℃/23℃'), ('昆山', '3日(后天)', '晴', '33℃/24℃'), ('昆山', '4日(周一)', '晴', '33℃/24℃'), ('昆山', '5日(周二)', '晴转多云', '34℃/24℃'), ('昆山', '6日(周三)', '多云', '30℃/23℃'), ('昆山', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190405?
?[('吴中', '1日(今天)', '多云', '/22℃'), ('吴中', '2日(明天)', '多云转晴', '33℃/22℃'), ('吴中', '3日(后天)', '晴', '33℃/23℃'), ('吴中', '4日(周一)', '晴', '34℃/25℃'), ('吴中', '5日(周二)', '晴转多云', '34℃/24℃'), ('吴中', '6日(周三)', '多云', '30℃/23℃'), ('吴中', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190406?
?[('虎丘', '1日(今天)', '多云', '/22℃'), ('虎丘', '2日(明天)', '多云转晴', '33℃/22℃'), ('虎丘', '3日(后天)', '晴', '33℃/23℃'), ('虎丘', '4日(周一)', '晴', '34℃/25℃'), ('虎丘', '5日(周二)', '晴转多云', '34℃/24℃'), ('虎丘', '6日(周三)', '多云', '30℃/23℃'), ('虎丘', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190407?
?[('吴江', '1日(今天)', '多云', '/21℃'), ('吴江', '2日(明天)', '多云转晴', '32℃/22℃'), ('吴江', '3日(后天)', '晴', '33℃/23℃'), ('吴江', '4日(周一)', '晴', '33℃/22℃'), ('吴江', '5日(周二)', '晴转多云', '34℃/23℃'), ('吴江', '6日(周三)', '多云', '31℃/23℃'), ('吴江', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190408?
?[('太仓', '1日(今天)', '多云', '/20℃'), ('太仓', '2日(明天)', '多云转晴', '31℃/23℃'), ('太仓', '3日(后天)', '晴', '32℃/24℃'), ('太仓', '4日(周一)', '晴', '33℃/22℃'), ('太仓', '5日(周二)', '晴转多云', '34℃/24℃'), ('太仓', '6日(周三)', '多云', '30℃/22℃'), ('太仓', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190409?
?[('相城', '1日(今天)', '多云', '/22℃'), ('相城', '2日(明天)', '多云转晴', '33℃/22℃'), ('相城', '3日(后天)', '晴', '33℃/23℃'), ('相城', '4日(周一)', '晴', '34℃/25℃'), ('相城', '5日(周二)', '晴转多云', '34℃/24℃'), ('相城', '6日(周三)', '多云', '30℃/23℃'), ('相城', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

101190410?
?[('姑苏', '1日(今天)', '多云', '/22℃'), ('姑苏', '2日(明天)', '多云转晴', '33℃/22℃'), ('姑苏', '3日(后天)', '晴', '33℃/23℃'), ('姑苏', '4日(周一)', '晴', '34℃/25℃'), ('姑苏', '5日(周二)', '晴转多云', '34℃/24℃'), ('姑苏', '6日(周三)', '多云', '30℃/23℃'), ('姑苏', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

'NoneType' object has no attribute 'get_text'
101190411? ?###不存在的城市代码当然会报错###
?[]?

'NoneType' object has no attribute 'get_text'
101190412?
?[]?

================================================================================
苏州?
?[('城区', '1日(今天)', '多云', '/22℃'), ('城区', '2日(明天)', '多云转晴', '33℃/22℃'), ('城区', '3日(后天)', '晴', '33℃/23℃'), ('城区', '4日(周一)', '晴', '34℃/25℃'), ('城区', '5日(周二)', '晴转多云', '34℃/24℃'), ('城区', '6日(周三)', '多云', '30℃/23℃'), ('城区', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

昆山?
?[('昆山', '1日(今天)', '多云', '/21℃'), ('昆山', '2日(明天)', '多云转晴', '32℃/23℃'), ('昆山', '3日(后天)', '晴', '33℃/24℃'), ('昆山', '4日(周一)', '晴', '33℃/24℃'), ('昆山', '5日(周二)', '晴转多云', '34℃/24℃'), ('昆山', '6日(周三)', '多云', '30℃/23℃'), ('昆山', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

太仓?
?[('太仓', '1日(今天)', '多云', '/20℃'), ('太仓', '2日(明天)', '多云转晴', '31℃/23℃'), ('太仓', '3日(后天)', '晴', '32℃/24℃'), ('太仓', '4日(周一)', '晴', '33℃/22℃'), ('太仓', '5日(周二)', '晴转多云', '34℃/24℃'), ('太仓', '6日(周三)', '多云', '30℃/22℃'), ('太仓', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

常熟?
?[('常熟', '1日(今天)', '多云', '/21℃'), ('常熟', '2日(明天)', '多云转晴', '32℃/23℃'), ('常熟', '3日(后天)', '晴', '33℃/24℃'), ('常熟', '4日(周一)', '晴', '33℃/23℃'), ('常熟', '5日(周二)', '晴转多云', '34℃/24℃'), ('常熟', '6日(周三)', '多云', '31℃/23℃'), ('常熟', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

张家港?
?[('张家港', '1日(今天)', '多云', '/20℃'), ('张家港', '2日(明天)', '多云转晴', '31℃/22℃'), ('张家港', '3日(后天)', '晴', '32℃/23℃'), ('张家港', '4日(周一)', '晴', '33℃/23℃'), ('张家港', '5日(周二)', '晴转多云', '34℃/24℃'), ('张家港', '6日(周三)', '多云', '29℃/23℃'), ('张家港', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]?

数据是有了,怎样更美化地输出需要另外的模块,先放一放。更为重要的问题是:怎样找到各城市的代码?比如,苏州对应的是?101190401 ,它之后的几个连续数字对应的是苏州辖内的各区和县级市。

网上很多文章都是爬取各省份的文字版网页( www.******.com.cn/textFC/jiangsu.shtml 等)中的城市代码,这样还不是很方便。

经过摸查了很多个网页,终于发现了一个网页中可查到城市代码:

https://d4.weather.com.cn/geong/v1/api?params={%22method%22:%22stationinfo%22,%22lng%22:120.592412,%22lat%22:31.303564}
注:%22就是双引号,被浏览器转码了

其返回内容为:

{"status":"success","errmsg":"","timestamp":1622032653,"location":{"lng":120.592412,"lat":31.303564},"data":{"station":{"areaid":"101190401","category":"city","namecn":"苏州","nameen":"suzhou","disticten":"suzhou","distictcn":"苏州","provinceen":"jiangsu","provincecn":"江苏"}}}

参数字典中,lng:120.592412,lat:31.303564 两个参数正是苏州的经纬度。
?

解决的关键

先要查询到“任意指定”的城市或地址的经纬度,然后交由上述地址求得其中的 "areaid",最后就能够从网页 www.***.com.cn/areaid+'.shtml'中爬取天气信息。

问题关键在于城市经纬度,这个可以提交给百度地图的免费api接口来获得:

http://api.map.baidu.com/lbsapi/cloud/geocoding-api.htm

api免费,但要注册才能有key,就看这个公开的好不好使了

任意指定城市

来尝试一把,浏览器地址输入以下地址获取城市的经纬度:

?http://api.map.baidu.com/geocoder?address=南京市江宁区&output=json&key=37492c0ee6f924cb5e934fa08c6b1676

bingo! 百度地图这个公开的key居然还能用,返回的数据:

{"status":"success","errmsg":"","timestamp":1622032653,"location":{"lng":118.846567,"lat":31.958527},"data":{"station":{"areaid":"101190104","category":"city","namecn":"江宁", "nameen":"jiangning","disticten":"nanjing","distictcn":"南京", "provinceen":"jiangsu","provincecn":"江苏"}}}

如上红色标示的,正是江宁区的对应id: www.***.com.cn/weather/101190104.shtml

如此,重要的“任意指定城市”的问题解决了哦。再加上美化的代码,输出以下这种漂亮的内容也不是不可能的:

代码略,因为方法更重要。既然问题已解决,就把博客发布掉再说(其实我还没写好代码),先求大家给个一键三连再走 ^_^ ^_^ ^_^

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-03 17:02:17  更:2021-10-03 17:02:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 17:40:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码