| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> python爬虫学习(第一爬) -> 正文阅读 |
|
[Python知识库]python爬虫学习(第一爬) |
爬取豆瓣电影Top250用python爬取的原因是库函数较多,比较方便。 首先下载爬虫需要的库函数
豆瓣Top250的url=https://movie.douban.com/top250 ctrl+u可以查看页面源代码,也可以右键点击检查(如图) 首先先获取页面源代码
headers从User-Agent获取
获取方法如图 ?观察页面源代码可知 :每个影片 对应一个标签<li> ?获取具体信息 首先复制<li>标签的xpath
由于要获取所有的影片? 将li[1]改为li
交给etree去解析? 此时lis得到的是一个列表 现在要获取影片的标题? 同样要得到其xpath
将与之前重复的去掉????? 用./表示??? 获取其文本text()? 获取其列表第一个元素即可
同理可得
年份这么写的原因是? 年份是它获取列表的第二个元素???? Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。 split是用来分割? 并获取分割的第一个元素 由于一个页面只有15个影片? 因此url需要动态修改? 观察url的规律即可写
之后做一些文件的追加处理即可写入文件中 最终源代码:
哦,对了,还要注意编码的问题,charset=utf-8? 找这个就好了 ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 7:09:06- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |