| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 学习爬虫第四天 -> 正文阅读 |
|
[Python知识库]学习爬虫第四天 |
#1.定位到网址 #2提取链接地址 #3.请求链接地址,拿到下载地址 import re import requests url="https://www.dytt89.com/" resp=requests.get(url)#去掉安全验证 resp.encoding='gb2312'#注意字符集 #print(resp.text) obj1=re.compile(r"2022必看热片.*?<ul>(?P<name>.*?)</ul>",re.S) obj2=re.compile(r"<a href='(?P<href>.*?)'",re.S) obj3=re.compile(r'<br />◎片 名(?P<movie_name>.*?)<br />.*?<td ' r'style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">',re.S) childurl_list=[] res=obj1.finditer(resp.text) for it in res: a = it.group('name') print(a) #提取子链接地址 #html a标签<a href='网址‘>内容</a> res2=obj2.finditer(a) for it1 in res2: #拼接子页面的url地址: 域名+子页面地址 #print(it1.group('href')) childurl=url+it1.group('href').strip("/") childurl_list.append(childurl) #提取信息 for href in childurl_list: resp2=requests.get(href) resp2.encoding='gb2312' res3=obj3.search(resp2.text) print(res3.group("movie_name")) print(res3.group("download")) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/26 12:50:31- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |