IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> python老师主页文件爬虫 -> 正文阅读

[人工智能]python老师主页文件爬虫

这学期学习了应随这门课,老师在主页上放了很多课程pdf,但是一个个下载非常麻烦,所以我写了一个python爬虫来下载这些pdf。
在这里插入图片描述
首先打开网页源代码,然后放到和main.cpp同一个目录下的txt文件中:这里的命名是knapsack.txt,这样避免了使用request库。
在这里插入图片描述
然后就可以写代码了:

#encoding=utf-8
import re
import urllib.request

a=''
ls=[]
f=open('knapsack.txt',encoding='utf-8')##网页源代码的存储位置
la=f.read().split('\n')
for stra in la:
    b = r"\"asptextbook.*?\.pdf\"" ##用re库匹配其中的文件名
    pattern=re.compile(b)
    res=pattern.findall(stra)
    ls.extend(res)
print(ls)

headers = { 'User-Agent':'Mozilla/5.0' }##浏览器伪装
orgurl='https://www.math.pku.edu.cn/teachers/zhangfxi/homepage/'##老师的个人主页
for i in ls:
    url=orgurl+i[1:-1]
    print(url)
    urllib.request.urlretrieve(url, r'C:/Users/...'+i[1:-1])##这里放要存储的文件目录,注意看文件夹是否存在
f.close()

然后运行就可以了

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-20 15:47:40  更:2021-09-20 15:50:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/21 18:41:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码