IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 知乎文章导成pdf -> 正文阅读

[Python知识库]知乎文章导成pdf

在知乎上写的内容越来越多,于是也想导出来看看是什么情况,结果还真的可以导出成功。于是将过程记录如下。

相比手动一篇篇把文章拷贝下来,那肯定枯燥无味,又非常累,像这种重复性的工作,由计算机程序来完成最为合适。

在github上面一搜,果然有程序帮助实现这个功能,代码是python,代码下载地址:https://github.com/ronething/ZhiHuZhuanLanToPDF

?我之前没太用过python,所以下面就从最开始安装python说起。

一、安装python环境

人家是python代码,那我肯定有一个软件来执行这个代码,我下的是visual studio 2019,学习怎么运行python。

Visual Studio 中的 Python 教程步骤 1,创建项目 | Microsoft Docs

Visual Studio 中的 Python 教程步骤 2,编写和运行代码 | Microsoft Docs

然后把下载来的python代码,放到同一个项目中。?

点击左下角的python环境,安装三个包:requests、bs4、pdfkit

二、适当修改

1、将author中的单引号内容,换成自己的专栏名字

?2、修改get_html

要将soup = BeautifulSoup(html, 'lxml')这一行换成soup = BeautifulSoup(html, 'html.parser'),原因如下:Python3.6爬虫报错处理bs4.FeatureNotFound: Couldn't find a tree builder wi_夏草v的博客-CSDN博客_bs4.featurenotfound

3、用wkhtmltopdf转成pdf

?代码中给出了两种由html转pdf的函数,一个是to_pdf(),一个是get_args(),都需要用到wkhtmltopdf,在下面这个网址也给出了下载链接。

https://github.com/ronething/ZhiHuZhuanLanToPDF

安装完wkhtmltopdf后,需要添加到环境变量。

(1)电脑->属性->高级系统设置->环境变量->点击系统变量的Path

?(2)再点击编辑->编辑文本->然后把wkhtmltopdf安装的位置放进变量值里面,注意前后有分号“;”

?

4、to_pdf

需要在to_pdf中的import,后面增加一行。

def to_pdf():
    import pdfkit
    config=pdfkit.configuration(wkhtmltopdf=r"C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe")
    print('exporting PDF...')
    htmls = []
    for root, dirs, files in os.walk('.'):
        print(root)
        print(dirs)
        print(files)
        htmls += [name for name in files if name.endswith(".html")]
        print(htmls)
        pdfkit.from_file(sorted(htmls), author + '.pdf',configuration=config)
    print("done")

5、右键zhihuzhuanlan.py将其设置为启动文件

6、点击“启动”

7、在PythonApplication1相同路径位置处,就出现了一份pdf。

三、留有问题

1、上面我只将to_pdf试验成功了,get_args没有试验成功。

2、导出来的Pdf,优点:文章链接还保存,文字都有。缺点:文字偏小,原文中图片较大的有的放不下。

?

?

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-04-14 23:50:39  更:2022-04-14 23:56:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 23:35:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计