最近遇到一个需求,用户从网页端上传word文件,之后服务端开一个线程,将上传的word文件转换为pdf文件。
查阅了一些资料:
发现win平台上的实现确实比较容易,但是linux和mac上就不太友好了。
1. pandoc + pypandoc
1.1 安装 pandoc
从 https://github.com/jgm/pandoc/releases 处即可下载。
1.2 安装 pypandoc
pip install pypandoc -i https://mirrors.aliyun.com/pypi/simple
1.3 安装LaTeX
如果平台本身没有pdf转换的引擎,那么在转换的时候会报错:
RuntimeError: Pandoc died with exitcode “47” during conversion: pdflatex not found. Please select a different --pdf-engine or install pdflatex
所以我们要额外安装 pdflatex
1.3.1 在 Windows上
Texlive官网是 https://tug.org/texlive/ 因为他是国外的速度比较慢,所以使用中科大镜像列表。地址是:
https://mirrors.ustc.edu.cn/CTAN/systems/texlive/Images/
下载完毕后,使用管理员身份运行install-tl-windows.bat ,根据提示进行安装即可。
tex -v
latex -v
xelatex -v
pdflatex -v
来获取安装的TeX的环境信息!如果看到的版本信息能够正常输出,那么TeX Live的安装就是成功的!
在windows开始菜单里,找到 TexWords editor 编辑器,输入如下文本,点击绿色箭头
1.3.2 在 Linux 上
sudo apt install texlive
brew install basictex
2. Libreoffice
https://zh-cn.libreoffice.org/download/libreoffice/
(安装完毕后配置环境变量)
import os
import platform
def word2pdf(file_path, output_path):
pf = platform.system()
if "Windows" in pf:
command = r'"C:\Program Files\LibreOffice\program\soffice.exe"'
elif "Linux" in pf:
version = r'6.4'
command = f'libreoffice{version}'
else:
raise Exception("不支持的系统平台")
os.system(f"{command} --headless --convert-to pdf {file_path} --outdir {output_path}")
if __name__=="__main__":
word2pdf(r"C:/Users/fang/Documents/ssh登录日志_2022-05-29.docx", r"C:/Users/fang/Documents/")
|