1.Stirling PDF:开源在线PDF文档编辑工具库源码
2.Python处理PDF的切切割器神器—PyMuPDF!速看!割源
3.免费开源好用还佛系的切切割器国产PDF软件:pdf补丁丁下载 | 含pdf补丁丁使用手册
4.方法2用python实现PDF转DOCX和DOCX转PDF
5.Python处理PDF神器:PyMuPDF的安装与使用
6.dockerPDF编辑、处理神器 | Stirling-PDF的割源部署与使用
Stirling PDF:开源在线PDF文档编辑工具库源码
Stirling PDF是一个强大且本地托管的在线PDF编辑工具库,通过Docker实现。切切割器用户可以对PDF文件执行多种操作,割源文档保密系统源码如分割、切切割器合并、割源转换、切切割器重组、割源添加图像、切切割器旋转、割源压缩等,切切割器功能全面,割源满足所有PDF需求。切切割器
Stirling PDF确保用户隐私,不发起任何出站请求记录文件或PDF。文件仅在客户端存在,任务执行期间驻留在服务器内存,或在执行时临时保存在文件中。执行后,用户下载的任何文件将从服务器删除。
该库提供多种语言支持,目前共有种语言,允许用户选择并使用。用户可轻松自定义应用程序,通过设置文件settings.yml或环境变量进行配置。settings.yml遵循标准YAML格式,环境变量则覆盖设置文件。额外的custom_settings.yml文件供精通Java和Spring application.properties的用户自定义设置。
Stirling PDF提供后端API接口,允许用户通过自定义脚本编辑PDF。所有API文档均在实例的 /swagger-ui/index.html 页面提供,或通过Stirling-PDF设置中的API按钮访问。
登录验证确保安全性。默认凭据用于登录,idea的全局查找源码登录后用户可以访问帐户设置,修改API密钥,添加新用户等。API使用需提供带有“X-API-Key”的标题及关联的API密钥。
通过上述步骤,用户可以安装、部署、自定义Stirling PDF,安全地访问和编辑PDF文件,并通过API集成到自定义脚本中。所有功能旨在为用户提供高效、安全、灵活的PDF编辑体验。
Python处理PDF的神器—PyMuPDF!速看!
PyMuPDF是MuPDF的Python接口形式,MuPDF是一个轻量级的PDF、XPS和电子书查看器。它包括一个渲染器,专门用于高质量抗锯齿图形,以在屏幕上再现打印页面的外观时获得最高保真度。PyMuPDF支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2,并且提供了大量的附加功能,如创建、合并或拆分文档,以及页面的插入、删除、重新排列或修改等操作。使用PyMuPDF可以访问扩展名为".pdf"、".xps"、小程序登录注册源码".oxps"、".cbz"、".fb2"或".epub"的文件。它支持大约种流行的图像格式,如".png",".jpg",".bmp",".tiff"等。PyMuPDF可以从源码安装,也可以从wheels安装,对于Windows, Linux和Mac OSX平台,在PyPI的下载部分有wheels。安装时,除了标准库,它没有强制性的外部依赖项。PyMuPDF提供了导入库、查看版本、打开文档、获取元数据、获取目标大纲、页面处理等方法。在页面处理中,可以检查页面的链接、批注或表单字段,呈现页面,将页面图像保存到文件中,提取文本和图像,以及搜索文本。PyMuPDF可以修改PDF文档,包括修改、创建、重新排列和删除页面,连接和拆分PDF文档,以及保存和关闭文档。通过使用PyMuPDF,终极买入指标公式源码用户可以轻松地处理PDF文档并执行各种操作。
免费开源好用还佛系的国产PDF软件:pdf补丁丁下载 | 含pdf补丁丁使用手册
PDF补丁丁(PDFPatcher)是一款绿色免费开源的多功能国产PDF软件,致力于无偿帮助用户低成本快速解决PDF相关问题。无弹窗、无广告、不废话、不劫持、不捆绑,开发初衷是为了免费提供PDF编辑、书签编辑、书签导入/导出、创建、拆分、批量重命名、阅读、合并、光学OCR文字识别、和内容提取、文档结构查找等实用功能。软件可高速无损导出PDF文档,根据PDF文档元数据重命名PDF文件名,操作拆分或合并PDF文件时保留源文件书签或挂新书签,提取或删除指定页面后调整PDF文档页面顺序。PDF补丁丁功能全面,是修改PDF文件的不二之选。作者为用户提供了最新版本的免费下载及贴心的使用手册。
PDF补丁丁特色功能:
1. 自动生成PDF书签,无需手动输入,识别正文标题或目录生成书签。
2. 修改文档属性、页码编号、页面链接、页面尺寸;删除自动打开网页等动作,去除复制及打印限制;设置阅读器初始模式。
3. 合并已有PDF文件或,在线设计网源码生成新的PDF文件,合并后的PDF文档带有原文档的书签,还可挂新书签(或根据文件名生成),新书签文本和样式自定义。
4. OCR文字识别功能,通过调用微软Office的图像识别引擎,分析PDF文档中的文字,将目录页转换为PDF书签,同时将文字识别结果写入PDF文件。
5. 字库替换功能,替换文档中使用的字体库,嵌入字库到PDF文档,消除复制文本时的乱码,适合在没有字库的设备上阅读。
6. 文档结构分析功能,以树视图显示PDF文档结构,允许编辑修改PDF文档节点,或将PDF文档导出为XML文件,方便PDF开发者分析、调试使用。
PDF补丁丁源代码结构包括:程序选项、主程序、常用工具类、第三方组件、使用文档、功能窗体和控件、JBIG2图像编码和解码库代码、高级编辑模型、PDF文档处理算法。
方法2用python实现PDF转DOCX和DOCX转PDF
有个大佬在知乎下面评论,提供了一个新的方法,如下:
我尝试了一下,非常好用,又得到了一个包pdf2docx,即PDF转DOCX,现在将这两个包总结一下docx2pdf。
功能:批量将一个文件夹下面的所有文件都转化成pdf文件。
安装
先上代码
运行过程
运行结束之后,还会显示运行的时间和进度。
运行结果pdf2docx
功能:将一个pdf文件转化成docx文件。
安装
先上代码
运行过程
运行结束之后,会显示具体每一页的状态。
运行结果
存在问题
解决:这个问题也真的很离谱,我搜了一些答案,参考([Why i got this error: ImportError: cannot import name 'Converter' from partially initialized module 'pdf2docx' (most likely due to a circular import) duplicate])
翻译重点:重命名你的脚本。
我意识到自己的脚本名字是pdf2docx.py,脚本名字和包名一样,就导致报错,修改脚本名字以后,解决了。
参考: blog.csdn.net/Daniel_Xi...
这个问题我自己没有遇到了,不过我也打开了line.py这个文件看了下源代码,里面是这样写的:
应该是新版本已经根据python的版本进行try except,针对不同的python版本,使用不同的包。
总结
这两个包会比我之前提供的方法更好用一点,对于pdf2docx这个包,我没有对他进行复杂的文字或者类型的pdf测试,后续如果有时间再对它测试,也可以在评论里告诉我,你的测试结果。
感谢知乎大佬石大憨@石大憨 提供新思路。
参考(不分先后顺序,也不管引文的格式)
已解决Python 3. 使用pdf2docx报错ImportError:cannot import name ‘Iterable‘ from ‘collections‘的解决办法 blog.csdn.net/Daniel_Xi...
Why i got this error: ImportError: cannot import name 'Converter' from partially initialized module 'pdf2docx' (most likely due to a circular import) stackoverflow.com/quest...
Convert PDF files to Word DOCX ( Python pdf2docx ) | youtube.com/watch?...
pdf2docx官方文档 dothinking.github.io/pd...
Python处理PDF神器:PyMuPDF的安装与使用
在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。MuPDF是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 中的渲染器专为高质量抗锯齿图形量身定制,它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度。MuPDF支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以通过移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。
命令行工具允许您注释、编辑文档,并将文档转换为其他格式,如HTML、SVG、PDF和CBZ。您还可以使用Javascript编写脚本来操作文档。PyMuPDF(当前版本1..)是支持MuPDF(当前版本1..*)的Python绑定。使用PyMuPDF,你可以访问扩展名为".pdf"、".xps"、".oxps"、".cbz"、".fb2"或".epub"的文件。此外,大约种流行的图像格式也可以像文档一样处理:"png","jpg","bmp","tiff"等。
PyMuPDF可以从源码安装,也可以从wheels安装。对于Windows, Linux和Mac OSX平台,在PyPI的下载部分有wheels。这包括Python 位版本3.6到3.9。Windows版本也有位版本。除了标准库,它没有强制性的外部依赖项。只有在安装了某些包时,才会有一些不错的方法:使用pip安装命令:pip install PyMuPDF。导入库:import fitz。关于命名fitz的说明,这个库的标准Python导入语句是import fitz。这是有历史原因的:MuPDF的原始渲染库被称为Libart。在Artifex软件获得MuPDF项目后,开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目,以取代老化的Ghostscript图形库,但却成为了MuPDF的渲染引擎。
在使用PyMuPDF时,可以导入库并查看版本,然后打开文档。这将创建一个Document对象doc。文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档,或创建新的空PDF。您还可以将文档用作上下文管理器。使用PyMuPDF,可以获取元数据、获取目标大纲、处理页面、获取页面的链接、批注或表单字段、呈现页面、将页面图像保存到文件中、提取文本和图像、搜索文本、操作PDF文档(如修改、创建、重新排列和删除页面、连接和拆分PDF文档、保存和关闭文档)。
PyMuPDF支持访问多种文件格式,并提供了一整套处理文档的工具。通过Python脚本,用户可以轻松地进行文档的注释、编辑、转换和提取信息,为PDF文件的自动化处理提供了强大的支持。无论是进行PDF文档的批量转换、内容提取、注释添加,还是进行更深入的文本搜索与页面操作,PyMuPDF都是一个理想的选择。通过简单而强大的API,开发者可以轻松地在Python程序中集成这些功能,满足各种应用场景需求。
dockerPDF编辑、处理神器 | Stirling-PDF的部署与使用
Stirling-PDF,一款强大的PDF编辑、处理神器,以其易于部署和使用的特点,迅速成为PDF文件管理者的优选工具。通过GitHub(Stirling-Tools/Stirling-PDF)获取源码,其功能丰富,包括合并、拆分、添加水印、设置密码与权限等,极大地满足了用户对PDF文件的编辑需求。
部署Stirling-PDF的准备工作包括选择服务器和安装Docker。推荐使用雨云服务器,享受九折优惠和首月五折,网址如下:[链接]。域名与SSL的配置至关重要,建议使用namesilo注册域名,并通过优惠码yemeng享受1美元优惠。Docker与Docker-Compose的安装指南可参考相关教程。
部署流程主要分为基础配置与OCR功能添加。创建文件夹与配置文件,通过编辑模式添加特定内容后保存退出。运行部署命令后,安装OCRmyPDF,实现对PDF文件的文本层添加,实现搜索与复制粘贴功能。下载简体中文训练识别包,修改文件权限后,即可在OCR识别中看到简体中文的识别方式。
实现反向代理与SSL开启,确保服务的稳定性和安全性。可参考相关文章学习如何配置Nginx Proxy Manager进行反向代理与SSL设置。
访问域名或IP:,进入Stirling-PDF编辑器。界面简洁友好,支持中文界面,提供多种功能,包括默认语言修改、PDF文件编辑等,操作流畅,体验极佳。
下面是在源代码里面查看PDF的地址,怎么能够得到附件pdf的链接地址,想在JSP网页里面直接显示PDF。
file=FZ/ZW/%%%E5%B1%E%E5%BA%%E8%BF%%E8%A1%C.pdf&column=e&sign=6f5edaca