1.源代码究竟是码编什么?
2.方法2用python实现PDF转DOCX和DOCX转PDF
3.Python处理PDF的神器—PyMuPDF!速看!码编
4.Stirling PDF:开源在线PDF文档编辑工具库源码
5.Python操作PDF的码编神器——PyMuPDF
6.Python学习手册第5版PDF源代码学习思考
源代码究竟是什么?
1. 源代码是程序员编写的人类可读的机器文字,编译后生成可执行程序,码编我们通常使用的码编就是这些可执行程序。要对程序进行功能增强或改进,码编查看Qt系统源码就需要使用源代码,码编因为人类无法直接通过0和1编写高级程序。码编
2. 举个例子:你用Word写好一个文档,码编生成一个PDF文件。码编一般来说,码编PDF是码编不可修改的,你可以把这个PDF发给别人阅读,码编但别人要想修改这个PDF就不容易。码编而如果你有这个PDF的码编原稿(Word文档),你可以很方便地修改然后再生成PDF文档。这里的Word文档就相当于源代码,PDF文档就相当于软件。
3. 源代码是广义的概念,只要是用程序语言编写的都可以称为源代码。比如用C语言编写的代码,在编译后成为汇编语言程序,也可以称为代码;再汇编成机器语言程序,同样也可以称为代码。因此,一般来说,广义上都可以称之为代码。
4. 关于“源代码”的问题,如果你用C语言编写的代码让我看,那就是源代码;如果你直接给我可执行的.exe文件,那就不是源代码。同样,云承软件源码如果你做了一个Java游戏,把自己编写的Java代码给我,那就是源代码;如果给我处理过的可执行文件,那就不是源代码。
方法2用python实现PDF转DOCX和DOCX转PDF
有个大佬在知乎下面评论,提供了一个新的方法,如下:
我尝试了一下,非常好用,又得到了一个包pdf2docx,即PDF转DOCX,现在将这两个包总结一下docx2pdf。
功能:批量将一个文件夹下面的所有文件都转化成pdf文件。
安装
先上代码
运行过程
运行结束之后,还会显示运行的时间和进度。
运行结果pdf2docx
功能:将一个pdf文件转化成docx文件。
安装
先上代码
运行过程
运行结束之后,会显示具体每一页的状态。
运行结果
存在问题
解决:这个问题也真的很离谱,我搜了一些答案,参考([Why i got this error: ImportError: cannot import name 'Converter' from partially initialized module 'pdf2docx' (most likely due to a circular import) duplicate])
翻译重点:重命名你的脚本。
我意识到自己的脚本名字是pdf2docx.py,脚本名字和包名一样,就导致报错,修改脚本名字以后,解决了。
参考: blog.csdn.net/Daniel_Xi...
这个问题我自己没有遇到了,不过我也打开了line.py这个文件看了下源代码,里面是这样写的:
应该是新版本已经根据python的版本进行try except,针对不同的python版本,使用不同的包。
总结
这两个包会比我之前提供的聊天的html源码方法更好用一点,对于pdf2docx这个包,我没有对他进行复杂的文字或者类型的pdf测试,后续如果有时间再对它测试,也可以在评论里告诉我,你的测试结果。
感谢知乎大佬石大憨@石大憨 提供新思路。
参考(不分先后顺序,也不管引文的格式)
已解决Python 3. 使用pdf2docx报错ImportError:cannot import name ‘Iterable‘ from ‘collections‘的解决办法 blog.csdn.net/Daniel_Xi...
Why i got this error: ImportError: cannot import name 'Converter' from partially initialized module 'pdf2docx' (most likely due to a circular import) stackoverflow.com/quest...
Convert PDF files to Word DOCX ( Python pdf2docx ) | youtube.com/watch?...
pdf2docx官方文档 dothinking.github.io/pd...
Python处理PDF的神器—PyMuPDF!速看!
PyMuPDF是MuPDF的Python接口形式,MuPDF是一个轻量级的PDF、XPS和电子书查看器。它包括一个渲染器,专门用于高质量抗锯齿图形,以在屏幕上再现打印页面的外观时获得最高保真度。PyMuPDF支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2,并且提供了大量的附加功能,如创建、合并或拆分文档,以及页面的插入、删除、重新排列或修改等操作。使用PyMuPDF可以访问扩展名为".pdf"、".xps"、".oxps"、".cbz"、模特人才源码".fb2"或".epub"的文件。它支持大约种流行的图像格式,如".png",".jpg",".bmp",".tiff"等。PyMuPDF可以从源码安装,也可以从wheels安装,对于Windows, Linux和Mac OSX平台,在PyPI的下载部分有wheels。安装时,除了标准库,它没有强制性的外部依赖项。PyMuPDF提供了导入库、查看版本、打开文档、获取元数据、获取目标大纲、页面处理等方法。在页面处理中,可以检查页面的链接、批注或表单字段,呈现页面,将页面图像保存到文件中,提取文本和图像,以及搜索文本。PyMuPDF可以修改PDF文档,包括修改、创建、重新排列和删除页面,连接和拆分PDF文档,java hashmap源码解析以及保存和关闭文档。通过使用PyMuPDF,用户可以轻松地处理PDF文档并执行各种操作。
Stirling PDF:开源在线PDF文档编辑工具库源码
Stirling PDF是一个强大且本地托管的在线PDF编辑工具库,通过Docker实现。用户可以对PDF文件执行多种操作,如分割、合并、转换、重组、添加图像、旋转、压缩等,功能全面,满足所有PDF需求。
Stirling PDF确保用户隐私,不发起任何出站请求记录文件或PDF。文件仅在客户端存在,任务执行期间驻留在服务器内存,或在执行时临时保存在文件中。执行后,用户下载的任何文件将从服务器删除。
该库提供多种语言支持,目前共有种语言,允许用户选择并使用。用户可轻松自定义应用程序,通过设置文件settings.yml或环境变量进行配置。settings.yml遵循标准YAML格式,环境变量则覆盖设置文件。额外的custom_settings.yml文件供精通Java和Spring application.properties的用户自定义设置。
Stirling PDF提供后端API接口,允许用户通过自定义脚本编辑PDF。所有API文档均在实例的 /swagger-ui/index.html 页面提供,或通过Stirling-PDF设置中的API按钮访问。
登录验证确保安全性。默认凭据用于登录,登录后用户可以访问帐户设置,修改API密钥,添加新用户等。API使用需提供带有“X-API-Key”的标题及关联的API密钥。
通过上述步骤,用户可以安装、部署、自定义Stirling PDF,安全地访问和编辑PDF文件,并通过API集成到自定义脚本中。所有功能旨在为用户提供高效、安全、灵活的PDF编辑体验。
Python操作PDF的神器——PyMuPDF
一、PyMuPDF简介
PyMuPDF 是 MuPDF 的 Python 接口,MuPDF 是一个轻量级的 PDF、XPS 和电子书查看器。MuPDF 支持多种文档格式,如 PDF、XPS、OpenXPS、CBZ、EPUB 和 FictionBook 2。PyMuPDF 使用户可以访问扩展名为 ".pdf"、".xps"、".oxps"、".cbz"、".fb2" 或 ".epub" 的文件。此外,它还可以处理约种流行的图像格式,如 ".png"、".jpg"、".bmp"、".tiff" 等。
二、安装
PyMuPDF 可以从源码或 wheels 进行安装。对于 Windows、Linux 和 Mac OSX 平台,在 PyPI 的下载部分有 wheels。它支持 Python 3.6 到 3.9 的 位版本,Windows 版本也有 位版本。对于 Linux ARM 架构,查找 manylinux_aarch 标签。
除了标准库外,PyMuPDF 没有强制性的外部依赖项。安装某些包时,需要 Pillow(用于 PixMap 的 pil_save() 和 pil_tobytes())和 fontTools(用于 Document.subset_fonts())。PyMuPDF-fonts 是一个不错的字体选择,用于文本输出。使用 pip 安装命令:pip install PyMuPDF。
三、使用方法
1. 导入库,查看版本
2. 打开文档
创建 Document 对象 doc,文件名必须是存在的 python 字符串。也可以从内存数据打开文档或创建新的空 PDF。文档还可以用作上下文管理器。
3. Document 方法和属性
| 方法/属性 | 描述 |
| ------ | ------ |
| Document.page_count | 页数 (int) |
| Document.metadata | 元数据 (dict) |
| Document.get_toc() | 获取目录 (list) |
| Document.load_page() | 读取页面
示例:获取元数据、目标大纲。
4. 页面处理
页面处理是 MuPDF 功能的核心。您可以将页面呈现为光栅或矢量(SVG)图像,选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像,并搜索文本字符串。对于 PDF 文档,可以使用更多的方法向页面添加文本或图像。
创建页面 Page,使用 Document 的方法。
页面常用操作包括检查链接、批注或表单字段、呈现页面、保存页面图像、提取文本和图像、搜索文本。
5. PDF 操作
PDF 是唯一可以使用 PyMuPDF 修改的文档类型。其他文件类型是只读的。但是,您可以将任何文档(包括图像)转换为 PDF,然后将所有 PyMuPDF 功能应用于转换结果。通常,您可以选择是保存到新文件,还是仅将修改附加到现有文件(“增量保存”),这通常要快得多。
操作 PDF 文档包括修改、创建、重新排列和删除页面,连接和拆分 PDF 文档,保存和关闭文档。
Python学习手册第5版PDF源代码学习思考
Python,看似简单实则深奥,它并非简单的“玩具”语言。要真正掌握,深入理解其背后的复杂性,推荐详尽的《Python学习手册第5版》。该书涵盖了Python的全方位内容,如版本差异、作用域、函数式编程、导入机制(如相对导入和mro解析顺序)、装饰器和元类等。虽然初学者可能会被章节间复杂线索所困扰,多页的厚重内容可能会让人心生压力,但坚持读完后,你会有豁然开朗的满足感,甚至惊叹其妙。
该手册提供中文PDF版本,分为上册页和下册页,均附带书签,文字可复制;英文版PDF则有页。附带的源代码有助于实践和理解。想要编写高效、集成度高的代码,这本书是绝佳选择,它结合了专家级教程,内容易懂,包含大量注释实例和图表,适用于Python 2.7和3.3。
手册的核心内容包括:掌握基本对象类型(如数字、列表和字典)、Python语句的运用、程序结构和代码重用、模块的使用与封装、面向对象编程工具的应用、异常处理和开发工具的使用,以及高级工具如装饰器、描述符、元类和Unicode处理等。阅读这本书,如同经历一场Python知识的深度之旅。
vue-pdf只显示一页问题解决
在项目开发中,我遇到了一个使用vue-pdf显示PDF文件的问题,即只能加载显示第一页,以下是我的解决方法。
具体使用vue-pdf的方式如下:
在组件中进行使用时,发现多页PDF文件仅显示第一页。
通过查看vue-pdf的源码,我发现其实现原理是将PDF文件按页绘制到canvas上,其中page参数默认值为1,因此只展示了第一页的canvas内容。针对这个问题,我们可以采取以下两种方法解决:
第一种方法是使用v-for循环加载所有页面。
然而,如果PDF文件页数较多,这种方法会导致加载速度较慢。
第二种方法是采用分页的形式进行加载。
这种方式可以保证加载流畅,提升用户体验。