1.Python 办公自动化之 PDF 最强操作手册
2.Python操作PDF的码分神器——PyMuPDF
3.Python处理PDF的神器—PyMuPDF!速看!码分
4.Sumatra Pdf软件简介
5.Python处理PDF神器:PyMuPDF的码分安装与使用
Python 办公自动化之 PDF 最强操作手册
PyMuPDF简介
PyMuPDF是MuPDF的Python接口,MuPDF是码分一个轻量级的PDF、XPS和电子书查看器,码分支持多种文档格式,码分可视化收银系统源码包括PDF、码分XPS、码分CBZ、码分EPUB和FictionBook 2。码分它包括渲染器、码分命令行工具和查看器,码分旨在提供高质量的码分抗锯齿图形呈现。PyMuPDF支持扩展名为".pdf"、码分".xps"、码分".oxps"、".cbz"、".fb2"或".epub"的文件,同时能够处理大约种流行的图像格式。
功能
PyMuPDF提供了多种功能,包括文本提取、PDF操作、页面处理等。通过使用PyMuPDF,用户可以访问MuPDF支持的文档类型,获取元数据,获取目标大纲,管理页面,以及执行其他高级操作,如搜索文本,提取图像和文本,修改、创建、重新排列和删除页面,连接和拆分PDF文档,elastic 源码以及保存文档。
安装
PyMuPDF可以通过源码或wheels安装,对于Windows、Linux和Mac OSX平台,wheels在PyPI的下载部分可用。除了标准库,它没有强制性的外部依赖项,但根据安装时的包,可能存在一些额外的方法。通过pip安装命令,用户可以轻松安装PyMuPDF。
使用方法
使用PyMuPDF的步骤包括导入库,查看版本,打开文档,操作页面,获取元数据等。示例代码展示了如何获取文档元数据、获取目标大纲、页面处理、页面链接、页面呈现、页面图像保存、文本和图像提取、文本搜索、PDF操作等。
在学习Python时,可以加入交流学习社区以获取学习资源、开发工具、教程和实践案例。此外,学习Python技术点、必备开发工具、精品学习书籍、观看零基础学习视频、hat源码实战案例、Python练习题和面试资料,能够帮助提高技能,准备面试。
Python操作PDF的神器——PyMuPDF
一、PyMuPDF简介
PyMuPDF 是 MuPDF 的 Python 接口,MuPDF 是一个轻量级的 PDF、XPS 和电子书查看器。MuPDF 支持多种文档格式,如 PDF、XPS、OpenXPS、CBZ、EPUB 和 FictionBook 2。PyMuPDF 使用户可以访问扩展名为 ".pdf"、".xps"、".oxps"、".cbz"、".fb2" 或 ".epub" 的文件。此外,它还可以处理约种流行的图像格式,如 ".png"、".jpg"、".bmp"、".tiff" 等。
二、安装
PyMuPDF 可以从源码或 wheels 进行安装。对于 Windows、Linux 和 Mac OSX 平台,在 PyPI 的下载部分有 wheels。它支持 Python 3.6 到 3.9 的 位版本,Windows 版本也有 位版本。对于 Linux ARM 架构,查找 manylinux_aarch 标签。源码wp
除了标准库外,PyMuPDF 没有强制性的外部依赖项。安装某些包时,需要 Pillow(用于 PixMap 的 pil_save() 和 pil_tobytes())和 fontTools(用于 Document.subset_fonts())。PyMuPDF-fonts 是一个不错的字体选择,用于文本输出。使用 pip 安装命令:pip install PyMuPDF。
三、使用方法
1. 导入库,查看版本
2. 打开文档
创建 Document 对象 doc,文件名必须是存在的 python 字符串。也可以从内存数据打开文档或创建新的空 PDF。文档还可以用作上下文管理器。
3. Document 方法和属性
| 方法/属性 | 描述 |
| ------ | ------ |
| Document.page_count | 页数 (int) |
| Document.metadata | 元数据 (dict) |
| Document.get_toc() | 获取目录 (list) |
| Document.load_page() | 读取页面
示例:获取元数据、目标大纲。
4. 页面处理
页面处理是 MuPDF 功能的核心。您可以将页面呈现为光栅或矢量(SVG)图像,选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像,并搜索文本字符串。对于 PDF 文档,可以使用更多的方法向页面添加文本或图像。
创建页面 Page,使用 Document 的方法。
页面常用操作包括检查链接、批注或表单字段、呈现页面、保存页面图像、提取文本和图像、搜索文本。
5. PDF 操作
PDF 是唯一可以使用 PyMuPDF 修改的文档类型。其他文件类型是ventory源码只读的。但是,您可以将任何文档(包括图像)转换为 PDF,然后将所有 PyMuPDF 功能应用于转换结果。通常,您可以选择是保存到新文件,还是仅将修改附加到现有文件(“增量保存”),这通常要快得多。
操作 PDF 文档包括修改、创建、重新排列和删除页面,连接和拆分 PDF 文档,保存和关闭文档。
Python处理PDF的神器—PyMuPDF!速看!
PyMuPDF是MuPDF的Python接口形式,MuPDF是一个轻量级的PDF、XPS和电子书查看器。它包括一个渲染器,专门用于高质量抗锯齿图形,以在屏幕上再现打印页面的外观时获得最高保真度。PyMuPDF支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2,并且提供了大量的附加功能,如创建、合并或拆分文档,以及页面的插入、删除、重新排列或修改等操作。使用PyMuPDF可以访问扩展名为".pdf"、".xps"、".oxps"、".cbz"、".fb2"或".epub"的文件。它支持大约种流行的图像格式,如".png",".jpg",".bmp",".tiff"等。PyMuPDF可以从源码安装,也可以从wheels安装,对于Windows, Linux和Mac OSX平台,在PyPI的下载部分有wheels。安装时,除了标准库,它没有强制性的外部依赖项。PyMuPDF提供了导入库、查看版本、打开文档、获取元数据、获取目标大纲、页面处理等方法。在页面处理中,可以检查页面的链接、批注或表单字段,呈现页面,将页面图像保存到文件中,提取文本和图像,以及搜索文本。PyMuPDF可以修改PDF文档,包括修改、创建、重新排列和删除页面,连接和拆分PDF文档,以及保存和关闭文档。通过使用PyMuPDF,用户可以轻松地处理PDF文档并执行各种操作。
Sumatra Pdf软件简介
Sumatra PDF是一款由Krzysztof Kowalczyk精心打造的轻量级PDF阅读器,它以开源软件的形式提供,用户可以选择下载安装版或携带版,同时开发者还分享了源代码,以便于用户深入了解和定制。
这款阅读器的核心技术依赖于两个功能强大的库:MuPDF和Poppler。MuPDF负责PDF处理,Poppler则提供PDF解析能力,共同确保了Sumatra PDF的高效运行。
Sumatra PDF的设计理念非常注重简洁,其安装文件体积小巧,只有约1MB,相较于Adobe Reader的.5MB安装包,它的启动速度更快,节省了用户的系统资源。最新版本(1.9)甚至支持种语言界面,极大地提高了全球用户的使用体验。
携带版的Sumatra PDF提供两种可执行档,SumatraPDF-no-MuPDF.exe和SumatraPDF.exe,前者更轻量,大小为1.7M,后者稍大一些,为4.M。用户可以在PortableApps网站上找到携带版,方便将其存放在USB、iPod或移动设备上,随时随地阅读PDF文件。
特别值得一提的是,Sumatra PDF的一个实用功能是它能自动记住用户在每个PDF文档中的最后阅读页面,这对于电子书爱好者来说,无疑提升了阅读的连续性和便捷性。
最新版本的Sumatra PDF不仅支持PDF格式,还兼容EPUB、MOBI、XPS、DjVu、CHM、CBZ和CBR等多种电子书格式,功能全面,适应了现代用户多样化的阅读需求。
Python处理PDF神器:PyMuPDF的安装与使用
在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。MuPDF是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 中的渲染器专为高质量抗锯齿图形量身定制,它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度。MuPDF支持多种文档格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以通过移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。
命令行工具允许您注释、编辑文档,并将文档转换为其他格式,如HTML、SVG、PDF和CBZ。您还可以使用Javascript编写脚本来操作文档。PyMuPDF(当前版本1..)是支持MuPDF(当前版本1..*)的Python绑定。使用PyMuPDF,你可以访问扩展名为".pdf"、".xps"、".oxps"、".cbz"、".fb2"或".epub"的文件。此外,大约种流行的图像格式也可以像文档一样处理:"png","jpg","bmp","tiff"等。
PyMuPDF可以从源码安装,也可以从wheels安装。对于Windows, Linux和Mac OSX平台,在PyPI的下载部分有wheels。这包括Python 位版本3.6到3.9。Windows版本也有位版本。除了标准库,它没有强制性的外部依赖项。只有在安装了某些包时,才会有一些不错的方法:使用pip安装命令:pip install PyMuPDF。导入库:import fitz。关于命名fitz的说明,这个库的标准Python导入语句是import fitz。这是有历史原因的:MuPDF的原始渲染库被称为Libart。在Artifex软件获得MuPDF项目后,开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目,以取代老化的Ghostscript图形库,但却成为了MuPDF的渲染引擎。
在使用PyMuPDF时,可以导入库并查看版本,然后打开文档。这将创建一个Document对象doc。文件名必须是一个已经存在的文件的python字符串。也可以从内存数据打开文档,或创建新的空PDF。您还可以将文档用作上下文管理器。使用PyMuPDF,可以获取元数据、获取目标大纲、处理页面、获取页面的链接、批注或表单字段、呈现页面、将页面图像保存到文件中、提取文本和图像、搜索文本、操作PDF文档(如修改、创建、重新排列和删除页面、连接和拆分PDF文档、保存和关闭文档)。
PyMuPDF支持访问多种文件格式,并提供了一整套处理文档的工具。通过Python脚本,用户可以轻松地进行文档的注释、编辑、转换和提取信息,为PDF文件的自动化处理提供了强大的支持。无论是进行PDF文档的批量转换、内容提取、注释添加,还是进行更深入的文本搜索与页面操作,PyMuPDF都是一个理想的选择。通过简单而强大的API,开发者可以轻松地在Python程序中集成这些功能,满足各种应用场景需求。