本文介绍了 2 个在 Linux 上使用图形工具 (Calibre) 和命令行工具 (pdftotext) 将 PDF 文档转换为可编辑文本的工具。
值得注意的是,如果 PDF 是由图像(例如扫描的书页/图片)组成,则本文中提到的用于从 PDF 文件中提取文本的两种工具都无法提取文本。
使用 Calibre (GUI) 将 PDF 转换为文本
Calibre 是一个免费和开源的电子书软件套件。 它支持组织、显示、编辑和转换电子书,支持多种格式。 该应用程序在 Linux、macOS 和 Microsoft Windows 上运行。
Calibre 应该在您的 Linux 发行版的存储库中可用,并且您应该能够使用系统上的任何软件商店来安装它。 例如,要在 Debian、Ubuntu、Linux Mint 上安装它, Fedora、openSUSE 或 Arch Linux,使用:
- Debian、Ubuntu 或 Linux Mint:
sudo apt install calibre