如何在 Linux 上将 PDF 文件转换为文本文档

与文本文件不同,您不能直接编辑 PDF。有多种方法可以使用文本生成 PDF 文件。但是,如果您想反过来将 PDF 转换为文本文件怎么办?

幸运的是,Linux 允许您从终端轻松修改这些文件。本文将演示如何在 Linux 上将 PDF 文件转换为文本文档。

从终端将 PDF 转换为文本

Poppler 是一个用于渲染和修改 PDF 文件的软件库。它包含一个名为pdftotext的实用程序,允许用户从 PDF 生成文本文件。由于poppler-utils不是标准 Linux 软件包的一部分,因此您必须使用软件包管理器手动安装它。

在 Ubuntu 和 Debian 上:

 sudo apt install poppler-utils

在 Arch Linux 上安装 Poppler:

 sudo pacman -S poppler

在 CentOS、Fedora 和其他基于 RHEL 的发行版上安装poppler-utils包很容易。

 sudo dnf install poppler-utils
sudo yum install poppler-utils

将整个 PDF 转换为文本

pdftotext 命令的基本语法是:

 pdftotext [options] pdffile textfile

…其中pdffile是 PDF 文件的绝对或相对路径, textfile是输出文件的名称。

例如,要将lorem-ipsum.pdf转换为文本文件:

 pdftotext lorem-ipsum.pdf text.txt

如果您正在转换的文件有水印或未对齐的文本,您可以使用-nodiag标志在输出中丢弃它们。

 pdftotext -nodiag lorem-ipsum.pdf random.text

特定范围内的处理页面

如果要转换特定范围内的页面,请使用-f-l标志。例如,要将lorem-ipsum.pdf 中的第 1 页到第 5 页转换为文本:

 pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt

仅转换 PDF 文件的第一页:

 pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt

将受密码保护的 PDF 文件转换为文本

Pdftotext 甚至可以将受密码保护的 PDF 转换为文本文件。 -upw-opw标志分别代表用户密码所有者密码,在转换 PDF 文件时负责验证过程。

 pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

确保将密码替换为 PDF 文件的密码。

您还可以组合多个标志以获得所需的输出。例如,要将受密码保护的 PDF 的第一到第三页转换为文本:

 pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt

相关: 如何在 Linux 中将 PDF 文件转换为图像

以图形方式将 PDF 转换为文本文件

如果您不喜欢使用命令行,则可以使用 Calibre 等图形软件将 PDF 转换为文本文件。它是一个电子书管理应用程序,可用于查看、组织和修改系统上的PDF 文件

Calibre 在官方 Linux 发行版存储库中可用,任何人都可以使用包管理器下载它。

在 Ubuntu 和 Debian 上安装 Calibre:

 sudo apt install calibre

在 Arch Linux 上:

 sudo pacman -S calibre

在 CentOS 和 Fedora 等基于 RHEL 的发行版上,您可以使用 DNF 或 Yum 下载 Calibre。

 sudo dnf install calibre
sudo yum install calibre

如何使用 Calibre 转换 PDF 文件

安装后,使用应用程序菜单在您的系统上启动 Calibre。或者,您可以通过键入以下内容从终端启动 Calibre:

 calibre

使用带有 Calibre 的 PDF 生成文本文件:

  1. 单击菜单中的添加书籍选项。
    在 calibre linux 中添加书籍
  2. 找到并选择要转换的 PDF 文件。
    将pdf文件转换为文本文件
  3. 从中心面板突出显示 PDF 文件,然后从菜单中选择转换书籍
    linux中的口径
  4. 输出格式下拉列表中,选择TXT
    选择要转换的pdf文件
  5. 最后,单击“确定”继续。

Calibre 现在将开始将指定的 PDF 文件转换为文本文档。您可以通过单击位于窗口右下角的“作业”选项来检查进程的状态。

在 Linux 中处理 PDF 文件

当您想与某人共享文档时,在共享之前将其转换为 PDF 是最有效的方式。以前,用户必须在他们的系统上安装专用的 PDF 查看器才能显示 PDF 文件,但现在,几乎每个浏览器都带有内置的 PDF 查看器。

您可以找到多个允许用户轻松查看和编辑 PDF 文件的应用程序。许多 Linux 安装都附带 LibreOffice,这是一个办公软件套件,可用作 PDF 编辑器。