使用 gImageReader 从图像和 PDF 中提取文本
发布时间:2021-03-25 17:05:17 所属栏目:评论 来源:互联网
导读:本上,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。 然而,Tesseract 本身是一个没有任何 GUI 的命令行工具。因此,gImageReader 就来解决这点,它可以让任何用户使用它
![]() 本上,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。 然而,Tesseract 本身是一个没有任何 GUI 的命令行工具。因此,gImageReader 就来解决这点,它可以让任何用户使用它从图像和文件中提取文本。 让我重点介绍一些有关它的内容,同时说下我在测试期间的使用经验。 gImageReader:一个跨平台的 Tesseract OCR 前端为了简化事情,gImageReader 在从 PDF 文件或包含任何类型文本的图像中提取文本时非常方便。 无论你是需要它来进行拼写检查还是翻译,它都应该对特定的用户群体有用。 以列表总结下功能,这里是你可以用它做的事情:
在 Linux 上安装 gImageReader注意:你需要安装 Tesseract 语言包,才能从软件管理器中的图像/文件中进行检测。 (编辑:桂林站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


