Python 实现 PD 文字识别、提取并写入 CSV 文件脚本分享

PHP中文网 • 2025年2月26日 17:55:12 • 编程技术 • 阅读 2

一、前言

二、需求描述

三、开始动手动脑

3.1 安装相关第三方包

3.2 导入需要用到的第三方库

3.3 读取pdf文件，并识别内容

3.4 对识别的数据进行处理，写入csv文件

总结

1. 前言

扫描件一直受大众青睐，任何纸质资料在扫描之后进行存档，想使用时手机就能打开，省心省力。但是扫描件的优点也恰恰造成了它的一个缺点，因为是通过电子设备扫描，所以出来的是图像，如果想要处理文件上的内容，直接操作是无法实现的。

那要是想要引用其中的内容怎么办呢？别担心，Python帮你解决问题。

2. 需求描述

现有一份pdf扫描件，我们想把其中的文字提取出来并且分三列写入csv文档，内容及效果如下：

pdfexample

csvexample

3. 开始动手动脑

pdf扫描件是文档扫描成电脑图片格式后转化成的，提取其中的文字就相当于识别图片内的文字。所以，我们的工作就是将pdf转成图片，再用ocr工具提取图片中的文字。

3.1 安装相关第三方包

pip3 install pdf2image pytesseract

登录后复制

3.2 导入需要用到的第三方库

import os #处理文件from pdf2image import convert_from_path# pdf转图片import pytesseract# 识别图片文字import csv# 处理csv文件

登录后复制

3.3 读取pdf文件，并识别内容

tess_ocr(pdf_path, lang, first_page, last_page)

将pdf文件拆分成图片，并提取文字写入文本文件

pdf_path：pdf文件的存储路径 image：代表PDF文档每页的PIL图像列表 first_page ：允许设置由pdftoppm处理的第一个页面； last_page：允许设置最后一页由pdftoppm处理 fmt：允许指定输出格式。目前支持的格式是jpg、png和ppm； output_folder：图片保存路径

def tess_ocr(pdf_path, lang,first_page,last_page):# 创建一个和pdf同名的文件夹 images = convert_from_path(pdf_path, fmt='png',first_page=first_page,last_page=last_page,output_folder=imagefolder,userpw='site')# 转成图片text = ''for img in images: text += pytesseract.image_to_string(img, lang=lang) # 识别图片文字 with open(r'exampledata.txt' 'a', encoding='utf-8') as f: #写入txt文件 f.write(text)

登录后复制

运行结果

生成一个同名的文件夹存放拆分的图片，接着提取图片文字写入data.txt

image-20211215212147760

运行问题

“ 问题抛出1：

pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH? ”

解决措施：下载 poppler。

>1 方法一：设置环境变量 poppler/bin；

>2 方法二：

参数指定绝对路径：

images = convert_from_path(pdf_path=pdf_file_path, poppler_path=r’poppler中bin文件所在地址’)

“ 问题抛出2：

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information. ”

解决措施：额外下载安装tesseract-ocr并配置环境变量。

3.4 对识别的数据进行处理，写入csv文件

modification(infile, outfile)

清洗生成的文本文档

infile:需要进行处理的文件地址 outfile:处理后生成的新文件的地址

def modification(infile, outfile):infp = open(infile, "r",encoding='utf-8')outfp = open(outfile, "w",encoding='utf-8')lines = infp.readlines() #返回列表，包含所有的行。#依次读取每行for li in lines:if li.split(): #str.split(str="", num=string.count(str)),过滤文件中的空行# 根据识别情况对数据进行清洗li = li.replace('[', ' ').replace(']', '')outfp.writelines(li)infp.close()outfp.close()

登录后复制

运行结果

生成一个新的txt文件，新文件删除了data.txt中的空行，将原文件中错误识别的内容替换成正确的。

writercsv(intxt,outcsv)

将文本文件按空格分列写入csv表格

intxt：文本文件地址 outcsv：新生成的csv文件

def writercsv(intxt,outcsv):# 使用newlines=''可保证存储的数据不空行。csvFile = open(outcsv, 'a',newline='', encoding='utf-8') writer = csv.writer(csvFile)csvRow = []f = open(intxt,'r',encoding='utf-8')for line in f:csvRow = line.split() #以空格为分隔符if len(csvRow)>1 and len(csvRow)

运行结果

生成一个三列csv文件，第一列是英文名，第二列是中文名，第三列是所在国家

image-20211215204846623

image-20211215204941725

总结

通过本次学习实现了从扫描件中提取文字、把内容按要求写进不同格式的文档的需求。

最初以为提取pdf的库也适用于扫描件，尝试了Pdfplumber库和PyPDF2库。

实践发现Pdfplumber只能识别扫描件pdf中的水印，不适用于扫描件的pdf，而PyPDF2库运行报错：NotImplementedError: only algorithm code 1 and 2 are supported。

原因是这个被加密的pdf可能是从高版本的acrobot中来的，所以对应的加密算法代号为‘4’，然而，现有的pypdf2模块并只支持加密算法代号为‘1’或者‘2’的pdf加密文件。

登录后复制

以上就是Python 实现 PD 文字识别、提取并写入 CSV 文件脚本分享的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2235196.html

0 0

关于作者

PHP中文网签约作者

262.6K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

python web.py怎么启动https端口

上一篇 2025年2月26日 17:55:02

Django：前端和后端开发都能搞定的神奇框架！

下一篇 2025年2月26日 06:18:14

python web.py怎么启动https端口

python web.py启动https端口 web.py启动https端口需要ssl证书，如果没有ssl证书，那么可以通过如下方式生成。 openssl genrsa -des3 -out server.key 1024o…

PHP中文网
编程技术 2025年2月26日
2000
如何使用Python对网易云歌单数据分析及可视化

项目概述 1.1项目来源网易云音乐是一款由网易开发的音乐产品，是网易杭州研究院的成果，依托专业音乐人、dj、好友推荐及社交功能，在线音乐服务主打歌单、社交、大牌推荐和音乐指纹，以歌单、dj节目、社交、地理位置为核心要素，主打发现和分享。…

PHP中文网
2025年2月26日 • 编程技术
2000
编程技术

python排序算法之选择排序怎么实现

一、前言初级排序算法是指几种较为基础且容易理解的排序算法。初级排序算法包括插入排序、选择排序和冒泡排序3种。虽然它们的效率相对于高级排序算法偏低，但是在了解初级排序算法之后，再去学习相对复杂的高级排序算法会容易许多。二、描述选择排序表…

PHP中文网
2025年2月26日
2000
怎么使用Python中的正则表达式处理html文件

使用python中的正则表达式处理html文件 finditer方法是一种全匹配方法。已经使用过findall方法的话，该方法将返回由多个匹配字符串组成的列表。对于多个匹配项，finditer会按顺序返回一个迭代器，每个迭代生成一个匹配对象…

PHP中文网
编程技术 2025年2月26日
2000
Python中的self怎么使用

在介绍python的self用法之前，先来介绍下python中的类和实例我们知道，面向对象最重要的概念就是类（class）和实例（instance），类是抽象的模板，比如学生这个抽象的事物，可以用一个student类来表示。而实例是根据类创…

PHP中文网
编程技术 2025年2月26日
2000
Python类的基本使用方法有哪些

1、面向对象类（class）：是一种用来描述具有相同属性和方法的对象的集合。类变量：类变量在整个实例化的对象中是公用的。一般定义在类中且在函数体之外。方法：类中的函数数据成员：类变量或者实例变量用于处理类及其实例对象的相关的数据。 …

PHP中文网
编程技术 2025年2月26日
2000
Python的五个具有钱途和潜力的岗位

从2015开始国内就开始慢慢接触Python了，从16年开始Python就已经在国内的热度更高了，目前也可以算的上”全民Python”了。众所周知小学生的教材里面已经有Python了，国家二级计算机证也需要学习Py…

PHP中文网
2025年2月26日 • 编程技术
2000
Python怎么实现发送声情并茂的邮件内容和附件

1.准备工作在开始之前，我们需要准备一些东西。首先，我们需要安装python。python可以从官方网站下载。其次，我们需要安装smtplib库。这可以通过以下命令在终端中完成： pip install smtplib 登录后复制 2.…

PHP中文网
2025年2月26日 • 编程技术
2000
Python之Pygame的Event事件模块怎么使用

Pygame的Event事件模块事件（event）是 pygame 的重要模块之一，它是构建整个游戏程序的核心，比如常用的鼠标点击、键盘敲击、游戏窗口移动、调整窗口大小、触发特定的情节、退出游戏等，这些都可以看做是“事件”。事件类型 …

PHP中文网
编程技术 2025年2月26日
2000
使用Python进行交易策略和投资组合分析

我们将在本文中衡量交易策略的表现。并将开发一个简单的动量交易策略，它将使用四种资产类别:债券、股票和房地产。这些资产类别的相关性很低，这使得它们成为了极佳的风险平衡选择。动量交易策略这个策略是基于动量的的，因为交易者和投资者早就意识到动…

PHP中文网
2025年2月26日 • 编程技术
2000

发表回复

登录后才能评论

Python 实现 PD 文字识别、提取并写入 CSV 文件脚本分享

1. 前言

2. 需求描述

3. 开始动手动脑

3.1 安装相关第三方包

3.2 导入需要用到的第三方库

3.3 读取pdf文件，并识别内容

运行结果

运行问题

3.4 对识别的数据进行处理，写入csv文件

运行结果

运行结果

总结

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐