利用python将pdf输出为txt的实例

下面为大家分享一篇利用python将pdf输出为txt的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧

一个礼拜前一个同学问我这个事情,由于之前在参加华为的比赛,所以赛后看了一下,据说需要用到pdfminer这个包。于是安装了一下,安装过程很简单:

sudo pip install pdfminer;

登录后复制

中间也没有任何的报错。至于如何调用,本人也没有很好的研究过pdfminer这个库,于是开始了百度……

官方文档:http://www.unixuser.org/~euske/python/pdfminer/index.html

立即学习“Python免费学习笔记(深入)”;

完全使用python编写。 (适用于2.4或更新版本)

解析,分析,并转换成PDF文档。

PDF-1.7规范的支持。 (几乎)

中日韩语言和垂直书写脚本支持。

各种字体类型(Type1、TrueType、Type3,和CID)的支持。

基本加密(RC4)的支持。

PDF与HTML转换。

纲要(TOC)的提取。

标签内容提取。

通过分组文本块重建原始的布局。

一些基本的类

PDFParser:从一个文件中获取数据

PDFDocument:保存获取的数据,和PDFParser是相互关联的

PDFPageInterpreter处理页面内容

PDFDevice将其翻译成你需要的格式

PDFResourceManager用于存储共享资源,如字体或图像。

利用python将pdf输出为txt的实例

简单的实现

读取test.pdf输出为output.txt:

# -*- coding: utf-8 -*-  from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import PDFPage from pdfminer.pdfpage import PDFTextExtractionNotAllowed from pdfminer.pdfinterp import PDFResourceManager from pdfminer.pdfinterp import PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice from pdfminer.layout import * from pdfminer.converter import PDFPageAggregator import os fp = open('test.pdf', 'rb') #来创建一个pdf文档分析器 parser = PDFParser(fp) #创建一个PDF文档对象存储文档结构 document = PDFDocument(parser) # 检查文件是否允许文本提取 if not document.is_extractable:  raise PDFTextExtractionNotAllowed else:  # 创建一个PDF资源管理器对象来存储共赏资源  rsrcmgr=PDFResourceManager()  # 设定参数进行分析  laparams=LAParams()  # 创建一个PDF设备对象  # device=PDFDevice(rsrcmgr)  device=PDFPageAggregator(rsrcmgr,laparams=laparams)  # 创建一个PDF解释器对象  interpreter=PDFPageInterpreter(rsrcmgr,device)  # 处理每一页  for page in PDFPage.create_pages(document):   interpreter.process_page(page)   # 接受该页面的LTPage对象   layout=device.get_result()   for x in layout:    if(isinstance(x,LTTextBoxHorizontal)):     with open('output.txt','a') as f:      f.write(x.get_text().encode('utf-8')+'')

登录后复制

相关推荐:

Python 将pdf转成图片的方法

以上就是利用python将pdf输出为txt的实例的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2263463.html

(0)
上一篇 2025年2月27日 07:37:05
下一篇 2025年2月21日 10:34:18

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Python 循环语句之 while,for语句详解

    下面为大家分享一篇python 循环语句之 while,for语句详解,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧 Python中有两种循环,分别为:for循环和while循环。 for循环可以遍历任何序列的项目,如一个列表或者…

    编程技术 2025年2月27日
    200
  • Python 3.6 读取并操作文件内容

    下面为大家分享一篇python 3.6 读取并操作文件内容的实例,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧 所使用python环境为最新的3.6版本 Python中几种对文件的操作方法: 将A文件复制到B文件中去(保持原来格式…

    编程技术 2025年2月27日
    200
  • Python File readlines() 使用方法

    readlines() 方法用于读取所有行(直到结束符 eof)并返回列表,该列表可以由 python 的 for… in … 结构进行处理,如果碰到结束符 eof 则返回空字符串,需要的朋友可以参考下 概述 rea…

    2025年2月27日
    200
  • 图解Python变量与赋值

    这篇文章主要介绍了图解python变量与赋值,现在分享给大家,也给大家做个参考。一起过来看看吧 Python是一门独特的语言,与C语言有很大区别,初学Python很多萌新表示对变量与赋值不理解,这里就大家介绍一下,需要的朋友可以参考下 Py…

    2025年2月27日 编程技术
    200
  • Python实现简单http服务器

    这篇文章主要为大家详细介绍了python实现一个简单http服务器,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 写一个python脚本,实现简单的http服务器功能: 1.浏览器中输入网站地址:172.20.52.163:20014 …

    2025年2月27日
    200
  • python去除扩展名

    下面为大家分享一篇python去除扩展名的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧 获取不带扩展名的文件的名称: import osprintos.path.splitext(“path_to_file”)[0] f…

    编程技术 2025年2月27日
    200
  • python 中的int()函数怎么用

    int() 函数用于将一个字符串会数字转换为整型。接下来通过本文给大家介绍python 中的int()函数的相关知识,感兴趣的朋友一起看看吧 int(x, [base]) 功能: 函数的作用是将一个数字或base类型的字符串转换成整数。 函…

    编程技术 2025年2月27日
    200
  • Python 列表(List)操作方法

    这篇文章主要介绍了python中列表(list)的详解操作方法,包含创建、访问、更新、删除、其它操作等,需要的朋友可以参考下 列表是Python中最基本的数据结构,列表是最常用的Python数据类型,列表的数据项不需要具有相同的类型。列表中…

    编程技术 2025年2月27日
    200
  • Python写的贪吃蛇游戏例子_python

    这篇文章主要介绍了python写的贪吃蛇游戏例子,练手作品,又好玩又可以学到东西,需要的朋友可以参考下 第一次用Python写这种比较实用且好玩的东西,权当练手吧 游戏说明: * P键控制“暂停/开始”* 方向键控制贪吃蛇的方向 源代码如下…

    编程技术 2025年2月27日
    200
  • python删除不需要的python文件方法

    下面为大家分享一篇python删除不需要的python文件方法,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧 最近在看廖老师的python教程,在看到关于文件的操作时,廖老师的其中一段关于查找电脑里的python文件,突然想把之前…

    编程技术 2025年2月27日
    200

发表回复

登录后才能评论