广告国内BGP机房32G内存299元网站收录排名问题解决【超牛】搜外友链平台站长在线扒站工具【免费】【免费】站长开发工具箱【推荐】站长自动外链工具广告位联系QQ：253000106 独立服务器100M/不限/免备 2核2G服务器新用户低至68元/年虚拟资源平台,轻松变现 10000来路IP只需8元站群系统程序-专注SEO站群黑帽SEO论坛_黑帽聚集地企业HTTP代理IP服务提供商软文推广，在线获客【定制】站群服务器99元起 SEO免费工具分享外推代发包收录【国内国际】短信推广，免费测试实力产品收量外链代发 5分一条快速排名 █一解决“收录、排名”问题一█ ●●●优质搜狗泛收录域名●●● AI数字人直播系统源码百度SEO排名7-15天上首页

Python读大数据txt

PHP中文网 • 2025年3月5日 23:18:28 • 编程技术 • 阅读 2

如果直接对大文件对象调用 read() 方法，会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。

在用Python读一个两个多G的txt文本时，天真的直接用readlines方法，结果一运行内存就崩了。

还好同事点拨了下，用yield方法，测试了下果然毫无压力。咎其原因，原来是readlines是把文本内容全部放于内存中，而yield则是类似于生成器。

代码如下：

def open_txt(file_name):  with open(file_name,'r+') as f:    while True:      line = f.readline()      if not line:        return      yield line.strip()

登录后复制

调用实例：

立即学习“Python免费学习笔记（深入）”；

for text in open_txt('aa.txt'):  print text

登录后复制

例二：

目标 txt 文件大概有6G，想取出前面1000条数据保存于一个新的 txt 文件中做余下的操作，虽然不知道这样做有没有必要但还是先小数据量测试一下吧。参考这个帖子：我想把一个list列表保存到一个Txt文档，该怎么保存，自己写了一个简单的小程序。
====================================================

import datetimeimport picklestart = datetime.datetime.now()print "start--%s" % (start)fileHandle = open ( 'train.txt' )file2 = open('s_train.txt','w') i = 1while ( i ====================================================
pickle 这个库大家说的很多，官网看看，后面可以好好学习一下。

登录后复制

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至253000106@qq.com举报，一经查实，本站将立刻删除。

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2536300.html

Python python读取大文件大数据txt

赞 (0)

0 0

关于作者

PHP中文网签约作者

366.2K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

解决Python出现_warn_unsafe_extraction问题的方法

上一篇 2025年3月5日 23:18:23

php7.2和7.4哪个稳定

下一篇 2025年2月23日 06:33:48

编程技术

解决Python出现_warn_unsafe_extraction问题的方法

在python项目中运行出现了“attributeerror: resourcemanager instance has no attribute ‘_warn_unsafe_extraction’”问题，研究了一下，发现是se…

PHP中文网
2025年3月5日
2000
python Django框架实现自定义表单提交

除了使用django内置表单，有时往往我们需要自定义表单。对于自定义表单post方式提交往往会带来由csrf(跨站请求伪造)产生的错误“csrf verification failed. request aborted.&#82…

PHP中文网
编程技术 2025年3月5日
2000
python Django批量导入数据

前言：这期间有研究了Django网页制作过程中,如何将数据批量导入到数据库中. 这个过程真的是惨不忍睹,犯了很多的低级错误,这会在正文中说到的.再者导入数据用的是py脚本,脚本内容参考至自强学堂–中级教程–数据导入…

PHP中文网
编程技术 2025年3月5日
2000
python Django批量导入不重复数据

本文为大家分享了python django批量导入不重复数据的实现代码，供大家参考，具体内容如下程序如下： #coding:utf-8 import os os.environ.setdefault(“DJANGO_SETTINGS_MO…

PHP中文网
编程技术 2025年3月5日
2000
用Python实现斐波那契（Fibonacci）函数

fibonacci斐波那契数列，很简单，就是一个递归嘛，学任何编程语言可能都会做一下这个。最近在玩Python，在粗略的看了一下Learning Python和Core Python之后，偶然发现网上有个帖子Python程序员的进化写的很…

PHP中文网
编程技术 2025年3月5日
2000
使用Nginx+uWsgi实现Python的Django框架站点动静分离

由于： Django处理静态文件不太友好；以后有可能需要处理php或者其他资源的请求；所以考虑结合nginx，使用nignx做它擅长的路由分发功能；同时做动静分离，即Http请求统一由Nginx进行分发，静态文件由Nginx处理，并返回给…

PHP中文网
编程技术 2025年3月5日
2000
编程技术

详解Python使用simplejson模块解析JSON的方法

1，Json模块介绍JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language, Stand…

PHP中文网
2025年3月5日
2000
Python中的条件判断语句与循环语句用法小结

if语句 >>通用格式if语句一般形式如下: if : elif : else: 登录后复制另外需要注意的是，Python中是没有switch/case语句的 while循环 while语句是Python语言中最通用的迭代结构…

PHP中文网
编程技术 2025年3月5日
2000
举例讲解Python中的迭代器、生成器与列表解析用法

迭代器:初探上一章曾经提到过，其实for循环是可用于任何可迭代的对象上的。实际上，对Python中所有会从左至右扫描对象的迭代工具而言都是如此，这些迭代工具包括了for循环、列表解析、in成员关系测试以及map内置函数等。 “可迭代对象”…

PHP中文网
编程技术 2025年3月5日
2000
深入学习python的yield和generator

前言没有用过的东西，没有深刻理解的东西很难说自己会，而且被别人一问必然破绽百出。虽然之前有接触过python协程的概念，但是只是走马观花，这两天的一次交谈中，别人问到了协程，顿时语塞，死活想不起来曾经看过的东西，之后突然想到了yield，但…

PHP中文网
编程技术 2025年3月5日
2000

发表回复

登录后才能评论