Go语言文本去重：如何优化百万级文本文件的去重速度？

PHP中文网 • 2025年3月6日 00:52:04 • 编程技术 • 阅读 2

Go语言百万级文本去重性能优化

本文分析并优化一个go语言文本去重程序，该程序处理约75万行文本文件，耗时约17秒。我们将通过改进代码，提升其处理效率。

原始代码（略，原文已给出）的主要性能瓶颈在于：

字符串拼接: 使用var result string进行字符串拼接，效率低下。map容量未预分配: var set = make(map[string]bool, 0)未预分配map容量，导致频繁扩容。map值类型: 使用bool作为map的值类型，略微浪费内存。

优化后的代码：

package distinctimport (    "bufio"    "fmt"    "io"    "os"    "strings")//distinctfile 为指定文件去重func distinctfile(file string, output string) {    // 读取需要去重的文件内容    f, err := os.Open(file)    if err != nil {        fmt.Println("Open file error:", err)        return    }    defer f.Close() // 简化defer语句    reader := bufio.NewReader(f)    // 去重map，预分配容量，使用struct{}作为值类型    set := make(map[string]struct{}, 750000) // 预分配与文件行数大致相同的容量    var result strings.Builder    for {        line, isPrefix, err := reader.ReadLine()        if err == io.EOF {            break // 更清晰的EOF处理        }        if err != nil {            fmt.Println("Readline error:", err)            return        }        if !isPrefix {            lineStr := string(line)            if _, ok := set[lineStr]; !ok { // 更简洁的判断key是否存在                result.WriteString(lineStr + "")                set[lineStr] = struct{}{}            }        }    }    // 写入另一个文件    nf, err := os.Create(output)    if err != nil {        fmt.Println("Create file error:", err)        return    }    defer nf.Close()    _, err = io.Copy(nf, strings.NewReader(result.String())) // 使用result.String()    if err != nil {        fmt.Println("Copy error:", err)        return    }}

登录后复制

改进说明：

使用strings.Builder代替字符串拼接，显著提高效率。预分配map容量为750000，接近文件行数，减少扩容操作。使用struct{}作为map的值类型，节省内存。使用更清晰的错误处理和defer语句。使用result.String()获取最终结果字符串。

进一步优化建议：

立即学习“go语言免费学习笔记（深入）”；

并发处理: 将文件分割成多个部分，使用goroutine并发处理，再合并结果。这对于更大规模的文件非常有效。更高效的数据结构: 对于极大规模的数据，可以考虑使用bloom filter等概率数据结构来提高查找效率，虽然会有一定的误判率，但可以大幅提升速度。内存映射: 使用mmap将文件映射到内存，减少IO操作。

通过以上优化，可以显著提升Go语言文本去重程序的性能。选择哪种优化策略取决于具体的需求和数据规模。对于百万级数据，并发处理和预分配map容量是比较有效的优化手段。

以上就是Go语言文本去重：如何优化百万级文本文件的去重速度？的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2538329.html

go语言

0 0

关于作者

PHP中文网签约作者

366.9K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

Go语言中结构体方法的接收者(*Encrypt)究竟有何作用？

上一篇 2025年3月6日 00:52:02

如何在FastAPI中实现请求的性能监控和优化

下一篇 2025年2月26日 14:09:30

Go语言中结构体方法的接收者(*Encrypt)究竟有何作用？

go语言中结构体方法的定义 go语言并非面向对象语言，但它支持结构体方法，这在一定程度上实现了类似面向对象编程中的类方法的功能。本文将解释在go语言中，函数名前加括号 (*encrypt) 的含义及作用，并结合代码示例进行说明。代码中给出…

PHP中文网
编程技术 2025年3月6日
2000
编程技术

Go语言Websocket库nhooyr.io/websocket报错“note module requires Go 1.13”怎么办？

nhooyr.io/websocket库Go版本兼容性问题及解决方法在使用Go语言的nhooyr.io/websocket库开发WebSocket应用时，您可能会遇到“note module requires Go 1.13”的错误提示。…

PHP中文网
2025年3月6日
2000
编程技术

Go Gin框架：如何在一个路由上同时处理GET和POST请求？

Go语言Gin框架Web开发中，经常需要同一个路由处理多种HTTP方法请求，例如同时处理GET和POST请求。本文介绍如何在Gin路由上同时处理GET和POST请求，并提供其他HTTP方法处理方案。 Gin框架常用的路由定义方法是gin.G…

PHP中文网
2025年3月6日
2000
编程技术

Go语言版本过低导致nhooyr.io/websocket库报错怎么办？

解决nhooyr.io/websocket库版本冲突问题在使用Go语言的nhooyr.io/websocket库进行WebSocket开发时，您可能会遇到“module requires Go 1.13”之类的错误提示。这通常是因为您的…

PHP中文网
2025年3月6日
2000
编程技术

Gin框架中如何优雅地处理同一个路由的GET和POST请求？

在Go语言的Gin框架中，高效处理同一路由的GET和POST请求至关重要。本文将介绍几种方法，并推荐最佳实践。直接分别使用.Get和.Post方法注册处理函数是最简单的方案： router.GET(“/myroute”, func(c *…

PHP中文网
2025年3月6日
2000
编程技术

Go WebSocket程序报错：如何解决第三方库兼容性问题？

Go WebSocket程序报错：第三方库兼容性问题排查及解决在使用nhooyr.id/websocket库开发go websocket程序时，开发者可能会遇到运行时错误，错误信息通常指向项目中引用的第三方库，而非nhooyr.id/we…

PHP中文网
2025年3月6日
2000
编程技术

Go语言文本去重耗时17秒，如何优化才能提升性能？

Go语言文本去重性能优化：从17秒到飞速提升本文针对一个Go语言文本去重程序进行性能分析和优化。该程序处理约75万行文本，初始去重耗时17秒，我们将通过改进代码，显著提升其效率。原始代码使用map[string]bool存储去重结果，并…

PHP中文网
2025年3月6日
2000
编程技术

Go版本过低导致nhooyr.io/websocket库报错怎么办？

解决Go版本过低导致nhooyr.io/websocket库报错的问题在使用Go语言的nhooyr.io/websocket库进行WebSocket开发时，您可能会遇到Go版本不兼容的错误，例如提示需要Go 1.13或更高版本。该错误通…

PHP中文网
2025年3月6日
2000
编程技术

Go语言编译时如何高效检查结构体是否完整实现了接口？

Go语言编译时检查结构体接口实现的技巧 Go语言提供了一种巧妙的机制，可以在编译阶段高效地检查结构体是否完整实现了接口。本文将深入分析var _ Error = (*_Error)(nil) 这种代码模式的原理和作用。这段代码的核心在于利…

PHP中文网
2025年3月6日
2000
编程技术

Go语言中结构体方法的接收者(*Encrypt) 究竟是什么意思？

Go语言结构体方法及接收者(*Encrypt) 的深入解读 Go语言虽然没有传统的类和继承机制，但它巧妙地利用结构体和方法模拟了面向对象编程中的类和方法。本文将详细解释Go语言中结构体方法定义中 (*Encrypt) 的含义和作用，并辅以代…

PHP中文网
2025年3月6日
2000